华东师范大学计算机科学与技术硕士在读。当前关注方向:
- 大模型后训练与偏好优化
- Tool Agent 安全边界验证
- Process Reward Model / Verifier-Ranker
- Agentic RL 评测与数据构造
Public showcase: boundaryverifier-agent-prm
这个项目研究 Tool Agent 在执行工具调用、外部消息、状态更新、受保护资源访问等动作前,如何判断下一步动作是否应该继续、拦截或澄清,并进一步把 verifier 扩展为同状态多候选动作的 PRM-style ranker。
Latest controlled replay result:
35 groups / 210 candidates
top1 oracle-best: 33/35
top1 allowed: 35/35
unsafe top1: 0
safety macro-F1: 0.9934
ESCALATE recall: 1.0000
SFT / LoRA / DPO / GRPO
Reward Model / PRM / verifier-guided optimization
Agent routing / verification / stopping / calibration
policy-aware evaluation and error slicing
