4.8 闭环精修与收口
本节目标
用闭环纠错 + 带反馈重试把整步可靠性推到 ≥98%(来源是重试,不是单次),自主走完一整局,并产出求职资产。本节产出即足够求职。
产出物
- 重试/闭环硬化;失败检测器加固(漏检率是隐藏天花板)。
- 整局自主对弈视频(最值钱)。
- 可靠性量化最终化:单步 p / 重试后整步可靠 / 整局完成率 / 纠错恢复率 / 每步耗时,并与 4.5 传统基线对照出曲线。
- 可复现仓库 + 技术 writeup。
用到的技术栈与学习算法
- 编排状态机 + 带反馈独立重试:
1-(1-p)^k,p≈0.9、k=2~3 → 0.99~0.999。 - 失败检测器(决定 k 是否够用)。
- coarse-to-fine 闭环。
- 指标/对照脚本(VLA vs 4.5 硬编码基线)。
验收标准
- 整局自主完成。
- 整步(含重试)可靠性 ≥98%。
- 指标曲线齐全(含基线对照);对弈视频录制完成。
⚠️ 真机与安全
⚠️ 整局自主运行由 Jeff 在场运行/监控。
🎯 里程碑:本节产出 = 求职主线交付物(对应
1-vla-project-soma-chess/最终目标.md的 M3)。
知识点(开发中记录)
📝 开发时在此记录本节涉及的原理、算法、概念。
操作过程(开发中记录)
🛠️ 开发时在此记录命令、步骤、配置与复现流程。
难点与坑(开发中记录)
⚠️ 开发时在此记录踩坑、失败现象、调参与解决方案。