4.8 闭环精修与收口

本节目标

用闭环纠错 + 带反馈重试把整步可靠性推到 ≥98%（来源是重试，不是单次），自主走完一整局，并产出求职资产。本节产出即足够求职。

产出物

重试/闭环硬化；失败检测器加固（漏检率是隐藏天花板）。
整局自主对弈视频（最值钱）。
可靠性量化最终化：单步 p / 重试后整步可靠 / 整局完成率 / 纠错恢复率 / 每步耗时，并与 4.5 传统基线对照出曲线。
可复现仓库 + 技术 writeup。

用到的技术栈与学习算法

编排状态机 + 带反馈独立重试：1-(1-p)^k，p≈0.9、k=2~3 → 0.99~0.999。
失败检测器（决定 k 是否够用）。
coarse-to-fine 闭环。
指标/对照脚本（VLA vs 4.5 硬编码基线）。

验收标准

整局自主完成。
整步（含重试）可靠性 ≥98%。
指标曲线齐全（含基线对照）；对弈视频录制完成。

⚠️ 真机与安全

⚠️ 整局自主运行由 Jeff 在场运行/监控。

🎯 里程碑：本节产出 = 求职主线交付物（对应 1-vla-project-soma-chess/最终目标.md 的 M3）。

知识点（开发中记录）

📝 开发时在此记录本节涉及的原理、算法、概念。

操作过程（开发中记录）

🛠️ 开发时在此记录命令、步骤、配置与复现流程。

难点与坑（开发中记录）

⚠️ 开发时在此记录踩坑、失败现象、调参与解决方案。