# AutoResearchClaw 全流程实跑审计（2026-05-03）

> 标记：AUTORESEARCHCLAW_FULL_RUN_AUDIT_20260503

## 先给结论

这次不是只做小样例，也不是只看 README。我已经把 AutoResearchClaw 按一个模糊的 RL 研究想法从前期选题、文献、方案、实验设计、代码生成、实验运行、论文写作、审稿、修改、质量检查、导出和引用核查一路跑到了最后阶段。

它确实能生成一个完整论文包：有代码、有实验输出、有论文草稿、有修改稿、有最终 Markdown、有 LaTeX、有 PDF、有参考文献和引用核查报告。

但这次结果不能算“自动做出一篇合格论文”。更准确的判断是：AutoResearchClaw 能把研究流程自动推到一个完整包，但它会在实验明显不够成立的时候继续往后写论文。最终产物更像一个可审查的研究草稿包，而不是可以直接投稿的论文。

## 我给它的任务是什么

我没有给它 SPHERE 代码，也没有给它 SPHERE 的完整知识。任务只给了一个模糊研究方向：

> 是否可以在语言模型强化学习里，不只依赖损失里的 KL 惩罚，而是在优化器真正更新参数之后，再检查实际策略移动是否过大，并据此接受、缩小或拒绝更新？

这符合我们之前说的检验标准：不是把已有 SPHERE 直接喂给它，而是看它能不能从模糊想法出发，自己完成研究链条。

任务说明文件：`/home/leadtek/Downloads/projects/autoresearch-runners/full-run-sphere-like-20260503/task-brief.md`

## 这次跑到了哪里

- 最终检查点：Stage 23，CITATION_VERIFY
- 最终状态：done
- 最终运行编号：`rc-20260503-141647-8a762c`
- 最终论文包：`/home/leadtek/Downloads/projects/autoresearch-runners/full-run-sphere-like-20260503/full-arc-run/deliverables`
- 最终 PDF：`/home/leadtek/Downloads/projects/autoresearch-runners/full-run-sphere-like-20260503/full-arc-run/stage-22/paper.pdf`
- 最终 Markdown：`/home/leadtek/Downloads/projects/autoresearch-runners/full-run-sphere-like-20260503/full-arc-run/stage-22/paper_final.md`
- 引用核查版 Markdown：`/home/leadtek/Downloads/projects/autoresearch-runners/full-run-sphere-like-20260503/full-arc-run/stage-23/paper_final_verified.md`

说明：这不是一次完全无中断的顺滑运行。中途 Stage 9 有接口解析失败，Stage 10 代码生成卡住过，Stage 13 第一轮迭代也失败过。我做了断点续跑和有边界的配置调整，最后完成了全流程。这正是全跑通的价值：能看到框架在真实运行里会怎么失败、怎么续跑、怎么在证据不足时处理。

## 它生成了什么

最终交付目录里有：

- `paper_final.md`：最终论文正文；
- `paper.tex`：LaTeX 源文件；
- `paper.pdf`：编译出来的 PDF；
- `references.bib`：参考文献；
- `code/`：生成的实验代码；
- `verification_report.json`：引用核查报告；
- `sanitization_report.json`：数字和条件表的检查记录；
- `charts/`：生成的图。

从“有没有把论文包做出来”这个角度，它是成功的。

## 为什么我不认为这篇论文合格

### 1. 实验一开始就是诊断级别，不是论文级别

Stage 12 的初始实验很快就结束，日志显示它更像一个很小的调试实验。很多 `primary_metric` 都是 `0.0`，一共有 76 个包含 `primary_metric` 的指标键为 0。

关键问题不是分数低，而是不同方法没有被证明真的产生了不同机制。框架后面自己也发现：多个条件的输出高度相同，控制器可能没有真正起作用。

### 2. 决策阶段本来应该停下来修实验，但最后被迫继续

Stage 15 第一轮决策明确说应该继续修实验，而不是写论文。它给出的理由包括：

- 每个条件只有一个随机种子；
- 主指标退化，所有条件都是 `0.0`；
- 很多方法输出相同，说明不同控制方法可能没有真正生效；
- 缺少关键机制日志，比如候选更新后的 KL、接受后的 KL、拒绝次数、缩小系数、最坏切片 KL 等；
- 当前运行更像 4 秒级别的小调试，而不是正式强化学习实验。

后来它达到最大修正次数后，写下质量警告并继续往后写论文：

> Max pivots (2) reached.
Quality gate failed: All 8 conditions have identical primary_metric (0.0) — condition implementations are likely broken
Paper will be written but may have significant issues.

这说明 AutoResearchClaw 的默认策略更像“尽量产出一篇论文包”，不是“证据不够就硬停”。

### 3. 论文质量检查只是边缘通过

Stage 20 的质量报告给了 5.0 / 10。它的结论是：

> Marginal pass above threshold: the paper is substantially improved in honesty and framing, but remains a diagnostic/proposal paper rather than a convincing empirical contribution. It clearly acknowledges that the current run does not establish improvement over fixed-reference KL PPO, but the experimental evidence is too incomplete to support strong claims about STEP effectiveness.

这不是强通过，而是承认这更像诊断/方案论文，不是有说服力的实证贡献。

### 4. PDF 审稿给的是拒稿

Stage 22 的 PDF 审稿分数：

- soundness：3
- contribution：3
- reproducibility：2
- overall：3
- decision：reject

审稿意见的核心是：想法有意义，但实验太弱，方法细节不够，不能支撑投稿级论文。

### 5. 最终 PDF 也不符合常见投稿规格

编译检查显示：

- PDF 页数：17 页；
- 页数限制：10 页；
- 未引用图标签数量：8；
- 主要警告：Page count 17 exceeds limit 10; 8 defined but unreferenced figure(s): fig:figure_3_ablation_analysis, fig:figure_4_experiment_comparison, fig:figure_5_metric_trajectory

所以它不只是科学证据弱，成品格式也还没有达到可投稿状态。

### 6. 引用核查不是零问题

Stage 23 引用核查结果：

- 总引用：31
- 已核实：30
- 被判为幻觉或无法核实：1
- 完整性分数：0.968

有些引用虽然能查到，但相关性很低。低相关引用例子包括：

- `hullermeier2021aleatoric`：Aleatoric and epistemic uncertainty in machine learning: an introduction to concepts and methods，相关性 0.05
- `gawlikowski2023survey`：A survey of uncertainty in deep neural networks，相关性 0.05
- `vouros2022explainable`：Explainable Deep Reinforcement Learning: State of the Art and Challenges，相关性 0.05
- `shayegani2023survey`：Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks，相关性 0.05
- `ali2023survey`：A Survey on Attacks and Their Countermeasures in Deep Learning: Applications in Deep Neural Networks, Federated, Transfer, and Deep Reinforcement Learning，相关性 0.05
- `he2023survey`：A Survey on Uncertainty Quantification Methods for Deep Learning，相关性 0.05
- `zhang2021survey`：A Survey On Universal Adversarial Attack，相关性 0.02

这说明它会倾向于把“能查到的论文”放进参考文献，但不一定都是最贴近论文核心问题的文献。

## 这次实跑说明 AutoResearchClaw 有什么价值

我认为它值得借鉴，而且不是浅层借鉴。它真正有价值的地方是：

1. **它把完整研究流程拆成了可执行阶段。** 不是只写“先调研再实验再写作”，而是真的有文献搜索、问题提出、实验设计、代码生成、实验运行、分析、决策、论文写作、审稿、修订、导出和引用核查。
2. **它会留下大量中间证据。** 每个阶段都有目录和产物，方便事后追责。
3. **它支持断点续跑。** 这次如果不能断点续跑，全流程会很难完成。
4. **它能把论文包打出来。** 对快速原型、演示、框架比较很有用。
5. **它暴露了自动研究框架最容易出问题的地方。** 不是前面想法阶段，而是代码是否真的实现了设想、实验是否真的有效、论文是否把弱证据包装成强结论。

## 这次实跑也说明它不能直接替代我们的流程

如果直接把 AutoResearchClaw 当成“自动出论文机器”，风险很大：

1. **它会在实验不成立时继续写论文。** 这对严肃科研是危险的。
2. **它的质量门槛不够硬。** 它知道有问题，但达到最大修正次数后会继续推进。
3. **代码生成阶段很重，也可能卡住。** Stage 10 一次卡了很久，需要人工判断是否杀掉和续跑。
4. **实验规模可能被压得过小。** 这次实验更像调试，不是正式训练。
5. **写作会把弱结果组织成论文形态。** 它会努力变得诚实，但仍然容易显得像论文，实际证据不够。

## 对我们选型的直接结论

我不建议把 AutoResearchClaw 简单当作一个 skill 塞进 myagent，也不建议完全重写一套然后无视它。

更合适的做法是：

1. **把 AutoResearchClaw 当成独立外部框架保留。** 它适合做完整流程实跑、框架对照、自动研究原型。
2. **我们的 research workflow 做上层总控。** 它负责定义阶段合同、人类什么时候看、智能体什么时候自审、什么时候必须让别的智能体复核、什么时候硬停。
3. **借鉴它的阶段拆分和产物目录。** 尤其是从想法到论文包的完整链条、断点续跑、阶段产物、引用核查、导出包。
4. **补上更硬的实验门槛。** 如果实验退化、方法没区别、关键机制日志缺失，应该停在实验阶段，不允许继续写成投稿论文。
5. **继续细粒度比较 ARIS。** AutoResearchClaw 更像完整论文流水线；ARIS 可能更新更勤快、和 Claude Code 运行模式更近。最终选择应该看：谁更适合长期改造、谁的代码更容易接入我们的审核和人类干预机制。

## 对我们自己的流程要新增的一条硬规则

以后科研流程不能只问“有没有产出论文”。还要问：

- 实验是不是足够证明主张？
- 不同方法是不是确实走了不同代码路径？
- 关键机制日志有没有记录？
- 自审和互审有没有把问题拦住？
- 如果证据不够，流程是不是硬停，而不是继续包装成论文？

这次 AutoResearchClaw 的最大教训就是：**自动研究框架最危险的不是写不出论文，而是在证据不够时仍然能写出一篇像论文的东西。**

## 可复查路径

- 工作目录：`/home/leadtek/Downloads/projects/autoresearch-runners/full-run-sphere-like-20260503`
- 配置文件：`/home/leadtek/Downloads/projects/autoresearch-runners/full-run-sphere-like-20260503/config.arc.yaml`
- 运行输出：`/home/leadtek/Downloads/projects/autoresearch-runners/full-run-sphere-like-20260503/full-arc-run`
- 质量警告：`/home/leadtek/Downloads/projects/autoresearch-runners/full-run-sphere-like-20260503/full-arc-run/quality_warning.txt`
- 第一轮研究决策：`/home/leadtek/Downloads/projects/autoresearch-runners/full-run-sphere-like-20260503/full-arc-run/stage-15_v1/decision.md`
- 质量报告：`/home/leadtek/Downloads/projects/autoresearch-runners/full-run-sphere-like-20260503/full-arc-run/stage-20/quality_report.json`
- PDF 审稿：`/home/leadtek/Downloads/projects/autoresearch-runners/full-run-sphere-like-20260503/full-arc-run/stage-22/pdf_review.json`
- 编译质量：`/home/leadtek/Downloads/projects/autoresearch-runners/full-run-sphere-like-20260503/full-arc-run/stage-22/compilation_quality.json`
- 引用核查：`/home/leadtek/Downloads/projects/autoresearch-runners/full-run-sphere-like-20260503/full-arc-run/stage-23/verification_report.json`
- 最终 PDF：`/home/leadtek/Downloads/projects/autoresearch-runners/full-run-sphere-like-20260503/full-arc-run/stage-22/paper.pdf`