# TVP 任务四论文分享大纲

主论文：**Transductive Visual Programming: Evolving Tool Libraries from Experience for Spatial Reasoning**  
Venue：ICLR 2026 Poster  
OpenReview：<https://openreview.net/forum?id=XCW1l9qcxy>  
PDF：<https://openreview.net/pdf?id=XCW1l9qcxy>  
本地正文抽取：`/home/leadtek/Downloads/文献调研/讲论文/tmp_deepcheck_20260506/XCW1l9qcxy.txt`

## 0. 分享定位

这次分享不把 TVP 讲成机器人控制论文，也不把它讲成通用 VLM 空间推理论文。更稳的定位是：

> TVP 是一篇关于 **具身场景中 agent 如何从问题求解经验里发现、生成、改善并归并工具型技能** 的论文。它没有直接解决 TongSim 物理交互，但给任务四提供了一个很清晰的闭环学习结构。

和任务四的连接点：

- 任务四：开发针对 TongSim 端物理世界多模态交互的闭环学习算法。
- TVP：在 3D 场景空间推理中，把一次次 visual programs 的成功经验沉淀为 Example Library，再抽象为 Tool Library，并通过维护/合并让工具库持续演化。
- 可借鉴结构：**交互问题 → 程序化推理 → 执行/评价 → 经验库 → 技能抽象 → 技能归并 → 新任务复用**。

## 1. 建议标题

优先标题：

> **从经验到技能库：TVP 如何让具身空间推理 agent 自我演化**

备选标题：

1. **Transductive Visual Programming：从具身场景推理经验中生成和归并工具技能**
2. **面向 TongSim Learning Loop 的经验驱动技能库：读 TVP**
3. **从 visual programs 到 tool library：具身 agent 的技能发现与归并机制**

## 2. 30 分钟部门分享结构

建议按 **24-25 分钟正文 + 5 分钟讨论/Q&A** 准备。不要把每页讲得平均，重点展开 TVP 的闭环机制、技能定义、任务四映射。

时间分配：

| 模块 | 页码 | 时间 | 目的 |
|---|---:|---:|---|
| 选题和任务四对齐 | Slide 1-2 | 4 分钟 | 让听众知道为什么是 TVP，以及它和任务四的关系 |
| 论文问题定义 | Slide 3 | 3 分钟 | 解释为什么固定工具/投机造工具不够 |
| TVP 方法主线 | Slide 4-8 | 11 分钟 | 讲清 Example Library、Tool Library、经验积累、工具抽象、工具归并 |
| 实验和证据 | Slide 9 | 3 分钟 | 只讲支撑主线的结果，不展开全部 benchmark |
| 迁移到任务四 | Slide 10-12 | 6 分钟 | 把论文机制转成 TongSim learning loop 设计启发 |
| CaP-X 对照和总结 | Slide 13-14 | 2 分钟 | 回到合作者给的参考语境，收束观点 |
| Q&A | 备用 | 5 分钟 | 回答 skill/agent/具身/迁移边界问题 |


### Slide 1：为什么选这篇

要讲清楚三点：

- 它是 **ICLR 2026 Poster**，不是旧论文，也不是未中稿工作。
- 正文已经读过，核心机制不是泛泛 skill 叙事，而是 Example Library、Tool Library、tool abstraction、tool maintenance。
- 它讨论的是工具库如何从经验中演化，和我们任务四的闭环学习最相关。

建议表述：

> 我们任务四关心的是 TongSim 中物理世界多模态交互过程里的思考、推理和学习。TVP 不直接做机器人动作控制，但它给出了一个很适合借鉴的机制：agent 先用基础工具解决具体 3D 空间问题，再从成功程序中抽象 reusable tools，并持续维护工具库。

### Slide 2：任务四的需求拆解

从截图里的任务四拆成四个能力要求：

1. **多模态观察**：TongSim 中看到物体、空间关系、交互状态。
2. **问题驱动推理**：交互中出现问题后，需要定位问题、推理原因、生成解决过程。
3. **闭环学习**：一次解决不是终点，经验要进入后续学习。
4. **技能沉淀与归并**：反复出现的推理/检查/操作模式要变成可复用技能，技能库还要避免膨胀。

这页的作用是把部门任务和论文主线先连起来。

### Slide 3：TVP 要解决的问题

TVP 的出发点：3D spatial reasoning 需要精确几何计算，单纯 VLM 很难稳定完成。正文中把 visual programming 定义为把复杂视觉推理分解成离散计算步骤，调用 depth estimator、object detector、geometric function 等工具，再用程序逻辑组合结果。已有方法有两个问题：

- 固定工具集不能适应新问题；
- 先验/投机式 tool induction 没有来自真实求解经验，工具容易看起来有用但实际很少被用。

这页可以强调：

> TVP 反对“先想象一堆工具再求解”，主张“先解决真实问题，再从成功经验中抽象工具”。

这和任务四很贴：TongSim 中真正缺什么技能，应该由交互过程中反复遇到的问题暴露出来，而不是只靠离线拍脑袋设计。

### Slide 4：TVP 总体闭环

TVP 的闭环由两个库和两个阶段构成。这里最好配 Figure 3 讲：

- **Example Library**：存成功程序、执行 trace、问题和答案。
- **Tool Library**：存基础工具和从经验中抽象出的高级工具。
- **Phase I：Experience Accumulation**：生成候选程序、执行、judge 评价，高质量程序进入经验库。
- **Phase II：Transductive Tool Abstraction**：从经验库中聚类相似解法，抽象成新工具，验证后加入工具库。

建议画成一圈：

```text
新问题 / 3D 场景
    ↓
检索 Example Library + 调用 Tool Library
    ↓
生成 visual program
    ↓
执行 + judge 评价
    ↓
高质量程序进入 Example Library
    ↓
聚类相似程序，抽象新 tool
    ↓
Tool Library 更新 / merge
    ↓
后续问题更容易解决
```

### Slide 5：为什么这叫 skill learning

这里要避免把 TVP 的 tool 说成机器人动作 skill。更准确的说法：

> TVP 的 skill 是 **agent 可调用的程序化推理工具**，不是低层运动控制策略，也不是 AtomicVLA 那种原子动作专家。

它满足本次选题里的“技能发现/生成/改善/归并”，因为：

| 要求 | TVP 中的对应机制 |
|---|---|
| 技能发现 | 从 Example Library 中聚类 recurring solution patterns |
| 技能生成 | 把重复程序片段抽象成 parameterized functions/tools |
| 技能改善 | 新工具让后续程序更短、更准，更新后的高质量程序又进入经验库 |
| 技能归并 | Tool Library Maintenance 合并相似工具，形成更一般的工具 |

这一页可以直接回应合作者的问题。

### Slide 6：Phase I 细讲：经验如何进入系统

Phase I 的关键不是“让 LLM 写程序”本身，而是筛选可沉淀的经验：

1. 对当前问题检索相似 examples；
2. 基于当前 tool library 生成多个候选程序；
3. 执行程序并保留 execution trace；
4. 过滤执行失败或无结果的程序；
5. VLM judge 根据程序、trace、图像证据和答案给质量分；
6. 高质量程序进入 Example Library。

对任务四的启发：

> TongSim 中每次交互失败/成功都应形成可检查的轨迹，而不是只留下自然语言总结。轨迹里应包含观察、调用的工具/API、推理步骤、动作/检查结果和最终判定。

### Slide 7：Phase II 细讲：经验如何变成工具

Phase II 做三件事：

1. 从经验库中找相似问题和相似程序结构；
2. 把共同逻辑抽象成带参数的函数；
3. 用历史 examples 验证新工具是否可靠。

TVP 的验证分两层：

- **execution validation**：重写后的程序必须能执行；
- **correctness validation**：结果变化时，用 judge 判断新结果是否同样有效或更好。

对任务四的启发：

> 任务四不能只让模型“总结一个技能”。新技能必须能回放到历史交互轨迹上，证明它没有破坏原来能解决的问题。

### Slide 8：Tool Library Maintenance：为什么归并重要

TVP 明确讨论工具库维护。这里最好配 Figure 4 讲。随着问题越来越多，相似工具会从不同 clusters 中产生。如果不归并，工具库会变乱，后续 agent 反而更难选工具。

论文里的例子：相似的 3D ratio 工具可以合并成更通用的 object size ratio 工具。

对任务四的启发：

> TongSim 的技能库不能只会新增。它还需要“归并、去重、泛化、回归验证”。否则 learning loop 会变成技能堆积，而不是能力成长。

### Slide 9：实验结果怎么讲

只讲对分享主线有用的结果：

- Omni3D-Bench 上，TVP 超过 GPT-4o 约 22 个百分点，超过之前 visual programming 系统约 11 个百分点。
- transductive learned tools 作为核心依赖被使用的频率显著高于 inductive tools。
- 工具库还能迁移到 SpatialScore-Hard collection，不做 testset-specific 修改也能泛化。

讲法重点：

> 这些结果不是只证明 TVP 答题更准，更重要的是证明“从经验中抽象工具”比“先验生成工具”更容易被后续程序真正使用。

### Slide 10：和任务四的具体映射

| TVP | 任务四 |
|---|---|
| 3D scene image/question | TongSim 中的观察、用户指令、交互问题 |
| loc/depth/VQA/same_obj | TongSim 感知、空间、状态、关系 API |
| visual program | 通通的可执行推理/检查/操作计划 |
| execution trace | TongSim 交互日志、仿真 trace、状态变化 |
| VLM judge | 仿真成功判定、规则检查、模型评估、人类反馈 |
| Example Library | 历史问题-解决轨迹库 |
| Tool Library | 可复用推理技能 / 检查技能 / 交互前置条件技能 |
| tool merge | 技能归并和库维护 |

这页是部门听众最需要的部分。

### Slide 11：TVP 不能直接覆盖任务四的地方

主动讲边界，避免过度包装：

- TVP 主要是空间推理，不是完整物理交互；
- TVP 的程序输出是 reasoning program，不是机器人动作序列；
- TVP 的 feedback 是程序执行和 VLM judge，不是完整环境 reward；
- TVP 没有处理长期交互中的用户状态、记忆冲突、动作失败恢复。

随后立刻落到可借鉴点：

> 但任务四最缺的不是照搬 TVP 的 benchmark，而是借鉴它的经验库、工具库、验证和归并机制，把 TongSim 中的交互经验变成可复用技能。

### Slide 12：如果迁移到 TongSim，应该怎么做

可以给一个设计草图：

1. **记录交互轨迹**：观察、目标、动作/API、状态变化、失败原因、最终结果。
2. **生成可执行问题求解程序**：把“遇到的问题”变成可执行检查/推理流程。
3. **建立 Example Library**：保存高质量解决轨迹。
4. **抽象 TongSim tools**：如空间关系检查、可达性判断、对象状态变化检测、交互前置条件判断。
5. **回放验证**：新工具必须在历史轨迹上执行成功，并保持或提升解决质量。
6. **周期性归并**：合并重复/相似工具，形成更稳定的技能库。

### Slide 13：和 CaP-X 的关系

CaP-X 已经被别人讲过，因此这里不要把它当主论文。可以只作为参考类比：

- CaP-X 更接近 coding agents for robot manipulation 的 benchmark/improvement；
- TVP 更强调 experience-driven tool abstraction and consolidation；
- 两者共同点是把具身任务中的求解过程程序化；
- TVP 对我们更有用的地方是学习闭环和技能库维护。

### Slide 14：最后总结

建议收束成三句话：

1. TVP 的核心贡献是把 visual programming 从固定工具/投机工具，推进到 **从经验中演化工具库**。
2. 它覆盖了本次选题要求里的技能发现、生成、改善和归并，而且是 ICLR 2026 中稿论文。
3. 对任务四来说，TVP 的价值在于提供 TongSim learning loop 的结构模板：把交互过程中的问题求解轨迹沉淀成可复用、可验证、可维护的技能库。

## 3. 逐页讲法和展开重点

### Slide 1：为什么选这篇，讲 2 分钟

只说三个判断：ICLR 2026 中稿、正文读过、机制贴任务四。这里不要展开实验。重点让听众相信这不是临时找的一篇“skill”关键词论文。

可讲句：

> 我们不是找一篇泛泛机器人 skill learning，而是找一篇能解释“agent 如何从交互经验里沉淀技能库”的论文。TVP 的核心正是从成功 visual programs 中抽象 tool library。

### Slide 2：任务四需求拆解，讲 2 分钟

把截图里的任务四读成四个问题：TongSim 看到什么、遇到什么交互问题、如何推理、推理之后如何学习。这里要明确任务四不是只做 benchmark，也不是只做低层动作，而是要形成 learning loop。

可讲句：

> 任务四真正难的是闭环。一次解决问题不够，系统要知道这次解决过程以后能不能复用，能不能变成一个更稳定的技能。

### Slide 3：TVP 的问题定义，讲 3 分钟

这里要讲清两类 baseline 的问题：固定工具集不能长大，投机式工具生成没有经验 grounding。TVP 的立场是先做题、再从成功解法里长工具。

建议展开一点 CaP-X 语境：CaP-X 让 code agent 写机器人 manipulation 代码，TVP 也让 agent 写程序，但 TVP 进一步关心程序经验怎样变成工具库。

### Slide 4：总体闭环，讲 3 分钟

这是方法入口页。建议画环，不要照着文字念。核心是两个库：Example Library 保存具体成功经验，Tool Library 保存可调用抽象工具。

讲清一个关键点：Example Library 不是 memory 摆设，它直接参与后续 program generation；Tool Library 也不是人工预设清单，它会随着经验演化。

### Slide 5：为什么这是 skill learning，讲 3 分钟

这是回应用户和合作者最关心的问题。要明确 TVP 的 skill 不是机器人动作 primitive，而是 agent 可调用的程序化推理工具。

四个关键词逐个对齐：

- discovery：从相似成功程序里发现重复模式；
- generation：把重复模式抽象成函数；
- improvement：新函数让后续程序更短、更准；
- consolidation：相似函数合并成更通用工具。

### Slide 6：Phase I，讲 3 分钟

不要只说“LLM 生成程序”。重点是经验筛选机制：候选程序要执行，失败的不要，能执行的再由 judge 结合图像和 trace 打分。

任务四迁移点：TongSim 里每次交互都应记录可回放 trace。没有 trace，就没法从经验中抽象技能。

### Slide 7：Phase II，讲 3 分钟

这里讲经验如何变成工具。重点是 transductive：不是根据任务描述提前猜工具，而是从已经成功的 programs 里抽象工具。

必须讲验证：新工具不能只看起来像总结，它要能替换原程序片段，并在历史 examples 上保持执行成功和结果质量。

### Slide 8：工具归并，讲 2 分钟

这页很重要，因为合作者明确提到“归并”。讲清工具库如果只增不合，会变成另一个负担。TVP 的 maintenance 把相似工具合并，并用原工具覆盖的 examples 做回归验证。

任务四迁移点：TongSim 技能库也需要 merge / dedup / regression test。

### Slide 9：实验，讲 3 分钟

只讲三条证据：Omni3D-Bench 效果、transductive tools 使用率更高、SpatialScore-Hard 泛化。不要逐个模型报表。

这页的结论是：经验驱动抽象出来的工具真的被后续程序使用，而且不是只在一个测试集上凑巧有效。

### Slide 10：任务四映射，讲 3 分钟

这页是全场重点之一。把 TVP 每个模块翻译成 TongSim 对应物：观察、问题、API、trace、judge、经验库、技能库、技能归并。

建议把“visual program”讲成“可执行推理/检查/操作计划”，不要讲成“最终机器人 policy”。

### Slide 11：边界，讲 2 分钟

主动承认边界：TVP 不直接做完整物理交互，也不输出动作序列。这样反而更可信。

收束句：

> 我们借鉴的是闭环学习结构，不是照搬 benchmark。

### Slide 12：迁移设计草图，讲 3 分钟

这是从论文回到任务四的设计页。可以把 TongSim 版本拆成六步：记录交互轨迹、生成可执行问题求解程序、保存高质量轨迹、抽象 TongSim tools、回放验证、周期性归并。

如果时间够，这页可以多讲一点，因为它最能显示和部门任务的关联。

### Slide 13：和 CaP-X 的关系，讲 1 分钟

只作为 reference，不要展开。CaP-X 已经有人讲过，所以这里的作用是说明：我们沿着 code agent for robot manipulation 的方向，但选择 TVP 是因为它更突出经验到工具库的学习闭环。

### Slide 14：总结，讲 1 分钟

最后只保留一个判断：

> TVP 给任务四最有价值的不是一个现成算法，而是一个把交互经验沉淀为可复用、可验证、可维护技能库的闭环范式。

## 4. 建议重点讲的三张图/表

1. **Figure 1 / Figure 3：dual-library closed loop**  
   用来讲 Example Library 与 Tool Library，以及 program-tool-program cycle。

2. **Figure 4：Tool Library Maintenance**  
   用来讲技能归并。这个点和合作者原始要求里的“归并”直接相关。

3. **Table 1 / Table 2：效果与泛化**  
   只讲结论，不需要逐项报数。重点是“经验驱动工具抽象确实提高了 3D spatial reasoning，并且迁移到新 spatial benchmarks”。

## 5. 可能被问到的问题

### Q1：TVP 是具身论文吗？

答：它不是机器人动作控制论文，但它面向真实 3D 场景中的空间推理，属于 embodied perception / spatial reasoning 方向。对任务四来说，它提供的是物理世界交互中“推理技能如何形成和维护”的结构参考，而不是低层控制算法。

### Q2：TVP 的 skill 和 robot skill 是一个概念吗？

答：不是。TVP 的 skill 是可调用的程序化推理工具，robot skill 通常指动作策略或运动 primitive。我们选它不是因为它直接学 robot policy，而是因为任务四需要 agent 在交互中积累、抽象、复用和归并问题求解技能。

### Q3：它的 learning loop 在哪里？

答：在 program-tool-program cycle。系统先用当前工具解决问题并积累成功程序，再从这些程序中抽象新工具，新工具又改善后续程序，后续更好的程序继续进入经验库。这个循环就是 TVP 的核心 learning loop。

### Q4：它是否需要人类干预？

答：TVP 的工具生成和验证主要由系统自动完成，依赖执行结果和 VLM judge。它不是“发现缺什么后交给人类补数据”的流程。这点比很多 imitation-based skill papers 更贴近任务四想要的闭环学习。

### Q5：为什么不选 VLMgineer？

答：VLMgineer 更机器人、更直观，讲 VLM 设计物理工具和动作。但它更像 tool/action generation + evolutionary search，不突出长期经验库、技能库维护和技能归并。任务四要讲 learning loop 与技能沉淀，TVP 更合适。

### Q6：为什么不选 NeSyCR？

答：NeSyCR 做 demo-to-code repair，具身和代码生成都很强，但它更像从示范生成/修补 procedure。它没有 TVP 这种清晰的持续经验库、工具库演化和归并机制，所以作为对比可以，主讲不如 TVP 贴题。

## 6. 参考来源

- TVP OpenReview forum：<https://openreview.net/forum?id=XCW1l9qcxy>
- TVP PDF：<https://openreview.net/pdf?id=XCW1l9qcxy>
- TVP project page：<https://transductive-visualprogram.github.io/>
- 本地正文抽取：`/home/leadtek/Downloads/文献调研/讲论文/tmp_deepcheck_20260506/XCW1l9qcxy.txt`

## 7. 最终推荐口径

部门分享时可以固定成这句话：

> 我这次选 TVP，不是因为它直接做 TongSim 或机器人控制，而是因为它把具身空间推理中的“问题求解过程”做成了一个可学习、可复用、可归并的工具库闭环。这个结构正好对应任务四要做的 TongSim 多模态交互闭环学习：让通通在交互中遇到问题、解决问题，并把可复用的解决过程沉淀成技能。