TVP 任务四论文分享大纲

主论文：Transductive Visual Programming: Evolving Tool Libraries from Experience for Spatial Reasoning
Venue：ICLR 2026 Poster
OpenReview：https://openreview.net/forum?id=XCW1l9qcxy
PDF：https://openreview.net/pdf?id=XCW1l9qcxy
本地正文抽取：/home/leadtek/Downloads/文献调研/讲论文/tmp_deepcheck_20260506/XCW1l9qcxy.txt

0. 分享定位

这次分享不把 TVP 讲成机器人控制论文，也不把它讲成通用 VLM 空间推理论文。更稳的定位是：

TVP 是一篇关于 具身场景中 agent 如何从问题求解经验里发现、生成、改善并归并工具型技能 的论文。它没有直接解决 TongSim 物理交互，但给任务四提供了一个很清晰的闭环学习结构。

和任务四的连接点：

任务四：开发针对 TongSim 端物理世界多模态交互的闭环学习算法。
TVP：在 3D 场景空间推理中，把一次次 visual programs 的成功经验沉淀为 Example Library，再抽象为 Tool Library，并通过维护/合并让工具库持续演化。
可借鉴结构：交互问题 → 程序化推理 → 执行/评价 → 经验库 → 技能抽象 → 技能归并 → 新任务复用。

1. 建议标题

优先标题：

从经验到技能库：TVP 如何让具身空间推理 agent 自我演化

备选标题：

Transductive Visual Programming：从具身场景推理经验中生成和归并工具技能
面向 TongSim Learning Loop 的经验驱动技能库：读 TVP
从 visual programs 到 tool library：具身 agent 的技能发现与归并机制

2. 15-20 分钟部门分享结构

Slide 1：为什么选这篇

要讲清楚三点：

它是 ICLR 2026 Poster，不是旧论文，也不是未中稿工作。
正文已经读过，核心机制不是泛泛 skill 叙事，而是 Example Library、Tool Library、tool abstraction、tool maintenance。
它讨论的是工具库如何从经验中演化，和我们任务四的闭环学习最相关。

建议表述：

我们任务四关心的是 TongSim 中物理世界多模态交互过程里的思考、推理和学习。TVP 不直接做机器人动作控制，但它给出了一个很适合借鉴的机制：agent 先用基础工具解决具体 3D 空间问题，再从成功程序中抽象 reusable tools，并持续维护工具库。

Slide 2：任务四的需求拆解

从截图里的任务四拆成四个能力要求：

多模态观察：TongSim 中看到物体、空间关系、交互状态。
问题驱动推理：交互中出现问题后，需要定位问题、推理原因、生成解决过程。
闭环学习：一次解决不是终点，经验要进入后续学习。
技能沉淀与归并：反复出现的推理/检查/操作模式要变成可复用技能，技能库还要避免膨胀。

这页的作用是把部门任务和论文主线先连起来。

Slide 3：TVP 要解决的问题

TVP 的出发点：3D spatial reasoning 需要精确几何计算，单纯 VLM 很难稳定完成。正文中把 visual programming 定义为把复杂视觉推理分解成离散计算步骤，调用 depth estimator、object detector、geometric function 等工具，再用程序逻辑组合结果。已有方法有两个问题：

固定工具集不能适应新问题；
先验/投机式 tool induction 没有来自真实求解经验，工具容易看起来有用但实际很少被用。

这页可以强调：

TVP 反对“先想象一堆工具再求解”，主张“先解决真实问题，再从成功经验中抽象工具”。

这和任务四很贴：TongSim 中真正缺什么技能，应该由交互过程中反复遇到的问题暴露出来，而不是只靠离线拍脑袋设计。

Slide 4：TVP 总体闭环

TVP 的闭环由两个库和两个阶段构成。这里最好配 Figure 3 讲：

Example Library：存成功程序、执行 trace、问题和答案。
Tool Library：存基础工具和从经验中抽象出的高级工具。
Phase I：Experience Accumulation：生成候选程序、执行、judge 评价，高质量程序进入经验库。
Phase II：Transductive Tool Abstraction：从经验库中聚类相似解法，抽象成新工具，验证后加入工具库。

建议画成一圈：

新问题 / 3D 场景
    ↓
检索 Example Library + 调用 Tool Library
    ↓
生成 visual program
    ↓
执行 + judge 评价
    ↓
高质量程序进入 Example Library
    ↓
聚类相似程序，抽象新 tool
    ↓
Tool Library 更新 / merge
    ↓
后续问题更容易解决

Slide 5：为什么这叫 skill learning

这里要避免把 TVP 的 tool 说成机器人动作 skill。更准确的说法：

TVP 的 skill 是 agent 可调用的程序化推理工具，不是低层运动控制策略，也不是 AtomicVLA 那种原子动作专家。

它满足本次选题里的“技能发现/生成/改善/归并”，因为：

要求	TVP 中的对应机制
技能发现	从 Example Library 中聚类 recurring solution patterns
技能生成	把重复程序片段抽象成 parameterized functions/tools
技能改善	新工具让后续程序更短、更准，更新后的高质量程序又进入经验库
技能归并	Tool Library Maintenance 合并相似工具，形成更一般的工具

这一页可以直接回应合作者的问题。

Slide 6：Phase I 细讲：经验如何进入系统

Phase I 的关键不是“让 LLM 写程序”本身，而是筛选可沉淀的经验：

对当前问题检索相似 examples；
基于当前 tool library 生成多个候选程序；
执行程序并保留 execution trace；
过滤执行失败或无结果的程序；
VLM judge 根据程序、trace、图像证据和答案给质量分；
高质量程序进入 Example Library。

对任务四的启发：

TongSim 中每次交互失败/成功都应形成可检查的轨迹，而不是只留下自然语言总结。轨迹里应包含观察、调用的工具/API、推理步骤、动作/检查结果和最终判定。

Slide 7：Phase II 细讲：经验如何变成工具

Phase II 做三件事：

从经验库中找相似问题和相似程序结构；
把共同逻辑抽象成带参数的函数；
用历史 examples 验证新工具是否可靠。

TVP 的验证分两层：

execution validation：重写后的程序必须能执行；
correctness validation：结果变化时，用 judge 判断新结果是否同样有效或更好。

对任务四的启发：

任务四不能只让模型“总结一个技能”。新技能必须能回放到历史交互轨迹上，证明它没有破坏原来能解决的问题。

Slide 8：Tool Library Maintenance：为什么归并重要

TVP 明确讨论工具库维护。这里最好配 Figure 4 讲。随着问题越来越多，相似工具会从不同 clusters 中产生。如果不归并，工具库会变乱，后续 agent 反而更难选工具。

论文里的例子：相似的 3D ratio 工具可以合并成更通用的 object size ratio 工具。

对任务四的启发：

TongSim 的技能库不能只会新增。它还需要“归并、去重、泛化、回归验证”。否则 learning loop 会变成技能堆积，而不是能力成长。

Slide 9：实验结果怎么讲

只讲对分享主线有用的结果：

Omni3D-Bench 上，TVP 超过 GPT-4o 约 22 个百分点，超过之前 visual programming 系统约 11 个百分点。
transductive learned tools 作为核心依赖被使用的频率显著高于 inductive tools。
工具库还能迁移到 SpatialScore-Hard collection，不做 testset-specific 修改也能泛化。

讲法重点：

这些结果不是只证明 TVP 答题更准，更重要的是证明“从经验中抽象工具”比“先验生成工具”更容易被后续程序真正使用。

Slide 10：和任务四的具体映射

TVP	任务四
3D scene image/question	TongSim 中的观察、用户指令、交互问题
loc/depth/VQA/same_obj	TongSim 感知、空间、状态、关系 API
visual program	通通的可执行推理/检查/操作计划
execution trace	TongSim 交互日志、仿真 trace、状态变化
VLM judge	仿真成功判定、规则检查、模型评估、人类反馈
Example Library	历史问题-解决轨迹库
Tool Library	可复用推理技能 / 检查技能 / 交互前置条件技能
tool merge	技能归并和库维护

这页是部门听众最需要的部分。

Slide 11：TVP 不能直接覆盖任务四的地方

主动讲边界，避免过度包装：

TVP 主要是空间推理，不是完整物理交互；
TVP 的程序输出是 reasoning program，不是机器人动作序列；
TVP 的 feedback 是程序执行和 VLM judge，不是完整环境 reward；
TVP 没有处理长期交互中的用户状态、记忆冲突、动作失败恢复。

随后立刻落到可借鉴点：

但任务四最缺的不是照搬 TVP 的 benchmark，而是借鉴它的经验库、工具库、验证和归并机制，把 TongSim 中的交互经验变成可复用技能。

Slide 12：如果迁移到 TongSim，应该怎么做

可以给一个设计草图：

记录交互轨迹：观察、目标、动作/API、状态变化、失败原因、最终结果。
生成可执行问题求解程序：把“遇到的问题”变成可执行检查/推理流程。
建立 Example Library：保存高质量解决轨迹。
抽象 TongSim tools：如空间关系检查、可达性判断、对象状态变化检测、交互前置条件判断。
回放验证：新工具必须在历史轨迹上执行成功，并保持或提升解决质量。
周期性归并：合并重复/相似工具，形成更稳定的技能库。

Slide 13：和 CaP-X 的关系

CaP-X 已经被别人讲过，因此这里不要把它当主论文。可以只作为参考类比：

CaP-X 更接近 coding agents for robot manipulation 的 benchmark/improvement；
TVP 更强调 experience-driven tool abstraction and consolidation；
两者共同点是把具身任务中的求解过程程序化；
TVP 对我们更有用的地方是学习闭环和技能库维护。

Slide 14：最后总结

建议收束成三句话：

TVP 的核心贡献是把 visual programming 从固定工具/投机工具，推进到 从经验中演化工具库。
它覆盖了本次选题要求里的技能发现、生成、改善和归并，而且是 ICLR 2026 中稿论文。
对任务四来说，TVP 的价值在于提供 TongSim learning loop 的结构模板：把交互过程中的问题求解轨迹沉淀成可复用、可验证、可维护的技能库。

3. 建议重点讲的三张图/表

Figure 1 / Figure 3：dual-library closed loop
用来讲 Example Library 与 Tool Library，以及 program-tool-program cycle。
Figure 4：Tool Library Maintenance
用来讲技能归并。这个点和合作者原始要求里的“归并”直接相关。
Table 1 / Table 2：效果与泛化
只讲结论，不需要逐项报数。重点是“经验驱动工具抽象确实提高了 3D spatial reasoning，并且迁移到新 spatial benchmarks”。

4. 可能被问到的问题

Q1：TVP 是具身论文吗？

答：它不是机器人动作控制论文，但它面向真实 3D 场景中的空间推理，属于 embodied perception / spatial reasoning 方向。对任务四来说，它提供的是物理世界交互中“推理技能如何形成和维护”的结构参考，而不是低层控制算法。

Q2：TVP 的 skill 和 robot skill 是一个概念吗？

答：不是。TVP 的 skill 是可调用的程序化推理工具，robot skill 通常指动作策略或运动 primitive。我们选它不是因为它直接学 robot policy，而是因为任务四需要 agent 在交互中积累、抽象、复用和归并问题求解技能。

Q3：它的 learning loop 在哪里？

答：在 program-tool-program cycle。系统先用当前工具解决问题并积累成功程序，再从这些程序中抽象新工具，新工具又改善后续程序，后续更好的程序继续进入经验库。这个循环就是 TVP 的核心 learning loop。

Q4：它是否需要人类干预？

答：TVP 的工具生成和验证主要由系统自动完成，依赖执行结果和 VLM judge。它不是“发现缺什么后交给人类补数据”的流程。这点比很多 imitation-based skill papers 更贴近任务四想要的闭环学习。

Q5：为什么不选 VLMgineer？

答：VLMgineer 更机器人、更直观，讲 VLM 设计物理工具和动作。但它更像 tool/action generation + evolutionary search，不突出长期经验库、技能库维护和技能归并。任务四要讲 learning loop 与技能沉淀，TVP 更合适。

Q6：为什么不选 NeSyCR？

答：NeSyCR 做 demo-to-code repair，具身和代码生成都很强，但它更像从示范生成/修补 procedure。它没有 TVP 这种清晰的持续经验库、工具库演化和归并机制，所以作为对比可以，主讲不如 TVP 贴题。

5. 参考来源

TVP OpenReview forum：https://openreview.net/forum?id=XCW1l9qcxy
TVP PDF：https://openreview.net/pdf?id=XCW1l9qcxy
TVP project page：https://transductive-visualprogram.github.io/
本地正文抽取：/home/leadtek/Downloads/文献调研/讲论文/tmp_deepcheck_20260506/XCW1l9qcxy.txt

6. 最终推荐口径

部门分享时可以固定成这句话：

我这次选 TVP，不是因为它直接做 TongSim 或机器人控制，而是因为它把具身空间推理中的“问题求解过程”做成了一个可学习、可复用、可归并的工具库闭环。这个结构正好对应任务四要做的 TongSim 多模态交互闭环学习：让通通在交互中遇到问题、解决问题，并把可复用的解决过程沉淀成技能。