下载/查看 Markdown 原文 OpenReview PDF

TVP 任务四论文分享大纲

主论文:Transductive Visual Programming: Evolving Tool Libraries from Experience for Spatial Reasoning
Venue:ICLR 2026 Poster
OpenReview:https://openreview.net/forum?id=XCW1l9qcxy
PDF:https://openreview.net/pdf?id=XCW1l9qcxy
本地正文抽取:/home/leadtek/Downloads/文献调研/讲论文/tmp_deepcheck_20260506/XCW1l9qcxy.txt

0. 分享定位

这次分享不把 TVP 讲成机器人控制论文,也不把它讲成通用 VLM 空间推理论文。更稳的定位是:

TVP 是一篇关于 具身场景中 agent 如何从问题求解经验里发现、生成、改善并归并工具型技能 的论文。它没有直接解决 TongSim 物理交互,但给任务四提供了一个很清晰的闭环学习结构。

和任务四的连接点:

1. 建议标题

优先标题:

从经验到技能库:TVP 如何让具身空间推理 agent 自我演化

备选标题:

  1. Transductive Visual Programming:从具身场景推理经验中生成和归并工具技能
  2. 面向 TongSim Learning Loop 的经验驱动技能库:读 TVP
  3. 从 visual programs 到 tool library:具身 agent 的技能发现与归并机制

2. 15-20 分钟部门分享结构

Slide 1:为什么选这篇

要讲清楚三点:

建议表述:

我们任务四关心的是 TongSim 中物理世界多模态交互过程里的思考、推理和学习。TVP 不直接做机器人动作控制,但它给出了一个很适合借鉴的机制:agent 先用基础工具解决具体 3D 空间问题,再从成功程序中抽象 reusable tools,并持续维护工具库。

Slide 2:任务四的需求拆解

从截图里的任务四拆成四个能力要求:

  1. 多模态观察:TongSim 中看到物体、空间关系、交互状态。
  2. 问题驱动推理:交互中出现问题后,需要定位问题、推理原因、生成解决过程。
  3. 闭环学习:一次解决不是终点,经验要进入后续学习。
  4. 技能沉淀与归并:反复出现的推理/检查/操作模式要变成可复用技能,技能库还要避免膨胀。

这页的作用是把部门任务和论文主线先连起来。

Slide 3:TVP 要解决的问题

TVP 的出发点:3D spatial reasoning 需要精确几何计算,单纯 VLM 很难稳定完成。正文中把 visual programming 定义为把复杂视觉推理分解成离散计算步骤,调用 depth estimator、object detector、geometric function 等工具,再用程序逻辑组合结果。已有方法有两个问题:

这页可以强调:

TVP 反对“先想象一堆工具再求解”,主张“先解决真实问题,再从成功经验中抽象工具”。

这和任务四很贴:TongSim 中真正缺什么技能,应该由交互过程中反复遇到的问题暴露出来,而不是只靠离线拍脑袋设计。

Slide 4:TVP 总体闭环

TVP 的闭环由两个库和两个阶段构成。这里最好配 Figure 3 讲:

建议画成一圈:

新问题 / 3D 场景
    ↓
检索 Example Library + 调用 Tool Library
    ↓
生成 visual program
    ↓
执行 + judge 评价
    ↓
高质量程序进入 Example Library
    ↓
聚类相似程序,抽象新 tool
    ↓
Tool Library 更新 / merge
    ↓
后续问题更容易解决

Slide 5:为什么这叫 skill learning

这里要避免把 TVP 的 tool 说成机器人动作 skill。更准确的说法:

TVP 的 skill 是 agent 可调用的程序化推理工具,不是低层运动控制策略,也不是 AtomicVLA 那种原子动作专家。

它满足本次选题里的“技能发现/生成/改善/归并”,因为:

要求 TVP 中的对应机制
技能发现 从 Example Library 中聚类 recurring solution patterns
技能生成 把重复程序片段抽象成 parameterized functions/tools
技能改善 新工具让后续程序更短、更准,更新后的高质量程序又进入经验库
技能归并 Tool Library Maintenance 合并相似工具,形成更一般的工具

这一页可以直接回应合作者的问题。

Slide 6:Phase I 细讲:经验如何进入系统

Phase I 的关键不是“让 LLM 写程序”本身,而是筛选可沉淀的经验:

  1. 对当前问题检索相似 examples;
  2. 基于当前 tool library 生成多个候选程序;
  3. 执行程序并保留 execution trace;
  4. 过滤执行失败或无结果的程序;
  5. VLM judge 根据程序、trace、图像证据和答案给质量分;
  6. 高质量程序进入 Example Library。

对任务四的启发:

TongSim 中每次交互失败/成功都应形成可检查的轨迹,而不是只留下自然语言总结。轨迹里应包含观察、调用的工具/API、推理步骤、动作/检查结果和最终判定。

Slide 7:Phase II 细讲:经验如何变成工具

Phase II 做三件事:

  1. 从经验库中找相似问题和相似程序结构;
  2. 把共同逻辑抽象成带参数的函数;
  3. 用历史 examples 验证新工具是否可靠。

TVP 的验证分两层:

对任务四的启发:

任务四不能只让模型“总结一个技能”。新技能必须能回放到历史交互轨迹上,证明它没有破坏原来能解决的问题。

Slide 8:Tool Library Maintenance:为什么归并重要

TVP 明确讨论工具库维护。这里最好配 Figure 4 讲。随着问题越来越多,相似工具会从不同 clusters 中产生。如果不归并,工具库会变乱,后续 agent 反而更难选工具。

论文里的例子:相似的 3D ratio 工具可以合并成更通用的 object size ratio 工具。

对任务四的启发:

TongSim 的技能库不能只会新增。它还需要“归并、去重、泛化、回归验证”。否则 learning loop 会变成技能堆积,而不是能力成长。

Slide 9:实验结果怎么讲

只讲对分享主线有用的结果:

讲法重点:

这些结果不是只证明 TVP 答题更准,更重要的是证明“从经验中抽象工具”比“先验生成工具”更容易被后续程序真正使用。

Slide 10:和任务四的具体映射

TVP 任务四
3D scene image/question TongSim 中的观察、用户指令、交互问题
loc/depth/VQA/same_obj TongSim 感知、空间、状态、关系 API
visual program 通通的可执行推理/检查/操作计划
execution trace TongSim 交互日志、仿真 trace、状态变化
VLM judge 仿真成功判定、规则检查、模型评估、人类反馈
Example Library 历史问题-解决轨迹库
Tool Library 可复用推理技能 / 检查技能 / 交互前置条件技能
tool merge 技能归并和库维护

这页是部门听众最需要的部分。

Slide 11:TVP 不能直接覆盖任务四的地方

主动讲边界,避免过度包装:

随后立刻落到可借鉴点:

但任务四最缺的不是照搬 TVP 的 benchmark,而是借鉴它的经验库、工具库、验证和归并机制,把 TongSim 中的交互经验变成可复用技能。

Slide 12:如果迁移到 TongSim,应该怎么做

可以给一个设计草图:

  1. 记录交互轨迹:观察、目标、动作/API、状态变化、失败原因、最终结果。
  2. 生成可执行问题求解程序:把“遇到的问题”变成可执行检查/推理流程。
  3. 建立 Example Library:保存高质量解决轨迹。
  4. 抽象 TongSim tools:如空间关系检查、可达性判断、对象状态变化检测、交互前置条件判断。
  5. 回放验证:新工具必须在历史轨迹上执行成功,并保持或提升解决质量。
  6. 周期性归并:合并重复/相似工具,形成更稳定的技能库。

Slide 13:和 CaP-X 的关系

CaP-X 已经被别人讲过,因此这里不要把它当主论文。可以只作为参考类比:

Slide 14:最后总结

建议收束成三句话:

  1. TVP 的核心贡献是把 visual programming 从固定工具/投机工具,推进到 从经验中演化工具库
  2. 它覆盖了本次选题要求里的技能发现、生成、改善和归并,而且是 ICLR 2026 中稿论文。
  3. 对任务四来说,TVP 的价值在于提供 TongSim learning loop 的结构模板:把交互过程中的问题求解轨迹沉淀成可复用、可验证、可维护的技能库。

3. 建议重点讲的三张图/表

  1. Figure 1 / Figure 3:dual-library closed loop
    用来讲 Example Library 与 Tool Library,以及 program-tool-program cycle。

  2. Figure 4:Tool Library Maintenance
    用来讲技能归并。这个点和合作者原始要求里的“归并”直接相关。

  3. Table 1 / Table 2:效果与泛化
    只讲结论,不需要逐项报数。重点是“经验驱动工具抽象确实提高了 3D spatial reasoning,并且迁移到新 spatial benchmarks”。

4. 可能被问到的问题

Q1:TVP 是具身论文吗?

答:它不是机器人动作控制论文,但它面向真实 3D 场景中的空间推理,属于 embodied perception / spatial reasoning 方向。对任务四来说,它提供的是物理世界交互中“推理技能如何形成和维护”的结构参考,而不是低层控制算法。

Q2:TVP 的 skill 和 robot skill 是一个概念吗?

答:不是。TVP 的 skill 是可调用的程序化推理工具,robot skill 通常指动作策略或运动 primitive。我们选它不是因为它直接学 robot policy,而是因为任务四需要 agent 在交互中积累、抽象、复用和归并问题求解技能。

Q3:它的 learning loop 在哪里?

答:在 program-tool-program cycle。系统先用当前工具解决问题并积累成功程序,再从这些程序中抽象新工具,新工具又改善后续程序,后续更好的程序继续进入经验库。这个循环就是 TVP 的核心 learning loop。

Q4:它是否需要人类干预?

答:TVP 的工具生成和验证主要由系统自动完成,依赖执行结果和 VLM judge。它不是“发现缺什么后交给人类补数据”的流程。这点比很多 imitation-based skill papers 更贴近任务四想要的闭环学习。

Q5:为什么不选 VLMgineer?

答:VLMgineer 更机器人、更直观,讲 VLM 设计物理工具和动作。但它更像 tool/action generation + evolutionary search,不突出长期经验库、技能库维护和技能归并。任务四要讲 learning loop 与技能沉淀,TVP 更合适。

Q6:为什么不选 NeSyCR?

答:NeSyCR 做 demo-to-code repair,具身和代码生成都很强,但它更像从示范生成/修补 procedure。它没有 TVP 这种清晰的持续经验库、工具库演化和归并机制,所以作为对比可以,主讲不如 TVP 贴题。

5. 参考来源

6. 最终推荐口径

部门分享时可以固定成这句话:

我这次选 TVP,不是因为它直接做 TongSim 或机器人控制,而是因为它把具身空间推理中的“问题求解过程”做成了一个可学习、可复用、可归并的工具库闭环。这个结构正好对应任务四要做的 TongSim 多模态交互闭环学习:让通通在交互中遇到问题、解决问题,并把可复用的解决过程沉淀成技能。