下载/查看 Markdown 原文OpenReviewPDF

TVP 任务四论文分享大纲

主论文:Transductive Visual Programming: Evolving Tool Libraries from Experience for Spatial Reasoning
Venue:ICLR 2026 Poster
OpenReview:https://openreview.net/forum?id=XCW1l9qcxy
PDF:https://openreview.net/pdf?id=XCW1l9qcxy
本地正文抽取:/home/leadtek/Downloads/文献调研/讲论文/tmp_deepcheck_20260506/XCW1l9qcxy.txt

0. 报告定位与主线

这次报告面向没有预先读过相关论文的部门听众。开场直接从任务四的核心问题进入,再介绍 TVP 给出的闭环机制。更稳的定位是:

TVP 是一篇关于 具身场景中 agent 如何从问题求解经验里发现、生成、改善并归并工具型技能 的论文。它没有直接解决 TongSim 物理交互,但给任务四提供了一个很清晰的闭环学习结构。

和任务四的连接点可以直接讲成:

1. 建议报告题目

优先标题:

从经验到技能库:TVP 如何让具身空间推理 agent 自我演化

备选标题:

  1. Transductive Visual Programming:从具身场景推理经验中生成和归并工具技能
  2. 面向 TongSim Learning Loop 的经验驱动技能库:读 TVP
  3. 从 visual programs 到 tool library:具身 agent 的技能发现与归并机制

2. 30 分钟报告结构

建议按 24-25 分钟正文 + 5 分钟讨论/Q&A 准备。不要把每页讲得平均。重点展开 TVP 的问题背景、闭环机制、技能定义、任务四映射。

时间分配:

模块 页码 时间 目的
任务四问题入口 Slide 1-2 4 分钟 让听众理解任务四为什么需要经验驱动的技能库
论文问题定义 Slide 3 3 分钟 解释为什么固定工具/投机造工具不够
TVP 方法主线 Slide 4-8 11 分钟 讲清 Example Library、Tool Library、经验积累、工具抽象、工具归并
实验和证据 Slide 9 3 分钟 只讲支撑主线的结果,不展开全部 benchmark
任务四关联与边界 Slide 10-12 6 分钟 说明 TVP 对任务四的启发和不能直接覆盖的部分
启发和总结 Slide 13-14 2 分钟 收束 TVP 对任务四学习闭环的启发
Q&A 备用 5 分钟 回答 skill/agent/具身/适用边界问题

Slide 1:报告问题和论文入口

这一页先给听众一个清晰问题:

再引出 TVP:

TVP 是 ICLR 2026 的一篇论文,研究 agent 如何在 3D 场景空间推理中,从成功的 visual programs 里积累经验、抽象工具,并持续维护工具库。它提供了一个从“解决问题”到“沉淀技能”的闭环样例。

Slide 2:任务四的需求拆解

把任务四拆成四个能力要求:

  1. 多模态观察:TongSim 中看到物体、空间关系、交互状态。
  2. 问题驱动推理:交互中出现问题后,需要定位问题、推理原因、生成解决过程。
  3. 闭环学习:一次解决不是终点,经验要进入后续学习。
  4. 技能沉淀与归并:反复出现的推理/检查/操作模式要变成可复用技能,技能库还要避免膨胀。

这页的作用是把任务四的工程目标和 TVP 的论文问题先连起来。

Slide 3:TVP 要解决的问题

TVP 的出发点:3D spatial reasoning 需要精确几何计算,单纯 VLM 很难稳定完成。正文中把 visual programming 定义为把复杂视觉推理分解成离散计算步骤,调用 depth estimator、object detector、geometric function 等工具,再用程序逻辑组合结果。已有方法有两个问题:

这页可以强调:

TVP 反对“先想象一堆工具再求解”,主张“先解决真实问题,再从成功经验中抽象工具”。

这和任务四很贴:TongSim 中真正缺什么技能,应当由交互过程中反复遇到的问题暴露出来,而不是只靠离线预设。

Slide 4:TVP 总体闭环

TVP 的闭环由两个库和两个阶段构成。这里最好配 Figure 3 讲:

建议画成一圈:

新问题 / 3D 场景
    ↓
检索 Example Library + 调用 Tool Library
    ↓
生成 visual program
    ↓
执行 + judge 评价
    ↓
高质量程序进入 Example Library
    ↓
聚类相似程序,抽象新 tool
    ↓
Tool Library 更新 / merge
    ↓
后续问题更容易解决

Slide 5:为什么这叫 skill learning

这里要避免把 TVP 的 tool 说成机器人动作 skill。更准确的说法:

TVP 的 skill 是 agent 可调用的程序化推理工具,不是低层运动控制策略,也不是 AtomicVLA 那种原子动作专家。

它能覆盖“技能发现/生成/改善/归并”这条报告主线,因为:

要求 TVP 中的对应机制
技能发现 从 Example Library 中聚类 recurring solution patterns
技能生成 把重复程序片段抽象成 parameterized functions/tools
技能改善 新工具让后续程序更短、更准,更新后的高质量程序又进入经验库
技能归并 Tool Library Maintenance 合并相似工具,形成更一般的工具

这一页用于澄清本报告所说的 skill:它是 agent 可调用的程序化推理工具,而不是低层运动 primitive。

Slide 6:Phase I 细讲:经验如何进入系统

Phase I 的关键不是“让 LLM 写程序”本身,而是筛选可沉淀的经验:

  1. 对当前问题检索相似 examples;
  2. 基于当前 tool library 生成多个候选程序;
  3. 执行程序并保留 execution trace;
  4. 过滤执行失败或无结果的程序;
  5. VLM judge 根据程序、trace、图像证据和答案给质量分;
  6. 高质量程序进入 Example Library。

对任务四的启发:

TongSim 中每次交互失败/成功都应形成可检查的轨迹,而不是只留下自然语言总结。轨迹里应包含观察、调用的工具/API、推理步骤、动作/检查结果和最终判定。

Slide 7:Phase II 细讲:经验如何变成工具

Phase II 做三件事:

  1. 从经验库中找相似问题和相似程序结构;
  2. 把共同逻辑抽象成带参数的函数;
  3. 用历史 examples 验证新工具是否可靠。

TVP 的验证分两层:

对任务四的启发:

任务四不能只让模型“总结一个技能”。新技能必须能回放到历史交互轨迹上,证明它没有破坏原来能解决的问题。

Slide 8:Tool Library Maintenance:为什么归并重要

TVP 明确讨论工具库维护。这里最好配 Figure 4 讲。随着问题越来越多,相似工具会从不同 clusters 中产生。如果不归并,工具库会变乱,后续 agent 反而更难选工具。

论文里的例子:相似的 3D ratio 工具可以合并成更通用的 object size ratio 工具。

对任务四的启发:

TongSim 的技能库不能只会新增。它还需要“归并、去重、泛化、回归验证”。否则 learning loop 会变成技能堆积,而不是能力成长。

Slide 9:实验结果怎么讲

只讲对分享主线有用的结果:

讲法重点:

这些结果不是只证明 TVP 答题更准,更重要的是证明“从经验中抽象工具”比“先验生成工具”更容易被后续程序真正使用。

Slide 10:这篇论文和任务四的关系

这一页只讲高层关系,不展开具体落地方案。重点是三条:

  1. 问题类型相近:任务四面对的是物理世界多模态交互中的问题,TVP 面对的是 3D 场景中的空间推理问题。两者都要求 agent 把观察、语言问题和环境状态组织成可执行的推理过程。
  2. 学习对象相近:任务四需要在交互中积累可复用经验,TVP 展示了如何把成功的问题求解程序沉淀为 Example Library,再抽象成 Tool Library。
  3. 闭环结构相近:任务四关心“遇到问题、思考推理、学习成长”,TVP 的 program-tool-program cycle 正好给了一个清晰样例。

这页的结论可以说成:

TVP 不解决 TongSim 的全部交互问题,但它把“经验如何变成技能库”这件事讲得很清楚,因此适合作为任务四 learning loop 的参考论文。

Slide 11:TVP 不能直接覆盖任务四的地方

主动讲边界,避免过度包装:

随后立刻落到可借鉴点:

这篇论文的价值不是提供 TongSim 现成方案,而是说明一个 agent 如何把成功问题求解过程积累起来,并进一步抽象和维护成工具型技能。

Slide 12:对任务四的三点启发

这一页不写迁移方案,只收束成任务四可以借鉴的三点思想:

  1. 不要只看最终答案,要保存求解过程
    TVP 保存的是 program、execution trace 和 judge 评价。对任务四来说,交互过程中的观察、推理步骤、检查结果和成功/失败原因同样重要。

  2. 技能应来自反复出现的问题模式
    TVP 不是先拍脑袋造工具,而是从成功经验中找 recurring patterns。任务四也应避免只靠人工枚举技能,而应关注交互中反复出现的问题类型。

  3. 技能库需要维护,而不是无限新增
    TVP 的 Tool Library Maintenance 说明,技能库如果只增不合会越来越难用。任务四后续也需要关注技能去重、泛化和回归验证。

Slide 13:这篇论文最值得带走的观点

这一页继续保持论文讨论,不写系统迁移方案。建议讲成一个主判断:

TVP 的关键不是“又让 LLM 写程序”,而是把程序化求解过程组织成可积累、可抽象、可复用、可归并的经验闭环。

可以用三句话展开:

Slide 14:最后总结

建议收束成三句话:

  1. TVP 的核心贡献是把 visual programming 从固定工具/投机工具,推进到 从经验中演化工具库
  2. 它覆盖了技能发现、生成、改善和归并四个环节,而且是 ICLR 2026 中稿论文。
  3. 对任务四来说,TVP 的价值在于提供 TongSim learning loop 的结构模板:把交互过程中的问题求解轨迹沉淀成可复用、可验证、可维护的技能库。

3. 逐页讲法和展开重点

Slide 1:报告问题和论文入口,讲 2 分钟

直接从问题开场:具身智能体如果每次都从零推理,就无法形成持续能力。TVP 的价值在于展示“成功问题求解程序如何沉淀成工具库”。

可讲句:

如果一个具身智能体每次遇到空间或交互问题都从零开始推理,它就没有形成真正的 learning loop。TVP 讨论的正是如何把成功的问题求解程序沉淀成可复用工具库。

Slide 2:任务四需求拆解,讲 2 分钟

把任务四读成四个问题:TongSim 看到什么、遇到什么交互问题、如何推理、推理之后如何学习。这里要明确任务四不是只做 benchmark,也不是只做低层动作,而是要形成 learning loop。

可讲句:

任务四真正难的是闭环。一次解决问题不够,系统要知道这次解决过程以后能不能复用,能不能变成一个更稳定的技能。

Slide 3:TVP 的问题定义,讲 3 分钟

这里要讲清两类 baseline 的问题:固定工具集不能长大,投机式工具生成没有经验 grounding。TVP 的立场是先做题、再从成功解法里长工具。

建议展开一点 visual programming 背景:TVP 也让 agent 写程序,但重点不是写出一次答案,而是把反复成功的程序结构变成工具库。

Slide 4:总体闭环,讲 3 分钟

这是方法入口页。建议画环,不要照着文字念。核心是两个库:Example Library 保存具体成功经验,Tool Library 保存可调用抽象工具。

讲清一个关键点:Example Library 不是 memory 摆设,它直接参与后续 program generation;Tool Library 也不是人工预设清单,它会随着经验演化。

Slide 5:为什么这是 skill learning,讲 3 分钟

这是回应听众可能产生的概念疑问。要明确 TVP 的 skill 不是机器人动作 primitive,而是 agent 可调用的程序化推理工具。

四个关键词逐个对齐:

Slide 6:Phase I,讲 3 分钟

不要只说“LLM 生成程序”。重点是经验筛选机制:候选程序要执行,失败的不要,能执行的再由 judge 结合图像和 trace 打分。

任务四关联点:TongSim 里每次交互都应记录可回放 trace。没有 trace,就没法从经验中抽象技能。

Slide 7:Phase II,讲 3 分钟

这里讲经验如何变成工具。重点是 transductive:不是根据任务描述提前猜工具,而是从已经成功的 programs 里抽象工具。

必须讲验证:新工具不能只看起来像总结,它要能替换原程序片段,并在历史 examples 上保持执行成功和结果质量。

Slide 8:工具归并,讲 2 分钟

这页很重要,因为技能库如果只增不合,会变成另一个负担。TVP 的 maintenance 把相似工具合并,并用原工具覆盖的 examples 做回归验证。

任务四关联点:技能库也需要 merge / dedup / regression test。

Slide 9:实验,讲 3 分钟

只讲三条证据:Omni3D-Bench 效果、transductive tools 使用率更高、SpatialScore-Hard 泛化。不要逐个模型报表。

这页的结论是:经验驱动抽象出来的工具真的被后续程序使用,而且不是只在一个测试集上凑巧有效。

Slide 10:这篇论文和任务四的关系,讲 3 分钟

不要讲具体迁移方案。只讲为什么它和任务四有关:任务四也需要从多模态观察和物理交互问题中形成可执行推理过程,并把可复用过程沉淀下来。

可讲句:

我们不是说 TVP 可以直接搬到 TongSim,而是说它把“经验如何形成技能库”这个闭环讲得很清楚。

Slide 11:边界,讲 2 分钟

主动承认边界:TVP 不直接做完整物理交互,也不输出动作序列。这样反而更可信。

收束句:

它不是任务四的现成系统方案,而是一篇适合参考 learning loop 结构的论文。

Slide 12:三点启发,讲 3 分钟

这页讲高层启发,不讲工程实现:保存过程、从重复问题中抽象技能、维护技能库。

可讲句:

如果只保存最终成功或失败,系统学不到技能。TVP 的思路是把求解过程本身保存下来,再从重复出现的过程里抽象工具。

Slide 13:论文 take-away,讲 2 分钟

这页回到论文本身。强调 TVP 的贡献不是单纯提升 3D spatial reasoning 分数,而是给出了一种经验驱动的 tool-library evolution 方式。

Slide 14:总结,讲 1 分钟

最后只保留一个判断:

TVP 给任务四最有价值的不是一个现成算法,而是一个把交互经验沉淀为可复用、可验证、可维护技能库的闭环范式。

4. 建议重点讲的三张图/表

  1. Figure 1 / Figure 3:dual-library closed loop
    用来讲 Example Library 与 Tool Library,以及 program-tool-program cycle。

  2. Figure 4:Tool Library Maintenance
    用来讲技能归并。这个点能帮助听众理解为什么技能库不能只新增、不维护。

  3. Table 1 / Table 2:效果与泛化
    只讲结论,不需要逐项报数。重点是“经验驱动工具抽象确实提高了 3D spatial reasoning,并且能泛化到新的 spatial benchmarks”。

5. 可能被问到的问题

Q1:TVP 是具身论文吗?

答:它不是机器人动作控制论文,但它面向真实 3D 场景中的空间推理,属于 embodied perception / spatial reasoning 方向。对任务四来说,它提供的是物理世界交互中“推理技能如何形成和维护”的结构参考,而不是低层控制算法。

Q2:TVP 的 skill 和 robot skill 是一个概念吗?

答:不是。TVP 的 skill 是可调用的程序化推理工具,robot skill 通常指动作策略或运动 primitive。本报告关注它,是因为任务四需要 agent 在交互中积累、抽象、复用和归并问题求解技能。

Q3:它的 learning loop 在哪里?

答:在 program-tool-program cycle。系统先用当前工具解决问题并积累成功程序,再从这些程序中抽象新工具,新工具又改善后续程序,后续更好的程序继续进入经验库。这个循环就是 TVP 的核心 learning loop。

Q4:它是否需要人类干预?

答:TVP 的工具生成和验证主要由系统自动完成,依赖执行结果和 VLM judge。它不是“发现缺什么后交给人类补数据”的流程。这点更贴近任务四想要的闭环学习。

6. 参考来源

7. 最终推荐口径

部门分享时可以固定成这句话:

TVP 的价值不在于直接替代 TongSim 的物理交互系统,而在于提供一个清晰闭环:把具身场景中的问题求解过程记录下来,从成功经验中抽象可复用工具,再通过验证和归并维护工具库。这个闭环对任务四的多模态交互学习有直接启发:智能体不只要解决当前问题,还要把可复用的问题求解过程沉淀成技能。