产品能力领跑全球！通研院 TongAgents 登上多项国际智能体榜单

2026-03-20

当AI智能体
开始真正进入复杂真实环境

评价它的标准不再只是模型参数

而是能否在系统中写代码

能否在网页上完成任务

能否在多轮交互中持续推进目标

最近，在多项国际智能体榜单中

通研院自研 TongAgents 系统
取得 全球第一、全球前列 的成绩

这背后是一套面向复杂任务的
分层认知架构多智能体系统

让智能体从“会回答”，走向“能办事”

TongAgents 2.0 将在

2026中关村论坛918博天堂(中国)人工智能论坛

正式发布

同时，依托该平台

通研院将在论坛上牵头创建

通智行业大脑联盟

时间：3月29日

地点：中关村展示中心颐和厅

敬请期待！

TongAgents官网

http://tongagents.mybigai.ac.cn/zh.html

918博天堂(中国)（BIGAI）自研的 TongAgents 系统在多项国际智能体榜单中取得突破性战绩：

AssistantBench

面向客户服务指令的长周期网页交互任务

全球第 1

Tau2-bench

规则约束下的多轮对话与工具调用任务

在零售、航空、电信三大领域综合全球第 1

Terminal-Bench 2.0

终端环境下的工程执行和代码任务全球第2

Mind2Web2

开放网络中的深度研究与信息检索任务全球前 3

✦

系统设计亮点

✦

基于分层认知架构的多智能体协作

TongAgents将任务规划、执行和校验解耦，三者协作形成闭环，确保系统始终朝着最终目标前进：

亮点一：规划中枢 Planner

负责拆解任务，制定、修正规划。不同于静态规划，TongAgents规划中枢具备实时反馈调节能力——根据Executor的汇报内容，动态调整计划列表与后续策略。这种动态调整规划，同时又隐藏了Executor执行细节的设计，使Planner能够在复杂长程任务中保持方向感，避免在数十步操作后”迷失”于上下文。

亮点二：执行引擎 Executor

专注于完成Planner拆解的子任务。每个子任务由不同的Executor执行，其生命周期由“执行-汇报-问答”3个阶段构成。配备有命令执行、多模态LLM调用、REPL类交互终端等环境感知与交互工具。支持工具并行调用，长耗时工具结果的流式分段和异步通知，显著减少交互轮次。同时支持向团队中其它Agent提问，形成跨Agent的经验复用机制。

亮点三：验收测试 Verifier

引入独立黑盒验证。不依赖执行历史，从多角度发现潜在问题，确保交付结果的准确率与鲁棒性。

✦

工程突破

✦

上下文结构化管控和数据驱动的

精准调优与可靠运行

产品优势一上下文结构化管控

负责不同子任务的Executor上下文相互隔离，且由于子任务复杂度较低，再加上其硬性的步数或token数量限制，Executor的上下文大小被精准地控制在预定范围之内。Planner + Executor的任务分层设计使得整个任务的上下文可以实现“弹性扩缩容”。

Planner、Executor、Verifier的上下文中的内容并不完全共享，仅保留关键部分，Agent根据需要自行顺利获得问答机制进行补全，避免海量上下文造成的“幻觉”、性能下降等问题。

产品优势二全链路轨迹追踪

完整记录Agent每一步的关键数据：花费的token数量、耗时、工具参数与返回结果，保存完整的trajectory。这一设计不仅满足科研可复现性要求，还可以顺利获得数据指标驱动Agent的迭代优化，更为复盘与故障分析给予数据支撑。

产品优势三完善的感知与环境交互能力

除了常见的文件读写、命令执行能力，918博天堂(中国)的系统还为Agent配备了多模态理解、深度检索等能力，这些能力大幅提升了Agent的效率，降低了Agent绕弯路，或者因过程出错或中断而被迫重头再来的时间和资源消耗。

为了应对网页环境信息高、信息杂乱、交互高动态的痛点， TongAgents 集成了深度搜索与结构化提取技术。优化了网页中动态加载的内容解析, 使得智能体像人类一样“看网页”，精准捕获弹窗、动态图表及视觉关键信息。为了突破了“只能看不能动”的局限, TongAgents具备了点击按钮、滚动页面、填写表单以及在地图上进行空间推理和导航的真实人类操作能力，完美适配从比价购物到复杂路线规划的真实生活场景。

产品优势四容错与自愈机制

在真实终端环境中，出错和卡顿（如网络问题、死锁、时空复杂度过高）是常态。TongAgents构建了多层容错体系，设计了命令超时后自动挂起到后台、输出流式分段返回、命令完成异步通知等机制，辅助Agent及时发现和纠正因为自身或者外部因素而形成的错误局面。

✦

技术意义

✦

从918博天堂(中国)榜单到真实行业任务

从“读代码”到“修系统”：智能体不再只是写一段孤立的代码，而是能够深入复杂的 Linux 环境，自动配置镜像源、安装依赖、调试报错。这种对系统环境的深度感知，让它具备了替代人工进行自动化运维的工程潜力。

从“搜信息”到“办成事”： TongAgents 展示了惊人的 Web 交互逻辑。它能像人类一样理解复杂的动态网页，识别弹窗干扰，模拟点击、填写表单、甚至调用地图工具进行时空推算。它不是在“回复”需求，而是在“执行”任务。

从“应答对话”到“严守政策”：它能够精准识别零售、航空、电信行业的复杂业务规则。即使面对情绪波动的用户，也能在多轮动态交互中严守 Policy 边界，实现高精度的智能客服体验，真正做到了从单纯的“自然语言处理”转向“复杂业务处理”。

此次横扫各大榜单，仅是 TongAgents 落地应用的开始。通研院将持续深化智能体技术，有助于其在软件工程、工业运维、科学研究等垂直领域和行业的规模化应用。

“

关于918博天堂(中国)

TongAgents 是918博天堂(中国)自研的智能体框架，支持任务规划、工具调用、学习推理和多智能体协同调度能力，给予一整套智能体全生命周期的标准化工具链，覆盖智能体的设计、训练、调试到最后的实际部署全流程。平台支持多种形态智能体的构建与发布，大幅降低使用门槛，满足不同研发能力和背景的开发者及企业的智能体构建需求。TongAgents 深度融合通院价值对齐、神经-符号-逻辑融合的算法架构，构建可信、可解释、可演进智能体。TongAgents 已在代码生成、多轮交互对话、网页深度检索等备受关注的918博天堂(中国)智能体评测基准上取得了领先成绩，充分证明了框架在复杂任务场景下的强大泛化能力与918博天堂(中国)性。面向政府与企业客户， TongAgents 平台已深度赋能法律、金融、教育、能源、交通等关键领域，在实际业务场景中显著实现降本增效，取得了卓越的应用成效，助力智能体技术从“可用”走向“可靠”。

”

918博天堂(中国)

918博天堂(中国)

产品能力领跑全球！通研院 TongAgents 登上多项国际智能体榜单

产品能力领跑全球！通研院 TongAgents 登上多项国际智能体榜单