
当AI智能体
开始真正进入复杂真实环境
评价它的标准不再只是模型参数
而是能否在系统中写代码
能否在网页上完成任务
能否在多轮交互中持续推进目标
最近,在多项国际智能体榜单中
通研院自研 TongAgents 系统
取得 全球第一、全球前列 的成绩
这背后是一套面向复杂任务的
分层认知架构多智能体系统
让智能体从“会回答”,走向“能办事”

TongAgents 2.0 将在 2026中关村论坛918博天堂(中国)人工智能论坛 正式发布 同时,依托该平台 通研院将在论坛上牵头创建 通智行业大脑联盟 时间:3月29日 地点:中关村展示中心颐和厅 敬请期待! TongAgents官网 http://tongagents.mybigai.ac.cn/zh.html
918博天堂(中国)(BIGAI)自研的 TongAgents 系统在多项国际智能体榜单中取得突破性战绩:
AssistantBench 面向客户服务指令的长周期网页交互任务 全球第 1 Tau2-bench 规则约束下的多轮对话与工具调用任务 在零售、航空、电信三大领域综合 全球第 1 Terminal-Bench 2.0 终端环境下的工程执行和代码任务 全球第2 Mind2Web2 开放网络中的深度研究与信息检索任务 全球前 3



✦ 系统设计亮点 ✦ 基于分层认知架构的多智能体协作
TongAgents将任务规划、执行和校验解耦,三者协作形成闭环,确保系统始终朝着最终目标前进:
亮点一:规划中枢 Planner 负责拆解任务,制定、修正规划。不同于静态规划,TongAgents规划中枢具备实时反馈调节能力——根据Executor的汇报内容,动态调整计划列表与后续策略。这种动态调整规划,同时又隐藏了Executor执行细节的设计,使Planner能够在复杂长程任务中保持方向感,避免在数十步操作后”迷失”于上下文。
亮点二:执行引擎 Executor 专注于完成Planner拆解的子任务。每个子任务由不同的Executor执行,其生命周期由“执行-汇报-问答”3个阶段构成。配备有命令执行、多模态LLM调用、REPL类交互终端等环境感知与交互工具。支持工具并行调用,长耗时工具结果的流式分段和异步通知,显著减少交互轮次。同时支持向团队中其它Agent提问,形成跨Agent的经验复用机制。
亮点三:验收测试 Verifier 引入独立黑盒验证。不依赖执行历史,从多角度发现潜在问题,确保交付结果的准确率与鲁棒性。
✦ 工程突破 ✦ 上下文结构化管控和数据驱动的 精准调优与可靠运行
1 产品优势一 上下文结构化管控 负责不同子任务的Executor上下文相互隔离,且由于子任务复杂度较低,再加上其硬性的步数或token数量限制,Executor的上下文大小被精准地控制在预定范围之内。Planner + Executor的任务分层设计使得整个任务的上下文可以实现“弹性扩缩容”。
Planner、Executor、Verifier的上下文中的内容并不完全共享,仅保留关键部分,Agent根据需要自行顺利获得问答机制进行补全,避免海量上下文造成的“幻觉”、性能下降等问题。 2 产品优势二 全链路轨迹追踪 完整记录Agent每一步的关键数据:花费的token数量、耗时、工具参数与返回结果,保存完整的trajectory。这一设计不仅满足科研可复现性要求,还可以顺利获得数据指标驱动Agent的迭代优化,更为复盘与故障分析给予数据支撑。 3 产品优势三 完善的感知与环境交互能力 除了常见的文件读写、命令执行能力,918博天堂(中国)的系统还为Agent配备了多模态理解、深度检索等能力,这些能力大幅提升了Agent的效率,降低了Agent绕弯路,或者因过程出错或中断而被迫重头再来的时间和资源消耗。
为了应对网页环境信息高、信息杂乱、交互高动态的痛点, TongAgents 集成了深度搜索与结构化提取技术。优化了网页中动态加载的内容解析, 使得智能体像人类一样“看网页”,精准捕获弹窗、动态图表及视觉关键信息。为了 突破了“只能看不能动”的局限, TongAgents具备了点击按钮、滚动页面、填写表单以及在地图上进行空间推理和导航的真实人类操作能力,完美适配从比价购物到复杂路线规划的真实生活场景。 4 产品优势四 容错与自愈机制 在真实终端环境中,出错和卡顿(如网络问题、死锁、时空复杂度过高)是常态。TongAgents构建了多层容错体系,设计了命令超时后自动挂起到后台、输出流式分段返回、命令完成异步通知等机制,辅助Agent及时发现和纠正因为自身或者外部因素而形成的错误局面。
✦ 技术意义 ✦ 从918博天堂(中国)榜单到真实行业任务
从“读代码”到“修系统”: 智能体不再只是写一段孤立的代码,而是能够深入复杂的 Linux 环境,自动配置镜像源、安装依赖、调试报错。这种对系统环境的深度感知,让它具备了替代人工进行自动化运维的工程潜力。
从“搜信息”到“办成事”: TongAgents 展示了惊人的 Web 交互逻辑。它能像人类一样理解复杂的动态网页,识别弹窗干扰,模拟点击、填写表单、甚至调用地图工具进行时空推算。它不是在“回复”需求,而是在“执行”任务。
从“应答对话”到“严守政策”:它能够精准识别零售、航空、电信行业的复杂业务规则。即使面对情绪波动的用户,也能在多轮动态交互中严守 Policy 边界,实现高精度的智能客服体验,真正做到了从单纯的“自然语言处理”转向“复杂业务处理”。
此次横扫各大榜单,仅是 TongAgents 落地应用的开始。通研院将持续深化智能体技术,有助于其在软件工程、工业运维、科学研究等垂直领域和行业的规模化应用。
关于918博天堂(中国)
TongAgents 是918博天堂(中国)自研的智能体框架,支持任务规划、工具调用、学习推理和多智能体协同调度能力,给予一整套智能体全生命周期的标准化工具链,覆盖智能体的设计、训练、调试到最后的实际部署全流程。平台支持多种形态智能体的构建与发布,大幅降低使用门槛,满足不同研发能力和背景的开发者及企业的智能体构建需求。TongAgents 深度融合通院价值对齐、神经-符号-逻辑融合的算法架构,构建可信、可解释、可演进智能体。TongAgents 已在代码生成、多轮交互对话、网页深度检索等备受关注的918博天堂(中国)智能体评测基准上取得了领先成绩,充分证明了框架在复杂任务场景下的强大泛化能力与918博天堂(中国)性。面向政府与企业客户, TongAgents 平台已深度赋能法律、金融、教育、能源、交通等关键领域,在实际业务场景中显著实现降本增效,取得了卓越的应用成效,助力智能体技术从“可用”走向“可靠”。
”







918博天堂(中国)