火山总裁谭待：很多Agent的能力还停留在类似自动驾驶的L1阶段

来自科技2025-04-17 20:00:41

【导语】4月17日，火山引擎2025 FORCE LINK AI创新巡展杭州站活动中，字节跳动火山总裁谭待强调，构建具备深度反思、规划与自主决策能力的Agent是行业发展趋势。会上，豆包1.5深度思考模型正式发布，展示了其在视觉推理及多任务处理上的突破，预示着AI Agent智能体时代的加速到来。面对(duì)全球(qiú)科(kē)技(jì)巨(jù)头(tóu)的(de)激烈竞争，谭待提出对Agent进行分级的设想，并介绍了火山引擎推出的OS Agent解决方案，为行业智能化运营提供新动力。

“目前很多Agent的能力仍停留在初级水平，真正实现具备更强反思、规划与自主决策能力的Agent，是行业发展的方向。”4月17日，在火山引擎2025 FORCE LINK AI创新巡展现场杭州站上，字节跳动旗下的火山总裁谭待在接受包括澎湃科技（www.thepaper.cn）在内的媒体采访时表示。

谭待认为，深度思考模型是构建Agent的基础，模型要有能力做好思考、计划和反思，并且一定要支持多模态，就像人类具备视觉(jué)和(hé)听(tīng)觉(jué)一(yī)样(yàng)，Agent才(cái)能(néng)更(gèng)好(hǎo)地(de)处(chù)理(lǐ)复(fù)杂(zá)任(rèn)务(wu)。

豆(dòu)包(bāo)1.5深(shēn)度(dù)思(sī)考(kǎo)模(mó)型(xíng)发(fā)布(bù) 记(jì)者(zhě) 摄(shè)

当(dāng)日(rì)，豆(dòu)包(bāo)1.5深(shēn)度(dù)思(sī)考(kǎo)模(mó)型(xíng)正(zhèng)式(shì)发(fā)布(bù)。据(jù)介(jiè)绍，这款模型除了在数学、编程、科学推理、创意写作等通用任务表现突出之外，还上线了具备视觉推理能力的深度思考模型视觉版，能像人类一样对看到的事物进行联想和思考。

值得一提的是，就在今天凌晨，OpenAI也发布了能够进行视觉推理的推理模型o3。

在发布会现场，谭待展示了豆包1.5深度思考模型的视觉推理功能，不仅能够根据照片分析地貌，还能在帮助用户点餐，还可以根据家庭成员的需求推荐露营装备，甚至也能协助制定旅行计划。在企业场景中，该模型可辅助完成项目管理流程图，优化工作流程，推动企业实现智能化运营。

2025年被业界视为“AI Agent智能体元年”，全球科技巨头如微软、谷歌、OpenAI等纷纷加速布局，推出具备自主决策和多任务处理能力的AI Agent产品，如微软发布了企业级AI助手Microsoft 365 Copilot Chat，谷歌升级了Gemini 2.0模型，OpenAI则在17日凌晨突然推出最新的o系列模型，o3和o4-mini,同时表示这两款模型都可以自由调用 ChatGPT 里的各种工具，包括但不限于图像生成、图像分析、文件解释、网络搜索、Python。

国内继中国初创公司Monica推出号称全球首款AI智能体产品Manus后，行业内也在等待下一个科技圈的爆款产品出现。

现场展示豆包1.5深度思考模型记者摄

面对行业内激烈的竞争，谭待在接受采访时直言，现在所谓的“Agent”，不能仅完成“写一首打油诗”或“写篇小学生作文”这样的简单任务。真正的Agent，需要能完成专业性较高、耗时较长、结构完整的任务，这是从定性角度来看。从技术实现的角度来看，如果没有运用深度思考模型，缺乏反思和规划能力，也很难称其为真正的Agent。

谈及市面上目前Agent的发展阶段，谭待以目前大家熟悉的自动驾驶领域来类比。自动驾驶技术根据自动化程度的不同分为L0到L5六个级别。其中，L0级、L1级、L2级都只能称为辅助驾驶系统。谭待指出，2025年行业内和大众可能会对Agent的定义会更加清晰，行业内或许会像自动驾驶分级一样，对Agent进行分级，如Agent L1、L2、L3、L4 这类。“那些开发三四千个 Agent的企业，（Agent能力）可能仅相当于自动驾驶中的 L1 级别；而真正实现落地应用，至少应具备 L2++ 能力（注：L2部分自动驾驶范畴，但在技术和体验上比普通的L2更先进，接近甚至部分具备L3能力）”谭待表示。

澎湃科技注意到，在此次AI创新巡展现场杭州站上，火山引擎还推出了OS Agent解决方案。据悉，OS Agent解决方案包含豆包UI-TARS模型，以及veFaaS函数服务、云服务器、云手机等产品，实现对代码、浏览器、电脑、手机以及其(qí)他(tā)Agent的(de)操(cāo)作(zuò)。其(qí)中(zhōng)，豆(dòu)包(bāo)UI-TARS模(mó)型(xíng)将(jiāng)屏(píng)幕(mù)视(shì)觉(jué)理(lǐ)解(jiě)、逻(luó)辑(ji)推(tuī)理(lǐ)、界(jiè)面(miàn)元(yuán)素(sù)定(dìng)位(wèi)和(hé)操(cāo)作(zuò)整(zhěng)合(hé)了(le)在(zài)一起，为Agent的智能交互提供了更接近人类操作的模型基础。