来自 科技2025-04-17 20:00:41
【导语】4月17日,火山引擎2025 FORCE LINK AI创新巡展杭州站活动中,字节跳动火山总裁谭待强调,构建具备深度反思、规划与自主决策能力的Agent是行业发展趋势。会上,豆包1.5深度思考模型正式发布,展示了其在视觉推理及多任务处理上的突破,预示着AI Agent智能体时代的加速到来。面对(duì)全球(qiú)科(kē)技(jì)巨(jù)头(tóu)的(de)激烈竞争,谭待提出对Agent进行分级的设想,并介绍了火山引擎推出的OS Agent解决方案,为行业智能化运营提供新动力。
“目前很多Agent的能力仍停留在初级水平,真正实现具备更强反思、规划与自主决策能力的Agent,是行业发展的方向。”4月17日,在火山引擎2025 FORCE LINK AI创新巡展现场杭州站上,字节跳动旗下的火山总裁谭待在接受包括澎湃科技(www.thepaper.cn)在内的媒体采访时表示。
谭待认为,深度思考模型是构建Agent的基础,模型要有能力做好思考、计划和反思,并且一定要支持多模态,就像人类具备视觉(jué)和(hé)听(tīng)觉(jué)一(yī)样(yàng),Agent才(cái)能(néng)更(gèng)好(hǎo)地(de)处(chù)理(lǐ)复(fù)杂(zá)任(rèn)务(wu)。

豆(dòu)包(bāo)1.5深(shēn)度(dù)思(sī)考(kǎo)模(mó)型(xíng)发(fā)布(bù) 记(jì)者(zhě) 摄(shè)
当(dāng)日(rì),豆(dòu)包(bāo)1.5深(shēn)度(dù)思(sī)考(kǎo)模(mó)型(xíng)正(zhèng)式(shì)发(fā)布(bù)。据(jù)介(jiè)绍,这款模型除了在数学、编程、科学推理、创意写作等通用任务表现突出之外,还上线了具备视觉推理能力的深度思考模型视觉版,能像人类一样对看到的事物进行联想和思考。
值得一提的是,就在今天凌晨,OpenAI也发布了能够进行视觉推理的推理模型o3。
在发布会现场,谭待展示了豆包1.5深度思考模型的视觉推理功能,不仅能够根据照片分析地貌,还能在帮助用户点餐,还可以根据家庭成员的需求推荐露营装备,甚至也能协助制定旅行计划。在企业场景中,该模型可辅助完成项目管理流程图,优化工作流程,推动企业实现智能化运营。
2025年被业界视为“AI Agent智能体元年”,全球科技巨头如微软、谷歌、OpenAI等纷纷加速布局,推出具备自主决策和多任务处理能力的AI Agent产品,如微软发布了企业级AI助手Microsoft 365 Copilot Chat,谷歌升级了Gemini 2.0模型,OpenAI则在17日凌晨突然推出最新的o系列模型,o3和o4-mini,同时表示这两款模型都可以自由调用 ChatGPT 里的各种工具,包括但不限于图像生成、图像分析、文件解释、网络搜索、Python。
国内继中国初创公司Monica推出号称全球首款AI智能体产品Manus后,行业内也在等待下一个科技圈的爆款产品出现。

现场展示豆包1.5深度思考模型 记者 摄
面对行业内激烈的竞争,谭待在接受采访时直言,现在所谓的“Agent”,不能仅完成“写一首打油诗”或“写篇小学生作文”这样的简单任务。真正的Agent,需要能完成专业性较高、耗时较长、结构完整的任务,这是从定性角度来看。从技术实现的角度来看,如果没有运用深度思考模型,缺乏反思和规划能力,也很难称其为真正的Agent。
谈及市面上目前Agent的发展阶段,谭待以目前大家熟悉的自动驾驶领域来类比。自动驾驶技术根据自动化程度的不同分为L0到L5六个级别。其中,L0级、L1级、L2级都只能称为辅助驾驶系统。谭待指出,2025年行业内和大众可能会对Agent的定义会更加清晰,行业内或许会像自动驾驶分级一样,对Agent进行分级,如Agent L1、L2、L3、L4 这类。“那些开发三四千个 Agent的企业,(Agent能力)可能仅相当于自动驾驶中的 L1 级别;而真正实现落地应用,至少应具备 L2++ 能力(注:L2部分自动驾驶范畴,但在技术和体验上比普通的L2更先进,接近甚至部分具备L3能力)”谭待表示。
澎湃科技注意到,在此次AI创新巡展现场杭州站上,火山引擎还推出了OS Agent解决方案。据悉,OS Agent解决方案包含豆包UI-TARS模型,以及veFaaS函数服务、云服务器、云手机等产品,实现对代码、浏览器、电脑、手机以及其(qí)他(tā)Agent的(de)操(cāo)作(zuò)。其(qí)中(zhōng),豆(dòu)包(bāo)UI-TARS模(mó)型(xíng)将(jiāng)屏(píng)幕(mù)视(shì)觉(jué)理(lǐ)解(jiě)、逻(luó)辑(ji)推(tuī)理(lǐ)、界(jiè)面(miàn)元(yuán)素(sù)定(dìng)位(wèi)和(hé)操(cāo)作(zuò)整(zhěng)合(hé)了(le)在(zài)一起,为Agent的智能交互提供了更接近人类操作的模型基础。