OpenAI推出全新推理模型o3、o4-mini，以及一个编程智能体

来自科技2025-04-17 15:00:33

【导语】4月17日凌晨，OpenAI震撼发布其系列中最强大的推理模型——o3与o4-mini，主打Agent功能，标志着AI在自主调用工具和解决复杂问题上的重大突破。此次发布不仅展示了模型在视觉推理和多模态能力上的卓越表现，还预告了一系列编程工具的革新，旨在重新定义AI时代的编程。OpenAI的这一布局，无疑再次引发了业界对AI未来发展方向的深思，同时也预示着编程领域或将迎来颠(diān)覆(fù)性(xìng)的(de)变(biàn)革(gé)。

4月17日凌晨，OpenAI正式宣布推出目前OpenAI系列里能力最强的推理模型——o3模型和o4-mini模型。

去年12月，OpenAI就预热过o3推理模型，当时强调的重点是o3模型在解决困难问题上的能力，要显著强于OpenAI第一代推理模型o1。

而此次正式发布中，OpenAI不仅强调了o3模型在能力上的领先性，同时还强调了o3的(de)Agent能(néng)力(lì)，且(qiě)强(qiáng)调(diào)o3是(shì)第(dì)一(yī)代(dài)能(néng)够(gòu)在(zài)思(sī)维(wéi)链(liàn)中(zhōng)使(shǐ)用(yòng)图(tú)像(xiàng)进(jìn)行(xíng)推(tuī)理(lǐ)的(de)模(mó)型(xíng)。

自(zì)主调(diào)用(yòng)工(gōng)具(jù)是(shì)Agent能(néng)力(lì)最(zuì)重(zhòng)要(yào)的(de)体(tǐ)现(xiàn)。OpenAI表(biǎo)示(shì)，曾(céng)看(kàn)到(dào)o3为(wèi)了(le)解(jiě)一(yī)个(gè)特(tè)别(bié)难(nán)的(de)任(rèn)务(wu)，连(lián)续(xù)调(diào)用(yòng)了(le)大(dà)约(yuē)600次(cì)工(gōng)具(jù)。

随(suí)着(zhe)OpenAI的(de)O系(xì)列(liè)、DeepSeek R1等推理模型日趋成熟，业内普遍认为，只需一条指令即可完成整套任务的AI Agent能力将迎来显著提升。

相比于Google，Anthropic等从去年就开始宣传Agent能力，甚至已经开始推动MCP、A2A等Agent协议普及的公司，OpenAI之前在Agent能力上的布局相对缺失。而今天的发布，证明OpenAI在Agent能力上，仍然有自己的思考和布局。

OpenAI宣布，从今天开始，Plus、Pro和Team用户就可以使用o3模型和o4-mini模型了，接下来几周还会(huì)推(tuī)出(chū)o3-pro模(mó)型(xíng)，替(tì)代(dài)过(guò)去(qù)的(de)o1-pro模(mó)型(xíng)。

在(zài)彩(cǎi)蛋(dàn)环(huán)节(jié)，OpenAI还(hái)表(biǎo)示(shì)，未(wèi)来(lái)将(jiāng)发(fā)布(bù)一(yī)系(xì)列(liè)编(biān)程(chéng)工(gōng)具(jù)，重(zhòng)新(xīn)定(dìng)义(yì)AI时(shí)代(dài)的(de)编(biān)程(chéng)，首(shǒu)发(fā)的(de)是(shì)一(yī)个(gè)叫(jiào)Codex CLI的(de)开(kāi)源(yuán)轻(qīng)量(liàng)化(huà)编(biān)程(chéng)agent。Codex CLI可(kě)以(yǐ)直(zhí)接(jiē)使(shǐ)用(yòng)OpenAI的(de)模(mó)型(xíng)（最(zuì)终(zhōng)包(bāo)括(kuò)o3和(hé)o4-mini），接(jiē)管(guǎn)本(běn)地(de)计(jì)算(suàn)机(jī)终(zhōng)端(duān)命(mìng)令(lìng)行(xíng)界(jiè)面(miàn)，直(zhí)接(jiē)进(jìn)行(xíng)代码编写和文件移动等等。

OpenAI的展示很有意念编程（vibe coding）的味道了：直接在网页上截图了一个别人编程好的效果图，丢给Codex CLI，跟它说做一个html文件复现这个效果，并做一些改动。很快，Codex CLI就自己写了代码，调用了系统工具，复现出了一个类似的效果。

OpenAI今日的发布大致符合预期——o3和 o4-mini已经预热多时，视觉推理与Agent能力也早已在其他公司的模型中有所体现。

不过，从今天的发布中仍能看出OpenAI在Agent等前沿方向上的布局节奏，以及将已有能力产品化的独特能力。

OpenAI的模型迭代，也再一次重新肯定了后训练Scaling Law的存在。目前看来，AI模型在接下来几年，仍然会出现能力的快速进化，还未到达瓶颈。

OpenAI的Agent能力，目前更多的是调用自身的工具

OpenAI此次发布的一大亮点在于Agent的能力。最初的两个展示都与工具调用能力有关。

第一个展示是研究员给了OpenAI一个十年前写过的论文图片，让o3模型找到一个特定的结果，并和最新的研究成果进行比较。

o3模型首先利用内置的视觉推理能力，放大图片，找到了研究员想要的特定结果，然后根据图片中的内容进行推理，算出了论文推导的数值，然后使用搜索功能，查找了十篇论文，比较了最新研究成果与作者十年前论文的结果的区别，最后给出了自己的建议。

第二个演示是研究员问OpenAI，根据我的兴趣，读新闻，告诉我一些我可能感兴趣的事情。

这个演示则利用的是OpenAI内置的记忆工具——OpenAI几天前刚刚宣布OpenAI的模型目前有了可以访问用户全量记忆的能力。

o3模型先是访问记忆后，找出用户喜欢水肺潜水和弹奏音乐，然后利用搜索功能，找到了一条交叉两条兴趣的新闻：研究人员会录下健康珊瑚礁的声音，然后用水下扬声器在海里播放这些声音，以保护珊瑚。

最后o3模型使用了OpenAI的canvas工具和数据分析工具，生成了一个漂亮的博客界面，完成了任务。

可以看到，在OpenAI目前的布局当中，Agent能力更多的是调用OpenAI的内部工具。

不过，在基础的工具调用能力水平存在的情况下，如果想要接入其他工具，似乎也并不是很难。OpenAI今年3月刚刚宣布接入MCP协议，为之后使用其他工具打下了基础。

o4-mini 表现出色，RL的Scaling Law仍在起作用

虽然在去年12月OpenAI曾经预热过o3模型的具体能力，这次正式发布，官方表示因为进行了「对推理成本和实用性做了大量优化」，在评测结果上，OpenAI表示可能会有差别。

在发布会直播中，OpenAI展示了几组测试结果，o3模型和o4-mini模型在数学能力、代码能力和多模态能力上都表现出色：

值得注意的是，在多个维度上，o4-mini的表现并不逊色于o3。尤其是在高难度数学竞赛AMI中，o4-mini结合工具的准确率达到了99%，几乎逼近评测上限。这似乎意味着，o4模型在未来一定会有更加惊人的表现。

OpenAI 研(yán)究(jiū)员(yuán)姚(yáo)顺(shùn)雨(yǔ)近(jìn)期(qī)在(zài)《The Second Half》一(yī)文中(zhōng)引(yǐn)用(yòng)了(le)研(yán)究(jiū)员(yuán)Jason Wei的(de)图(tú)表(biǎo)，标(biāo)注(zhù)了(le)过(guò)去(qù)几(jǐ)年(nián)AI能(néng)力(lì)的(de)飞(fēi)跃(yuè)式(shì)增(zēng)长(zhǎng)：

AI 在过去五年里不断刷新各类基准测试的成绩。

姚顺雨表示，在突破了强化学习泛化的问题后，过去曾经对于AI十分困难的问题，正在土崩瓦解，AI能力的爬坡正在变得更加可预测。「下一个O系列模型无需(xū)明(míng)确(què)针(zhēn)对(duì)该(gāi)任(rèn)务(wu)即(jí)可(kě)将(jiāng)其(qí)提(tí)升(shēng)30%。」

OpenAI的(de)直(zhí)播(bō)也(yě)确(què)认(rèn)了(le)这(zhè)一(yī)点(diǎn)。

OpenAI表(biǎo)示(shì)，在o3模型上的训练计算量是o1模型的10 倍以上。随着OpenAI沿着「计算量」这条轴线不断扩展，像AMI这样的评测成绩也持续上升。

Scaling Law看起来没有尽头，而人类之前设计的(de)基(jī)准线，已经快被用完了，甚至已经不一定有测评意义了。

OpenAI再一次确认，AI的发展不会停，顶尖模型的探索会让更强的 AI 能力不断下放给用户。在相同推理成本下，o4-mini的表现明显优于o3-mini，且o4-mini是多模态模型。相同的推理成本，o3模型的性能好于o1模型。

模型一代代迭代，AI 的这把科技之火的燃料不会断。

颠覆编程？

顶尖的模型，已经开始干人类顶级科研人员的活了。对于广众而言，更强的模型，能带来的更切实的能力是什么？OpenAI 这次似乎瞄准了编程这个场景。

OpenAI 在彩蛋中宣布，接下来将发布一系列产品，颠覆编程。

根据OpenAI CFO近期的发言，OpenAI似乎想结合目前模型的Agent能力，和极强的编程能力，做出一整套编程Agent，能够直接对软件进行编程甚至测试。

在演示中，OpenAI已经给了一个类似的案例，展示了一个模型在虚拟机里，调用工具进行编程的例子，这个案例的思路与之前爆火的Manus的思路接近。

OpenAI给了模型一个虚拟机的终端命令行权限，要求模型定位一个bug。当把这个bug报告输入给模型后，模型可以使用终端命令行访问整个代码库。先验证bug能否复现，确认问题存在后，模型开始代码里四处浏览，尝试理解整个仓库的结构，最后找到了bug，成功修复了问题。目前，这样的能力，仍然没有被开放出来。

OpenAI最新发布的编程agent，采取了调用本地终端命令行界面的方式，进行类似的操作。可以使用「建议模式」，也就是它每次想执行指令都会征求你的确认。也可以采用全自动模式，看起来则更有一种贾维斯的感觉。

如果说以往的Copilot更像是「代码自动补全」，那今年各家模型争夺的重点，很可能是「代码自动完成」。编程+ Agent，会不会成为第一个真正释放生产力的通用智能场景？起码现在看来，OpenAI是这么押注的。

（本文首发于《极客公园》微信公众号，作者为Li Yuan，原标题为《OpenAI深夜推出最强模型主打Agent功能，顺便又来尝试革程序员的命了》）