发布时间:2025-07-13 00:26:02 作者:ougve 点击:14552 【 字体:大中小 】
今天凌晨,吃进奥特曼突然发文宣布推出自家最新的大模 o 系列模型:满血版 o3 和 o4-mini,同时表示这两款模型都可以自由调用 ChatGPT 里的吃进各种工具,包括但不限于图像生成、大模图像分析、吃进文件解释、大模重庆大学泄露推荐网络搜索、吃进Python。大模
总的吃进来说,就是大模比前一代的性能更强而且价格更低。
消息一出,马上就有网友晒出了两个模型的大模“小球测试”结果,并配文:“这确实是吃进迄今为止看到的最好的测试结果了。”
也有网友晒出了满血版 o3 和 o4-mini 在 HLM 基准的中的排名,其中 OpenAI 的吃进两款新模型仅用了几个小时的时间就稳稳的“盘”上了榜单前三,引得网友大呼震惊。重庆中学门事件评论
o3 与 o4 mini 全面进化
除了网友们的测评结果外,我们也来看一下 OpenAI 给出的两个模型的官方信息。
首先,o3 在多个基准测试中表现优异,包括 Codeforces、SWE-bench 和 MMMU 等,刷新了多项纪录。除此之外,o3 在应对复杂现实任务时,比 OpenAI o1 减少了 20% 的重大错误,尤其在编程、商业咨询和创意构思领的方面能力最为突出。
o4 mini 这边,别看它体量不大,但专为快速、高效的推理任务而设计,可以支持比 o3 更高的使用频率。
在数学、编程和视觉任务上的表现依然非常亮眼。在 2025 年 AIME 数学竞赛中,借助 Python 解释器的帮助,o4-mini 取得了99.5%的高分,几乎达到了该测试的满分水平。专家评估同样显示,它在非 STEM 任务以及信息科学领域的表现已经超越了 o3-mini。
此外,o3 和 o4-mini 首次实现了将图像直接融入思维链的能力,它们不仅“看得见”图像,更能“通过图像思考”。这带来了视觉与文本推理的全新融合方式,显著提升了它们在多模态任务中的表现。
关于这点,OpenAI 图像推理研究员 Jiahui Yu 发文称:“自最初推出 o 系列以来,“图像思考”始终是我们在感知领域的核心战略之一。早期发布的 o1 vision,曾为这一方向提供了初步的探索与预览;而如今,随着 o3 和 o4-mini 的发布,这一战略终于以更为成熟和完整的形式落地。多模态能力的持续演进,不仅推动了模型在理解世界方式上的跃升,也成为 OpenAI 实现 AGI 愿景中不可或缺的关键一环。”
模型性能毋庸置疑,而关于这两款模型可以自由调用 ChatGPT 里的各种工具的能力,OpenAI 首席研究官 Mark Chen 也发文表示:一旦推理模型学会了端到端地使用工具,它们就会变得更加强大,而最新的 o 系列模型正在“向未来迈出的质的一步”。
所谓“质的一步”,无非是将大模型的能力扩展到目前最火的 Agent 领域,值得一提的是,这已经不是 OpenAI 第一次向 Agent 领域进发了。
今年年初,OpenAI 接连推出 Operator 和 Deep Research 两个产物宣告向 Agent 进发,在此之前,他们还推出过一个类似于代办助手的 Agent 产物 —— ChatGPT tasks,来试了试水花。
而这次的满血版 o3 和 o4 mini 则是支持直接调用 ChatGPT 里的各种工具,从之前的“聪明大脑”直接进化为了“灵巧双手”。
有网友在试过了 o3 最新模型的调用能力后表示,模型帮他做了一些需要跨工具才能完成的工作,这让他感觉到了 Agent 给人们带来的便捷。
OpenAI 做 Agent,得天独厚
关于如何才能做出真正的 Agent,目前坊间的主流观点是:强化学习加基座模型。
但在 Agent 的实际研发中,大多数专注于 Agent 的公司并不具备自研基座模型的能力,能够组建强化学习团队的更是凤毛麟角。它们唯一的机会,往往在于依靠强悍的工程能力持续打磨产物体验,或通过差异化定位,探索某些功能层面的创新。
然而,由于缺乏底层模型的掌控权,这样的努力终究只是为自己在与大模型公司的赛道上争取些许缓冲时间。正因如此,那些具备训练基础模型能力的公司,在开发 Agent 时,往往能够实现事半功倍的效果,占据天然优势。
巧合的是,Deep Research 团队曾在多次访谈中强调,他们认为基于强化学习的端到端训练是当前 Agent 工艺变革的关键所在,原因在于强化学习能够有效突破传统 AI 系统在复杂场景中面临的灵活性不足和泛化能力受限的问题。
在此基础上,叠加 OpenAI 本身在基础模型上的强大优势,或许不久之后,Agent 就会被吃进 ChatGTP 的某个版本之中。
一位长期从事 Agent 方向的研究人员曾对 AI 科技评论表示:“用强化学习训练 Agent,本质上更像是将语言模型的能力在特定环境中进行定向强化和适配。也就是说,强化学习更多是在帮助语言模型在某一特定场景中“训得很好”。然而,目前许多学术研究仍停留在使用较基础的 base model 进行环境内训练,这样的工作即便做到极致,其成果也往往只是某个环境下的“特化版本”,难以实现跨环境的泛化能力,因此其实际意义和应用价值仍然有限。”
顺着这个点往下看,不难发现其实 OpenAI 已经同时掌握了基础模型和训练方式,拥有从底层能力到上层产物的完整控制权,也因此在定价方便拥有了更大的自主权。
例如,Deep Research 的 Agent 以每月 200 美金的价格对外订阅,全部收入可以留在体系内部,而那些依赖第三方模型的独立 Agent 团队,不仅受到 API 成本和模型性能波动的限制,在产物定价上也显得捉襟见肘。
“略知皮毛”不如洞彻本质,“套壳”并不是长久之计,这么一看,OpenAI 做 Agent,就得天独厚。
开源 Codex CLI
新模型之外,OpenAI 还开源了一款本地代码智能体:Codex CLI。它是一个轻量级的编码助手,可直接在客户的终端命令行中运行,为的是充分发挥 o3、o4-mini 等模型的推理能力,紧密连接本地开发环境,未来还会支持 GPT 4.1 等其他模型。
值得一提的是,它甚至支持通过截图或手绘草图进行多模态编程,直接刷新了代码交互与内容理解的边界。
雷峰网(公众号:雷峰网)观察到,为了测试这个功能,在发布会的实况中,开发人员还现场用 Codex CLI 展示了一波实施摄影的 ASCII 画面,让不少实况间网友大呼:“Intresting!”参考链接:
https://x.com/sama/status/1912558495997784441
https://news.ycombinator.com/item?id=43707719#43711155
https://github.com/openai/codex
https://x.com/jhyuxm/status/1912562461624131982
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
网易云音乐升级Beat创作者扶持,全免佣金+超高激励金上线
《圆缘小济:神镜2049》首演:点亮一众人心
老铺黄金新加坡首店开业 中国高端黄金品牌出海
陆川拍网剧《借命而生》 让影视作品成为时代的影像
上海AI实验室开源发布高质量语料“万卷CC”
在衍晟坊民俗体验馆,邂逅北京老天桥绝技的惊艳之美
黄晓明率队开启《中餐厅·非洲创业季》新篇章,影视综多面开花诠释全能担当
刑侦悬疑网剧《真相半白》今日开播 暗黑推理高智追凶启幕
百川智能发布Baichuan2—Turbo系列API,开启企业定制化新生态
热血逆袭+明星顾客+爆笑经营!《微笑一号店》真实展现青年创业的酸甜苦辣咸
华语歌声越南洋|《音你而来2》圆满收官:跨文化传播综艺的新范式
学生专属特惠!仅需12元/月畅享爱奇艺《临江仙》《种地吧3》等海量精彩内容
百川智能首款 AI 应用主打懂搜索,但王小川不做搜索 2.0
新丽传媒双剧绽放白玉兰:《玫瑰的故事》摘编剧奖,张若昀获海外推广荣誉
刑侦悬疑网剧《真相半白》今日开播 暗黑推理高智追凶启幕
从上海电视节白玉兰论坛看短剧趋势,听花岛坚持价值思维与题材创新
“南京红老头”已被警方抓获
黄晓明率队开启《中餐厅·非洲创业季》新篇章,影视综多面开花诠释全能担当
两周销量突破1120万杯,瑞幸系列新品与周边火出圈
观光巴士如何接住《酱园弄》带来的流量
产业跑进数字世界,要先迈过安全这道坎
进军休闲零食,万达电影推出自研食饮品牌体系
讲述新手爸妈的成长故事,抖音纪录片《欢迎你来到我的人生》上线
郎酒燃情盛夏 “中国郎·山之响”2025火把之夜群星演唱会定档8月9日
价格战之后,智谱来到商业化的下一站
爱奇艺国际版将与SBS Studio Prism携手制作泰国版《Running Man》
两周销量突破1120万杯,瑞幸系列新品与周边火出圈
萧纤纤获全球国际小姐冠军,闪耀演艺界时尚界
今日辟谣(2025年7月9日)
《超人》曝“开战时刻”预告 7月11日登陆全国影院
爱奇艺《书卷一梦》定档6月26日 李一桐刘宇宁上演穿书流强制爱
以公益电影放映为媒,在湖影交融中重新定义观影体验 逾五千观众共赏“滴水生情”电影季
刚刚,云天励飞上市!
爱奇艺《书卷一梦》定档6月26日 李一桐刘宇宁上演穿书流强制爱
《睡美人》《胡桃夹子》《天鹅湖》“三颗钻石”同台 “老柴”经典倾倒津城观众
潮玩无界:泡泡玛特以中国设计链接全球艺术生态