发布时间:2025-07-13 01:03:43 作者:tuhw 点击:58 【 字体:大中小 】
2 月 16 号,反超马斯克在 X 上发布了一条自家 Grok 3 模型的克钞发布预告。
并配文“地球上最聪明的砸出k终 AI”要来了。
北京时间 2025 年 2 月 18 日中午,于上马斯克如约带领着 xAI 的反超工程师和研究团队开启了 Grok 3 的首发实况。
这次发布会主要分为三个部分,克钞杭州高中爆料推荐介绍了 Grok 3 在训练上比 Grok 2 多投入了 10 倍的砸出k终计算资源,解锁了更强大的于上计算能力,展示了基于 Grok 3 的反超 AI Agent,展现了 xAI 团队在自主智能体领域的克钞最新进展。
“我们非常高兴能够推出 Grok3,我们认为,于上南京大学曝光全集在很短的反超时间内,它的克钞功能比 Grok2 强大一个数量级。这要归功于一支不可思议的砸出k终团队的辛勤工作,我很荣幸能与这样一支优秀的团队合作。”马斯克在发布会上说道。
马斯克还透露,Grok 3 由 Colossus 超级计算机训练完成,这台计算机是在短短八个月内建成的,搭载了 10 万颗英伟达 H100 GPU,提供了超过 2 亿 GPU 小时的计算资源——是 Grok 2 的10倍。
据 xAI 团队介绍,xAI 最开始搭建这个 10 万 GPU 集群用了 122 天,后续拓展到 20 万 GPU 集群仅用了 92 天。显著的算力提升让 Grok 3 能够更高效地处理庞大信息集,缩短训练时间。随即他们便晒出了一组和 ChatGPT 的信息对比图,并表示虽然 Grok 起步较晚,但在 MMLU 得分上以超快地速度追上了 ChatGPT。
并且 Grok3 在 LMSYS(大模型竞技场)中的排名也是一骑绝尘。
其中 Grok-3 和 Grok-3 mini 在多方面性能上都超过或媲美 Gemini、DeepSeek 和 ChatGPT 等对手。
发布会列出的信息显示,Grok-3 和 Grok-3 mini 在数学、科学和编程的基准测试中,表现超越了所有主流模型,包括 GPT-4、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini-2 Pro等。
而 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 这两个版本,则凭借强大的推理能力,超越了像 DeepSeek-R1 和 OpenAI o3 mini 等推理模型。
此外,xAI团队还现场演示了一个任务,要求Grok-3在现场生成一段关于太空发射的3D动画代码。在大约两分钟的思考后,Grok 3生成了可直接运行的Python代码,成功展示了可以运行的3D动画。
除此之外团队还要求 Gork-3 制作一款类似于俄罗斯方块和宝石迷阵的游戏。在Grok-3 思考了数分钟后,给出了答案。
最后,xAI 团队演示了一个全新的产物,基于 Grok 3 的搜索引擎 —— DeepSearch 。
它不仅能够搜索网页并查找现有资料,还能“推测客户的真实意图”并进行思考。通过交叉对比多个信息源,它能够确保“返回最准确的答案”。
实况结束后,不少网友纷纷发声。
AI 大牛卡帕西总结了一下自己的“先行版”使用体验:
首先 Grok 3 的“思考”功能非常先进,能够出色地解决复杂问题,如创建《卡坦岛》风格的棋盘游戏网页。相比之下,其他顶级模型(如 DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude)未能解决相同问题。除此之外,Grok 3 也能尝试解决如黎曼假设等难题。
其次 Grok 3还具备类似“深度研究”的搜索功能,能够提供高质量的研究问题答案。例如,它能够回答 Apple 新品发布、Palantir 股价上涨等问题。但在某些情况下,它会错误地产生幻觉(如错误的URL或不准确的事实)。
最后在测试一些简单的“陷阱”问题时,Grok 3 表现良好,能够正确回答一些逻辑谜题。但在幽默和道德问题方面,它仍然存在一些问题,如生成重复笑话和对复杂伦理问题过于敏感等。
但总的来说 Grok 3 整体表现接近 OpenAI 的 o1-pro 模型,并略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
Imarena.ai 官方更是在经过测试后发文称:
Grok-3 是首个突破 1400 分的模型,在所有类别中排名第一,这是一个越来越难以实现的里程碑。
更有网友直呼:Grok 3 可能是现实世界中在物理层面处理得最好的基础大语言模型了!当然也有网友在测试之后,认为 Grok 3 在编程方面并不是很擅长。
值得一提的是,Grok 3 第一批获得访问权限的人将首先从 X 上的 Premium+ 订阅者开始,而普通客户何时能用上,他们也并不清楚。
但基于网友们对 Grok 3 褒贬不一的评价,雷峰网(公众号:雷峰网)不禁猜测,这被 “钞能力” 风风火火砸出来的的 “no.1” 在权限全面放开之后会不会口碑两极反转,亦或是依旧好评如潮,稳坐 AI 大模型王座?
时间还早,让子弹再飞一会。
参考链接:https://x.com/i/broadcasts/1gqGvjeBljOGB?t=SX_aTsBoXc07lfSR_Aw8AQ&s=09
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
大模型落地,向量数据库能做什么?
花西子全国首家购物中心店亮相上海 打造国货美妆消费新场景
对话制片人钟楚渝:揭秘数据分析的影视应用
刑侦悬疑网剧《消逝的凶手》舟山杀青 匠心淬炼时代血色迷局
美国洛杉矶一隧道坍塌 15人被困
陆川拍网剧《借命而生》 让影视作品成为时代的影像
舞台剧《圆缘小济·神镜2049》杭州成功首演 引爆舞台剧未来想象
李静、刘璇共话新平衡之约
古装传奇剧《藏海传》厚重底蕴精良制作引关注 不落爽剧窠臼 淬炼人性光辉
青春励志电影《校招》正式开机
第三届浪潮创作人论坛在京举行,共同探讨AI共创时代的创新音乐叙事
冯文娟官宣怀孕,新片《731》引期待
大模型助力企业数据驱动,火山引擎数智平台发布 AI 助手
苏见信 (信)「尽兴而活」成都站巡回演唱会圆满收官 苏有朋惊喜助阵引热潮
GAI周延《白鸽》斩获《歌手2025》周冠军 新团专《G
舞台剧《圆缘小济·神镜2049》杭州成功首演 引爆舞台剧未来想象
苹果发布多模态模型 Ferret
苏超联赛火热开赛,正大九力氨糖强势助力守护球员关节
乌兰图雅唱响聊城非遗之夜 草原歌声激荡运河千年古韵
第30届上海电视节今开幕,“三十而励” 书写中国视听新答卷
AI 迈进深水区,谈落地、谁能带来新解法?
2025年度电视剧(网络剧)精品创作编剧高级研修班正式结业
《桃花映江山》6月25日开播,刘学义孟子义恨海情天开启国风桃色
黄晓明率队开启《中餐厅·非洲创业季》新篇章,影视综多面开花诠释全能担当
智谱AI狂飙:与商业化博弈的一年
十年相约,共铸荣光:秀域与中国女篮续约合作
扣人心弦,交响乐团奏响“跨次元”旋律
电影《江湖传奇之刘梦欣》清远开机拍摄
美图视觉大模型3.0:让设计师做甲方
《这是我的西游》历尽试炼万重险,书写不灭西行志
《这是我的西游》历尽试炼万重险,书写不灭西行志
以公益电影放映为媒,在湖影交融中重新定义观影体验 逾五千观众共赏“滴水生情”电影季
欧洲理事会主席与伊朗总统通电话 讨论冲突解决方案
杨紫李现《锦绣芳华》定档6月30日 牡丹重耀续写盛唐华章
金鹰卡通《三孩来了 3》:唐九洲谈原生家庭,井胧助力萌娃传递爱意
刑侦悬疑网剧《消逝的凶手》舟山杀青 匠心淬炼时代血色迷局