搜索
当前所在位置:首页 >> 风趣报

反超 DeepSeek?马斯克「钞能力」砸出来的 Grok 3 终于上线了

发布时间:2025-07-12 20:21:25 作者:cmjjy 点击:52415 【 字体:

2 月 16 号,反超马斯克在 X 上发布了一条自家 Grok 3 模型的克钞发布预告。

并配文“地球上最聪明的砸出k终 AI”要来了。

北京时间 2025 年 2 月 18 日中午,于上马斯克如约带领着 xAI 的反超工程师和研究团队开启了 Grok 3 的首发实况。

这次发布会主要分为三个部分,克钞按摩技师家教期间被侵犯真实内幕合集介绍了 Grok 3 在训练上比 Grok 2 多投入了 10 倍的砸出k终计算资源,解锁了更强大的于上计算能力,展示了基于 Grok 3 的反超 AI Agent,展现了 xAI 团队在自主智能体领域的克钞最新进展。

反超 DeepSeek?砸出k终马斯克「钞能力」砸出来的 Grok 3 终于上线了

各项能力一骑绝尘

“我们非常高兴能够推出 Grok3,我们认为,于上知乎知识博主吐槽合集合集在很短的反超时间内,它的克钞功能比 Grok2 强大一个数量级。这要归功于一支不可思议的砸出k终团队的辛勤工作,我很荣幸能与这样一支优秀的团队合作。”马斯克在发布会上说道。

马斯克还透露,Grok 3 由 Colossus 超级计算机训练完成,这台计算机是在短短八个月内建成的,搭载了 10 万颗英伟达 H100 GPU,提供了超过 2 亿 GPU 小时的计算资源——是 Grok 2 的10倍。

据 xAI 团队介绍,xAI 最开始搭建这个 10 万 GPU 集群用了 122 天,后续拓展到 20 万  GPU 集群仅用了 92 天。显著的算力提升让 Grok 3 能够更高效地处理庞大信息集,缩短训练时间。随即他们便晒出了一组和 ChatGPT 的信息对比图,并表示虽然 Grok 起步较晚,但在 MMLU 得分上以超快地速度追上了 ChatGPT。

反超 DeepSeek?马斯克「钞能力」砸出来的 Grok 3 终于上线了

并且 Grok3 在 LMSYS(大模型竞技场)中的排名也是一骑绝尘。

反超 DeepSeek?马斯克「钞能力」砸出来的 Grok 3 终于上线了

其中 Grok-3 和 Grok-3 mini 在多方面性能上都超过或媲美 Gemini、DeepSeek 和 ChatGPT 等对手。

发布会列出的信息显示,Grok-3 和 Grok-3 mini 在数学、科学和编程的基准测试中,表现超越了所有主流模型,包括 GPT-4、Claude 3.5 Sonnet、DeepSeek-V3 和 Gemini-2 Pro等。

而 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 这两个版本,则凭借强大的推理能力,超越了像 DeepSeek-R1 和 OpenAI o3 mini 等推理模型。

反超 DeepSeek?马斯克「钞能力」砸出来的 Grok 3 终于上线了

此外,xAI团队还现场演示了一个任务,要求Grok-3在现场生成一段关于太空发射的3D动画代码。在大约两分钟的思考后,Grok 3生成了可直接运行的Python代码,成功展示了可以运行的3D动画。

除此之外团队还要求 Gork-3 制作一款类似于俄罗斯方块和宝石迷阵的游戏。在Grok-3 思考了数分钟后,给出了答案。

最后,xAI 团队演示了一个全新的产物,基于 Grok 3 的搜索引擎 —— DeepSearch 。

它不仅能够搜索网页并查找现有资料,还能“推测客户的真实意图”并进行思考。通过交叉对比多个信息源,它能够确保“返回最准确的答案”。

Grok 3 搅动 AI 大模型格局

实况结束后,不少网友纷纷发声。

AI 大牛卡帕西总结了一下自己的“先行版”使用体验:

首先 Grok 3 的“思考”功能非常先进,能够出色地解决复杂问题,如创建《卡坦岛》风格的棋盘游戏网页。相比之下,其他顶级模型(如 DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude)未能解决相同问题。除此之外,Grok 3 也能尝试解决如黎曼假设等难题。

其次 Grok 3还具备类似“深度研究”的搜索功能,能够提供高质量的研究问题答案。例如,它能够回答 Apple 新品发布、Palantir 股价上涨等问题。但在某些情况下,它会错误地产生幻觉(如错误的URL或不准确的事实)。

最后在测试一些简单的“陷阱”问题时,Grok 3 表现良好,能够正确回答一些逻辑谜题。但在幽默和道德问题方面,它仍然存在一些问题,如生成重复笑话和对复杂伦理问题过于敏感等。

但总的来说 Grok 3 整体表现接近 OpenAI 的 o1-pro 模型,并略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。

反超 DeepSeek?马斯克「钞能力」砸出来的 Grok 3 终于上线了

Imarena.ai 官方更是在经过测试后发文称:

Grok-3 是首个突破 1400 分的模型,在所有类别中排名第一,这是一个越来越难以实现的里程碑。

反超 DeepSeek?马斯克「钞能力」砸出来的 Grok 3 终于上线了

更有网友直呼:Grok 3 可能是现实世界中在物理层面处理得最好的基础大语言模型了!当然也有网友在测试之后,认为 Grok 3 在编程方面并不是很擅长。

值得一提的是,Grok 3 第一批获得访问权限的人将首先从 X 上的 Premium+ 订阅者开始,而普通客户何时能用上,他们也并不清楚。

但基于网友们对 Grok 3 褒贬不一的评价,雷峰网(公众号:雷峰网)不禁猜测,这被 “钞能力” 风风火火砸出来的的 “no.1” 在权限全面放开之后会不会口碑两极反转,亦或是依旧好评如潮,稳坐 AI 大模型王座?

时间还早,让子弹再飞一会。

参考链接:https://x.com/i/broadcasts/1gqGvjeBljOGB?t=SX_aTsBoXc07lfSR_Aw8AQ&s=09

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

反超 DeepSeek?马斯克「钞能力」砸出来的 Grok 3 终于上线了

阅读全文
相关推荐

杨维林任公安部副部长,陈思源、孙茂利卸任

杨维林任公安部副部长,陈思源、孙茂利卸任
人社部网站7月9日消息,国务院任免国家工作人员。其中,任命杨维林为公安部副部长;免去陈思源、孙茂利的公安部副部长职务。公开信息显示,杨维林,男,汉族,1968年10月生,在职研究生,法学博士,中共党员 ...

通用3D机器视觉平台是不是伪命题?

通用3D机器视觉平台是不是伪命题?
机器视觉是工业制造向“智造”升级的重要一环。从技术发展的趋势看,工业机器视觉正在经历从2D到3D的蝶变。3D视觉的价值在于,多一维度的信息数据主要是空间坐标),能满足对体积、形状、距离等信息测量的需要 ...

对话零一万物:大模型产品要找到 TC

对话零一万物:大模型产品要找到 TC
【雷峰网(公众号:雷峰网)】近日,大模型独角兽零一万物又开发布会了!上次零一万物以下简称“零一”)开发布会还是在 2023 年 11 月,宣布成立后的模型首秀:发布中英双语大模型“Yi”,并将其开源。 ...

博搏云的生态蓝图:稳固住AGI全栈服务商的重要阵地

博搏云的生态蓝图:稳固住AGI全栈服务商的重要阵地
生态是一切产业发展的基础。完善的生态可以加速知识、技术、应用场景的积累,使创新成果更快地转化为产品,连接产业链上下游,也可以为人才的培养和流动提供良好平台。中国已被视为全球AI领域最具竞争力的国家。人 ...

哀悼 !中国计算机视觉领军者、商汤创始人汤晓鸥去世

哀悼 !中国计算机视觉领军者、商汤创始人汤晓鸥去世
12 月 16 日中午雷峰网获悉:上海人工智能实验室主任、商汤科技创始人、香港中文大学信息工程学系教授汤晓鸥去世。经多位独立信源确认,此消息属实,目前等待官方发布讣告。20世纪60年代末,汤晓鸥出生于 ...

专访面壁曾国洋:踩过 1000 次大模型的坑后 ,造一个性能小钢炮

专访面壁曾国洋:踩过 1000 次大模型的坑后 ,造一个性能小钢炮
2月1日,刚成立一年的面壁智能发布了两个在海内外大模型领域「炸裂级」的存在——面壁 MiniCPM 2B 旗舰端侧大模型与面壁OmniLMM多模态大模型。MiniCPM 2B 有着当之无愧的「小钢炮」 ...

体育中考「上难度」,视觉 AI 下场「减负」

体育中考「上难度」,视觉 AI 下场「减负」
“组织体育中考30年了,今年是第一年没有遇到12345投诉的考试。”“监考17年,第一次能准点吃饭,提前下班。”上面这些评价,来自今年北京市部分体育中考考场裁判老师。每年3月到5月,是各地学校组织体育 ...

昆仑万维开源「天工」13B系列大模型,0门槛商用

昆仑万维开源「天工」13B系列大模型,0门槛商用
10月30日,昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,并罕见地配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」Skywork-13B ...

独家|杨红霞创业入局“端侧模型”,投后估值 1.5 亿美元

独家|杨红霞创业入局“端侧模型”,投后估值 1.5 亿美元
近日,关于字节跳动大语言模型研发技术专家杨红霞离职创业的事情,坊间传得沸沸扬扬。雷峰网独家获悉,杨红霞已于 5 月下旬正式从字节跳动离职,开始筹备 AI 创业项目。不过,杨红霞不做“大”模型,而是将方 ...

大模型时代的三道鸿沟:数据、成本与想象力

大模型时代的三道鸿沟:数据、成本与想象力
跨入2023年,大模型兴起、诸多公司「跑步进场」的头几个月,大模型一边倒向 C 端类 ChatGPT 的研发,对成本、效率更敏感的企业客户似乎不在关注焦点。然而近两个月,情况发生了变化。基于医疗、金融 ...

DALL·E 3 推理能力炸裂提升,OpenAI 抢跑「ChatGPT 原生」

DALL·E 3 推理能力炸裂提升,OpenAI 抢跑「ChatGPT 原生」
时隔一年半,OpenAI 直接玩了个大的,把文生图和 ChatGPT 做了结合,带着最新版本 DALL·E 3 来了。DALL·E 3 的巨大飞跃主要体现在两大方面。第一,只需要提示词,ChatGPT ...

产业跑进数字世界,要先迈过安全这道坎

产业跑进数字世界,要先迈过安全这道坎
当数字化转型成为时代的浪潮,企业的发展已经无法脱离数字行为、单打独斗。各类商业场景与链接的裂变与新生,驱动产业协作数字化的不断升级。与此同时,参与数字活动的安全与风险,也成为企业融入新产业协作模式的阻 ...
返回顶部