“擦边”哪有AI编程香?马斯克终于想]通了

  更新时间:2026-01-19 18:11   来源:牛马见闻

吉报头条
重要新闻
国内新闻
国际新闻
图片精选

出色的模型是Grok Code Fast 1度的Grok Code FastGrok Code Fast

<p class="f_center"><br><br></p> <p id="48KC5OCG">最近马?斯克很头?疼:Grok在X上脱人衣服这件事,眼瞅着平息不了了。</p> <p id="48KC5OCI">X前脚正式宣布限制措施,不再允许通过Grok在X平台上对真实人物的照片进行“脱衣服”或生成/编辑成“暴露服装”(如比基尼、内衣等)的操作。</p> <p class="f_center"><br><br></p> <p id="48KC5OCK">后脚,加州就启动了对xAI和Grok的调查。事到如今,Grok“脱衣”争议已经“集齐”十个国家和地区的公开批评或者调查,包括英国、欧盟、法国、加拿大、澳大利亚、印度等等。</p> <p id="48KC5OCM">Grok从诞生之初,就因为会整活、不搞“政治正确”而娱乐性拉满,而马斯克针对其“擦边”属性也是一贯头铁。去年Grok最引人注目的更新,当属引入两个性感的虚拟角色。</p> <p id="48KC5OCO">“擦边”之下,用户增长明显,Grok最新月活用户数已经突破3000万,月初引入将静态照片转变为动态视频的功能Grok Imagine,一度登顶苹果应用商店美区免费榜第一。</p> <p id="48KC5OCQ">但用户的争抢之下,AI公司真正需要争抢的其实是“商业前景”与资金。C端是不是那个答案?目前还要打一个问号。OpenAI目前的主要收入来源是用户订阅,ChatGPT月活用户数8亿,但是每年的亏损越来越大,并且这样的亏损扩大还会持续几年。</p> <p id="48KC5OCS">马斯克前不久要求OpenAI和微软赔偿790亿到1340亿美元,给出的理由是早期提供了几千万美元种子资金,因为OpenAI的5000亿美元估值有一大部分应该给他,颇有点盯上“友商”钱包的意味。</p> <p id="48KC5OCU"><strong>翻年之后,马斯克接连受到打击,已经准备好在AI编程领域奋起直追了。不仅承认Grok的编程能力不如对家Anthropic,还宣布下个月有两个AI编程领域的大动作。</strong></p> <p id="48KC5OD0"><strong>“擦边”虽好,论赚钱,哪有AI编程香?</strong></p> <p id="48KC5OD2">肉眼可见的区别是,坐上AI编程一号位的Anthropic,收入结构中企业用户占大头,目前已经将AI编程的优势丝滑进阶到了生产力提升。虽然年营收远不及OpenAI,但Anthropic的盈利节点很有可能比OpenAI早。</p> <p id="48KC5OD4">不仅是马斯克的xAI,以C端见长的OpenAI,以及字节,都纷纷在去年加强AI编程领域的投入。</p> <p id="48KC5OD6">说到底,AI头部玩家逐渐看清事实,那就是,C端主要争名,AI编程则连接着广阔的B端想象力。</p> <p id="48KC5OD8"><strong>01</strong></p> <p id="48KC5OD9"><strong>马斯克受刺激了</strong></p> <p id="48KC5ODB">马斯克正在传达一个强烈的信号:Grok要开始认真在AI编程上发力了。</p> <p id="48KC5ODD">1月,马斯克先是在X上公开承认Grok的编程能力不如Anthropic的Claude。</p> <p id="48KC5ODF">紧接着,他又透露,2月Grok Code将迎来重大更新:“下个月Grok Code将迎来重大升级。它将一键处理许多复杂编码任务。”</p> <p id="48KC5ODH">而其中提到的“一键处理复杂编码任务”,外界认为这是在暗示xAI将发布vibe-coding的工具,即用户只需描述感觉和意图,如“建一个类似Twitter的app”,AI就可以自动规划、生成代码、测试、部署。</p> <p id="48KC5ODJ"><strong>看来马斯克是受到了不小的刺激。</strong></p> <p id="48KC5ODL">新年刚过一周,Anthropic就“拔网线”,对第三方平台采取封锁措施,一时之间,通过编程助手Cursor、开源AI编码工具OpenCode等第三方平台使用Claude Code时触发报错,显示工具权限为Claude Code独有,不允许外部调用。</p> <p id="48KC5ODN">xAI遭了大殃,甚至xAI联合创始人Tony Wu给全员发紧急通知。</p> <p id="48KC5ODP">而这条slack消息被泄露,揭开了一个小秘密——原来很多xAI员工,都通过Cursor调用Claude模型写代码。</p> <p id="48KC5ODR">当时Tony Wu就表示:“我们的生产力会受到影响,但这确实会倒逼我们开发自己的编程产品/模型。”</p> <p id="48KC5ODT">不久之后,马斯克也在X上给别人回复时承认Anthropic“拔网线”事件是一个“激励因素”。</p> <p class="f_center"><br><br></p> <p id="48KC5ODV"><strong>此前xAI的Grok主要以通用能力见长,模型能力很强大,但是在AI编码能力方面不算翘楚。</strong></p> <p id="48KC5OE1">根据llm-stats的最新排行榜,<strong>在SWE-Bench Verified中,xAI最出色的模型是Grok Code Fast 1,排在第20位。</strong></p> <p id="48KC5OE3">该测试从真实的GitHub问题中选取500个经过验证的软件工程问题子集,由人工标注者验证,用于评估语言模型通过为Python代码库生成补丁来解决现实世界编码问题的能力。</p> <p class="f_center"><br><br></p> <p class="f_center"><br><br></p> <p id="48KC5OE7">SWE-Bench Verified排名前五的模型来自Anthropic、OpenAI、谷歌。</p> <p id="48KC5OE9"><strong>在Human Eval中,xAI排名最高的模型是Grok-2,排在第18位。</strong>该基准测试用于衡量从文档字符串合成程序的功能正确性,包含164个原创编程问题,旨在评估语言理解能力、算法能力和简单的数学运算能力。</p> <p class="f_center"><br><br></p> <p id="48KC5OED">Human Eval排名前五的模型分别来自于Kimi、Anthropic、OpenAI、阿里。</p> <p id="48KC5OEF"><strong>在Live Code Bench中,xAI表现较好,Grok-3 Mini、Grok 4 Fast、Grok-3分别排在第三、四、五位。</strong>这是一个全面且无污染的大型代码语言模型评估基准。它持续从编程竞赛中收集新问题,以便评估模型训练截止后发布的未见过的问题。</p> <p class="f_center"><br><br></p> <p id="48KC5OEH">Live Code Bench排名前二的模型来自DeepSeek和MiniMax。</p> <p id="48KC5OEJ">值得一提的是,此前xAI在AI编程领域最为关键的举措是推出了Grok Code Fast,这个模型讲求实用,从名字就能看出来,侧重在“快”。其价格也非常有竞争力,输入成本每百万tokens仅需0.2美元,输出为1.5美元,是当前最便宜的专用编码模型之一。</p> <p id="48KC5OEL">相比而言,Claude Sonnet 4.5价格是其15倍。</p> <p id="48KC5OEN">它特别适合预算有限的个人开发者、初创团队和高频迭代场景,而非追求“零容忍错误”的顶级企业生产级任务,更像是马斯克在AI编码领域用错位竞争的方式“小试牛刀”。</p> <p id="48KC5OEP"><strong>但问题在于,当AI编程正从“便宜好用的工具”演进为决定研发效率与组织形态的核心能力时,仅靠一款强调性价比和速度的Grok Code Fast,显然已经无法满足马斯克的野心。</strong></p> <p id="48KC5OER"><strong>02</strong></p> <p id="48KC5OES"><strong>AI编程已经势不可挡</strong></p> <p id="48KC5OEU"><strong>事实上,AI编程这条线,已经被牌桌上的头部玩家同时盯上。</strong></p> <p id="48KC5OF0">最典型的,还是Anthropic。</p> <p id="48KC5OF2">Anthropic不再只强调模型“会不会写代码”,而是直接接管工程师的工作流。从拆解需求、规划代码结构,到多文件修改、反复调试,Claude Code更像一个全天候的“虚拟工程师”。</p> <p id="48KC5OF4">本月发生的那场“拔网线事件”,反而成了它成功的注脚——当Anthropic收紧第三方调用权限,大量依赖Claude Code的外部工具和团队立刻受到影响,xAI就是其中之一。</p> <p id="48KC5OF6">这种变化在一线工程师那里体现得更直接。</p> <p id="48KC5OF8">谷歌首席工程师、Gemini API负责人Jaana Dogan公开表示,她只用几句提示词、一个多小时,就借助Claude Code完成了相当于过去一年工作量的成果。</p> <p class="f_center"><br><br></p> <p id="48KC5OFA"><strong>这类表态之所以被广泛传播,是因为它击中了很多工程师的真实感受:AI编程已经开始根本改变生产效率。</strong></p> <p id="48KC5OFC">也正因为如此,其他巨头不可能坐视不管。</p> <p id="48KC5OFE">OpenAI在近一年的更新中,明显把更多资源压向代码能力。从模型在复杂代码理解、长上下文修改上的强化,到API层面对函数调用、工具链集成的持续优化,目标非常明确——让开发者在真实工程场景里,用GPT写得更久、更深。</p> <p id="48KC5OFG">Google的策略则更“体系化”。Gemini不只是模型本身在代码能力上追赶,而是被直接嵌入到Google自己的开发者工具、云服务和工程环境中,试图把AI编程变成一种默认选项,而不是额外插件。</p> <p id="48KC5OFI"><strong>从榜单结果来看,几家公司的差距正在迅速拉近,排名频繁交错,已经进入贴身肉搏阶段。</strong></p> <p id="48KC5OFK">这种趋势同样传导到了国内。字节跳动其实很早就意识到AI编程的重要性。去年1月,字节发布了面向软件工程场景的工具TREA,随后持续迭代。对这样体量的公司来说,是否补齐这块能力,直接关系到内部研发成本和组织效率。</p> <p id="48KC5OFM">把这些动作放在一起看,会发现一个越来越清晰的变化:AI编程正在从“大模型能力展示的一部分”,变成所有玩家都绕不开的核心战场。</p> <p id="48KC5OFO">在这样的背景下,Grok Code Fast那种强调便宜、够用、够快的错位打法,显然很难再让马斯克安心停留。</p> <p id="48KC5OFQ"><strong>03</strong></p> <p id="48KC5OFR"><strong>“擦边”哪有编程香?</strong></p> <p id="48KC5OFT">纷纷扰扰之间,真正把这条赛道推到台前的,并不只是模型能力的进步,而是它背后越来越清晰,也越来越现实的商业指向。</p> <p id="48KC5OFV">AI编程,是目前少数已经被验证“能真正落地”的大模型应用场景之一。</p> <p id="48KC5OG1">xAI的Grok,长期以来最突出的优势一直在C端。去年Grok最受关注的,并不是编程能力,而是各种“擦边”动作,更少限制、更大胆,也屡次引发争议。</p> <p id="48KC5OG3"><strong>最近一段时间,类似的原因再次把Grok推上风口浪尖。这种路径在拉新和话题度上确实有效,但问题也很明显:它很难转化为稳定、可规模化的收入。</strong></p> <p id="48KC5OG5">这一点,其实并不只发生在xAI身上。OpenAI和字节跳动在某种程度上也面临类似结构性问题。OpenAI拥有ChatGPT这样的超级C端入口,字节背靠抖音、TikTok这样的社交与内容帝国,马斯克则掌控着X。</p> <p id="48KC5OG7">它们在用户规模、分发能力和产品打磨上极具优势,但也恰恰因为C端体量太大,商业模式反而更复杂:订阅增长有天花板,内容合规成本高,任何一次失误都会被无限放大。</p> <p id="48KC5OG9">相比之下,to B的世界要“冷静”得多,也现实得多。这正是AI编程的吸引力所在。</p> <p id="48KC5OGB"><strong>对企业来说,AI是否“好玩”并不重要,重要的是它能不能稳定地节省人力、缩短研发周期、降低交付风险。</strong></p> <p id="48KC5OGD">这也是为什么,几家公司的盈利预期开始明显分化。</p> <p id="48KC5OGF">以Anthropic为例,多家行业分析机构预测,Anthropic有望在2028年前后实现盈亏平衡。</p> <p id="48KC5OGH">行业普遍估计,Anthropic约70%–80%的收入来自企业客户,主要是API调用和企业级合同。这种收入模式增长未必最快,却足够稳定,也更容易覆盖持续攀升的算力成本。</p> <p id="48KC5OGJ">相比之下,OpenAI的体量更大,但路径不同。</p> <p id="48KC5OGL">公开分析普遍认为,OpenAI当前的收入结构中,大约七成仍来自C端订阅(如ChatGPT Plus等),真正来自企业API和企业合同的收入占比约三成左右。</p> <p id="48KC5OGN">与此同时,OpenAI还承担着极高的算力和基础设施支出压力,其实现整体盈利的时间点可能要到2030年前后。</p> <p id="48KC5OGP">它对规模、资本和耐心的要求显然更高。</p> <p id="48KC5OGR">而xAI的情况则更为激进,也更脆弱一些。</p> <p id="48KC5OGT"><strong>市场估算显示,xAI在2025年的年化收入规模约5亿美元左右,远低于OpenAI(约130亿美元)和Anthropic(约70亿~90亿美元)。目前,xAI的主要收入仍高度依赖Grok在C端的订阅与其与X平台的联动。</strong></p> <p class="f_center"><br><br></p> <p id="48KC5OGV">尽管xAI已开始推出Grok Business、Grok Enterprise等B端产品,试图向企业市场延伸,但其盈利时间点可能仍要等到2027–2028年之后。</p> <p id="48KC5OH1">这也可以解释为什么近期OpenAI、谷歌相继在“广告”与“购物”上发力,这也是在为C端引入更多商业空间。</p> <p id="48KC5OH3"><strong>马斯克想要在AI编程上发力,本质上是在为xAI寻找一条更确定、可持续的商业出口。</strong></p> <p id="48KC5OH5"><strong>在算力成本高企、市场耐心下降的当下,AI编程赛道带来的确定性本身,就是稀缺资源。</strong></p> <p id="48KC5OH7">这种选择,其实从Anthropic一开始就已经埋下伏笔。Anthropic多次公开表示,他们更愿意把AI定位为生产力工具,而非娱乐产品,甚至直言“AGI”这一概念本身已经变得模糊而过时。</p> <p id="48KC5OH9">在具体实践上,这种理念体现为对安全性、可控性和工程稳定性的长期投入。</p> <p id="48KC5OHB">这些看起来“慢”的工作,却恰恰是AI编程能进入企业核心流程的地基。今天Claude在编程领域的领先,并非突然爆发,而是一步步打出来的。</p> <p id="48KC5OHD">也正因如此,其他玩家想在AI编程领域赶超Anthropic,注定是一场硬仗。</p> <p id="48KC5OHF">这不是多发几个模型、多刷几次榜单就能解决的问题,而是对工程能力、产品理解和企业需求的长期消化。</p> <p id="48KC5OHH">从时间线上看,Google的布局其实并不晚。Gemini的优势不只在模型本身,而在于与Google Cloud、开发者工具、工程体系的“全栈联通”。</p> <p id="48KC5OHJ"><strong>OpenAI近一年也在持续把资源向编程能力倾斜,字节同样通过TREA等工具不断补课。放在这个坐标系里,马斯克此时大幅加码AI编程,多少显得有些姗姗来迟。</strong></p> <p id="48KC5OHL">更现实的一点是,AI编程恰恰也是“出事成本”最高的应用场景之一。</p> <p id="48KC5OHN">在强应用环境里,不出问题则已,一旦出问题,就是实打实的生产事故。</p> <p id="48KC5OHP">前几天,编程工具Cursor曾对外披露,一次实验中GPT-5.2连续运行7天,生成约300万行代码,构建出一个堪比Chrome的浏览器。</p> <p id="48KC5OHR">消息一出,立刻引发轰动,但很快就被开发者“打假”,质疑其可复现性和工程真实性。这场风波本身,恰恰说明了AI编程的门槛。</p> <p id="48KC5OHT">也正是在这样的现实约束下,AI编程这条路才显得格外“香”,也格外难走。</p> <p id="48KC5OHV">至于马斯克和Grok,能否在这条已经被反复验证、竞争激烈的赛道上追上来,答案恐怕只能交给时间。</p> <p id="48KC5OI1">马斯克已经承诺下个月就有大动作,让我们拭目以待。</p>

编辑:泷内公美