当前位置:首页 > 焦点 > 马斯克突发新版大模型,牺牲特斯拉资源叫板OpenAI,一手实测来了

马斯克突发新版大模型,牺牲特斯拉资源叫板OpenAI,一手实测来了

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

马斯克旗下xAI大模型,马斯模型出二代了!克突

Grok-2测试版发布,发新江西某某海绵制品有限公司小杯Grok-2 mini已经在平台在线可玩。版大板



马斯克还以谜语人的牺牲形式,揭晓了困扰大模型圈一个多月的拉资秘密:

原来Lmsys大模型竞技场上的神秘匿名模型sus-column-r,真身就是源叫Grok-2。



sus-column-r在排行榜上积累了1万多人类投票,手实测已经与GPT-4o的马斯模型API版并列第三



在xAI自己的克突江西某某海绵制品有限公司内部测试中,Grok-2在常识(MMLU、发新MMLU-Pro)、版大板数学竞赛问题(MATH)、牺牲研究生水平科学知识(GPQA)等领域与其他前沿模型相媲美。拉资

另外Grok-2最擅长基于视觉的源叫任务,在视觉数学推理(MathVista)达到SOTA。



不过这个图的排版可就有点心机在里面了:把分数最高的GPT-4o、Claude-3.5-Sonnet放得离自己远一些。

光看分数还是抽象,下面就进入一手实测环节。

一手实测Grok-2

如果你是/推特平台付费用户,可以直接进入Grok频道试玩。不花钱的话也可以到Lmsys大模型竞技场选择sus-column-r试玩。



而且付费用户反倒只能玩到小杯mini版,免费用户能玩大杯,也是很厚到了



由于Grok-2可以访问上的实时数据,可以直接让他总结当天的新闻,开启趣味模式的话还可以附赠吐槽。



付费版本还接入了最新开源AI生图模型Flux.1,会把中文提示词翻译成英文理解。



点进主页上的“安利一个奇幻游戏”问题示例,可以看到它先推荐了《博德之门3》,并从剧情、人物自定义、游戏机制、世界塑造、幽默元素和玩家社区几个角度做点评,很好的把握了游戏的亮点。



此时可以直接换中文继续提问。

Grok-2同样了解《黑神话:悟空》这款还没发售的游戏,准确说出发售日期在8月20日、使用的虚幻5引擎,并且总结了上网友的讨论。



还在最后附带了网友的帖子,可以点进去参与讨论,与整个平台的功能整合已经到位了。



不过由于上只有mini版模型,接下来上强度测试我们移步大模型竞技场,还可以与GPT-4o来一场捉对pk。

在最近流行的智商检测问题“9.9和9.11哪个大”上,Grok-2(sus-column-r)表现碾压ChatGPT最新版本。



不过另一项流行测试“strawberry中有几个r”问题上,两者都还是没能通过。(多试几次两者都有小概率答对)。



更严肃一些的陷阱题“以下哪支蜡烛是最先被吹灭的”中,Grok-2比ChatGPT稍有进步。



考点是最先被吹灭的蜡烛剩下的部分更长(正确答案3),ChatGPT错误的理解成最短的,Grok-2思路是对的但是数哪个最长没数对。



对于经典的大模型弱点“逆转诅咒”问题,两者似乎都以某种方式克服了。不仅能正着回答“汤姆克鲁斯的母亲是谁”,也能倒过来回答数据出现频率更少的“Mary Lee Pfeiffer的儿子是汤姆克鲁斯”。

(当然不排除只是成为经典问题之后,相关数据更多了。)



马斯克大模型升级,牺牲特斯拉换的

测试先告一段落,可以看出Grok-2对比上一代Grok-1.5有了很大进步。

背后马斯克可是,花费了大量资源和人力。

比如有新加入xAI的研究员表示,能用10万卡集群做研究,比起在学校里可怜的资源爽太多了。



但是有一群人可不满意了:特斯拉股东。

根据华尔街日报消息,马斯克持续把人才、数据和GPU资源从特斯拉向xAI转移

目前为止,xAI已经雇佣了至少11名曾在特斯拉工作过的员工,其中六名直接在Autopilot团队工作过。

原本为特斯拉保留的GPU订单,马斯克也要求英伟达优先供应xAI。

马斯克还公开谈论了特斯拉收集的大量视觉数据,他表示这些数据可以作为训练xAI模型的资源。

至少三位特斯拉股东因为这事把马斯克给告了,声称将资源转移到xAI损害了特斯拉投资者的利益。

目前案件正在特拉华州法院审理。

(责任编辑:知识)

推荐文章
  • 日本“坏小子”,成为辽宁的“德布劳内”

    日本“坏小子”,成为辽宁的“德布劳内” 11月3日中甲联赛最后一轮,辽宁铁人坐镇主场迎战来访的云南玉昆,虽然是收官之战,比赛的结果早已不那么重要,在比赛开始前,云南玉昆早已锁定中甲冠军,而辽宁铁人即使取胜也无法获得联赛前两名直接升入中超。但 ...[详细]
  • TTS新传评论赏析:西安交大优秀毕业生争议,到底在吵什么啊??

    TTS新传评论赏析:西安交大优秀毕业生争议,到底在吵什么啊?? @TuTouSuo™️*小红书账号:秃头研究所新传考研/秃头研究所Monsters*如果你想从现在就开始练习「新闻评论」,欢迎和秃头所一起阅读主流媒体的热点事件新闻评论:理解论点、剖析结构、划出金句、 ...[详细]
  • 高温高湿的七月八月切记科学运动

    高温高湿的七月八月切记科学运动 高温高湿的七月八月切记科学运动2024-07-03 10:48:06 来源:羊城晚报 作者:刘阳禾 ...[详细]
  • “雪龙2”号极地科考破冰船起航

    “雪龙2”号极地科考破冰船起航 杨雪梅摄影像中国)  7月5日,中国第十四次北冰洋考察队“雪龙2”号极地科考破冰船从山东青岛奥帆中心码头起航出征。  作为我国第一艘自主建造的极地科考破冰船,“雪龙2”号于2019年首次参与中国极地考 ...[详细]
  • 广汽“揽胜”?广汽传祺S7预告图发布

    广汽“揽胜”?广汽传祺S7预告图发布 广汽传祺旗下目前在售的车型有10款,包含了MPV、轿车以及SUV车型,不过为了增加市场竞争力,广汽传祺在推全新力作。就在近日,广汽传祺官方发布了旗下全新SUV S7的官图,这款车型定位中型SUV,结合 ...[详细]
  • 网友预测孙卓能考上211,孙海洋称考200多分就很好,结果比预想好

    网友预测孙卓能考上211,孙海洋称考200多分就很好,结果比预想好 网传孙卓高考623分,可惜尚且没有得到本人及其家长的确认。深圳二高的同学、老师和家长再一次为了孙卓守口如瓶,消息竟瞒得一丝不漏。想当初才上高一的孙卓认亲后,从山东跨省转学到深圳,由于高考移民政策的限制 ...[详细]
  • 赵今麦《度华年》热度第一,还有更大的爆款剧在后面,期待值拉满

    赵今麦《度华年》热度第一,还有更大的爆款剧在后面,期待值拉满 本以为2024年的“最大惊喜”是刘亦菲的《玫瑰的故事》,结果这部戏的口碑直接呈现了两极分化,在完播后热度直线下滑,幸运的是接棒者的“战力非凡”。赵今麦的《度华年》上映后 ,直接凭借着精致的服化道与全体 ...[详细]
  • 山东菏泽龙卷风已致5人死亡 2820间房屋受损

    山东菏泽龙卷风已致5人死亡 2820间房屋受损   山东省菏泽市应急管理局今天发布情况通报,7月5日下午,受高空槽和副热带高压边缘西南暖湿气流影响,菏泽市东明县、鄄城县等地突发强对流龙卷风自然灾害,造成88人受伤,其中5人经抢救无效死亡。初步核查, ...[详细]
  • 新产品来了!数字人民币创新应用落地不断

    新产品来了!数字人民币创新应用落地不断   又一数字人民币创新产品来啦!  近日,在第十八届深圳国际金融博览会召开期间,数字人民币可视硬钱包产品及应用正式发布。  据了解,在中国人民银行数字货币研究所、中国人民银行深圳市分行和深圳市委金融办 ...[详细]
  • 暑假如何才能不白过?

    暑假如何才能不白过? 作者|静的萍首发|萍语文放暑假了,神兽归来,家长总是忐忑不安:暑假如何才能不白过?暑假八问,为你解惑。/ 一问 /暑假怎样才能不虚度?暑假要想过得充实又向上,必须先做计划,每天都要生长。不做计划的暑假 ...[详细]