公众号
关注微信公众号
移动端
创头条企服版APP

Lmarena模型排名中国占4/10,斯坦福称中美AI对战临界点到来

2096
2025-02-06 15:48 抢发第一评

656.jpg

全球最硬核的Lmarena模型竞技榜刚刚更新,前10名里国产模型直接占了4席。

657.jpg

DeepSeek R1以89.7分与GPT-4o并列第三,Qwen Max以0.4分优势反超DeepSeek V3,智谱ChatGLM稳守第九。

要知道去年这时候,国产模型还在榜单20名开外“苟着”,美国网友甚至调侃“中国AI在玩单机游戏”。

结果短短一年,情况发生了大转变。

DeepSeek率先上演逆袭神话。

去年10月,V3版初露锋芒挺进前十,今年R1版本仅用三个月便登顶第三,其核心推理能力评分飙至89.7,与GPT-4o差距缩至0.3分!更震撼的是其成本控制——开源文档显示,R1单位性能算力消耗较Llama 3降低34%,这种"暴力计算美学"直接惊动美国参议院科技委员会,其2月13日听证会上首次将DeepSeek列入"战略技术观察清单"。

硅谷精英集体破防。

YC创始人Paul Graham凌晨发推:"当中国团队开始重定义参数效率时,旧金山该响起防空警报";

Anthropic技术总监在内部备忘录警告:"DeepSeek的MoE架构设计至少领先行业路线图半年" ;

GitHub数据显示,DeepSeek-Coder周下载量暴涨300%,马斯克在X平台转发相关代码仓库时配文"这不该被忽视"......

阿里Qwen展现更强攻势。

Max版本代码生成单项92分创历史新高,Qwen1.5-110B在AGIEval评测中以84.1分超越GPT-4的83.7。

Meta首席科学家Yann LeCun在2月10日学术会议上直言:"Qwen的跨模态架构正在改写游戏规则"。Hugging Face平台见证Qwen系列下载量突破180万次,衍生出47个垂直领域微调版本。

2024 年初,斯坦福HAI研究所预测报告称,“2024将是中美AI实力交叉的临界点”。

信然。

白宫最新《AI竞争力报告》首次用12页篇幅分析中国大模型进展,直指“开源战略正在瓦解技术壁垒”。

a16z等顶级风投紧急启动中国AI专项尽调,某硅谷基金合伙人私下承认:“我们误判了中国团队的迭代速度”。

OpenAI被曝将中国院校毕业生招聘配额提升3倍,马斯克旗下xAI团队更是在浙大、上交大连续举办5场闭门宣讲。

在大模型落地场景方面,双方的差别更加明显。

在程序员聚集的Reddit板块,一篇《为什么Claude 3.5仍统治编码榜?》的深度分析引发热议:该模型虽在LeetCode Hard级题目保持82%通过率,但其训练数据截止2023年Q3的现实,让网友质疑“这更像一场刻意维持的技术景观”。

反观中国阵营,国产大模型已覆盖金融(38%)、政务(27%)、医疗(19%)三大核心领域。

比如:DeepSeek金融代码模型已部署至招商银行等23家机构,实时监控2.6万亿资管产品;

腾讯混元帮助国家电网搭建的电力调度系统,在寒潮期间将故障响应速度提升40%;

华为盘古气象大模型提前7天预测到本次广东龙卷风,误差范围仅3公里;

Qwen已接入菜鸟物流系统,日均处理200万件跨境包裹的关税计算,在东南亚市场,其多语言版本服务7国央行反洗钱监测......

值得玩味的是,在2月22日华盛顿AI安全峰会上,中美两国代表就大模型监管展开激烈交锋,而会议茶歇期间,超过半数硅谷CEO主动与中国团队交换联系方式——这场静默的技术权力转移,或许比榜单数字更具历史重量。

.END.

图片来源|网络

您也可以关注我们的官方微信公众号(ID:ctoutiao),给您更多好看的内容。

声明:本文由创头条企业号发布,依据企业号用户协议,该企业号为文章的真实性和准确性负责。创头条作为品牌传播平台,只为传播效果负责,在文章不存在违反法律规定的情况下,不继续承担甄别文章内容和观点的义务。
您阅读这篇文章花了0
转发这篇文章只需要1秒钟
Lmarena模型排名中国占4/10,斯坦福称中美AI对战临界点到来
打赏一下 0
喜欢这篇 17
评论一下 0
凯派尔知识产权全新业务全面上线
相关文章
评论
试试以这些内容开始评论吧
登录后发表评论
凯派尔知识产权全新业务全面上线
宁波城市站
金华城市站
×
#热门搜索#
精选双创服务
历史搜索 清空

Tel:18514777506

关注微信公众号

创头条企服版APP