全球最硬核的Lmarena模型竞技榜刚刚更新,前10名里国产模型直接占了4席。
DeepSeek R1以89.7分与GPT-4o并列第三,Qwen Max以0.4分优势反超DeepSeek V3,智谱ChatGLM稳守第九。
要知道去年这时候,国产模型还在榜单20名开外“苟着”,美国网友甚至调侃“中国AI在玩单机游戏”。
结果短短一年,情况发生了大转变。
DeepSeek率先上演逆袭神话。
去年10月,V3版初露锋芒挺进前十,今年R1版本仅用三个月便登顶第三,其核心推理能力评分飙至89.7,与GPT-4o差距缩至0.3分!更震撼的是其成本控制——开源文档显示,R1单位性能算力消耗较Llama 3降低34%,这种"暴力计算美学"直接惊动美国参议院科技委员会,其2月13日听证会上首次将DeepSeek列入"战略技术观察清单"。
硅谷精英集体破防。
YC创始人Paul Graham凌晨发推:"当中国团队开始重定义参数效率时,旧金山该响起防空警报";
Anthropic技术总监在内部备忘录警告:"DeepSeek的MoE架构设计至少领先行业路线图半年" ;
GitHub数据显示,DeepSeek-Coder周下载量暴涨300%,马斯克在X平台转发相关代码仓库时配文"这不该被忽视"......
阿里Qwen展现更强攻势。
Max版本代码生成单项92分创历史新高,Qwen1.5-110B在AGIEval评测中以84.1分超越GPT-4的83.7。
Meta首席科学家Yann LeCun在2月10日学术会议上直言:"Qwen的跨模态架构正在改写游戏规则"。Hugging Face平台见证Qwen系列下载量突破180万次,衍生出47个垂直领域微调版本。
2024 年初,斯坦福HAI研究所预测报告称,“2024将是中美AI实力交叉的临界点”。
信然。
白宫最新《AI竞争力报告》首次用12页篇幅分析中国大模型进展,直指“开源战略正在瓦解技术壁垒”。
a16z等顶级风投紧急启动中国AI专项尽调,某硅谷基金合伙人私下承认:“我们误判了中国团队的迭代速度”。
OpenAI被曝将中国院校毕业生招聘配额提升3倍,马斯克旗下xAI团队更是在浙大、上交大连续举办5场闭门宣讲。
在大模型落地场景方面,双方的差别更加明显。
在程序员聚集的Reddit板块,一篇《为什么Claude 3.5仍统治编码榜?》的深度分析引发热议:该模型虽在LeetCode Hard级题目保持82%通过率,但其训练数据截止2023年Q3的现实,让网友质疑“这更像一场刻意维持的技术景观”。
反观中国阵营,国产大模型已覆盖金融(38%)、政务(27%)、医疗(19%)三大核心领域。
比如:DeepSeek金融代码模型已部署至招商银行等23家机构,实时监控2.6万亿资管产品;
腾讯混元帮助国家电网搭建的电力调度系统,在寒潮期间将故障响应速度提升40%;
华为盘古气象大模型提前7天预测到本次广东龙卷风,误差范围仅3公里;
Qwen已接入菜鸟物流系统,日均处理200万件跨境包裹的关税计算,在东南亚市场,其多语言版本服务7国央行反洗钱监测......
值得玩味的是,在2月22日华盛顿AI安全峰会上,中美两国代表就大模型监管展开激烈交锋,而会议茶歇期间,超过半数硅谷CEO主动与中国团队交换联系方式——这场静默的技术权力转移,或许比榜单数字更具历史重量。
.END.
图片来源|网络
您也可以关注我们的官方微信公众号(ID:ctoutiao),给您更多好看的内容。