涌入DeepSeek的用户们最近开始对它又爱又恨。
一边是其大模型接口被越来越多APP植入及大模型平台接入,GitHub上基于其API开发的项目周增37%,自己的“爱豆”还是那么受欢迎。
最新的消息是,在几乎所有国内云计算厂家支持 DeepSeekAPI调用后,DeepSeek-R1、V3、Coder 等系列模型在国家超算互联网平台上线。
另一方面,下午三点就"服务器繁忙",追问天气竟被建议"带伞去火星”等幻觉的出现频度,也越来越高。
打开Sensor Tower后台,一组数据更是耐人寻味。
接入DeepSeek的TOP100应用MAU平均提升18%,但应用商店差评中42%指向AI功能。
某跨境电商平台接入后GMV提升23%,却因汇率换算错误单日损失270万美元订单。
开发者论坛投票显示,67%程序员肯定其技术潜力,但81%担忧商用稳定性。
更值得玩味的是技术细节。
DeepSeek最新公布的v0.3.2版本响应速度达到320 tokens/秒,较行业均值快47%,但幻觉率测试却显示,在复杂推理场景中错误率高达13.7%,远超GPT-4 Turbo的5.2%(MLCommons 2024Q2基准测试)。
这两天,一篇《DeepSeek正在中文互联网建造『幻觉长城』》的文章刷屏,该文章描述的事实,及评论里用户的吐槽,都有客观性和普遍性,感兴趣的可以移步查看。
这种"越火越垮"的怪圈,暴露了AI大模型赛道的一些关键矛盾。
比如算力悬崖:用户量指数级增长VS服务器线性扩容;
比如数据悖论:追求响应速度导致训练数据"夹生饭”;
比如口碑陷阱:技术社区监测到,每个错误回答在社交媒体的传播量是正面案例的17倍,形成"错误裂变效应"。
正如OpenAI首席技术官Mira Murati在2023年AI峰会上所言:"当模型日调用量突破千万级时,0.1%的错误率就意味着每天有1万个定时炸弹。"
而这也确实是他们在 GPT-3商用初期曾经历的深刻教训。
这个坎,当时ChatGPT费了好大劲在跨过来。
在响应体验上,OpenAI采用"潮汐计算"模式,高峰期调用分布式算力——2023年构建的混合云架构,使其算力成本降低38%;
还有开发"模型压缩包",将7B参数模型瘦身60%运行;以及,建立区域化节点,像TikTok那样做本地化部署等。
在解决幻觉问题上,完善了智能纠错系统。
比如设置"可疑回答"自动拦截层,开发用户反馈实时训练通道,以及创建知识边界地图,对超纲问题主动示弱等。
在控制增长节奏上,同样有经验可循。
比如对新接入平台实行灰度测试,设置开发者积分体系调控API调用,以及保留20%算力作为"应急缓冲带”,等等。
直到现在,ChatGPT可以说都还在弥补这一课。
OpenAI用三年时间证明了,与其疯狂打补丁找补,不如重构底层逻辑。
对正面临“疯长的烦恼”的DeepSeek而言,这个坑很值得去重视。
值得关注的是,DeepSeek团队近期开始从游戏行业挖角增长专家——这或许暗示着新的解题思路。
正如《原神》制作人刘伟曾分享的:"百万级日活用户的生态运维,本质是场持续动态平衡的战役。"
于DeepSeek而言,这场"顶流魔咒"的突围战,不仅关乎技术实力,更是对产品哲学、运营智慧乃至组织韧性的全面考验。
.END.
图片来源|网络
您也可以关注我们的官方微信公众号(ID:ctoutiao),给您更多好看的内容。