公众号
关注微信公众号
移动端
创头条企服版APP

谷歌推最强单加速模型Gemma 3,PK QwQ-32B 5道题仅对1个!

5106
2025-03-13 11:42 抢发第一评

就在昨日的的巴黎开发者日上,谷歌宣布推出了 Gemma 3 全家桶,这是一款基于 Gemini 2.0 的全新开源模型。

同时Gemma 3 还引入了多模态能力,支持视觉语言输入和文本输出,以及结构化输出和函数调用等功能。

可处理多达 128k 个Token的上下文,理解 140 多种语言。

640 (48).jpg

Gemma 3 在设计之初,目标就是小而精。

此次共发布四款不同尺寸版本(1B, 4B, 12B, 27B) ,开发者可以直接在手机、笔记本电脑上直接快速地运行。对于其能力,谷歌表示:Gemma 3 是单个 GPU 或 TPU 上运行的功能最强大的模型。

它的跑分成绩也确实不赖。

在LMArena竞技场中,Gemma 3取得了1339 ELO的高分,Gemma 3 27B参数模型直接击败了o1-preview、o3-mini high、DeepSeek V3等众多顶尖模型,排进了榜单前十。

640 (49).jpg

同时,Gemma 3 27B 在 Chatbot Arena Elo 分数测试中排名第二,仅次于 DeepSeek-R1,超过了 DeepSeek DeepSeek v3、OpenAI 的 o3-mini等一系列模型。

640 (50).jpg

在多项基准测试中,Gemma 3全家桶相较于Gemma 2实现了全面提升,不过在其他领域得分不及Gemini 1.5以及Gemini 2。

640 (51).jpg

那实际效果否和官方给的测评一样厉害呢?老规矩,上手测一下就知道了。

前日,阿里开源了推理模型QwQ-32B,实测过后,效果非常出色,正好QwQ-32B和Gemma 3 27B尺寸差不多,我们用它们俩来PK一下,看看谁更胜一筹。

相关阅读:阿里开源推理模型QwQ-32B,实测PK比他大20倍的DeepSeek-R1

为了防止在测试过程中开挂,会关闭QwQ-32B的搜索功能。

题目一:数草莓

Gemma 3 27B:

640 (52).jpg

QwQ-32B:

640 (53).jpg

想不到Gemma 3一上来就翻车了,2025年,这道题居然还有模型做错.....

Gemma 3 回答只有2个“r”,而QwQ-32B还是一如既往的稳,回答正确。

题目二:房子里有五个人,A、B、C、D和E,A正在和B看电视,D在睡觉,E在打乒乓球,请问C在做什么?

这道题是一道较为简单推理题,因为乒乓球是双人运动,目前只有E一个人在玩,那么还有一个人是谁呢?答案呼之欲出就是C了,我们来看它们的回答。

Gemma 3 27B:

640 (54).jpg


QwQ-32B:

640 (55).jpg

好家伙,Gemma 3再度翻车,它的回答是"C在和A、B一起看电视"。反观QwQ-32B依旧回答正确。

再来一道简单的推理题,看看Gemma 3是否还会翻车。

题目三:有1000kg蘑菇,含水量是99%。现在晒几天,晒到含水量为98%,需要晒掉多少水?

Gemma 3 27B:

640 (56).jpg

QwQ-32B:

640 (57).jpg

终于,Gemma 3回答准确了,再回答错误,我都会怀疑是不是用错了模型,同样回答准确的还有QwQ-32B。

是时候上上难度了,来道高度烧脑的推理题。

题目四:日期推理题

提示词:老师告诉学生自己的生日是以下日期之一:3月4日、3月5日、3月8日、6月4日、6月7日、9月1日、9月5日、12月1日、12月2日、12月8日,老师只告诉了A月份,告诉了B日期。A说:“我不知道老师的生日,但B肯定也不知道。” B说:“我本来也不知道,但现在我知道了。” A说:“那我也知道了。” 请问老师的生日是哪一天?

Gemma 3 27B:

640 (58).jpg


QwQ-32B:

640 (59).jpg

Gemma 3 依旧推理错误,正确答案是9月1日,QwQ-32B推理正确。

怎么刚上难度,Gemma 3就回答错误了,难道是凑巧碰上了?

那就再来一道同样难度的推理题。

题目五:猜牌小游戏

题目:S先生、P先生、Q先生他们知道桌子的抽屉里有16张扑克牌:红桃A、Q、4;黑桃J、8、4、2、7、3;草花K、Q、5、4、6;方块A、5。约翰教授从这16张牌中挑出一张牌来,并把这张牌的点数告诉P先生,把这张牌的花色告诉Q先生。这时,约翰教授问P先生和Q先生:你们能从已知的点数或花色中推知这张牌是什么牌吗?于是,S先生听到如下的对话:P先生:我不知道这张牌。Q先生:我知道你不知道这张牌。P先生:现在我知道这张牌了。Q先生:我也知道了。听罢以上的对话,S先生想了一想之后,就正确地推出这张牌是什么牌。请问:这张牌是什么牌。

Gemma 3 27B:

640 (60).jpg

QwQ-32B:

640 (61).jpg

还得是QwQ-32B啊,一如既往的稳定,成功推理出“方块5”,同样稳定输出的还有Gemma 3,给出的答案是“黑桃4”,推理错误。

测试结果出乎意料,一共测试了5道推理题,Gemma 3仅答对了一道题,而QwQ-32B模型,全部回答正确,然后小编又去计算了第二遍,结果依旧没变。

整体测试下来,Gemma 3的推理能力确实不太行。

目前Gemma 3全家桶已在Google AI Studio上线,大家感兴趣的去测试一下,免费,支持白嫖!

附上使用地址:https://aistudio.google.com/

 .END.

您也可以关注我们的官方微信公众号(ID:ctoutiao),给您更多好看的内容。

声明:本文由创头条企业号发布,依据企业号用户协议,该企业号为文章的真实性和准确性负责。创头条作为品牌传播平台,只为传播效果负责,在文章不存在违反法律规定的情况下,不继续承担甄别文章内容和观点的义务。
您阅读这篇文章花了0
转发这篇文章只需要1秒钟
谷歌推最强单加速模型Gemma 3,PK QwQ-32B 5道题仅对1个!
打赏一下 0
喜欢这篇 13
评论一下 0
凯派尔知识产权全新业务全面上线
相关文章
评论
试试以这些内容开始评论吧
登录后发表评论
凯派尔知识产权全新业务全面上线
宁波城市站
金华城市站
×
#热门搜索#
精选双创服务
历史搜索 清空

Tel:18514777506

关注微信公众号

创头条企服版APP