软件开发价格大模子集体失智！9.11和9.9哪个大，险些全翻车了

栏目分类

热点资讯

软件开发公司你的位置：软件开发价格是多少 > 软件开发公司 >

软件开发价格大模子集体失智！9.11和9.9哪个大，险些全翻车了

发布日期：2024-07-18 16:48 点击次数：192

梦晨一水发自凹非寺

量子位 | 公众号 QbitAI

没眼看……“9.11和9.9哪个大”这么简短的问题，尽然把主流大模子皆难倒了？？

强如GPT-4o，皆执意地以为9.11更大。

小程序开发

谷歌Gemini Advanced付费版，雷同的口径。

新王Claude 3.5 Sonnet，还一册隆重的给出离谱的计较形势。

9.11 = 9 + 1/10 + 1/100

9.9 = 9 + 9/10

9.11 = 9 + 1/10 + 1/100

9.9 = 9 + 9/10

到这一步如故对的，但下一步瞬息就不讲真理了

如上所示，9.11比9.90大0.01。

你想让我进一步详确证实少许的比拟吗？

如上所示，9.11比9.90大0.01。

你想让我进一步详确证实少许的比拟吗？

这你还证实啥啊证实，竟然要怀疑是全天下AI长入起来诳骗东说念主类了。

艾伦AI蓄意所成员林禹臣换了个数字测试，GPT-4o依旧翻车，他暗示：

一方面AI越来越擅长作念数学奥赛题，但另一方面学问依旧很难。

也有网友发现了华点，淌若是说软件版块号，那么9.11版块如实比9.9版块更大（更新）。

而AI皆是软件工程师成就的，是以……

那么，究竟是若何回事？

先进大模子集体翻车‍‍‍‍‍‍‍

一醒觉来，一众响当当的大模子启动以为“9.11>9.9”了？

发现这个问题的是Riley Goodside，有史以来第一个全职辅导词工程师。

简短先容下，他现在是硅谷独角兽Scale AI的高档辅导工程师，亦然大模子辅导运用方面的众人。

最近他在使用GPT-4o时有时发现，当发问：

9.11 and 9.9——which is bigger?

GPT-4o竟绝不盘桓恢复前者更大。

靠近这一学问性“诞妄”，他不停念地又去问了其他大模子，恶果险些杜渐防微。

好家伙，身为又名辅导工程师，他机敏意志到可能是“掀开花式有误”。

于是他又换了个问法，将发问收尾在“实数”，恶果如故翻车了。

不外，有网友试着给发问换了个规则，没意象这下AI竟反映过来了。

看到AI对词序如斯“敏锐”，该网友进一步推断：

先问哪个更大，AI会沿着明确旅途启动比拟数字。

但淌若仅仅粗放说说数字，莫得明确方向，AI可能会启动“白昼见鬼”。

先问哪个更大，AI会沿着明确旅途启动比拟数字。

但淌若仅仅粗放说说数字，莫得明确方向，AI可能会启动“白昼见鬼”。

看到这里，其他网友也纷繁拿相易辅导试了一把，恶果翻车的不在少数。

靠近这一个诡异的问题，国产大模子默契若何呢？‍‍‍

咱们简短测试一番，问题也换成汉文发问，恶果翻车率也比拟高，中式几个有代表性的展示：

Kimi亦然不加证实就径直给出诞妄论断。

智谱清言APP上的ChatGLM，自动触发了联网查询，然后状貌了我方的比拟形势，可惜却实行错了。

不外也有默契可以的，腾讯元宝先复述了一遍选项，然后径直作念对。‍‍‍‍

字节豆包是少数能把比拟形势状貌清亮，而况用对的。致使还关系试验例如来考据。

比拟可惜的是文心一言，软件开发资讯靠近这个问题，亦然触发了联网查询。

蓝本皆如故作念对了，但瞬息话锋一瞥又导向了诞妄论断。

不外从文心一言的想路证实上，也可以看出背后问题方位。

由于大模子以token的花式来意会翰墨，当9.11被拆成“9”、“少许点”和“11”三部分时，11如实比9大。

由于OpenAI使用的Tokenizer开源，可以用来不雅察大模子是若何意会这个问题。

上图可以看出，9和少许点分袂被分拨为“24”和“13”，少许点后的9雷同亦然“24”，而11被分拨到“994”。

是以使用这种tokenizer形势的大模子会以为9.11更大，其实是以为11大于9。

也有网友指出，像是书本目次里第9.11节也比第9.9节大，是以最终可能如故教育数据里见这种见得多了，而手把手教基础算数的数据很少。

也等于问题本人对东说念主类来说，一看就知说念问的是算数问题，但对AI来说是一个暗昧的问题，并不清亮这两个数字代表什么。

独一向AI证实昭着这是一个双精度浮点数，就可以作念对了。

在有终点条目的情况下，tokenizer这一步依然会给11分拨更大的token。然而在后续自正式力机制的作用下，AI就会昭着要把9.11连起来处理了。

自后Goodside也补充，并不是说大模子不管若何皆认定了这个诞妄论断。而是当以特定花式发问时，很多动身点模子皆会告诉你9.11>9.9，这很奇怪。

经由反复尝试后他发现，想让AI上这个当，需要把选项放在发问前边，淌若调整规则就不会出错。

然而独一选项在问题前边，转换发问的花式，如加标点、换词汇皆不会有影响。

天然问题很简短，诞妄很基础。

但了解出错旨趣之后，很多东说念主皆把这个问题当成了试验辅导词手段的试金石，也等于：用什么发问形势能指令大模子的正式力机制正确意会问题呢？

动身点，大名鼎鼎的Zero-shot CoT想维链，也等于“一步一时局想”，是可以作念对的。

不外扮装束演辅导，在这里作用就有限了。

刚好最近也有微软和OpenAI皆参与的一项蓄意，分析了1500多份论文后发现，跟着大模子时代的卓绝，扮装束演辅导不像一启动那样有效了……

具体来说，并吞个问题辅导“你是一个天才……”比“你是一个傻瓜……”的正确率还低。

亦然让东说念主哭笑不得了。

One More Thing

与此同期，路透社的OpenAI玄机模子「草莓」线路音书更新了。

更新内容为：另一位线东说念主敷陈，OpenAI如故在里面测试了新模子，在MATH数据集上得分卓绝90%。路透社无法细目这是否与“草莓”是并吞个名堂。

MATH数据集包含竞赛级别的数学题，现在不必屡次采样等终点形势，最高分是谷歌Gemini 1.5 Pro数学强化版的80.6%。

然而OpenAI新模子在莫得终点辅导情况下，能不可自主惩办“9.11和9.9哪个大？”。

瞬息没信心了，如故等能试玩了再看恶果吧……

参考荟萃：

[1]https://x.com/goodside/status/1812977352085020680

[2]https://x.com/billyuchenlin/status/1812948314360541302

[3]https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/

[4]https://tiktokenizer.vercel.app

[5]https://x.com/learnprompting/status/1812867464419852765

— 完—

量子位年度AI主题经营正在征荟萃！

宽贷投稿专题一千零一个AI运用，365行AI落地决议

或与咱们共享你在寻找的AI产物，或发现的AI新动向

点这里👇柔顺我，记起标星哦～

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日相逢 ~软件开发价格

发布于：北京市

上一篇：没有了

下一篇：软件开发价格好意思以防长通电话推敲巴以被扣押东说念主员交换磋议等事宜

软件开发价格 大模子集体失智！9.11和9.9哪个大，险些全翻车了

软件开发价格大模子集体失智！9.11和9.9哪个大，险些全翻车了