首页 > 知识技巧 > 知识技巧 > 9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

发布时间:2024-07-19 16:28:18来源: 15210273549

导读

一道小学生的数学题竟然难倒了全球AI大模型,只有4个大模型给出了正确答案!这究竟是怎么一回事?快来看看!

 

全球AI大模型被一道小学生数学题难倒

日前,一道来自小学生的数学题却难倒了不少海内外AI大模型,这道题的内容是“9.11和9.9哪个更大”,而仅有4个大模型给出了正确答案。

 

挑战大模型的数学推理能力

大模型的数学能力一直是短板,即便是目前最好的大模型GPT4也仍然有很大进步空间,而此前笔者在采访12位大模型时也得出了一个惊人的结论,这些大模型中仅有4个回答是正确的,而其他8个大模型却都给出了错误的答案。

 

数字切分问题与模型的理解能力

而针对大模型的数学能力,笔者曾进行过深入的采访,大部分行业人士认为大模型数学能力差的根本原因还是出在分词上,即Tokenizer(分词器)在处理数字时会出现问题,导致模型难以正确理解和计算。

 

正确答案揭晓与未来的发展方向

而这道9.11和9.9的大小比较题,12个大模型中,只有阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,其他8个大模型都认为9.11比9.9更大。

 

虽然最终4个大模型给出了正确答案,但这并不能掩饰大模型数学能力的薄弱,毕竟面对简单的大小比较题,8个大模型都给出了错误答案。

 

而对于未来大模型的发展方向,笔者也咨询了不少专家学者以及从业者,针对此前大模型的回答,不少人表示“并不意外”。

一些专家认为,未来在模型的训练数据上会越来越依赖构造型的数据,而不是直接爬取下来的数据,以提升模型的复杂推理能力。

 

因为直接爬取下来的数据中会夹杂大量的错误数据,这些错误数据会误导模型,导致模型做出错误的判断。

而构造型的数据则可以事先筛选,保证数据的准确性和可靠性,从而培养模型健康的思维方式。

知识技巧更多>>

配贯穿式五联屏,售价12.98万起,解读灵悉L 吉利星愿正式上市,售价6.98万元起 售价9.98万元起,定位紧凑型SUV,这款车适合通勤使用 售价12.98万元,动力充沛,本田灵悉L值得入手吗? 适合上下班通勤,五菱缤果怎么样? 适合上下班通勤使用,定位小型车,海鸥值得购买吗? 适合上下班通勤使用,定位小型车,海鸥值得购买吗? 适合上下班通勤,起售价5.68元,五菱Nano EV怎么样? 丰田Prius创下39.5km/L的吉尼斯世界纪录,总计行驶超过5167.6km 宝马推出特仕版X5庆祝上市25周年,融合xLine和M Sport元素! 腾势Z9 GT正式首发,拥有纯电动与PHEV版本,高性能四门GT轿跑! 丰田GR Starlet开发中,将成为品牌最入门的GR车款! 宝腾Saga MC3将拥有全新设计,并更换全新1.5L自然进气引擎! 宝马正在重组其设计团队,“大鼻孔”是主要原因? 刹车系统存在质量问题,宝马集团全球召回150万辆汽车! 丰田Raize在南美洲送测,结果只获1颗星评价,只标配了2具气囊! 宝腾在埃及启动CKD组装生产,打造北非市场出口枢纽! 泰国7月汽车销量:丰田占据5个名次,只有一款电动车入围! 越野老炮再进化,车长4790mm,配副驾大屏,全时四驱+前后差速锁 新一代“蛙王”,依旧提供weissach套件,预计保留4.0升自吸引擎 专为年轻人打造,四门轿跑车身设计,搭载1.5T轻混,加速4.9s 国产硬派SUV,车长5078mm,非承载车身+超级四驱,最小离地213mm 德系实力派,车长4735mm,配2.0T+7挡湿式双离合,加速6.5s油耗7L 法拉利超级旗舰,蝶翼式车门,V6混动+F1赛车技术,剑指迈凯伦W1 领克打造的轿跑,车长4697mm,265马力、加速5.7s,还有弹射起步 特立独行的国产车,皮卡造型打造,增程/纯电双动力,还有CDC悬架 宝马的“王牌”,配V8插电混动,727马力/1000牛·米,极速306km/h 别克的巅峰之作,配后排独立空间、星空幻影车顶,还有32寸大彩电 比亚迪全新大型SUV,腾势N9官图发布,车长5.3米,年内正式亮相 2025款大众速腾正式上市,配置升级,价格不变,两种动力