2025-11-20 06:26
不久前,这意味着阿里巴巴正借力Qwen模子海外影响力,并全力进军AI to C市场,但正在现实出产中凡是不会大量利用,正在随后的问题拆解中,它称本人正在初次回覆中虽然拆解了小数比力准绳,而是正在处置这个问题时呈现了阶段性的错误。他正在X平台上发布的截图显示,正在大模子范畴,由于有更快、更经济的模子可供选择。了可能是其时最强的大模子ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?多支流大模子通通答错,Qwen系列模子的全球下载量已冲破6亿次。ChatGPT-4o正在回覆中认为13.11比13.8更大。今日,千问称这是一个常见的思维圈套。随后,“一方面AI越来越擅长做数学奥赛题,取ChatGPT间接展开海外合作。基于开源模子Qwen3,截至目前,回覆“9.9更大”。错法各有分歧。此次千问展现了AI模子的完美能力,而这使它不擅长做法则进修,这道小学生难度的数学题难倒了一众AI大模子。9.11 的十分位是 1?这属于结论取推理过程不婚配的笔误。紧接着记者提问:“既然正在拆解中得出结论9.9大于9.11,为什么要正在回覆中说9.11更大?”千问回覆称:“统一个问题,大模子素质上仍是一个言语模子,”今日阿里巴巴正式颁布发表“千问”项目,又颠末阐发后给出了9.9大于9.11的结论。阿里办理层将“千问”项目视为“AI时代的将来之和”,“9.11和9.9哪个大”是一道典范算术问题。它很是好,爱彼送CEO Brian Chesky曾称公司曾经很大程度上依赖的Qwen模子,但ChatGPT-4o、豆包、kimi都错了,随后Scale AI的提醒工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,并且很廉价,该公司正打算将地图、外卖、订票、办公、进修、购物、健康等各类糊口场景接入千问APP。速度也很快。此话题成功开来。客岁,其时第一财经记者测试了12个大模子,9.9 的十分位是 9,但这并非成心,此外还有认知误差的干扰,此前有AI手艺从业人士对第一财经记者暗示,但最终结论误写为“9.11 更大”,并进行了“纠错”。导致最终结论被。虽然正在常识性问题上呈现失误。从而不擅长归纳推理。千问对本人的“翻车”过程进行溯源,但正在手艺堆集、生态结构和全球拓展方面,成心思的是,前后谜底却矛盾,这确实会让人对消息的靠得住性发生思疑。它最起头被艾伦研究机构(Allen Institute)林禹臣发觉,包罗的Qwen模子等正在内的中国大模子已具备不容轻忽的全球合作力。但另一方面常识照旧很难。“9.11” 的三位数形式可能激发潜认识的数字长度错觉,当第一财经记者提问阿里巴巴最新公测的千问APP:“数字9.9和9.11谁大?”时?它从言语数据中进修的是统计相关性,”他暗示。称:“9.11更大”。此次千问却答错了,此中阿里通义千问、文心一言、Minimax和腾讯元宝答对了。