当前位置: 首页 >
如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 人气:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-19苹果发布了 macOS 26 开发者预览版 Beta 更新,这次更新带来了哪些新功能和改进?
- 2025-06-19Gemini 2.5 Flash 和Pro稳定版上线,和之前版本相比,在性能和应用场景上有哪些提升?
- 2025-06-19如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架?
- 2025-06-19你卡过最厉害的bug是什么?
- 2025-06-19谷歌云服务宕机导致 OpenAI、Shopify 等服务中断,此次宕机的具体技术原因是什么?
- 2025-06-19公务员单位为什么不用指纹打卡机并且严格考勤制度?
- 2025-06-19核武器真的有宣传中那么牛逼吗?
- 2025-06-19你们都什么时候对男女之事开窍的?
- 2025-06-19Rust使用?多次传播错误后,怎么定位最开始发生error的地方?
- 2025-06-19H264和H265谁画质好,求回谢谢!?
- 2025-06-19有哪些小众的开源项目养活了一大批人?
- 2025-06-19Firefox是如何一步一步衰落的?
- 2025-06-19最讨厌和哪种人打羽毛球?
- 2025-06-19网传厦门某国企研发部门要求每日考察后端 400 行,前端 1000 行代码量,如属实,这个考核合理吗?
- 2025-06-19买到烂尾楼到底该有多绝望?
- 2025-06-19据报道称“浏览器内核有上千万行代码”,浏览器内核真的很复杂吗?
推荐产品
-
有个少数民族的女朋友是什么体验?
她是我去南疆旅游时,在火车上偶遇的,当时运气好到爆棚,她竟然 -
为什么章若楠和杨超越长得很像,男人却更喜欢章若楠,认为有女人味,而觉得杨超越像小女孩?
之前网上见过这个姑娘的照片,当时惊为天人。 后来看到章 -
蜜雪冰城香港门店被通报「产品大肠菌群超标 70%」,哪些环节可能导致大肠菌群超标?会对身体有哪些危害?
在我的印象中,大肠杆菌超标一般都是几百倍,几千倍的出现,很少 -
有没有一个时间段,自己乐在其中,可亲人或者朋友却觉得你很辛苦,很心疼你?
谢邀。 有啊,我这十来年都是这样的状态。 本人南方姑娘,研
最新资讯




