如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？_四川省达州市万源市甲技推醒玻璃包装用品有限公司

发布时间：2025-06-20 01:30:15

摘要： 如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？_四川省达州市万源市甲技推醒玻璃包装用品有限公司

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果，突出了一个政治正确，6款大模型，OpenAI的o3倒数第一，我当时看到的时候就觉得很奇怪，o3好歹也是曾经的一代王者，高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下，因为这道题除了o3，其他的国产模型都答对了。

这是第五题的原题，正确答案是A. - 1/2。

这是之前的第三方的测试结果，6个模型…。

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

上一篇 : 当量子计算机能预测人类选择，自由意志是否沦为算法的注脚？

下一篇 : ***如古代长城用的是C140混凝土，那千百年下来会完整的留存至今还是损坏的更加严重？

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？_四川省达州市万源市甲技推醒玻璃包装用品有限公司如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？_四川省达州市万源市甲技推醒玻璃包装用品有限公司如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？_四川省达州市万源市甲技推醒玻璃包装用品有限公司如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？_四川省达州市万源市甲技推醒玻璃包装用品有限公司

有没有一款音乐播放器，能连接nas音乐，创建音乐库，自动匹配歌词封面等等？类似infuse的概念呢？

以色列是如何从三天前的不可一世要灭了伊朗到今天的哭哭啼啼要“为生存而战”的？

大家在做登录功能时，一般怎么做暴力破解防护？

为什么中国现在全球军事实力第一，但包括中国人在内很多人不认可？

Python+rust会是一个强大的组合吗？

国产轮胎那么便宜，为什么很多人非要买高价的国外轮胎？?

cloudflare的1.1.1.1和warp有什么区别？

为什么 macOS 并不差，可市场总敌不过 Windows？

海贼王为什么现在被全网黑?

剪映为什么显卡会跑满？

我国的军工能力可以实现一天5000枚火箭弹连着炸三个月吗？

为什么美军“好像”不怕泄密？

为什么女游泳运动员看起来大部分都是平胸？

有哪些小众的开源项目养活了一大批人?

跨平台GUI框架到底应该自绘还是原生控件绑定？

国产CAD软件能否替代AutoCAD？

为什么中国现在全球军事实力第一，但包括中国人在内很多人不认可？

明星不拍戏的时候都在干什么？

国产手机APP为什么越来越臃肿？

国家电网以后以后会和昔日的粮站一样吗？

为什么有的女生喜欢穿紧身牛仔裤？

苹果为什么要给每代MacOS起个名字，真以为人们记得住分得清吗？

剪映为什么显卡会跑满？

你能用一句话总结赵本山和郭德纲的区别吗?

德政镇更多

■ 如何评价鸿蒙电脑无法编写其自身运行的程序？

■ 如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

■ 为什么CCTV-6总是能播一些连院线都上不了的电影？

■ 你怎么看待剪映收费过高问题？

■ 国产CAD软件能否替代AutoCAD？

党坝镇更多

■ 我听说Windows12微软就直接重头构建Windows了，就直接重构Win内核了，到底是不是真的?

■ 大连天空现罕见「窟窿云」，目击者称持续半小时，压迫感十足，窟窿云是怎么形成的？你见过吗？

■ 有哪些是 DeepSeek 回答不了的问题？

■ Gemini 2.5 Flash 和Pro稳定版上线，和之前版本相比，在性能和应用场景上有哪些提升？

■ 苹果为什么要给每代MacOS起个名字，真以为人们记得住分得清吗？

茅畲乡更多

■ 群晖 nas 有些什么基本和好玩的功能？

■ 我的实际车速是66km/h，旁边有车超速，我被拍了违章，说是车速85km/h，怎么申诉?

■ 毕设答辩，老师说node不可能写后台怎么办?

■ 有什么是你去河南才明白的事？

■ 你怎么看待剪映收费过高问题？

锦江镇更多

■ 《凡人修仙传》的韩立有 72 把金雷竹做的剑，其他人看见了不觉得奇怪吗？

■ 江西通报救护车 800 公里收费 2.8 万「不合理，暂停医院转运服务」，该医院要承担怎样的法律责任？

■ 为什么《歌手》不请周杰伦、陈奕迅、王菲、张学友、孙燕姿、梁静茹、王力宏、林俊杰当节目嘉宾？

■ 量化小白可以用 cursor 写出 95% 的交易代码，但是最后那 5% 始终调试不好怎么办？

■ Gemini 2.5 Flash 和Pro稳定版上线，和之前版本相比，在性能和应用场景上有哪些提升？

高峪镇更多

■ 为什么这次以色列打伊朗，网上声讨的人少了，反而都是嘲笑调侃伊朗？

■ 有没有免费的云服务器?

■ 中年夫妻的婚姻状态是什么样的？

■ 鱼缸有没有简单的过滤配置搭配方式？

■ 有什么是你去河南才明白的事？

刘洞镇更多

■ 你后悔买领克了吗？

■ 颈椎病可以恢复吗？

■ 如何看待《剑星》已登顶 Steam 全球热销榜？

■ 为什么年轻的肉体让人沉迷？

■ 量化小白可以用 cursor 写出 95% 的交易代码，但是最后那 5% 始终调试不好怎么办？

推荐项目更多

这一轮以色列和伊朗的冲突谁会笑到最后？最终会如何收场？

代码：

为什么他们可以闻出来我身上的穷酸味?

代码：

请问有人能估计一下 go 相比 php 在不同用户量下能省多少钱吗？

代码：

switch2好用吗朋友们?

代码：

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？_四川省达州市万源市甲技推醒玻璃包装用品有限公司如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？_四川省达州市万源市甲技推醒玻璃包装用品有限公司

■为何 PC 需要单核高性能，而服务器不在乎？

■你在出租房屋发现过什么前租客留下的“宝藏”？

■你们学校的校花都是怎么样的？

■中国第一大省广东正在疯狂建大学，广东为何拼命建大学？

■为什么年轻的肉体让人沉迷？

德政镇更多

有哪些BI工具惊艳了你？

时间：2025-06-20

做个web服务器，gin框架和go-zero怎么选？

时间：2025-06-20

如何看待苹果在 WWDC25 发布的 Foundation 模型框架，它将为开发者和用户带来哪些改变？

时间：2025-06-20

国密加密算法有多安全呢？

时间：2025-06-20

中国第一大省广东正在疯狂建大学，广东为何拼命建大学？

时间：2025-06-20

党坝镇更多

凤凰传奇曾毅公开佩戴含有不雅元素的手表，这涉嫌违法吗？如何从法律角度解读？

时间：2025-06-20

Cloudflare是一家什么样的公司？

时间：2025-06-20

如何评价字节跳动开源的 Netpoll？

时间：2025-06-20

polars到底行不行？

时间：2025-06-20

无畏契约（valorant）在国内为什么这么火?

时间：2025-06-20

茅畲乡更多

如何看待alist被转手出售***？

时间：2025-06-20

如何评价高圆圆的身材算是美女类型的吗？

时间：2025-06-20

哪张照片让你觉得刘亦菲美得不可方物？

时间：2025-06-20

如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架？

时间：2025-06-20

国密加密算法有多安全呢？

时间：2025-06-20

锦江镇更多

冬天也要穿胸罩吗?

时间：2025-06-20

女主播和榜一大哥现实碰面会做什么？

时间：2025-06-20

为什么说以色列这次干得漂亮?

时间：2025-06-20

Rust开发Web后端效率如何？

时间：2025-06-20

polars到底行不行？

时间：2025-06-20

高峪镇更多

如何评价华为鸿蒙电脑？

时间：2025-06-20

现在个人博客不能备案了吗？

时间：2025-06-20

既然C#等开源语言，为啥***le还要弄个基本上一模一样的Swift？

时间：2025-06-20

眼睛的飞蚊症，能够康复吗？

时间：2025-06-20

如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架？

时间：2025-06-20

刘洞镇更多

国产手机APP为什么越来越臃肿？

时间：2025-06-20

乡下的土鸡真的值100块钱吗？

时间：2025-06-20

如何评价中国电科研发的JY-10防空指挥控制系统成为伊朗防空指挥系统核心？

时间：2025-06-20

为什么说Go语言的设计是工程先进但学术落后?

时间：2025-06-20

Rust开发Web后端效率如何？

时间：2025-06-20