两年前,GPT-4才出来的时候,大家纷纷给大模型出的题目是小学奥数,什么鸡兔同笼,都会有一定错误率,那时候人看大模型,就像看个傻子。
一年前,GPT-4o来了,模型变小了,性能提高,小学奥数以及普通的中考题正确率大幅度提高,但是中考的解答题仍然不会做。
半年多前,o1出现,首先提供的还是o1-preview和o1-mini,这两个模型已经能做中考解答题了,接下来只剩高考大题做不了。
然后今年,o3、o4-mini、gemini 2.5 pro……终于…。
代码:
为何中文互联网相对英文互联网的内容质量较低?
世界上哪款战斗机最好看?
作为普通中国人,我们可以为以色列人民做点什么?
字节跳动技术副总裁开源了自己与Trae合作的首个项目,如何评价目前AI开发的水平?
中国 5 月 Swift 人民币在全球支付中占比下降至 2.89%,背后的原因和未来的发展趋势是什么?
作为独立开发者,有哪些可以分享的经验?
什么时候你意识到做技术永无出路?
为何雷军天天健身,却无健身痕迹?
网传厦门某国企研发部门要求每日考察后端 400 行,前端 1000 行代码量,如属实,这个考核合理吗?
你们男寝发生过哪些难忘的事?
如何电脑下载Adobe audition?
美国搞出个“稳定币”,到底是什么?其它国家是如何看待稳定币的?
哪些电视剧现在再看让你感叹「我小时候吃这么好」?
谁能劝我不要买NAS?
你身边身材最好的女生是什么样?
中国军事力量有希望达到全球第一吗?
你为什么放弃了wsl?
大家在深圳真实的收入是多少?
你怎么看待剪映收费过高问题?
能分享一下你写过的rust项目吗?
目前国内网盘,最尊重用户的是哪家?
《碟中谍 8》都有哪些槽点?
你最满意的10款 PC 软件是什么?
如何看待多地推出升级版「禁酒令」?
电信光猫有必要改桥接模式吗,用光猫拨号和用路由器拨号对网络影响有多大?
为什么鸿蒙PC要排斥Linux生态?
华为Pura 80首销遇冷,是否说明消费者已经开始对麒麟芯片性能有所觉醒?
RAG(检索增强生成)会不会消亡呢?
多个充电宝或电芯品牌的 3C 认证证书被暂停,涉及罗马仕、安克、绿联、倍思、安普瑞斯等,发生了什么?
如何看待特朗普最后关头取消对伊朗的军事行动?