当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
闲鱼上为什么会有人问都不问直接下单?
如何制造一个高级的阳谋?
为什么开发一个 AI Agent 看似容易,但真正让它「好用」却如此困难?技术瓶颈主要在哪里?
学生校服如何隐藏内衣痕迹?
女生真正的完美身材是什么样子?
大家发现没,现在用手写输入法时很多简单的字都不会打了?应该说是很多字不会写了。但看见后又认识又会写?
你在出租房屋发现过什么前租客留下的“宝藏”?
低代码/无代码平台如何重塑开发生态?
为什么现在房贷利率这么低3.1%了,还有人提前还贷?
巅峰期的成龙身体素质是怎么一种存在?
如何看待 TS SwiftUI flutter 三家?
是什么原因让你一定要用 iPhone?
开发了一个App,上线之后一个用户也没有怎么办?
对于跨平台框架,未来你更看好使用dart语言的flutter还是.net新发布的maui?
程序员如何用好 Cursor 工具?
如何评价《一人之下》第721(764)话?
怎么看待北京大龄单身女突破80w?
请问照片里这个人是谁呀?
相对于PR、FCPX等同类软件,为什么Avid media composer在国内用的人很少?
为什么明明35岁以上的员工更稳定,招聘时不要,被裁的也是他们?
为什么人到中年,很少有身材苗条的?
现在读写速度最快的硬盘,能在30年前的计算机上当做内存使用吗?
能分享一下你写过的rust项目吗?
什么是稳定币?有人说它是「一场饮鸩止渴的游戏」,你怎么看?
求大神解答,为什么大家都不喜欢用docker?
如何评价Cursor?
你卡过最厉害的bug是什么?
有什么免费的图生图的ai?
新买的移动硬盘该格式化为 NTFS 还是 exFAT?
北京日报点名批评“苏超”过度娱乐化的动机是什么?