实测GPT-5,算错数学题,真升级了吗?
预告了几十波,OpenAI 今天终于上线了 GPT-5。上线没多久,就刷新了 lmarena.ai 竞技榜分数,直冲第一。第一时间实测了一波,除了编程,都挺拉的...我只想说...
预告了几十波,OpenAI 今天终于上线了 GPT-5。
上线没多久,就刷新了 lmarena.ai 竞技榜分数,直冲第一:
- 在文本、Web 开发和视觉竞技场中稳居第一;
- 在硬提示、编程、数学、创造力、长查询等方面同样荣登榜首。
但是尴尬的是,发布会上GPT-5 生成的图表似乎翻车了。52.8 比 69.1 大?30.8 和 69.1 一样高?
这就是 Sam Altman 口中 OpenAI 有史以来最聪明的模型吗?
第一时间实测了一波,除了编程,都挺拉的…我只想说:还我4o。
case 1 经典易错题
先问一个经典的数学问题:
提示词:9.9和9.11谁大
GPT-5 回答:9.11 比 9.9 大,因为在数字比较时先比整数部分(相同都是 9),再比小数部分,11 > 9。
如果你是问日期,那就是 9 月 11 日比 9 月 9 日更晚。
case 2 编程
提示词:写一个 javascript 代码,显示一个小球在旋转的正六边形内弹跳。球应该受到重力和摩擦力的影响,它必须从旋转的墙壁上真实地弹起,用 javascript 和 html 实现它
整体效果还行,能看得出来受到重力和摩擦力的影响,不过弹跳的效果不是特别突出。
case 3 图像生成
提示词:将图片里的内容翻译成中文,需要通俗易懂引人入胜,不改变原意,不要凭空添加没有的内容。
我们对比一下,大家觉得哪个翻译的更好?
Gemini 2.5 Pro:
GPT‑5:
在我看来,Gemini 2.5 Pro 翻译的最好,整体很通顺,很有人味;豆包其次,翻译虽然没什么大错,但缺少了一点人味;GPT 5 和豆包差不多,但是和Gemini 2.5 Pro 比起来,差距挺明显的。
case 4 前端
提示词:生成一个番茄钟的网页应用,包含以下功能:- 目标:计时器 + 会话记录。- 功能:自定义时长、自动启动选项、会话图表(SVG)、声音警报(提示音)、暗黑模式。- 界面应该适合日常使用,并能给用户一些活力!
GPT‑5 生成的番茄钟网页,整体审美要好一些,计时、暂停等等按钮的功能也完整,但是页面上这个大环形…我不理解。
Gemini 2.5 Pro 生成的页面功能很完整,只是比较简陋,布局和色彩搭配没有 GPT‑5 好看,但是盖不住它能用啊!
整体测下来,GPT‑5 幻觉有没有减少不知道,智商好像真的减少了。文案水平不仅没有增强,连以前的 GPT‑4o 都比不过。
编程能力也中规中矩,可能是我没有用太复杂的提示词去测试…
前端的审美感觉还不错,就是还会存在一些小BUG。
这些都是One Shot,没有经过多次测试,但是不可能每次都刚好踩雷吧?
最后,我只想说,这发布会白看了,GPT还我睡眠!
GPT‑5 目前已上线官网,全员可用了。免费版每5小时可发送10条,Plus 版每3小时可发送80条。
不信邪的可以自己去试试。