实测GPT-5，算错数学题，真升级了吗？

预告了几十波，OpenAI 今天终于上线了 GPT-5。

上线没多久，就刷新了 lmarena.ai 竞技榜分数，直冲第一：

在文本、Web 开发和视觉竞技场中稳居第一；
在硬提示、编程、数学、创造力、长查询等方面同样荣登榜首。

但是尴尬的是，发布会上GPT-5 生成的图表似乎翻车了。52.8 比 69.1 大？30.8 和 69.1 一样高？

这就是 Sam Altman 口中 OpenAI 有史以来最聪明的模型吗？

第一时间实测了一波，除了编程，都挺拉的…我只想说：还我4o。

case 1 经典易错题

先问一个经典的数学问题：

提示词：9.9和9.11谁大

GPT-5 回答：9.11 比 9.9 大，因为在数字比较时先比整数部分（相同都是 9），再比小数部分，11 > 9。

如果你是问日期，那就是 9 月 11 日比 9 月 9 日更晚。

case 2 编程

提示词：写一个 javascript 代码，显示一个小球在旋转的正六边形内弹跳。球应该受到重力和摩擦力的影响，它必须从旋转的墙壁上真实地弹起，用 javascript 和 html 实现它

整体效果还行，能看得出来受到重力和摩擦力的影响，不过弹跳的效果不是特别突出。

case 3 图像生成

提示词：将图片里的内容翻译成中文，需要通俗易懂引人入胜，不改变原意，不要凭空添加没有的内容。

我们对比一下，大家觉得哪个翻译的更好？

Gemini 2.5 Pro：

GPT‑5：

在我看来，Gemini 2.5 Pro 翻译的最好，整体很通顺，很有人味；豆包其次，翻译虽然没什么大错，但缺少了一点人味；GPT 5 和豆包差不多，但是和Gemini 2.5 Pro 比起来，差距挺明显的。

case 4 前端

提示词：生成一个番茄钟的网页应用，包含以下功能：- 目标：计时器 + 会话记录。- 功能：自定义时长、自动启动选项、会话图表（SVG）、声音警报（提示音）、暗黑模式。- 界面应该适合日常使用，并能给用户一些活力！

GPT‑5 生成的番茄钟网页，整体审美要好一些，计时、暂停等等按钮的功能也完整，但是页面上这个大环形…我不理解。

Gemini 2.5 Pro 生成的页面功能很完整，只是比较简陋，布局和色彩搭配没有 GPT‑5 好看，但是盖不住它能用啊！

整体测下来，GPT‑5 幻觉有没有减少不知道，智商好像真的减少了。文案水平不仅没有增强，连以前的 GPT‑4o 都比不过。

编程能力也中规中矩，可能是我没有用太复杂的提示词去测试…

前端的审美感觉还不错，就是还会存在一些小BUG。

这些都是One Shot，没有经过多次测试，但是不可能每次都刚好踩雷吧？

最后，我只想说，这发布会白看了，GPT还我睡眠！

GPT‑5 目前已上线官网，全员可用了。免费版每5小时可发送10条，Plus 版每3小时可发送80条。

不信邪的可以自己去试试。

预告了几十波，OpenAI 今天终于上线了 GPT-5。

上线没多久，就刷新了 lmarena.ai 竞技榜分数，直冲第一：

在文本、Web 开发和视觉竞技场中稳居第一；
在硬提示、编程、数学、创造力、长查询等方面同样荣登榜首。

但是尴尬的是，发布会上GPT-5 生成的图表似乎翻车了。52.8 比 69.1 大？30.8 和 69.1 一样高？

这就是 Sam Altman 口中 OpenAI 有史以来最聪明的模型吗？

第一时间实测了一波，除了编程，都挺拉的…我只想说：还我4o。

case 1 经典易错题

先问一个经典的数学问题：

提示词：9.9和9.11谁大

GPT-5 回答：9.11 比 9.9 大，因为在数字比较时先比整数部分（相同都是 9），再比小数部分，11 > 9。

如果你是问日期，那就是 9 月 11 日比 9 月 9 日更晚。

case 2 编程

提示词：写一个 javascript 代码，显示一个小球在旋转的正六边形内弹跳。球应该受到重力和摩擦力的影响，它必须从旋转的墙壁上真实地弹起，用 javascript 和 html 实现它

整体效果还行，能看得出来受到重力和摩擦力的影响，不过弹跳的效果不是特别突出。

case 3 图像生成

提示词：将图片里的内容翻译成中文，需要通俗易懂引人入胜，不改变原意，不要凭空添加没有的内容。

我们对比一下，大家觉得哪个翻译的更好？

Gemini 2.5 Pro：

GPT‑5：

case 4 前端

提示词：生成一个番茄钟的网页应用，包含以下功能：- 目标：计时器 + 会话记录。- 功能：自定义时长、自动启动选项、会话图表（SVG）、声音警报（提示音）、暗黑模式。- 界面应该适合日常使用，并能给用户一些活力！

GPT‑5 生成的番茄钟网页，整体审美要好一些，计时、暂停等等按钮的功能也完整，但是页面上这个大环形…我不理解。

Gemini 2.5 Pro 生成的页面功能很完整，只是比较简陋，布局和色彩搭配没有 GPT‑5 好看，但是盖不住它能用啊！

整体测下来，GPT‑5 幻觉有没有减少不知道，智商好像真的减少了。文案水平不仅没有增强，连以前的 GPT‑4o 都比不过。

编程能力也中规中矩，可能是我没有用太复杂的提示词去测试…

前端的审美感觉还不错，就是还会存在一些小BUG。

这些都是One Shot，没有经过多次测试，但是不可能每次都刚好踩雷吧？

最后，我只想说，这发布会白看了，GPT还我睡眠！

GPT‑5 目前已上线官网，全员可用了。免费版每5小时可发送10条，Plus 版每3小时可发送80条。

不信邪的可以自己去试试。

全部分类

case 1 经典易错题

case 2 编程

case 3 图像生成

case 4 前端

case 1 经典易错题

case 2 编程

case 3 图像生成

case 4 前端