4o “属于每个人的云端情人来了”

文章正文

发布时间：2024-05-18 12:31

北京时间周二凌晨1点，点冷机自年初“文生视频模型”Sora后许久未给市场带来惊喜的OpenAI举行春季发布会。公司首席技术官米拉·穆拉蒂（Mira Murati）向外界展现了多项与ChatGPT有关的更新。

整体来看，活动主要分为两大部分：推出新旗舰模型“GPT-4o”，以及在ChatGPT中免费提供更多功能。

其中最重磅的是新的模型GPT-4o。根据OpenAI的官网解释，"o"代表“全知”，是朝着更自然的人类与计算机交互迈出的一步。

有情绪的AI来了

OpenAI在活动中发布了新旗舰模型“GPT-4o”，“可以实时对音频、视觉和文本进行推理。”据介绍，新模型使ChatGPT能够处理50种不同的语言，同时提高了速度和质量。

据了解，GPT-4o是迈向更自然人机交互的一步，它可以接受文本、音频和图像三者组合作为输入，并生成文本、音频和图像的任意组合输出，“与现有模型相比，GPT-4o在图像和音频理解方面尤其出色。”

在GPT-4o之前，用户使用语音模式与ChatGPT对话时，GPT-3.5的平均延迟为2.8秒，GPT-4为5.4秒，音频在输入时还会由于处理方式丢失大量信息，让GPT-4无法直接观察音调、说话的人和背景噪音，也无法输出笑声、歌唱声和表达情感。

与之相比，GPT-4o可以在232毫秒内对音频输入做出反应，与人类在对话中的反应时间相近。在录播视频中，两位高管做出了演示：机器人能够从急促的喘气声中理解“紧张”的含义，并且指导他进行深呼吸，还可以根据用户要求变换语调。

性能方面，根据传统基准测试，GPT-4o在文本、推理和编码等方面实现了与GPT-4 Turbo级别相当的性能，同时在多语言、音频和视觉功能方面的表现分数也创下了新高。

就从这次演示来看，这一交互层面的升级才证明了多模态确实是AI的Game Changer。

更强的是手机版的GPT-4o可以通过语音能力理解你的话语，状态（累不累，喘气粗不粗）。

还能通过视觉识别你所处的环境和你正在做的事情，并对它作出反应。帮你解数学题，没问题，解完还能陪你聊聊人生。

这就是OpenAI想做到的全知：一个陌生人看到你时所能感受到的几乎一切，它全部能接收到。因此它也有了真正能和你做与你私人相关的，符合场景的操作。

OpenAI称，“我们跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。由于GPT-4o是我们第一个结合所有这些模式的模型，因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。”

除了在直播中重点强调的功能，在OpenAI的技术文档中，我们看到在GPT4-o的能力列表中，还包含3D能力、图像诗能力、转换卡通照片等能力。

OpenAI官方Blog中的能力探索列表比如：生成3D模型的魔法

像波德莱尔那帮现代主义诗人一样，用诗歌或logo填满规定的形象。

潜在的粘土人能力，只不过OpenAI选的是把现实头像转换卡通图像

这一切都说明， GPT-4o给我们可能带来的惊喜可能还远不止如此。

正如Sam Altamn所说，正是在这个背景下，属于每个人的云端情人HER到来了。

更多工具免费解锁

第二件事情就是宣布，ChatGPT的免费用户也能用上最新发布的GPT-4o模型（更新前只能使用GPT-3.5），来进行数据分析、图像分析、互联网搜索、访问应用商店等操作。这也意味着GPT应用商店的开发者，将面对海量的新增用户。

当然，付费用户将会获得更高的消息限额（OpenAI说至少是5倍）。当免费用户用完消息数量后，ChatGPT将自动切换到 GPT-3.5。另外，OpenAI将在未来1个月左右向Plus用户推出基于GPT-4o改进的语音体验，目前GPT-4o的API并不包含语音功能。

另外，OpenAI将在未来1个月左右向Plus用户推出基于GPT-4o改进的语音体验，目前GPT-4o的API并不包含语音功能。苹果电脑用户将迎来一款为macOS设计的ChatGPT桌面应用，用户可以通过快捷键“拍摄”桌面并向ChatGP提问，OpenAI表示，Windows版本将在今年晚些时候推出。

未能参加直播活动的OpenAI首席执行官山姆·奥特曼（Sam Altman）在社交平台X上发帖表示：“我们的新模型：GPT-4o是我们迄今为止最优秀的模型。它既智能又快速，并且是原生多模态模型。”