4o炸翻全场,国产AI想要突围,只能靠它

文章正文
发布时间:2024-05-19 05:36

北京时间5月14日凌晨1点,除尘烟雾收集罩OpenAI春季发布会上,CTO 重磅推出了可实时进行音频、视觉和文本推理的全新旗舰AI大模型——GPT-4o。

GPT-4o是GPT-4的升级版。“o”是Omni的缩写,意为“全能”,可接受文本、音频和图像的任意组合作为输入,生成文本、音频和图像。

GPT-4o支持API调用,比上一代速度快了2倍,价格降低了50%,还能实现无延迟实时对话。

GPT-4o拥有ChatGPT Plus会员版所有的能力,包括视觉、联网、记忆、执行代码、GPT Store……更为关键的是,它将对所有用户免费开放!

OpenAI奥特曼表示,“我们的初心,就是把最出色的AI工具,交到每个人的手中。”

在看完这场劲爆的发布会后,有人不禁感叹科幻片已然走入现实,也有人直言多个行业即将迎来巨大颠覆。

01

更快,更强,更像人

免费的GPT-4o,究竟有多炸裂?

简单来说,它更快、更强、更像人了。

作为多模态大模型,GPT-4o的能力横跨听、说、读、写,可以同时理解文本、图像、音频等内容。

而实时语音对话的过程,更是丝滑流畅毫无延迟——它可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。

从现场演示来看,跟GPT-4o进行对话,就像在跟一位风趣博学的真人打视频电话。

它甚至能感受到你的呼吸节奏与话语里的情绪,也能用比以前更丰富的语气实时回复,甚至可以做到随时打断。

研发负责人Mark Chen向它问道:「我正在台上,给大家做现场演示呢,我有点紧张,该怎么办呀?」

GPT-4o体贴地表示:「你在台上做演示吗,那你真的太棒了!深呼吸一下吧,记得你是个专家!」

Mark疯狂地大喘气几次,问GPT-4o能给自己什么建议吗。它则惊讶地说道:「放松点Mark,慢点呼吸,你可不是个吸尘器!」

在理解能力上,GPT-4o能够快速理解代码,并给出了准确完整的描述。

当看到纸上写着“我爱ChatGPT”后,GPT-4o惊喜又害羞地说:“喔,你竟然说爱我,你太可爱了!”

GPT-4o还展现了强大的实时翻译功能,快速完成了将英语与意大利语互相传译的任务。

据OpenAI官博介绍,ChatGPT免费用户可以访问新模型加持下的功能包括:

- 体验GPT-4级别的智能

- 从联网后的模型得到响应

- 分析数据并创建图表

- 畅聊你拍的照片

- 上传文件以帮助总结、撰写或分析

- 发现和使用GPTs和GPT Store

- 用记忆构建更有用的体验

同时,ChatGPT电脑桌面版也正式推出,它拥有桌面应用程序和全新的用户界面,可以轻易地和工作流融为一体。

可以预见,OpenAI的这一王炸不仅将在AI业内掀起“内卷”,也将对外语、实时翻译、音视频剪辑、编程等行业带来颠覆性变革。

02

大招频出

国内AI拿什么追

“训练 GPT5 没那么顺利,OpenAI 开始横向发展 AI 能力纬度了。”

有网友认为,GPT-4o是OpenAI迈向GPT5-的过渡之作,也让更多人对于GPT-5有了更多的期待。

在被称为全球“AI月”的5月,还有谷歌的I/O开发者大会、微软Build年度开发者大会、英伟达一季报发布等AI领域重要事件即将到来。

面对势不可挡的OpenAI们,国内大模型的机会在哪?

此前提出“ChatGPT对创业公司很不友好,未来两三年内请大家放弃融资幻想”的金沙江创投主管合伙人朱啸虎,这次则唱衰了GPT-4o。

他认为,1.大模型的技术迭代曲线明显放缓。2.开始卷免费,说明GPT的用户和收入增长都已经碰到瓶颈,不是深度绑定大厂的模型公司基本已经出局。3.应用会迅速爆发,推理成本再降一个数量级就会普及出现AI时代的国民应用。

在他和此前多次“抬杠”的豹移动猎豹事长兼CEO傅盛共同认为,国内大模型未来的机会在于应用。

尽管傅盛对GPT-4o的评价不高——“等核弹等来了摔炮”,但他也再次强调,“模型的能力当然会不断地迭代,但最终能够把大模型用好的还是应用。”

在AI上“姗姗来迟”的苹果,也选择在应用上发力赶超。

6月举办的苹果WWDC大会,或将推出全新AI应用商店,并可能升级Siri语音助手,引入新的生成式AI系统。

原标题:《GPT-4o炸翻全场!国产AI想要突围,只能靠它……》