在昨天的OpenAI会议上,OpenAI即将发布最新的GPT-4o,GPT-4o具有更高效,更强大的智能处理功能,具体信息快来和小编一起看看吧。
GPT-4o信息一览
OpenAI于周一宣布推出一款全新的旗舰生成式AI模型——GPT-4o。“o”代表“omni”,意味着该模型具备处理文本、语音和视频的能力。
OpenAI首席技术官Mira Murati表示,GPT-4o提供了“GPT-4级别”的智能,但在多种模态和媒体上改进了GPT-4的能力。“GPT-4o能够跨越声音、文本和视觉进行推理,”Murati在周一于旧金山OpenAI总部进行的流媒体演示中说道。“这非常重要,因为我们正在展望未来人类与机器之间的互动。”
OpenAI先前的“领先”模型GPT-4 Turbo是基于图像和文本的组合进行训练的,可以分析图像和文本以完成任务,如从图像中提取文本或描述这些图像的内容。但GPT-4o在此基础上增加了语音功能。
在 GPT-4o 之前,用户已经可以通过语音模式与 ChatGPT 进行交流,不过这种方式存在一个由三个独立模型构成的处理流程:首先,一个模型负责将用户的音频转化为文本;接着,GPT-3.5 或 GPT-4 会接收这些文本并产生回应文本;最后,第三个模型会将回应文本再转化回音频形式反馈给用户。这一过程中,GPT-4 作为核心的智能处理环节,却无法直接处理音频中的音调、多声源、背景噪音等复杂信息,其输出也仅限于文本,无法表现笑声、歌声或情感。
而GPT-4o 是一个全新模型,它结合了文本、视觉和音频,在端到端的框架下进行了整体训练。这意味着所有的输入与输出都由单一的神经网络统一处理, GPT-4o 是首个融合了所有这些交互模式的模型,用户可以向GPT-4o驱动的ChatGPT提出问题,并在其回答过程中打断它。OpenAI表示,该模型提供“实时”响应能力,甚至可以捕捉到用户声音的细微差别,并生成具有“一系列不同情感风格”的声音(包括唱歌)。
GPT-4o还升级了ChatGPT的视觉能力。给定一张照片——或桌面屏幕——ChatGPT现在可以快速回答相关问题,范围广泛,从“这段代码正在做什么?”到“这个人穿的是哪个品牌的衬衫?”。
OpenAI表示,在其API和Microsoft的Azure OpenAI服务中,GPT-4o的速度是GPT-4 Turbo的两倍,价格只有其一半,并且具有更高的速率限制。目前,并非所有客户都能通过GPT-4o API使用语音功能。OpenAI表示,鉴于滥用风险,它计划在未来几周内首先将GPT-4o的新音频功能支持提供给“一小群受信任的合作伙伴”。
GPT-4o即日起在ChatGPT的免费版本中提供,并向OpenAI的高级ChatGPT Plus和团队计划用户开放,具有“5倍更高”的消息限制。(OpenAI指出,当用户达到速率限制时,ChatGPT将自动切换到较旧且功能较少的GPT-3.5模型。)由GPT-4o支持的改进版ChatGPT语音体验将于下个月左右面向Plus用户推出alpha版本,同时还将推出面向企业的选项。
在相关消息中,OpenAI宣布将在网页上发布刷新后的ChatGPT UI,配备新的“更加对话化”的主屏幕和消息布局,以及适用于macOS的ChatGPT桌面版,允许用户通过键盘快捷键提问或拍摄并讨论屏幕截图。ChatGPT Plus用户将首先获得该应用程序的访问权限,从今天开始,Windows版本将在今年晚些时候推出。
此外,OpenAI的GPT Store,即其基于AI模型的第三方聊天机器人库和创建工具,现已向ChatGPT免费版用户开放。免费用户现在可以利用以前仅对付费用户开放的功能,如允许ChatGPT“记住”未来交互偏好的记忆功能、上传文件和照片以及搜索网络以获取即时问题的答案。
以上就是小编带来的GPT-4o最新信息了,更多资讯请持续关注abc网。