OpenAI发布GPT-4o GPT-4o信息一览-ABC网

在昨天的OpenAI会议上，OpenAI即将发布最新的GPT-4o，GPT-4o具有更高效，更强大的智能处理功能，具体信息快来和小编一起看看吧。

GPT-4o信息一览

OpenAI于周一宣布推出一款全新的旗舰生成式AI模型——GPT-4o。“o”代表“omni”，意味着该模型具备处理文本、语音和视频的能力。

OpenAI首席技术官Mira Murati表示，GPT-4o提供了“GPT-4级别”的智能，但在多种模态和媒体上改进了GPT-4的能力。“GPT-4o能够跨越声音、文本和视觉进行推理，”Murati在周一于旧金山OpenAI总部进行的流媒体演示中说道。“这非常重要，因为我们正在展望未来人类与机器之间的互动。”

OpenAI先前的“领先”模型GPT-4 Turbo是基于图像和文本的组合进行训练的，可以分析图像和文本以完成任务，如从图像中提取文本或描述这些图像的内容。但GPT-4o在此基础上增加了语音功能。

在 GPT-4o 之前，用户已经可以通过语音模式与 ChatGPT 进行交流，不过这种方式存在一个由三个独立模型构成的处理流程：首先，一个模型负责将用户的音频转化为文本；接着，GPT-3.5 或 GPT-4 会接收这些文本并产生回应文本；最后，第三个模型会将回应文本再转化回音频形式反馈给用户。这一过程中，GPT-4 作为核心的智能处理环节，却无法直接处理音频中的音调、多声源、背景噪音等复杂信息，其输出也仅限于文本，无法表现笑声、歌声或情感。

而GPT-4o 是一个全新模型，它结合了文本、视觉和音频，在端到端的框架下进行了整体训练。这意味着所有的输入与输出都由单一的神经网络统一处理， GPT-4o 是首个融合了所有这些交互模式的模型，用户可以向GPT-4o驱动的ChatGPT提出问题，并在其回答过程中打断它。OpenAI表示，该模型提供“实时”响应能力，甚至可以捕捉到用户声音的细微差别，并生成具有“一系列不同情感风格”的声音（包括唱歌）。

GPT-4o还升级了ChatGPT的视觉能力。给定一张照片——或桌面屏幕——ChatGPT现在可以快速回答相关问题，范围广泛，从“这段代码正在做什么？”到“这个人穿的是哪个品牌的衬衫？”。

OpenAI表示，在其API和Microsoft的Azure OpenAI服务中，GPT-4o的速度是GPT-4 Turbo的两倍，价格只有其一半，并且具有更高的速率限制。目前，并非所有客户都能通过GPT-4o API使用语音功能。OpenAI表示，鉴于滥用风险，它计划在未来几周内首先将GPT-4o的新音频功能支持提供给“一小群受信任的合作伙伴”。

GPT-4o即日起在ChatGPT的免费版本中提供，并向OpenAI的高级ChatGPT Plus和团队计划用户开放，具有“5倍更高”的消息限制。（OpenAI指出，当用户达到速率限制时，ChatGPT将自动切换到较旧且功能较少的GPT-3.5模型。）由GPT-4o支持的改进版ChatGPT语音体验将于下个月左右面向Plus用户推出alpha版本，同时还将推出面向企业的选项。

在相关消息中，OpenAI宣布将在网页上发布刷新后的ChatGPT UI，配备新的“更加对话化”的主屏幕和消息布局，以及适用于macOS的ChatGPT桌面版，允许用户通过键盘快捷键提问或拍摄并讨论屏幕截图。ChatGPT Plus用户将首先获得该应用程序的访问权限，从今天开始，Windows版本将在今年晚些时候推出。

此外，OpenAI的GPT Store，即其基于AI模型的第三方聊天机器人库和创建工具，现已向ChatGPT免费版用户开放。免费用户现在可以利用以前仅对付费用户开放的功能，如允许ChatGPT“记住”未来交互偏好的记忆功能、上传文件和照片以及搜索网络以获取即时问题的答案。

以上就是小编带来的GPT-4o最新信息了，更多资讯请持续关注abc网。