分享此页

新闻热点

GPT-4o标榜更自然人机互动最快0.232秒反应OpenAI免费提供- 20240515 - 经济 @ 2024-05-17T 返回 新闻热点
关键词:模型 新模
概念:新模型
OPENAI解释新模型的语音模式效能提升的原因。过去GPT-3.5及GPT-4下的语音模式运作是以三个模型接续运作而成:第一个模型将声音转录成文字,由GPT-3.5或GPT-4产出文字对话内容,再由第三个模型将文字转回声音。不但增长延迟性,且因过程中GPT-3.5或GPT-4模型丧失大量资讯,使其无法观察出声调、多名说话者、背景噪音,也无法产出笑声、不会唱歌或表达情绪。但GPT-4O是能具备文字、视觉和声音理解能力的单一模型,输出输入都在同一神经网路中处理而成,使互动能力速度和表现丰富度大增。
OPENAI GPT-4O 新模型,速度提升200%,实时音视频交互
据报导,新的多模态模型在辨识图像和声音方面,比 OPENAI 现有的模型表现更快、更准确。新模型能帮助客服更好地理解来电者的语气,以及是否在讽刺,且“理论上”能够协助学生解决数学问题或翻译现实世界中的标志。
总结下来,新模型GPT-4O有三大“魔法”:
美国人工智慧研究实验室OPENAI在5/13举办线上发表会,由OPENAI的技术总监米拉穆拉蒂(MIRA MURATI)主持,推出新模型“GPT-4O”。GPT-4O的“O”来自“OMNIMODEL”全能模型,能接受文字、声音和图像3种格式的输入,最快更能够在232毫秒内回应,等同人类反应时间。最重要的是,拉穆拉蒂也宣布GPT-4O将免费提供给所有用户。
OPENAI 于今日凌晨的春季发表会上推出新模型“GPT-4O”,再次成为社群话题中心!GPT-4O 作为 OPENAI 最新的旗舰多模态模型,可以更快速理解文字与图像,且加强语音与视觉能力。让该模型可以更轻松地与用户进行流畅地对话,且能对镜头前的画面进行即时回应。
无论是包括GEMMA 2、GEMINI 1.5 FLASH、IMAGEN 3、VEO等新模型在内的一系列创新,透过文字、语音、视讯、图片等多模态的搜寻方式升级,或是为下一代AI模型与AGENTS提供更快、更低延迟训练和服务动力的客制化AI专用晶片与基础设施,GOOGLE揭露了这一系列进展,都彰显出巨头雄厚的技术实力和广泛的应用市场。
新光台湾半导体30(00904)经理人詹佳峰表示,5月全球AI惊喜话题不断,除苹果将有机会推出具CHATGPT技术的AI IPHONE手机外,CHATGPT母公司最新推出CHATGPT-4O(即时语音互动),强调速度更快、效能更强的多模新模型,且开放给免费用户使用,可说是生成式AI跨入新纪元开始,让人类拥有个人AI助理迈向一大步,背后牵涉到的AI算力、高速运算等商机,让台湾半导体供应链直接受惠。
另外,OPENAI公司表示,新模型性能更强,接口调用价格却只有此前模型的一半。所有用户都可以免费使用新模型,不过消息数量会受到限制,付费用户消息上限更高。预计新模型各项功能会在未来几周逐步推出。
联手OPENAI 苹果一夜市值大增近3600亿元 GPT-4O新模型会代替SIRI?

流动版 | 完全版
论坛守则 | 关于我们 | 联系方式 | 服务条款 | 私隐条款 | 免责声明 | 网页指南
版权所有 不得转载 (C) 2024 Suntek Computer Systems Limited.
免责声明 : 88iv设立此一网站,旨在以最快捷的方式为公众人士提供清楚准确的最新资料,但在整理资料及编写程式时或会有无心之失。故88iv特此声明,此一网站所载的资料如有任何不确之处、遗漏或误植错字,并引致任何直接或间接的损失或亏损,88iv概不负责,亦不会作出任何赔偿(不论根据侵权法、合约或其他规定亦然)。此外,88iv并不保证本网站所载的资料乃属正确无误及完整无缺,亦不担保可以及时将资料上网及内容适合有关用途。