财联社1月2日讯(编辑 史正丞)据当地时间周四的最新爆料,人工智能初创企业OpenAI计划在2026年初推出一款新的音频人工智能模型,为备受期待的首款AI硬件提前做好准备。
而结合最新爆料和过往消息,这款设备大概率会是一款以语音交互为主的产品。
问题在于,哪怕是OpenAI,也对让人们“放下手机”,并习惯对着一个没有屏幕的金属块说话缺乏底气。
据知情人士透露,过去两个月里,OpenAI集结多个工程、产品和研究团队,努力攻关音频AI模型。需要说明的是,目前驱动ChatGPT语音聊天功能的模型,与提供文本回复的模型并不是同一款。OpenAI内部也认为,现在的语音模型在回答准确度和速度方面都已经落后于当前版本。
据悉,加强后的语音模型计划于2026年第一季度推出。知情人士表示,通过一种新的音频模型架构,ChatGPT生成的对话听起来更自然、更富情感,并能提供更准确、更深入的答案。该模型还能与人类“同时说话”,并能更好地处理对话中的打断场景,这都是当前模型无法做到的。
因此,即便OpenAI的新硬件可能要到今年底或明年初才正式发布,但投资者在未来几个月里,就有机会判断底层技术是否已经足以颠覆消费电子硬件的底层逻辑。
据悉,在去年夏天的一次内部演示中,参与设备研发的OpenAI员工表示,该设备将更像一个伴侣,与用户并肩工作,主动提出建议以帮助用户实现目标,而不是仅仅作为通往应用程序和其他软件的简单通道。在用户允许的情况下,设备将通过音频和视频获取有关周围环境及用户本人的信息。
作为硅谷的某种产品思潮,谷歌、亚马逊、Meta和OpenAI等正在开发新型AI硬件和可穿戴设备的一些研究人员认为,像iPhone这样的设备未必是使用AI的最优解。许多OpenAI的研究人员也认为,对话是与AI互动最自然的方式,因为人与人之间也是主要通过语音互相交流。
这一动向也含有幕后关键人“赎罪”心态的影响。目前正在与OpenAI合作开发AI硬件的前苹果公司设计大师乔尼·艾维,一直在为自己当年设计出iPhone,导致现在全球无数人玩手机成瘾而感到愧疚。
今年5月,艾维曾公开表示:“我认为,即便你的初衷是无辜的,但如果参与了会产生不良后果的事,你就需要承担责任。”
因此,OpenAI即将推出的音频模型,也肩负着调整人们使用电子设备习惯的严峻挑战。
OpenAI目前面临最大难题,是用户根本就不会与ChatGPT进行语音聊天。要想打造以音频为主的AI设备,OpenAI首先必须让消费者习惯于对着ChatGPT等AI产品大声说话。
知情人士透露,目前在OpenAI推动音频AI工作的核心人物是Kundan Kumar,这位研究人员去年夏天从Character.AI被挖来负责这项工作。其他负责人还有产品研究主管Ben Newhouse,以及ChatGPT多模态功能的产品经理Jackie Shannon。
