OpenAI 正在大力投资音频人工智能,而这不仅仅是为了提升 ChatGPT 的音质。据 The Information 最新报道,该公司在过去两个月里整合了多个工程、产品和研发团队,对其音频模型进行了全面升级,这一切都是为了即将于一年左右推出的音频优先型个人设备做准备。
此举反映了整个科技行业的发展趋势——屏幕沦为背景噪音,音频成为核心。智能音箱已经让语音助手走进了超过三分之一的美国家庭。Meta 公司刚刚为其 Ray-Ban 智能眼镜推出了一项新功能,该功能利用五麦克风阵列帮助用户在嘈杂的环境中也能清晰地听到对话——本质上是将用户的脸部变成了一个定向监听设备。与此同时,谷歌从六月份开始尝试“音频概览”功能,将搜索结果转化为对话式摘要。特斯拉正在将 xAI 的聊天机器人 Grok 集成到其车辆中,打造一款能够通过自然对话处理从导航到空调控制等各种功能的对话式语音助手。
押注人工智能的并非只有科技巨头。形形色色的初创公司也怀着同样的信念涌现,尽管成功程度不一。Humane AI Pin 的制造商在研发出这款无屏幕可穿戴设备后,耗资数亿美元,最终却成了反面教材。Friend AI 吊坠是一款声称可以记录生活并提供陪伴的项链,引发了人们对隐私和生存的双重担忧。如今,至少有两家公司,包括 Sandbar 和一家由 Pebble 创始人 Eric Migicovsky 领导的公司,正在研发预计将于 2026 年面世的人工智能戒指,届时佩戴者可以真正地与自己的手对话。
## 未来由语音控制
产品形态或许各有不同,但核心理念却是一样的:音频是未来的交互界面。每个空间——你的家、你的车,甚至你的脸——都将变成一个控制界面。据报道,OpenAI 计划于 2026 年初推出的全新音频模型,音质将更加自然,能够像真正的对话伙伴一样应对语音中断,甚至还能在你说话的同时进行语音输入——这是现有模型无法实现的。该公司还计划推出一系列设备,可能包括智能眼镜或无屏幕智能音箱,这些设备与其说是工具,不如说是伴侣。
这一切并不令人意外。正如 The Information 指出的那样,苹果公司前首席设计师乔纳森·艾维 (Jony Ive) 于今年 5 月通过 OpenAI 以 65 亿美元收购其公司 io 而加入 OpenAI 的硬件团队。艾维一直将减少用户对设备的依赖性作为首要任务,并将音频优先设计视为“纠正”以往消费电子产品缺陷的机会。




