OpenAI 正在大力投資音訊人工智慧,而這不僅僅是為了提升 ChatGPT 的音質。根據 The Information 最新報道,該公司在過去兩個月裡整合了多個工程、產品和研發團隊,對其音訊模型進行了全面升級,這一切都是為了即將於一年左右推出的音訊優先個人設備做準備。
此舉反映了整個科技產業的發展趨勢——螢幕淪為背景噪音,音訊成為核心。智慧音箱已經讓語音助理走進了超過三分之一的美國家庭。 Meta 公司剛剛為其 Ray-Ban 智慧眼鏡推出了一項新功能,該功能利用五麥克風陣列幫助用戶在嘈雜的環境中也能清晰地聽到對話——本質上是將用戶的臉部變成了一個定向監聽設備。同時,Google從六月開始嘗試「音訊概覽」功能,將搜尋結果轉化為對話式摘要。特斯拉正在將 xAI 的聊天機器人 Grok 整合到其車輛中,打造一款能夠透過自然對話處理從導航到空調控制等各種功能的對話式語音助理。
押注人工智慧的並非只有科技巨頭。形形色色的新創公司也懷著同樣的信念湧現,儘管成功程度不一。 Humane AI Pin 的製造商在研發出這款無螢幕穿戴裝置後,耗資數億美元,最後卻成了反面教材。 Friend AI 吊墜是一款聲稱可以記錄生活並提供陪伴的項鍊,引發了人們對隱私和生存的雙重擔憂。如今,至少有兩家公司,包括 Sandbar 和一家由 Pebble 創始人 Eric Migicovsky 領導的公司,正在研發預計將於 2026 年面世的人工智慧戒指,屆時佩戴者可以真正地與自己的手對話。
## 未來由語音控制
產品形態或許各有不同,但核心概念卻是一樣的:音訊是未來的互動介面。每個空間——你的家、你的車,甚至你的臉——都將變成一個控制介面。根據報道,OpenAI 計劃於 2026 年初推出的全新音訊模型,音質將更加自然,能夠像真正的對話夥伴一樣應對語音中斷,甚至還能在你說話的同時進行語音輸入——這是現有模型無法實現的。該公司還計劃推出一系列設備,可能包括智慧眼鏡或無螢幕智慧音箱,這些設備與其說是工具,不如說是伴侶。
這一切並不令人意外。正如 The Information 指出的那樣,蘋果前首席設計師喬納森·艾維 (Jony Ive) 於今年 5 月透過 OpenAI 以 65 億美元收購其公司 io 而加入 OpenAI 的硬體團隊。艾維一直將減少用戶對設備的依賴性作為首要任務,並將音訊優先設計視為「糾正」以往消費性電子產品缺陷的機會。




