為耳機配備更多人工智能可能是一項挑戰(zhàn)。了解稀疏性、量化和內(nèi)存感知調(diào)度等壓縮技術(shù)如何幫助鋪平道路。
耳機和助聽器正悄然轉(zhuǎn)變?yōu)榭煞湃肟诖挠嬎銠C。在任何一天,它們都需要處理通話雜音、在嘈雜的咖啡館中識別喚醒詞、理解簡短指令,最近還能在擁擠的餐桌上幫助追蹤朋友的聲音。產(chǎn)品團(tuán)隊希望在不增大電池或使用更昂貴芯片的情況下實現(xiàn)所有這些功能。
訣竅不在于單一的神奇模型或更快的核心,而在于一系列壓縮技術(shù):稀疏性、量化和內(nèi)存感知調(diào)度。這些技術(shù)共同使多個小模型能夠?qū)崟r共存與協(xié)作。
無線耳機不斷發(fā)展,新增了各種功能。
產(chǎn)品經(jīng)理、高管和工程師需要基于音頻可穿戴設(shè)備的實際數(shù)據(jù),找到切實可行的方法來思考這一技術(shù)組合。這些建議將使他們能夠為設(shè)備帶來更多價值,同時又不超出物料清單(BOM)或功耗預(yù)算。
約束條件:必須滿足的要求
現(xiàn)代可聽設(shè)備正在融合:真無線立體聲(TWS)耳機增加了輔助聆聽功能;助聽器增加了連接性和更豐富的用戶體驗;高端耳機則向健康和健身領(lǐng)域邁進(jìn)。如今典型的 “愿望清單” 包括:
用于通話和面對面降噪(如雞尾酒會場景)的實時語音增強
喚醒詞 + 口語理解(SLU)+ 語音 ID,實現(xiàn)免提控制和個性化
反饋消除、自適應(yīng)均衡壓縮 / 主動降噪(ANC)
生物追蹤 / 活動監(jiān)測(光電容積脈搏波 / 光學(xué)溫度傳感器)
運動追蹤(慣性測量單元 / 加速度計)
設(shè)計現(xiàn)實:端到端音頻延遲為 4-10 毫秒,始終監(jiān)聽功能必須以微瓦級功耗待機,片上靜態(tài)隨機存取存儲器(SRAM)容量緊張,閃存占用空間固定。僅憑單一技術(shù)無法滿足這些約束,需要多種互補技術(shù)協(xié)同作用。
壓縮是多元的:真正適用的技術(shù)組合
量化:從 32 位浮點(float32)轉(zhuǎn)為 8 位整數(shù)(INT8)權(quán)重可立即減少 4 倍存儲量,并通過更窄的數(shù)據(jù)路徑節(jié)省能耗。許多音頻模型在使用逐通道縮放時,對 INT8 的耐受性強,質(zhì)量影響極小。量化感知訓(xùn)練有助于進(jìn)一步縮小量化與浮點性能之間的差距,只需額外幾步訓(xùn)練即可接近量化前的精度。
權(quán)重稀疏性:修剪 90% 的權(quán)重可使參數(shù)存儲量減少約 10 倍(這也能降低 SRAM 漏電),并且當(dāng)硬件實際跳過零權(quán)重時(而非解壓權(quán)重矩陣來執(zhí)行矩陣向量運算),修剪層的乘加運算(MAC)可減少約 10 倍。重要的是,稀疏性應(yīng)在編譯器和硬件中占據(jù)核心地位,否則會因索引 / 打包開銷而無法獲得運行時優(yōu)勢。
激活稀疏性:語音具有突發(fā)性。即使沒有特殊的激活稀疏性損失函數(shù),我們在流音頻模型中也常觀察到約 50%-70% 的稀疏激活(在更安靜的環(huán)境中更高),換句話說,當(dāng)硬件能夠動態(tài)跳過零時,運行時 MAC 可減少 2-3.33 倍。在整個網(wǎng)絡(luò)中使用人工神經(jīng)網(wǎng)絡(luò)最流行的激活函數(shù)之一 —— 修正線性單元(ReLU),會產(chǎn)生零輸出,并在網(wǎng)絡(luò)的其余部分傳播。每個輸出層與零相乘或相加都會產(chǎn)生簡單結(jié)果。能夠主動尋找并動態(tài)跳過零激活的指令集是利用這一特性的關(guān)鍵。
倍增效益:權(quán)重和激活稀疏性基本不相關(guān),因此它們對運行時的影響是相乘的。10 倍的權(quán)重稀疏性 MAC 減少與 3.3 倍的激活稀疏性減少相結(jié)合,可使有效操作減少約 33 倍(未考慮 INT8 效率)。這就是額外模型在存儲和節(jié)省吞吐量方面的空間來源。
架構(gòu)與內(nèi)存塑形:
精簡為更小的模型
使用因果時間卷積網(wǎng)絡(luò)(TCN)或小狀態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型實現(xiàn)低延遲流處理
融合操作符以減少 SRAM 的傳遞次數(shù)
利用激活重用
考慮內(nèi)存層次結(jié)構(gòu)進(jìn)行分塊
配置稀疏模式以改善查找開銷和加速 —— 但不要限制過嚴(yán),以免限制矩陣的表達(dá)能力和性能
對于多特征系統(tǒng),共享前端(短時傅里葉變換 / 差分對數(shù)梅爾濾波器組),避免特征重復(fù)計算相同的緩沖區(qū)。
簡單前饋神經(jīng)網(wǎng)絡(luò)中權(quán)重和激活稀疏性的可視化表示。節(jié)點代表網(wǎng)絡(luò)中的激活,節(jié)點之間的連接代表權(quán)重。跳過節(jié)點零值的操作和減少節(jié)點間的連接數(shù)分別代表激活稀疏性和權(quán)重稀疏性。

簡單前饋神經(jīng)網(wǎng)絡(luò)中權(quán)重和激活稀疏性的可視化表示。節(jié)點代表網(wǎng)絡(luò)中的激活,節(jié)點之間的連接代表權(quán)重。跳過節(jié)點零值的操作和減少節(jié)點間的連接數(shù)分別代表激活稀疏性和權(quán)重稀疏性。
耳機技術(shù)組合的具體示例
考慮一個實時時間卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(TCRNN)語音增強模型。該模型近 30 層,若沒有外部動態(tài)隨機存取存儲器(DRAM)在運行時來回交換權(quán)重,對大多數(shù)硬件平臺而言都過于龐大。在密集狀態(tài)下,它有約 600 萬個參數(shù),浮點精度下約 24 兆字節(jié)。使用 INT8 后,降至約 6 兆字節(jié)。結(jié)合 90% 的權(quán)重稀疏性,權(quán)重僅需約 600 千字節(jié);加上約 100 千字節(jié)的激活緩沖區(qū)(重用時總計約 700 千字節(jié))。從主觀和客觀角度看,其性能堪比更大的模型,但占用空間僅為后者的一小部分。
這一占用空間足夠小,可與其他功能共存。例如,在 1 兆字節(jié)的 SRAM 空間中,可預(yù)留約 300 千字節(jié)用于喚醒詞 + SLU 路徑(如通過適度稀疏性和 INT8 將約 500 千字節(jié)的基線壓縮至約 100 千字節(jié)),還剩約 200 千字節(jié)用于語音 ID 嵌入、聲音事件檢測器、反饋消除器或 IMU 活動分類模型。
除了在單位芯片上提供更多應(yīng)用外,稀疏性在功耗和延遲方面也真正發(fā)揮了優(yōu)勢:去噪器以約 1.2 毫瓦運行時延遲為 8 毫秒,以約 2.1 毫瓦運行時延遲為 4 毫秒。對于 100 毫安時的電池,這為無線電以及其他功能和傳感器留出了充足預(yù)算,尤其適用于 “情境使用” 模式或高占空比工作負(fù)載。

耳機人工智能應(yīng)用棧的壓縮。90% 的稀疏性可使內(nèi)存占用減少 10 倍,而精度或性能幾乎不下降。
共享(和調(diào)度)至關(guān)重要:實用建議
即使是壓縮完美的模型,如果一直運行也會浪費功耗。耳機和助聽器的一個實用模式是門控調(diào)度?紤]以下步驟:
始終保持超低功耗監(jiān)聽器(喚醒詞、瞬態(tài) / 語音活動)運行。這是最小、最省電的模型(包括前端約 200 微瓦)
觸發(fā)后,僅在需要時啟動較重的任務(wù)(SLU、上下文更新),然后將其轉(zhuǎn)入 SRAM 保留模式
共享功能并統(tǒng)一前端。去噪器的聲學(xué)特征也可用于環(huán)境分類或語音 ID。從每個應(yīng)用中提取所需的最高分辨率快速傅里葉變換(FFT)(可能是語音增強或聲源分離),并為低復(fù)雜度任務(wù)融合 FFT bins,避免重復(fù)計算前端。這有助于避免緩沖區(qū)過多導(dǎo)致的問題
保持任何標(biāo)記器或嵌入量;緩存用戶語音圖譜,使用低秩適配器進(jìn)行個性化,而非整個模型分支
對于生物和活動追蹤,依靠壓縮性好的緊湊時間模型(TCNs/RNNs);積極下采樣和壓縮時間窗口。在采樣時采用占空比(心率和體溫?zé)o需 24/7 追蹤);當(dāng)出現(xiàn)較大變化或用戶打開配對的健康 / 健身應(yīng)用以獲取更高精度時,提高采樣率;顒臃诸惼髟 INT8 和適度稀疏性下通?稍 100-200 千字節(jié)內(nèi)運行良好
對流處理使用環(huán)形緩沖區(qū),并在任務(wù)間重用激活 / 狀態(tài)緩沖區(qū),避免 SRAM 碎片化
激活稀疏性在此也有幫助。在有聲段,激活密度隨語音起伏;加速器在工作量較小時自然減少工作。
芯片應(yīng)具備的特性
如果您在評估多特征音頻設(shè)備的計算能力,請檢查以下方面:
核心權(quán)重和激活稀疏性。僅存儲稀疏權(quán)重是不夠的,您需要硬件能夠跳過零權(quán)重和零激活,而無需額外解包或開銷
混合精度。大多數(shù)層使用高效 INT8(越來越多使用 INT4),激活使用 INT8/16。虛擬化更高位寬精度(將 INT16 和 INT8 操作組合成 24 位)作為前端等敏感層的應(yīng)急措施是一個很好的補充,可減輕伴隨數(shù)字信號處理器(DSP)的負(fù)載
與您的并發(fā)計劃匹配的片上內(nèi)存。足夠的 SRAM 用于容納去噪器、監(jiān)聽器和小型 SLU,以及乒乓緩沖區(qū),而無需頻繁訪問外部內(nèi)存
流式友好和融合操作符。因果卷積、小狀態(tài) RNN 單元、對新興網(wǎng)絡(luò)(如狀態(tài)空間模型(SSMs)和滑動窗口注意力)的未來 - proof 自定義操作符支持、突發(fā)友好的直接內(nèi)存訪問(DMA)和多種電源循環(huán)模式
稀疏感知工具鏈?紤]修剪、校準(zhǔn)、打包和報告有效 MAC(后稀疏性)的分析器,而不僅僅是理論每秒千兆次操作(GOPs)
如今,您可以購買此類專用稀疏加速器。例如,F(xiàn)emtoAI 的 SPU-001 處理器擁有 1 兆字節(jié) SRAM,在 90% 稀疏性下等效內(nèi)存為 10 兆字節(jié)。采用 22 納米理想節(jié)點,面積 3.4 平方毫米。它支持上述技術(shù),并將稀疏性作為核心特性。
該公司已為客戶創(chuàng)建了大部分人工智能應(yīng)用棧。當(dāng)然,您也可以使用通用神經(jīng)網(wǎng)絡(luò)處理器(NPU)知識產(chǎn)權(quán),花費大量令人疲憊、令人頭疼的工程時間來構(gòu)建類似的稀疏耳機應(yīng)用棧、工具鏈、編譯器和指令集。無論哪種方式,只有當(dāng)稀疏性從訓(xùn)練到打包再到運行時端到端實現(xiàn)時,才能獲得收益。

FemtoAI 的 SPU-001 芯片
芯片規(guī)格確定前的快速規(guī)劃清單
列出同時運行的功能及其最壞情況重疊(如去噪 + 喚醒 + SLU + 無線電)
為每條路徑設(shè)置延遲預(yù)算(如去噪≤10 毫秒;SLU≤32 毫秒)
選擇量化和修剪目標(biāo)(如各處使用 INT8 權(quán)重;大多數(shù)激活使用 INT16,需要時使用虛擬 INT24;在穩(wěn)定的地方使用 80-90% 稀疏性)
計劃在不同稀疏度級別保存模型檢查點,以形成一條曲線,從中選擇性能與壓縮的平衡點
在實際音頻上驗證激活稀疏性;假設(shè)無需特殊損失即可達(dá)到約 50%
壓縮前后使用客觀指標(biāo)(語音的 SNR/STOI/PESQ/HASPI/HASQI/DNSMOS;喚醒詞 / ID 的 F1 分?jǐn)?shù)和誤報率 / 漏報率)進(jìn)行測量
沿著模型檢查點曲線調(diào)整檢測閾值,以滿足性能要求
在板級早期進(jìn)行老化測試,包括傳感器、無線電、主機處理器、揚聲器,以及在給定用戶場景中同時運行的最壞情況數(shù)量的模型;記錄有效 MAC 并估算熱性能
結(jié)語:多功能未來
市場方向明確:可聽設(shè)備將充當(dāng)助手、通信工具、助聽器和健康伴侶。要在小電池和緊張的 BOM 上實現(xiàn)如此廣泛的功能,需將壓縮視為系統(tǒng)設(shè)計原則,而非事后考慮。量化帶來首 4 倍收益,權(quán)重稀疏性再增加約 10 倍,激活稀疏性在運行時再乘約 2-3.3 倍。這些收益與合理的調(diào)度和共享前端 / 功能相結(jié)合,轉(zhuǎn)化為每微瓦、每毫米和每美元更多的應(yīng)用,或在給定預(yù)稀疏預(yù)算下提升性能。
無論您采用 SPU-001 等以稀疏性為先的加速器和工具包,還是自行組裝技術(shù)棧,原則都是相同的:壓縮不在于單個模型孤立地顯得巧妙,而在于多個模型在同一預(yù)算內(nèi)協(xié)作,讓設(shè)備真正為用戶帶來更好體驗。 |