語(yǔ)音識(shí)別是模式識(shí)別的一個(gè)分支,又從屬于信號(hào)處理科學(xué)領(lǐng)域,同時(shí)與語(yǔ)音學(xué)、語(yǔ)言學(xué)、數(shù)理統(tǒng)計(jì)及神經(jīng)生物學(xué)等學(xué)科有非常密切的關(guān)系。語(yǔ)音識(shí)別的目的就是讓機(jī)器“聽(tīng)懂”人類(lèi)口述的語(yǔ)言,包括了兩方面的含義:其一是逐字逐句聽(tīng)懂非轉(zhuǎn)化成書(shū)面語(yǔ)言文字;其二是對(duì)口述語(yǔ)言中所包含的要求或詢(xún)問(wèn)加以理解,做出正確響應(yīng),而不拘泥于所有詞的正確轉(zhuǎn)換。
自動(dòng)語(yǔ)音識(shí)別技術(shù)有三個(gè)基本原理:首先語(yǔ)音信號(hào)中的語(yǔ)言信息是按照短時(shí)幅度譜的時(shí)間變化模式來(lái)編碼;其次語(yǔ)音是可以閱讀的,即它的聲學(xué)信號(hào)可以在不考慮說(shuō)話(huà)人試圖傳達(dá)的信息內(nèi)容的情況下用數(shù)十個(gè)具有區(qū)別性的、離散的符號(hào)來(lái)表示;第三語(yǔ)音交互是一個(gè)認(rèn)知過(guò)程,因而不能與語(yǔ)言的語(yǔ)法、語(yǔ)義和語(yǔ)用結(jié)構(gòu)割裂開(kāi)來(lái)。
預(yù)處理,包括語(yǔ)音信號(hào)采樣、反混疊帶通濾波、去除個(gè)體發(fā)音差異和設(shè)備、環(huán)境引起的噪聲影響等,并涉及到語(yǔ)音識(shí)別基元的選取和端點(diǎn)檢測(cè)問(wèn)題。特征提取,用于提取語(yǔ)音中反映本質(zhì)特征的聲學(xué)參數(shù),如平均能量、平均跨零率、共振峰等。訓(xùn)練,是在識(shí)別之前通過(guò)讓講話(huà)者多次重復(fù)語(yǔ)音,從原始語(yǔ)音樣本中去除冗余信息,保留關(guān)鍵數(shù)據(jù),再按照一定規(guī)則對(duì)數(shù)據(jù)加以聚類(lèi),形成模式庫(kù)。最后模式匹配,是整個(gè)語(yǔ)音識(shí)別系統(tǒng)的核心,它是根據(jù)一定規(guī)則(如某種距離測(cè)度)以及專(zhuān)家知識(shí)(如構(gòu)詞規(guī)則、語(yǔ)法規(guī)則、語(yǔ)義規(guī)則等),計(jì)算輸入特征與庫(kù)存模式之間的相似度(如匹配距離、似然概率),判斷出輸入語(yǔ)音的語(yǔ)意信息。 |