| 無論你知不知道,這些都是你每天會接觸的東西。雖然我們并不是數字音頻工程師,但是增加一些關于位深度和采樣率的背景知識對涉及到數字音樂的每一個人來說都是有好處的。
那么首先我們要了解的就是位深度和采樣率只存在于數字音頻中。在數字音頻中,位深度描述的是振幅(縱軸),采樣率描述的是頻率(橫軸)。所以,增加我們使用的位數就是提高聲音振幅的解析度,而增加每秒的采樣數則是在增加對聲音頻率的解析度。
在模擬系統(tǒng)中(自然世界),音頻是連續(xù)和平滑的。在數字系統(tǒng)中,平滑的模擬波形只能被近似地采樣,而且限制在一定的振幅范圍里。當采樣一個聲音時,音頻被切分成了很小的片段(采樣),這些采樣會固定在一個振幅電平上。將信號修正到某個振幅電平上的處理叫做量化,創(chuàng)建采樣片段的處理叫做采樣。
在下面的圖表里,形象地展示了一個長達1s的自然正弦波,從0s開始到1s結束的情況。藍色的條代表了正弦波數字量化的近似值,每一條就是一個采樣,被修正到可用的近似振幅電平上。(當然圖表比現實情況要更加粗略。)

根據錄音時選擇,時長1s的音頻可能有44.1K,48K個采樣,在24位的情況下包含了-144dB到0dB的振幅電平(16位為-96dB到0dB)。動態(tài)范圍的分辨率(采樣可以使用的振幅電平單位數量,即圖示的矩形數量)在16位下為65536個,24位下為16777216個。
所以增加位深度能極大地提升振幅解析度和動態(tài)范圍。那么,動態(tài)范圍的增加會在哪里得以體現呢?因為振幅不能超過0dB,所以增加的dB會被分配到振幅較小的采樣上。因此人們能聽到更多微小的聲音(比如延展到-130dB的混響軌跡),而這些聲音在16位,-96dB的情況下會被削減掉。
在數字音頻中,每個采樣都經過分析,處理,轉換成音頻,然后從音箱里播放出來。當一個采樣在你的DAW里被處理時(增益,失真等),它們通過基本的乘除運算讓數字代表的采樣被改變。很簡單,如果我們不做取整的處理(1dB的增益需要乘以1.122018454),那么即使8或4位的采樣精度也會超過24位的空間。
所以,因為我們只有24位,所以這些長的數字必須滿足這個空間。為了這么做,數字信號處理器會對最低有效位(LSB – 位數里的最后一位 – 例如,16位采樣里的第16個數字)做取整或舍棄的處理。取整相當直接,采用的也是你熟悉的算法。舍棄則不通過分析就棄掉最低有效位后的信息。
這兩種處理都是存在一定誤差的,它們會給等式引入誤差,這些誤差通過信號鏈處理進行累加,最后反應出來。積極的一面是LSB是振幅最小的數字位,所以在16位采樣里誤差出現在-96dB,24位采樣在-144dB。同時,數字信號處理器的不同的結構和方式也會導致結果的不同。
我們現在知道了數字信號處理必然會有很多誤差的存在。那么,總數的近似值也會出現很多誤差。這些錯誤不僅讓音頻無法完全復原,也引入了不自然的聽感。
為了消除這些不自然,我們將計算而得的低振幅噪音加入用到信號中,我們稱之為抖動處理。抖動的噪音振幅很低,雖然還是能聽見一些,但比沒有加入的情況要好。

要記住抖動的噪音是會不斷累積的。當你給信號增加噪音時,信噪比就降低了。如果反復操作,這個比例就會持續(xù)降低,會給信號增加不確定的因素。這就是為什么抖動處理通常被應用在母帶處理的最后一步,而且只使用一次。
最早的抖動處理出現在二戰(zhàn)時期。轟炸機使用機械計算機來做導航和彈道計算。奇怪的是這些計算機在空中的處理性能更加精確。工程師們意識到,飛機的振動減少了運動部分的誤差。它們的運動變得更有連續(xù)性,而不是突然的振動。計算機里有小的振動電機,它們的振動被成為抖動,這是從中世紀的英文單詞“didderen”衍生而來的,意思是“發(fā)抖”。現代辭典定義抖動(dither)為高度緊張,迷惑或焦慮的狀態(tài)。在一定程度上來說,抖動讓數字化的系統(tǒng)更接近了模擬系統(tǒng)。
– Ken Pohlmann,數字音頻規(guī)則

根據理論,每秒44.1K的采樣率已經足夠覆蓋人耳的聽力范圍了。你可能在無意中了解過尼奎斯特定理,它表述了如何避免混淆現象(一種失真)和如何通過采樣重建所有頻率,它要求使用信號最高頻率的兩倍來進行采樣(這個定理也應用在音頻之外的媒體上,這里我們就不進行深入探討了)。
人耳的聽力范圍最高能達到20kHz(多數研究表明這個數字實際是在17K左右),因此40K的采樣率就足夠聽清每一個頻率了。44.1K是行業(yè)標準,因為一些原因被當時寡頭壟斷的SONY確定。
那么長話短說,數字音頻采樣必須高于尼奎斯特頻率,因為實際運用中,采樣會在數模轉換的過程中通過低通濾波來避免混淆現象。低通濾波器的斜度越平緩,制造的成本越低。因此,通常使用低通濾波器的音頻信號會在2kHz的位置有平緩的斜度。比如,要保留20kHz以下完整的頻譜,必須在44kHz的采樣率下完成(20K[最高頻率]+2K[低通濾波器的斜度]x2[尼奎斯特理論]=44K)
最終,44.1K的標準在Sony和Philips(它們都有相似的最終目的)的斗爭中被確定。這也是根據音頻采樣率和錄像磁帶剖析學背后的數學理論得出的。這樣音頻和視頻可以在同樣錄像磁帶中共存,擁有更高的性價比。然而,48K是音頻相關的視頻的標準。CD音頻還是保持在44.1K。

圖片是用Logic錄制的“自然”底鼓的采樣電平。你可以看到聲音是怎么用波形近似的矩形來采樣和量化的。原始的鼓聲不會有這樣的失真。
有人聲稱自己能夠聽出44.1K采樣率和96K采樣率的區(qū)別。大部分人把這種不同歸結于頻寬的增加(96K代表頻率上限為48kHz)。雖然我也意識到更多的采樣會帶來一些細微的清晰度改變,但是因此認為這些不同是因為更高的頻率產生的是不太正確的(至少不是直接相關)。
多種測試表明,實際上是低通濾波造成了這些聽覺上的差異。因為低通濾波對更高采樣率產生的不自然影響已經不在可聽的頻譜范圍里了。將濾波器切斷的點從22kHz移到48kHz,因此降低了濾波器在可聽范圍內的影響,確保了大部分的不自然現象出現在超聲波的頻譜中。
這樣可以使可聽頻譜更加干凈,造成了更高的頻譜/采樣率能更真實地還原音頻的錯覺。雖然這的確是創(chuàng)造出了更真實的音頻,不過這都是因為使用高的采樣率來抵消數模轉換過程里低通濾波器設計不足的原因。
我意識到,這可能需要專門開設一門課程,不過總比一點信息沒有的好。了解你正在使用的工具絕不會是一件壞事,作為音樂制作人,這些都是你需要知曉的細節(jié)。不過,對于母帶工程師和發(fā)燒友,這些可能不太適合。
作者:Will Walker
編譯:Logic Loc |