以頻譜回應《頻譜分析:究竟警察說的是「自由」還是「豬」?》
朱孝文《頻譜分析:究竟警察說的是「自由」還是「豬」?》(下稱原文)在此:link
先說立場,我基本上和原文一樣:以觀察聲音的時頻譜Spectrogram作分析,為2019年6月12日一名警察挑釁商場內的市民所用字句的討論,作出「是『豬』的可能性比『自由』大」的推斷;文章結尾亦以神經元解說這種「視覺影響聽覺」現像的原因。
我認為原文順理成章,惟對聲音頻譜的可有更準確的解讀,所以以這篇文章補充原文的觀點。
聲音與時頻譜
(來源:原文)
(若怕麻煩太多資訊可直接跳到”「自由」和「豬」”聽例子)
我們聽聲音時其實是在聆聽許多(二萬個)頻率合成的結果,這些頻率各自影響著我們聽覺的質感。愈高頻的聲音愈尖銳、聲音的音高愈高(愈高音);愈低頻的聲音愈沈厚、聲音的音高愈低(愈低音)。頻率之間的強度差別令到不同的音色產生,例如即使奏著同一個音,小提琴的音色會比鋼琴大不同。
由於聲音具時間性,時頻譜能幫助我們以圖像平面地閱讀聲音,了解聲音不同時間點的頻率分佈,以方便了解聲音的內容。本文內此點以下的時頻譜之X軸為時間(s),Y軸為頻率(Hz),顏色的愈淺代表信號愈強烈(dB)。
Y軸的比例
其實聲音處理中頻率常的比例是Log(對數)計算的,而非原文Y軸用到的Linear(線性)比例。因為大部分日常聽到的聲音的基本頻率(fundamental frequency)都在大約100Hz-1000Hz內,人聲則大約在100Hz-400Hz。再者100Hz與400Hz聽覺上的分別遠遠大過於18100Hz與18400Hz,但為簡化我不在此延申下去。用Log比例看時頻譜可令我們看得更多,更清楚。
以下是一段清楚收音的說話的時頻譜,上圖用到原文的Linear比例,下圖用到Log比例。(按圖可放大)
上圖(如原文一樣只顯示0-10kHz)
下圖(0-20kHz)
上圖,即是Linear的那張,聲音集中在底部;而下圖,即Log的那張,聲音集中在中間,重要的資訊被放大,包括說話的基本頻率,我們可更仔細的閱讀聲音的內容。
「自由」和「豬」
前文比較複雜,這段起會有更多的圖和聲音幫助說明。
「自」zi6和「豬」zyu1 字廣東話讀上來都是分為兩部份,前半部份兩字共通的z音,讀上來有「擦」音,音質上會較多高頻;後半部份的i和yu則不同,i音不強烈加上6聲變得短促,yu音則實在,加上1聲有拖長的感覺。「由」jau4的聲母j讀上來似英文的y音,輕而快,au則沈而促,4聲有一個降調的感覺。
「自由」
我們以林鄭月蛾6月15日暫緩修例的記者會中提到的「自由」為例,看看「自」字在時頻譜上是怎樣?
(Link Crop from 08:53)
我們可以見到,「自」和圖中其他宇不同,有明顯的兩部份,前部份較多高頻,後半部份比其他未弱,但存在;「由」則著重在低音部份,其降調使在圖上有向右下斜的特點。
我再舉多2個「自由」的例子,一個來自上屆特首梁振英,一個來自《海闊天空》中的黃家駒。
梁振英「2015年香港最佳新聞獎」頒獎典禮的致辭:
(Link Crop from 01:19)
《海闊天空》中的黃家駒,因為本身存在樂器部份,所以我過濾了樂器聲:
即使由三把口說出來,「自」在時頻譜上仍然有一樣的特性:有明顯的兩部份,前部份較多高頻,後半部份比其他未弱,但存在;「由」則著重在低音部份,其降調使在圖上有向右下斜的特點。
「豬」
我們再看看「豬」在時頻譜上是怎樣?我用了有線新聞報導非洲豬瘟的片段作例字。
「豬」字兩部份分明,前半的「切」音和後半的「於」音份量差不多,不像「自」的重前弱後。
主菜
學陳醫生議員說,「主菜來了」。哪麼原片內的警員說的是「自由」還是「豬」呢?我們先聽聽,為了更專心分析警員的說話,我過濾了部分雜音。
你看到/聽到甚麼?
我的解讀:
清楚可見時頻譜中「?閪」是兩個字,非三個字,就算很快讀出也會有兩個字的分開點,但不見。令人聽到「自由」的疑點來自他說「豬」後的短暫停頓。其長度也符合「豬」的1音。最後:我對住時頻譜真係聽到個「豬」字。
「視覺影響聽覺」的假像
說了半天,其實答案早就存在。要對抗視覺的影響,關上眼睛就可以了。
假像的成因可以參考原文,如果你對這現像有興趣,我也介紹以下兩個sound illusion你看看。
McGurk Effect
真實的視覺影響聽覺,看片就可以了。
Diana Deutsch’s Phantom Words
請坐在一對雙聲道(Stereo)喇叭正中間,用心聆聽錄音,用字一路寫低聽到的詞語。
解說在此:link
筆者為簡僖進,畢業於香港演藝學院主修聲音系統設計,為AK IN KK – Nature Field Recording HK 創辦人,亦為聲音工作者。