以頻譜回應《頻譜分析:究竟警察說的是「自由」還是「豬」?》
朱孝文《頻譜分析:究竟警察說的是「自由」還是「豬」?》(下稱原文)在此:link 先說立場,我基本上和原文一樣:以觀察聲音的時頻譜Spectrogram作分析,為2019年6月12日一名警察挑釁商場內的市民所用字句的討論,作出「是『豬』的可能性比『自由』大」的推斷;文章結尾亦以神經元解說這種「視覺影響聽覺」現像的原因。 我認為原文順理成章,惟對聲音頻譜的可有更準確的解讀,所以以這篇文章補充原文的觀點。 聲音與時頻譜 (來源:原文) (若怕麻煩太多資訊可直接跳到"「自由」和「豬」"聽例子) 我們聽聲音時其實是在聆聽許多(二萬個)頻率合成的結果,這些頻率各自影響著我們聽覺的質感。愈高頻的聲音愈尖銳、聲音的音高愈高(愈高音);愈低頻的聲音愈沈厚、聲音的音高愈低(愈低音)。頻率之間的強度差別令到不同的音色產生,例如即使奏著同一個音,小提琴的音色會比鋼琴大不同。 由於聲音具時間性,時頻譜能幫助我們以圖像平面地閱讀聲音,了解聲音不同時間點的頻率分佈,以方便了解聲音的內容。本文內此點以下的時頻譜之X軸為時間(s),Y軸為頻率(Hz),顏色的愈淺代表信號愈強烈(dB)。 Y軸的比例 其實聲音處理中頻率常的比例是Log(對數)計算的,而非原文Y軸用到的Linear(線性)比例。因為大部分日常聽到的聲音的基本頻率(fundamental frequency)都在大約100Hz-1000Hz內,人聲則大約在100Hz-400Hz。再者100Hz與400Hz聽覺上的分別遠遠大過於18100Hz與18400Hz,但為簡化我不在此延申下去。用Log比例看時頻譜可令我們看得更多,更清楚。 以下是一段清楚收音的說話的時頻譜,上圖用到原文的Linear比例,下圖用到Log比例。(按圖可放大) [su_lightbox type="image" src="https://akinkkproduction.com/wp-content/uploads/2019/06/Carrie-lin-Artboard-1.png"] 上圖(如原文一樣只顯示0-10kHz) [/su_lightbox] [su_lightbox type="image" src="https://akinkkproduction.com/wp-content/uploads/2019/06/Carrie-log-Artboard-1.png"]...