SPEECH LAB 륱뻷룪끔ꑵ땻맪닟 궵끔 NTHU-EE · 2005. 9. 12. · EECS-Audio 10 SPEECH LAB NTHU-EE 셮궵끔뢹ꪺ볆ꛬ꓆ 셮궵ꪺ볆ꛬ꓆걏녎쏾ꓱ궵끔신꓆ꚨ볆ꛬ궵끔ꪺ륌땻ꅁꖦꕝ

EECS-Audio 1

SPEECH LABNTHU-EE

電機資訊工程實習—音訊

王小川教授 Rm: 717 Tel: 2587

EECS-Audio 2

SPEECH LABNTHU-EE

一、認識音效卡

音效卡的輸出入介面

(以Creative Sound Blaster 32為例)

插孔

EECS-Audio 3

SPEECH LABNTHU-EE

Line In –可以連接錄音機、數位錄音機(DAT)、或微型光碟播放系統

Mic In –連接麥克風，用於語音輸入

Line Out –可以不通過音效卡內建的擴大器，連接功率喇叭或外接擴大器

Spk Out –利用音效卡內建的擴大器，直接推動喇叭，但是要注意其最大輸出功率是多少，若所接喇叭不能承受這樣的功率，就不要以最大音量播放

EECS-Audio 4

SPEECH LABNTHU-EE

連接埠

EECS-Audio 5

SPEECH LABNTHU-EE

CD In –用以連接音效卡的CD音源線與光碟機，音效卡接上喇叭即可聆聽光碟機的聲音

Joystick/MIDI –連接搖桿或MIDI套件

IDE –連接光碟機的IDE埠

Memory Extension –記憶體模組擴充插槽

Modem –連接聲音數據機，如Creative Modem Blaster，執行聲音識別與數據機功能

PC Spk –音效卡內建的擴大器輸出，連接到PC喇叭

SPDIF – Sony/Philips 數位介面，可以將數位音效訊號傳輸到錄音機

EECS-Audio 6

SPEECH LABNTHU-EE

連接裝置

EECS-Audio 7

SPEECH LABNTHU-EE

二、音效卡如何處理聲音訊號

聲音訊號的轉換

語音與樂音，統稱為聲音，都是隨著時間作音量大小變化振動的聲波，是一種類比的訊號，它的振幅是在連續範圍內的任意值。

在電腦進行錄音之前，音效卡用了一種叫類比/數位轉換電路(ADC)，將聲波信號(通常以電壓表示) 轉換成數字以供儲存，因為是數位的，所以只能表示連續範圍中的幾個點。

聲音資料按電腦的格式儲存後，就可以利用電腦對聲音做各種的處理，例如音樂編輯、語音辨識等。

EECS-Audio 8

SPEECH LABNTHU-EE

在播音時，音效卡用一個數位/類比轉換電路DAC) ，將電腦儲存的數字轉換成連續範圍內的電壓，隨著時間作振幅變化，將此訊號送進喇叭，轉換成聲波，因此我們可以聽到喇叭發出的聲音。

EECS-Audio 9

SPEECH LABNTHU-EE

EECS-Audio 10

SPEECH LABNTHU-EE

聲音訊號的數位化

聲音的數位化是指將類比音訊轉化成數位音訊的過程，它包含了兩個程序：一是音波取樣(Sampling)，二是音波振幅的量化(Quantization)。前者需要決定取樣的頻率，後者需要決定代表振幅的位元數(Bit/Sample)。

取樣頻率

取樣頻率(Sampling Rate)指音效卡在一秒之中對聲音波形做記錄的次數。根據Nyquist定理，只有在取樣頻率是信號最大頻寬的二倍以上時，才能完整的重現聲音波形。

EECS-Audio 11

SPEECH LABNTHU-EE

人耳的聽力極限約為20KHz，當聲音來源為音樂時，因為它所跨越的頻帶極為寬廣，通常會將他限制在人耳聽力的範圍，所以採44.1KHz的頻率為CD音樂取樣率的標準。取樣頻率越高，所記錄下來的音質就越好，當然，越高的取樣頻率所記錄下來的檔案就會越大。

量化(Quantization)及量化誤差(Quantization error)所謂的量化(Quantization)就是將類比訊號所代表的振幅範圍分成一段一段的間隔空間(Interval)，每一段間隔空間我們定義一個數位值來代表它。

EECS-Audio 12

SPEECH LABNTHU-EE

代表振幅的位元數越多，間隔空間的數目越多，通常採用的是“線性量化法”(Linear quantization)，這種量化法採用等距離的間隔空間。

這種線性量化法又叫做等間隔的搏碼調變(Pulse code Modulation, PCM)。

在量化的過程中，連續變化的類比訊號要用數位值來表示，這樣的過程就會產生量化誤差(Quantization error)。也就是實際聲音訊號之振幅 (amplitude)和數位化後重建所得振幅之間的差異。

EECS-Audio 13

SPEECH LABNTHU-EE

如果用將數位信號重建成類比訊號，量化誤差就相當於是失真(Distortion)。

採用更多的位元(bits)來表示一個取樣訊號，量化誤差就變小，這樣便可以提高聲音訊號的精確度。

若以8位元來記錄取樣，則其所能表達的是256個位階的聲音。若採16位元來作量化，則能高達65536個位階，其精確度自然大為提高。CD音質正是16位元取樣的規格。

EECS-Audio 14

SPEECH LABNTHU-EE

EECS-Audio 15

SPEECH LABNTHU-EE

三、聲音的WAV檔格式

在電腦中最常見的存放聲音格式，就是WAV檔格式。

WAV檔是以RIFF(Resource Interchange File Format)的檔案格式儲存，含有不定長度的檔頭(Headers)與資料(Data)，組成不定長度的Chunk與Sub-chunks，所存的資料是編碼的聲音訊號，PCM也是其中之一。

WAV檔的結構

“RIFF” chunk (12 bytes)

“fmt” sub-chunk (variable, 16 bytes + extra)

“data” sub-chunk (variable, size of sample data)

EECS-Audio 16

SPEECH LABNTHU-EE

2 bytesCompression code

2 bytesNumber of channels

4 bytesSampling rate

Size of Wave format info (16 + extra)

4 bytes (long)Wave format size

“fmt”4 bytes (char[4])Sub-chunk 1 ID

“WAVE”4 bytes (char[4])Form type ID

Size of file in bytes (file size – 8)4 bytes (long)File size

“RIFF”4 byte (char[4])chunk ID

Value Size Type

EECS-Audio 17

SPEECH LABNTHU-EE

4 bytes (long)Bytes per seconds

Number of bytes per sample slice, (bit per second / 8 )* num. channels

2 bytesBlock align

2 bytesBits per sample

It does not exist if compression code = 1 (PCM/uncompressed)

2 bytesExtra format bytes*

Sample dataData sizeData

Size of sample data4 bytes (long)Data size

“data”4 byte (char[4])Sub-chunk 2 ID

Extra format sizeExtra format*

EECS-Audio 18

SPEECH LABNTHU-EE

data44

4Sub_chunk_2 size40

4Sub_chunk 2 ID36

2Bits per sample32

2Block align32

4Byte rate28

4Sampling rate24

2Num of channels22

2Audio format20

4Sub_chunk_1 size 16

4Sub_chunk_1ID12

4Format 8

4Chunk size4

4Chunk ID0

Size Field nameOffset“RIFF” chunk descriptor

The format is “WAVE”, which requires two sub-chunks: “fmt” and “data”

“fmt” sub-chunk

“data” sub-chunk

EECS-Audio 19

SPEECH LABNTHU-EE

例：72 bytes的WAV檔

記憶體中存放的資料：(包括檔頭與聲音資料)

52 49 46 46 24 08 00 00 57 41 56 45 66 6d 74 20 10 00 00 00 01 00 02 00 22 56 00 00 88 58 01 00 04 00 10 00 64 61 74 61 00 08 00 00 00 00 00 00 24 17 1e f3 3c 13 3c 14 16 f9 18 f9 34 e7 23 a6 3c f2 24 f2 11 ce 1a 0d

EECS-Audio 20

SPEECH LABNTHU-EE

L = 5924, R = 6223824 17 1e f3

Left and Right channel samples

L = 0, R = 000 00 00 00

Sub_chunk_2 size204800 08 00 00

d a t a 64 61 74 61data sub_chunk

Bits per sample1610 00

Block align404 00

Sampling rate2205022 56 00 00

Num of channels202 00

Audio format1 (PCM)01 00

Sub_chunk_1 size1610 00 00 00

f m t66 6d 74 20fmt sub_chunk

W A V E57 41 56 45

Chunk size208424 08 00 00

R I F F52 49 46 46Chunk descriptor

contentscode

EECS-Audio 21

SPEECH LABNTHU-EE

四、 MP3聲音編碼

MPEG 1 音訊編碼是利用心理聲學(Psychoacoustics)原理所發展出來的一種編碼方法，設計有三個層次，每一層的壓縮法不同。層階數越高，壓縮複雜度就越高。其中第三層(MPEG 1 Layer 3)就簡稱為MP3。

MPEG第一階層(Mpeg 1 audio layer 1)標準壓縮效率為1：4，第二階段(Mpeg 1 audio layer 2)為1：6~1：8，第三階層(Mpeg 1 audio layer 3)的壓縮效率則高達1：10~1：12。

MP3雖然有相當高的壓縮效率，還是能保持原來聲音的音質，這是因為應用了人類聽覺的感知特性。

EECS-Audio 22

SPEECH LABNTHU-EE

人類聽覺的感知特性

EECS-Audio 23

SPEECH LABNTHU-EE

人耳對頻率在2.5KHz-5KHz的聲音最敏感，頻率再高或是更低，敏感度就開始下降，這就是圖中的感知曲線(Threshold in quiet)，任何音量在這條線下面的聲音都會聽不見。

另外一個重要的聽覺特性是遮蔽效應(masking effect)，也就是某些頻率的聲音會被其他頻率的聲音蓋掉，而每個單頻率的聲音，都可以算出對應的一個遮蔽臨界(Masking threshold)曲線。例如圖中1 KHz的地方產生一個聲音，它就有一條對應的遮蔽臨界曲線，附近雖然有出現幾個聲音，但因為低於1 KHz的聲音產生的遮蔽臨界曲線，所以被蓋掉了，我們就聽不到這些聲音。

EECS-Audio 24

SPEECH LABNTHU-EE

MP3編碼，就是利用遮蔽效應，將遮蔽掉的頻帶，不給予編碼位元，並使用較少的編碼位元在可以遮蔽掉量化誤差的頻帶，因此整個頻域所用的位元數就可以大量的減少。

EECS-Audio 25

SPEECH LABNTHU-EE

五、音效軟體 --CoolEdit

EECS-Audio 26

SPEECH LABNTHU-EE

CoolEdit(酷樂)程式是一個非常好用的數位錄音程式，只要在電腦的音效卡上接一個麥克風，就可以利用電腦來錄音。

此外，CoolEdit可以將下列各種設備所產生的聲音轉錄成數位的聲音檔案，方便將來作保存與整理：

錄音機、隨身聽、各類音響

音樂CD、音樂卡帶

錄放影機、V8或是DV攝影機

各類電子樂器

EECS-Audio 27

SPEECH LABNTHU-EE

數位聲音處理

CoolEdit可以對錄進來的聲音做一些基本的處理，包括：

去頭去尾

如果利用錄音機來錄音，其錄音的開頭或結尾常常是按鍵操作的雜音，或是一段空白，這部份很容易用CoolEdit刪除。

調整音量

通常錄音後的音量常常不能令人滿意，尤其是錄音效果差的設備，或是錄音後音量太小，就可以利用CoolEdit很方便的調整音量。

EECS-Audio 28

SPEECH LABNTHU-EE

去背景雜音

這是CoolEdit的特殊功能之一。背景的雜音常常是錄音設備所產生的高頻雜音，或是錄音帶轉動的馬達聲，這些雜音可以利用CoolEdit來去除。

聲音的剪接

準確標示位置

CoolEdit的聲音檔案有非常精確的聲音長度標示，可以到達千分之一秒的準確度。一般的錄音機只有一個簡單的三位數字表，聲音長度標示的能力就差多了。

EECS-Audio 29

SPEECH LABNTHU-EE

多重標示位置

在CoolEdit中可以很容易標示一段聲音的開頭結尾，在同一大段錄音中可以標示好幾個開頭結尾，並且很容易根據標示點選取一段聲音出來。傳統的錄音機必須正反倒帶，才能找出聲音來。

波形顯示

CoolEdit還可以看到聲音的波形，從波形可以很容易的辨認出聲音與音樂的段落，要把一段話，或是所講個幾個字選出來，都很容易做到。

EECS-Audio 30

SPEECH LABNTHU-EE

淡入淡出

剪接時，CoolEdit可以設定一些專業的剪接方式，如淡入(Fade In)、淡出(Fade Out)等等。

特殊效果

調整聲調高低

可以像卡拉OK一樣的調Key，或是將女聲變男聲、男聲變女聲。

回音

可以很容易製造回音效果。

EECS-Audio 31

SPEECH LABNTHU-EE

調整節奏快慢

將正常速度的聲音，變成像唐老鴨似的唧哩刮啦的快速講話的聲音，或者將正常的聲音速度變慢，變成緩慢講話的聲調。

空間的音響效果

一個人在大戲院裡講話，和在小小的房間中講話，聽起來感覺就不一樣，這就是所謂的空間音響，它也是因為回音所造成的現象。在CoolEdit中，可以將原始的錄音，製造出在各種不同的空間中講話的效果，譬如在大教堂中或是空曠的草原上。

EECS-Audio 32

SPEECH LABNTHU-EE

混音

利用CoolEdit可以很容易做混音，將兩種以上的聲音混合在一起。例如將一段訪問談話的聲音，配上一段背景音樂，形成特殊的談話氣氛。或是混合其他的蟲鳴鳥叫聲，感覺上像是身在鄉野中。

處理各種聲音檔案格式的能力

CoolEdit幾乎可以開啟與儲存各類常見的聲音格式檔案，可以算是一個非常好用的聲音格式轉換工具。

新版的CoolEdit可以將聲音檔案儲存成MP3格式，等於是將很大的聲音檔案，壓縮成只有原來十分之一的大小。

Documents

SPEECH LAB 륱뻷룪끔ꑵ땻맪닟 궵끔 NTHU-EE · 2005. 9. 12. · EECS-Audio 10 SPEECH LAB NTHU-EE 셮궵끔뢹ꪺ볆ꛬ꓆ 셮궵ꪺ볆ꛬ꓆걏녎쏾ꓱ궵끔신꓆ꚨ볆ꛬ궵끔ꪺ륌땻ꅁꖦꕝ