音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項サンプリング時間的に連続する信号の「とびとび」の時間での値

音声の符号化音（アナログ量）→デジタルデータに変換

コンピュータで扱える

デジタル回線での伝送

どうやってデジタル化するか？目標

アナログに戻したときの音質がよい方がいい

デジタルデータにしたときのビット数が少ない方がいい

方法音声のいろいろな性質を利用する

1

音声符号化の基本事項

サンプリング時間的に連続する信号の「とびとび」の時間での値だけを観測する

「とびとび」の速さ：サンプリング周波数 fs

入力信号がfs/2以下の周波数成分だけを含む場合

には，サンプリングされたデータから元の信号が復元できる（サンプリング定理）

2

サンプリング定理に関する注意「8kHzでサンプリングすれば4kHzの音まで再生できる」→一部間違い

正しくは「元の音が4kHzまでの成分しか含んでいなければ、8kHzでサンプリングした時に元の音を完全に再現できる」

元の音が4kHz以上の音を含んでいた場合は歪みとなる（折り返し歪み、aliasing）

通常はAD変換の前にアナログフィルタをかませて高域成分をカットする

3

音声符号化の基本事項量子化

信号の大きさを「とびとび」の値に丸める整数で値を表現できる

「とびとび」の幅：量子化幅量子化した信号と元の信号の差：量子化誤差

4

サンプリングと量子化

サンプリング周波数：どの程度の高さの音まで再現するかで決まる電話：8kHz (4kHzの音まで再現)

高品位音声：16kHz (8kHzの音まで再現)

CD：44.1kHz (22.05kHzの音まで再現)

量子化：どの程度の雑音まで許容するかで決まる音の符号化とはつまり「どう量子化するか」

5

PCM符号化

PCM(Pulse Code Modulation) 量子化した値をそのまま2進数の数字として符号化

PCMの要素 1サンプルあたり何ビット使うか量子化の間隔をどうするか

等間隔に量子化：線形量子化(linear quantization) 等しくない間隔で量子化：非線形量子化(nonlinear

quant.)

PCM符号の例 CD:16bit線形量子化 VoIP(G.711): 8bit 非線形量子化

6

非線形量子化

多くのサンプルは0に近い値を持つ→0付近を細かく量子化すれば全体の誤差が減らせる

0

5

10

-5

-10

0

5

10

-5

-10

7

非線形量子化の例：G.711 64kbit/sのデジタル回線での音声通信用

8kHzサンプリング，8bit非線形量子化 μ-Law（日本，アメリカ），A-Law（ヨーロッパ） μ-Law: 14bit線形量子化の値→8bit非線形量子化の値

-150

-100

-50

0

50

100

150

-8000 -6000 -4000 -2000 0 2000 4000 6000 8000

8bit m

u-L

aw

14bit linear

𝑦 = 128 sign(𝑥)log 1 +

255|𝑥|8192

log 256

8

ディジタル交換◦ディジタル化された信号を多重化・転送

◦途中の回線の通信速度はディジタル化された音声の速度（64kbit/s)よりも十分速いと仮定

◦ディジタル化された信号は一定数のサンプルの塊（フレーム）ごとに転送される

9

時分割多重(TDM)◦複数の回線を時間的に切り替えて送受信

10

入力側の回線より十分高速な回線

• 入力回線を決められた順序で順番に転送（同期転送）

• 通信がない回線の時間は空きになる

インターネットの利用◦ IP(Internet Protocol)によるデータ転送◦ データの塊に宛先情報を付加したものが基本単位（パケット）◦ データ中継装置（ルータ）がパケット転送先を判断して転送する◦ データ転送が回線容量を超えた場合（輻輳）やビット誤りでデータが壊れた場合はパケットを廃棄する

11

TCP/IPとOSI参照モデル階層説明例

アプリケーション層通信サービス（ファイル転送，メッセージ転送など）

HTTP, FTP, SMTP

プレゼンテーション層データの表現方法（符号化方式など）

セッション層 1回ごとの通信制御手順（再接続など）

トランスポート層エラー訂正，データ再送など TCP, UDP, RTP

ネットワーク層複数の機器にまたがるデータの中継と生著

IP, ARP

データリンク層直接接続されている機器間の通信 Ethernet

物理層物理的接続 100base-T

12

IPによるデータ転送◦ IP (Internet Protocol)◦ IPv4 (version 4) と IPv6 (version 6)がある現在までv4が主流

◦データの塊（パケット）による通信

◦機器につけられた固有の番号(IP address)を使って通信を行う◦ IPv4では0～255の4つの数字の組

◦ IP addressによってネットワーク間でパケットを転送（ルーティング）

13

IPパケット◦ IPｖ4のパケット構造

14

ルーティング◦パケットの宛先アドレスと経路表によってパケットを異なるネットワーク間で転送する

15

パケットの廃棄◦ IPではすべてのパケットがルーティングされるとは限らない

◦パケットが廃棄される場合◦内容が壊れている（チェックサムが合わない）

◦送信側のネットワークが混んでいる（輻輳）◦受信側と送信側のネットワークの通信速度が同じとは限らない

◦送信側の方が遅ければ，ネットワークが混んでいなくてもパケット廃棄が起きうる

16

17

IP上での通信プロトコルTCP (Transmission Control Protocol)◦現在最も多く用いられている◦ 1対1の通信(ユニキャスト)◦パケット再送により信頼性の高い通信を行う◦ リアルタイム性は低い

UDP (User Datagram Protocol)◦ 1対1および1対多(マルチキャスト)通信が可能◦プロトコルにはパケット再送機能はない

RTP (Realtime Transport Protocol)◦ UDPの上位プロトコル◦ リアルタイム通信をサポート

HTTP, FTP, SMTPなど

BIND, NTP など

VoIP など

18

TCPによる音楽・映像配信良い点◦パケット欠落を考えなくてよい

悪い点◦通信効率◦ ハンドシェイクのための通信が発生

◦ リアルタイム性に問題◦ パケット再送があるので，パケット到着時間の保証がない→キャッシュを使う→再生遅延

◦ユニキャストのみ◦ 放送をする場合は視聴者数だけコネクションが必要→サーバの負荷・通信容量の増大

19

UDP・RTPでの音楽・映像配信良い点◦通信効率が良い◦送るデータの分(＋ヘッダ)だけの通信

◦リアルタイム性◦マルチキャストが可能◦多数の端末に対して1つのパケットを送るだけでよい

悪い点◦パケット到達の保証がない◦パケットロス時の処理はアプリケーション依存

20

マルチキャストでのパケットロスの例

どのくらいの人がパケットロスを経験するのか？◦ Mboneでのネット会議でのパケットロス調査 [M. Handley,

1997]

Voice over IP (VoIP)◦ IPネットワークで音声通信◦ IP上の通常の通信(Webなど)はデータ再送を行う(TCP/IP)→電話のようなリアルタイム通信には向かない

◦リアルタイム用の通信方式(RTP/IP)を利用◦パケットが廃棄されたときの音声を復元する技術が必要（パケットロス隠蔽）

◦通常のPCM音声のほか、高効率音声符号化も利用できる

21

高効率音声符号化◦通常の電話用PCM音声符号化◦G.711, 64kbit/s

◦初期の携帯電話網はディジタルデータの転送速度が低かった◦GSM (1987～): 9.6k～22.8kbit/s

◦ PDC (1991～): 9.6kbit/s

◦ 3G (1999～): 144kbit/s～2Mbit/s

◦ 3.9G/LTE (2010～): 25M～50Mbit/s

◦ 4G (2010～): 50M～1Gbit/s

22

さまざまな高効率音声符号化規格◦ LD-CELP (Low-Delay CELP)◦ G.728 16kbit/s

◦ CS-ACELP (Conjugate Structure Algebraic CELP)◦ G.729 8kbit/s

◦ RPE-LTP (Regular Pulse Excitation with Long Term Prediction)◦ GSM標準 13kbit/s

◦ VSELP (Vector Sum Excitation LP)◦ PDC標準 6.7kbit/s

◦ PSI-CELP (Pitch Synchronous Innovation CELP)◦ PDCハーフレート標準 3.45kbit/s

◦ ACELP (Algebraic CELP)◦ GSM改訂標準 7.4kbit/s

23

高レベル音声符号化ディジタルデータ

「声」の特徴

音韻単語/文意味

ディジタルデータ

「声」の特徴


音声

音声

PCM系（固定電話等）

CELP系（携帯電話等）

研究段階要約電話？

AD/DA ボコーダ音声合成 Text-to-

Speech

24

音声の生成モデル

声帯声道

喉頭唇

鼻腔

放射特性

𝑋(𝜔)

𝑆(𝜔) 𝑇(𝜔) 𝑅(𝜔)

𝑋 𝜔 = 𝑆 𝜔 𝑇 𝜔 𝑅(𝜔)

25


𝑆 𝜔

26


𝑆(𝜔)

𝑇 𝜔 𝑅(𝜔)

27

分析合成による音声の伝送

圧縮伝送

音声分析合成系（ボコーダ）声帯音源と声道特性を分離することによって「音声を表現する最小限の要素」だけを伝送できる

𝑋(𝜔)

𝑆(𝜔)

𝑇 𝜔 𝑅(𝜔)

𝑆′(𝜔)

𝑇′ 𝜔 𝑅′(𝜔)

𝑋′(𝜔)

28

出力からのシステム推定

音声符号化の際に手に入るのはX(w)だけ

X(w)を観測しただけで，S(w)と T(w)R(w)が分離できるか？

𝑆(𝜔) 𝑇 𝜔 𝑅(𝜔) 𝑋(𝜔)

出力からのシステム推定

仮定：システムへの入力はパルス列(スペクトルが平坦) 実際の声帯音源と声道特性とは違うが、特性の分離はできる

手法：線形予測(LPC)分析

𝐸(𝜔) 𝐻(𝜔) 𝑋(𝜔)

CELPの構成LPC

分析量子化

コードベクトル選択

残差信号コードブック

信号利得コードブック

LPC

合成＋

-

聴覚重み付け距離距離最小の

コードベクトルを選ぶ

bitstream

作成

出力

インターネットと音声◦現在、インターネットはすべての通信のインフラになりつつある◦文字･画像の通信◦ World Wide Web

◦電子メール、メッセージング

◦音声の通信◦ VoIP、音楽配信

◦映像の配信

32

高効率オーディオ符号化◦音楽を配信するための方式◦主に音楽（音声とは限らない）を圧縮する◦ CELPのような「音声専用」の方法は使えない

◦パケット通信への対応◦入力信号をパケットに分けることが前提

33

オーディオ符号化の基本的な枠組み

34

SB-ADPCM◦ 16kHz 高品質音声・中品質オーディオ符号化方式

(G.722)◦ Sub-Band ADPCM の略◦信号を高域と低域に分離し，それぞれADPCM符号化◦共役ミラーフィルタ(QMF)による帯域分離・合成◦ ADPCM符号化：高域2bit，低域4～6ビット (48～

64kbit/s)

35

MPEG1 Audio◦映像符号化規格MPEGの音声部分◦ Layer 1 (MP1), layer 2 (MP2), layer 3 (MP3)がある

◦周波数分析，心理聴覚モデル，非線形スカラ量子化

36

MP1◦MPEG1 audio layer 1◦ポリフェーズフィルタバンクによる周波数分析◦12サンプルごとに正規化＋スカラ量子化

37

MP3◦ポリフェーズフィルタバンク＋MDCTによる分析◦可変フレーム長（標準18点）◦エントロピー符号化

38

電話で音楽◦同じ符号化方式（コーデック）で音声と音楽の両方が符号化できる方式◦AMR-WB(Adaptive Multi-Rate Wideband)◦ G.722.2

◦ 16kHzサンプリング、7kHzまでの音声を符号化

◦ 6.6k～23.85kbit/s

◦ビットレートに応じてさまざまな符号化アルゴリズムを切り替えて使う

39

AMR-WB+◦AMR-WBにさらに高域の情報を加える◦サンプリング周波数最大48kHz◦低域をAMR-WBで符号化し、高域は低域の情報から生成する（帯域拡張技術）

40

低周波と

高周波に分割

AMR-WBによる符号化

スペクトル概形のみ符号化

ビットストリーム形成

AMR-WB+◦AMR-WBにさらに高域の情報を加える◦サンプリング周波数最大4kHz◦低域をAMR-WBで符号化し、高域は低域の情報から生成する（帯域拡張技術）

41

帯域合成

完全な低周波信号

スペクトル概形

ビットストリーム分解

高周波信号

電話の未来

42


「声」の特徴



「声」の特徴


音声

音声



研究段階要約電話？


Speech

電話の未来

43


「声」の特徴



「声」の特徴


音声

音声



研究段階


Speech

機械翻訳

自動翻訳電話の研究1986: ATR自動翻訳電話研究所設立◦ASURAによる翻訳通信実験◦語彙サイズ約1500

1993: ATR音声翻訳通信研究所

2001: ATR音声言語通信研究所◦TOEIC換算値 540

2013: 翻訳アプリ

44

Documents

音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項 サンプリング 時間的に連続する信号の「とびとび」の時間での値

音声の符号化 - Tohoku University Official English …aito/CommunicationB/slide2.pdf音声符号化の基本事項サンプリング時間的に連続する信号の「とびとび」の時間での値