Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
音声の符号化 音(アナログ量)→デジタルデータに変換
コンピュータで扱える
デジタル回線での伝送
どうやってデジタル化するか? 目標
アナログに戻したときの音質がよい方がいい
デジタルデータにしたときのビット数が少ない方がいい
方法 音声のいろいろな性質を利用する
1
音声符号化の基本事項
サンプリング 時間的に連続する信号の「とびとび」の時間での値だけを観測する
「とびとび」の速さ:サンプリング周波数 fs
入力信号がfs/2以下の周波数成分だけを含む場合
には,サンプリングされたデータから元の信号が復元できる(サンプリング定理)
2
サンプリング定理に関する注意 「8kHzでサンプリングすれば4kHzの音まで再生できる」→一部間違い
正しくは「元の音が4kHzまでの成分しか含んでいなければ、8kHzでサンプリングした時に元の音を完全に再現できる」
元の音が4kHz以上の音を含んでいた場合は歪みとなる(折り返し歪み、aliasing)
通常はAD変換の前にアナログフィルタをかませて高域成分をカットする
3
音声符号化の基本事項 量子化
信号の大きさを「とびとび」の値に丸める整数で値を表現できる
「とびとび」の幅:量子化幅量子化した信号と元の信号の差:量子化誤差
4
サンプリングと量子化
サンプリング周波数:どの程度の高さの音まで再現するかで決まる電話:8kHz (4kHzの音まで再現)
高品位音声:16kHz (8kHzの音まで再現)
CD:44.1kHz (22.05kHzの音まで再現)
量子化:どの程度の雑音まで許容するかで決まる音の符号化とはつまり「どう量子化するか」
5
PCM符号化
PCM(Pulse Code Modulation) 量子化した値をそのまま2進数の数字として符号化
PCMの要素 1サンプルあたり何ビット使うか 量子化の間隔をどうするか
等間隔に量子化:線形量子化(linear quantization) 等しくない間隔で量子化:非線形量子化(nonlinear
quant.)
PCM符号の例 CD:16bit線形量子化 VoIP(G.711): 8bit 非線形量子化
6
非線形量子化
多くのサンプルは0に近い値を持つ→0付近を細かく量子化すれば全体の誤差が減らせる
0
5
10
-5
-10
0
5
10
-5
-10
7
非線形量子化の例:G.711 64kbit/sのデジタル回線での音声通信用
8kHzサンプリング,8bit非線形量子化 μ-Law(日本,アメリカ),A-Law(ヨーロッパ) μ-Law: 14bit線形量子化の値→8bit非線形量子化の値
-150
-100
-50
0
50
100
150
-8000 -6000 -4000 -2000 0 2000 4000 6000 8000
8bit m
u-L
aw
14bit linear
𝑦 = 128 sign(𝑥)log 1 +
255|𝑥|8192
log 256
8
ディジタル交換◦ディジタル化された信号を多重化・転送
◦途中の回線の通信速度はディジタル化された音声の速度(64kbit/s)よりも十分速いと仮定
◦ディジタル化された信号は一定数のサンプルの塊(フレーム)ごとに転送される
9
時分割多重(TDM)◦複数の回線を時間的に切り替えて送受信
10
入力側の回線より十分高速な回線
• 入力回線を決められた順序で順番に転送(同期転送)
• 通信がない回線の時間は空きになる
インターネットの利用◦ IP(Internet Protocol)によるデータ転送◦ データの塊に宛先情報を付加したものが基本単位(パケット)◦ データ中継装置(ルータ)がパケット転送先を判断して転送する◦ データ転送が回線容量を超えた場合(輻輳)やビット誤りでデータが壊れた場合はパケットを廃棄する
11
TCP/IPとOSI参照モデル階層 説明 例
アプリケーション層 通信サービス(ファイル転送,メッセージ転送など)
HTTP, FTP, SMTP
プレゼンテーション層 データの表現方法(符号化方式など)
セッション層 1回ごとの通信制御手順(再接続など)
トランスポート層 エラー訂正,データ再送など TCP, UDP, RTP
ネットワーク層 複数の機器にまたがるデータの中継と生著
IP, ARP
データリンク層 直接接続されている機器間の通信 Ethernet
物理層 物理的接続 100base-T
12
IPによるデータ転送◦ IP (Internet Protocol)◦ IPv4 (version 4) と IPv6 (version 6)がある現在までv4が主流
◦データの塊(パケット)による通信
◦機器につけられた固有の番号(IP address)を使って通信を行う◦ IPv4では0~255の4つの数字の組
◦ IP addressによってネットワーク間でパケットを転送(ルーティング)
13
IPパケット◦ IPv4のパケット構造
14
ルーティング◦パケットの宛先アドレスと経路表によってパケットを異なるネットワーク間で転送する
15
パケットの廃棄◦ IPではすべてのパケットがルーティングされるとは限らない
◦パケットが廃棄される場合◦内容が壊れている(チェックサムが合わない)
◦送信側のネットワークが混んでいる(輻輳)◦受信側と送信側のネットワークの通信速度が同じとは限らない
◦送信側の方が遅ければ,ネットワークが混んでいなくてもパケット廃棄が起きうる
16
17
IP上での通信プロトコルTCP (Transmission Control Protocol)◦現在最も多く用いられている◦ 1対1の通信(ユニキャスト)◦パケット再送により信頼性の高い通信を行う◦ リアルタイム性は低い
UDP (User Datagram Protocol)◦ 1対1および1対多(マルチキャスト)通信が可能◦プロトコルにはパケット再送機能はない
RTP (Realtime Transport Protocol)◦ UDPの上位プロトコル◦ リアルタイム通信をサポート
HTTP, FTP, SMTPなど
BIND, NTP など
VoIP など
18
TCPによる音楽・映像配信良い点◦パケット欠落を考えなくてよい
悪い点◦通信効率◦ ハンドシェイクのための通信が発生
◦ リアルタイム性に問題◦ パケ ッ ト 再 送が あ るの で , パ ケ ッ ト 到 着時間の保証が な い→キャッシュを使う→再生遅延
◦ユニキャストのみ◦ 放送をする場合は視聴者数だけコネクションが必要→サーバの負荷・通信容量の増大
19
UDP・RTPでの音楽・映像配信良い点◦通信効率が良い◦送るデータの分(+ヘッダ)だけの通信
◦リアルタイム性◦マルチキャストが可能◦多数の端末に対して1つのパケットを送るだけでよい
悪い点◦パケット到達の保証がない◦パケットロス時の処理はアプリケーション依存
20
マルチキャストでのパケットロスの例
どのくらいの人がパケットロスを経験するのか?◦ Mboneでのネット会議でのパケットロス調査 [M. Handley,
1997]
Voice over IP (VoIP)◦ IPネットワークで音声通信◦ IP上の通常の通信(Webなど)はデータ再送を行う(TCP/IP)→電話のようなリアルタイム通信には向かない
◦リアルタイム用の通信方式(RTP/IP)を利用◦パケットが廃棄されたときの音声を復元する技術が必要(パケットロス隠蔽)
◦通常のPCM音声のほか、高効率音声符号化も利用できる
21
高効率音声符号化◦通常の電話用PCM音声符号化◦G.711, 64kbit/s
◦初期の携帯電話網はディジタルデータの転送速度が低かった◦GSM (1987~): 9.6k~22.8kbit/s
◦ PDC (1991~): 9.6kbit/s
◦ 3G (1999~): 144kbit/s~2Mbit/s
◦ 3.9G/LTE (2010~): 25M~50Mbit/s
◦ 4G (2010~): 50M~1Gbit/s
22
さまざまな高効率音声符号化規格◦ LD-CELP (Low-Delay CELP)◦ G.728 16kbit/s
◦ CS-ACELP (Conjugate Structure Algebraic CELP)◦ G.729 8kbit/s
◦ RPE-LTP (Regular Pulse Excitation with Long Term Prediction)◦ GSM標準 13kbit/s
◦ VSELP (Vector Sum Excitation LP)◦ PDC標準 6.7kbit/s
◦ PSI-CELP (Pitch Synchronous Innovation CELP)◦ PDCハーフレート標準 3.45kbit/s
◦ ACELP (Algebraic CELP)◦ GSM改訂標準 7.4kbit/s
23
高レベル音声符号化ディジタルデータ
「声」の特徴
音韻 単語/文 意味
ディジタルデータ
「声」の特徴
音韻 単語/文 意味
音声
音声
PCM系(固定電話等)
CELP系(携帯電話等)
研究段階 要約電話?
AD/DA ボコーダ 音声合成 Text-to-
Speech
24
音声の生成モデル
声帯 声道
喉頭唇
鼻腔
放射特性
𝑋(𝜔)
𝑆(𝜔) 𝑇(𝜔) 𝑅(𝜔)
𝑋 𝜔 = 𝑆 𝜔 𝑇 𝜔 𝑅(𝜔)
25
音声の生成モデル
𝑆 𝜔
26
音声の生成モデル
𝑆(𝜔)
𝑇 𝜔 𝑅(𝜔)
27
分析合成による音声の伝送
圧縮伝送
音声分析合成系(ボコーダ) 声帯音源と声道特性を分離することによって「音声を表現する最小限の要素」だけを伝送できる
𝑋(𝜔)
𝑆(𝜔)
𝑇 𝜔 𝑅(𝜔)
𝑆′(𝜔)
𝑇′ 𝜔 𝑅′(𝜔)
𝑋′(𝜔)
28
出力からのシステム推定
音声符号化の際に手に入るのはX(w)だけ
X(w)を観測しただけで,S(w)と T(w)R(w)が分離できるか?
𝑆(𝜔) 𝑇 𝜔 𝑅(𝜔) 𝑋(𝜔)
出力からのシステム推定
仮定:システムへの入力はパルス列(スペクトルが平坦) 実際の声帯音源と声道特性とは違うが、特性の分離はできる
手法:線形予測(LPC)分析
𝐸(𝜔) 𝐻(𝜔) 𝑋(𝜔)
CELPの構成LPC
分析量子化
コードベクトル選択
残差信号コードブック
信号利得コードブック
LPC
合成+
-
聴覚重み付け距離距離最小の
コードベクトルを選ぶ
bitstream
作成
出力
インターネットと音声◦現在、インターネットはすべての通信のインフラになりつつある◦文字・画像の通信◦ World Wide Web
◦電子メール、メッセージング
◦音声の通信◦ VoIP、音楽配信
◦映像の配信
32
高効率オーディオ符号化◦音楽を配信するための方式◦主に音楽(音声とは限らない)を圧縮する◦ CELPのような「音声専用」の方法は使えない
◦パケット通信への対応◦入力信号をパケットに分けることが前提
33
オーディオ符号化の基本的な枠組み
34
SB-ADPCM◦ 16kHz 高品質音声・中品質オーディオ符号化方式
(G.722)◦ Sub-Band ADPCM の略◦信号を高域と低域に分離し,それぞれADPCM符号化◦共役ミラーフィルタ(QMF)による帯域分離・合成◦ ADPCM符号化:高域2bit,低域4~6ビット (48~
64kbit/s)
35
MPEG1 Audio◦映像符号化規格MPEGの音声部分◦ Layer 1 (MP1), layer 2 (MP2), layer 3 (MP3)がある
◦周波数分析,心理聴覚モデル,非線形スカラ量子化
36
MP1◦MPEG1 audio layer 1◦ポリフェーズフィルタバンクによる周波数分析◦12サンプルごとに正規化+スカラ量子化
37
MP3◦ポリフェーズフィルタバンク+MDCTによる分析◦可変フレーム長(標準18点)◦エントロピー符号化
38
電話で音楽◦同じ符号化方式(コーデック)で音声と音楽の両方が符号化できる方式◦AMR-WB(Adaptive Multi-Rate Wideband)◦ G.722.2
◦ 16kHzサンプリング、7kHzまでの音声を符号化
◦ 6.6k~23.85kbit/s
◦ビットレートに応じてさまざまな符号化アルゴリズムを切り替えて使う
39
AMR-WB+◦AMR-WBにさらに高域の情報を加える◦サンプリング周波数最大48kHz◦低域をAMR-WBで符号化し、高域は低域の情報から生成する(帯域拡張技術)
40
低周波と
高周波に分割
AMR-WBによる符号化
スペクトル概形のみ符号化
ビットストリーム形成
AMR-WB+◦AMR-WBにさらに高域の情報を加える◦サンプリング周波数最大4kHz◦低域をAMR-WBで符号化し、高域は低域の情報から生成する(帯域拡張技術)
41
帯域合成
完全な低周波信号
スペクトル概形
ビットストリーム分解
高周波信号
電話の未来
42
ディジタルデータ
「声」の特徴
音韻 単語/文 意味
ディジタルデータ
「声」の特徴
音韻 単語/文 意味
音声
音声
PCM系(固定電話等)
CELP系(携帯電話等)
研究段階 要約電話?
AD/DA ボコーダ 音声合成 Text-to-
Speech
電話の未来
43
ディジタルデータ
「声」の特徴
音韻 単語/文 意味
ディジタルデータ
「声」の特徴
音韻 単語/文 意味
音声
音声
PCM系(固定電話等)
CELP系(携帯電話等)
研究段階
AD/DA ボコーダ 音声合成 Text-to-
Speech
機械翻訳
自動翻訳電話の研究1986: ATR自動翻訳電話研究所設立◦ASURAによる翻訳通信実験◦語彙サイズ約1500
1993: ATR音声翻訳通信研究所
2001: ATR音声言語通信研究所◦TOEIC換算値 540
2013: 翻訳アプリ
44