Internetes médiakommunikáció Beszéd-kodekek

Preview:

DESCRIPTION

Internetes médiakommunikáció Beszéd-kodekek. Takács György 3. előadás 2009. 03. 04. Ismétlés Beszéd-kodekek általában GSM beszéd-kodekek SPEEX kodekek. Alapfogalmak. - PowerPoint PPT Presentation

Citation preview

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

1

Internetes médiakommunikáció

Beszéd-kodekek

Takács György

3. előadás

2009. 03. 04.

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

2

• Ismétlés

• Beszéd-kodekek általában

• GSM beszéd-kodekek

• SPEEX kodekek

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

3

Alapfogalmak

• Internetes médiakommunikáció = Szöveg, állókép, hang, beszéd, (strukturált) adat továbbítása Internet Protokoll alapú hálózatokon a megkívánt minőséggel, adatbiztonsággal, interaktivitással, megbízhatósággal.

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

4

A beszédhangok folytonos és diszkrét természete

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

5

A beszéd szerkezete• A beszéd egymástól megkülönböztethető

elemek szervezett időbeni egymásutánisága – soros szerkezet.

• Elem lehet egy összefüggő mondanivaló, egy hosszabb szünetekkel elhatárolt beszédrész, egy mondat, egy szó, egy beszédhang.

• Egy ötven beszédhangból álló nyelvben (leszámítva, hogy nem minden hang mondható egymás után) kb. egymillió különböző tíz hangból álló szó képezhető.

• A beszéd szerkezete felülről gyakorlatilag nyitott, alulról zárt.

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

6

Lineári predikció alapokA beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával

ahol az αi lineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat.

p -- a prediktor fokszáma

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

7

A predikció pontatlanságát jellemzi az

predikciós hiba

A predikciós hiba általában mintáról mintára változik!

Gyakorlati feladatoknál a predikálandó jelenséget időszakaszokra bontjuk és egy-egy szakaszban úgy határozzuk meg az αi értékeket, hogy a predikciós hiba négyzetösszege minimális legyen.

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

8

(a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

9

Minek tömöríteni a beszédjelet, hiszen a rendelkezésre álló sávszélesség ma már

nem korlátoz?

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

10

Minek tömöríteni a beszédjelet – válaszaim:

• Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél).

• Nagy az árverseny a transzkontinentális összeköttetéseken

• Korlátos és nem garantált az interneten rendelkezésre álló sávszélesség…..

• Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…)

• Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány)

• A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál)

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

11

Mekkora redundancia van a beszédjelben?Hány bitet kell átvinni legalább elvileg? (A

digitális telefonátvitelben 8kHz mintavétel és 8 bites minta a szabványos > 64kbit/s)

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

12

Mekkora a redundancia – válaszaim beszédkeltés, beszédszintézis

megfontolásból:

• A leggyorsabb beszéd átlagosan kb. 10 fonéma/s

• A kb. 50 fonéma van nyelvenként (angolban kb. 25)

• 1 fonéma információ tartalma kb. 0,5 bit (az egyes fonémák előfordulási gyakorisági értékei miatt)

• Eredmény kb. 250 (angolban 125) bit/s (de ez nem tartalmazza a beszélő személyét, hangulatát, a hangsúlyokat stb….)

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

13

Mekkora a redundancia – válaszaim beszédérzékelés, beszédfelismerés

megfontolásból:

• Az emberi agy teljes folyamatos információ feldolgozó képessége kb. 50 bit/s

• Ebből az akusztikai információ befogadási sebesség kb. 30 bit/s (hivatkozott cikk lásd 2. előadás)

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

14

Miből fakad a nagyságrendi eltérés?

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

15

Miből fakad a nagyságrendi eltérés – válaszaim:

• Amikor én Önök elé állok szerdán délután mit szoktam mondani első mondatban?

• Mekkora új információt hordoz Önök számára, ha ismét elmondom?• A nyelv (mint jelrendszer) szintaktikája miatt (milyen szavak vannak

a szótárban, milyen szabályok szerint kapcsolódhatnak egymáshoz, milyen a nyelvtani megkötöttségek) – mekkora már a lehetséges és tényleg használt szimbólum stringek aránya???

• Mekkora az egymás mellé sorsolható és a tényleg kimondható fonéma stringek aránya????

• Ha már a második magánhangzónál tartunk mekkora a magánhangzó rákövetkezésének esélye?????

• Az eltérés mértéke attól függ, hogy milyen mély nyelvi elemzésbe megyünk bele, mennyire értjük az üzenetet, mennyire személyes az információs kapcsolat….

• Ha a tényleges legmélyebb, személyes szintre megyünk le – még a 30 bit/s is alig jön ki – tehát nincs eltérés!!!!!

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

16

Mit várunk a beszédtömörítőktől?

• Értse amit mondunk – nem!

• Tudja milyen nyelven beszélünk – nem!

• A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvaló a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket!

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

17

Hol tart ma a beszédtömörítés gyakorlata az elvi határértékhez képest?

• A laboratóriumi rendszerek lementek 1 kbit/s alá!

• Ami az Önök zsebében most ott lapul , az 5,6 kbit/s értéket tudja (half rate codec)

• Nyilvános rendszerek alkalmazásaiban legyen szabványos, realizálható, hibatűrő, minőség/sávszélesség aránya szerint skálázható.

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

18

Semmi tömörítés: DÉL Tömörítés abszolút nullára: ÉJFÉL

Shannon szerinti telefon 13 óra

(96000bit/s)

GSM FULL RATE

22 óra 29 perc

(13000 bit/s)

GSM HALF RATE

23 óra 18 perc

(5600 bit/s)

Laboratóriumi csúcs

23 óra 51 perc

1000bit/s

Elvi kiejtési határ23 óra 58 perc250 bit/s

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

19

"A lathe is a big tool. Grab every dish of sugar."

Eredeti

2400 bit/s

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

20

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

21

A GSM rendszer -- áttekintés

• Nyilvános cellás (analóg) rádiótelefon rendszerek működtek az 1980-as évek elejétől

• Korlátaik: – sávszélesség pazarlás, – csak a saját hálózaton belül használható egy

végberendezés, – nem tudott kialakulni a kritikus tömeg a magas

árak miatt…

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

22

A GSM rendszer – áttekintés (2)

• GSM Memory of Understanding -- 13 ország megállapodása 1987-ben, hogy kidolgozzák a közös technológiát 1991 július 1-re.

• A rendszer legyen korszerű, hatékony, tegye lehetővé a bolyongást egész (nyugat) Európában.

• A végberendezés legyen egységes, az előfizetés SIM kártyához kapcsolódik….

• Legyen versenylehetőség országon belül is….. • Először szabványosítás, utána gyártás….• Szabványosítás az ETSI keretében…• Első változat 6000 oldal!!!!

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

23

A GSM rendszer – áttekintés (3)

• Az európai megoldás eredménye:– Soha nem látott ütemű fejlődés,– Ma Magyarországon közel 11 millió előfizető

(2008. április),– A világon több, mint 2 milliárd GSM előfizető

volt 2007 végén– 2003-ban kb. 400 millió codec chip készült

(több mint napi 1 millió darab!!!!)– Ma csak erről az „apróságról” lesz szó….

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

24

A GSM rendszer – áttekintés (4)• Egy GSM terminál funkciói:

• Hány csip kell ehhez?

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

25

KODEK követelmények

• Nagy tömörítés (64 kbit/s-ről kb. 10 kbit/s-re)• Tisztán digitális rendszer• Jó minőség• Hibatűrés (a rádiós átvitel sajátosságai miatt)• Stabilitás• Kis késleltetés (max. 50 ms)• Kis fogyasztás• Implementálhatóság• Full Rate, Half Rate, Enhanced Full Rate,

Adaptive Rate változatok

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

26

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

27

GSM KODEK követelmények

• Nagy tömörítés (64 kbit/s-ről kb. 13 kbit/s-re)• Tisztán digitális rendszer• Jó minőség• Hibatűrés (a rádiós átvitel sajátosságai miatt)• Stabilitás• Kis késleltetés (max. 50 ms)• Kis fogyasztás• Implementálhatóság• Full Rate, Half Rate, Enhanced Full Rate,

Adaptive Rate változatok

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

28

GSM Kodek alapjellemzők

• Mintavételi frekvencia 8kHz• Analízis keret 20ms (160 minta)• Reflexiós együtthatók száma 8 (prediktor

fokszáma) kifejezése LAR (Log Area Reflexion) paraméterekkel

• Reziduális hiba tovább bontva 4 db 40 mintás alszegmensre RPE (Regular Pulse Exitation) kódolás és LTP (Long Term Predictor) kódolással

• 260 bit/20 ms (13000 bit/s) nettó bitsebesség

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

29

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

30

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

31

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

32

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

33

Kell-e egy mai mérnöknek CODEC programot írnia?

• Nem, mert letölthető sok változat, kapható kész chipset!

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

34

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

35

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

36

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

37

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

38

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

39

• Int. Headquarters• ISRAEL• AudioCodes Ltd.• 1 Hayarden Street, Airport City Lod, 70151 (Get

Directions) • Tel: +972-3-976-4000 • Fax: +972-3-976-4040

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

40

Egyik alapvető kodek termék:

AudioCodes’ AC494/5/6/7 family of System on Chip (SoC) provides IP phone and Customer Premises Equipment (CPE) manufacturers with cutting-edge VoIP processing system capabilities. The AC494 family combines MIPS Controller, AC49x DSP Core and a rich set of peripherals such as Codecs, Ethernet MACs and Phys, integrated 3 Port Switch and more. Several silicon derivatives of this family allow cost optimization per application.

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

41

AudioCodes’ AC494/5/6/7 Software Specifications

• Channel Density: Up to 6 channels• Voice Coders: G.711, G.723, G.729, G.722.2, iLBC,

G.722*• Echo CancellerG.168-2002 compliant; Full duplex

acoustic EC• 3/4 Way Conferencing: 3/4 participants from PSTN or IP• Quality Enhancement:

– Voice Activity Detection (VAD), – Comfort Noise Generation (CNG),– Packet Loss Concealment (PLC), – Adaptive Jitter Buffer (up to 300 msec)

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

42

A SPEEX kodek koncepciója

• A fejlesztők egy nyílt forráskódú beszédkodeket terveztek, amelynél nem kell kodekenként díjat fizetni a szabadalom tulajdonosainak. Valami olyat terveztek, mint a Vorbis az audio (zenei) kodekek területén.

• Nem a mobiltelefonok igényét tartották szemelött (persze abból már működik több, mint 2 milliárd darab), hanem kifejezetten az IP alapú hálózatok igényeit és a VoIP alkalmazásokat. Jól alkalmazható a SPEEX beszédjelek tömör tárolására is fájlokban.

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

43

A SPEEX kodek koncepciója

• Legyen rugalmas és széles beszédminőség-tartományban használható azaz különböző bitsebességeknél. Felöleli a szélessávú (16kHz mintavételes) jóminőségű beszédkódolástól a szokásos telefonminőségen át a 4,8 kbps tömörítésig.

• A SPEEX jól tűri a csomagveszést, de nem működik jól bithibák esetén. Azt feltételezi, hogy a csomagok vagy megérkeznek rendben vagy elvesznek.

• Mivel sokféle eszközben tervezték a felhasználását, ezért törekedtek a fejlesztésénél ara, hogy megvalósításánál a processzorteljesítmény és tárterület igény minimális legyen.

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

44

A SPEEX kodek koncepciója

• A követelmények alapján a legjobban illeszkedő kódolási technika a CELP (Code Excitation Linear Prediction). Ez a technika egyrészt bevált, megbízható, továbbá alkalmas széles minőségi tartományban hasonló algoritmusú működésre.

• A SPEEX kódolás veszteséges, azaz a tömörítést beszédminőség rovására hajtja végre. A tömörítési arány beállítható és lehetséges az állandó (CBR) vagy változó (VBR) bitsebességű működés is. (2,15 kbps – 44kbps)

• A kódolás komplexitása is változtatható.

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

45

A SPEEX kodek koncepciója

• Beszéddetektálás (VAD) a kodek eldönti, hogy jön-e beszédjel, vagy beszédszünet van (esetleg háttérzaj). Ha nincs aktív beszédjel, akkor nem kódol, hanem csak egy pár mintával reprezentált „komfort” zajt ad ki.

• A SPEEX kodek elvi (CPU idő nélküli) késleltetése 8kHz mintavételezésnél 30 ms, 16 kHz-nél 34 ms.

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

46

SPEEX keskenysávú módban

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

47

SPEEX szélessávú módban

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

48

SPEEX kodek elemek - segédelemek

• Zajcsökkentés

• Automatikus szintszabályozás (AGC)

• Beszéddetektálás (VAD)

• Adaptív buffer

• Visszhangzár

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

49

Visszhangzár elve (hangszórós működéskor fontos, hogy a partner ne hallja késleltetve vissza

a saját hangját)

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

50

A CELP elv

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

51

A CELP eredő gerjesztőjele

• Ahol:– e(n) - az LPC szintézis szűrőt gerjesztő jel– a predikált periodikus hibajel– C(n) a rögzített kódkönyvtárból vett gerjesztő jel

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

52

Teljes keret elemzés 8 kHz mintavételt feltételezve

• Egy keret 20 ms – (160 minta)• Keretenként számolandók a Line Spectra Pairs (LSP)

értékek és global gain (gframe )értékek • Az értékek kvantálandók

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

53

Miért nem az LPC együtthatókat kvantáljuk?• stabilitási kritérium -- P(z) és Q(z) gyökei az egységkörön vannak és

felváltva jönnek• fizikai tartalom • Vektorkvantálás után elegendő 18-30 bit az LSP együtthatók kvantált

leírására.

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

54

Alkeret elemzés szintézissel (AbS) 8 kHz-es mintavételnél

• Minden keretet 4 db 5 ms hosszú alkeretre bontunk (40 beszédminta)

• Az AbS a fő különbség a többi CELP kodekhez képest.• A SPEEX egy valós számmal írja le a pitch értéket, de

egy háromlépcsős prediktort és 3 pitch gain értéket használ fel az ea(n) kiszámolásához

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

55

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

56

LSP are more correlated from one frame to the next than LPC. The frame size is 20 msec. There are 50 frames/sec. 2400 bps is equivalent to 48

bits/frame. These bits are allocated as follows:

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

57

"A lathe is a big tool. Grab every dish of sugar."

Eredeti

2400 bit/s

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

58

Forrás

• The Speex Codec Manual• Version 1.2 Beta 3• Jean-Marc Valin• December 8, 2007• http://speex.org/docs/manual/speex-manual.pdf

T.Gy. Intrernetes médiakommunikáció. 2009.03. 04.

59

Hasznos linkek

• http://www.comms.eee.strath.ac.uk/~gozalvez/gsm/gsm.html

• http://ccnga.uwaterloo.ca/~jscouria/GSM/gsmreport.html

• http://www.analog.com/UploadedFiles/Product_Briefs/627038651430chipset.pdf

• http://www.ddj.com/print/ (komplett C nyelvű algoritmus)

• http://www.commsdesign.com/design_corner/OEG20030711S0010

Recommended