60
Multimodális beszéd Facial Animation alapjai (szabványok, rendszerelemek, megvalósítások) Srancsik Bálint Pázmány Péter Katolikus Egyetem Információs Technológiai Kar

Multimodális beszéd

  • Upload
    eron

  • View
    38

  • Download
    0

Embed Size (px)

DESCRIPTION

Pázmány Péter Katolikus Egyetem Információs Technológiai Kar. Multimodális beszéd. Facial Animation alapjai (szabványok, rendszerelemek, megvalósítások). Srancsik Bálint. Miért fontos a FA?. Többletinformációt adhat Érzelem kifejezése Zajos környezetben növeli az érthetőséget - PowerPoint PPT Presentation

Citation preview

Page 1: Multimodális beszéd

Multimodális beszéd

Facial Animation alapjai

(szabványok, rendszerelemek, megvalósítások)

Srancsik Bálint

Pázmány Péter Katolikus EgyetemInformációs Technológiai Kar

Page 2: Multimodális beszéd

Miért fontos a FA?

• Többletinformációt adhat

• Érzelem kifejezése• Zajos környezetben

növeli az érthetőséget• Hallók és siketek közti

kommunikáció• stb…

Page 3: Multimodális beszéd

FA jellegzetességei

Beszéd• Intonáció• Hangerő• Ritmus• Hangszín

• Fonéma

• 8000 - 48000 Hz

Vizuális beszéd• Ajak• Nyelv• Fogak• Arcpofa

• Vizéma

• 25 - 100 fps

Page 4: Multimodális beszéd

Magyar vizémakészletMGH MSH

E B, P, M

É F, V

I T, D, N

Ö, O R

Ü, U SZ, Z, C, DZ

Á L

A S, ZS, CS, DZS

TY, GY, J, NY

K, G

H

Page 5: Multimodális beszéd

Teszt

Page 6: Multimodális beszéd

Teszt eredmény (MSH)

Page 7: Multimodális beszéd

Mi köze a FA-nek az informatikához vagy a távközléshez?

• Filmek• Játékok• Web• Videotelefon• Mesterséges intelligencia• Virtuális lények• stb…

Page 8: Multimodális beszéd

FA – informatikai megközelítés

Kutató• Modellezési és

animálási eljárások• Face tracking (real

time)• Beszélő fejek hang

alapján• stb…

Művész• FA csak egy része

a projektnek• A létező legjobb

eljárást használják• „Létező” azt jelenti,

hogy a 3D-s szoftverbe be van építve

Page 9: Multimodális beszéd

FA – informatikai megközelítés

Kutató MűvészMPEG-4

Page 10: Multimodális beszéd

De az MPEG-4 nem a tömörítésről szól?

• Főként!• A szabvány elkészítéséhez sok

munkacsoportot hoztak létre• Az egyik a Synthetic Natural Hybrid Coding

lett. (SNHC) Feladata pl. a 2D-s és 3D-s grafikák bevezetése a szabványba

• SNHC egy része a Face and Body Animation (FBA) lett. Feladata az arc képének kódolás és dekódolása

Page 11: Multimodális beszéd

Encoder és decoder

Encoder

?

Decoder

?Adat

formátum

Az MPEG-4 FBA-ban nincs szabványosítva a kódoló és a

dekódoló

Page 12: Multimodális beszéd

Paraméterezés

Page 13: Multimodális beszéd

Az ideális paraméterezés

• Ábrázolhatóság• Használhatóság• Kidolgozottság• Orthogonalitás• Absztrakciós képesség• Megjósolhatóság• Hordozhatóság• Mérhetőség• Hatékonyság

Page 14: Multimodális beszéd

Az MPEG-4 FA ideális?

Megvizsgáljuk!

Előtte azonban néhány kifejezés:

FDP – Face Definition Parameter

FP – Feature Point

FAP – Facial Animation Parameter

FAPU – Facial Animation Parameter Unit

(FAT – Face Animation Tables)

Page 15: Multimodális beszéd

FDP

Feladata a 2 vagy 3 dimenziós modell alakjának, textúrájának leírása. Ezen felül alapot szolgáltat az animáláshoz, de magát a mozgatást nem ő végzi.

Az FDP lényegében arra használják, hogy egy általános arcból egy egyedi arcot definiáljanak.

Az arc alakjának definiálására használják az FP-ket.

Page 16: Multimodális beszéd

FP

Page 17: Multimodális beszéd

FP

Az MPEG-4 84 FP-t határoz meg a természetes arc leírásához.

Egy MPEG-4 kompatibilis modellhez az FP-k helyzetének pontos ismerete szükséges

Az FP-ket két részre lehet osztani:

Más FP-kel mozgatott FP-k•FAP-ok által mozgatott FP-k

mozgatják•Csak definiálnak•Pl.: Hajon lévők

Külön mozgatott FP-k•FAP-ok mozgatják

•Definiálnak és mozgatnak•Pl.: Ajak körvonalán lévők

Page 18: Multimodális beszéd

FAPAz FP mozgatása a

feladata. Tehát lényegében az animálás.

Az encoder és a decoder között ezek mennek át.

A szabvány 68 paramétert különböztet meg 10 csoporban.

FAP-ok reprezentálják az alap arcmozgásokat.

Page 19: Multimodális beszéd

FAPAz első csoportba tartozó két FAP magas

szintű paraméter -> előre definiált komplexebb mozgásokat lehet végrehajtani velük.

1. Vizéma

Az angol fonémáknak megfelelő vizémákat állítják elő.

2. Arckifejezés

A hat alapérzelem kifejezésére használják.

(Ezek kombinálásából több is előállítható)

Page 20: Multimodális beszéd

FAPA többi 66 FAP alacsony szintű FAP.

Ez azt jelenti, egy vagy több FP-t mozgat. (Akár az összes FP-t)

Az alacsony szintű FAP-oknak nagyobb a prioritása.

Egy FAP lehet egy- vagy többirányú.

A szabvány miden egyes FAP-ra definiálja a pozitív irányú mozgást illetve hogy egy- (U) vagy többirányú (B).

Page 21: Multimodális beszéd

FAPA mozgatás során a kívánt FAP-oknak

megfeleltetünk egy-egy értéket.

Pl.: (FAP 17)=100

De mit jelent, hogy 100?

- mm?- egység?- pixel?

A válasz: hat féle mértékegység van:

IRISD; ES; ENS; MNS; MW; AU

Page 22: Multimodális beszéd

FAPU

Page 23: Multimodális beszéd

FAPUA konkrét mértékegységek a következők:

IRISD=IRISD0/1024

ES=ES0/1024

ENS=ENS0/1024

MNS=MNS0/1024

MW=MW0/1024

AU=10E-5 rad

Page 24: Multimodális beszéd

FAPUA FAPU minden modellre más és más.

A szabvány leírja, hogy melyik FAP-ot melyik FAPU-ban mérik.

Tehát a FAPU modellfüggő, MPEG-4 szabványú modell mozgatásához elengedhetetlen ezek ismeret.

17 push_t_lip Depth displacement of top middle lip

MNS B forward 2 2 1 +-1080 +-360

Page 25: Multimodális beszéd

FA megvalósításaTehát az MPEG-4 szabvány leírja, hogy

hogyan mozognak az FP-k a FAP-ok függvényében.

De hogyan mozog a modell az FP-k függvényében?

Page 26: Multimodális beszéd

Grafikai alapokVertex: pont 3D-ben, három koordinátával adott.

Mesh: rács 3D-ben, tetszőleges két vertex össze vannak kötve.

Polygon: felület 3D-ben, tetszőleges három (vagy több) vertex által meghatározott sík.

Normál: irány 3D-ben, a polygon normálvektora.

IndexedFaceSet: a vertexek sorozata, indexelve és megadva azok poziciója.

coordIndex: mely három (vagy több) vertex határoz meg egy polygont, és hogy az merre néz; a vertex-indexekkel van megadva.

Page 27: Multimodális beszéd

FA megvalósítása

FP

Hatókör

Page 28: Multimodális beszéd

FA megvalósításaEgy FP csak a neki definiált hatókörön

belüli vertex-eket mozgatja.

De a vertex mozgatás nem lineáris. Az FP-től mért távolsággal arányos.

Tehát azokra a vertexekre kevésbé hat, melyek a hatókör szélén vannak, míg a belsőkre jobban.

De a vertex mozgása a távolság arányában sem lineáris. Általában koszinuszos.

Page 29: Multimodális beszéd

FA megvalósításaProbléma lehet a hatókör

definiálása. Főleg a száj környékén.

Hiszen az ajaknál nem biztos, hogy szabad mozgatni a közeli vertexeket.

Megoldás: az FP-hez tartozó vertexeket fel kell sorolni!

Page 30: Multimodális beszéd

Az MPEG-4 FA ideális?

• Ábrázolhatóság • Használhatóság• Kidolgozottság• Orthogonalitás• Absztrakciós képesség• Megjósolhatóság• Hordozhatóság• Mérhetőség• Hatékonyság

Nem ideális!

(De minden eddiginél jobb)

Page 31: Multimodális beszéd

A Pázmány és más speech to animation rendszerek

összehasonlítása

Page 32: Multimodális beszéd

Speech Text Aniamtion

ÖsszehasonlításMás rendszerek (speech to text; text to animation)

Speech Text Aniamtion

Pázmány rendszer (speech to animation)

Page 33: Multimodális beszéd

Más rendszerek

Page 34: Multimodális beszéd

Pázmány rendszerek

Synchronised audiovisual Database

Video preprocessing

Audio preprocessing

MPEG4 based facial animation

model

FP Feature points

coordinates

Acoustic feature extraction

NN

PCA-1

w1 … w6 weights of the

principal components

MFCC

Audiovizuális adatbázis

MPEG4 pontokdetektálása

Javítás

MPEG4 pontokazonosítása

6D PCA 30-32D Koordinátatranszformációk

Szűrés

Log.txt

Page 35: Multimodális beszéd

Audiovizuális-adatbázis

MPEG4 pontokdetektálása

Javítás

MPEG4 pontokazonosítása

6D PCA 30-32D Koordinátatranszformációk

Szűrés

Log mátrix

Page 36: Multimodális beszéd

Audiovizuális adatbázis

Page 37: Multimodális beszéd

Szűrés

-deinterlace az frame-ek közti átmenet „simítására”

-HSV adjust a saturation eltolására, így a világosabb pontok jobban kiemelődtek

Page 38: Multimodális beszéd
Page 39: Multimodális beszéd
Page 40: Multimodális beszéd

MPEG4 pontok azonosítása

Page 41: Multimodális beszéd

Abszolút koordináta rendszer

Page 42: Multimodális beszéd

Relatív koordináta rendszer

Page 43: Multimodális beszéd

Audiovizuális-adatbázis

MPEG4 pontokdetektálása

Javítás

MPEG4 pontokazonosítása

6D PCA 30-32D Koordinátatranszformációk

Szűrés

Log mátrix

Page 44: Multimodális beszéd

Eredeti

Page 45: Multimodális beszéd

Előállított

Page 46: Multimodális beszéd

Első négy főkomponens

Page 47: Multimodális beszéd

Idő

Page 48: Multimodális beszéd

Hanghullám

Page 49: Multimodális beszéd

Lucia

Page 50: Multimodális beszéd

Log to Lucia konverzió

Log mátrix

MPEG-4 szerintimegfeleltetés

Skálázás és irány

Lucia

Normálás(referencia frame)

Medián szűrő

Page 51: Multimodális beszéd

Teszt

Page 52: Multimodális beszéd

47,9%52,1%

54,9%

45,1%

97,1%

2,9%Teszt eredménye

Jeltolmács

Lucia (pont) Lucia (hang)

Talált

Nem talált

Page 53: Multimodális beszéd

Hisztogram

Page 54: Multimodális beszéd

Hisztogram

Page 55: Multimodális beszéd

Hisztogram

Page 56: Multimodális beszéd

Hisztogram

Page 57: Multimodális beszéd

Hisztogram

Page 58: Multimodális beszéd

Hisztogram

Page 60: Multimodális beszéd

Pázmány Péter Katolikus EgyetemInformációs Technológiai Kar

Köszönöm a figyelmet!