Upload
eron
View
38
Download
0
Embed Size (px)
DESCRIPTION
Pázmány Péter Katolikus Egyetem Információs Technológiai Kar. Multimodális beszéd. Facial Animation alapjai (szabványok, rendszerelemek, megvalósítások). Srancsik Bálint. Miért fontos a FA?. Többletinformációt adhat Érzelem kifejezése Zajos környezetben növeli az érthetőséget - PowerPoint PPT Presentation
Citation preview
Multimodális beszéd
Facial Animation alapjai
(szabványok, rendszerelemek, megvalósítások)
Srancsik Bálint
Pázmány Péter Katolikus EgyetemInformációs Technológiai Kar
Miért fontos a FA?
• Többletinformációt adhat
• Érzelem kifejezése• Zajos környezetben
növeli az érthetőséget• Hallók és siketek közti
kommunikáció• stb…
FA jellegzetességei
Beszéd• Intonáció• Hangerő• Ritmus• Hangszín
• Fonéma
• 8000 - 48000 Hz
Vizuális beszéd• Ajak• Nyelv• Fogak• Arcpofa
• Vizéma
• 25 - 100 fps
Magyar vizémakészletMGH MSH
E B, P, M
É F, V
I T, D, N
Ö, O R
Ü, U SZ, Z, C, DZ
Á L
A S, ZS, CS, DZS
TY, GY, J, NY
K, G
H
Teszt
Teszt eredmény (MSH)
Mi köze a FA-nek az informatikához vagy a távközléshez?
• Filmek• Játékok• Web• Videotelefon• Mesterséges intelligencia• Virtuális lények• stb…
FA – informatikai megközelítés
Kutató• Modellezési és
animálási eljárások• Face tracking (real
time)• Beszélő fejek hang
alapján• stb…
Művész• FA csak egy része
a projektnek• A létező legjobb
eljárást használják• „Létező” azt jelenti,
hogy a 3D-s szoftverbe be van építve
FA – informatikai megközelítés
Kutató MűvészMPEG-4
De az MPEG-4 nem a tömörítésről szól?
• Főként!• A szabvány elkészítéséhez sok
munkacsoportot hoztak létre• Az egyik a Synthetic Natural Hybrid Coding
lett. (SNHC) Feladata pl. a 2D-s és 3D-s grafikák bevezetése a szabványba
• SNHC egy része a Face and Body Animation (FBA) lett. Feladata az arc képének kódolás és dekódolása
Encoder és decoder
Encoder
?
Decoder
?Adat
formátum
Az MPEG-4 FBA-ban nincs szabványosítva a kódoló és a
dekódoló
Paraméterezés
Az ideális paraméterezés
• Ábrázolhatóság• Használhatóság• Kidolgozottság• Orthogonalitás• Absztrakciós képesség• Megjósolhatóság• Hordozhatóság• Mérhetőség• Hatékonyság
Az MPEG-4 FA ideális?
Megvizsgáljuk!
Előtte azonban néhány kifejezés:
FDP – Face Definition Parameter
FP – Feature Point
FAP – Facial Animation Parameter
FAPU – Facial Animation Parameter Unit
(FAT – Face Animation Tables)
FDP
Feladata a 2 vagy 3 dimenziós modell alakjának, textúrájának leírása. Ezen felül alapot szolgáltat az animáláshoz, de magát a mozgatást nem ő végzi.
Az FDP lényegében arra használják, hogy egy általános arcból egy egyedi arcot definiáljanak.
Az arc alakjának definiálására használják az FP-ket.
FP
FP
Az MPEG-4 84 FP-t határoz meg a természetes arc leírásához.
Egy MPEG-4 kompatibilis modellhez az FP-k helyzetének pontos ismerete szükséges
Az FP-ket két részre lehet osztani:
Más FP-kel mozgatott FP-k•FAP-ok által mozgatott FP-k
mozgatják•Csak definiálnak•Pl.: Hajon lévők
Külön mozgatott FP-k•FAP-ok mozgatják
•Definiálnak és mozgatnak•Pl.: Ajak körvonalán lévők
FAPAz FP mozgatása a
feladata. Tehát lényegében az animálás.
Az encoder és a decoder között ezek mennek át.
A szabvány 68 paramétert különböztet meg 10 csoporban.
FAP-ok reprezentálják az alap arcmozgásokat.
FAPAz első csoportba tartozó két FAP magas
szintű paraméter -> előre definiált komplexebb mozgásokat lehet végrehajtani velük.
1. Vizéma
Az angol fonémáknak megfelelő vizémákat állítják elő.
2. Arckifejezés
A hat alapérzelem kifejezésére használják.
(Ezek kombinálásából több is előállítható)
FAPA többi 66 FAP alacsony szintű FAP.
Ez azt jelenti, egy vagy több FP-t mozgat. (Akár az összes FP-t)
Az alacsony szintű FAP-oknak nagyobb a prioritása.
Egy FAP lehet egy- vagy többirányú.
A szabvány miden egyes FAP-ra definiálja a pozitív irányú mozgást illetve hogy egy- (U) vagy többirányú (B).
FAPA mozgatás során a kívánt FAP-oknak
megfeleltetünk egy-egy értéket.
Pl.: (FAP 17)=100
De mit jelent, hogy 100?
- mm?- egység?- pixel?
A válasz: hat féle mértékegység van:
IRISD; ES; ENS; MNS; MW; AU
FAPU
FAPUA konkrét mértékegységek a következők:
IRISD=IRISD0/1024
ES=ES0/1024
ENS=ENS0/1024
MNS=MNS0/1024
MW=MW0/1024
AU=10E-5 rad
FAPUA FAPU minden modellre más és más.
A szabvány leírja, hogy melyik FAP-ot melyik FAPU-ban mérik.
Tehát a FAPU modellfüggő, MPEG-4 szabványú modell mozgatásához elengedhetetlen ezek ismeret.
17 push_t_lip Depth displacement of top middle lip
MNS B forward 2 2 1 +-1080 +-360
FA megvalósításaTehát az MPEG-4 szabvány leírja, hogy
hogyan mozognak az FP-k a FAP-ok függvényében.
De hogyan mozog a modell az FP-k függvényében?
Grafikai alapokVertex: pont 3D-ben, három koordinátával adott.
Mesh: rács 3D-ben, tetszőleges két vertex össze vannak kötve.
Polygon: felület 3D-ben, tetszőleges három (vagy több) vertex által meghatározott sík.
Normál: irány 3D-ben, a polygon normálvektora.
IndexedFaceSet: a vertexek sorozata, indexelve és megadva azok poziciója.
coordIndex: mely három (vagy több) vertex határoz meg egy polygont, és hogy az merre néz; a vertex-indexekkel van megadva.
FA megvalósítása
FP
Hatókör
FA megvalósításaEgy FP csak a neki definiált hatókörön
belüli vertex-eket mozgatja.
De a vertex mozgatás nem lineáris. Az FP-től mért távolsággal arányos.
Tehát azokra a vertexekre kevésbé hat, melyek a hatókör szélén vannak, míg a belsőkre jobban.
De a vertex mozgása a távolság arányában sem lineáris. Általában koszinuszos.
FA megvalósításaProbléma lehet a hatókör
definiálása. Főleg a száj környékén.
Hiszen az ajaknál nem biztos, hogy szabad mozgatni a közeli vertexeket.
Megoldás: az FP-hez tartozó vertexeket fel kell sorolni!
Az MPEG-4 FA ideális?
• Ábrázolhatóság • Használhatóság• Kidolgozottság• Orthogonalitás• Absztrakciós képesség• Megjósolhatóság• Hordozhatóság• Mérhetőség• Hatékonyság
Nem ideális!
(De minden eddiginél jobb)
A Pázmány és más speech to animation rendszerek
összehasonlítása
Speech Text Aniamtion
ÖsszehasonlításMás rendszerek (speech to text; text to animation)
Speech Text Aniamtion
Pázmány rendszer (speech to animation)
Más rendszerek
Pázmány rendszerek
Synchronised audiovisual Database
Video preprocessing
Audio preprocessing
MPEG4 based facial animation
model
FP Feature points
coordinates
Acoustic feature extraction
NN
PCA-1
w1 … w6 weights of the
principal components
MFCC
Audiovizuális adatbázis
MPEG4 pontokdetektálása
Javítás
MPEG4 pontokazonosítása
6D PCA 30-32D Koordinátatranszformációk
Szűrés
Log.txt
Audiovizuális-adatbázis
MPEG4 pontokdetektálása
Javítás
MPEG4 pontokazonosítása
6D PCA 30-32D Koordinátatranszformációk
Szűrés
Log mátrix
Audiovizuális adatbázis
Szűrés
-deinterlace az frame-ek közti átmenet „simítására”
-HSV adjust a saturation eltolására, így a világosabb pontok jobban kiemelődtek
MPEG4 pontok azonosítása
Abszolút koordináta rendszer
Relatív koordináta rendszer
Audiovizuális-adatbázis
MPEG4 pontokdetektálása
Javítás
MPEG4 pontokazonosítása
6D PCA 30-32D Koordinátatranszformációk
Szűrés
Log mátrix
Eredeti
Előállított
Első négy főkomponens
Idő
Hanghullám
Lucia
Log to Lucia konverzió
Log mátrix
MPEG-4 szerintimegfeleltetés
Skálázás és irány
Lucia
Normálás(referencia frame)
Medián szűrő
Teszt
47,9%52,1%
54,9%
45,1%
97,1%
2,9%Teszt eredménye
Jeltolmács
Lucia (pont) Lucia (hang)
Talált
Nem talált
Hisztogram
Hisztogram
Hisztogram
Hisztogram
Hisztogram
Hisztogram
Pázmány Péter Katolikus EgyetemInformációs Technológiai Kar
Köszönöm a figyelmet!