Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
A gépi elemzők kriminalisztikai szempontú felhasználásának lehetőségei
RESEARCH GROUP ON ARTIFICIAL INTELLIGENCE
VINCZE VERONIKA1, KICSI ANDRÁS1,2, FŐZŐ ESZTER3 ÉS VIDÁCS LÁSZLÓ1,2
2 Szegedi Tudományegyetem, Szoftverfejlesztés Tanszék, Szeged3 Nemzetbiztonsági Szakszolgálat Szakértői Intézet, Budapest
1 MTA-SZTE Mesterséges Intelligencia Kutatócsoport, Szeged
A publikációban szereplő kutatást (amelyet a Szegedi Tudományegyetem és a Nemzetbiztonsági Szakszolgálat valósított meg) az Innovációs és Technológiai Minisztérium és a Nemzeti Kutatási, Fejlesztési és Innovációs Hivatal támogatta a Mesterséges Intelligencia Nemzeti Laboratórium keretében.
Köszönetnyilvánítás
A B
C D
alanyok, tárgyak, jelzők, határozók, alárendelések, mellérendelések száma és aránya, tagmondatok száma és aránya, egyszerű mondatok száma és aránya, összetett mondatok száma és aránya, egy, két, három vagy négy tagmondatból álló mondatok száma és aránya
Szintaktikai jellemzők[5]
tokenek száma, mondatok száma, lemmák száma és aránya, mondatok átlagos hossza, csupa nagybetűből álló szavak száma és aránya, nagy kezdőbetűs szavak száma és aránya, kijelentő mondatok száma és aránya, felszólító/felkiáltó/óhajtó mondatok száma aránya, kérdő mondatok száma és aránya, a szöveg telítettsége (lemmaszám / tagmondatok száma)
Statisztikai jellemzők
beszédaktusok száma és aránya, idézetek és gondolatjelek száma és aránya, kifelé és befelé forduló igék száma és aránya, meggyőzést jelentő igék száma és aránya, diskurzusjelölők száma és aránya
Pragmatikai jellemzők
főnevek, igék, melléknevek, ismeretlen szavak, határozószavak, tulajdonnevek, számnevek, névmások, vonatkozó és mutató névmások, névutók és központozás száma és aránya, múlt és jelen idejű, feltételes és felszólító módú, gyakorító, műveltető és ható, adott számú és személyű igék száma és aránya, középfokú és felsőfokú melléknevek száma és aránya, többes számú főnevek száma és aránya, különleges képzővel/végződéssel rendelkező szavak száma és aránya
Morfológiai jellemzők[5]
pozitív és negatív töltetű szavak száma és aránya[6], negatív emotív szavak száma és aránya, tagadószavak, funkciószavak és tartalmas szavak száma és aránya, trágár és rasszista szavak száma és aránya, speciális stílusértékű szavak száma és aránya, megszólítások, elköszönő formulák és utóiratok száma és aránya, bizonytalanságra[7] és érzelmekre[8] utaló szavak száma és aránya
Szemantikai jellemzők
?
Motiváció Kísérlet Eredmények
Főbb irodalom
Háttér Eredmények
Minden eddiginél egyszerűbb az anonim kommunikáció
Magyarországon jelenleg kézzel történik az összehasonlítás, egyetlen főbb összefoglaló irodalmat használnak a szakértők[1]
Statisztikai jellemzők:
A dokumentumok adatai:
Szókészlet:Morfológiai jellemzők:
Az igazságszolgáltatás sem mindig tudja lenyomozni az elkövetőket
Veszély: zsarolás, fenyegetés, rágalmazás
Külföldön széleskörű tudományszervező és aktív kutatási tevékenység[2,3,4]
Az NBSZ szakterület-fejlesztési irányai között szerepel az automatizált gépi szövegelemzés, amely a gépi összehasonlításhoz vezet majd
A kinyert jellemzők segítenek feltárni olyan összefüggéseket, amelyeket szabadszemmel nehéz észrevenni
A szakértő számára ezek utal-hatnak a szerző korára, nemére, végzettségére, érdeklődési körére
Ezeket meglévő adatbázison is lehet futtatni, majd bevezethető a más országokban már használt, valószínűségi arányon alapuló becslés
Automatizáltan kinyert jellemzők
Négy szerző 61 dokumentuma felett
Az anonim szöveg is tartalmaz a szerzőjére utaló stilometriai jegyeket
Célunk a stilometriai jellemzők kinyerésének automatizációja, ebből a szakértőket segítő rendszer készítése
Ezeket jelenleg a szakértők percepciós úton elemzik és értékelik, szükség van a módszerek automatizálására
A jellemzők teljes listája alul olvasható
A kézi elemzés támogatása a jelenlegi cél
Látszanak-e szigni�káns különbségek a szerzők idiolektusa között akár már ilyen kis mintán is?
[1] Nagy, F.: Kriminalisztikai szövegnyelvészet. Akadémiai Kiadó, Budapest (1980)[2] Coulthard, M., Johnson, A.: The routledge handbook of forensic linguistics (2010)[3] Nini, A.: Authorship pro�ling in a forensic context. PHD thesis (2014)[4] Nirkhi, S., Dharaskar, R., Thakare, V.: Authorship veri�cation of online messages for forensic investigation. In: Procedia Computer Science. vol. 78, p. 640–645 (2016)[5] Zsibrita, J., Vincze, V., Farkas, R.: magyarlanc: A toolkit for morphological and dependency parsing of Hungarian. In: Proceedings of RANLP. p. 763–771 (2013)[6] Szabó, M.K.: Egy magyar nyelvű szentimentlexikon létrehozásának tapasztalatai és dilemmái. nyelv, kultúra, társadalom. In: Segédkönyvek a nyelvészet tanulmányozásához. p. 278–285 (2015)[7] Vincze, V.: Uncertainty detection in Hungarian texts. In: Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers. p. 1844–1853. Dublin City University and Association for Computational Linguistics, Dublin, Ireland (2014)[8] Szabó, M.K., Vincze, V.: Magyar nyelvű szövegek emócióelemzésének elméleti nyelvészeti és nyelvtechnológiai problémái. In: Távlatok a mai magyar alkalmazott nyelvészetben. p. 282–292. Tinta pp., Budapest (2016)
TokenekMondatok
7127
555
170
3205
6323
461
1579
1
912
32
10
13
6
Dokumentumok
telítettség
mondathossz
0 5 10 15 20
0 0,2 0,4 0,6 0,8
felsz. mondatok ar.
kérdések aránya
lemmák aránya
kijel. mondatok ar.
igék aránya
melléknevek aránya
határozószavak aránya
tulajdonnevek aránya
kötőszavak aránya
írásjelek aránya
névmások aránya
múlt idő aránya
jelen idő aránya
feltételes mód aránya
felszólító mód aránya
E/1. aránya
E/2. aránya
E/3. aránya
T/1. aránya
T/2. aránya
T/3. aránya
főnevek aránya
0 0,2 0,4 0,6 0,8
Szintaktikai jellemzők:
0 0,2 0,4 0,6 0,8
alárendelés aránya
határozók aránya
mellérendelés aránya
egyszerű mondatok ar.
összetett mondatok ar.
egy tagm. mondatok ar.
két tagm. mondatok ar.
három tagm. mondatok ar.
négy tagm. mondatok ar.