1
A gépi elemzők kriminalisztikai szempontú felhasználásának lehetőségei RESEARCH GROUP ON ARTIFICIAL INTELLIGENCE VINCZE VERONIKA 1 , KICSI ANDRÁS 1,2 , FŐZŐ ESZTER 3 ÉS VIDÁCS LÁSZ1,2 2 Szegedi Tudományegyetem, Szoftverfejlesztés Tanszék, Szeged 3 Nemzetbiztonsági Szakszolgálat Szakértői Intézet, Budapest 1 MTA-SZTE Mesterséges Intelligencia Kutatócsoport, Szeged A publikációban szereplő kutatást (amelyet a Szegedi Tudományegyetem és a Nemzetbiztonsági Szakszolgálat valósított meg) az Innovációs és Technológiai Minisztérium és a Nemzeti Kutatási, Fejlesztési és Innovációs Hivatal támogatta a Mesterséges Intelligencia Nemzeti Laboratórium keretében. Köszönetnyilvánítás A B C D alanyok, tárgyak, jelzők, határozók, alárendelések, mellérendelések száma és aránya, tagmondatok száma és aránya, egyszerű mondatok száma és aránya, összetett mondatok száma és aránya, egy, két, három vagy négy tagmondatból álló mondatok száma és aránya Szintaktikai jellemzők [5] tokenek száma, mondatok száma, lemmák száma és aránya, mondatok átlagos hossza, csupa nagybetűből álló szavak száma és aránya, nagy kezdőbetűs szavak száma és aránya, kijelentő mondatok száma és aránya, felszólító/felkiáltó/óhajtó mondatok száma aránya, kérdő mondatok száma és aránya, a szöveg telítettsége (lemmaszám / tagmondatok száma) Statisztikai jellemzők beszédaktusok száma és aránya, idézetek és gondolatjelek száma és aránya, kifelé és befelé forduló igék száma és aránya, meggyőzést jelentő igék száma és aránya, diskurzusjelölők száma és aránya Pragmatikai jellemzők főnevek, igék, melléknevek, ismeretlen szavak, határozószavak, tulajdonnevek, számnevek, névmások, vonatkozó és mutató névmások, névutók és központozás száma és aránya, múlt és jelen idejű, feltételes és felszólító módú, gyakorító, műveltető és ható, adott számú és személyű igék száma és aránya, középfokú és felsőfokú melléknevek száma és aránya, többes számú főnevek száma és aránya, különleges képzővel/végződéssel rendelkező szavak száma és aránya Morfológiai jellemzők [5] pozitív és negatív töltetű szavak száma és aránya [6] , negatív emotív szavak száma és aránya, tagadószavak, funkciószavak és tartalmas szavak száma és aránya, trágár és rasszista szavak száma és aránya, speciális stílusértékű szavak száma és aránya, megszólítások, elköszönő formulák és utóiratok száma és aránya, bizonytalanságra [7] és érzelmekre [8] utaló szavak száma és aránya Szemantikai jellemzők ? Motiváció Kísérlet Eredmények Főbb irodalom Háttér Eredmények Minden eddiginél egyszerűbb az anonim kommunikáció Magyarországon jelenleg kézzel történik az összehasonlítás, egyetlen főbb összefoglaló irodalmat használnak a szakértők [1] Statisztikai jellemzők: A dokumentumok adatai: Szókészlet: Morfológiai jellemzők: Az igazságszolgáltatás sem mindig tudja lenyomozni az elkövetőket Veszély: zsarolás, fenyegetés, rágalmazás Külföldön széleskörű tudományszervező és aktív kutatási tevékenység [2,3,4] Az NBSZ szakterület-fejlesztési irányai között szerepel az automatizált gépi szövegelemzés, amely a gépi összehasonlításhoz vezet majd A kinyert jellemzők segítenek feltárni olyan összefüggéseket, amelyeket szabadszemmel nehéz észrevenni A szakértő számára ezek utal- hatnak a szerző korára, nemére, végzettségére, érdeklődési körére Ezeket meglévő adatbázison is lehet futtatni, majd bevezethető a más országokban már használt, valószínűségi arányon alapuló becslés Automatizáltan kinyert jellemzők Négy szerző 61 dokumentuma felett Az anonim szöveg is tartalmaz a szerzőjére utaló stilometriai jegyeket Célunk a stilometriai jellemzők kinyerésének automatizációja, ebből a szakértőket segítő rendszer készítése Ezeket jelenleg a szakértők percepciós úton elemzik és értékelik, szükség van a módszerek automatizálására A jellemzők teljes listája alul olvasható A kézi elemzés támogatása a jelenlegi cél Látszanak-e szignifikáns különbségek a szerzők idiolektusa között akár már ilyen kis mintán is? [1] Nagy, F.: Kriminalisztikai szövegnyelvészet. Akadémiai Kiadó, Budapest (1980) [2] Coulthard, M., Johnson, A.: The routledge handbook of forensic linguistics (2010) [3] Nini, A.: Authorship profiling in a forensic context. PHD thesis (2014) [4] Nirkhi, S., Dharaskar, R., Thakare, V.: Authorship verification of online messages for forensic investigation. In: Procedia Computer Science. vol. 78, p. 640–645 (2016) [5] Zsibrita, J., Vincze, V., Farkas, R.: magyarlanc: A toolkit for morphological and dependency parsing of Hungarian. In: Proceedings of RANLP. p. 763–771 (2013) [6] Szabó, M.K.: Egy magyar nyelvű szentimentlexikon létrehozásának tapasztalatai és dilemmái. nyelv, kultúra, társadalom. In: Segédkönyvek a nyelvészet tanulmányozásához. p. 278–285 (2015) [7] Vincze, V.: Uncertainty detection in Hungarian texts. In: Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers. p. 1844–1853. Dublin City University and Association for Computational Linguistics, Dublin, Ireland (2014) [8] Szabó, M.K., Vincze, V.: Magyar nyelvű szövegek emócióelemzésének elméleti nyelvészeti és nyelvtechnológiai problémái. In: Távlatok a mai magyar alkalmazott nyelvészetben. p. 282–292. Tinta pp., Budapest (2016) Tokenek Mondatok 7127 555 170 3205 6323 461 15791 912 32 10 13 6 Dokumentumok telítettség mondathossz 0 5 10 15 20 0 0,2 0,4 0,6 0,8 felsz. mondatok ar. kérdések aránya lemmák aránya kijel. mondatok ar. igék aránya melléknevek aránya határozószavak aránya tulajdonnevek aránya kötőszavak aránya írásjelek aránya névmások aránya múlt idő aránya jelen idő aránya feltételes mód aránya felszólító mód aránya E/1. aránya E/2. aránya E/3. aránya T/1. aránya T/2. aránya T/3. aránya főnevek aránya 0 0,2 0,4 0,6 0,8 Szintaktikai jellemzők: 0 0,2 0,4 0,6 0,8 alárendelés aránya határozók aránya mellérendelés aránya egyszerű mondatok ar. összetett mondatok ar. egy tagm. mondatok ar. két tagm. mondatok ar. három tagm. mondatok ar. négy tagm. mondatok ar.

A B C D - u-szeged.hu

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

A gépi elemzők kriminalisztikai szempontú felhasználásának lehetőségei

RESEARCH GROUP ON ARTIFICIAL INTELLIGENCE

VINCZE VERONIKA1, KICSI ANDRÁS1,2, FŐZŐ ESZTER3 ÉS VIDÁCS LÁSZLÓ1,2

2 Szegedi Tudományegyetem, Szoftverfejlesztés Tanszék, Szeged3 Nemzetbiztonsági Szakszolgálat Szakértői Intézet, Budapest

1 MTA-SZTE Mesterséges Intelligencia Kutatócsoport, Szeged

A publikációban szereplő kutatást (amelyet a Szegedi Tudományegyetem és a Nemzetbiztonsági Szakszolgálat valósított meg) az Innovációs és Technológiai Minisztérium és a Nemzeti Kutatási, Fejlesztési és Innovációs Hivatal támogatta a Mesterséges Intelligencia Nemzeti Laboratórium keretében.

Köszönetnyilvánítás

A B

C D

alanyok, tárgyak, jelzők, határozók, alárendelések, mellérendelések száma és aránya, tagmondatok száma és aránya, egyszerű mondatok száma és aránya, összetett mondatok száma és aránya, egy, két, három vagy négy tagmondatból álló mondatok száma és aránya

Szintaktikai jellemzők[5]

tokenek száma, mondatok száma, lemmák száma és aránya, mondatok átlagos hossza, csupa nagybetűből álló szavak száma és aránya, nagy kezdőbetűs szavak száma és aránya, kijelentő mondatok száma és aránya, felszólító/felkiáltó/óhajtó mondatok száma aránya, kérdő mondatok száma és aránya, a szöveg telítettsége (lemmaszám / tagmondatok száma)

Statisztikai jellemzők

beszédaktusok száma és aránya, idézetek és gondolatjelek száma és aránya, kifelé és befelé forduló igék száma és aránya, meggyőzést jelentő igék száma és aránya, diskurzusjelölők száma és aránya

Pragmatikai jellemzők

főnevek, igék, melléknevek, ismeretlen szavak, határozószavak, tulajdonnevek, számnevek, névmások, vonatkozó és mutató névmások, névutók és központozás száma és aránya, múlt és jelen idejű, feltételes és felszólító módú, gyakorító, műveltető és ható, adott számú és személyű igék száma és aránya, középfokú és felsőfokú melléknevek száma és aránya, többes számú főnevek száma és aránya, különleges képzővel/végződéssel rendelkező szavak száma és aránya

Morfológiai jellemzők[5]

pozitív és negatív töltetű szavak száma és aránya[6], negatív emotív szavak száma és aránya, tagadószavak, funkciószavak és tartalmas szavak száma és aránya, trágár és rasszista szavak száma és aránya, speciális stílusértékű szavak száma és aránya, megszólítások, elköszönő formulák és utóiratok száma és aránya, bizonytalanságra[7] és érzelmekre[8] utaló szavak száma és aránya

Szemantikai jellemzők

?

Motiváció Kísérlet Eredmények

Főbb irodalom

Háttér Eredmények

Minden eddiginél egyszerűbb az anonim kommunikáció

Magyarországon jelenleg kézzel történik az összehasonlítás, egyetlen főbb összefoglaló irodalmat használnak a szakértők[1]

Statisztikai jellemzők:

A dokumentumok adatai:

Szókészlet:Morfológiai jellemzők:

Az igazságszolgáltatás sem mindig tudja lenyomozni az elkövetőket

Veszély: zsarolás, fenyegetés, rágalmazás

Külföldön széleskörű tudományszervező és aktív kutatási tevékenység[2,3,4]

Az NBSZ szakterület-fejlesztési irányai között szerepel az automatizált gépi szövegelemzés, amely a gépi összehasonlításhoz vezet majd

A kinyert jellemzők segítenek feltárni olyan összefüggéseket, amelyeket szabadszemmel nehéz észrevenni

A szakértő számára ezek utal-hatnak a szerző korára, nemére, végzettségére, érdeklődési körére

Ezeket meglévő adatbázison is lehet futtatni, majd bevezethető a más országokban már használt, valószínűségi arányon alapuló becslés

Automatizáltan kinyert jellemzők

Négy szerző 61 dokumentuma felett

Az anonim szöveg is tartalmaz a szerzőjére utaló stilometriai jegyeket

Célunk a stilometriai jellemzők kinyerésének automatizációja, ebből a szakértőket segítő rendszer készítése

Ezeket jelenleg a szakértők percepciós úton elemzik és értékelik, szükség van a módszerek automatizálására

A jellemzők teljes listája alul olvasható

A kézi elemzés támogatása a jelenlegi cél

Látszanak-e szigni�káns különbségek a szerzők idiolektusa között akár már ilyen kis mintán is?

[1] Nagy, F.: Kriminalisztikai szövegnyelvészet. Akadémiai Kiadó, Budapest (1980)[2] Coulthard, M., Johnson, A.: The routledge handbook of forensic linguistics (2010)[3] Nini, A.: Authorship pro�ling in a forensic context. PHD thesis (2014)[4] Nirkhi, S., Dharaskar, R., Thakare, V.: Authorship veri�cation of online messages for forensic investigation. In: Procedia Computer Science. vol. 78, p. 640–645 (2016)[5] Zsibrita, J., Vincze, V., Farkas, R.: magyarlanc: A toolkit for morphological and dependency parsing of Hungarian. In: Proceedings of RANLP. p. 763–771 (2013)[6] Szabó, M.K.: Egy magyar nyelvű szentimentlexikon létrehozásának tapasztalatai és dilemmái. nyelv, kultúra, társadalom. In: Segédkönyvek a nyelvészet tanulmányozásához. p. 278–285 (2015)[7] Vincze, V.: Uncertainty detection in Hungarian texts. In: Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers. p. 1844–1853. Dublin City University and Association for Computational Linguistics, Dublin, Ireland (2014)[8] Szabó, M.K., Vincze, V.: Magyar nyelvű szövegek emócióelemzésének elméleti nyelvészeti és nyelvtechnológiai problémái. In: Távlatok a mai magyar alkalmazott nyelvészetben. p. 282–292. Tinta pp., Budapest (2016)

TokenekMondatok

7127

555

170

3205

6323

461

1579

1

912

32

10

13

6

Dokumentumok

telítettség

mondathossz

0 5 10 15 20

0 0,2 0,4 0,6 0,8

felsz. mondatok ar.

kérdések aránya

lemmák aránya

kijel. mondatok ar.

igék aránya

melléknevek aránya

határozószavak aránya

tulajdonnevek aránya

kötőszavak aránya

írásjelek aránya

névmások aránya

múlt idő aránya

jelen idő aránya

feltételes mód aránya

felszólító mód aránya

E/1. aránya

E/2. aránya

E/3. aránya

T/1. aránya

T/2. aránya

T/3. aránya

főnevek aránya

0 0,2 0,4 0,6 0,8

Szintaktikai jellemzők:

0 0,2 0,4 0,6 0,8

alárendelés aránya

határozók aránya

mellérendelés aránya

egyszerű mondatok ar.

összetett mondatok ar.

egy tagm. mondatok ar.

két tagm. mondatok ar.

három tagm. mondatok ar.

négy tagm. mondatok ar.