Upload
natalia-ostapuk
View
482
Download
1
Embed Size (px)
Citation preview
¾Ýêñïåðòíûé¿ è ¾ñòàòèñòè÷åñêèé¿ ïîäõîäû
ê ñîöèîëîãè÷åñêîìó èññëåäîâàíèþ òåìû
â áëîãîñôåðå
ñðàâíèòåëüíûé àíàëèç
Ê. À. Ìàñëèíñêèé
ÃÓ ÂØÝ
14.10.2011
Ñâåäåíèÿ î ïðîåêòå
 äîêëàäå ïðåäñòàâëåíà ÷àñòü ðåçóëüòàòîâ ðàáîòû â ðàìêàõ
ïðîåêòà ¾Ðàçðàáîòêà ìåòîäîëîãèè ñåòåâîãî è ñåìàíòè÷åñêîãî
àíàëèçà áëîãîâ äëÿ ñîöèîëîãè÷åñêèõ çàäà÷¿. Ó÷àñòíèêè:
I Å.Þ.Êîëüöîâà (ðóêîâîäèòåëü)
I À.Â.Êèí÷àðîâà
I Ë.Â.Ïèâîâàðîâà
I Ê.À.Ìàñëèíñêèé
I Ò.Ã.Åôèìîâà
I Å.À.Òåðåùåíêî
I Þ.Â.Ïàâëîâà
I Ñ.Í.Êîëüöîâ, Ð.Ì.Áàõìóäîâ (òåõïîääåðæêà è
ïðîãðàììèðîâàíèå)
Ïëàí
Îáñóæäåíèÿ â áëîãîñôåðå
Ýêñïåðòíûé ïîäõîä
Ñòàòèñòè÷åñêèé ïîäõîä
Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
Outline
Îáñóæäåíèÿ â áëîãîñôåðå
Ýêñïåðòíûé ïîäõîä
Ñòàòèñòè÷åñêèé ïîäõîä
Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
Ìîäåëü îáñóæäåíèé â áëîãîñôåðå
Áëîãîñôåðà:
I Ñîâîêóïíîñòü òåêñòîâ
I Îïóáëèêîâàííûõ çà îïðåäåë¼ííûé ïåðèîä (ñèíõðîííûé
ñðåç)
I Êàæäûé òåêñò õàðàêòåðèçóåòñÿ òåìàòèêîé
I Îáñóæäåíèå � çíà÷èòåëüíîå ÷èñëî òåêñòîâ ñî ñõîäíîé
òåìàòèêîé
Ïîñòàíîâêà ïðîáëåìû
Çàäà÷à: èçó÷åíèå îáñóæäåíèÿ êîíêðåòíîé òåìû â áëîãîñôåðå.
Ïðîáëåìû:
I íàñêîëüêî ïðàâîìåðíî âû÷ëåíåíèå òåìû;
I êàêîå ìåñòî òåìà çàíèìàåò â ñòðóêòóðå îáñóæäåíèé â
áëîãîñôåðå.
Case study: òåìà èñëàìà â ñîâðåìåííîé ðîññèéñêîé áëîãîñôåðå
Ìàòåðèàë
Äàííûå ñîáðàíû ñ ïîìîùüþ ñïåöèàëüíî ðàçðàáîòàííîãî ÏÎ:
Koltran Blogminer
Òåñòîâàÿ êîëëåêöèÿ:
I Ïëàòôîðìà: livejournal.com (ðóññêîÿçû÷íàÿ ÷àñòü)
I Âûáîðêà: òîï-2500 æóðíàëîâ (ïî ðåéòèíãó ÆÆ)
I Ïåðèîä: 1�15 ñåíòÿáðÿ 2011
I Òîëüêî òåêñòû ïîñòîâ (áåç êîììåíòàðèåâ)
I Îáú¼ì: 19143 ïîñòà (≈4 ìëí ñëîâ)
Îáðàáîòêà òåêñòîâ
I âûäåëåíèå ñïåöèôè÷åñêîé LJ-ðàçìåòêè
I ññûëêè, èçîáðàæåíèÿ è (íåêîòîðûå) ñìàéëèêè
ïðåîáðàçîâàíû â óñëîâíûå ñëîâà
I óäàëåíèå âñåé ïðî÷åé ðàçìåòêè
I ëåììàòèçàöèÿ (mystem)
I âûáîð áîëåå ÷àñòîòíîé (èëè ïåðâîé) ëåììû
Outline
Îáñóæäåíèÿ â áëîãîñôåðå
Ýêñïåðòíûé ïîäõîä
Ñòàòèñòè÷åñêèé ïîäõîä
Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
Ïðîöåäóðà ñîñòàâëåíèÿ ñïèñêà êëþ÷åâûõ ñëîâ
1. Ïÿòåðûõ ýêñïåðòîâ â îáëàñòè èñëàìà ïîïðîñèëè íàçâàòü
íåñêîëüêî êëþ÷åâûõ ñîáûòèé ïîñëåäíåãî âðåìåíè,
ñâÿçàííûõ ñ èñëàìîì.
2. Íà îñíîâàíèè ñïèñêà ñîáûòèé áûë îñóùåñòâë¼í ïîèñê
òåêñòîâ áëîãîâ, óïîìèíàþùèõ íàçâàííûå ñîáûòèÿ (ñ
ïîìîùüþ ïîèñêà ïî áëîãàì ñèñòåìû ßíäåêñ).
3. Ïåðâûå 100 íàéäåííûõ òàêèì îáðàçîì òåêñòîâ áûëè
ïðî÷èòàíû êîäèðîâùèêàìè, êîòîðûå âûäåëèëè â íèõ
êëþ÷åâûå ôðàçû, îòíîñÿùèåñÿ ê èñëàìó.
Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç
157 êëþ÷åâûõ ôðàç:
I ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí-
Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå
áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå,
Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü
I èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà
áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà
I òåððîðèçì è ýêñòðåìèçì;
òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå
I ñîáûòèÿ
óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ
Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ
I èñëàìñêèå îðãàíèçàöèè
Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí
I ...
Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç
157 êëþ÷åâûõ ôðàç:
I ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí-
Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå
áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå,
Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü
I èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà
áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà
I òåððîðèçì è ýêñòðåìèçì;
òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå
I ñîáûòèÿ
óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ
Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ
I èñëàìñêèå îðãàíèçàöèè
Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí
I ...
Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç
157 êëþ÷åâûõ ôðàç:
I ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí-
Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå
áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå,
Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü
I èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà
áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà
I òåððîðèçì è ýêñòðåìèçì;
òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå
I ñîáûòèÿ
óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ
Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ
I èñëàìñêèå îðãàíèçàöèè
Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí
I ...
Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç
157 êëþ÷åâûõ ôðàç:
I ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí-
Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå
áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå,
Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü
I èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà
áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà
I òåððîðèçì è ýêñòðåìèçì;
òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå
I ñîáûòèÿ
óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ
Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ
I èñëàìñêèå îðãàíèçàöèè
Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí
I ...
Òåìà èñëàìà êàê ñïèñîê êëþ÷åâûõ ôðàç
157 êëþ÷åâûõ ôðàç:
I ñëîâîñî÷åòàíèÿ, âêëþ÷àþùèå îñíîâû èñëàì-, ìóñóëüìàí-
Èñëàìèçàöèÿ, èñëàìîôîá, èñëàìñêàÿ óììà, ìóñóëüìàíå
áåðóò â ðóêè îðóæèå, ìóñóëüìàíå è ïðàâîñëàâíûå,
Ìóñóëüìàíñêàÿ îáùåñòâåííîñòü
I èñëàìñêèå ðåëèãèîçíûå òåðìèíû, ïðåäìåòû îáèõîäà
áëàãîðîäíûé Êîðàí, ìîëèòâåííûé êîâðèê, Ïàðàíäæà
I òåððîðèçì è ýêñòðåìèçì;
òåððîðèñòû, áîåâèêè, àãðåññèâíî íàñòðîåííûå ìóñóëüìàíå
I ñîáûòèÿ
óáèéñòâî ïîëêîâíèêà Áóäàíîâà, Óáèéñòâî Øàìèëÿ
Äæèêàåâà, âòîðàÿ ÷å÷åíñêàÿ
I èñëàìñêèå îðãàíèçàöèè
Àëü-Êàèäà, Äóõîâíîå Óïðàâëåíèå Ìóñóëüìàí
I ...
Îòáîð òåêñòîâ èç êîëëåêöèè
I Ñïèñîê ñëîâ ëåììàòèçèðîâàí (àíàëîãè÷íî òåêñòàì)
I Ïîèñê òåêñòîâ ïî òî÷íîìó ñîâïàäåíèþ êëþ÷åâîé ôðàçû
Ïðèìåð: áðàò ïî âåðà
I Ïðîáëåìà îìîíèìèè: áîåâèêè→áîåâèê, àëëàõ→àëëà
Ðåçóëüòàò: 563 òåêñòà (èç 19143), 2.9%
Outline
Îáñóæäåíèÿ â áëîãîñôåðå
Ýêñïåðòíûé ïîäõîä
Ñòàòèñòè÷åñêèé ïîäõîä
Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
Òåìàòè÷åñêîå ìîäåëèðîâàíèåTopic modeling
Èäåÿ topic modeling:
I êàæäûé äîêóìåíò � ñìåñü êàòåãîðèé (òåì)
I òåìà � ïðåäïî÷òåíèå îïðåäåë¼ííûõ ñëîâ
I ãåíåðàòèâíàÿ ìîäåëü: ïîäîáðàòü âåðîÿòíîñòè
ðàñïðåäåëåíèÿ ñëîâ ïî òåìàì, ïðè êîòîðûõ ìîæåò áûòü
ñãåíåðèðîâàí äàííûé êîðïóñ
Ïîñòóëàòû î äàííûõ:
I êàæäûé òåêñò êàê ìåøîê ñëîâ (bag-of-words)
I àíàëèç ñîâìåñòíîé âñòðå÷àåìîñòè ñëîâ â òåêñòàõ
I Ïàðàìåòð: ÷èñëî òåì, íà êîòîðûå íóæíî ðàçáèòü
êîëëåêöèþ
Òåìàòè÷åñêîå ìîäåëèðîâàíèåTopic modeling
Èäåÿ topic modeling:
I êàæäûé äîêóìåíò � ñìåñü êàòåãîðèé (òåì)
I òåìà � ïðåäïî÷òåíèå îïðåäåë¼ííûõ ñëîâ
I ãåíåðàòèâíàÿ ìîäåëü: ïîäîáðàòü âåðîÿòíîñòè
ðàñïðåäåëåíèÿ ñëîâ ïî òåìàì, ïðè êîòîðûõ ìîæåò áûòü
ñãåíåðèðîâàí äàííûé êîðïóñ
Ïîñòóëàòû î äàííûõ:
I êàæäûé òåêñò êàê ìåøîê ñëîâ (bag-of-words)
I àíàëèç ñîâìåñòíîé âñòðå÷àåìîñòè ñëîâ â òåêñòàõ
I Ïàðàìåòð: ÷èñëî òåì, íà êîòîðûå íóæíî ðàçáèòü
êîëëåêöèþ
Stanford Topic MOdeling Toolbox
Stanford Topic Modeling Toolbox (Free Software, Java):
I Latent Dirichlet Allocation (← probabilistic Latent Semantic
Indexing)
I ýôôåêòèâíûå àëãîðèòìû:I collapsed Gibbs sampler (T. L. Gri�ths and M. Steyvers 2004)I collapsed variational Bayes approximation to the LDA objective
(Asuncion, A., Welling, M., Smyth, P. and Teh, Y. W. 2009)
I Ãðàôè÷åñêèé èíòåðôåéñ
Ðàçáèåíèå íà òåìû
òåìà1 òåìà2 òåìà3 ñóììà
òåðìèí1 0.9 0.1 0.0 = 1òåðìèí2 0.3 0.3 0.4 = 1òåðìèí3 0.1 0.3 0.6 = 1
òåìà1 òåìà2 òåìà3 ñóììà
äîêóìåíò1 0.9 0.1 0.0 = 1äîêóìåíò2 0.3 0.3 0.4 = 1äîêóìåíò3 0.1 0.3 0.6 = 1
Ðàçáèåíèå íà òåìû
òåìà1 òåìà2 òåìà3 ñóììà
òåðìèí1 0.9 0.1 0.0 = 1òåðìèí2 0.3 0.3 0.4 = 1òåðìèí3 0.1 0.3 0.6 = 1
òåìà1 òåìà2 òåìà3 ñóììà
äîêóìåíò1 0.9 0.1 0.0 = 1äîêóìåíò2 0.3 0.3 0.4 = 1äîêóìåíò3 0.1 0.3 0.6 = 1
Topic modeling â ñîöèàëüíûõ íàóêàõ
Ìàòåðèàë, íà êîòîðîì ðàáîòàåò Topic modeling:
I Íàó÷íûå ñòàòüè
I Ãàçåòû
I Áëîãè
I Ìèêðîáëîãè (twitter)
I Õóäîæåñòâåííàÿ ëèòåðàòóðà è áåëëåòðèñòèêà
Ñèíõðîííûå è äèàõðîííûå êîëëåêöèè.
Õàðàêòåðèñòèêà òåìû: 20 âåðîÿòíûõ òåðìèíîâ
âûáîð ïàðòèÿ åäèíûé ïîëèòè÷åñêèé ïóòèí íàðîäíûé âëàñòüãîëîñîâàòü ãîëîñ èçáèðàòåëü äåïóòàò ðåçóëüòàò èçáèðàòåëüíûéãîëîñîâàíèå îïðîñ ïîëèòèêà êàíäèäàò äóìà ïðåäâûáîðíûé ôðîíò
ïðàçäíèê ìîñêâà ìåðîïðèÿòèå øîó ôåñòèâàëü òîëïà ïðîéòè ïëîùàäüïàðê ñåíòÿáðü òûñÿ÷à ñïåöèàëüíûé óëèöà ñåãîäíÿ íàðîä îòìå÷àòüó÷àñòíèê äðóã èäòè ïðîõîäèòü
ñïàòü ñèäåòü äîì ïîòîì ëþáèòü êîøêà âñåãäà ñìîòðåòü óòðî íîãàêîòèê êàæäûé êîò ìóæ ëåæàòü âòîðîé ïîë õîäèòü ãîëîâà ïðèõîäèòü
íàäî äåëàòü äåíüãè ïîòîìó ñåé÷àñ íóæíûé ïîíèìàòü íóæíî ìíîãîñäåëàòü ðàáîòàòü äóìàòü ïî÷åìó âåäü áåç âîîáùå ëè êîíå÷íîíàõîäèòü äîëæíûé
Îöåíêà ÷èñëà òåì â êîëëåêöèèÏåðïëåêñèâíîñòü:
Ðèñ.: Çíà÷åíèÿ perplexity äëÿ 25�250 òåì
Ñòàáèëüíîñòü òåì
30 òåì
Topic 29 âîéíà ñøà ëèâèé âîåííûé êàääàôè àðìèÿ
àìåðèêàíñêèé íàòî ìèðîâîé èçðàèëü ïðîòèâ ñèëà ëèâèéñêèé
âîéñêî âòîðîé òóðöèÿ ïðàâèòåëüñòâî ñîëäàò âëàñòü àìåðèêàíåö
100 òåì
Topic 083 ëèâèé êàääàôè ëèâèéñêèé íàòî âîéíà ïîâñòàíåö
òðèïîëè âîåííûé ñèëà ñèðèÿ ïðîòèâ ðåæèì ìÿòåæíèê
ïîëêîâíèê ïîòåðÿ âëàñòü óáèâàòü îîí ñîâåò âçÿòü
225 òåì
Topic 186 ëèâèé êàääàôè ëèâèéñêèé íàòî ïîâñòàíåö òðèïîëè
âîéíà ìÿòåæíèê âîåííûé ïðîòèâ ïîòåðÿ ïîëêîâíèê ñèëà ñèðèÿ
ñîâåò óáèâàòü èíôîðìàöèÿ ÏÍÑ âàëèä ïëåìÿ
Outline
Îáñóæäåíèÿ â áëîãîñôåðå
Ýêñïåðòíûé ïîäõîä
Ñòàòèñòè÷åñêèé ïîäõîä
Ñðàâíèòåëüíûé àíàëèç ðåçóëüòàòîâ
Èñëàì è äðîáíîñòü òåìàòè÷åñêîãî äåëåíèÿ
Âåñ òåìû â âûáîðêå: ñóììà ñòîëáöà âåðîÿòíîñòåé
(ïðèíàäëåæíîñòè äîêóìåíòîâ ê äàííîé òåìå)
Ñðàâíåíèå âåñà òåìû â êîëëåêöèè è â èñëàìñêîé âûáîðêå:
Mann-Whitney test, p < 0, 001.îáùåå êîë-âî òåì çíà÷èìûõ â èñëàìñêîé âûáîðêå äîëÿ
30 7 0,23
100 40 0,40
150 53 0,35
225 75 0,33
Çíà÷èìûå òåìû èñëàìñêîé âûáîðêè: 30
Ïðè ðàçáèåíèè íà 30 òåì:
I âîéíà (ñîáûòèÿ â Ëèâèè),
I íàöèîíàëüíûå âîïðîñû,
I òåðàêò 11 ñåíòÿáðÿ,
I ðåëèãèÿ è öåðêîâü,
I êðèìèíàë è ïðàâîñóäèå
Çíà÷èìûå òåìû èñëàìñêîé âûáîðêè: 100
Ïðè ðàçáèåíèè íà 100 òåì:
I òåðàêò 11 ñåíòÿáðÿ
I ïèñüìî ñòóäåíòîâ ÌÃÓÊ î ìóñóëüìàíñòâå â âóçå (?)
I ÑØÀ, âîéíà â Èðàíå
I Èçðàèëü-Òóðöèÿ
I ñîáûòèÿ â Ëèâèè
I âëàñòü�ãîñóäàðñòâî�îáùåñòâî
I îòäåëåíèå Ñåâåðíîãî Êàâêàçà
I íàöèñòû
Çíà÷èìûå òåìû èñëàìñêîé âûáîðêè: 150
Ïðè ðàçáèåíèè íà 150 òåì:
I òåðàêò 11 ñåíòÿáðÿ
I Èçðàèëü-Òóðöèÿ
I Äàãåñòàí
I ñîáûòèÿ â Ëèâèè
I ïèñüìî ñòóäåíòîâ ÌÃÓÊ î ìóñóëüìàíñòâå â âóçå (?)
I íàöèîíàëüíûé âîïðîñ (¾ðóññêèé íàðîä¿)
I âûñêàçûâàíèå Ìåäâåäåâà îá ýêñòðåìèçìå íà ßðîñëàâñêîì
ôîðóìå
I ×å÷íÿ
I âîéíû ÑØÀ
I íàöèñòû
Âûâîäû
I Òåìà èñëàìà ñòàòèñòè÷åñêè íå âû÷ëåíÿåòñÿ êàê öåëîñòíàÿ.
I Topic modeling ïîçâîëÿåò âûÿâèòü îáñóæäàåìûå â áëîãàõ
ñîáûòèÿ, ñâÿçàííûå ñ ïðîáëåìíûì ïîëåì èñëàìà.
I Ñ ïîìîùüþ topic modeling íàèáîëåå ïîëíàÿ õàðàêòåðèñòèêà
òåìàòèêè áëîãîâ âûÿâëÿåòñÿ ïðè ñîïîñòàâëåíèè ðàçáèåíèé
íà ðàçíîå ÷èñëî òåì.