H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH...1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ...

Preview:

Citation preview

H ΠΛΗΡΟΦΟΡΙΚΗ ΣΤH ΓΛΩΣΣΑ

Ποσοτικές Προσεγγίσεις στην Επεξεργασία Σωμάτων Κειμένου

Κάτια Κερμανίδου

kerman@ionio.gr

Τι είναι ένα σώμα κειμένων (text corpus);

• Corpus = σώμα στα Λατινικά • Σώμα κειμένων είναι ένα σώμα εμφανίσεων

γλωσσολογικών στοιχείων που προκύπτουν με φυσικό τρόπο

• Συνήθως συλλέγεται με κάποιο συγκεκριμένο σκοπό και είναι αντιπροσωπευτικό μιας γλώσσας

• Χρησιμοποιείται για να – Επαληθεύσει υπάρχουσες θεωρίες και υποθέσεις

Γλωσσολογίας – Να δημιουργήσει καινούριες γλωσσολογικές

υποθέσεις – Εκτός Γλωσσολογίας, να παράσχει στοιχεία κειμενικά

σε θέματα που αφορούν σε ανθρωπιστικές και κοινωνικές επιστήμες

Ο πιο διαδεδομένος ορισμός

• “Σώμα κειμένων θεωρείται κάθε συλλογή τμημάτων μιας συγκεκριμένης γλώσσας, τα οποία επιλέγονται και διατάσσονται σύμφωνα με συγκεκριμένα γλωσσολογικά κριτήρια, έτσι ώστε να μπορούν να χρησιμοποιηθούν ως αντιπροσωπευτικό δείγμα της γλώσσας αυτής” (Sinclair, 1996)

Τι ΔΕΝ είναι ένα σώμα κειμένων (text corpus);

• Μια λίστα λέξεων (λεξικό)

• Ένα μεμονωμένο κείμενο

• Μια ΤΥΧΑΙΑ συλλογή κειμένων

Ένα σώμα κειμένων • Είναι αντιπροσωπευτικό μιας γλώσσας • Φανερώνει τι είναι σύνηθες σε μια γλώσσα • Μπορεί να δώσει ακριβείς στατιστικές μετρήσεις των

φαινομένων της γλώσσας • Αποθηκεύεται και ανακαλείται οποιαδήποτε στιγμή η

πληροφορία σε αυτό • Παρέχει φυσικά/πραγματικά παραδείγματα της γλώσσας • Αποτελεί αντικειμενικό δείγμα της χρήσης της γλώσσας • Είναι διαθέσιμο σε όλους • Μπορεί να επικαιροποιείται συνεχώς και αν αντανακλά τις

πρόσφατες αλλαγές στην γλώσσα • Δεν μπορεί να παρέχει αρνητική ένδειξη για μη δυνατά

φαινόμενα • Δεν μπορεί από μόνο του να εξηγήσει αυτά που

παρατηρούνται σε αυτό • Αποτελεί περιορισμό για την όποια έρευνα στηρίζεται σε αυτό • Eίναι πολωμένο/στρεβλωμένο (skewed) – Ν. Chomsky

Είδη σωμάτων κειμένου • Γραπτού λόγου/προφορικού λόγου

• σύγχρονα/διαχρονικά

• Γενικού σκοπού (ισορροπημένα)/εξειδικευμένα – Γενικού σκοπού: για χρήση σε εφαρμογές ανεξάρτητες

θεματικής περιοχής, π.χ. WSJ corpus

– Εξειδικευμένα: για εφαρμογές σε συγκεκριμένες θεματικές περιοχές, π.χ. chat text για ανάλυση τέτοιου είδους επικοινωνίας

• Μονόγλωσσα/Παράλληλα

• Επίπεδο επισημείωσης – Γυμνό σώμα κειμένων (raw corpus)

– Λημματοποιημένο

– Επισημειωμένες λέξεις ως προς το μέρος του λόγου

– Συντακτικά αναλυμένο

– Σημασιολογικά αναλυμένο

Επισημείωση/Annotation

• Το κείμενο φέρει φωνολογικές, γραμματικές, συντακτικές ή σημασιολογικές πληροφορίες.

• Μέθοδοι επισημείωσης – Χειρωνακτική – Αυτόματη – Ημι-αυτόματη

Επισημείωση/Annotation • Η επισημείωση μπορεί να πραγματοποιηθεί σε διάφορα

επίπεδα γλωσσολογικής γνώσης • Φωνολογικό επίπεδο

• Όρια φωνητικών συλλαβών • Στοιχεία προσωδίας

• Μορφολογικό επίπεδο • Προθέματα • Επιθέματα • Λήμματα/Θέματα • Επισημείωση μορφολογικής πληροφορίας • Μέρη του Λόγου

• Συντακτικό επίπεδο • Treebanks • Ομαδοποίηση λέξεων σε φράσεις

• Σημασιολογικό επίπεδο • Έννοιες λέξεων

• Πραγματολογικό επίπεδο • Αντωνυμικές αναφορές • Επισημείωση υφολογικών στοιχείων

Τι μπορώ να μετρήσω με ένα ΣΚ; Ωμές συχνότητες (Raw frequencies)

• Η πιο απλή ποσοτική προσέγγιση στην επεξεργασία ενός σώματος κειμένων είναι η μέτρηση των φορών που εμφανίζεται μια λέξη/φράση μέσα στο σώμα κειμένων.

• Στο παραπάνω κείμενο: – Συχνότητα(«κειμένων») = ?

– Συχνότητα («η») = ? (case-sensitive)

– Συχνότητα («η») = ? (όχι case-sensitive)

Ο Νόμος του Zipf (Zipf’s Law) • Λίγες λέξεις σε μια γλώσσα εμφανίζονται πού συχνά,

οι περισσότερες είναι σπάνιες (Νόμος του Zipf) • Σε ένα σώμα κειμένων μετράω την συχνότητα (f) των

λέξεων και τις ταξινομώ κατά φθίνουσα συχνότητα. • r = η θέση μιας λέξης στην παραπάνω κατάταξη

(rank) • O Zipf (1949) ανακάλυψε ότι f*r=k (σταθερό) Εάν ο πιο συχνός όρος (the) εμφανίζεται f φορές τότε ο δεύτερος πιο συχνός όρος (of) εμφανίζεται f/2

φορές ο τρίτος πιο συχνός όρος (and) εμφανίζεται f/3 φορές ...

Ο Νόμος του Zipf (Zipf’s Law)

Τι μπορώ να μετρήσω με ένα ΣΚ; Κανονικοποιημένες συχνότητες

(Normalized frequencies) • Στο British National Corpus ομιλίας η υβριστική λέξη

f**k εμφανίζεται 250 φορές

• Στο British National Corpus γραπτού λόγου η ίδια λέξη εμφανίζεται 500 φορές

• Βρίζουν οι άνθρωποι με διπλάσια συχνότητα στον γραπτό λόγο από ότι στον προφορικό;

• Όχι, το BNC γραπτού λόγου είναι 9 φορές μεγαλύτερο σε μέγεθος (~90 εκατ. λέξεις) από το BNC προφορικού λόγου (~10 εκατ. λέξεις)

• Κανονικοποιημένη συχνότητα στο σώμα ομιλίας: – 250/10.000.000 = x/1.000.000 => x=25

• Κανονικοποιημένη συχνότητα στο σώμα γραπτού λόγου: – 500/90.000.000 = x/1.000.000 => x=5.55

Ωμές συχνότητες (Raw frequencies) • Το πρόβλημα με τις ωμές συχνότητες είναι ότι

δεν λαμβάνουν υπόψη πώς κατανέμεται η λέξη/φράση μέσα στο σώμα κειμένων.

• Είναι ομοιόμορφα κατανεμημένη σε όλα τα μέρη του σώματος, ή εμφανίζεται κατά κύριο λόγο σε ένα μέρος και πολύ σπάνια αλλού;

• Στο British National Corpus (ΒΝC) – Οι λέξεις HIV, keeper, lively εμφανίζονται περίπου

με την ίδια συχνότητα, δηλ. ~16 φορές ανα 1 εκατ. λέξεις

– Αν χωρίσουμε το σώμα κειμένων σε 100 ισομεγέθη μέρη, τότε η λέξη HIV εμφανίζεται σε 62 από αυτά, ενώ οι λέξεις keeper & lively εμφανίζονται σε 97.

– Από αυτό συμπεραίνουμε ότι η λέξη HIV εμφανίζεται μέσα σε πιο εξειδικευμένα συμφραζόμενα.

Document Frequencies

• Έστω ότι το σώμα κειμένων απαρτίζεται από έγγραφα (documents).

• Document frequency: Ο αριθμός των εγγράφων στα οποία εμφανίζεται η λέξη

Τι μπορώ να μετρήσω με ένα ΣΚ; N-grams

N-gram: ακολουθία Ν λέξεων/χαρακτήρων σε ένα κείμενο

Τι μπορώ να μετρήσω με ένα ΣΚ; Πιθανότητες

1. P( ) = ? 2. P() = ? 3. P(red, ) = ?

4. P(blue) = ?

Τι μπορώ να μετρήσω με ένα ΣΚ; Πιθανότητες

Τι μπορώ να μετρήσω με ένα ΣΚ; Πιθανότητες

Τι μπορώ να μετρήσω με ένα ΣΚ; Δεσμευμένες (ή Υπο Συνθήκη)

Πιθανότητες

Τι μπορώ να μετρήσω με ένα ΣΚ; Δεσμευμένες (ή Υπο Συνθήκη)

Πιθανότητες

Αλυσιδωτές Πιθανότητες

Αλυσιδωτές Πιθανότητες στα ΣΚ

P(w1 w2 w3 …. wn) = P(w1) * P(w2|w1) * P(w3|w1,w2)

*…* P(wn| w1,w2…. wn-1)

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

Σύμφραση είναι μια έκφραση αποτελούμενη από δυο ή περισσότερες λέξεις, της οποίας το νόημα είναι διαφορετικό από τον συνδυασμό των νοημάτων των λέξεων που την αποτελούν: Νέα Υόρκη (ενώ ‘νέα εταιρία’;) Σκληρός δίσκος (ενώ ‘σκληρό στρώμα’;) -Δεν μπορεί να αντικατασταθεί κάποια από τις λέξεις μιας σύμφρασης από άλλη (non-substitutability) -Δεν μπορεί να συντεθεί το νόημα της σύμφρασης από το νόημα των λέξεων που την απαρτίζουν (non-compositionality) - Δεν μπορεί να μεταφραστεί μια σύμφραση σε άλλη γλώσσα λέξη προς λέξη

Οι ιδιωματικές εκφράσεις είναι ακραία παραδείγματα συμφράσεων - Πουλάει φύκια για μεταξωτές κορδέλες

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

Πώς υπολογίζω συμφράσεις σε ένα σώμα κειμένων;

Με συχνότητες; Δίπλα φαίνονται τα πιο συχνά δίγραμμα (2-grams) σε ένα ΣΚ. Εκτός από την Νέα Υόρκη, όλα τα υπόλοιπα δίγραμμα είναι ζευγάρια λειτουργικών λέξεων. Λειτουργικές λέξεις (function words) είναι οι λέξεις σε μια γλώσσα που δεν περιέχουν σημασιολογική πληροφορία, αλλά χρησιμοποιούνται για να συνδέουν τις υπόλοιπες λέξεις του κειμένου μεταξύ τους Λειτουργικές λέξεις είναι τα άρθρα, οι προθέσεις, οι σύνδεσμοι κλπ.

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

Πώς υπολογίζω συμφράσεις σε ένα σώμα κειμένων;

Με συχνότητες αν φιλτράρω τα μέρη του λόγου των λειτουργικών λέξεων; Δίπλα φαίνονται τα πιο συχνά δίγραμμα (2-grams) στο προηγούμενο ΣΚ αν κάνω το παραπάνω φιλτράρισμα.

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

Πολλές φορές οι λέξεις της σύμφρασης δεν εμφανίζονται δίπλα δίπλα:

she knocked on his door

they knocked at the door

100 women knocked on Donaldson’s door

a man knocked on the metal front door Χρησιμοποιείται -Η μέση τιμή της απόστασης των λέξεων

ΜΤ=

-Η τυπική απόκλιση της απόστασης των λέξεων

ΤΑ=

n: πόσες φορές συνεμφανίζονται οι λέξεις di: η απόσταση των λέξεων στην εμφάνιση I μ: η μέση τιμή της απόστασης των λέξεων

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

Με τους προηγούμενους τρόπους μετράω και τυχαίες συνεμφανίσεις. Πώς μπορώ να αποκλείσω την τυχαιότητα;

Έλεγχος Υποθέσεων: μετράει το κάτα πόσο έχω εμπιστοσύνη (confidence) ότι μια συγκεκριμένη συνεμφάνιση έχει συμβεί λόγω συσχέτισης των λέξεων, και όχι τυχαία.

Δημιουργώ μια μηδενική υπόθεση Η0 (null hypothesis) ότι δεν υπάρχει συσχέτιση ανάμεσα στις λέξεις που συνεμφανίζονται, και ότι η συνεμφάνιση είναι τυχαία. Αν μπορέσω να απορρίψω την μηδενική υπόθεση, τότε η συνεμφάνιση δεν είναι τυχαία και οι δυο λέξεις σχηματίζουν σύμφραση. Υπολογίζω την πιθανότητα να εμφανιστεί η συνεμφάνιση αν ισχύει η Η0. Αν η πιθανότητα αυτή είναι μικρότερη από κάποιο κάτω όριο (επίπεδο εμπιστοσύνης – confidence level) τότε απορρίπτω την Η0. Διαφορετικά θεωρώ ότι η Η0 είναι πιθανή. Επίπεδα εμπιστοσύνης: 0.05 ή 0.01 ή 0.005 ή 0.001

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ Στο προηγούμενο ΣΚ έστω ότι το ‘new’ εμφανίζεται 15828 φορές, το ‘companies’ 4675 φορές και υπάρχουν συνολικά 14307668 δίγραμμα. Η φράση ‘new companies’ εμφανίζεται 8 φορές ανάμεσα στα 14307668 δίγραμμα. Η0 : P(new companies)=P(new)P(companies) (οι δυο λέξεις δεν συσχετίζονται κι άρα η πιθανότητα εμφάνισης της μιας είναι ανεξάρτητη από την πιθανότητα εμφάνισης της άλλης)

P(new companies)=P(new)P(companies) =

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

1ο μέτρο για Έλεγχο Υποθέσεων: Τ-τεστ P(παρατηρειθήσα) = 8/14307668=5.591*10-7

Αν θέλω όριο εμπιστοσύνης 0.005, τότε η τιμή του t-test θα έπρεπε να είναι μεγαλύτερη του 2.756 για να μπορέσω να απορρίψω την μηδενική υπόθεση. Επομένως δεν μπορώ να απορρίψω την ανεξάρτητη συνεμφάνιση των δυο λέξεων, και άρα να πω ότι έχω ένδειξη ότι μπορεί να σχηματίζουν σύμφραση. Η τιμή αυτή προκύπτει από πιθανοτικούς πίνακες

999932.0

14307668

10*591.5

10*615.310*591.5

)(

)()(

7

77

N

P

HoPPt

Degrees of freedom (df)

Βαθμοί ελευθερίας =

αριθμός διγράμμων στο

ΣΚ - 1 = 14307668 – 1

= άπειρο

Επίπεδο εμπιστοσύνης

=0.005

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

2ο μέτρο για Έλεγχο Υποθέσεων: χ2

Πίνακας Σύγχυσης των παρατηρημένων συχνοτήτων εμφάνισης του δίγραμμου «w1 w2» στο ΣΚ.

a: φορές που εμφανίζεται το δίγραμμο «w1 w2» στο σώμα κειμένων b: φορές που εμφανίζεται η λέξη w1 χωρίς την w2 c: φορές που εμφανίζεται η λέξη w2 χωρίς την w1 d: φορές που δεν εμφανίζεται καμία από τις δυο λέξεις (αριθμός εμφάνισης όλων των υπολοίπων διγράμμων λέξεων στο σώμα κειμένων)

w2 ~w2

w1 a b

~w1 c d

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

2ο μέτρο για Έλεγχο Υποθέσεων: χ2

Πίνακας Σύγχυσης των αναμενόμενων συχνοτήτων εμφάνισης του δίγραμμου «w1 w2» στο ΣΚ (δηλ των συχνοτήτων εμφάνισης αν

θεωρήσω ότι δεν υπάρχει συσχέτιση ανάμεσα στις λέξεις – μηδενική υπόθεση).

x2(w1w2) = (a-e)2/e x2(w1 ~w2) = (b-f)2/f Μεγάλο πρόβλημα με τα σπάνια φαινόμενα! x2(~w1 w2) = (c-g)2/g x2(~w1~w2) = (d-h)2/h x2= x2(w1w2) + x2(w1 ~w2) + x2(~w1 w2) + x2(~w1~w2)

w2 ~w2

w1 e=(a+b)x(a+c)/(a+b+c+d) f=(a+b)x(b+d)/(a+b+c+d)

~w1 g=(c+d)x(a+c)/(a+b+c+d) h=(c+d)x(b+d)/(a+b+c+d)

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

3ο μέτρο για Έλεγχο Υποθέσεων: Log Likelihood Ratios (LL)

Ο λόγος των λογαρίθμων των πιθανοφανειών είναι ένας αριθμός που δείχνει πόσες φορές είναι πιο πιθανό να ισχύει η μηδενική υπόθεση από την μη-μηδενική (ότι δηλ υπάρχει ένδειξη συσχέτισης ανάμεσα στις δυο λέξεις) ή το αντίστροφο. Μηδενική υπόθεση: οι δυο λέξεις είναι ανεξάρτητες και η συνεμφάνισή τους είναι τυχαία. Μη μηδενική υπόθεση: οι δυο λέξεις συσχετίζονται, και υπάρχει καλή ένδειξη ότι αποτελούν σύμφραση. c1=φορές που εμφανίζεται η w1 p1= c12/c1 c2=φορές που εμφανίζεται η w2 p2=(c2-c12) /(N-c1) c12 =φορές που εμφανίζεται το δίγραμμο w1w2 p= c2/N N = το σύνολο των διγράμμων στο ΣΚ

Τι μπορώ να μετρήσω με ένα ΣΚ; Συμφράσεις (Collocations)

3ο μέτρο για Έλεγχο Υποθέσεων: Log Likelihood Ratios (LL)

Logλ = log ( L(Ho)/L(όχιΗο) ) = logL(c12, c1, p) + logL(c2-c12, N-c1, p) - logL(c12, c1, p1) - logL(c2-c12, c1, p2)

Όπου L(k, n, x) = xk (1-x)n-k

Ένα δίγραμμο είναι e0.5(-2logλ) φορές πιο πιθανό να εμφανιστεί από ότι θα εμφανιζόταν τυχαία. Το μέτρο LL είναι πιο κατάλληλο για σπάνια φαινόμενα.

Βιβλιογραφία-Δικτυογραφία

• http://www.linguistics.ucsb.edu/faculty/stgries/research/2014_STG_LevelsOfResolution_DevelopmInEnglish.pdf

• https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=4&ved=2ahUKEwinhsin7N_cAhWIHpoKHdtmCjIQFjADegQIBhAC&url=http%3A%2F%2Fwww.gloriacappelli.it%2Fwp-content%2Fuploads%2F2007%2F05%2Fcorpus-linguistics.ppt&usg=AOvVaw0X88oH3fWy86L4GQn9r4ah

• https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&ved=2ahUKEwiYycqYvpTdAhXHOSwKHR4oAmoQFjABegQIBxAC&url=http%3A%2F%2Fwww.cs.virginia.edu%2F~kc2wc%2Fteaching%2FNLP16%2Fslides%2F02-ngram.pptx&usg=AOvVaw2Tt3YEmCZ013FhOHGYR38q

• https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=5&ved=2ahUKEwjZ_Y3rzJTdAhUKMuwKHWEQD6AQFjAEegQIBhAC&url=http%3A%2F%2Fadimen.si.ehu.es%2F~rigau%2Fteaching%2FEHU%2FPLN%2FNLP-RadaMihalcea%2FLectures%2FCollocations.ppt&usg=AOvVaw2xNZq1PdMcf41ta5VF-WOx

• https://nlp.stanford.edu/fsnlp/

Recommended