45
1 ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ Διδάσκων: Καθηγητής Σαράντος Διδάσκων: Καθηγητής Σαράντος Καπιδάκης Καπιδάκης Εργασία: Εργασία: Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης The PEKING project The PEKING project Γεράσιμος Τουρκογιάννης Γεράσιμος Τουρκογιάννης gtourkog gtourkog @ @ cc cc . . uoa uoa . . gr gr

ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

  • Upload
    talon

  • View
    52

  • Download
    0

Embed Size (px)

DESCRIPTION

ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ. Διδάσκων: Καθηγητής Σαράντος Καπιδάκης Εργασία: Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής Βιβλιοθήκης The PEKING project Γεράσιμος Τουρκογιάννης gtourkog @ cc . uoa . gr. Θεματική Ενότητα :. - PowerPoint PPT Presentation

Citation preview

Page 1: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

11

ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ Διδάσκων: Καθηγητής Σαράντος Διδάσκων: Καθηγητής Σαράντος

ΚαπιδάκηςΚαπιδάκης Εργασία:Εργασία: Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε

πολυγλωσσικό περιβάλλον Ψηφιακής πολυγλωσσικό περιβάλλον Ψηφιακής ΒιβλιοθήκηςΒιβλιοθήκης

The PEKING projectThe PEKING project Γεράσιμος ΤουρκογιάννηςΓεράσιμος Τουρκογιάννης gtourkoggtourkog@@cccc..uoauoa..grgr

Page 2: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

22

Θεματική Ενότητα :Θεματική Ενότητα :Αυτόματη Ταξινόμηση και Αυτόματη Ταξινόμηση και

ΕυρετηρίασηΕυρετηρίαση

Page 3: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

33

ECDL2003-Session 3bECDL2003-Session 3bNorwayNorway

Automatic classification and Automatic classification and indexingindexing

Page 4: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

44

Automatic classification and Automatic classification and indexingindexingΆρθρα και παρουσιάσεις από το ΣυνέδριοΆρθρα και παρουσιάσεις από το Συνέδριο

• Cross-Lingual Text Categorization. Cross-Lingual Text Categorization. Nuria Nuria Bel, Cornelis H.A.Koster and Marta Bel, Cornelis H.A.Koster and Marta VillegasVillegas

• Automatic multi-label subject indexing in Automatic multi-label subject indexing in a multilingual environment. a multilingual environment. Boris Lauser Boris Lauser and Andreas Hotho and Andreas Hotho

Page 5: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

55

Automatic classification and Automatic classification and indexingindexing• Αυτοματοποιημένη κατηγοριοποίηση Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό κειμένου σε πολυγλωσσικό

περιβάλλονπεριβάλλον Ψηφιακής ΒιβλιοθήκηςΨηφιακής Βιβλιοθήκης.. Automated Text Categorization (ATC)Automated Text Categorization (ATC)

Page 6: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

66

Περιεχόμενα ΠαρουσίασηςΠεριεχόμενα Παρουσίασης

• ΟρισμοίΟρισμοί• ΕφαρμογήΕφαρμογή• ΑρχιτεκτονικήΑρχιτεκτονική• Τρέχουσες εφαρμογέςΤρέχουσες εφαρμογές• Σχόλια - Παρατηρήσεις – ερωτήσειςΣχόλια - Παρατηρήσεις – ερωτήσεις• ΣυμπεράσματαΣυμπεράσματα

Page 7: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

77

σχηματικό πλαίσιο εννοιώνσχηματικό πλαίσιο εννοιών ευρετηρίαση—ταξινόμηση ευρετηρίαση—ταξινόμηση (κατηγοριοποίηση με γλωσσική ανάλυση κειμένων)(κατηγοριοποίηση με γλωσσική ανάλυση κειμένων)

αναζήτηση πληροφορίαςαναζήτηση πληροφορίας ανάκτησηανάκτηση

ακρίβεια και ανάκλησηακρίβεια και ανάκληση

Page 8: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

88

Σχηματική παράσταση Σχηματική παράσταση διεργασιώνδιεργασιών

Page 9: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

99

Αυτοματοποιημένη κατηγοριοποίηση Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλονκειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής ΒιβλιοθήκηςΨηφιακής ΒιβλιοθήκηςΤι είναι;Τι είναι;• η η αυτόματη ευρετηρίασηαυτόματη ευρετηρίαση είναι η απλή είναι η απλή

προέλευση των λέξεων κλειδιών από έναπροέλευση των λέξεων κλειδιών από ένα κείμενο και η παροχή πρόσβασης σε όλες κείμενο και η παροχή πρόσβασης σε όλες εκείνες τις λέξεις.εκείνες τις λέξεις.

• τα πιο σύνθετα τα πιο σύνθετα αυτόματα συστήματα αυτόματα συστήματα ευρετηρίασηςευρετηρίασης προσπαθούν να επιλέξουν τους προσπαθούν να επιλέξουν τους ελεγχόμενους όρους λεξιλογίου (ελεγχόμενους όρους λεξιλογίου (θησαυρόςθησαυρός) ) βασισμένους στους όρους του κειμένου.βασισμένους στους όρους του κειμένου.

Page 10: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

1010

Αυτοματοποιημένη κατηγοριοποίηση Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλονκειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής ΒιβλιοθήκηςΨηφιακής Βιβλιοθήκης

Τι είναι;Τι είναι;• Η Η αυτόματη ταξινόμησηαυτόματη ταξινόμηση προσπαθεί να προσπαθεί να ομαδοποιήσει αυτόματα παρόμοια κείμενα ομαδοποιήσει αυτόματα παρόμοια κείμενα χρησιμοποιώντας είτε : χρησιμοποιώντας είτε :

1. μια πλήρως αυτόματη μέθοδο 1. μια πλήρως αυτόματη μέθοδο clusteringclustering

2. ένα καθιερωμένο σχήμα ταξινόμησης και 2. ένα καθιερωμένο σχήμα ταξινόμησης και ένα σύνολοένα σύνολο κειμένων που είναι ήδη κειμένων που είναι ήδη ευρετηριασμένα από το σχήμαευρετηριασμένα από το σχήμα

Page 11: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

1111

Αυτοματοποιημένη κατηγοριοποίηση Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλονκειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής ΒιβλιοθήκηςΨηφιακής Βιβλιοθήκης

Τι είναι;Τι είναι;• η η αυτοματοποιημένη κατηγοριοποίηση κειμένωναυτοματοποιημένη κατηγοριοποίηση κειμένων είναι είναι

η διαδικασία της δημιουργίας εργαλείων λογισμικού η διαδικασία της δημιουργίας εργαλείων λογισμικού ικανών να ταξινομούν τα κείμενα ή τα υπερκείμενα ικανών να ταξινομούν τα κείμενα ή τα υπερκείμενα ((hypertexts) hypertexts) κάτω από προκαθορισμένες κατηγορίες ή κάτω από προκαθορισμένες κατηγορίες ή θεματικούς κώδικες θεματικούς κώδικες

• ClusteringClustering είναι η διαδικασία της ομαδοποίησης είναι η διαδικασία της ομαδοποίησης κειμένων βασισμένων στην ομοιότητα των λέξεων ή κειμένων βασισμένων στην ομοιότητα των λέξεων ή των εννοιών των τεκμηρίων όπως ερμηνεύεται από των εννοιών των τεκμηρίων όπως ερμηνεύεται από μια αναλυτική μηχανή. Αυτές οι μηχανές μια αναλυτική μηχανή. Αυτές οι μηχανές χρησιμοποιούν σύνθετους αλγορίθμους όπως χρησιμοποιούν σύνθετους αλγορίθμους όπως Επεξεργασία Φυσικής Γλώσσας (Επεξεργασία Φυσικής Γλώσσας (Natural Language Natural Language ProcessingProcessing), ), Latent Semantic Analysis, Bayesian Latent Semantic Analysis, Bayesian statistical analysisstatistical analysis και άλλους.και άλλους.

Page 12: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

1212

Αυτοματοποιημένη κατηγοριοποίηση Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλονκειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής ΒιβλιοθήκηςΨηφιακής ΒιβλιοθήκηςΓιατί;Γιατί;• Αντιμετωπίζοντας την Αντιμετωπίζοντας την υπερπληροφόρησηυπερπληροφόρηση με την με την

κατηγοριοποίηση κειμένωνκατηγοριοποίηση κειμένωνΕίτεΕίτε• Δημιουργώντας υψηλής ποιότητας εργαλεία για Δημιουργώντας υψηλής ποιότητας εργαλεία για αναζήτησηαναζήτηση

σε μια μη δομημένη βάση τεκμηρίων π.χ. σε μια μη δομημένη βάση τεκμηρίων π.χ. WebWeb. Αυτή είναι η . Αυτή είναι η συνήθης απάντηση από την συνήθης απάντηση από την αναζήτηση ενός κειμένουαναζήτηση ενός κειμένου μέσω μέσω crawlercrawler

ΕίτεΕίτε• Δημιουργώντας υψηλής ποιότητας εργαλεία για τη Δημιουργώντας υψηλής ποιότητας εργαλεία για τη δόμησηδόμηση

μιας βάσης τεκμηρίων σε μια Ψηφιακή Βιβλιοθήκη. Αυτή μιας βάσης τεκμηρίων σε μια Ψηφιακή Βιβλιοθήκη. Αυτή είναι η απάντηση από την είναι η απάντηση από την αυτοματοποιημένη αυτοματοποιημένη κατηγοριοποίηση κειμένου κατηγοριοποίηση κειμένου (ATC)(ATC)

Page 13: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

1313

Αυτοματοποιημένη κατηγοριοποίηση Αυτοματοποιημένη κατηγοριοποίηση κειμένου σε πολυγλωσσικό περιβάλλονκειμένου σε πολυγλωσσικό περιβάλλον Ψηφιακής ΒιβλιοθήκηςΨηφιακής Βιβλιοθήκης

Πώς;Πώς;Με τρέχουσες εφαρμογές π.χ.:Με τρέχουσες εφαρμογές π.χ.:PEKINGPEKING projectprojectΑκρωνύμιο τουΑκρωνύμιο τουPEPEople and ople and KKnowledge Cross-Lingual nowledge Cross-Lingual

ININformation formation GGatheringathering

www.interpeking.comwww.interpeking.com

Page 14: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

1414

επεξεργασία εγγράφουεπεξεργασία εγγράφου

Page 15: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

1515

Γλωσσολογική Διαχείριση Γλωσσολογική Διαχείριση ΓνώσηςΓνώσης

Page 16: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

1616

PEKINGPEKING (1/ (1/66))

ΓενικάΓενικά• Είναι ένα σύστημα, πρόγραμμα, έργο Ψηφιακής ΒιβλιοθήκηςΕίναι ένα σύστημα, πρόγραμμα, έργο Ψηφιακής Βιβλιοθήκης• Μια πρωτοβουλία Μια πρωτοβουλία ((Initiative)Initiative) στην Ε.Ε.στην Ε.Ε.• Συνεργάτες από Ισπανία, Ιταλία και Ολλανδία σε τομείς όπως: Συνεργάτες από Ισπανία, Ιταλία και Ολλανδία σε τομείς όπως: κέντρα τεκμηρίωσης κέντρα τεκμηρίωσης διαχείρισης πληροφοριών διαχείρισης πληροφοριών προμηθευτές τεχνολογίαςπρομηθευτές τεχνολογίας• Γλωσσική Διαχείριση Γνώσης Γλωσσική Διαχείριση Γνώσης ((KM)KM) 11.. Γλωσσική Κατηγοριοποίηση κειμένου Γλωσσική Κατηγοριοποίηση κειμένου (Document (Document

Management)Management) 2.2. Διαγλωσσική επεξεργασία Διαγλωσσική επεξεργασία 3. 3. Σιωπηρή γνώση χρηστώνΣιωπηρή γνώση χρηστών ( (Tacit Knowledge)Tacit Knowledge) 4. 4. Πλατφόρμα ανάπτυξης για διαγλωσσική συλλογή πληροφοριών και Πλατφόρμα ανάπτυξης για διαγλωσσική συλλογή πληροφοριών και

διαχείριση γνώσηςδιαχείριση γνώσης

Page 17: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

1717

PEKING (2/6)PEKING (2/6)Σκοπός:Σκοπός:

• Διαγλωσσική Ανάκτηση Πληροφοριών Διαγλωσσική Ανάκτηση Πληροφοριών Cross-Lingual Information Retrieval Cross-Lingual Information Retrieval

(CLIR)(CLIR)

Page 18: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

1818

PEKING (3/6)PEKING (3/6)• Διαγλωσσική Κατηγοριοποίηση ΚειμένωνΔιαγλωσσική Κατηγοριοποίηση Κειμένων Cross-Lingual Text Categorization (CLTC)Cross-Lingual Text Categorization (CLTC) με 3 πολιτικές μετάφρασης:με 3 πολιτικές μετάφρασης:1.1. Μετάφραση εγγράφουΜετάφραση εγγράφου2.2. Μετάφραση ορολογίαςΜετάφραση ορολογίας3.3. Μετάφραση κατ’ επιλογή Μετάφραση κατ’ επιλογή με 2 πρακτικές μοντέλων:με 2 πρακτικές μοντέλων:1.1. Πολύγλωσση εκπαίδευση μηχανήςΠολύγλωσση εκπαίδευση μηχανής2.2. Διαγλωσσική εκπαίδευση μηχανήςΔιαγλωσσική εκπαίδευση μηχανής

Page 19: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

1919

PEKING (4/6)PEKING (4/6)• Ένας ταξινομητής Ένας ταξινομητής ((classifier)classifier) είναι είναι

εκπαιδευμένος να ταξινομεί έγγραφα σε εκπαιδευμένος να ταξινομεί έγγραφα σε πολλές γλώσσεςπολλές γλώσσες

• LCS LCS ((Linguistic Classification System) Linguistic Classification System) μηχανή ταξινόμησηςμηχανή ταξινόμησης

• ““ΠολύΠολύ--ταξινόμησηταξινόμηση”” έναντι έναντι ““μονόμονό--ταξινόμησηςταξινόμησης””• Με τη βοήθεια 2 αλγόριθμων των Με τη βοήθεια 2 αλγόριθμων των Winnow Winnow και και

RocchioRocchio

Page 20: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

2020

• LCS LCS ((Linguistic Classification System) Linguistic Classification System) μηχανή ταξινόμησηςμηχανή ταξινόμησης

Another example: the infamous noun phraseAnother example: the infamous noun phrase'the Hillary Clinton health care bill proposal'the Hillary Clinton health care bill proposal', resulting', resulting(with some effort) in the HM frame (with some effort) in the HM frame [[proposal, [bill, [care, health]]], [Clinton, Hillary]] which [[proposal, [bill, [care, health]]], [Clinton, Hillary]] which

(omitting the single heads) will be unnested to the set of (omitting the single heads) will be unnested to the set of HM pairs HM pairs

[ "proposal", "bill" ] [ "bill", "care" ] [ "care", "health" ] [ "proposal", "bill" ] [ "bill", "care" ] [ "care", "health" ] [ "proposal", "Clinton" ] [ "Clinton", "Hillary" ] [ "proposal", "Clinton" ] [ "Clinton", "Hillary" ]

Page 21: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

2121

PEKINGPEKING ( (55//66))ΕΦΑΡΜΟΓΗ σε ποιο υλικό;ΕΦΑΡΜΟΓΗ σε ποιο υλικό;• ILO corpusILO corpus : : International LaborInternational Labor Organization Organization ((Σώμα κειμένωνΣώμα κειμένων του Διεθνούς Οργανισμού Εργασίας)του Διεθνούς Οργανισμού Εργασίας)• 2165 έγγραφα στην αγγλική και 2165 έγγραφα στην αγγλική και • 1590 έγγραφα στην ισπανική γλώσσα1590 έγγραφα στην ισπανική γλώσσα• Επισκόπηση Επισκόπηση ILOILO

Page 22: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

2222

12 κατηγορίες ταξινόμησης12 κατηγορίες ταξινόμησης ((μια για κάθε έγγραφο)μια για κάθε έγγραφο)

Page 23: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

2323

PEKING (6/6)PEKING (6/6)Επεξεργασία φυσικής γλώσσας (Επεξεργασία φυσικής γλώσσας (NLP) NLP) στο κείμενο-στο κείμενο-

πηγή που χαρακτηρίζεται γραμματικώς και πηγή που χαρακτηρίζεται γραμματικώς και λημματοποιείται, πώς; λημματοποιείται, πώς;

• Μορφολογική ανάλυσηΜορφολογική ανάλυση ( (τύπος του όρου, ρήμα κλπ)τύπος του όρου, ρήμα κλπ)• Λεξική ανάλυση (τι μέρος του λόγου, γραμματικός Λεξική ανάλυση (τι μέρος του λόγου, γραμματικός

χαρακτηριστής - χαρακτηριστής - tagger)tagger) • Συντακτική ανάλυση Συντακτική ανάλυση • Φρασεολογική ανάλυση Φρασεολογική ανάλυση • Σημασιολογική ανάλυσηΣημασιολογική ανάλυση• Πραγματολογική ανάλυσηΠραγματολογική ανάλυση

Page 24: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

2424

Αυτόματη Κατηγοριοποίηση Κειμένου Αυτόματη Κατηγοριοποίηση Κειμένου ((ATC)ATC)Επεξεργασία με τις ακόλουθες τεχνολογίες:Επεξεργασία με τις ακόλουθες τεχνολογίες:• Γλωσσολογικές μέθοδοιΓλωσσολογικές μέθοδοι για για Ακρίβεια στην Ανάκτηση ΠληροφοριώνΑκρίβεια στην Ανάκτηση Πληροφοριών (IR) (IR)και στην Εξαγωγή Πληροφορίας (και στην Εξαγωγή Πληροφορίας (Information Extraction)Information Extraction)• Υπολογιστική γλωσσολογία Υπολογιστική γλωσσολογία (Computational Linguistics)(Computational Linguistics)• Μηχανική Μετάφραση Μηχανική Μετάφραση (Machine Translation)(Machine Translation)• Γλωσσική Τεχνολογία (Γλωσσική Τεχνολογία (Language Technology)Language Technology)• Ικανότητα μηχανών για εκμάθηση (Ικανότητα μηχανών για εκμάθηση (Machine Learning Methods)Machine Learning Methods)• Διαδικασία λέξεων διανύσματος (Διαδικασία λέξεων διανύσματος (word vector word vector

processing)processing)

Page 25: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

2525

Από το ελληνικό έργο Από το ελληνικό έργο «Σχηματοποίηση»«Σχηματοποίηση» γλωσσικός έλεγχος γλωσσικός έλεγχος

Page 26: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

2626

Λεξική ανάλυσηΛεξική ανάλυση (tokens) (tokens)

Page 27: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

2727

Γραμματικός και συντακτικός χαρακτηρισμός Γραμματικός και συντακτικός χαρακτηρισμός κειμένουκειμένου

Page 28: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

2828

Από το έργο «Έλλογον»Από το έργο «Έλλογον»

Page 29: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

2929

Δενδρική γλωσσολογική ανάλυση Δενδρική γλωσσολογική ανάλυση πρότασηςπρότασης

Page 30: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

3030

Σχηματική γλωσσολογική Σχηματική γλωσσολογική ανάλυσηανάλυση

Page 31: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

FAO of the UN

Library and Documentation

Systems Division

ECDL 2003Trondheim

August 2003

Automatic Text CategorizationWord Vector Representation

The rice production……India…farmers grow…water irrigation…produce rice flour and…new productionlines…

Document

TheRiceProducIndiaFarmerGrowWaterIrrigationFlourAndNew Line

123111111111

Word Vector

Wordstemming

Introduction

AutomaticIndexing

Evaluation

Outlook

Discussion

Page 32: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

FAO of the UN

Library and Documentation

Systems Division

ECDL 2003Trondheim

August 2003

Automatic Text Categorization

Class c

Class ĉ

Document word vectors

Maximum Margin Hyperplane

Binary Support Vector Machines

Introduction

AutomaticIndexing

Evaluation

Outlook

Discussion

Page 33: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

FAO of the UN

Library and Documentation

Systems Division

ECDL 2003Trondheim

August 2003

Automatic Text CategorizationWord Vector Processing

TheRiceProducIndiaFarmerGrowWaterIrrigationFlourAndNew Line

123111111111

Word Vector

RiceProducIndiaFarmerGrowWaterIrrigationFlourLine

231111111

Word Vector

RiceProduc

23

Word Vector

PruningStopwords

Introduction

AutomaticIndexing

Evaluation

Outlook

Discussion

Page 34: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

FAO of the UN

Library and Documentation

Systems Division

ECDL 2003Trondheim

August 2003

Automatic Text CategorizationIntegration of Background Knowledge

Word vector with ontology integration

RiceProduc

23

RiceProducRiceCerealsRice flour

23222

Concepts!Add

Other strategies:• Replace• Only (document is represented only by its concepts language independent!)

ParameterMaximum Integration Depth: 1

Integrationstrategy

Introduction

AutomaticIndexing

Evaluation

Outlook

Discussion

Page 35: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

3535

Ευρωπαϊκά έργα στην Γλωσσική Τεχνολογία Ευρωπαϊκά έργα στην Γλωσσική Τεχνολογία (1/2)(1/2)

Page 36: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

3636

Ευρωπαϊκά έργα στην Γλωσσική Τεχνολογία Ευρωπαϊκά έργα στην Γλωσσική Τεχνολογία (2/2) τεχνολογίες φωνής, επεξεργασίας (2/2) τεχνολογίες φωνής, επεξεργασίας κειμένου και ΔΓ στην παγκόσμια αγοράκειμένου και ΔΓ στην παγκόσμια αγορά

Page 37: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

3737

Ελληνικοί οργανισμοί που Ελληνικοί οργανισμοί που συμμετέχουν στην Γλωσσική συμμετέχουν στην Γλωσσική Τεχνολογία με έργαΤεχνολογία με έργα• Ινστιτούτο Επεξεργασία του Λόγου Ινστιτούτο Επεξεργασία του Λόγου

(οικΟΝΟΜίΑ, (οικΟΝΟΜίΑ, METIS, UNL, EuroMATMETIS, UNL, EuroMAT))• Γενική Γραμματεία Έρευνας και Γενική Γραμματεία Έρευνας και

Τεχνολογίας Τεχνολογίας • ΕΚΕΦΕ «Δημόκριτος» ΕΚΕΦΕ «Δημόκριτος»

(Σχηματοποίηση,(Σχηματοποίηση, Ellogon, Ellogon, ΜΙΤΟΣ, ΜΙΤΟΣ, Greek Information Extraction GUIGreek Information Extraction GUI))

Page 38: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

3838

Γλωσσική Τεχνολογία με Ελληνικές Γλωσσική Τεχνολογία με Ελληνικές εφαρμογές : ελληνικό εστιακό σημείοεφαρμογές : ελληνικό εστιακό σημείο

Page 39: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

3939

Το παράδειγμα του Εργαστηρίου Το παράδειγμα του Εργαστηρίου Τεχνολογίας γνώσεων και λογισμικού (Τεχνολογίας γνώσεων και λογισμικού (SKEL) SKEL) ΔημόκριτοςΔημόκριτος

Page 40: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

4040

Ελληνική εμπορική ιδιωτική Ελληνική εμπορική ιδιωτική πρωτοβουλία πρωτοβουλία intargetintarget

Page 41: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

4141

WebliographyWebliography• www.htlcentral.orgwww.htlcentral.org• www.interpeking.comwww.interpeking.com• http://www.iit.demokritos.gr/skel/Ellogon/http://www.iit.demokritos.gr/skel/Ellogon/• http://www.cs.kun.nl/peking/ecdl03.pdfhttp://www.cs.kun.nl/peking/ecdl03.pdf• http://www.aifb.uni-karlsruhe.de/WBS/aho/pub/lauhttp://www.aifb.uni-karlsruhe.de/WBS/aho/pub/lau

serhothoecdl03.pdfserhothoecdl03.pdf• http://www.ilsp.gr/euromap.htmlhttp://www.ilsp.gr/euromap.html• http://194.219.21.163/index/ie/index.asphttp://194.219.21.163/index/ie/index.asp• www.cs.kun.nl/pekingwww.cs.kun.nl/peking

Page 42: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

4242

Ευχαριστίες στον καθηγητή Ευχαριστίες στον καθηγητή Kees Kees KosterKoster

Page 43: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

4343

σας ευχαριστώ!

Page 44: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

4444

Προβληματισμοί-συζήτησηΠροβληματισμοί-συζήτηση• Αποτελεί απειλή για τον επιστήμονα της Αποτελεί απειλή για τον επιστήμονα της

πληροφόρησης ο αυτόματος ταξινομητής / πληροφόρησης ο αυτόματος ταξινομητής / ευρετηριαστής ενός συστήματος;ευρετηριαστής ενός συστήματος;

• Στην κοινωνία της πληροφόρησης που όλα Στην κοινωνία της πληροφόρησης που όλα αλλάζουν το προσωπικό και τα εργαλεία των αλλάζουν το προσωπικό και τα εργαλεία των βιβλιοθηκών προσαρμόζονται σε νέες βιβλιοθηκών προσαρμόζονται σε νέες διαγλωσσικές τεχνολογίες;διαγλωσσικές τεχνολογίες;

• Στο πολυγλωσσικό περιβάλλον της Ε.Ε. η Στο πολυγλωσσικό περιβάλλον της Ε.Ε. η ελληνική γλώσσα θα παραμείνει ανεπηρέαστη ελληνική γλώσσα θα παραμείνει ανεπηρέαστη στη διαχείριση / ανταλλαγή της γνώσης; στη διαχείριση / ανταλλαγή της γνώσης;

Page 45: ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

4545

•Τελικά το χάσμα μεταξύ των γλωσσών θα Τελικά το χάσμα μεταξύ των γλωσσών θα γεφυρωθεί;γεφυρωθεί;