19
ΘΕΜΑ : A Comparison of On-line Computer Science Citation Databases ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ:Υπηρεσίες Πληροφόρησης σε Ψηφιακό Περιβάλλον ΜΑΘΗΜΑ :Ψηφιακές Βιβλιοθήκες Επιμέλεια:Μπαλαλή Κυριακή

ΘΕΜΑ : A Comparison of On-line Computer Science Citation Databases

  • Upload
    abiba

  • View
    34

  • Download
    1

Embed Size (px)

DESCRIPTION

ΘΕΜΑ : A Comparison of On-line Computer Science Citation Databases. ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ:Υπηρεσίες Πληροφόρησης σε Ψηφιακό Περιβάλλον ΜΑΘΗΜΑ :Ψηφιακές Βιβλιοθήκες Επιμέλεια:Μπαλαλή Κυριακή. Εισαγωγή(1). - PowerPoint PPT Presentation

Citation preview

Page 1: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

ΘΕΜΑ : A Comparison of On-line Computer Science Citation Databases

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ:Υπηρεσίες Πληροφόρησης σε Ψηφιακό Περιβάλλον ΜΑΘΗΜΑ :Ψηφιακές ΒιβλιοθήκεςΕπιμέλεια:Μπαλαλή Κυριακή

Page 2: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

6/2/2008 Μπαλαλή Κυριακή 2

Εισαγωγή(1)

Υπάρχουν διάφορες δωρεάν on-line βιβλιογραφικές βάσεις δεδομένων για την επιστήμη των υπολογιστών.

Παρουσιάζουν τις αναφορές που έχουν γίνει για ένα συγκεκριμένο άρθρο από άλλες μεταγενέστερες εργασίες.

Μπορεί να είναι είτε αυτοαναφορές του συγγραφέα είτε αναφορές τρίτων.

συλλέγουν άρθρα, τα ευρετηριάζουν και τα εμπλουτίζουν με μεταδεδομένα(metadata).

Page 3: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

6/2/2008 Μπαλαλή Κυριακή 3

Εισαγωγή(2)

Δυο δημοφιλείς on-line βιβλιογραφικές βάσεις είναι η CiteSeer και η DBLP.

Στη CiteSeer οι καταχωρήσεις γίνονται αυτόματα μέσω ενός crawler που ψάχνει στον Παγκόσμιο Ιστό.

Στη DBLP τα δεδομένα καταχωρούνται διά χειρός από διάφορα γκρουπ εθελοντών ή από προσλαμβανομένους μαθητές

Οι εισαγωγές λαμβάνονται από πρακτικά συνεδρίων και

εφημερίδες/ περιοδικά

Page 4: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

6/2/2008 Μπαλαλή Κυριακή 4

Η βάση δεδομένων DBLPDataBase systems and Logic Programming ή Digital Bibliography & Library Project

Δημιουργήθηκε από τον Michael Ley το 1998. Σήμερα ευρετηριάζει πάνω 955.000 άρθρα της επιστήμης των

υπολογιστών από περίπου 368.000 συγγραφείς. Παρέχει χιλιάδες links σε αρχικές σελίδες επιστημόνων της

πληροφορικής. Είναι ένας βιβλιογραφικός server και δεν αποτελεί αποθετήριο

τεκμηρίων.

Page 5: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

6/2/2008 Μπαλαλή Κυριακή 5

Η βάση δεδομένων CiteSeer

Δημιουργήθηκε το 1997-1998 από τους K. Bollacker, L. Giles, και S. Lawrence στο Ερευνητικό Κέντρο NEC στο Πανεπιστήμιο Πρίνστον των ΗΠΑ.

Είναι ψηφιακή βιβλιοθήκη και μηχανή αναζήτησης που εστιάζει στην επιστήμη των πληροφοριών και των υπολογιστών.

Στόχος της είναι να βελτιώσει τη διάχυση και την ανατροφοδότηση της επιστημονικής λογοτεχνίας καθώς και να επιφέρει βελτιώσεις στη λειτουργικότητα, χρηστικότητα, διαθεσιμότητα, το κόστος, την περιεκτικότητα, και την επικαιρότητα της πρόσβασης στην επιστημονική γνώση.

Page 6: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

6/2/2008 Μπαλαλή Κυριακή 6

Η βάση δεδομένων CiteSeer

Είναι η πρώτη βάση δεδομένων που εφάρμοσε την αυτόνομη ευρετηρίαση αναφορών ACI(Autonomous citation indexing)

Η CiteSeer αποτελείται από τρία βασικά συστατικά:

1. από έναν εστιασμένο crawler (focused crawler)

2. από το αρχείο των ντοκουμέντων (document archive)

3. και από ένα ειδικευμένο ευρετήριο (specialized index) και την διεπαφή ερωτήσεων (query interface).

Page 7: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

6/2/2008 Μπαλαλή Κυριακή 7

Η βάση δεδομένων CiteSeer

Ο εστιασμένος crawler ψάχνει στον Ιστό για σχετικά ντοκουμέντα σε μορφή PDF και PostScript. Μετά το φιλτράρισμα γίνεται η ευρετηρίαση χρησιμοποιώντας το Autonomous Citation Indexing (ACI), το οποίο συνδέει αυτόματα τις παραπομπές με τα άρθρα διευκολύνοντας την πλοήγηση και την αξιολόγηση.

Περιλαμβάνει πάνω από 770.000 ντοκουμέντα λαμβάνοντας πάνω από ένα εκατομμύριο αιτήσεις και εξυπηρετώντας πάνω από 25 GB πληροφορίας καθημερινά.

Page 8: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

6/2/2008 Μπαλαλή Κυριακή 8

Οι διαφορές στο σύστημα λήψης δεδομένων(1)

Οι εγγραφές στη DBLP εξασφαλίζονται από εθελοντές. Οι διορθώσεις, επίσης, ελέγχονται με το χέρι.

Η DBLP προσπαθεί να εγγυηθεί περιεκτική και απόλυτη κάλυψη των περιεχομένων της.

Παρόλο που υπάρχει η πιθανότητα ανθρώπινου λάθος στη δια χειρός διαδικασία εισαγωγής των εγγραφών της βάσης, τα μεταδεδομένα της είναι γενικώς υψηλής ποιότητας σε σύγκριση με τα μεταδεδομένα που συλλέγονται αυτόματα.

Page 9: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

6/2/2008 Μπαλαλή Κυριακή 9

Οι διαφορές στο σύστημα λήψης δεδομένων(2)

Η CiteSeer έχει αυτόματους crawlers που επιτυγχάνουν υψηλότερη κάλυψη καθώς το κόστος της αυτόματης ευρετηρίασης είναι πολύ μικρότερο.

Μπορεί να θεωρηθεί μία φόρμα αυτοεπιλογής με on-line αναζήτηση.

Ένα πλήρως αυτόματο επιστημονικά συμμετρικό σύστημα, που όμως επηρεάζεται εύκολα από κακόβουλες επιθέσεις, πχ: συγγραφείς προσπαθούν να διαφοροποιήσουν το δικό τους citation ranking προσθέτοντας ψευδή άρθρα που υποτίθεται ότι αναφέρονται στη δική τους εργασία.

Page 10: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

6/2/2008 Μπαλαλή Κυριακή 10

Εξαγωγή Μεταδεδομένων

Υπάρχουν δύο βασικές μέθοδοι για την εξαγωγή πληροφορίας:

η Τεχνολογία της Γνώσης (Knowledge Engineering) και η Μηχανική Μάθηση (Machine Learning). Στην πρώτη μέθοδο, οι κανόνες εξόρυξης που χρησιμοποιεί το

σύστημα κατασκευάζονται χειρονακτικά χρησιμοποιώντας γνώση σχετική με το domain της εφαρμογής.

Στη δεύτερη μέθοδο, απαιτείται λιγότερη εξειδίκευση όταν προσαρμόζουμε το σύστημα σε ένα νέο domain. Κάποιος με επαρκή γνώση του domain και της εργασίας αυτής χαρακτηρίζει χειρονακτικά ένα σύνολο κατευθυντήριων ντοκουμέντων και τα χαρακτηρισμένα δεδομένα χρησιμοποιούνται για να κατευθύνουν έναν αλγόριθμο Μηχανικής Μάθησης. Αυτή η μέθοδος είναι πιο ευέλικτη από την προσέγγιση της Τεχνολογίας της Γνώσης, αλλά απαιτεί να είναι διαθέσιμος ένας όγκος κατευθυντήριων ντοκουμέντων.

Page 11: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

6/2/2008 Μπαλαλή Κυριακή 11

Σύγκριση στον αριθμό εκδόσεων

Συγκρίθηκε ο αριθμός των εκδόσεων των άρθρων για

τα έτη 1990-2002. Η αύξηση της DBLP

οφείλεται στην μεγαλύτερη κάλυψη που παρείχε

η μείωση στον αριθμό των άρθρων της CiteSeer οφείλεται στη μείωση της κάλυψης, στις πνευματικές ανησυχίες και στις μαύρες θεματικές επιδράσεις.

Page 12: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

6/2/2008 Μπαλαλή Κυριακή 12

Μοντέλα απόκτησης δεδομένων

Στη CiteSeer αναπτύχθηκαν δύο πιθανά μοντέλα για την απόκτηση των άρθρων.

Το πρώτο είναι βασισμένο σε συγγραφείς που παραδίδουν τα άρθρα τους κατευθείαν στη βάση.

Το δεύτερο δείχνει ότι τα άρθρα αποκτώνται αυτόματα από έναν crawler που ψάχνει στο web.

Για τη DBLP, υποθέτουμε ένα απλό μοντέλο απόκτησης άρθρων όπως να υπάρχει η πιθανότητα α σύμφωνα με την οποία το άρθρο να περιλαμβάνεται στην DBLP ή ακόμα και να είναι ανεξάρτητο από τον αριθμό των συγγραφέων.

Page 13: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

6/2/2008 Μπαλαλή Κυριακή 13

Μοντέλο Παράδοσης της CiteSeer

Ας υποθέσουμε ότι β Є (0,1) και δηλώνει την πιθανότητα όπου ένας συγγραφέας παραδίδει ένα άρθρο κατευθείαν στη CiteSeer δηλ. p(i)= 1- (1-β)i όπου (1-β)i είναι η πιθανότητα κανένας από

τους i συγγραφείς να παραδώσουν κάποιο άρθρο στη βάση. r(i) = dblp(i) = α

citeseer (i) (1-(1-β)i )

Είναι προφανές από το σχήμα ότι όσο ο αριθμός των συγγραφέων i αυξάνεται τόσο η αναλογία r(i) τείνει στο α.

Για τη CiteSeer υποθέτουμε ότι η μέθοδος απόκτησης παράγει μία επιρροή όπως την πιθανότητα p(i) όπου το άρθρο περιλαμβάνεται στη CiteSeer και είναι μία λειτουργία του αριθμού των συγγραφέων από ένα συγκεκριμένο άρθρο.

Page 14: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

6/2/2008 Μπαλαλή Κυριακή 14

Κατανομές αναφορών(Citation Distributions )

Συγκρίνει τις κατανομές των αναφορών μεταξύ των δύο βάσεων και βλέπουμε ότι η DBLP περιέχει περισσότερα low cited papers απ’ ότι η Citeseer. Προς το παρόν δεν υπάρχει εξήγηση γι’ αυτό το φαινόμενο. Αντίθετα, ίσως να σχετίζεται με την παρατήρηση του Lawrence σύμφωνα με την οποία τα άρθρα που είναι on-line ελεύθερα διαθέσιμα έχουν περισσότερες αναφορές.

Page 15: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

6/2/2008 Μπαλαλή Κυριακή 15

Νέα μοντέλα της Citeseer

CiteseerPlus βασίζεται σε μια νέα αρχιτεκτονική σχεδιασμένη να είναι ευέλικτη, αρθρωτή, και επεκτάσιμη.

Citeseerx beta είναι ανερχόμενο μοντέλο που σχετίζεται με την αναγνώριση της αναζήτησης.

Καθώς η CiteSeer για την ώρα λειτουργεί μέσα σε ένα ακαδημαϊκό περιβάλλον, εστιάζοντας στην έρευνα και στην παραγωγή, αναπτύχθηκε ένα πλαίσιο που επιτρέπει επεκτάσιμη, κατανεμημένη έρευνα και αποθήκευση, ενώ διευκολύνει την ανάπτυξη νέων και βελτιωμένων αλγόριθμων για την εξόρυξη της πληροφορίας.

Η τρέχουσα CiteSeer δεν ευρετηριάζει περισσότερα από 3-4 papers ανά λεπτό, καταλήγοντας σε ανεπαρκή ταχύτητα για την απόκτηση νέου περιεχόμενου.

Page 16: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

6/2/2008 Μπαλαλή Κυριακή 16

Διάφορες βάσεις δεδομένων

Scopus ( www.scopus.com) Bibfinder ( http://eiinwww.ira.uka.de/bibliography) Googlescholar ( www.scholar.google.gr) Vldb ( www.vldb.org) ACM ( http://portal.acm.org/portal.cfm) Sciencedirect (http://www.sciencedirect.com/)

Page 17: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

6/2/2008 Μπαλαλή Κυριακή 17

Συμπεράσματα Και οι δύο βάσεις είναι φιλικές και προσιτές στους χρήστες

προσφέροντας σημαντικά εργαλεία για την έρευνα. Η Citeseer προσπαθεί συνεχώς να βελτιώνει τις υπηρεσίες της

δημιουργώντας νέα μοντέλα για να μπορέσει να αντεπεξέλθει στις απαιτήσεις.

Έχουν πολύ διαφορετικές μεθόδους στην απόκτηση των δεδομένων.

Όσον αφορά τις κατανομές των αναφορών (citation distributions) και για τις δύο βάσεις η Citeseer έχει μικρότερο αριθμό low-cited papers.

η κάλυψη της DBLP φτάνει περίπου το 24% ολόκληρης της επιστήμης των υπολογιστών.

Page 18: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

6/2/2008 Μπαλαλή Κυριακή 18

Προβληματισμοί

Η CiteSeer είναι αργό και off-line σύστημα που σημαίνει ότι τα αποτελέσματα δεν επιστρέφονται αμέσως αλλά μετά από μέρες έτσι οι ερευνητές δυσκολεύονται στην έρευνα τους.

Τα αποτελέσματα μπορεί να είναι έγκυρα αλλά υπάρχουν πολλές διπλοεγγραφές, γεγονός που πρέπει να μεριμνήσουν για να διορθωθεί.

Και το GoogleScholar και η CiteSeer δεν κάνουν διάκριση ανάμεσα στις αυτοαναφορές των συγγραφέων και τις αναφορές τρίτων, γεγονός που δημιουργεί σύγχυση και λανθασμένες εντυπώσεις.

Page 19: ΘΕΜΑ  :  A Comparison of On-line Computer Science Citation Databases

6/2/20086/2/2008 Μπαλαλή ΚυριακήΜπαλαλή Κυριακή 1919