Upload
rai-angelidou
View
246
Download
6
Embed Size (px)
Citation preview
Πανεπιστήμιο Στερεάς ΕλλάδαςΤμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική
Εξόρυξη Δεδομένων και Ανακάλυψη Γνώσης
Θέμα Εργασίας: WEKA
Αγγελίδου Ραΐσα 010801046
Εισαγωγικά
Weka: Waikato Environment for Knowledge Analysis
Η weka είναι ένα software για εξόρυξη δεδομένων γραμμένο σε JAVA το οποίο περιέχει υλοποιημένες μεθόδους για:
Προεπεξεργασία Δεδομένων Ταξινόμηση Συσταδοποίηση Εύρεση Κανόνων Συσχέτισης
Εισαγωγικά
Είναι ένα φιλικό γραφικό περιβάλλον εργασίας Όλα τα εργαλεία του WEKA: φίλτρα, κατηγοριοποιητές,
ταξινομητές, συσχετιστές και επιλογείς χαρακτηριστικών μπορούν να παρουσιασθούν γραφικά με δισδιάστατα γραφήματα
Με βάση τις γραφικές αναπαραστάσεις των επιλεγμένων δεδομένων δοκιμάζονται και προβλέπεται η απόδοση των εναλλακτικών μοντέλων που θα επιλεγούν να χρησιμοποιηθούν τελικά για την διαμόρφωση της «θαμμένης» γνώσης.
Είναι επιλέξιμα μέσα από αναδυόμενα μενού
Εγκατάσταση
To software είναι διαθέσιμο για εγκατάστασηαπό την ιστοσελίδα:
http://www.cs.waikato.ac.nz/ml/weka/
Το παράθυρο κατηγοριοποίησης
Επιτρέπει την διαμόρφωση και την εφαρμογή των διαφόρων μοντέλων κατηγοριοποίησης στα τρέχοντα δεδομένα
Επίσης μπορεί να πραγματοποιήσει συγκριτικές μελέτες ή ελέγχους σε ομάδες δεδομένων
Μπορεί κανείς να προβάλλει τα σφάλματα της κάθε κατηγοριοποίησης με ένα αναδυόμενο μενού-εργαλείο, ενώ αν το αποτελέσματα είναι ένα δένδρο απόφασης μπορεί να προβληθεί γραφικά με ένα αναδυόμενο γραφικό περιβάλλον.
Στάδια μάθησης
ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ: given examples labelled from a finite domain, generate a procedure for labelling unseen examples
ΣΥΣΧΕΤΙΣΗ: given examples labelled with a real value, generate procedure for labelling unseen examples
ΤΑΞΙΝΟΜΗΣΗ: from a set of examples, partitioning examples into “interesting” groups
Δείκτες αποτελεσματικότητας
Ειδικότητα: probability of being correct given that your decision
Ευαισθησία: probability of correctly identifying class
Ακρίβεια: # right/total
Weka environment
Weka environment
Ανοίγοντας το πρόγραμμα δίνεται η δυνατότητα να επιλεγεί ένα σύνολο δεδομένων στο οποίο μπορούν να εφαρμοστούν τεχνικές που αφορούν :
Preprocess Classify Cluster Associate Select Attributes Visualize
Επιλέγοντας ένα σύνολο δεδομένων (αρχείο .arff), εμφανίζονται γραφικά τα δεδομένα για καθένα από τα γνωρίσματα ξεχωριστά καθώς και στατιστικές πληροφορίες για αυτά.
Εάν στο σύνολο δεδομένων δίνεται και κάποια κλάση στην οποία ταξινομούνται, τα δεδομένα που ανήκουν στην ίδια κλάση εμφανίζονται με το ίδιο χρώμα
Weka environment
Αρχεία .arff
Τα αρχεία που περιέχουν το σύνολο δεδομένων πρέπει να έχουν συγκεκριμένο format και να αποθηκεύονται με την επέκταση .arff
Δεδομένα μπορούν επίσης να δοθούν από ένα URL ή από μία SQL βάση.
Παράδειγμα
Παράδειγμα- csv2arff
Weka environment
Weka environment
Weka environment
Παράδειγμα
Παράδειγμα
Οπτικοποίηση-Συσταδοποίηση δεδομένων
Από την καρτέλα visualize υπάρχει η δυνατότητα να εμφανιστεί η γραφική αναπαράσταση κάθε γνωρίσματος σε συνάρτηση με κάθε άλλο γνώρισμα
Αφού έχει επιλεγεί ένα σύνολο δεδομένων είναι δυνατόν να γίνει συσταδοποίηση (εύρεση ομάδων ‘όμοιων’ δεδομένων)
Από την καρτέλα cluster μπορεί να επιλεγεί ένας αλγόριθμος με βάση τον οποίο θα γίνει συσταδοποίηση και με το κουμπί start να αρχίσει η εκτέλεση του αλγορίθμου
Thank you!!