Upload
seanna
View
57
Download
2
Embed Size (px)
DESCRIPTION
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό. Δημήτριος Στεφ. Κατσαρός Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων Τμήμα Πληροφορικής Αριστοτέλειο Πανεπιστήμιο Θεσ/νικης. http://skyblue.csd.auth.gr/~dimitris. Το βασικό ερώτημα/κίνητρο της διατριβής. - PowerPoint PPT Presentation
Citation preview
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 1
Μάιος 18, 2004
Δημήτριος Στεφ. Κατσαρός
Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων
Τμήμα ΠληροφορικήςΑριστοτέλειο Πανεπιστήμιο
Θεσ/νικηςhttp://skyblue.csd.auth.gr/~dimitrishttp://skyblue.csd.auth.gr/~dimitris
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 2
Μάιος 18, 2004
Πώς μπορούμε να ελαττώσουμε την καθυστέρηση πρόσβασης
στον Παγκόσμιο Ιστό (ΠΙ);
Το βασικό ερώτημα/κίνητρο της διατριβής
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 3
Μάιος 18, 2004
Εξετάζουμε μεθόδους διάχυσης της πληροφορίας στον (ενσύρματο και ασύρματο) Παγκόσμιο Ιστό από τους εξυπηρετητές προς τους καταναλωτές
Στηριζόμαστε στην τεχνική του caching, δηλ., στην αποθήκευση της πληροφορίας σε ενδιάμεσους “αντιπροσώπους” των εξυπηρετητών
Κεντρική ιδέα της διατριβής
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 4
Μάιος 18, 2004
Caching στον ενσύρματο ΠΙΔημοσιεύτηκε ως: D. Katsaros and Y. Manolopoulos. “Caching in Web Memory Hierarchies, Proceedings of the ACM Symposium on Applied Computing (SAC), Mar., 2004.
Caching στον ασύρματο ΠΙΔημοσιεύτηκε ως: D. Katsaros and Y. Manolopoulos. “Web Caching in Broadcast Mobile Wireless Environments”, IEEE Internet Computing magazine, Special issue on “Data Dissemination on the Web”, vol. 8, no. 3, May/Jun., 2004.
Σημασιολογικό cachingΔημοσιεύτηκε ως: D. Katsaros. “Efficiently Maintaining Structural Associations of Semistructured Data”, Proceedings of the Panhellenic Conference on Informatics – Selected papers,Lecture Notes on Computer Science (LNCS), vol. 2563, Springer-Verlag, 2003.
Συνεισφορές της διατριβής (1)
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 5
Μάιος 18, 2004
Prefetching στον ενσύρματο ΠΙΔημοσιεύτηκε ως: A. Nanopoulos, D. Katsaros, Y. Manolopoulos. “A Data Mining Algorithm for Generalized Web Prefetching”, IEEE Transactions on Knowledge and Data Engineering, vol. 15, no. 5, Sep./Oct., 2003.
Εκπομπή στον ασύρματο ΠΙΔημοσιεύτηκε ως: D. Katsaros and Y. Manolopoulos. “Broadcast Program Generation for Webcasting”, Data and Knowledge Engineering (Elsevier), vol. 49, no. 1, Apr., 2004.
Συνεισφορές της διατριβής (2)
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 6
Μάιος 18, 2004
ΜΕΡΟΣ 1ο: Βασικές έννοιεςΜΕΡΟΣ 2ο: Caching στον ενσύρματο ΠΙΜΕΡΟΣ 3ο: Caching στον ασύρματο ΠΙΜΕΡΟΣ 4ο: Διατήρηση σχήματος
ημιδομημένων δεδομένωνΜΕΡΟΣ 5ο: Prefetching στον ενσύρματο
ΠΙΜΕΡΟΣ 6ο: Εκπομπή στον ασύρματο ΠΙΜΕΡΟΣ 7ο: Συμπεράσματα διατριβήςΜΕΡΟΣ 8ο: Μελλοντική έρευνα
Οργάνωση της παρουσίασης
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 7
Μάιος 18, 2004
ΜΕΡΟΣ 1ο : Βασικές έννοιες caching στον ΠΙ
Μοντέλο προσπέλασης της πληροφορίας
Προβλήματα επίδοσης στον ΠΙCaching και prefetchingΜέτρα επίδοσης της cache
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 8
Μάιος 18, 2004
Πελάτης Proxyαίτηση
απάντηση
αίτηση
απάντηση cache cache
ΔΙΑΔΙΚΤΥΟ
αίτηση
απάντηση
+ prefetch
+prefetch
απάντηση
αίτηση
Βάση Δεδομένων
Web-Powered Βάση Δεδομένων
Εξυ
πηρε
τητή
ςΕ
φαρμ
ογής
cache
CacheΚύριαςΜνήμης
ΕξυπηρετητήςΠαγκοσμίου
Ιστού
CacheΔίσκου
Βασικές Έννοιες
Το μοντέλο του Παγκοσμίου Ιστού (ενσύρματα δίκτυα)
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 9
Μάιος 18, 2004 Βασικές Έννοιες
Το μοντέλο του Παγκοσμίου Ιστού (ασύρματα δίκτυα)
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 10
Μάιος 18, 2004
Προβλήματα επίδοσης του ΠΙ
Τεράστια δημοφιλία του ΠΙ, συνεπάγεται:Συμφόρηση (congestion) στο δίκτυοΥπερφόρτωση (overloading)
εξυπηρετητώνΜεγάλοι χρόνοι απόκρισης
εξυπηρετητώνΥψηλή καθυστέρηση ανάκτησης (user
latency)
Βασικές Έννοιες
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 11
Μάιος 18, 2004
Λύσεις στα προβλήματα επίδοσης του ΠΙ
Ύπαρξη τοπικότητας (locality) στa ρεύματα αναφορών (αιτήσεων) του ΠΙ:
Χρονική τοπικότητα (temporal locality)Τα πρόσφατα προσπελασθέντα αντικείμενα
έχουν μεγάλη πιθανότητα να προσπελαστούν στο κοντινό μέλλον
Χωρική τοπικότητα (spatial locality)Ο αριθμός των διακριτών υποακολουθιών
ενός ρεύματος είναι μικρότερος από αυτόν που αντιστοιχεί σε μια τυχαία μετάθεση του ρεύματος
Βασικές Έννοιες
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 12
Μάιος 18, 2004
Caching και Prefetching για τον ΠΙ
Χρονική τοπικότητα αξιοποίηση CachingCaching: Προσωρινή αποθήκευση αντικειμένων
πλησιέστερα στον καταναλωτή. Είναι “ανταποδοτικό” (reactive): προσπαθεί να βελτιώσει την επίδοση του συστήματος, αφού πρώτα παρατηρηθεί ελάττωση αυτής
Χωρική τοπικότητα αξιοποίηση PrefetchingPrefetching:πρόγνωση των μελλοντικών
αιτήσεων και προσωρινή αποθήκευση των αντίστοιχων αντικειμένων στην cache πριν αυτά ζητηθούν. Είναι “προενεργητικό” (proactive): λαμβάνει μέριμνα για να μην ελαττωθεί η επίδοση
Βασικές Έννοιες
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 13
Μάιος 18, 2004
ΜΕΡΟΣ 2ο : Caching στον ενσύρματο ΠΙ
ΕισαγωγήΚίνητρο και σχετικές εργασίεςΑλγόριθμος αντικατάστασης CRFΠειραματική αποτίμηση των μεθόδωνΣυμπεράσματα
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 14
Μάιος 18, 2004
Προκλήσεις για μια πολιτική αντικατάστασης
Παράγοντες που διακρίνουν το caching στον ΠΙ από το caching σε παραδοσιακές αρχιτεκτονικές υπολογιστικών συστημάτων:
Ετερογένεια στα μεγέθη των αντικειμένων, Ετερογένεια στα κόστη ανάκτησης, Βάθος της ιεραρχίας των caches στον ΠΙ, και Πρότυπο αιτήσεων, οι αιτήσεις δεν
γεννιούνται από μερικές προγραμματιζόμενες διεργασίες, αλλά πηγάζουν από μεγάλους ανθρώπινους πληθυσμούς με διαφορετικά και μεταβαλλόμενα ενδιαφέροντα
Caching στον ενσύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 15
Μάιος 18, 2004
Πώς αντιμετωπίστηκαν οι προκλήσεις? (1)
Η πλειονότητα των πολιτικών αντικατάστασης δεν επιτυγχάνουν ισορροπία HR και CSR:
Οι recency-based πολιτικές, ευνοούν το HR, π.χ., η οικογένεια των αλγορίθμων GreedyDualSize
Οι frequency-based πολιτικές, ευνοούν το CSR (BHR ή DSR), π.χ., LFUDA
Εξαιρέσεις : LUV και GD*. Συνδυάζουν recency και frequency.
Μειονέκτημα του LUV είναι η ύπαρξη μιας “διοικητικά” ρυθμιζόμενης παραμέτρου λ, που “επιλέγει” τη recency-based ή frequency-based συμπεριφορά
Ο GD* έχει παρόμοι μειονέκτημα, αφού απαιτεί ρύθμιση της παραμέτρου β
Caching στον ενσύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 16
Μάιος 18, 2004
Πώς αντιμετωπίστηκαν οι προκλήσεις? (2)
Σχετικά με το βάθος της ιεραρχίας των caches:O Carey Williamson Απέδειξε αλλαγή στο πρότυπο
προσπέλασης, που χαρακτηρίζεται από ασθενέστερη χρονική τοπικότητα
Η προέλευση του ρεύματος των αιτήσεων έλαβε μικρή σχετικά προσοχή
Η προέλευση (σε συνδυασμό με το βάθος της ιεραρχίας) είναι υπεύθυνη για το μεγάλο αριθμό των one-timers (αντικείμενα που ζητούνται μόνο μια φορά)
Caching στον ενσύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 17
Μάιος 18, 2004
Γιατί χρειαζόμαστε νέα μέθοδο αντικατάστασης?
Σε ετερογενή περιβάλλοντα, όπως ο ΠΙ, ανάγκη βελτιστοποίησης/ ισορροπίας μεταξύ HR και CSR (ισορροπία μεταξύ μέσης καθυστέρησης ανάκτησης για το χρήστη και κυκλοφορίας στο δίκτυο)
Αντιμετώπιση της ασθενούς χρονικής τοπικότητας στον Παγκόσμιο Ιστό
Αντιμετώπιση των one-timersΑποφυγή χρήσης “διοικητικά”
ρυθμιζόμενων παραμέτρων
Caching στον ενσύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 18
Μάιος 18, 2004
Η πολιτική αντικατάστασης CRF
Διαμερίζουμε το χώρο της cacheR-segment
Συνάρτηση ταξινόμησης αντικειμένων: κλάσμα χρόνου εισόδου στην cache προς το μέγεθος του αντικειμένου
Προστασία από one-timersΕκμεταλλεύεται μικρής εμβέλειας (short-range)
χρονική τοπικότηταI-segment.
Συνάρτηση ταξινόμησης αντικειμένων: γινόμενο χρόνου τελευταίας δια-αναφοράς επί τη recency του αντικειμένου
Ο χρόνος τελευταίας δια-αναφοράς εκτιμά τη σταθερή δημοφιλία (συχνότητα αναφοράς) ενός αντικειμένου
Η recency εκτιμά την παροδική προτίμηση στο αντικείμενο
Caching στον ενσύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 19
Μάιος 18, 2004
Επίδοση της CRF (1)
Εξετάσαμε τη CRF σε σχέση με τις πολιτικές Recency-based: LRU, Size, GDS, SLRU
GDS ως αντιπρόσωπος της οικογένειας που περιλαμβάνει τις GDS, GDSF
Frequency-based: LFU, LFUDA, HLRU, LNCRW3 HRLU(6) ως αντιπρόσωπος της οικογένειας HLRU LNCRW3 υλοποιήθηκε, ώστε να βελτιστοποιεί το BHR
και όχι το DSRRecency + Frequency: LUV
LUV ρύθμιση: δοκιμάσαμε διάφορεες τιμές για την παράμετρο λ, and we επιλέξαμε την τιμή 0.01, επειδή έδωσε την καλύτερη επίδοση για μικρές caches, αλλά και την καλύτερη επίδοση στις περισσότερες περιπτώσεις
Caching στον ενσύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 20
Μάιος 18, 2004
Επίδοση της CRF (2)
Χρησιμοποιήσαμε πραγματικά ρεύματα αιτήσεων Δημιουργήσαμε συνθετικά ρεύματα αιτήσεων με
το εργαλείο ProWGen μοντελοποιώντας Κατανομή μεγέθους αντικειμένων, Κατανομή
δημοφιλίας, Ισχύ χρονικής τοπικότητας Εξετάσαμε τους παράγοντες
One-timers Κύρτωση Zipf Χρονική τοπικότητα
κανονική εξαιρετικά ισχυρή
Μέγεθος cache μικρή μεσαία μεγάλη
Caching στον ενσύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 21
Μάιος 18, 2004
Πραγματικά δεδομένα : recency-based
Αριστερά: Hit Ratio Δεξιά: Byte Hit Ratio
Caching στον ενσύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 22
Μάιος 18, 2004
Πραγματικά δεδομένα : frequency-based
Αριστερά: Hit Ratio Δεξιά: Byte Hit Ratio
Caching στον ενσύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 23
Μάιος 18, 2004
ΜΕΡΟΣ 3ο : Caching στον ασύρματο ΠΙ
• Κίνητρο • Σχετικές εργασίες• Αλγόριθμος αντικατάστασης SliCache• Πειραματική αποτίμηση των μεθόδων• Συμπεράσματα
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 24
Μάιος 18, 2004
Κίνητρο ανάπτυξης πολιτικής αντικατάστασης
Διάκριση μεταξύ αντικειμένων που είναι πιθανό να προσπελαστούν στο κοντινό μέλλον και εκείνων που έχουν μικρή τέτοια πιθανότητα
Αποφυγή χρήσης “διοικητικά” ρυθμιζόμενων παραμέτρων (εξαιτίας δυσκολίας ρύθμισης της τιμής τους, κινητικότητας πελατών)
Αντιμετώπιση του γεγονότος ότι τα αντικείμενα έχουν μεταβλητό μέγεθος
Αποφυγή υποθέσεων σχετικά με το πρόγραμμα εκπομπής (διαφορετικοί εξυπηρετητές, διαφορετικά προγράμματα εκπομπής του ίδιου εξυπηρετητή)
Caching στον ασύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 25
Μάιος 18, 2004
Σχετικές εργασίες για caching (σε ασύρματα δίκτυα)
PIX: Πιθανότητα προσπέλασης προς τη συχνότητα εκπομπής
Πολιτική του Tassiula: βασίζεται σε lookahead, δηλ., γνώση του προγράμματος εκπομπής
Gray: όμοια, βασίζεται σε lookaheadMin-SAUD: γενίκευση του PIX,
λαμβάνοντας υπόψη το μεταβλητό μέγεθος των αντικειμένων
Caching στον ασύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 26
Μάιος 18, 2004
Η πολιτική SliCache
Περιγράψαμε νωρίτερα την CRFΙκανοποιεί όλα τα κριτήρια που
θέσαμεΘα δείξουμε πόσο ευεργετική είναι η
επίτευξη ισορροπίας σε HR και BHR σε ασύρματα περιβάλλοντα
Κατάλληλη για “διάφανη” ενοποίηση
Caching στον ασύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 27
Μάιος 18, 2004
Aνάλυση επίδοσης της SliCache
• Εξετάστηκε η SliCache σε σχέση με τους LRU, LRU-K, PIX, Min-SAUD
Caching στον ασύρματο ΠΙ
Πολιτική Recency
Συχνότητα
Μεταβλητό
μέγεθος αντικειμ
έν.
Πρόβλεψη
προγράμ.
εκπομπής
LRU PIX LRU-K Min-SAUD SliCache
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 28
Μάιος 18, 2004
Aνάλυση επίδοσης της SliCache
Χρησιμοποιήσαμε συνθετικά ρεύματα αιτήσεων Εξετάσαμε τις κατανομές μεγέθους/δημοφιλίας:
INCRT: τα μικρά αντικείμενα είναι πιο δημοφιλήDECRT: τα μικρά αντικείμενα είναι πιο δημοφιλήRAND: δεν υπάρχει συσχέτιση
μεγέθους/δημοφιλίαςΜελετήσαμε την επίδραση του παράγοντα:
Μέγεθος της cacheΚύρτωση ZipfΟμοιογένεια των πελατώνΓνώση του προγράμματος εκπομπής
Caching στον ασύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 29
Μάιος 18, 2004
Επίδραση του μεγέθους της cache
Κατανομή INCRT Κατανομή DECRT
Caching στον ασύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 30
Μάιος 18, 2004
Επίδραση της Zipfian κύρτωσης
Κατανομή INCRT
Caching στον ασύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 31
Μάιος 18, 2004
Επίδραση του προγράμματος εκπομπής
Caching στον ασύρματο ΠΙ
Κατανομή INCRT
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 32
Μάιος 18, 2004
ΜΕΡΟΣ 4ο : Διατήρηση σχήματος ημιδομημένων δεδομένων
• Περιγραφή προβλήματος• Κίνητρο • Ορισμός του προβλήματος• Σχετικές εργασίες• Αλγόριθμος DeltaSSD• Πειραματική αποτίμηση των μεθόδων• Συμπεράσματα
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 33
Μάιος 18, 2004
Κίνητρο
Σημασιολογικό caching σε δεδομένα του ΠΙ: τα επερωτήματα των χρηστών (μαζί με τα αντίστοιχα αποτελέσματά τους) στεγάζονται στην cache για μελλοντική χρήση. Έχει δυο συνιστώσες:Εύρεση και διατήρηση των κοινών (υπο)δομών
σε συλλογές π.χ., XML εγγράφωνΥιοθέτηση/επινόηση μιας πολιτικής
αντικατάστασης
Το κίνητρό μας είναι η πρώτη συνιστώσα, και ειδικότερα η διατήρηση
Διατήρηση σχήματος ημιδομημένων δεδομένων
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 34
Μάιος 18, 2004
Το ζήτημα της διατήρησης σχήματος
Μεγάλος όγκος (π.χ., XML) δεδομένων, δηλ., δενδρικών δομών
Υποθέτουμε ότι είναι ήδη γνωστές οι κοινές (υπο)δομές της συλλογής (π.χ., με τον αλγόριθμο Wang & Liu, IEEE TKDE 2000)
Εύρεση των κοινών (υπο)δομών όταν προστίθενται νέα δεδομένα στη συλλογή
Διατήρηση σχήματος ημιδομημένων δεδομένων
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 35
Μάιος 18, 2004
Ορισμός προβλήματος
Διατήρηση σχήματος ημιδομημένων δεδομένων
Είσοδος1. Συλλογή αντικειμένων δενδρικών
συναλλαγών, που συμβολίζεται με DB2. Ελάχιστο κατώφλι υποστήριξης MINSUP 3. Οι συχνές δενδρικές δομές της DB4. Σύνολο νέων αντικειμένων προστίθεται
στη συλλογή, και συμβολίζεται με db Το πρόβλημα της αυξητικής εξόρυξης
σχήματος είναι η ανακάλυψη όλων των δενδρικών δομών που έχουν υποστήριξη στη συλλογή DB db μεγαλύτερη ή ίση από το MINSUP
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 36
Μάιος 18, 2004
Σχετικές εργασίες
Διατήρηση σχήματος ημιδομημένων δεδομένων
WANG: Όμοιος με τον Apriori (όχι αυξητικός). Εκτελεί πολλαπλές σαρώσεις της βάσης, δημιουργεί υποψήφιες συχνές δενδρικές δομές και ελέγχει την υποστήριξή τους
ZJZT: Έλεγχος των παλιών συχνών δενδρικών, εάν εξακολουθούν να είναι ακόμα συχνές. Εκτέλεση εξόρυξης στο db και επιβεβαίωση των αποτελεσμάτων στην DB
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 37
Μάιος 18, 2004
Ο αλγόριθμος DeltaSSD
Διατήρηση σχήματος ημιδομημένων δεδομένων
Αξιοποιεί τις υποψήφιες δενδρικές δομές που απέτυχαν να γίνουν συχνές. Αυτές αποτελούν το Αρνητικό Σύνορο
Ελέγχει εάν κάποιες δενδρικές δομές που ανήκαν στο Αρνητικό σύνορο γίνονται συχνές
Βρίσκεται το “Κλείσιμο” (closure) αυτών, και ελέγχει ποιες είναι συχνές στη συνολική βάση
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 38
Μάιος 18, 2004
Πειραματικά αποτελέσματα: Σαφής ανωτερότητα
Διατήρηση σχήματος ημιδομημένων δεδομένων
Wang ZJZT DeltaSSD
minsup Σαρώσεις DB
Σαρώσεις db
Σαρώσεις DB
Σαρώσεις db
Σαρώσεις DB
Σαρώσεις db
0.08 3 3 3 3 1 20.10 3 3 3 3 1 20.12 3 3 3 3 1 20.14 3 3 3 3 1 2
Αριθμός σαρώσεων της βάσης
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 39
Μάιος 18, 2004
ΜΕΡΟΣ 5ο : Prefetching στον ενσύρματο ΠΙ
ΕισαγωγήΚίνητρο και σχετικές εργασίεςΑλγόριθμος αντικατάστασης WMo
Πειραματική αποτίμηση των μεθόδωνΣυμπεράσματα
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 40
Μάιος 18, 2004
Το ζήτημα του prefetching
Prefetching: Γνώση των μελλοντικών αιτήσεων και στέγαση των αντίστοιχων αντικειμένων στην cache, πριν ζητηθούν Με πληροφόρηση (Informed): Ανεφάρμοστο στον ΠΙ Προγνωστικό (Predictive)
Εξετάζουμε: Προγνωστικό predictive (αξιοποιούμε το
ιστορικό των αιτήσεων) Πρωτοβουλία του εξυπηρετητή (ο
εξυπηρετητής κάνει προβλέψεις και τις γνωστοποιεί στους πελάτες)
Prefetching στον ενσύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 41
Μάιος 18, 2004
Σχετικές εργασίες για prefetching
Οικογένειες αλγορίθμων:(a) DG: Πρότυπα μεταξύ ζευγών αντικειμένων. (b) PPM: Πρότυπα μεταξύ συνεχόμενων ακολουθιών
Prefetching στον ενσύρματο ΠΙ
Ρεύματα αιτήσεων: ABCACBD και CCABCBCA
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 42
Μάιος 18, 2004
Κίνητρο ανάπτυξης
Η δομή του Διαδικτυακού τόπου και τα περιεχόμενα των ιστοσελίδων επιβάλλουν:Την τάξη των εξαρτήσεων (πρώτη ή
υψηλότερες) μεταξύ των αντικειμένωνΤην “παρεμβολή” αντικειμένων που ανήκουν
σε πρότυπα μαζί με τυχαίες επισκέψεις (θόρυβος)
Τα πρότυπα που αναζητούμε θα πρέπει να σέβονται αυτούς τους παράγοντες
Prefetching στον ενσύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 43
Μάιος 18, 2004
Η πολιτική WMo
Βασίζεται στο παράδειγμα της εξόρυξης κανόνων συσχέτισης, δηλ., μέθοδο Apriori
Διαφορετικό τρόπο δημιουργίας των υποψηφίων: λαμβάνει υπόψη τη διάταξή τους
Prefetching στον ενσύρματο ΠΙ
Τάξη Εξαρτήσεων Θόρυβος
DG ΟΧΙ ΝΑΙ
PPM ΝΑΙ ΟΧΙ
WMo ΝΑΙ ΝΑΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 44
Μάιος 18, 2004
Μέτρο επίδοσης των πολιτικών
Ακρίβεια: ισούται με το κλάσμα του αριθμού των εγγράφων που ζητήθηκαν από το χρήστη αλλά ήταν ήδη στην cache του εξαιτίας της λειτουργίας του prefetching, προς το συνολικό αριθμό των εγγράφων που μεταφέρθηκαν στην cache εξαιτίας της λειτουργίας του prefetching
Χρησιμότητα: ισούται με το κλάσμα του αριθμού των εγγράφων που ζητήθηκαν από το χρήστη, αλλά ήταν ήδη στην cache του εξαιτίας της λειτουργίας του prefetching, προς τον συνολικό αριθμό των εγγράφων που ζητήθηκαν
Δικτυακή κίνηση: ισούται με το κλάσμα του συνολικού αριθμού των εγγράφων που φτάνουν στην cache των πελατών (non prefeteched + prefeteched έγγραφα), προς τον αριθμό των non prefeteched εγγράφων.
Caching στον ασύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 45
Μάιος 18, 2004
Αξιολόγηση επίδοσης
Δημιουργήσαμε συνθετικά ρεύματα αιτήσεων μοντελοποιώντας: συνδεσμολογία, μεγέθη αντικειμένων
Εξετάσαμε τους παράγοντεςΘόρυβο Τάξη εξαρτήσεωνcache
Χρησιμοποιήσαμε πραγματικά ρεύματα αιτήσεων
Εξετάσαμε: DG, PPM
Caching στον ασύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 46
Μάιος 18, 2004
Ακρίβεια σε σχέση με το θόρυβο
Prefetching στον ενσύρματο ΠΙ
0.1
0.15
0.2
0.25
0.3
0.35
0.4
1.6 1.8 2 2.2 2.4 2.6 2.8 3
accu
racy
mean noise
DGPPMWM
WMoLBOT
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 47
Μάιος 18, 2004
Χρησιμότητα σε σχέση με το θόρυβο
Prefetching στον ενσύρματο ΠΙ
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0.2
1.6 1.8 2 2.2 2.4 2.6 2.8 3
usef
ulne
ss
mean noise
DGPPMWM
WMoLBOT
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 48
Μάιος 18, 2004
Ακρίβεια σε σχέση με τις εξαρτήσεις
Prefetching στον ενσύρματο ΠΙ
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
accu
racy
higher order percentage
DGPPMWM
WMoLBOT
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 49
Μάιος 18, 2004
Χρησιμότητα σε σχέση με τις εξαρτήσεις
Prefetching στον ενσύρματο ΠΙ
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
usef
ulne
ss
higher order percentage
DGPPMWM
WMoLBOT
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 50
Μάιος 18, 2004
ΜΕΡΟΣ 6ο : Εκπομπή στον ασύρματο ΠΙ
Κίνητρο Περιγραφή προβλήματοςΣχετικές εργασίεςΑλγόριθμος CascadedWebcastingΠειραματική αποτίμηση των μεθόδωνΣυμπεράσματα
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 51
Μάιος 18, 2004
Δίσκοι Εκπομπής (Broadcast Disks)
Εκπομπή στον ασύρματο ΠΙ
Βάση Δεδομένων
Τμήματα
1 2 3 4 5 6 7 8 9 10 11
Πρόγραμμα Εκπομπής
Δίσκοι
1
Δ1
2 3
Δ2
4 5 6 7 8 9 10 11
Δ3
1
Τ1
1
2
Τ2
1
3
Τ2
2
4 5 6 7 8 9 10 11
Τ3
1
Τ3
2
Τ3
3
Τ3
4
1 2 4 5 1 3 6 7 1 2 8 9 1 3 10 11
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 52
Μάιος 18, 2004
Δημιουργία προγράμματος
Το ουσιαστικό ζήτημα στους Δίσκους Εκπομπής: Δεδομένου του αριθμού τους, να γίνει διαμέριση των δεδομένων στους δίσκους ανάλογα με τις συχνότητες προσπέλασής τους (είναι διαθέσιμες διάφορες στατιστικές μέθοδοι εκτίμησής τους)
Το πρόβλημα είναι ισοδύναμο με την κατανομή δεδομένων σε πολλαπλά ομοιογενή ασύρματα κανάλια εκπομπής
Εκπομπή στον ασύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 53
Μάιος 18, 2004
Σχετικές εργασίες για εκπομπή δεδομένων
Bucketing: Μια σάρωση του διανύσματος των πιθανοτήτων προσπέλασης
Growing Segments: Σταδιακή αύξηση “μοναδιαίων” δίσκων. Πολλαπλές σαρώσεις
VFK: διαίρεση του δίσκου με το μεγαλύτερο κόστος. Πολλαπλές σαρώσεις
Greedy: διαίρεση του δίσκου που επιφέρει τη μεγαλύτερη ελάττωση στο κόστος. Πολλαπλές σαρώσεις
Data Based: Γενίκευση του VFK. Πολλαπλές σαρώσεις
Εκπομπή στον ασύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 54
Μάιος 18, 2004
Κίνητρο ανάπτυξης νέας πολιτικής εκπομπής
Υπολογιστικά χρονοβόρεςΕστιάζουν στη βελτίωση κατά πολύ
λίγες ποσοστιαίες μονάδες του μέσου χρόνου προσπέλασης του πελάτη
Δεν είναι κατάλληλες για μεγάλο όγκο δεδομένων, π.χ., Cache Satellite Distribution Systems, χιλιάδες αντικείμενα εκπέμπονται από δορυφόρο σε επίγειες caches
Εκπομπή στον ασύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 55
Μάιος 18, 2004
Βασική διαίσθηση για την CascadedWebcasting
ΔιαίσθησηΕνας πρακτικά σταθερός αριθμός
δεδομένων με μεγάλη πιθανότητα προσπέλασης
Δεδομένα που ανήκουν σε λίγες μεγάλες ομάδες
Δεδομένα που συνεισφέρουν ελάχιστα στο μέσο χρόνο προσπέλασης
Εκπομπή στον ασύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 56
Μάιος 18, 2004
Ο αλγόριθμος CascadedWebcasting (Casc)
Ταξινόμηση του διανύσματος των πιθανοτήτων προσπέλασης (κοινό βήμα όλων των μεθόδων)
Διαμέρισή του σε τμήματα μεγέθους ίσου με τις δυνάμεις του 2, δηλ., 1, 2, 4, 8, 16, ...
Επαναληπτική συνένωση εκείνων των δυο διαδοχικών τμημάτων που επιφέρουν τη μεγαλύτερη ελάττωση στο μέσο χρόνο προσπέλασης
Εκπομπή στον ασύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 57
Μάιος 18, 2004
Επίδοση της CascadedWebcasting
Χρησιμοποιήσαμε δεδομένα αιτήσεων συνθετικά πραγματικά
Αξιολογήσαμε τις μεθόδους Bucketing, Growing Segments, VFK, Greedy, Data Based, δηλ., όλες τις ανταγωνιστικές
Μέτρα επίδοσης: Μέση καθυστέρηση προσπέλασης Χρόνος εκτέλεσης της κάθε μεθόδου
Εξετάσαμε την επίδοση ως προς τον: Αριθμό δίσκων Μέγεθος της βάσης Κύρτωση Zipf
Εκπομπή στον ασύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 58
Μάιος 18, 2004
Επίδραση του αριθμού των Δίσκων Εκπομπής
Μέσος Χρόνος Προσπέλασης Χρόνος Εκτέλεσης
Εκπομπή στον ασύρματο ΠΙ
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 59
Μάιος 18, 2004
Επίδραση του μεγέθους της βάσης
Εκπομπή στον ασύρματο ΠΙ
Μέσος Χρόνος Προσπέλασης Χρόνος Εκτέλεσης
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 60
Μάιος 18, 2004
ΜΕΡΟΣ 7ο : Συμπεράσματα της διατριβής
Ιδιαιτερότητες Παγκοσμίου ΙστούCaching: recency+frequency, μεγάλο
βάθος ιεραρχίας, one-timersCaching κινητούς πελάτες: αδύνατη η
πρόβλεψηΤεράστια ανομοιογένεια: εξόρυξη για
εύρεση κοινών δομώνPrefetching: υπερκείμενο, “θόρυβος”Εκπομπή: τεράστιος όγκος
αντικειμένων
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 61
Μάιος 18, 2004
ΜΕΡΟΣ 8ο : Δρόμοι μελλοντικής έρευνας (1)
Σημασιολογικός Παγκόσμιος Ιστός (Semantic Web)XML
Caching τμημάτων XMLΣημασιολογικά Ευρετήρια (Semantic Indexes)Σημασιολογικές μηχανές αναζήτησης
Υπηρεσίες Παγκοσμίου Ιστού (Web services)Caching αποτελεσμάτωνCaches ως Web services
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 62
Μάιος 18, 2004
ΜΕΡΟΣ 8ο : Δρόμοι μελλοντικής έρευνας (2)
Διάχυτα Υπολογιστικά Περιβάλλοντα (Pervasive Computing Environments)Έξυπνες caches
Media transcodingXML “transcoding”
Caching σε κινητά ad-hoc δίκτυαΣυνεργατικό cachingCaching διαδρομής προς αντικείμενα
Αποδοτική Ανάκτηση Δεδομένων στον Ενσύρματο και Ασύρματο Παγκόσμιο Ιστό 63
Μάιος 18, 2004
Ευχαριστώ Ευχαριστώ για την για την
προσοχή σαςπροσοχή σας