View
219
Download
4
Embed Size (px)
Citation preview
1
Selectivity Estimation in Spatial Databases
S. Acharya, V. Poosala, S. Ramaswamy
Presented By: Eyal Flato
2
מבנה
הקדמה - תאור הבעיה ובעייתיות בפתרונות •קיימים
פתרונות בסיסיים•
Min-Skewאלגוריתם •
תוצאות ניסויים•
מסקנות•
3
תאור הבעיה
•GIS - Geographic Information SystemESRI ARC/INFO, MapInfoמוצרים ייעודיים:
DB :עם תמיכה גיאוגפית Informix, Oracle
•Selectivity Estimation הערכת מספר - האלמנטים בשאילתה מסויימת:
query optimizers- חשוב ב- - הערכת זמן ביצוע שאילתה - לפני ביצועה
- שאילתות ייעודיות על הערכת כמות אלמנטים
5
פתרונות קיימים
היסטוגרמה•
דגימה•
אפשרות לביצוע הערכה ע”ב מספר קטן מטרה:•של נתונים
הערכת , buckets חלוקת הנתונים ל-פתרון נפוץ:•bucketsהשאילתה לפי מענה לשאילתה על ה-
0
10
20
30
40
50
60
70
80
90
6
Spatial v. Traditional יכולים להיות בעלי גדלים DBהאלמנטים ב-•
שונים
התפלגות תדירות הופעה של נתונים היא אחידה•)יחסית מעט אלמנטים חופפים(
הערכים )מיקום במרחב( מפוזרים באופן מוטה•
Q
# in Q ? # of Milk ?
7
פישוט הבעיה
כל אלמנט מוגדר ע”י המלבן החוסם שלו •)מקביל לצירים(
השאילתה הינה מלבן•
גודל 9השאילתה:
אלמנטים
10
Uniformity Assumption
•Point Query:כמה אלמנטים חלים בנקודה -
TA / Area)T(
סך שטחי המלבנים יחסית לשטח הכללי
•Range Query - מניחים שמלבני הקלט זהיםבאורך וברוחב ומפוזרים באופן אחיד בשטח
n*Area)Q’( / Area)T(
‘Q - הגדלה של השאילתה בחציהגודל הממוצע
11
3 7
2 10
8
10
חלוקת השטח לאזורים
הפתרונות שיוצגו בהמשך מבוססים על חלוקת •השטח לאזורים - מספר האזורים קבוע מראש
מענה מדויק לאזורים שמוכלים במלואם •בשאילתה והסתמכות על אחידות באזורים
המוכלים חלקית
3 4 3
10
33
8
4
7615 19
12
•Equi-Area.אזורים בגודל אחיד -
ניסיון להביא למינימום את השגיאה המקסימלית •האפשרית )בד”כ שטח גדול = שגיאה גדולה(
אזורים עם הרבה אלמנטיםחסרון:•
חלוקה לאזורים שווים
13
חלוקה לאזורים שווים
•Equi-Count.בכל אזור מספר דומה של אלמנטים -
ניסיון להביא למינימום את השגיאה המקסימלית •האפשרית )בד”כ הרבה אלמנטים = שגיאה גדולה(
אזורים גדולים, הרבה אזורים גם אם אחידחסרון:•
14
R-Treeאזורים עפ”י אינדקס
הכנסת מלבנים לעץ שבו כל צומת פנימי מכיל •מלבן החוסם את כל המלבנים
בתת-העץ שלו2-3דומה לעץ בינארי/ עץ •
החלטה על פיצול בעץ לפי קריטריונים שונים •בנסיון להביא למינימום את השטח, חפיפה וכו’
15
R-Treeחסרונות של אזורים שווים ו-
דיוק:•Equi-Area לא מתייחס לשינויים בפיזור - האלמנטים
Equi-Count מייצר יותר אזורים במקומות - צפופים, אך אם ההתפלגות אחידה - זה מיותר
R-Tree מייצר הרבה אזורים לא אחידים -
16
R-Treeחסרונות של אזורים שווים ו-
זמן חישוב:•Equi-Area, Equi-Count דורש המצאות כל - הקלט בזיכרון בזמן הבנייה
R-Treeזמן חישוב יקר - (log) NB
NO B
17
Min-Skewאלגוריתם
מטרות:
טיפול בבעיות הדיוק - התייחסות בבניה •להתפלגות הקלט
חסכון בזמן וזיכרון הנדרשים לבניה•
שמירה על מספר אזורים נתון מראש•
שמירה על אחידות בתוך כל תתי האזור •
18
Min-Skewאלגוריתם
האלגוריתם מורכב משני שלבים עיקריים:•
. קירוב קומפקטי של הקלט שניתן להחזיק בזיכרון 1ולבנות על פיו את החלוקה לאזורים
לבניית החלוקה greedy. אלגוריתם 2
19
Min-Skewאלגוריתם קירוב הקלט
בגודל שאותו אפשר לנהל בזיכרוןgridחלוקה ל-•
מעבר אחד על הקלט וספירה של מספר האלמנטים •צפיפות מרחבית - gridהחלים בכל אחד מהתאים ב-
וערכי gridהקלט לשלב השני של האלגוריתם יהיו ה-•הצפיפות המרחבית לכל תא בו.
20
בניית : Min-Skewאלגוריתם החלוקה :spatial skew בחלוקה נגדיר Biלכל אזור •
Si השונות של ערכי הצפיפות המרחבית של = Bi שנמצאות בתוך gridנקודות ה-
:פונקצית המטרה•
(Ni-מספר נקודות ה = grid באזור Bi)
באופן חמדני מביאים למינימום את• פונקצית המטרה
Binary Space Partitionהאלגוריתם הוא •
ii SN
Ni = 6Si = 2.3
4 1 0 1
2 302
5
2 1
1
1
1
31
Bi
21
בניית : Min-Skewאלגוריתם החלוקה עם צפיפות מרחבית לכל תאgrid: נקודות קלט
נתחיל מאזור יחיד המכסה את כל אזור העניין
כל עוד יש פחות אזורים מהדרוש
- חשב לכל תא קיים את השונות לגבי כל ציר- בחר את התא שחלוקתו תפחית יותר את פונקצית המטרה
22
תוצאות ניסויים
ביצוע שאילתות בגדלים משתנים על נתונים •אמיתיים וסינתטיים
שגיאה יחסית ממוצעתמדד לאיכות ההערכה - •של השאילתות לעומת הספירה המדויקת של
אלמנטים בשאילתה
26
Min-Skewשיפור Progressive Refinement
ביצוע אלגוריתם החלוקה במספר שלבים כאשר •gridכל שלב מעודנת צפיפות ה-
29
מסקנות
selectivity estimationהשיטות הרגילות ל- • DB)דגימה, היסטוגרמה( לא מתאימות ל-
גיאוגרפי )מרחבי(
שיטות ספציפיות למידע גיאוגרפי נותנות •תוצאות טובות גם עם זיכרון מוקצה קטן
מנצח את שאר Min-Skewאלגוריתם •הטכניקות שנבחנו במאמר: מדויק יותר ומהיר
יותר