37
ه ن ی ش ی بر ر ک م های ت خ در ر ی ای ر ر یراده کاوی کا داEfficient Data Mining for Maximal Frequent Subtrees ر گذ ه ر ر کت ما : د ن هد را ا ت س ا اد+ ر ی وی س و م/ حان ب س/ ان ت س ب ا ت89

داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

Embed Size (px)

DESCRIPTION

داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees. استاد راهنما : دکتر رهگذر سبحان موسوی نژاد تابستان 89. مراجع. Proceedings of 3rd IEEE International Conference on Data Mining (ICDM), pages 379{386, 2003. فهرست مطالب. مقدمه مفاهیم اولیه - PowerPoint PPT Presentation

Citation preview

Page 1: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

داده کاوی کارا برای زیر درخت های مکرر بیشینه

Efficient Data Mining for Maximal Frequent Subtrees

استاد راهنما : دکتر رهگذرسبحان موسوی نژاد

89 تابستان

Page 2: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

مراجع

Proceedings of 3rd IEEE International Conference on Data Mining (ICDM), pages 379{386, 2003.

Page 3: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

فهرست مطالب

مقدمه•مفاهیم اولیه •بیان مسئله•Path Joinالگوریتم •نتایج تجربی•نتیجه گیری•مراجع•

Page 4: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

مقدمه

کاوشAssociation Rules( و رشته ها Sequence مسائل یک : )بعدی

کاوش زیر درخت و گراف : مسائل دو بعدی

Page 5: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

کاربرد درخت کاوی

Web Usage Mining

Bio informatics

Page 6: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

نقطه آغاز این کار

Traversal و Usage و یافتن الگوهای Websites های Logبررسی

مسائل : بوده Usage ها برای Sequenceتحقیقات قبلی کثرا به دنبال رشته ها و

اند.Web!را به صورت تکبعدی نگریسته اند Web ذاتا ساختار سلسله مراتبی Hierarchal.و یا گرافی دارد

ها.Access Sessionکار ما : یافتن الگوها با استفاده از Tree Structure ها Access Sessionساختار

و Induced و زیر درخت ها نامرتبدرخت ها در اینجا Maximal.هستند

Page 7: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

مفاهیم اولیه

Root Pathمسیر ریشه ای نمایش هر مسیر ریشه ای توسط برچسب آخرین نود در

مسیر

Root Subtreeزیر درخت ریشه ای (F,B,D,E)

Page 8: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

)ادامه(مفاهیم اولیه

Embedded(درونی)

Induced(منتج)

Page 9: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

Item Set Representation For Root Subtree

Itemsetنمایش هر زیر درخت به عنوان یک

باشند : نمایش یکتاInducedاگر الگو ها

<A,C,E> :

Page 10: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

Maximal Subtree

یک زیر درخت مکرر، بیشینه است اگر زیر درختی از •یک زیر درخت مکرر دیگری نباشد

Page 11: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

بیان مسئله

Unweighted Support

freqD(s) = ∑ TєD freq T (S) ( freqT(s) =0,1)

supD(s)= freqD(s) / |D|

Weighted Support

SUPD(s) = ∑ FREQT(S) / ∑ TєD |T| FREQT(S) = 0 , n (n : if accurse n time )

Page 12: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

The Frequent Subtree mining Problem

، با تعریف Dدر یک پایگاه داده از درختان همچون •

، هدف یافتن تمام زیر Smin یا sminآستانه ای همچون درخت های مکرر بیشینه.

فرضیات :•درخت ها نامرتب–برچسب ها : قابل تکرار –برچسب فرزندان یک نود : یکتا– باشد.Unweighted و یا Weighted می تواند Supمقدار –

Page 13: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

یک نکته !

چرا ما به دنبال درخت های نامرتب هستیم ؟

تحلیWل و بررسWی حWال در رفتWار وقWتی هسWتید، مسWئله Web Pageدر یWک کWاربر

کWه اسWت صWفحاتی یWافتن نظWر مWورد تWرتیب نWه نمWوده؛ بازدیWد آنهWا از کWاربر

آنها!

Page 14: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

ایده آغازین

ها Maximal Frequent Pathیافتن تمامی Infrequentحذف تمامی نودهای

Maximal Frequentادغام آنها جهت دستیابی به Subtree ها

Maximal Frequent Path 1- Freq Itemset

K- Freq Itemset ها Freq Itemset- 1 تا از Kادغام

Page 15: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

Path Joinالگوریتم

Outline

.I اسکن اولیه پایگاه داده برای شناساییFreq 1-Itemset

.II اسکن ثانویه جهتPrune کردن نودهای غیر مکرر و FST-Forestساختن ساختار داده

.III یافتن تمامMaximal Frequent Root Path

.IV ادغام اینRoot Path ها و ساختن Maximal Freq Root Subtrees

Page 16: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

FST - Forest

Forest treesBasic Node Structure

Page 17: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

FST – Forest (cont)

برای هر درخت، ایندکس بر اساس ریشه آن درخت •می باشد.

FP-Growthشباهت این ساختار با • تنها در برگ ها : صرفه جویی در Tree Idsذخیره •

حافظهذخیره درخت ها به صورت رشته •بازسازی سریعتر درخت ها در حافظه•

Page 18: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

گام اول : حذف نودهای غیر مکررInfrequent Nodes Elimination

After Pruning

Page 19: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

ادغام درخت های با ریشه مشترک

Page 20: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

برخی نکات

، ممکن است درختانی با ریشه Pruningتوجه : پس از فرآیند جدید حاصل گردند.

ها به صورت مرتب Tree ids Listپس از اتمام این مرحله، .FST Forestخواهند بود : ساختار

برای هر رشته ی درختی در پایگاه داده، زمان ساختن درخت متناظر در حافظه : به صورت خطی و متناسب با طول رشته.

.O(n)، زمان DFSمشخص کردن نودهای مکرر : الگوریتم .O(n)، زمان DFSزمان مورد نیاز برای ادغام : الگوریتم

زمان کلی الزم جهت ساختن کل جنگل : خطی متناسب با تعداد درختان.

تنها در برگ ها.Tree Idsاستفاده بهینه از حافظه اصلی : ذخیره

Page 21: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

یافتن مسیرهای ریشه ایRoot Paths

مسیر های مکرر ریشه ای: مسیرهای مکرر بیشینه•

هدف: شمردن تمام مسیر های ریشه ای، چه مکرر و •چه غیر مکرر.

ادغام: مسیری که ریشه ای نیست؛ برچسب شروع آن –ریشه یک درخت دیگر است؛ ادغام این مسیر با آن درخت.

درج کردن: برای مسیر بیشینه غیر ریشه ای، درختی جدید –اضافه می شود.

Page 22: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

)ادامه(یافتن مسیرهای ریشه ای

Page 23: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

Merge پس از مرحله Pruningگام

DFSحذف نودهای غیر مکرر، اجرای الگوریتم • نودهای حذف شده با اولین جد حذف Tree Idsادغام •

نشده آنها.

After Pruning

Page 24: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

گام آخر

Maximal Frequent Root Pathحاال تمام مسیر ها •هستند.

Aprioriحاال با توجه به الگوریتم •Level Wiseبه صورت – Itemset(-K-1 های مکرر از روی )K-Itemsetپیدا کردن –

های مکرر. ها.Itemset-2شروع از –

Page 25: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

ها و الگوریتم Itemsetبحث بر سر Apriori

(آیتم ست :k-1برای دو تا ) •

و

k آیتم ست

تولید خواهد شد اگر :

و تمامی زیر مجموعه های آن مکرر باشند.

Page 26: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

Maximizingگام

تا اینجا تمامی زیر درخت های مکرر یافته شده اند

حاال باید به دنبال زیر درخت های مکرر بیشینه بود.

Local Maximizing بیشینه سازی محلی برای هر درخت، زیر درخت های آن میباید بیشینه باشند.

Global Maximizingبیشینه سازی کلی در حالت کلی، در بین تمام درخت های جنگل، زیر درخت های

کاوش شده میباید بیشینه باشند.

Page 27: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

؟ Maximizingچرا

در اختیار داشتن یک دید کلی از کل وب سایت.

Page 28: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

نتایج تجربی

Page 29: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

زمان اجرا

Page 30: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

زمان اجرا

Page 31: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

تعداد زیر درخت های کاندید

Page 32: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

استفاده از حافظه

Page 33: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

نتیجه گیری

نوعی جدید از درخت کاوی در این مقاله معرفی شد الگوریتمPath Join برای یافتن Maximal Frequent

Subtree.ها ارائه شد استفاده الگوریتم از ساختمان داده فشردهFST

Forest استفاده از روش تولید زیر درخت های کاندید به

صورت محلی.کاهش تعداد زیر درخت های کاندید

Page 34: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

مراجع

1. Y. Xiao and J.F. Yao. Efficient data mining for maximal frequent subtrees. Proceedings of 3rd IEEE International Conference on Data Mining (ICDM) , 2003.

2. M. J. Zaki. Efficiently mining frequent trees in a forest. In Proceedings of the 8th ACM SIGKDD Int’l Conference on Knowledge Discovery and Data Mining, Edmonton, Canada, jul 2002.

Page 35: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

)ادامه(مراجع

3. J. Han, J. Pei, and Y. Yin. Mining frequent patterns without candidate generation. In Proceedings of the ACM SIGMOD Conference, 2000.

4. R. Agrawal and R. Srikant. Fast algorithms for mining association rules in large databases. In Proceedings of the Twentieth International Conference on Very Large Databases, pages 487–499, Santiago, Chile, 1994.

Page 36: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

سوالی که نیست؟!؟!

Page 37: داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

با تشکر از توجه شما

سبحان موسوی نژاد

89 تابستان