داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

داده کاوی کارا برای زیر درخت های مکرر بیشینه

Efficient Data Mining for Maximal Frequent Subtrees

استاد راهنما : دکتر رهگذرسبحان موسوی نژاد

89 تابستان

مراجع

Proceedings of 3rd IEEE International Conference on Data Mining (ICDM), pages 379{386, 2003.

فهرست مطالب

مقدمه•مفاهیم اولیه •بیان مسئله•Path Joinالگوریتم •نتایج تجربی•نتیجه گیری•مراجع•

مقدمه

کاوشAssociation Rules( و رشته ها Sequence مسائل یک : )بعدی

کاوش زیر درخت و گراف : مسائل دو بعدی

کاربرد درخت کاوی

Web Usage Mining

Bio informatics

نقطه آغاز این کار

Traversal و Usage و یافتن الگوهای Websites های Logبررسی

مسائل : بوده Usage ها برای Sequenceتحقیقات قبلی کثرا به دنبال رشته ها و

اند.Web!را به صورت تکبعدی نگریسته اند Web ذاتا ساختار سلسله مراتبی Hierarchal.و یا گرافی دارد

ها.Access Sessionکار ما : یافتن الگوها با استفاده از Tree Structure ها Access Sessionساختار

و Induced و زیر درخت ها نامرتبدرخت ها در اینجا Maximal.هستند

مفاهیم اولیه

Root Pathمسیر ریشه ای نمایش هر مسیر ریشه ای توسط برچسب آخرین نود در

مسیر

Root Subtreeزیر درخت ریشه ای (F,B,D,E)

)ادامه(مفاهیم اولیه

Embedded(درونی)

Induced(منتج)

Item Set Representation For Root Subtree

Itemsetنمایش هر زیر درخت به عنوان یک

باشند : نمایش یکتاInducedاگر الگو ها

<A,C,E> :

Maximal Subtree

یک زیر درخت مکرر، بیشینه است اگر زیر درختی از •یک زیر درخت مکرر دیگری نباشد

بیان مسئله

Unweighted Support

freqD(s) = ∑ TєD freq T (S) ( freqT(s) =0,1)

supD(s)= freqD(s) / |D|

Weighted Support

SUPD(s) = ∑ FREQT(S) / ∑ TєD |T| FREQT(S) = 0 , n (n : if accurse n time )

The Frequent Subtree mining Problem

، با تعریف Dدر یک پایگاه داده از درختان همچون •

، هدف یافتن تمام زیر Smin یا sminآستانه ای همچون درخت های مکرر بیشینه.

فرضیات :•درخت ها نامرتب–برچسب ها : قابل تکرار –برچسب فرزندان یک نود : یکتا– باشد.Unweighted و یا Weighted می تواند Supمقدار –

یک نکته !

چرا ما به دنبال درخت های نامرتب هستیم ؟

تحلیWل و بررسWی حWال در رفتWار وقWتی هسWتید، مسWئله Web Pageدر یWک کWاربر

کWه اسWت صWفحاتی یWافتن نظWر مWورد تWرتیب نWه نمWوده؛ بازدیWد آنهWا از کWاربر

آنها!

ایده آغازین

ها Maximal Frequent Pathیافتن تمامی Infrequentحذف تمامی نودهای

Maximal Frequentادغام آنها جهت دستیابی به Subtree ها

Maximal Frequent Path 1- Freq Itemset

K- Freq Itemset ها Freq Itemset- 1 تا از Kادغام

Path Joinالگوریتم

Outline

.I اسکن اولیه پایگاه داده برای شناساییFreq 1-Itemset

.II اسکن ثانویه جهتPrune کردن نودهای غیر مکرر و FST-Forestساختن ساختار داده

.III یافتن تمامMaximal Frequent Root Path

.IV ادغام اینRoot Path ها و ساختن Maximal Freq Root Subtrees

FST - Forest

Forest treesBasic Node Structure

FST – Forest (cont)

برای هر درخت، ایندکس بر اساس ریشه آن درخت •می باشد.

FP-Growthشباهت این ساختار با • تنها در برگ ها : صرفه جویی در Tree Idsذخیره •

حافظهذخیره درخت ها به صورت رشته •بازسازی سریعتر درخت ها در حافظه•

گام اول : حذف نودهای غیر مکررInfrequent Nodes Elimination

After Pruning

ادغام درخت های با ریشه مشترک

برخی نکات

، ممکن است درختانی با ریشه Pruningتوجه : پس از فرآیند جدید حاصل گردند.

ها به صورت مرتب Tree ids Listپس از اتمام این مرحله، .FST Forestخواهند بود : ساختار

برای هر رشته ی درختی در پایگاه داده، زمان ساختن درخت متناظر در حافظه : به صورت خطی و متناسب با طول رشته.

.O(n)، زمان DFSمشخص کردن نودهای مکرر : الگوریتم .O(n)، زمان DFSزمان مورد نیاز برای ادغام : الگوریتم

زمان کلی الزم جهت ساختن کل جنگل : خطی متناسب با تعداد درختان.

تنها در برگ ها.Tree Idsاستفاده بهینه از حافظه اصلی : ذخیره

یافتن مسیرهای ریشه ایRoot Paths

مسیر های مکرر ریشه ای: مسیرهای مکرر بیشینه•

هدف: شمردن تمام مسیر های ریشه ای، چه مکرر و •چه غیر مکرر.

ادغام: مسیری که ریشه ای نیست؛ برچسب شروع آن –ریشه یک درخت دیگر است؛ ادغام این مسیر با آن درخت.

درج کردن: برای مسیر بیشینه غیر ریشه ای، درختی جدید –اضافه می شود.

)ادامه(یافتن مسیرهای ریشه ای

Merge پس از مرحله Pruningگام

DFSحذف نودهای غیر مکرر، اجرای الگوریتم • نودهای حذف شده با اولین جد حذف Tree Idsادغام •

نشده آنها.

After Pruning

گام آخر

Maximal Frequent Root Pathحاال تمام مسیر ها •هستند.

Aprioriحاال با توجه به الگوریتم •Level Wiseبه صورت – Itemset(-K-1 های مکرر از روی )K-Itemsetپیدا کردن –

های مکرر. ها.Itemset-2شروع از –

ها و الگوریتم Itemsetبحث بر سر Apriori

(آیتم ست :k-1برای دو تا ) •

و

k آیتم ست

تولید خواهد شد اگر :

و تمامی زیر مجموعه های آن مکرر باشند.

Maximizingگام

تا اینجا تمامی زیر درخت های مکرر یافته شده اند

حاال باید به دنبال زیر درخت های مکرر بیشینه بود.

Local Maximizing بیشینه سازی محلی برای هر درخت، زیر درخت های آن میباید بیشینه باشند.

Global Maximizingبیشینه سازی کلی در حالت کلی، در بین تمام درخت های جنگل، زیر درخت های

کاوش شده میباید بیشینه باشند.

؟ Maximizingچرا

در اختیار داشتن یک دید کلی از کل وب سایت.

نتایج تجربی

زمان اجرا

زمان اجرا

تعداد زیر درخت های کاندید

استفاده از حافظه

نتیجه گیری

نوعی جدید از درخت کاوی در این مقاله معرفی شد الگوریتمPath Join برای یافتن Maximal Frequent

Subtree.ها ارائه شد استفاده الگوریتم از ساختمان داده فشردهFST

Forest استفاده از روش تولید زیر درخت های کاندید به

صورت محلی.کاهش تعداد زیر درخت های کاندید

مراجع

1. Y. Xiao and J.F. Yao. Efficient data mining for maximal frequent subtrees. Proceedings of 3rd IEEE International Conference on Data Mining (ICDM) , 2003.

2. M. J. Zaki. Efficiently mining frequent trees in a forest. In Proceedings of the 8th ACM SIGKDD Int’l Conference on Knowledge Discovery and Data Mining, Edmonton, Canada, jul 2002.

)ادامه(مراجع

3. J. Han, J. Pei, and Y. Yin. Mining frequent patterns without candidate generation. In Proceedings of the ACM SIGMOD Conference, 2000.

4. R. Agrawal and R. Srikant. Fast algorithms for mining association rules in large databases. In Proceedings of the Twentieth International Conference on Very Large Databases, pages 487–499, Santiago, Chile, 1994.

سوالی که نیست؟!؟!

با تشکر از توجه شما

سبحان موسوی نژاد

89 تابستان

Documents

داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees