10
ده از ا ف ت س ا ا ری ب ب خ لات ا ف م دی ن ب ه ش و خWordNet ی ن ا ن# ی م ط ر ا کب م د ن ا اد: خ ن س ا ده ن ه ه د- ئ : ازا ی م# ی ر ک ا رض# لب ع ر# ب8 ئ ا9 ب1391

Aclusteringtechniquefornews articlesusingWordNet-AlirezaKarimi

Embed Size (px)

Citation preview

Page 1: Aclusteringtechniquefornews articlesusingWordNet-AlirezaKarimi

خوشه بندی مقاالت خبری WordNetبا استفاده از

استاد: خانم دکتر اطمینانی: ارائه دهنده

علیرضا کریمی

1391پاییز

Page 2: Aclusteringtechniquefornews articlesusingWordNet-AlirezaKarimi

:فهرست مطالبخوشه بندی چیست؟شیوه های خوشه بندیWordNetچ-یست؟ معماری سیستم خوشه بندی مقاالت خبری اجرا و پیاده سازیW-k meansکارهای آینده

Page 3: Aclusteringtechniquefornews articlesusingWordNet-AlirezaKarimi

خوشه بندی چیست؟:تعریف خوشه بندی

تقسیم داده ها درون دسته هایی به نام خوشه، بهطوریکه داده های درون هر خوشه تا حد امکان به هم شبیه بوده و داده های درون خوش های مختلف تا حد

امکان تا حد امکان با هم متفاوت باشند. خوشه بندی تکنیکی قدرتمند برای سازماندهی

اطالعات در هسته های اطالعاتی کوچکتر و قابل مدیریت

Page 4: Aclusteringtechniquefornews articlesusingWordNet-AlirezaKarimi

:شیوه های خوشه بندی تکنیک های خوشه بندی به دو دسته کلی تقسیم

می گردند:سلسله مراتبیافرازی

خوشه بندی افرازی: با تقسیم بندی یک سطحی خوشه یکباره ایجاد می گردد به kانجام می گیرد،

طوری که فاصله تمام اقالم داده ای از مراکز خوشه ها، حداقل گردد.

Page 5: Aclusteringtechniquefornews articlesusingWordNet-AlirezaKarimi

:شیوه های خوشه بندی خوشه بندی افرازی: با تقسیم بندی یک سطحی انجام

خوشه یکباره ایجاد می گردد به طوری kمی گیرد، که فاصله تمام اقالم داده ای از مراکز خوشه ها،

حداقل گردد. :برخی الگوریتم های خوشه بندی افرازی

K-meansK-mediansK-medoids

تفاوت این الگوریتم ها در یافتن مراکز خ-وشههاست.

Page 6: Aclusteringtechniquefornews articlesusingWordNet-AlirezaKarimi

:شیوه های خوشه بندی الگوری-تمEM برای k-means:

نقطه داده به عنوان مراکز ثقل اولیهkانتخاب 1.

تخص-یص د-اده ها به نزد-یکترین مرکز ثقل2.

محاسبه مرکز ثقل جدید برای هر خوشه3.

تا زمانی که د-یگر تغییری در مراکز 3و2تکرار مراحل 4.خوشه ها رخ ندهد.

Page 7: Aclusteringtechniquefornews articlesusingWordNet-AlirezaKarimi

WordNet :بزرگترین پایگاه داده واژگان انگلیسی واژه در گروه های 150000شامل بیش از

اسم-ی، فعلی، صفتی و قیدی امکان سازماندهی روابط مختلف زبانی بصورت

سلسله مراتبی با دادن یک لغت، روابطhypernym،

hyponym، meronymو holonym را با ساختار گرافی تولید می کند.

Page 8: Aclusteringtechniquefornews articlesusingWordNet-AlirezaKarimi

:معماری سیتم خوشه بندی مقاالت خبری

Page 9: Aclusteringtechniquefornews articlesusingWordNet-AlirezaKarimi

:W-k meansاجرا و پیاده سازی

Page 10: Aclusteringtechniquefornews articlesusingWordNet-AlirezaKarimi

:W-k meansاجرا و پیاده سازی

تابع هیورستیک :