38
شخیص روبات ت از خوشهستفاده ا با های وب بنذی مارکوفواد ساػتا ا: اىی خفای کتش هدیذاب آقای د خ اسائذ د: حی رتیذی هم خذاا تستانات ت1393

Master Thesis Presentation-Zabihimayvan-in persian

Embed Size (px)

Citation preview

بنذی مارکوف های وب با استفاده از خوشه تشخیص روبات

خاب آقای دکتش هدیذ فایی خاى: اػتاد ساوا

هذی رتیحی: دذ اسائ

ت ام خذا

1393تاتستان

ای ب ستات

ب كفحات اص داؾ اػتخشاج تشای اییتشاه :تؼشیف•كستت دػتشػی قاتل اػاد توام تاصدیذ كفح تؼذادی اص خد کاس آغاص

.تاصگـتی

(سفتاس خؽ) غیشهخشب هخشب :ااع• :تاصدیذکذگاى ایي خد تش اسد هـتشک ایشادات•

ػشس تاصدی کاؾ ؿثک تاذ پای اؿغال

اؼای کاستشاى تشای اهیت کاؾ :هخشب ای ستات اػاػی ایشاد•

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

1/33

ای ب ای هخد دس ؿاػایی ستات چالؾ

طشاحی تشای هخد اػتاذاسدای قایي سػایت ػذم• (هخشب اذاف یؼی، تشاه دس ضؼف اگاسی، ػل) ا ستات

سفتاس تقلیذ دس ػؼی تید دس هخشب اذاف داؿتي• اؼاى

کاستشاى یت کذ هخفی اتضاسای ا ػایت خد• ای ستات حتی) ب دس ا ستات تشخی اطالػات خد ػذم•

(هخشب غیش

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

2/33

(ای یادگیشی تحلیلی تکیک)کاسای گزؿت

فایل ثبت قایع

ا شاسایی شست

ا استخراج یژگی

ا زی شست برچسب هجوع داد آزهى

هجوع داد آهزش

هذل یادگیری تحلیلی

پشداصؽ پیؾ فایل

ثثت قایغ

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

Doran, D. and Gokhale, S. S. (2010). Web robot detection techniques: overview and limitations. Data Mining and Knowledge Discovery, 22: 183-210.

3/33

(اداه)کاسای گزؿت

ای هشػم دس تؼییي ضؼف سؽا اتؼتگی دقت تشچؼة و

حاكل ت دقت تؼییي ایي تایح ا تشچؼة

ؿثک تیضیي• ؿثک تاس تیضی• هذل هخفی هاسکف• دسخت تلوین• ػیؼتن اػتتاج فاصی• ؿثک ػلثی••....

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

• Doran, D. and Gokhale, S. S. (2012). A classification framework for web robots. Journal of the American Society for Information Science and Technology, 63(12): 2549-2554.

• Kwon, S. et al. (2012). Web Robot Detection based on Monotonous Behavior. Information Science and Industrial Applications, 4.

• Lee, J., Cha, S., Lee, D., Lee, H. (2009), Classification of web robots: An empirical study based on over one billion requests, Computers & Security, 28(8): 795-802.

• Petrilis, D. and Halatsis, C. (2008). Two-level Clustering of Web Sites Using Self-Organizing Maps. Neural Processing Letters, 27(1): 85-95.

4/33

(اداه)کاسای گزؿت

کي د خدػاصهاى ؿثک تذی خؿ•ART2

تشچؼة تؼییي دقت ت حاكل تایح دقت اتؼتگی ػذم اسصیاتی خت كشفا ا تشچؼة ایي اص اػتفاد ا و تذی خؿ الگسیتن ػولکشد تااظش

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

Stevanovic, D., Vlajic, N., and An, A. (2013). Detection of malicious and non-malicious website visitors using unsupervised neural network learning. Applied Soft Computing, 13(1): 698-708.

5/33

تذی هاسکف الگسیتن پیـادی هثتی تش خؿ

پیـادی الگسیتن•قایغ ثثت فایل پشداصؽ پیؾ هشحل

(تذی خؿ الگسیتن تشای هاػة سدی هاتشیغ تلیذ ذف تا (هاسکف

هاسکف تذی خؿ الگسیتن :تحلیلی یادگیشی هذل:

هاسکف تذی خؿ الگسیتن تغییشیافت ؼخ

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

6/33

پشداصؽ فایل ثثت قایغ پیؾ: الگسیتن پیـادی

:ا ـؼت ؿاػایی•هـات کاستش ػاهل سؿت یا یکؼاى پی آی آدسع تا تقاضا د (اػتاذاسد صهاى) دقیق 30 اص تش کن صهای اختالف

:ا یظگی اػتخشاج•تل فایل دسخاػت

(پیـادی خذیذ) هشسگش ایفایل دسخاػت حذاکثش (پیـادی خذیذ)پالتی یا خشیو 304 ضؼیت کذ تا پاػخ دسكذ

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

7/33

ای فایل)قایغ پشداصؽ فایل ثثت پیؾ: الگسیتن پیـادی(تل

فایل ”robots.txt”,”cmd.exe“ :تل ای فایل• ”sitemap.xml“ پیشادی

كفحات اص لیؼتی ؿاهل :”sitemap.xml“ فایل• تػیل ساحتیت ک ایتشتی ایآدسع ػایت

اكل دس یؼتذ سیت قاتل خخؼت هتسای-خؼت هتسای ت هتؼلق ایستات تشای ساوایی

خ

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

8/33

حذاکثش )قایغ پشداصؽ فایل ثثت پیؾ: الگسیتن پیـادی(ای هشسگش دسخاػت فایل

تػط ػشس ب ت تقاضا ػیؼی حدن خدکاس اسػال• آى، تحلیل ب كفح یک دسخاػت اص تؼذ هشسگش كفح آى دس ؿذ تؼثی هاتغ تشداؿت خت

ای فایل ػاى ت ؿذ تؼثی هاتغ ایي گزاسی ام• هررگر

js, css, woff, eot, svg, ttf, jsp, asp, aspx, tpl, xsl, cfm, xml, swf, flv, fla, f4v, sw, raw, amr, bwf,…

ع ایي دسخاػت دس ا ستات تاایی یا ػالق ػذم• (کاستش ػوت ای اػکشیپت خلف ت) ا فایل

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

9/33

Client Server Time

تقاضا برای فایل ای 50 A.htmlهررگر در صفح

تقاضای رسیذ50پاسخ

تقاضا برای فایل ای 20 B.htmlهررگر در صفح

تقاضای رسیذ20پاسخ

حذاکثش )قایغ پشداصؽ فایل ثثت پیؾ: الگسیتن پیـادی(ای هشسگش دسخاػت فایل

حذاکثش دسخاػت

ای فایل; هشسگش

50

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

10/33

اؼاى .Vs ستات

خشیو )قایغ پشداصؽ فایل ثثت پیؾ: الگسیتن پیـادی(یا پالتی

دس استات تاایی اطالػات اكلی هکاى یافتي

خد، دلخا ػایت یک الی سیت تؼذ

ػاختاس ت هحذد دیذ ػایت ایلیک

حشکات داؿتي تید دس تشگـتیسفت دلخا اطالػات یافتي تشای خد

ای تکشاسی تش تشای اؼاى ک گا ؿاهل حلقالگای پیوایـی پیچیذ: تید .یض ؼت

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

11/33

خشیو )قایغ پشداصؽ فایل ثثت پیؾ: الگسیتن پیـادی(یا پالتی

Client Server Time ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

1; پالتی

12/33

پشداصؽ فایل ثثت قایغ پیؾ: الگسیتن پیـادی(خشیو یا پالتی)

• Sequence = a, b, a, c, d, c, d, e, d, a.

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

a

d

c b

e 5; پالتی 13/33

کؾ ػول اػوال ػشس پاػخ دس 304 کذ خد• کاستش تػط اطالػات

اطالػات کشدى کؾ ت ب ای ستات ػالق ػذم•

دسكذ )قایغ پشداصؽ فایل ثثت پیؾ: الگسیتن پیـادی(304پاػخ تا کذ ضؼیت

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

Bomhardt, C., Gaul, W., and Schmidt-Thieme, L. (2005). Web Robot detection pre-processing web log files for Robot Detection. New Developments in Classification and Data Analysis: 113-124.

14/33

قایغ پشداصؽ فایل ثثت پیؾ: الگسیتن پیـادی(ا صی ـؼت تشچؼة)

تذی خؿ الگسیتن تااظش اسصیاتی :ذف• :(هقاالت ػایش دس هؼول) ؿذ اػتفاد سی•

ػاى ت تل، ای فایل فشاخاذ ای ـؼت کلی صی تشچؼة .1 ستات

(WebLog Expert) ا ستات اطالػات اص ای داد پایگا تی .2 ستات ػاى ت هـات ای ـؼت صی تشچؼة

اؼاى ػاى ت ػایشیي صی تشچؼة .3

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

Doran, D. and Gokhale, S. S. (2010). Web robot detection techniques: overview and limitations. Data Mining and Knowledge Discovery, 22: 183-210.

15/33

هشحل )تذی هاسکف الگسیتن خؿ: الگسیتن پیـادی (پشداصؽ پیؾ

هدوػ داد سدی

هاتشیغ سدی

ػاصی شهال

Min-Max

ایداد هاتشیغ ؿثات (ؿثات کؼیػی)

تثذیل هاتشیغ ؿثات ت هاتشیغ هداست

ػاصی ػتی شهال

' min( max min ) min

max min

AA A A

A A

vv new new new

1

2 2

1 1

.( , )

( ) ( )

n

i i

i

n n

i i

i i

A BA B

CosSimilarity A BA B

A B

-Min:ػاصی شهال

Max

:ؿثات کؼیػی

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

16/33

هشحل )تذی هاسکف الگسیتن خؿ: الگسیتن پیـادی(پشداصؽ پیؾ

هاتشیغ ؿثات•تذیی اػت :

MG یا Gتلیذ هاتشیغ هداست گشاف •

11 1

1

m

Similarity

m mm m m

a a

M

a a

1,ii ij jia a a

[ , ] 0 [ , ] 1s Gif M i j M i j

[ , ] 0Gelse M i j

MG Minput:ػاصی ػتی تش سی شهال

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

17/33

تذی هاسکف خؿهؼشفی الگسیتن : الگسیتن پیـادی

MCL Algorithm:

Input: associated matrix of an undirected Graph, Power parameter e,

Inflation parameter r.

1. Normalize the associated matrix (column-wise normalization).

2. Repeat

3. Expand by taking the power of the matrix.

4. Inflate by taking inflation of the resulting matrix with parameter.

5. Prune small values.

6. Until the steady state is reached(convergence).

7. Interpret resulting matrix to discover clusters.

the

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

Dongen, S. v. (2000). Graph Clustering by Flow Simulation. Ph.D. Thesis, University of Utrecht.

MCL الگسیتن ت هؼشف•

هدوػ تذی خؿ خت تیافسهاتیک تحقیقات دس قی الگسیتوی• طتیکی ای و اص ػظین ای داد

18/33

e پازامتس تحت تسط عملگس•

تالقی ماتسیس زساودنتان ت معادل (معمال e=2) مسیسای تسیل ک زئسی سایس ت ود یک اش جسیان اوتشاز مسثة

ستىد ود آن دستسس دز چىدگاو

دز یکسان، خش یک اش ود دي تیه تیشتس مسیسای تعداد يجد ماتیه ایجسیان تقیت متفايت ایخش اش ودا تا مقایس

تسط عملگس تسیل خش یک ودای

تذی هاسکف هؼشفی الگسیتن خؿ: الگسیتن پیـادی ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

19/33

تذی هاسکف هؼشفی الگسیتن خؿ: الگسیتن پیـادی ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

1

( ) ( ) / ( )k

r r

r pq pq iq

i

M M M

20/33

وایی سکن حالت•

تغییس عدم ي ماتسیس سطس س صفسغیس مقادیس کلی تساتسی تیشتس تکساز اثس دز ماتسیس ایدزای مقادیس

مقداز یک حداقل تا وایی ماتسیس اش ایدزای :جاذب گس خد سطس دز غیسصفس

سطس دز مجد غیسصفس ایدزای :شود جرب ای گس جاذب گس یک

تذی هاسکف هؼشفی الگسیتن خؿ: الگسیتن پیـادی

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

0 0 0 …. 0 0 0 0 0 0 …. 0 0 0 .1 0 .1 …. 0 .1 .1 0 0 0 …. 0 0 0 0 0 0 …. 0 0 0 .5 .5 .5 …. 0 .5 0 0 0 0 …. 0 0 0

21/33

تذی هاسکف یافت خؿ الگسیتن تغییش ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

22/33

الگسیتن ت گشاف ای گش هداست اص تتشی تاصتاب القای• تذی خؿ

احشاف هیاگیي اختالف تشاػاع اهشتثط هقادیش شع• تؼذاد الگسیتن اخشای صهاى کاؾ ػتى ش هقادیش اكلی حلق تکشاس

هیای هاتشیغ اتؼاد کاؾ یضا یافتي•

تذی هاسکف یافت خؿ الگسیتن تغییش ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

Szilágyi, L., Medvés, L., and Szilágyi, S. M. (2010). A modified Markov clustering approach to unsupervised classification of protein sequences. Neurocomputing, 73: 13-15.

. . 0 . . .

. . 0 . . .

. . .7 . . .

. . 0 . . .

. . 0 . . .

. . 0 . . .

23/33

ای اتخاتی تشسػی یظگی: 1آصهایؾ

تشسػی ح تصیغ هقادیش ش یظگی تیي د و اؼاى ستات

"ای تلدرخاست فایل" "ای هررگرحذاکثر درخاست فایل"

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

هحس ػودی > 10=گش هقادیش ش یظگی دس تاص هحس افقی وداسا تیاى .دذ ع ش و اػت ـاى

24/33

ای اتخاتی تشسػی یظگی: 1آصهایؾ

"304درصذ پاسخ با کذ ضعیت " "پالتی"

هحس ػودی > 10=گش هقادیش ش یظگی دس تاص هحس افقی وداسا تیاى .دذ ع ش و اػت ـاى

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

25/33

ای اتخاتی تا تؼذادی اص هقایؼ یظگی: 1آصهایؾای هشػم یظگی

ای ربات هقادیر شبات بیي و یژگی 4براساس

ای رباتهقادیر شبات بیي و یژگی 10براساس

حل هـکل فشیي اتؼاد کاؾ صهاى الصم تشای تلیذ هاتشیغ سدی : تید تذی الگسیتن خؿ

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

26/33

اػوال الگسیتن پیـادی: 2آصهایؾ

تعذاد اساى

تعذاد ربات

تعذاد شست

تعذاد کل رکردای فایل ثبت قایع

بررسیسایت هرد

-ب ػایت داـگا تیي 311633 17969 1170 16799 سضاالوللی اهام

تاصػایت آهصؿی آستیکل 372304 22092 3948 18144

:پشداصؽ پیؾ هشحل دس•خض هثؼی تشای دسخاػت آى ک دسخاػت یک تا اییـؼت حزف

اػت تل فایل :اخشا هشحل دس•

e=2 r=2.5 اص تؼذ هیاگیي طست هدوػ، د ش سی تش اخشا یافتي پایاى

تکشاس 5تکشاس 3 تا هیاگیي طس ت اكلی حلق تکشاس تؼذاد کاؾ

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

27/33

اػوال الگسیتن پیـادی: 2آصهایؾ

دس هدوػ ای اؼاى ستات تلیذ ؿذ تشای خؿ Recallتشسػی کویت داد ػایت داـگا

nij : تؼذاد اػضای دػتi دس خؿj nj ا تا تشچؼة تؼذاد کل وi

Re ( , )ij

i

ncall i j

n

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

28/33

اػوال الگسیتن پیـادی: 2آصهایؾ

درخاست اوای فایل

تل

حذاکثر -درخاست فایل ای هررگر

درصذ پاسخ با پالتی 304کذ ضعیت

ای در ربات خش اساى

كفش كفش یا هخالف كفش هخالف كفش 0

ای در اساى خش اساى

كفش یا هخالف اکثشا هخالف كفش هخالف كفش 0 كفش

ای در ربات خش ربات

1 0 0 0

ای در اساى خش ربات

كفش یا هخالف اکثشا هخالف كفش هخالف كفش 1 كفش

0 0 0 0 یسا

:ای هختلف قشاس گشفت دس ش خؿ هـخلات وا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

29/33

اػوال الگسیتن پیـادی: 2آصهایؾ

درصذ پالتی کاربررشت عاهلپاسخ با

کذ ضعیت

304

حذاکثر درخاست فایل هررگر

درخاست فایل تل

ام ربات

Mozilla/ 5.0 (Windows NT 6.1; WOW64) AppleWebKit/534+ (KHTML, like Gecko) BingPreview/1.0b

0

0

57

0

BingPreview

Mozilla/ 5.0 (X11; Linux x86_64) AppleWebKit/ 537.36 (KHTML, like Gecko; Google Web Preview)

0.53

0

66

0

Google Web Preview

HuaweiSymantecSpider/[email protected]

0.33

0

10

0

Huawei Symantec

Spider

:ای هقلذ سفتاس اؼاى هـخلات ستاتا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

30/33

اسصیاتی الگسیتن پیـادی هقایؼ آى : 2آصهایؾ SOMتا الگسیتن

الگریتن SOM

گیریهعیار اذاز الگریتن پیشادی

0.70 0.997

0.15 0.94

0.3 0.025

0.91 0.982

TP TNRI

TP TN FP FN

TPJaccard

TP FP FN

1

2

1

,

( , ) log ( , )

c

L

nj

j

j

n

j

i

nEntropy e

n

e precision i j precision i j

1

,

max ( , )

cnj

j

j

j i

nPurity p

n

p precision i j

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

31/33

اسصیاتی الگسیتن پیـادی هقایؼ آى : 2آصهایؾ SOMتا الگسیتن

SOM الگسیتن هضایای•

تؼذی د كفح ت تاال اتؼاد اص اداد گاؿت– یض ایداد تشاتش دس هقاهت–

SOM الگسیتن هؼایة• اػتاذاسی خد ػذم اسى تؼذاد ت الگسیتن ػولکشد اتؼتگی•

تؼذاد ایي تؼییي تشای هـخق

اخشای تاس ش اصای ت حاكل تایح تغییش اسى الی صى تدى تلادفی• SOM الگسیتن

آهصؽ فشایذ تکشاس تؼذاد افضایؾ اثش دس حاكل تایح دقت افضایؾ• الگسیتن اخشای صهاى افضایؾ هتؼاقثا

ایی ایخؿ اسصیاتی تفؼیش تدى تش ػخت گیش قت•

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

32/33

گیشی تید

تذی، ت کیفیت سؽ اػتفاد اتؼتگی دقت یک الگسیتن خؿ•ای اویت اتخاب یظگی)ا ؿذ ح تؼشیف تكیف داد

(هاػة هشتثطای ایی تا دسخ دقت تاالی الگسیتن پیـادی دس تلیذ خؿ•

0.0215 آتشپی ٪97.7خلف ، اص قط SOMػولکشد تتش سؽ پیـادی ؼثت ت الگسیتن •

ای ایی ظش کیفیت دقت تلیذ خؿ

ا تؼشیف ستات

ا چالؾ

کاسای هشتثط

الگسیتن پیـادی

ا آصهایؾ

هقایؼ

گیشی تید

33/33