21
Aralık 2002 Tıkların Dili TIKLARIN DİLİ Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş bir veri tabanından nasıl yararlanılabilir? [email protected]

TIKLARIN DİLİ

  • Upload
    marie

  • View
    111

  • Download
    3

Embed Size (px)

DESCRIPTION

TIKLARIN DİLİ Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş bir veri tabanından nasıl yararlanılabilir? [email protected]. Giriş Web Madenciliği Sınıflandırması Patern Tespit Teknikleri Web Madenciliği Prosesi IYTE Web Kullanım Madenciliği Sistemi - PowerPoint PPT Presentation

Citation preview

Page 1: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

TIKLARIN DİLİ 

Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş bir

veri tabanından nasıl yararlanılabilir?

[email protected]

Page 2: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

İçerik

Giriş Web Madenciliği Sınıflandırması Patern Tespit Teknikleri Web Madenciliği Prosesi IYTE Web Kullanım Madenciliği

SistemiVeri HazırlamaİYTE Web Madenciliği VertabanıSorgu Mekanizması

Sonuç Planlanan Çalışmalar

Page 3: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

“Web madenciliği, veri madenciliği teknikleri kullanarak, World Wide Web dökümanları ve servislerinden, otomatik olarak, anlamlı bilgi çıkarmaktır”

Etzioni

Giriş

Sınıflandırma

Teknikler

Page 4: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

Problemler

Fazla karışık, değişik bilgi tipleri, standardizasyon yetersizliği

Kısıtlı kapsam, ulaşılamayan veritabanları

Kısıtlı sorgu arayüzleri (anahtar kelimeye göre)

Kısıtlı kişiselleştirme

Web üstündeki bilginin az bir bölümü gerçekten ilgili ve faydalı

Giriş

Sınıflandırma

Teknikler

Page 5: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

Web YapıMadenciliği

Web KullanımMadenciliği

Web sitesi ve sayfalarının yapısal olarak özetini çıkarmaya çalışır

Web Madenciliği Sınıflandırması

Kullanıcı erişimleri esnasında oluşan hareket verisinden anlamlı ve faydalı paternler bulmaya çalışır

Web Madenciliği

Erişilebilir web kaynaklarından faydalı bilgi bulmaya çalışır

Web İçerikMadenciliği

Sınıflandırma

Teknikler

IYTE WUM Sistemi

Page 6: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

Sistem İyileştirme

•Schecher•Aggarval

Genel Kullanım(Business Intelligence & Usage Characterization)

•Surfaid•WebLogMiner

Web Madenciliği Sınıflandırması

Kişiselleştirme

•WebWatcher•WebPersonalizer•Analog

•WebSIFT•WUM•Shahabi

Site Güncelleme

•PageGather

Web Yapı Madenciliği

Web KullanımMadenciliği

Web Madenciliği

Web İçerikMadenciliği

Sınıflandırma

Teknikler

IYTE WUM Sistemi

Page 7: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

Tanımsal İstatistikçeşitli değişkenlere dayalı analizler

İlişkilendirme Kuralları veriler arasında önceden kestirilemeyen ilişkiler bulma

Gruplama/Kümelemebenzer özellikteki verileri gruplama

Sınıflandırma verileri tanımlı sınıflara atama

Sıralı Paternlerbağlantılar süresince oluşan paternleri bulma

Bağımlılık Modellemesifarklı değişkenler arasındaki bağımlılıkları ortaya koyan modeller

oluşturma

Patern Tespit Teknikleri Teknikler

Proses

IYTE WUM Sistemi

Page 8: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

Web Madenciliği Prosesi

Veri Temizleme

Veri Entegrasyonu

Web erişim verisi

İlgili Veri

Seçim

Veri MadenciliğiPatern Tespiti

Patern Değerlendirme

Veri Tabanları

Teknikler

Proses

IYTE WUM Sistemi

Page 9: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

 

SunucuErişim Verisi

 

 Sunucu

Hata Verisi

 Sunucu

Kullanıcı Verisi

 Temizlenen Sunucu

Erişim Verisi

 Temizlenen Sunucu Hata

Verisi

 Temizlenen Sunucu

Kullanıcı Verisi

 IYTE WUM VERİTABANI (Mysql)

 IYTE WUM VERİTABANI (Mysql)

Veri Temizleme(Java Classes)

Veri Temizleme(Java Classes)

 

Tanımsal Sorgu

Mekanizması 

(Mysql DML)

 

Tanımsal Sorgu

Mekanizması 

(Mysql DML)

İlişkilendirme Kuralları 

(Java Classes, JDBC & MySQL DDL & DML)

İlişkilendirme Kuralları 

(Java Classes, JDBC & MySQL DDL & DML)

Veri Seçimi & Entegrasyonu

(Java Classes, JDBC & MySQL DDL)

Veri Seçimi & Entegrasyonu

(Java Classes, JDBC & MySQL DDL)

Apriori Sorgu

Mekanizması

(Mysql DML)

Apriori Sorgu

Mekanizması

(Mysql DML)

IYTE WUM Sistem Mimarisi IYTE WUM Sistemi Sonuç

Plan. Çalışmalar

IYTE Web Sitesi İçerik

Verisiwww.iyte.edu.tr

Page 10: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

Bilgisayar ismi ya da bağlanan makinanın IP adresi

CLF Kayıt Yapısı  

Remote Host

Login ismi, gönderilmez, genellikle boş

GET sayfa talepleri için, POST teslimler için

– Ident and Authuser – [Date and Time] “Request” Status

Bytes

 pergamon.iyte.edu.tr [20/Jun/2000:15:13:05 +0300]''GET /courses.html HTTP/1.1 '' 304 pergamon.iyte.edu.tr [20/Jun/2000:15:13:05 +0300]''GET / will/courses/CS101/ HTTP/1.1'' 304 pergamon.iyte.edu.tr - - [20/Jun/2000:15:13:05 +0300]”GET / gif/geney.jpg HTTP/1.0 “ 304 - pergamon.iyte.edu.tr - - [20/Jun/2000: 15:13:05 +0300]” GET / gif/acad.gif HTTP/1.0 “ 304 -pergamon.iyte.edu.tr - - [20/Jun/2000:15:13:05| +0300]” GET / gif/ciz7.gif HTTP/1.0 “304 -

+---------------------------+---------------+-----------+---------+-----------+--------+-------------------------------+--------+-------+| user | ldate | ltime | rtime | demand | url_m | url | sts_m | status |+---------------------------+---------------+-----------+--------+------------+------------+-------------------------------+----+-------+| pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/yazi.gif HTTP/1.0 | 304 | 304 -|| pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/zemin1.gif HTTP/1.0 | 304 | 304 -|| pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/geney.jpgHTTP/1.0 | 304 | 304 -|| pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/acad.gif HTTP/1.0 | 304 | 304 -|| pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/living1.gif HTTP/1.0 | 304 | 304 -|+---------------------------+---------------+-----------+---------+-----------+--------+-------------------------------+--------+------+

IYTE WUM Sistemi Sonuç

Plan. Çalışmalar

Page 11: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

[Thu Aug 19 14:02:34 1999] Server configured -- resuming normal operations[Thu Aug 19 14:12:27 1999] accept: (client socket): Connection timed out[Thu Aug 19 14:12:27 1999] accept: (client socket): Connection timed out[Thu Aug 19 14:13:01 1999] accept: (client socket): Connection reset by peer[Thu Aug 19 14:17:05 1999] accept: (client socket): Connection timed out[Thu Aug 19 14:17:59 1999] accept: (client socket): Connection timed out[Thu Aug 19 14:18:52 1999] accept: (client socket): Connection timed out[Thu Aug 19 14:44:40 1999] accept: (client socket): No route to host[Thu Aug 19 14:44:43 1999] accept: (client socket): No route to host[Thu Aug 19 14:44:47 1999] accept: (client socket): No route to host

Hata Verisi

 

+--------------+------------+------------------------------------------------------------+

| date | time | message |

+--------------+-----------+-------------------------------------------------------------+

| 1999-08-19 | 14:02:34 | created shared memory segment #0 |

| 1999-08-19 | 14:02:34 | Server configured -- resuming normal operations |

| 1999-08-19 | 14:12:27 | accept: (client socket): Connection timed out |

| 1999-08-19 | 14:12:27 | accept: (client socket): Connection timed out |

| 1999-08-19 | 14:13:01 | accept: (client socket): Connection reset by peer |

| 1999-08-19 | 14:17:05 | accept: (client socket): Connection timed out |

| 1999-08-19 | 14:17:59 | accept: (client socket): Connection timed out |

| 1999-08-19 | 14:18:52 | accept: (client socket): Connection timed out |

| 1999-08-19 | 14:44:40 | accept: (client socket): No route to host |

| 1999-08-19 | 14:44:43 | accept: (client socket): No route to host |

+--------------+-----------+------------------------------------------------------------+

IYTE WUM Sistemi Sonuç

Plan. Çalışmalar

Page 12: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

+-------------------------------+-------------------+--------------------------------+-----------+| user_name | type | user_ip | depcode |+-------------------------------+-------------------+--------------------------------+-----------+| busra | MX 5 | busra.iyte.edu.tr. | 0 || pergamon | MX 5 | pergamon.iyte.edu.tr. | 0 || buamtest | MX 5 | buamtest.iyte.edu.tr. | 0 || radyo-bahattin | CNAME | troya | 0 || radyo-tolga | CNAME | troya | 0 || sevgi-canlier | A | 193.140.248.37 | 0 || edibe-ciftci | A | 193.140.248.38 | 0 || bulent-kusev | A | 193.140.248.39 | 0 || yasar-olmez | A | 193.140.248.40 | 0 || haluk-yaren | A | 193.140.248.44 | 0 |+-------------------------------+-------------------+--------------------------------+-----------+

Kullanıcı Verisi IYTE WUM Sistemi Sonuç

Plan. Çalışmalar

Page 13: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

Web Sitesi İçerik IYTE WUM Sistemi Sonuç

Plan. Çalışmalar

crawlDepth = 0 0http://www.iyte.edu.tr/general.htm0http://www.iyte.edu.tr/library/index-tr.html0http://www.iyte.edu.tr/president.htm0http://www.iyte.edu.tr/ar_fon_proje/research_project.htm0http://www.iyte.edu.tr/academic.htm0http://www.iyte.edu.tr/iyte-press.htm0http://www.iyte.edu.tr/living.htm0http://www.iyte.edu.tr/iyte-services.htm0http://www.iyte.edu.tr/search.htm0http://likya.iyte.edu.tr/announcements/2002-2003Takvim/2002- 2003AkademikTak.html

Page 14: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

İYTE Web Madenciliği Veritabanı

IYTE WUM Sistemi Sonuç

Plan. Çalışmalar

logfile(user, date, time, rtime, demand, url, status)

links(page_no, url, type, keyword, rank, status)

pageviews(page_no,title,type,keyword,cr_date,upd_date,rank)

users(user, type, user_ip, depcode)

departments(depcode, dep_name, faculty, start_ip, end_ip)

errors(date, time, message)

Page 15: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

DAILY HITS

05000

100001500020000250003000035000400004500050000

0 100 200 300 400 500 600 700

Days

Nu

mb

er

of

Hit

s

Günlük Erişim Grafiği (2000-06-20 ile 2002-01-31tarihleri arasında )

Minimum günlük erişim : 74 Toplam erişim : 10.740.138Maximum günlük erişim : 46.552 Kayıtlı kullanıcı erişimleri : 85.353Ortalama günlük erişim : 18.296

IYTE WUM Sistemi Sonuç

Plan. Çalışmalar

Page 16: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

GÜNLÜK HATALAR

1

10

100

1000

10000

0 100 200 300 400 500 600 700

GGG

Nu

mb

er

of

Err

ors

Günlük Hata Grafiği (1999-08-19 ile 2002-01-31 tarihleri arasında)

Minimum günlük hata : 1

Maximum günlük hata :223.210

Ortalama günlük hata : 1.109

IYTE WUM Sistemi Sonuç

Plan. Çalışmalar

Page 17: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

Sorgu Çeşitleri IYTE WUM Sistemi Sonuç

Plan. Çalışmalar

Üniversite içi ve dışı kullanıcıların dağılımı

 Kullanım sürelerinin günlere ve saatlere göre dağlımı

 Sayfalara göre istemlerin dağılımı

 Ulaşılmayan sayfalar

Ulaşılamayan linkler

 Hataların günlere ve sürelere göre dağılımı

İstemlerin statülerine göre dağılımı

Page 18: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

IYTE WUM Sistemi genel web kullanım madenciliği konusunda veritabanı yaklaşımı getiren bir çalışma

Sistem veri madenciliği prosesinin tüm adımlarını içermekte

Web sorumlusu için faydalı bir araç

Sonuç IYTE WUM Sistemi Sonuç

Plan. Çalışmalar

Page 19: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

Kullanıcı Önyüzü

Veri Madenciliği Algoritmaları

IYTE Web Sunucusu ile Entegrasyon

Planlanan Çalışmalar IYTE WUM Sistemi Sonuç

Plan. Çalışmalar

Page 20: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

[1] Oren Etzioni, The World Wide Web: Quagmire or gold mine. Communications of the ACM, 39(11):65 68, (1996)

 

[2] S.K.Madria, S.S.Bhowmick, W.K.Ng, and E.P.Lim, Research issues in Web data mining. In Proceedings of Data Warehousing and Knowledge Discovery, First International Conference, DaWaK '99, sayfa 303 312 , (1999)

 

[3] R. Cooley, Web Usage Mining: Discovery and Application of Interesting Patterns from Web data. Ph.D. thesis, Dept. of Computer Science, University of Minnesota, (2000)

 

[4] R. Agrawal and A. Srikant, Fast algorithms for mining association rules. Proc. VLDB'94, sayfa 487-499, (1994)

 

[5] B. Özakar, Finding and evaluating patterns in Web Repositories using data mining algorithms and database technologies, Master Tezi, 2002, İzmir Yüksek Teknoloji Enstitüsü Bilgisayar Mühendisliği Bölümü

Referanslar

Page 21: TIKLARIN DİLİ

Aralık 2002 Tıkların Dili Belgin ÖZAKAR

İlginize Teşekkürlerİlginize Teşekkürler