Upload
marie
View
111
Download
3
Embed Size (px)
DESCRIPTION
TIKLARIN DİLİ Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş bir veri tabanından nasıl yararlanılabilir? [email protected]. Giriş Web Madenciliği Sınıflandırması Patern Tespit Teknikleri Web Madenciliği Prosesi IYTE Web Kullanım Madenciliği Sistemi - PowerPoint PPT Presentation
Citation preview
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
TIKLARIN DİLİ
Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş bir
veri tabanından nasıl yararlanılabilir?
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
İçerik
Giriş Web Madenciliği Sınıflandırması Patern Tespit Teknikleri Web Madenciliği Prosesi IYTE Web Kullanım Madenciliği
SistemiVeri HazırlamaİYTE Web Madenciliği VertabanıSorgu Mekanizması
Sonuç Planlanan Çalışmalar
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
“Web madenciliği, veri madenciliği teknikleri kullanarak, World Wide Web dökümanları ve servislerinden, otomatik olarak, anlamlı bilgi çıkarmaktır”
Etzioni
Giriş
Sınıflandırma
Teknikler
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
Problemler
Fazla karışık, değişik bilgi tipleri, standardizasyon yetersizliği
Kısıtlı kapsam, ulaşılamayan veritabanları
Kısıtlı sorgu arayüzleri (anahtar kelimeye göre)
Kısıtlı kişiselleştirme
Web üstündeki bilginin az bir bölümü gerçekten ilgili ve faydalı
Giriş
Sınıflandırma
Teknikler
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
Web YapıMadenciliği
Web KullanımMadenciliği
Web sitesi ve sayfalarının yapısal olarak özetini çıkarmaya çalışır
Web Madenciliği Sınıflandırması
Kullanıcı erişimleri esnasında oluşan hareket verisinden anlamlı ve faydalı paternler bulmaya çalışır
Web Madenciliği
Erişilebilir web kaynaklarından faydalı bilgi bulmaya çalışır
Web İçerikMadenciliği
Sınıflandırma
Teknikler
IYTE WUM Sistemi
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
Sistem İyileştirme
•Schecher•Aggarval
Genel Kullanım(Business Intelligence & Usage Characterization)
•Surfaid•WebLogMiner
Web Madenciliği Sınıflandırması
Kişiselleştirme
•WebWatcher•WebPersonalizer•Analog
•WebSIFT•WUM•Shahabi
Site Güncelleme
•PageGather
Web Yapı Madenciliği
Web KullanımMadenciliği
Web Madenciliği
Web İçerikMadenciliği
Sınıflandırma
Teknikler
IYTE WUM Sistemi
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
Tanımsal İstatistikçeşitli değişkenlere dayalı analizler
İlişkilendirme Kuralları veriler arasında önceden kestirilemeyen ilişkiler bulma
Gruplama/Kümelemebenzer özellikteki verileri gruplama
Sınıflandırma verileri tanımlı sınıflara atama
Sıralı Paternlerbağlantılar süresince oluşan paternleri bulma
Bağımlılık Modellemesifarklı değişkenler arasındaki bağımlılıkları ortaya koyan modeller
oluşturma
Patern Tespit Teknikleri Teknikler
Proses
IYTE WUM Sistemi
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
Web Madenciliği Prosesi
Veri Temizleme
Veri Entegrasyonu
Web erişim verisi
İlgili Veri
Seçim
Veri MadenciliğiPatern Tespiti
Patern Değerlendirme
Veri Tabanları
Teknikler
Proses
IYTE WUM Sistemi
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
SunucuErişim Verisi
Sunucu
Hata Verisi
Sunucu
Kullanıcı Verisi
Temizlenen Sunucu
Erişim Verisi
Temizlenen Sunucu Hata
Verisi
Temizlenen Sunucu
Kullanıcı Verisi
IYTE WUM VERİTABANI (Mysql)
IYTE WUM VERİTABANI (Mysql)
Veri Temizleme(Java Classes)
Veri Temizleme(Java Classes)
Tanımsal Sorgu
Mekanizması
(Mysql DML)
Tanımsal Sorgu
Mekanizması
(Mysql DML)
İlişkilendirme Kuralları
(Java Classes, JDBC & MySQL DDL & DML)
İlişkilendirme Kuralları
(Java Classes, JDBC & MySQL DDL & DML)
Veri Seçimi & Entegrasyonu
(Java Classes, JDBC & MySQL DDL)
Veri Seçimi & Entegrasyonu
(Java Classes, JDBC & MySQL DDL)
Apriori Sorgu
Mekanizması
(Mysql DML)
Apriori Sorgu
Mekanizması
(Mysql DML)
IYTE WUM Sistem Mimarisi IYTE WUM Sistemi Sonuç
Plan. Çalışmalar
IYTE Web Sitesi İçerik
Verisiwww.iyte.edu.tr
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
Bilgisayar ismi ya da bağlanan makinanın IP adresi
CLF Kayıt Yapısı
Remote Host
Login ismi, gönderilmez, genellikle boş
GET sayfa talepleri için, POST teslimler için
– Ident and Authuser – [Date and Time] “Request” Status
Bytes
pergamon.iyte.edu.tr [20/Jun/2000:15:13:05 +0300]''GET /courses.html HTTP/1.1 '' 304 pergamon.iyte.edu.tr [20/Jun/2000:15:13:05 +0300]''GET / will/courses/CS101/ HTTP/1.1'' 304 pergamon.iyte.edu.tr - - [20/Jun/2000:15:13:05 +0300]”GET / gif/geney.jpg HTTP/1.0 “ 304 - pergamon.iyte.edu.tr - - [20/Jun/2000: 15:13:05 +0300]” GET / gif/acad.gif HTTP/1.0 “ 304 -pergamon.iyte.edu.tr - - [20/Jun/2000:15:13:05| +0300]” GET / gif/ciz7.gif HTTP/1.0 “304 -
+---------------------------+---------------+-----------+---------+-----------+--------+-------------------------------+--------+-------+| user | ldate | ltime | rtime | demand | url_m | url | sts_m | status |+---------------------------+---------------+-----------+--------+------------+------------+-------------------------------+----+-------+| pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/yazi.gif HTTP/1.0 | 304 | 304 -|| pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/zemin1.gif HTTP/1.0 | 304 | 304 -|| pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/geney.jpgHTTP/1.0 | 304 | 304 -|| pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/acad.gif HTTP/1.0 | 304 | 304 -|| pergamon.iyte.edu.tr | 2000-06-20 | 15:13:05 | +0300 | GET | gif | gif/living1.gif HTTP/1.0 | 304 | 304 -|+---------------------------+---------------+-----------+---------+-----------+--------+-------------------------------+--------+------+
IYTE WUM Sistemi Sonuç
Plan. Çalışmalar
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
[Thu Aug 19 14:02:34 1999] Server configured -- resuming normal operations[Thu Aug 19 14:12:27 1999] accept: (client socket): Connection timed out[Thu Aug 19 14:12:27 1999] accept: (client socket): Connection timed out[Thu Aug 19 14:13:01 1999] accept: (client socket): Connection reset by peer[Thu Aug 19 14:17:05 1999] accept: (client socket): Connection timed out[Thu Aug 19 14:17:59 1999] accept: (client socket): Connection timed out[Thu Aug 19 14:18:52 1999] accept: (client socket): Connection timed out[Thu Aug 19 14:44:40 1999] accept: (client socket): No route to host[Thu Aug 19 14:44:43 1999] accept: (client socket): No route to host[Thu Aug 19 14:44:47 1999] accept: (client socket): No route to host
Hata Verisi
+--------------+------------+------------------------------------------------------------+
| date | time | message |
+--------------+-----------+-------------------------------------------------------------+
| 1999-08-19 | 14:02:34 | created shared memory segment #0 |
| 1999-08-19 | 14:02:34 | Server configured -- resuming normal operations |
| 1999-08-19 | 14:12:27 | accept: (client socket): Connection timed out |
| 1999-08-19 | 14:12:27 | accept: (client socket): Connection timed out |
| 1999-08-19 | 14:13:01 | accept: (client socket): Connection reset by peer |
| 1999-08-19 | 14:17:05 | accept: (client socket): Connection timed out |
| 1999-08-19 | 14:17:59 | accept: (client socket): Connection timed out |
| 1999-08-19 | 14:18:52 | accept: (client socket): Connection timed out |
| 1999-08-19 | 14:44:40 | accept: (client socket): No route to host |
| 1999-08-19 | 14:44:43 | accept: (client socket): No route to host |
+--------------+-----------+------------------------------------------------------------+
IYTE WUM Sistemi Sonuç
Plan. Çalışmalar
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
+-------------------------------+-------------------+--------------------------------+-----------+| user_name | type | user_ip | depcode |+-------------------------------+-------------------+--------------------------------+-----------+| busra | MX 5 | busra.iyte.edu.tr. | 0 || pergamon | MX 5 | pergamon.iyte.edu.tr. | 0 || buamtest | MX 5 | buamtest.iyte.edu.tr. | 0 || radyo-bahattin | CNAME | troya | 0 || radyo-tolga | CNAME | troya | 0 || sevgi-canlier | A | 193.140.248.37 | 0 || edibe-ciftci | A | 193.140.248.38 | 0 || bulent-kusev | A | 193.140.248.39 | 0 || yasar-olmez | A | 193.140.248.40 | 0 || haluk-yaren | A | 193.140.248.44 | 0 |+-------------------------------+-------------------+--------------------------------+-----------+
Kullanıcı Verisi IYTE WUM Sistemi Sonuç
Plan. Çalışmalar
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
Web Sitesi İçerik IYTE WUM Sistemi Sonuç
Plan. Çalışmalar
crawlDepth = 0 0http://www.iyte.edu.tr/general.htm0http://www.iyte.edu.tr/library/index-tr.html0http://www.iyte.edu.tr/president.htm0http://www.iyte.edu.tr/ar_fon_proje/research_project.htm0http://www.iyte.edu.tr/academic.htm0http://www.iyte.edu.tr/iyte-press.htm0http://www.iyte.edu.tr/living.htm0http://www.iyte.edu.tr/iyte-services.htm0http://www.iyte.edu.tr/search.htm0http://likya.iyte.edu.tr/announcements/2002-2003Takvim/2002- 2003AkademikTak.html
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
İYTE Web Madenciliği Veritabanı
IYTE WUM Sistemi Sonuç
Plan. Çalışmalar
logfile(user, date, time, rtime, demand, url, status)
links(page_no, url, type, keyword, rank, status)
pageviews(page_no,title,type,keyword,cr_date,upd_date,rank)
users(user, type, user_ip, depcode)
departments(depcode, dep_name, faculty, start_ip, end_ip)
errors(date, time, message)
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
DAILY HITS
05000
100001500020000250003000035000400004500050000
0 100 200 300 400 500 600 700
Days
Nu
mb
er
of
Hit
s
Günlük Erişim Grafiği (2000-06-20 ile 2002-01-31tarihleri arasında )
Minimum günlük erişim : 74 Toplam erişim : 10.740.138Maximum günlük erişim : 46.552 Kayıtlı kullanıcı erişimleri : 85.353Ortalama günlük erişim : 18.296
IYTE WUM Sistemi Sonuç
Plan. Çalışmalar
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
GÜNLÜK HATALAR
1
10
100
1000
10000
0 100 200 300 400 500 600 700
GGG
Nu
mb
er
of
Err
ors
Günlük Hata Grafiği (1999-08-19 ile 2002-01-31 tarihleri arasında)
Minimum günlük hata : 1
Maximum günlük hata :223.210
Ortalama günlük hata : 1.109
IYTE WUM Sistemi Sonuç
Plan. Çalışmalar
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
Sorgu Çeşitleri IYTE WUM Sistemi Sonuç
Plan. Çalışmalar
Üniversite içi ve dışı kullanıcıların dağılımı
Kullanım sürelerinin günlere ve saatlere göre dağlımı
Sayfalara göre istemlerin dağılımı
Ulaşılmayan sayfalar
Ulaşılamayan linkler
Hataların günlere ve sürelere göre dağılımı
İstemlerin statülerine göre dağılımı
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
IYTE WUM Sistemi genel web kullanım madenciliği konusunda veritabanı yaklaşımı getiren bir çalışma
Sistem veri madenciliği prosesinin tüm adımlarını içermekte
Web sorumlusu için faydalı bir araç
Sonuç IYTE WUM Sistemi Sonuç
Plan. Çalışmalar
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
Kullanıcı Önyüzü
Veri Madenciliği Algoritmaları
IYTE Web Sunucusu ile Entegrasyon
Planlanan Çalışmalar IYTE WUM Sistemi Sonuç
Plan. Çalışmalar
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
[1] Oren Etzioni, The World Wide Web: Quagmire or gold mine. Communications of the ACM, 39(11):65 68, (1996)
[2] S.K.Madria, S.S.Bhowmick, W.K.Ng, and E.P.Lim, Research issues in Web data mining. In Proceedings of Data Warehousing and Knowledge Discovery, First International Conference, DaWaK '99, sayfa 303 312 , (1999)
[3] R. Cooley, Web Usage Mining: Discovery and Application of Interesting Patterns from Web data. Ph.D. thesis, Dept. of Computer Science, University of Minnesota, (2000)
[4] R. Agrawal and A. Srikant, Fast algorithms for mining association rules. Proc. VLDB'94, sayfa 487-499, (1994)
[5] B. Özakar, Finding and evaluating patterns in Web Repositories using data mining algorithms and database technologies, Master Tezi, 2002, İzmir Yüksek Teknoloji Enstitüsü Bilgisayar Mühendisliği Bölümü
Referanslar
Aralık 2002 Tıkların Dili Belgin ÖZAKAR
İlginize Teşekkürlerİlginize Teşekkürler