33
WEB-MINING FOGALMA ÉS ESZKÖZEI Tarcsi Ádám, Horváth Győző

Tarcsi Ádám, Horváth Győző:Web-mining fogalma és eszközei

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

WEB-MINING FOGALMA ÉS ESZKÖZEI

Tarcsi Ádám, Horváth Győző

Page 2: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Tematika

Trendek, big data Webes adatbányászat Példák Trendvizsgálat

Page 3: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Internet felhasználók száma

Régió Populáció (2012)Internet

használók száma (2000.dec.31.)

Internet használók száma

(2012.jún.30)Penetráció

Növekedés2000-2012

%

Afrika 1 073 380 925 4 514 400 167 335 676 15,6 % 3 606,7 % 7,0 %

Ázsia 3 922 066 987 114 304 000 1 076 681 059 27,5 % 841,9 % 44,8 %

Európa 820 918 446 105 096 093 518 512 109 63,2 % 393,4 % 21,5 %

Közel-Kelet 223 608 203 3 284 800 90 000 455 40,2 % 2 639,9 % 3,7 %

Észak-Amerika 348 280 154 108 096 800 273 785 413 78,6 % 153,3 % 11,4 %

Közép- és Dél-Amerika 593 688 638 18 068 919 254 915 745 42,9 % 1 310,8 % 10,6 %

Ausztrália és Óceánia 35 903 569 7 620 480 24 287 919 67,6 % 218,7 % 1,0 %

Világ 7 017 846 922 360 985 492 2 405 518 376 34,3 % 566,4 % 100,0 %

Page 4: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Big data statisztikák

Page 5: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Big data statisztikák

571 új weboldal keletkezik naponta minden egyes percben A 247 milliárd naponta elküldött e-mail 80%-a spam A Walmart havonta 45 millió online vásárló kattintási adatait elemezi

azért hogy személyre szabott ajánlatokkal lássa el a látogatókat mellyel közel 15%-al növelték a sikeres vásárlási tranzakciók számát,

1 826 petabyte (1 826 000 terabyte) az az adatmennyiség melyet az internet naponta "megmozgat",

Évente 3 6 terrabájt adatot állítunk elő évente 2015-re a Gartner előrejelzése szerint,

A Cisco számításai szerint 2015-re várhatóan megnégyszereződik a világ teljes internetforgalma és így eléri az éves 966 exabájtot,

A 2014-2015 közötti időszakban önmagában is 200 exabájtos növekedés várható ez több mint a 2010-ben világszerte generált összes internet-forgalom,

Egy exabájt adatmennyiség körülbelül 19 milliárd DVD-lemeznek felel meg és 75-szöröse a 2000-ben generált teljes - vezetékes és mobil - internetes adatforgalomnak,

Egy olajfúró platformon 20,000-40,000 érzékelő (szenzor) található

Page 6: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Big Data statisztikák - Google A Google szerverei évente 1,8 billió (1000

milliárd) keresést dolgoztak fel 2012-ben (22 milliót 2000-ben) 5,1 milliárdot naponta

Kétnaponta annyi információ keletkezik mint amennyi a civilizáció kezdete óta 2003-ig (Eric Schmidt, Google)

A Youtube-ra percenként 100 órányi videót töltünk fel (egy éve ez még 72, még egy évvel korábban pedig még "csak" 48 óra volt)

Page 7: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Big Data - Facebook

699 millió a Facebookot naponta használók száma (2013 június)

Egy átlagos napon 4 5 milliárd lájk keletkezik

Naponta 350 millió képet töltünk fel a Facebookra

Page 8: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Internet of things

Forrás: http://www,bitport,hu/megoldasok/joevokep-mi-az-a-dolgok-internete-infografika

Page 9: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Milyen gyors az Internet?

Page 10: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Milyen gyors az Internet?

A twittet 22 perc alatt 226.000 Twitter felhasználó osztotta tovább.A bejelentés percében 327.452 üzenetet osztottak meg a felhasználók a Twitteren.

Page 11: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

A legkedveltebb Facebook fotó

Közel 4 millió felhasználó lájkolta a képet egy nap alatt!

Page 12: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Láthatatlan web az ún. Deep web

Page 13: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Webbányászat területei

W eb t ar t alom- b ányász at W eb s t r ukt úr a- bányász at W eb hasz nálat - b ányász at

W eb b ányász at

Page 14: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Webtartalom-bányászat

Információ keresése elemzése a weben tárolt tartalmakban: szövegekben képekben videókban stb, Nem strukturált adatok: videók, audio-állományok Félig strukturált adatok: blogok, közösségi

megosztások, dokumentumok Strukturált adatok: szenzorok által mért adatok,

adatbázisból származó adatok Web szövegbányászat jellemzően természetes

nyelvfeldolgozási módszerek segítségével, Információ-szűrés és kategorizálás, Web-es kereső rendszerek.

Page 15: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Webstruktúra-bányászat

A honlapot és a webet felépítő hiperlinkekből azok kapcsolataiból nyer ki információt,

Keresőrobotok a kapcsolatok hivatkozások megtalálására elemzésére használják,

Website tervezési eszköz

Page 16: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Webhasználat-bányászat

A látogatók szokásainak magatartásmintáinak tanulmányozása

A látogatók tevékenységének előrejelzése és ösztönzése

A (web)szolgáltatás minőségének javítása webszerver teljesítményének optimalizálása

Page 17: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Webhasználat-bányászat

Webnaplók elemzésén alapul Kérés IP címe Kérés ideje A kért URL cím Honnan jött? Ha keresőből jött milyen keresőszóra talált ide? Milyen böngészőt eszközt használ? Járt-e már nálunk korábban? Hol járt nálunk korábban? Melyik oldalra érkeznek a leggyakrabban a látogatóink? Milyen sorrendben szokták a látogatók olvasni az egyes

oldalakat? Egy átlagos látogatás alatt hány oldalt néztek meg? Mennyi ideig tartózkodnak egy-egy oldalon a látogatók?

Page 18: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

18

Statisztika (eXtreme tracking)

http://extremetracking,com

Page 19: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

19

Web-es statisztika: Google Analytics

Page 20: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Google Analytics20

A mérési eredményekből kiderül Leglátogatottabb oldalak Honnan jöttek a látogatók? Direkt címzés / melyik

keresőből melyik oldalról Mely keresőszavakra találtak az oldalra? Google AdWords és Analytics együttes

használatával mérhető a marketing kampány sikeressége

Trendek Felhasználói szokások: területi adatok böngészők

típusa felbontás stb, Látogatások folyamata Oldalon belüli elemzés

Page 21: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Látogatók folyamata

Page 22: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Oldalon belüli elemzés…22

Page 23: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Példák

Page 24: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Webáruházak és a web-bányászat „webes kosár”: akik szintén ezt vették, mit

vettek még? bejelentkezett felhasználók múltbéli

cselekedeteinek (vásárlás és keresés) adatai hasonló, vagy kapcsolódó új termékek ajánlata

előzmények: előzőleg meglátogatott (akár más szerveren lévő) lapok adatai

Vásárlók kategorizálása!

Page 25: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Google Trends

Page 26: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Google Trends

Itt nem megkérdezzük a célcsoportot, hanem megfigyeljük azok szokásait, szándékait.

Keresési, egyéb internetes trendek, valamint webes szolgáltatások közötti összehasonlításra (pl.: kuponoldalak), illetve olyan esetekben, amikor a célcsoport aktív webes jelenléte feltételezhető, nagyon jól alkalmazhatóak.

Leginkább az internetezők, az internetes vásárlóközönség mérésére, elemzésére alkalmas.

Példák: Influenza-trendek követése Versenytárselemzés Reklám üzenet, hirdetési kulcsszó kiválasztása Szezonalitás-vizsgálat Új piacok meghódítása

Page 27: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Influenza-trendek

Page 28: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Hochschule Ludwigshafen am RheinProf. Dr. Klaus Freyburger

Sentiment Analysis with SAP HANA

Page 29: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

2012-es USA elnökválasztások közösségi elemzése

Page 30: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Alkalmazás készítésének lépései

Page 31: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Érzelmi elemzés

Page 32: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

DE!

Torzított minta - Pl. az Egyesült Államok lakosságának kb. 10%-a Twitter felhasználó, a Facebook penetráció pedig 57%-os. Az életkor szerinti eloszlásban is erős eltérések mutatkoznak. 

Ismeretlen adatok - Nem tudjuk pontosan hányan láttak egy adott Facebook bejegyzést, csak azt, hogy hányan reagáltak rá.

Túláltalánosított hálózati modellek - A gráfelméleti modellek nem tesznek különbséget a közösségi média kapcsolatai, az internetes hálózatok, vagy a személyes ismertség között.

A nem-hálózati viselkedési faktorok figyelmen kívül hagyása - Az emberi viselkedésnek vannak nem hálózati jellegű vonatkozásai. Ilyenek az ún. mező hatások a csoportviselkedés terén (nagy nemzeti katasztrófák, nagy csoportok viselkedése tüntetések/zavargások idején).

A megfigyelő-paradoxona - A közösségi média felhasználói többé-kevésbé tudatában vannak annak, hogy megfigyelhetőek.

Forrás: http://kereses.blog.hu/2013/08/01/a_big_data_buktatoi

Page 33: Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei

Vége