Transcript
Page 1: Tarcsi Ádám prezentációja

Miért nem érti meg a Google, hogy mit is keresek?

Tarcsi Ádá[email protected], ELTE Informatikai Kar2011. április 27.A keresők világa MeetOFF

Page 2: Tarcsi Ádám prezentációja

Történet – röviden – 1.

2

http://joaogeraldes.wordpress.com/2010/09/05/31-infographic-explores-internet-facts-figures-history-statistics/

Page 3: Tarcsi Ádám prezentációja

3

Page 4: Tarcsi Ádám prezentációja

Google számokban

4

Forrás: http//pingdom.com

Page 5: Tarcsi Ádám prezentációja

Keresők globális piaci részesedése,2011 április

5

Page 6: Tarcsi Ádám prezentációja

Kereső trendek 2008.08-2011.04.

6

Page 7: Tarcsi Ádám prezentációja

De nem mindenhol a Google az első: Kína

7

Page 8: Tarcsi Ádám prezentációja

A Google Search Engine architektúrája

8

Forrás: Brin, S. and Page, L. (1998) The Anatomy of a Large-Scale Hypertextual Web Search Engine. Seventh International World-Wide Web Conference (WWW 1998), April 14-18, 1998, Brisbane, Australia

Page 9: Tarcsi Ádám prezentációja

Mi a baj a Google-lel?•Mindent tud rólunk és gyakran mégsem ad jó találatot.•Nem segít abban sem, hogy a találatok között megtaláljam azt, amit keresek.

•Néhány kérdés, amire nem tud válaszolni?•- Hol voltak ma földrengések?•- Milyen bor illik a kardhalhoz?•- Hol lesz ma este blues koncert?

9

Page 10: Tarcsi Ádám prezentációja

A Web működése okozza a gondot!

A HTML dokumentum leíró és nem információ leíró nyelv.

• Metaelemek - sovány vigasz• <meta name="description" content="Az oldal a

… témakörével foglalkozik.">• <meta name="keywords" content="kulcsszó1,

kulcsszó2, kulcsszó3">

• Az oldalak közötti kapcsolatok egyirányúak.

• A tartalom az embernek szól.• A HTML5 picit segít ezen

De: az emberi nyelv sem formalizálható teljesen a matematika segítségével.

10

Page 11: Tarcsi Ádám prezentációja

Az adatok a weboldalakba temetve

11

Page 12: Tarcsi Ádám prezentációja

Számítógépnek is értenie kell

12

Nagyszámú integráció - ad hoc - egyedi

A kapott információk jellemzően túl nagy mennyiségűek áttekintéshez, automatikus keresésre és összekapcsolásra van szükség

A weblapok ember számára „érthetőek”.

A tartalom a számítógép számára „érthetetlen”.

?

Search & Mash-up Engine

010 0 1 1 0

01101

10100 10 0010 01 101 101 01 110 1 10 110 0 1 1 01 0 1 0 0 1 1 0 1 1 1 10 01 101 0 1

Alkalmazások milliói

Page 13: Tarcsi Ádám prezentációja

Mi a „megértés”?

13

•Mit mond egy weblap egy Web robotnak?

" For more information visit <a href=“http://www.ex.org”> my company </a> Web site. . .”

•Ebből azt értik, hogy:

" blah blah blah blah blah <a href=“http://www.ex.org”> blah blah blah </a> blah blah. . .”

Page 14: Tarcsi Ádám prezentációja

Mit „ért meg” a Google?•Azt érti meg, hogy:

[page1] hivatkozik [page2] page2 fontos

• Google rendezni tudja a találatokat!Az okosabb találatokhoz okosabb adatleírás kell.

Page 15: Tarcsi Ádám prezentációja

Jobb kereső•- Értelmezett keresésekből, értelmezett tárolt adatokból indul ki szemantikus web

•- Jobban értelmezhető találatok vizualizált keresők, csoportokba, kategoriákba adott keresők

15

Page 16: Tarcsi Ádám prezentációja

Szemantika, kapcsolat, … Kapcsolat nem weblapok között, hanem tartalmak

között.

Szemantika ~ jelentés

(meta)adatok szükségesek a leírásra

16

egér egér

Page 17: Tarcsi Ádám prezentációja

Szemantikus web

17

egér

eszik

fél tőle

eszikábrázol

terminológia (szó v. kifejezés) a fogalomra….

vanvan

van

Page 18: Tarcsi Ádám prezentációja

A Szemantikus Web

18

Semantic Web

Egyszerűbb integráció - sztenderdek - többcélú

Hatékonyabb gép-ember, ember-ember

együttműködésMég több alkalmazás

Ember számára is érthetőbb

Számítógép számára „érthető(bb)”, feldolgozható

Semantic Mash-ups &Search

Page 19: Tarcsi Ádám prezentációja

Részei

19

RDF (Resource Description Framework): erőforrások közötti kapcsolatrendszert (kijelentéseket) leíró nyelv. A kapcsolatrendszerből következtethetünk a jelentésre (szemantika).

RDFa: (RDF in attributes): RDF és a HTML egyfajta ötvözetehttp://www.w3.org/TR/xhtml-rdfa-primer/

Microdata: tartalmak címkézésérehttp://dev.w3.org/html5/md/

Microformats: egyedek (emberek, események, termékek, stb.) tulajdonságainak leírásárahttp://microformats.org/

OWL (Web Ontology Language): modellező nyelv, összefüggések leírására. Ontológia: definíciókból álló fogalomgyűjtemény

SPARQL: RDF lekérdező nyelv (~SQL)

Page 20: Tarcsi Ádám prezentációja

SZEMANTIKUS KERESÉS

20

Page 21: Tarcsi Ádám prezentációja

Szemantikus keresés

Seth Grimes a keresés és a szemantika közös megközelítésének 11 módját sorolja fel: kapcsolódó keresések felajánlása, keresett kifejezések javítása definíciók, referenciák megjelenítése egy keresett kifejezésre szemantikailag annotált eredménymegjelenítés, a releváns

információk kiemelése hosszabb szöveg alapú keresés szemantikai/szintaktikai annotációval támogatott keresés fogalmi keresés taxonómiák alkalmazásával ontológia alapú keresés szemantikus web technológiáinak kihasználása előre definiált kategóriák szerinti eredménymegjelenítés eredmények klaszterezett, csoportosított megjelenítése természetes nyelvű kereső kérdések megválaszolása

21

http://kereses.blog.hu/2010/02/03/mitol_szemantikus_egy_kereso

http://intelligent-enterprise.informationweek.com/channels/information_management/showArticle.jhtml;jsessionid=DG4QLODCL5X0TQE1GHPSKH4ATMY32JVN?articleID=222400100

Page 22: Tarcsi Ádám prezentációja

Google: Microadatok, microformats, RDFa

22

Forrás: http://www.google.com/support/webmasters/bin/answer.py?hl=hu&answer=173379

Tulajdonság Leírásname (fn) Kötelező. Az esemény neve.recipeType (tag) Az étel típusa: pl. előétel, főétel, desszert ...photo Az étel készítését ábrázoló fénykép.

published A recept közzétételének ideje ISO dátumformátumban.

summary Az étel rövid összefoglaló leírása.

review Az étel értékelése. Tartalmazhat beágyazott értékelési információkat.

prepTimeA recept előkészítésének időtartama ISO 8601 időtartam-formátumban. Az időtartam megadásához használhatja a min és max gyermekelemeket is.

cookTimeAz étel megfőzésének/-sütésének időtartama ISO 8601 időtartam-formátumban. Az időtartam megadásához használhatja a min és max gyermekelemeket is.

totalTime (duration)Az étel előkészítésének és megfőzésének/sütésének időtartama ISO 8601 időtartam-formátumban. Az időtartam megadásához használhatja a min és max gyermekelemeket is.

nutritionA recepttel kapcsolatos tápanyagadatok. A következő gyermekelemeket tartalmazhatja: servingSize, calories, fat, saturatedFat, unsaturatedFat, carbohydrates, sugar, fiber, protein, cholesterol. Ezek az elemek nem kifejezett részei a hRecipe mikroformátumnak, de a Google felismeri őket.

instructionsAz étel elkészítésének lépései. Tartalmazhatja az instruction gyermekelemet, amellyel az egyes lépéseket különböztetheti meg.

yield A recept alapján elkészített étel mennyisége (pl. hány főre, hány adag stb.).

ingredientA receptben használt hozzávaló. Tartalmazhatja a name (a hozzávalók neve) és az amount (mennyiség) gyermekelemeket. Ennek használatával azonosítsa az egyes hozzávalókat.

author A recept szerzője. Tartalmazhat beágyazott, személyre vonatkozó információt.

Page 23: Tarcsi Ádám prezentációja

Hol voltak ma földrengések?

23

Page 24: Tarcsi Ádám prezentációja

WolframAlpha

24

http://www.wolframalpha.com/input/?i=all+earthquakes+today

Page 25: Tarcsi Ádám prezentációja

Szemantikus Web adatforrások•http://richard.cyganiak.de/2007/10/lod/lod-datasets_2010-09-22.html

Szemantikus web és a web 3.0

25

Page 26: Tarcsi Ádám prezentációja

Szemantikus Wikipedia - DBpedia

•http://dbpedia.org/http://dbpedia.neofonie.de/browse/

26

Page 27: Tarcsi Ádám prezentációja

Melyek azok a legalább 50 kilométer hosszú folyók, melyek a Rajnába ömlenek?

27

Page 28: Tarcsi Ádám prezentációja

Szemantikus kereső: evri•http://www.evri.com/news/for?query=Budapest+sights

28

Page 29: Tarcsi Ádám prezentációja

Vizuális kereső

29

http://like.com

Page 30: Tarcsi Ádám prezentációja

Google squared

30

http://www.google.com/squared

Page 31: Tarcsi Ádám prezentációja

Csoportosítás: Polymeta.hu

31

Page 32: Tarcsi Ádám prezentációja

Néhány érdekes példa:

http://www.hakia.com/ http://swoogle.umbc.edu/ http://www.cognitionsearch.com/ http://www.kartoo.com/ http://www.quintura.com/ http://iglue.com/ http://szorcs.hu/ http://miner.hu/

32

Page 33: Tarcsi Ádám prezentációja

Irodalom Szemantikus Web technikai leírás: http://www.sti-

innsbruck.at/teaching/curriculum/semantic-web/ These slides are partially based on “Semantic Web An

Introduction” by Emanuele Della Valle http://applied-semantic-web.org/slides/2010/03/01_intro.ppt

Youtube: Did you know? http://www.youtube.com/results?search_query=did+you+know&aq=f

Bor ajánló: http://onto.rpi.edu/wiki/wine/index.php/Main_Page

Google szemantikus megoldásai a Webmastertools-ban: http://www.google.com/support/webmasters/bin/topic.py?topic=21997

33