Upload
tourismfastforward
View
118
Download
0
Embed Size (px)
Citation preview
© Copyright 2015 STI INNSBRUCK www.sti-innsbruck.at
Elias Kärle – 17. April 2015 – Tourism Fast Forward 2015, Mayrhofen, Tirol
schema.org auf Hotelwebseiten
@eliaska#tff_15
www.sti-innsbruck.at
1. Motivation
• Italienischer Schwimmer VS. @cyberandy• Wie hat er das gemacht?
5
www.sti-innsbruck.at
1. Motivation
• Schema.org annotation
• Hotellerie und Tourismus werden Annotationen verwendet?
6
www.sti-innsbruck.at
1. Motivation
1) Wie viele Hotels verwenden schema.org?
2) Wie wird schema.org verwendet?1) Welche Klassen?2) Welche Attribute?3) Wird schema.org richtig eingesetzt?
3) Wer verwendet schema.org im touristischen Bereich?
7
www.sti-innsbruck.at
2. Daten
Was ist schema.org?
• Initiative geründet 2011• Ontologie zur Strukturierung von Daten auf Webseiten• In HTML eingebunden
– Microdata– RDFa– JSON-LD
Source: http://www.schema.org8
www.sti-innsbruck.at
2. Daten
Analyse aller Webseiten:
• Gegründet 2007 • Non-Profit Organisation• Erfasst (crawlt) Internet 4 mal pro Jahr• Datensätze frei zugänglich• November 2013: 2,3 Milliarden Webseiten, 148TB• Dezember 2014: 2,1 Milliarden Webseiten, 160TB
Source: http://commoncrawl.org/the-data/get-started/9
www.sti-innsbruck.at
2. Daten
Reduktion auf Strukturierte Daten:
WebDataCommons:• 2012 Freie Universität Berlin & KIT• Derzeit Uni Mannheim• Leitung: Chris Bizer• Extrahieren aller strukturierter Daten aus Common Crawl
– Web Tabellen: 147 Mio. relationale Tab. (11 Mrd. HTML Tab.)– Hyperlink Graph: 3,5 Mrd. Webseiten, 128 Mrd. Links– Semantisch annotierte Daten:
• November 2013: 44TB, 2.2 Mrd. URLs• Dezember 2014: 160TB, 2 Mrd. URLs
Source: http://webdatacommons.org/structureddata/10
www.sti-innsbruck.at
2. Daten
• November 2013 Datensatz
• Subset: schema.org/Hotel– 35GB– 127 Mio. Triples
• OWLIM-SE Repository
• SPARQL Anfragen
• Linux Debian 3.2, STI
11
www.sti-innsbruck.at
3. Analyse
1) Wie viele Hotels sind schema.org annotiert?
4.841.353• Hotels doppelt annotiert
– Eigene Webseite– Buchungs Webseite
740.298• Alle Hotels mit gleichem Namen verloren
– Adler, Post, ...
An Adresse binden!
12
www.sti-innsbruck.at
3. Analyse
Hotel4.841.353
Adresse3.035.000
Land
1.904.000Name
1.125.000Region
1.902.000
PLZ
2.011.000
Straße
2.284.000
13
www.sti-innsbruck.at
3. Analyse
Hotels pro Land
Österreich: 148Tirol: 287Innsbruck: 63
1. US 10215132. CA 523603. CN 206484. GB 115805. DE 31636. MX 19217. PR 12508. AR 10169. PH 765
10. IN 699
11. TR 68112. AE 39113. KR 37714. RO 37315. QA 34316. PA 29917. SA 29218. AU 29019. BR 25820. CH 238
21. TH 23422. SR 21723. HK 15624. EC 15025. AT 14826. CO 14327. PE 12928. BE 12729. ID 10930. BH 93
Offensichtlich nicht korrekt annotiert
14
www.sti-innsbruck.at
3. Analyse
Hotels nach Postleitzahlen in Tirol
18%
10%
8%
4%
4%
3%2%2%2%2%
45%
6020 6370 6100 6450 6580 6456 6215 6213 6365 6010 Andere
Innsbruck
Kitzbühel
Seefeld
Sölden
St. Anton
ObergurglAchenkirch
PertisauKirchberg
15
www.sti-innsbruck.at
3. Analyse
Welche Kategorien von Hotels sind annotiert?
http://schema.org/Rating
16
www.sti-innsbruck.at
3. Analyse
Hotel4.841.353
Adresse3.035.000
Land
1.904.000Name
1.125.000Region
1.902.000
PLZ
2.011.000
Straße
2.284.000
17
www.sti-innsbruck.at
3. Analyse
Hotel4.841.353
Adress3.035.00
Land
1.904.000Name
1.125.000Region
1.902.000
Rating
2.377.000
RatingValue
2.375.000
18
www.sti-innsbruck.at
3. Analyse
Welche Kategorien von Hotels sind annotiert?
866.932
651.606
426.925
176.800
135.958
35.079
66.208
15.476
941
19
www.sti-innsbruck.at
3. Analyse
2) Wie wird schema.org verwendet?
15%
14%
13%
9%8%
7%
7%
5%
5%4%
13%
schema.org Verwendung
http://schema.org/Hotel/name http://schema.org/Hotel/review
http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://schema.org/Hotel/image
http://schema.org/Hotel/address http://schema.org/Hotel/aggregateRating
http://schema.org/Hotel/rating http://schema.org/Hotel/description
http://schema.org/Hotel/url http://schema.org/Hotel/geo
Other
20
www.sti-innsbruck.at
3. Analyse
3) Wer verwendet schema.org im touristischen Bereich
Hypothese:„Schema.org wird überwiegend von Booking- und
Ratingseiten verwendet, kaum auf Hotelseiten direkt.“
21
www.sti-innsbruck.at
3. Analyse
Ansatz:• Hotels auf Booking- & Ratingseiten suche nach annotation auf eigener Webseite
• Gegenprobe mit annotierten HotelswebseitenMehrfache Vorkommen im Datensatz?
Dezeit: exemplarisch (Top-Buchungsseiten)Nächster Schritt: vollständiger Datensatz
22
www.sti-innsbruck.at
3. Analyse
Resymee:
• Hauptanwender von schema.org/Hotel:Buchungs- und RatingseitenFehler:UnvollständigFalsche KlassenFalsche AttributeFalsche DatentypenVollständige Fehleranalyse: Uni Mannheim
(R. Meusel & H. Paulheim) [1]
[1] http://dws.informatik.uni-mannheim.de/fileadmin/lehrstuehle/ki/pub/MeuselPaulheim-HeuristicsForFixingCommonErrorsInDeployedSchemaOrgMicrodata-ESWC2015.pdf
23