Upload
new-media-inspiration
View
812
Download
1
Embed Size (px)
DESCRIPTION
Prezentace z druhého ročníku konference New Media Inspiration (http://nminspiration.cz), který se konal 19. 1. 2013 v hlavní budově FF UK pod vedením @petrkou, @simindr a @josefslerka.
Citation preview
Extrakce strukturovaných datz webových stránek
New Media Inspiration 2013
Michal Illich
Cože?
● na webu jsou miliardy stránek● jsou psané pro lidi● stroje jim téměř nerozumí což kupodivu zas tak nevadí
● ale nemůžeme se tak strojů na nic ptát– Kdy se narodil Václav Havel? Kolik megapixelů má kamera iPhone 5? Jaké je HDP ČR?
Kde a kdy jsou kurzy jógy v Praze? Kolik stojí kWh elektřiny od ČEZ? Kolik procent hlasů získal Schwarzenberg? Kolik je Tomášů na Google+? Jaký je plat poslanců?Jaké rychlosti ADSL nabízí Telefonica? Kdy má otevřeno obchod X?
Už se na tom pracuje
● Freebase 2005
● Wikidi (velmi skromně) 2010
● Siri 2011 v iOS
● Google Knowledge Graph 2012
● Microsoft Probase stále research
Kde stojíme
● nemůžeme konkurovat Googlu ani Applu● ale naprostá většina firem neumí ani to co my● nápad: poskytneme jim to jako službu
#cloud #saas #b2b #ai #machinelearning #api
● pro koho?e-shopy hledání hotelů, realit, práce ekonomy a analytiky firemní katalogy ...
Web + příklad
Technicky...
Problém je složitý, zjednodušili jsme ho na:● Zákazník zná entity iPhone 5
● Zákazník ví co chce rozlišení, výrobce, operační systém, ...
● Ideálně má i část dat předvyplněných
A my už si automaticky odvodíme strukturu Jednotky? Rozsah hodnot? Možné kategorie?
Pro každou řádku (entitu)
● Zeptáme se vyhledávače na relevantní stránky● Stáhneme tak 30 až 50 stránek● Zanalyzujeme texty na stránce viz další slide
● Slejeme informace ze všech stránek● A vyplníme tabulku
Samotná extrakce
● Najdi fragmentyRozlišení: 5 megapixelů
● Slož z fragmentů kandidátapropertyName + number + unitName = super
● Ohodnoť kandidáty viz další slide
● Porovnej a sluč nejlepší kandidáty
Strojové učení
● Ohodnocení kandidátů – váhy nejdřív ručně● Ale strojové učení to zpřesní
Naučí se vztahy Hodnotí i nelineárně Jednoduché přidávání dalších dat
● Boostované rozhodovací lesy Dříve i neuronové sítě, teď už je nepoužíváme
Strojové učení i jinde
Jde použít i pro čirá zákaznická data. Tedy bez té extrakce dat z webových stránek.
Takže pozor! Tenhle slide je o něčem jiném než ostatní :)
Např. Jak do newsletteru vybrat nej nabídky? To je pro MagicTable taky tabulka.
Akorát ji nevyplňujeme, ale předpovídáme nějakou hodnotu – např. míru konverze
Strojové učení se na minulých datech naučí, na čem je konverze závislá.
A pro budoucí nabídky predikuje míru konverze.
Kde jsme
● V beta provozu● Dva zkušební zákazníci velké české firmy
● Bereme i další když mají zajímavý problém
● MagicTable.com miniweb