Extrakce strukturovaných dat z webových stránek

Embed Size (px)

Citation preview


Extrakce strukturovanch dat
z webovch strnek

New Media Inspiration 2013

Michal Illich

Coe?

na webu jsou miliardy strnek

jsou psan pro lidi

stroje jim tm nerozum co kupodivu zas tak nevad

ale nememe se tak stroj na nic pttKdy se narodil Vclav Havel? Kolik megapixel m kamera iPhone 5? Jak je HDP R? Kde a kdy jsou kurzy jgy v Praze? Kolik stoj kWh elektiny od EZ? Kolik procent hlas zskal Schwarzenberg? Kolik je Tom na Google+? Jak je plat poslanc?
Jak rychlosti ADSL nabz Telefonica? Kdy m oteveno obchod X?

U se na tom pracuje

Freebase 2005

Wikidi (velmi skromn) 2010

Siri 2011 v iOS

Google Knowledge Graph 2012

Microsoft Probase stle research

Kde stojme

nememe konkurovat Googlu ani Applu

ale naprost vtina firem neum ani to co my

npad: poskytneme jim to jako slubu
#cloud #saas #b2b #ai #machinelearning #api

pro koho?
e-shopy hledn hotel, realit, prce ekonomy a analytiky firemn katalogy ...

Web + pklad

Technicky...

Problm je sloit, zjednoduili jsme ho na:Zkaznk zn entity iPhone 5

Zkaznk v co chce rozlien, vrobce, operan systm, ...

Ideln m i st dat pedvyplnnch

A my u si automaticky odvodme strukturu Jednotky? Rozsah hodnot? Mon kategorie?

Pro kadou dku (entitu)

Zeptme se vyhledvae na relevantn strnky

Sthneme tak 30 a 50 strnek

Zanalyzujeme texty na strnce viz dal slide

Slejeme informace ze vech strnek

A vyplnme tabulku

Samotn extrakce

Najdi fragmenty
Rozlien: 5 megapixel

Slo z fragment kandidta
propertyName + number + unitName = super

Ohodno kandidty viz dal slide

Porovnej a slu nejlep kandidty

Strojov uen

Ohodnocen kandidt vhy nejdv run

Ale strojov uen to zpesn

Nau se vztahy Hodnot i nelinern Jednoduch pidvn dalch datBoostovan rozhodovac lesy

Dve i neuronov st, te u je nepouvme

Strojov uen i jinde

Jde pout i pro ir zkaznick data. Tedy bez t extrakce dat z webovch strnek. Take pozor! Tenhle slide je o nem jinm ne ostatn :)Nap. Jak do newsletteru vybrat nej nabdky? To je pro MagicTable taky tabulka. Akort ji nevyplujeme, ale pedpovdme njakou hodnotu nap. mru konverze Strojov uen se na minulch datech nau, na em je konverze zvisl. A pro budouc nabdky predikuje mru konverze.

Kde jsme

V beta provozu

Dva zkuebn zkaznci velk esk firmy

Bereme i dal kdy maj zajmav problm

MagicTable.com miniweb

Dky!

[email protected]

@michalillich