17
Datanest 3.0 PeaceGlory Fox Miroslav Hetteš, Marek Čelín, Tomáš Kramár, Jano Suchal Budem prezentovat projekt Datanest 3.0. Sucasny datanest je sice verzia 1.0 ale toto je tak dobre, ze sme sa rozhodli verziu 2.0 preskocit.

Datanest 3.0

Embed Size (px)

Citation preview

Datanest 3.0PeaceGlory FoxMiroslav Hetteš, Marek Čelín, Tomáš Kramár, Jano Suchal

Budem prezentovat projekt Datanest 3.0. Sucasny datanest je sice verzia 1.0 ale toto je tak dobre, ze sme sa rozhodli verziu 2.0 preskocit.

Inspirovali sme sa grafom prepojeni, ktory spracoval Adam Valcek. Ti, co ste niekedy takyto graf kreslili, viete, ze to je strasna robota. Lebo na zaciatku zacinate s niecim co vyzera takto:

Viete, ze existuje nejaky Vahostav a poistovna Dovera.

Nástroj na kreslenie grafov

My sme vytvorili v prvom kroku nastroj na kreslenie takychto grafov prepojeni. Co nie je velmi zaujimave, lebo takychto nastrojov existuje uz dost.

Avsak potrebujete ho, lebo potrebujete kreslit aj prepojenia, ktore su zname len z medii alebo inych zdrojov.

Automatické hľadanie vdatasetoch

To co vsak umoznuje nas nastroj je automaticke pridavanie prepojeni z dostupnych datasetov. Napriklad z OpenCorporates vieme automaticky nakreslit tieto prepojenia, bez namahaveho rucneho hladania v registroch.

Ak by sme zobrali OpenCorporates a obchodny register, tak sa vieme takmer automaticky dostat k tejto casti grafu.

Deduplikácia dát

Problemom open data je vsak to, ze su do velkej miery neprepojene, nepresne a obsahuju mnozstva duplicitnych zaznamov a preklepov. Nas nastroj umoznuje tieto duplicity spajat.

Napriklad v pripade Vahostavu su dve firmy Flexys, ktore mozu aj nemusia byt tie iste.

Ak sa ich clovek rozhodne spojit do jedneho.

Tak nasledne uz v databaze figuruju ako spojene a dalsi pouzivatelia nemusia tuto duplicitu oznacovat. Takto sa teda vedlajsim efektom prepajaju rozne datasety.

Hľadanie ciest v grafe

Problem vsak nastava, ked si pozriete realitu, tak firiem flexsys je v opencorporate asi 180. Taktiez vacsinou neviete ci prave takato firma bude viest k nejakemu prepojeniu. Toto je vsak pre pocitac velmi lahka uloha. Preto nas nastroj umoznuje automaticke hladanie prepojeni.

Requesting edges for https://opencorporates.com/companies/cy/HE329746 GINOSTRA LIMITED ...2 found!Requesting edges for https://opencorporates.com/officers/132206260 ΕΛΕΝΗ ΚΥΡΙΑΚΙΔΟΥ ...53 found!Requesting edges for https://opencorporates.com/officers/132206261 FLEXSYS (SERVICES) LIMITED ...180 found!Requesting edges for https://opencorporates.com/officers/131633667 ΕΛΕΝΗ Κ. ΚΥΡΙΑΚΙΔΟΥ ...2 found!…

Found paths:

PATH 1:

GINOSTRA LIMITED <https://opencorporates.com/companies/cy/HE329746> --(secretary)--> FLEXSYS (SERVICES) LIMITED <https://opencorporates.com/officers/132206261> --(possible_duplicate)--> FLEXSYS (SERVICES) LIMITED <https://opencorporates.com/officers/132046854> --(directed_by)--> PREFTO HOLDINGS LIMITED <https://opencorporates.com/companies/cy/HE246615>

Tu je ukazka hladania cesty medzi dvoma firmami priamo v OpenCorporates aj ces duplicitne a neprepojene data. Algoritmus oznaci cestu medzi firmami a pripadne ukaze, za akych podmienok toto prepojenie existuje. V tomto pripade musi byt Flexys ako sekretar firmy Ginostra ten isty ako director prefto holdings. Toto rozhodnutie musi urobit clovek avsak je to obrovska pomoc, kedze nie je potrebne prehladavat predtym stovky firiem.

Crowdsourcing

Ak ani toto nestaci, tak je mozne vyuzit crowdsourcing na precistenie/prepojenie velkych datasetov.

Vyzera to takto. V moznych duplikatoch je mozne namiesto oznacenia vytvorit “crowdsourcing” ulohu, ktoru moze riesit lubovolny navstevnik a pomaha tak precistovat datasety aj pre ostatnych.

Otvorená platforma

Toto vsak nie je vsetko. Ak ste si teraz povedali, ze to je fajn, ale ja chcem aj hladat firmy v inej databaze alebo hladat prepojenia cez internetove domeny alebo nieco uplne ine, tak Datanest 3.0 je otvorenou platformou. Mozete do nej pridavat vlastne sluzby, ktore napriklad vedia hladat firmy na rovnakej adrese. Pridavat nove typy vrcholov v grafe (domeny, ip adresy) a nove typy prepojeni (sused, vlastnik domeny…) Staci dodrzat jednoduche API a zapnut vasu sluzbu v nastroji.

Datanest 3.0 - je teda nastroj na vizualizaciu a hladanie prepojeni v roznorodych datasetoch, ktory pomocou crowdsourcingu umoznuje efektivne precistovat a prepajat data a taktiez otvorenou rozsiritelnou platformou pre nove sluzby nad takymito datami.

Demo