Upload
jano-suchal
View
769
Download
1
Embed Size (px)
Citation preview
Datanest 3.0PeaceGlory FoxMiroslav Hetteš, Marek Čelín, Tomáš Kramár, Jano Suchal
Budem prezentovat projekt Datanest 3.0. Sucasny datanest je sice verzia 1.0 ale toto je tak dobre, ze sme sa rozhodli verziu 2.0 preskocit.
Inspirovali sme sa grafom prepojeni, ktory spracoval Adam Valcek. Ti, co ste niekedy takyto graf kreslili, viete, ze to je strasna robota. Lebo na zaciatku zacinate s niecim co vyzera takto:
Nástroj na kreslenie grafov
My sme vytvorili v prvom kroku nastroj na kreslenie takychto grafov prepojeni. Co nie je velmi zaujimave, lebo takychto nastrojov existuje uz dost.
Avsak potrebujete ho, lebo potrebujete kreslit aj prepojenia, ktore su zname len z medii alebo inych zdrojov.
Automatické hľadanie vdatasetoch
To co vsak umoznuje nas nastroj je automaticke pridavanie prepojeni z dostupnych datasetov. Napriklad z OpenCorporates vieme automaticky nakreslit tieto prepojenia, bez namahaveho rucneho hladania v registroch.
Ak by sme zobrali OpenCorporates a obchodny register, tak sa vieme takmer automaticky dostat k tejto casti grafu.
Deduplikácia dát
Problemom open data je vsak to, ze su do velkej miery neprepojene, nepresne a obsahuju mnozstva duplicitnych zaznamov a preklepov. Nas nastroj umoznuje tieto duplicity spajat.
Tak nasledne uz v databaze figuruju ako spojene a dalsi pouzivatelia nemusia tuto duplicitu oznacovat. Takto sa teda vedlajsim efektom prepajaju rozne datasety.
Hľadanie ciest v grafe
Problem vsak nastava, ked si pozriete realitu, tak firiem flexsys je v opencorporate asi 180. Taktiez vacsinou neviete ci prave takato firma bude viest k nejakemu prepojeniu. Toto je vsak pre pocitac velmi lahka uloha. Preto nas nastroj umoznuje automaticke hladanie prepojeni.
Requesting edges for https://opencorporates.com/companies/cy/HE329746 GINOSTRA LIMITED ...2 found!Requesting edges for https://opencorporates.com/officers/132206260 ΕΛΕΝΗ ΚΥΡΙΑΚΙΔΟΥ ...53 found!Requesting edges for https://opencorporates.com/officers/132206261 FLEXSYS (SERVICES) LIMITED ...180 found!Requesting edges for https://opencorporates.com/officers/131633667 ΕΛΕΝΗ Κ. ΚΥΡΙΑΚΙΔΟΥ ...2 found!…
Found paths:
PATH 1:
GINOSTRA LIMITED <https://opencorporates.com/companies/cy/HE329746> --(secretary)--> FLEXSYS (SERVICES) LIMITED <https://opencorporates.com/officers/132206261> --(possible_duplicate)--> FLEXSYS (SERVICES) LIMITED <https://opencorporates.com/officers/132046854> --(directed_by)--> PREFTO HOLDINGS LIMITED <https://opencorporates.com/companies/cy/HE246615>
Tu je ukazka hladania cesty medzi dvoma firmami priamo v OpenCorporates aj ces duplicitne a neprepojene data. Algoritmus oznaci cestu medzi firmami a pripadne ukaze, za akych podmienok toto prepojenie existuje. V tomto pripade musi byt Flexys ako sekretar firmy Ginostra ten isty ako director prefto holdings. Toto rozhodnutie musi urobit clovek avsak je to obrovska pomoc, kedze nie je potrebne prehladavat predtym stovky firiem.
Crowdsourcing
Ak ani toto nestaci, tak je mozne vyuzit crowdsourcing na precistenie/prepojenie velkych datasetov.
Vyzera to takto. V moznych duplikatoch je mozne namiesto oznacenia vytvorit “crowdsourcing” ulohu, ktoru moze riesit lubovolny navstevnik a pomaha tak precistovat datasety aj pre ostatnych.
Otvorená platforma
Toto vsak nie je vsetko. Ak ste si teraz povedali, ze to je fajn, ale ja chcem aj hladat firmy v inej databaze alebo hladat prepojenia cez internetove domeny alebo nieco uplne ine, tak Datanest 3.0 je otvorenou platformou. Mozete do nej pridavat vlastne sluzby, ktore napriklad vedia hladat firmy na rovnakej adrese. Pridavat nove typy vrcholov v grafe (domeny, ip adresy) a nove typy prepojeni (sused, vlastnik domeny…) Staci dodrzat jednoduche API a zapnut vasu sluzbu v nastroji.
Datanest 3.0 - je teda nastroj na vizualizaciu a hladanie prepojeni v roznorodych datasetoch, ktory pomocou crowdsourcingu umoznuje efektivne precistovat a prepajat data a taktiez otvorenou rozsiritelnou platformou pre nove sluzby nad takymito datami.