32
Nástroj pre zosúladenie zverejňovaných dát s centrálnym modelom Študenti: Lukáš Belaj, Tomáš Božik, Matúš Brandajský, Gabriel Csöllei, Janka Fabušová, Michal Hrutka, Tatiana Šlesariková Vedúci tímu: Jakub Šimko Konzultant: Marek Šurek

Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

Nástroj pre zosúladenie zverejňovaných dát s

centrálnym modelom

Študenti: Lukáš Belaj, Tomáš Božik, Matúš Brandajský,

Gabriel Csöllei, Janka Fabušová,

Michal Hrutka, Tatiana Šlesariková

Vedúci tímu: Jakub Šimko

Konzultant: Marek Šurek

Page 2: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

Rámec: memorandum o spolupráci UPV a STU

2

Hľadali sme:

rozumne veľký problém

vhodný pre naše špecifické kompetencie

Page 3: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

Zadanie:

(Polo) automatická transformácia verejných datasetov

do podoby vyhovujúcej centrálnemu modelu,

ktorú zvládne úradník bez technického zamerania.

3

mapovanie

čo najviac

automaticky

s pomocou

úradníka

Page 4: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

Myšlienka riešenia

Vo webovej aplikácií

1. Úradník nahrá dataset v podobe akej ho má (csv, xlsx...)

2. Aplikácia odhadne, čomu v centrálnom modeli zodpovedajú

stĺpce datasetu

3. Pre každý stĺpec úradník odhada) Potvrdí

b) Nahradí inou možnosťou

c) Zavedie nový typ atribútu

4. Úradník potvrdí výber a aplikácia dataset zverejní

4

Page 5: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

Ukážka z prototypu aplikácie

5

Page 6: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

Ako sme to spravili

6

Page 7: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

Architektúra + technológie

7

Page 8: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

Frontend vždy najskôr prototypujeme

8

Page 9: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

Vyvíjame agilne (Scrum, 2 týždňové šprinty)

TODO screenshot zo scrumdesku

9

Page 10: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

Čo ďalej? Čo aktuálne riešime?

10

Page 11: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

Existujúce datasety (data.gov.sk) sú plné

neporiadku vo viacerých rovinách

Nie vždy ide o stĺpcové dáta

Súbory môžu obsahovať naraz viac datasetov

Nie vždy sa dá spoľahnúť na uniformnosť dát v rámci

stĺpcov

11

mapovanieupratanie

Page 12: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

12

Odpoveďou na neporiadok v dátach môže byť

umelá inteligencia

Page 13: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

Skúsili sme určovať typ atribútov podľa

obsahu stĺpcov

13

Pokus č. 2

13 číselných atribútov

v rôznych podobách4.3.2018, 3/4/2018, 20180403

Random Forest

presnosť: 98%

Pokus č. 1

5 číselných atribútov

2 textové atribúty

rôzne formáty

SVM

presnosť: nad 96%

Page 14: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

Zavedenie nového atribútu sa dá verifikovať

jeho používaním

14

Page 15: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

Zavedenie nového atribútu sa dá verifikovať

jeho používaním

15

Page 16: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

Počítame s možnosťou zdieľania linkov

(pričom sa zachová stav dokumentu)

Úradník A si nevie rady, pošle celý stav práce úradníkovi B

16

Page 17: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

Nástroj pre zosúladenie zverejňovaných dát s

centrálnym modelom

(Polo) automatická transformácia verejných datasetov

do podoby vyhovujúcej centrálnemu modelu,

ktorú zvládne úradník bez technického zamerania.

17

mapovanie

čo najviac

automaticky

s pomocou

úradníka

Page 18: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

18

Page 19: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

Architektúra prototypu

19

Page 20: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

20

Page 21: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

21

Page 22: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

22

Page 23: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

23

Page 24: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

24

Page 25: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

25

Page 26: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

26

Page 27: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

27

Page 28: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

28

Page 29: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

29

Page 30: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

30

Page 31: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

31

Page 32: Nástroj pre zosúladenie zverejňovaných dát s centrálnym ......Čo ďalej? Čo aktuálne riešime? 10. Existujúce datasety (data.gov.sk) sú plné neporiadku vo viacerých rovinách

32