85
Informatika Predavanje br. 3 Podaci i informacije dr Ana Kovačević [email protected] Fakultet bezbednosti

Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Informatika

Predavanje br. 3

Podaci i informacije

dr Ana Kovačević

[email protected]

Fakultet bezbednosti

Page 2: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Plan predavanja

• Podaci

• Informacije

1.4.2019. autor: dr Ana Kovačević, FB 2

Page 3: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 3

Podaci

• Podaci – jedna od osnovnih komponenata računarskog sistema.

• Podaci i informacije nisu sinonimi u računarstvu.

• Danas sve više podataka je raspoloživo krajnjim korisnicima (zbog pada cene hardvera; pristupa preko Interneta).

• Podaci: – sirove, nestruktuirane zabeležene činjenice.

– značenje zavisi od konteksta.

– tumačenjem se dobijaju informacije.

– računari obrađuju podatke bez razumevanja njihovog značenja.

Page 4: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

PRIMERI PODATAKA

1.4.2019. autor: dr Ana Kovačević, FB 4

Page 5: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 5

Podaci

– broj: 1234,45

– tekst: “Analiza socijalnih mreža je popularna.”

– slika

– video zapis

– zvuk

Page 6: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 6

Tekstualni podaci

• Slobodan tekst nedovoljno struktuiran i

pruža mogućnost višestruke interpretacije.

• Manja je pouzdanost kod slobodnog teksta

nego u egzaktnim numeričkim podacima,

zbog mogućnosti različite interpretacije.

Page 7: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Transakcioni podaci

7

Specijalni tip slogovnih podataka gde važi:

svaki slog (transakcija) sadrži skup stavki

Na primer, podaci o prodavnici prehrambene robe.

Transakciju predstavlja skup proizvoda koji je

neki kupac kupio. Stavke su individualni

proizvodi.

TID Items

1 Bread, Coke, Milk

2 Beer, Bread

3 Beer, Coke, Diaper, Milk

4 Beer, Bread, Diaper, Milk

5 Coke, Diaper, Milk

Page 8: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Graf zasnovani podaci

• <a href="papers/papers.html#aaaa"> Graph

Partitioning </a>

• <li>

• <a href="papers/papers.html#aaaa">

• Parallel Solution of Sparse Linear System of Equations </a>

• <li>

• <a href="papers/papers.html#ffff">

• N-Body Computation and Dense Linear System Solvers

8

2

5

1

2

5

Primer: Generički graf i HTML veze <a

href="papers/papers.html#bbbb">

Data Mining </a>

<li>

Page 9: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Podaci o hemijskim

strukturama • Molekul benzena: C6H6

Prikaz strukture (ugljenik - crno, vodonik -

sivo)

1.4.2019. autor: dr Ana Kovačević, FB 9

Page 10: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Podaci sa poretkom

10

Element u

nizu

Stavka/Događaj Nazivaju se i vremenski

podaci

Niz transakcija

Page 11: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Podaci sa poretkom

(transakcija)

Page 12: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Podaci sa poretkom

12

Genomske sekvence GGTTCCGCCTTCAGCCCCGCGCC

CGCAGGGCCCGCCCCGCGCCGTC

GAGAAGGGCCCGCCTGGCGGGCG

GGGGGAGGCGGGGCCGCCCGAGC

CCAACCGAGTCCGACCAGGTGCC

CCCTCTGCTCGGCCTAGACCTGA

GCTCATTAGGCGGCAGCGGACAG

GCCAAGTAGAACACGCGAAGCGC

TGGGCTGCCTGCTGCGACCAGGG

Page 13: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Podaci sa poretkom

13

Prostorno-

vremenski podaci

U prostorne podatke

spadaju i podaci

vezani za

vremenske serije

Prosečne mesečne temeprature

kopna i mora

Page 14: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 14

Podatak

• Svaki podatak karakteriše:

– simbol

– opis

– kontekst

Page 15: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Šta su podaci?

Skup objekata i njihovih

atributa

Atributi su svojstvo ili

karakteristika objekta Primer: temperatura, boja auta, veličina

ekrana, itd.

Atributi su poznati i kao promenljive, polja,

osobine, karakteristike, obeležja...

Skup atributa opisuje

objekat Objekat je takođe poznat i kao slog, tačka,

slučaj, primer, entitet, instanca, ...

15

Tid Refund Marital

Status

Taxable

Income

Cheat

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes 10

Atributi

Objekti

Page 16: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Šta je atribut?

• Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski) za jedan objekat.

• Npr. Boja očiju se razlikuje za osobe (simbolički atribut), dok temperatura varira u vremenu (numerik)

• Merna skala je pravilo (funkcija) koja je pridružena numeričkoj ili simboličkoj vrednosti atributa objekta.

Page 17: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Vrednosti atributa

17

Vrednosti atributa su brojevi ili simboli koji su pridruženi atributu

Razlika između atributa i njihovih vrednosti Isti atributi mogu da budu preslikani u

različite vrednosti atributa Primer: visina može da se meri u metrima ili kilometrima

Različiti atributi mogu da budu preslikani u isti skup vrednosti, pri čemu osobine vrednosti atributa mogu da budu različite

Primer: vrednosti za broj godina i težinu su celobrojne, ali broj godina ne može da se smanjuje dok težina može

Page 18: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Tipovi atributa

18

Osobine i operacije (nad brojevima) koje se

najčešće koriste radi određivanja tipa atributa

su:

Različitost

:

= i

Uređenje

:

<, ≤, > i ≥

Aditivnost

:

+ i -

Multiplikativnost

:

* i /

Page 19: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Tip atributa Opis Primeri

Imenski

(eng. Nominal)

Vrednost imenskog

atributa su upravo

različita imena, tj.

imenski atributi pružaju

samo mogućnost

razlikovanja jednog od

drugog objekta (=, )

poštanski kodovi,

identifikacije

zaposlenih, boja

očiju, pol (muški,

ženski)

Kvalitativni

Redni

(eng.

Ordinal)

Vrednosti rednih atributa

pružaju dovoljno

informacija za uređenje

objekata (<, >)

tvrdoća minerala

(dobar, bolji,

najbolji), stepeni,

redni brojevi

zgrada u ulici

Kvalitativni

Intervalni (eng. Interval)

Za intervalne atribute, ima

smisla razlika između

vrednosti, tj. postoji

jedinica mere takvih atributa

(+, - )

datumi u

kalendaru,

temepratura u

stepenima

Celizijusa

Kvantitativni

Razmerni

(eng. Ratio)

Kod razmernih atributa ima

smisla i proizvod i količnik

(*, /) tih atributa

količina novca,

godine, masa,

dužina

Kvantitativni

20

Page 20: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Tip atributa Opis Primeri Operacije

Imenski

(eng. Nominal)

Vrednost imenskog atributa su

upravo različita imena, tj.

imenski atributi pružaju samo

mogućnost razlikovanja jednog

od drugog objekta (=, )

poštanski kodovi,

identifikacije

zaposlenih, boja

očiju, pol (muški,

ženski)

entropija,

korelacija

kontingenata, 2

test

Redni

(eng.

Ordinal)

Vrednosti rednih atributa

pružaju dovoljno informacija za

uređenje objekata (<, >)

tvrdoća minerala

(dobar, bolji,

najbolji), stepeni,

redni brojevi zgrada

u ulici

procenat,

korelacija ranga,

izvršavanje

testova, oznake

testova

Intervalni

(eng. Interval) Za intervalne atribute, ima smisla

razlika između vrednosti, tj. postoji

jedinica mere takvih atributa (+, - )

datumi u kalendaru,

temepratura u

stepenima Celizijusa

srednja vrednost,

standardna

devijacija,

Pearson’ova

korelacija, t i F

test

Razmerni

(eng. Ratio)

Kod razmernih atributa ima smisla i

proizvod i količnik (*, /) tih atributa

količina novca,

godine, masa, dužina

geometrijska

sredina,

harmonijska

sredina, procenat

varijacije

21

Page 21: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Diskretni i kontinuirani atributi

23

Atributi mogu da budu opisani i preko broja vrednosti koje sadrže

Diskretni atributi Imaju konačan ili prebrojivo beskonačan skup vrednosti

Primer: poštanski brojevi, računi, skup reči u nekom

dokumentu

Često se prikazuju kao celobrojne promenljive

Binarni atributi su specijalan slučaj diskretnih atriubuta

Kontinuirani (neprekidni) atribututi Skup vrednosti ovih atributa čine realni brojevi

Primer: temepratura, visina, težina, pritisak, brzina

Realne vrednosti mogu da se mere i predstavljaju samo preko konačnog broja cifara

Uobičajen način predstavljanja je u obliku realnih brojeva u pokretnom zarezu

Page 22: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Kvalitet podataka

24

Koje su vrste problema pri određivanju

kvaliteta podataka?

Kako odrediti probleme sa podacima?

Šta raditi sa uočenim problemima?

Primer problema kvaliteta podataka:

greške pri merenju i prikupljanju podataka

šum i elementi van granica

nedostajuće vrednosti

duplirani (multiplicirani) podaci

Page 23: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 25

Računari i pouzdanost podataka

• Važno kod predstavljanja podataka u

računarima:

– kompletnost

– tačnost

– preciznost podatka

Page 24: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 26

Kompleksnost podataka

• Kompletnost: da svaka karakteristika ili

atribut nekog složenog podatka ili pojma

budu definisani.

• Nekompletni podaci nepouzdane

informacije.

• garbage in garbage out

Page 25: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 27

Tačnost podataka

• Tačnost:

– korektnost:

• sposobnost da se izvršava zadatak bez grešaka ili omaški;

• mera veličine greške podataka;

• greška:

– sistematska – određena samim principom merenja

– statistička – zavise od slučajnih varijacija jedne merne veličine.

– primer: očitavanje merne vrednosti na instrumentu ima i

sistematski i statistički karakter.

– konformnost (usaglašenost podataka): odnosi se na

primenu standarda ili klasifikacionih pravila za

snimanje i prikazivanje podataka.

Page 26: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 28

Preciznost podataka

• Preciznost podataka – stepen rafiniranosti

ili rezolucije kojom se mereni podaci

prikazuju, npr. broj decimalnih mesta.

• Primer: 1,234 kg preciznije od 1,2 kg.

Page 27: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Šum

Šum predstavlja modifikaciju oriinalnih vrednosti

Page 28: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Šum

Šum se nekada meša sa pravim podacima

Eliminacija šuma nije jednostavna

Robusni algoritmi - daju prihvatljiva rešenja i kada je šum

prisutan

Page 29: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Elementi van granica

32

Elementi van granica su objekti sa karakteristikama koje

su značajno različite od najvećeg broja objekata u skupu

podataka

Page 30: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Nedostajuće vrednosti

33

Razlozi za pojavu Informacije nisu prikupljene (npr. ljudi odbijaju da prikažu

svoju težinu, starost, veličinu plate,...)

Atributi nisu primenljivi u svim slučajevima (npr. plata nije primenljiva na decu)

Rukovanje nedostajućim vrednostima Eliminacija objekata

Procena nedostajućih vrednosti

Ignorisanje nedostajućih vrednosti pri obradi

Zamena sa svim mogućim vrednostima (poređanim težinski prema verovatnoći pojavljivanja)

Nekonzistentne vrednosti

Page 31: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Duplirani podaci

34

Skupovi podataka mogu da uključe duplikate,

ili skoro identične podatke

Najčešće se javljaju kod spajanja podataka

iz heterogenih izvora

Primer:

Ista osoba sa više elektronskih adresa

Proces obrade (eliminacije) duplikata se

naziva čišćenje podataka

Page 32: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Preprocesiranje

podataka

35

Primenjuje se radi dobijanja podataka koji više

odgovaraju potrebama istraživanja podataka

Agregacija

Izbor uzoraka (eng. sampling)

Smanjenje dimenzije

Izbor podskupa atributa

Formiranje atributa

Diskretizacija i binarizacija

Transformacija atributa

Page 33: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Agregacija

36

Kombinovanje dva ili više atributa (ili objekata)

u jedan atribut (objekat)

Svrha

Redukcija podataka

Smanjivanje broja atributa ili objekata

Promena skale

Npr. umesto 365 dana dobijamo 12 meseci

'Stabilniji' podaci

Agregirani podaci imaju tendenciju da imaju manja

odstupanja

Page 34: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Primer

Page 35: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

IZBOR UZORKA, REDUKCIJA

DIMENZIJE

1.4.2019. autor: dr Ana Kovačević, FB 38

Page 36: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Izbor uzoraka

39

Izbor uzoraka je glavna tehnika koja se koristi u izdvajanju

podataka.

Često se koristi kako za preliminarna istraživanja tako i za konačne analize podataka

Statističari biraju uzorke jer je dobijanje kompletnog

skupa podataka koji su od interesa jako skupo i vremenski zahtevno

Izbor uzoraka se koristi u analizi podataka jer je obrada

kompletnog skupa podataka koji je od interesa takođe jako skupa ili vremenski zahtevna

Page 37: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Izbor uzoraka

40

Ključni principi za efektivan izbor uzoraka su:

Korišćenjem uzoraka koji su reprezentativni dobija

se efekat skoro isti kao da je rađeno na

kompletnom skupu podataka

Uzorak je reprezentativan ako ima

aproksimativno iste osobine kao i originalni skup

podataka

Page 38: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Dimenzionalna

redukcija

6 43

Veliki broj algoritama za istraživanje

podataka bolje rade sa podacima manjih

dimenzija

Eliminišu se šum, redundantni podaci, ....

Dobija se jednostavniji model

Lakša vizuelizacija

Page 39: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Dimenzionalna

redukcija

44

Skupovi podataka mogu da imaju veliki broj atributa (u eng. literaturi se koristi i feature)

Svrha:

Smanjuje se količina vremena i memorije potrebna za rad algoritama za istraživanje podataka

Lakša vizuelizacija

Eliminišu se šum, redundantni podaci, ....

Tehnike Analiza glavnih komponenata (eng. Principle

Component Analysis)

Dekompozicija singularne vrednosti (eng. Singular Value Decomposition)

Druge nelinearne tehnike i tehnike sa nadzorom

Page 40: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Izbor podskupa atributa

45

Još jedan način redukcije dimenzije

Redundantni atributi ponavljanje jedne ili svih informacija sadržanih u

jednom ili više atributa

Primer: cena proizvoda i PDV

Atributi sa irelevantnim vrednostima sadrže informacije koje nisu korisne za proces IP-a

Primer: maticni broj studenta je irelevantan za predviđanje prosečne ocene studenta

Page 41: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Izbor podskupa atributa info Tehnike: Gruba sila:

Probaju se svi mogući podskupovi atributa kao ulaz u IP

algoritam

Neprikladan zbog velikog broja podskupova

Ugnježdeni pristup:

Izbor podskupova atributa je deo IP algoritma.

Filteri:

atributi se biraju pre početka rada IP algoritma nekim

pristupom koji je nezavisan od IP procesa

Pristup pomoću omotača:

Koristi se IP algoritam kao crna kutija koja pronalazi

najbolji podskup skupa atributa.

Slično primeni grube sile ali se ne uzimaju u obzir baš svi

podskupovi 46

Page 42: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Izbor skupa atributa -info

47

Formiraju se novi atributi koji sadrže

najvažnije informacije iz skupa podataka na

mnogo efikasniji način nego originalni

atributi

Opšte metodologije:

Izdvajanje atributa

zavisi od domena

Preslikavanje atributa u novi prostor

Konstrukcija atributa

kombinovanje (starih) atributa

Page 43: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Diskretizacija i binarizacija

49

Transformacija neprekidnih u

kategoričke atribute - diskretizacija

Transformacija neprekidnih i diskretnih atributa

u binarne - binarizacija

Jednostavna tehnika binarizacije: ako ima m

kategoričkih vrednosti tada se svakoj

dodeljuje jedinstven broj u intervalu [0,m-1] i

konvertuje svaki od tih brojeva u binarnu

vrednost

Page 44: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)
Page 45: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 52

Kodiranje podataka

• Kodiranje – proces dodeljivanja individualnog objekta klasi ili skupu klasa, u slučaju višedimenzionalne klasifikacije.

• Primeri:

– numerički kodovi (111123)

– mnemonički kodovi (FB)

– hijerarhijski kodovi (roditelj-dete)

– binarni kodovi

Page 46: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 53

Dani u nedelji binarno kodirani

• Ponedeljak 000

• Utorak 001

• Sreda 010

• Četvrtak 011

• Petak 100

• Subota 101

• Nedelja 110

• Ne koristi se 111

Page 47: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Transformacija atributa

6 54

Transformacija promenljive označava

transformaciju koja se primenjuje na sve

vrednosti te promenljive.

Za svaki objekat, transformacija se primenjuje

na vrednosti promenljive za taj objekat.

Primer: ako je bitna jedino veličina objekta,

promenljiva može da se transformiše

uzimanjem apsolutne vrednosti.

Page 48: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Transformacija atributa –

55

Jednostavne funkcije, npr. : √x, xk, log(x), ex, |x|, 1/x

U statistici se često koriste √x, log(x) i 1/x radi

transformacije podataka koji nemaju Gausovu

(normalnu) raspodelu u podatke koji imaju tu

raspodelu

U IP procesu ima i drugih razloga. Npr. ako je vrednost

promenljive između 1 i 1.000.000.000, primenom log

funkcije se dobijaju bolji odnosi kod poređenja (npr. 108

sa 109 i 10 sa 1000)

Transformaciju promenljivih treba primenjivati sa

oprezom jer može da promeni prirodu podataka (npr.

transformacija sa 1/x)

Page 49: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 58

Integracija podataka

• Integracija važna: radi objedinjavanja

podataka iz autonomnih ili izolovanih

aplikacija, i težnja ka formiranju Integralnih

informacionih sistema.

• Integracija podataka:

– integracija unutar organizacije

– integracija podataka između organizacije

(integracija podataka na web-u).

Page 50: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 59

Integracija podataka

• Integracija podataka je problem

obezbeđivanja jedinstvenog i

transparentnog pristupa podacima koji su

uskladišteni unutar autonomnih i

heterogenih izvora podataka.

Page 51: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 60

Aktivnosti nad podacima

• klasifikacija, svrstavanje u klase na osnovu

odabranog kriterijuma

• sortiranje, proces uređivanje redosleda

podataka u nizi, prema zadatom kriterijumu

• agregacija, spajanje, združivanje

• računanje, izvodi se nad numeričkim podacima

• selekcija, izdvajanje podataka iz skupa

podataka na osnovu odabranog kriterijuma

• …

Page 52: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Primer klasifikacije

1.4.2019. autor: dr Ana Kovačević, FB 61

Page 53: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

INFORMACIJE

1.4.2019. autor: dr Ana Kovačević, FB 62

Page 54: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 63

Podatak vs. Informacija

• Podaci sirove, nestruktuirane činjenice,

materijal za dobijanje informacija.

• Svaka informacija sadrži podatak, ali svaki

podatak nije informacija.

• Različitom kombinacijom istih podataka

moguće je dobiti sasvim različite

informacije.

• Informacija doprinosi otklanjanju neznanja.

Page 55: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 64

Informacije

• Potiče od lat. Informare (informisanje ili

obaveštavanje)

• Informacija se može definisati kao:

– PROTUMAČENI PODATAK

– Podaci kada se posmatraju u datom

kontekstu i prenose značenje korisniku.

– Izvedena vrednost sa pridruženim značenjem

dobijena primenom operacija obrade

podataka.

Page 56: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 65

Pojam informacije

• Informacija je inkrement znanja

– Povećava ili doprinosi skupu poznatih

pojmova ili činjenica.

– Informacija zavisi od: konteksta, i predznanje

primaoca informacije.

Page 57: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 66

Pojam informacije (komunikacija)

• Prenos poruka (komunikacija)

– mogućnost dobijanja informacije

– vrlo složen

– discipline koje ga proučavaju:

• psihologija, biologija, filozofija

• telekomunikacije

• informacioni sistemi

• druge discipline

Page 58: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 67

Pojam informacije

• Količina informacije

– informacije su različitog značaja

– formalna mera za količinu informacija –

entropija

– bit (binary digit) – jedinična količina

informacija

– semantički aspekt informacija:

• značenje ili smisao poruka zavisi od osobe

• ne utiče na meru količine informacija

Page 59: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 68

Podatak vs. Informacija

• Podatak: 10

• Informacija 1: Sada je 10 sati.

• Informacija 2: Matija je dobio 10 iz

Informatike.

Page 60: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 69

Informacija

• “Informacija je nešto što ukida ili smanjuje

neodređenost sistema, odnosno smanjuje

neizvesnost promena.”

– C. Shannon.

Page 61: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 70

Informacija

• Informacija povezana sa:

– neizvesnošću, očekivanjem i pretpostavkom.

• Informacija raste kada verovatnoća pojavljivanja

datog događaja opada.

– “U januaru je padao sneg” – mala kol. informacija.

– “U avgustu je padao sneg” – veća količina

informacija.

• pretpostavka: severna polulopta,

• manja verovatnoća – veća neizvesnost, manje očekivanje.

Page 62: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 71

Informacija

• INFORMACIJA je rezultat obrade

podataka i pojavljuje se kao značajna za

one koji je dobiju u specifičnom domenu,

odnosno datom kontekstu.

• Informacija zavisi od:

– konteksta

– predznanja primaoca informacija.

Page 63: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 72

Poželjna svojstva informacija

• Poželjna svojstva informacija su: – tačnost

– raspoloživost

– kompletnost

– jednostavnost

– ekonomičnost

– mogućnost verifikacije

– pouzdanost

– relevantnost

– trajnost

– fleksibilnost

– zaštićenost od neautorizovanog pristupa.

• Neka svojstva su međusobno protivrečna, npr. Mogućnost pristupanja i zaštita

Page 64: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 73

Vrednovanje informacija:

Različiti korisnici – različito vrednuju

informaciju.

Faktori koji utiču na vrednost informacije:

• njena aktuelnost

• tačnost

• pouzdanost

• mera u kojoj zadovoljava potrebe

korisnika

Page 65: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 74

Količina informacija

• U teoriji informacija: Količina informacije u

jednoj poruci se definiše kao broj bitova

potrebnih za kodiranje svih mogućih

značenja te poruke (pod pretpostavkom da

su sva moguća značenja podjednako

verovatna).

Page 66: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 75

Aspekti informacija

• sintaksni: način predstavljanja nosioca

informacija (podataka)

• semantički: značenje (važan je kontekst)

– Kosa leži na kosi.

– Kosa: žensko ime, poljoprivredna alatka,

dlaka na glavi, kosa linija, kosina...

• pragmatički: akcije koje nastaju kao

rezultat interpretacije informacije.

Page 67: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 76

Transformacija podataka u

informacije • Proces transformacije podataka u

informacije:

– selekcija,

– obrada: skup aktivnosti kojima se podaci

transformišu u informacije

• Informacije se prikazuju u formi pogodnoj

za korisnika.

Page 68: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 77

Transformacija podataka u

informacije • Važno za transformaciju podataka:

– da su podaci ispravno zapisani

– preneto korisnicama bez ostavljanja

mogućnosti za različite interpretacije.

• Podaci postaju informacije u trenutku

njihovog korišćenja, ako se prikupljeni

podaci ne koriste oni ne postaju

informacije.

Page 69: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 78

Proces akumuliranja znanja

• Informacija se transformiše u znanje kada

se koristi za donošenje odluka i

preduzimanje odgovarajućih akcija.

Page 70: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 79

Znanje

• Znanje je informacija koja ima kontekst,

relevantna je i na osnovu njenog sadržaja

se može delovati.

• Znanje je dinamično znanje informacija

u akciji.

• Tokom vremena sa iskustvom znanje

evoluira.

Page 71: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 80

Unapređenje znanja

• Za pojedince i organizacije je veoma

važno da unapređuju svoje znanje, da bi

ga održale kao izvor konkurentske

prednosti potrebno da organizacije

imaju i unapređuju sistem za upravlje

znanjem i intelektualnim kapitalom.

• Znanje je Intelektualni kapital znanje

ima finansijsku vrednost.

Page 72: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 81

Znanje

• Znanje: – objektivno:

• dokumentovano u formi koja se može distribuirati drugima ili transformisati u proces;

• znanje koje otiče.

– subjektivno: • teško se može dokumentovati, nestruktuirano, rasuto;

• ugrađeno znanje.

• U savremenim IS uglavnom se prikuplja, skladišti, upravlja, izveštava o objektivnom znanju, ali treba razmatrati i subjektivno znanje.

Page 73: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 82

Upravljanje znanjem

• Upravljanje znanjem (engl. Knowledge

Management) je proces koji doprinosi

povećanju njegove vrednosti ponovnom

upotrebom.

• Sistem upravljanja znanjem (Knowledge

Management) omogućava dostupnost

upravljanja znanjem u celoj organizaciji ili

preduzeću.

Page 74: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 83

Upravljanje znanjem

• Životni ciklus upravljanja znanjem:

– stvaranje znanja

– osvajanje znanja

– oplemenjivanje znanja

– upravljanje znanjem

– širenje znanja.

Page 75: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

Upravljanje znanjem

• Podeliti ono što ste naučili, stvorili ili dokazali.

• Inovirati da bi bili kreativniji, inventivniji i

maštovitiji

• Ponovno koristiti ono što su drugi već naučili,

kreirali i dokazali.

• Sarađivati sa drugima da bi se bolje iskoristilo

njihovo znanje

• Učiti radeći, od drugih, i iz postojećih informacija.

1.4.2019. autor: dr Ana Kovačević, FB 84

Page 76: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 85

Klasifikacija

• Prema Russell Ackoff-u, sistem teoretičaru i profesoru organizacionih promena, ljudski um se može klasifikovati u 5 kategorija: – podaci: simboli,

– informacije: podaci koji postaju korisni nakon neke obrade (ko, šta, gde i kada?).

– znanje: aplikacije nad podacima i informacijama, (kako?)

– razumevanje: zašto?

– mudrost: evaluirano razumevanje; omogućava kreiranje budućnosti.

Page 77: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 86

Tranzicija podataka u informacije

(Russell Ackoff)

Page 78: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

DIKW piramida III

87 Joe Gollner: The Anatomy of

Knowledge

Page 79: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 88

Primer

• Podatak: 1234567.89

• Informacija: Vaš račune je porastao za 1234567.89$ što je 8087% .

• Znanje: Niko mi ne duguje toliko novca.

• Mudrost: Bolje da proverim u banci pre nego što ih potrošim, zbog onoga što se desilo drugim ljudima.

• (Izvor: Free on-line Dictionary of Computing)

Page 80: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 89

Definicije informacija

• SINTAKSNI aspekt: Informacija predstavlja negativnu vrednost logaritma verovatnoće dešavanja događaja

(C. Shenon)

• SEMANTIČKI aspekt: Informacija je funkcija odnosa između mogućih odgovora pre i posle prijema poruke (Briljon)

• PRAGMATIČKI aspekt: Informacija je naziv za sadržaj koji je razmenjen sa spoljašnjim svetom u postupku usaglašavanja sa njim (Viner)

Page 81: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 90

Entropija

• 1948. Claude Shannon

• U teoriji informacija entropija je mera

neizvesnosti koja se pridružuje nekoj

slučajnoj promenljivoj.

• Mera za količinu informacija koja

nedostaje u datom sistemu pre prijema:

Šenonova entropija.

Page 82: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 91

Pojam entropije

• Entropija

– mera neorganizovanosti sistema

– mera za nered u sistemu

• potpuni nered i potpuni red ne postoje

– mera neizvesnosti o podacima u prenetim porukama

• Informacija

– Shannon: negativna vrednost entropije

– mera za red, izvesnost, organizovanost sistema.

Page 83: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 92

Šenonova definicija informacija

• I-informacioni sadržaj (količina informacije)

koji se može desiti sa verovatnoćom p:

I = -log2 p, gde je 0 <= p <= 1.

I – izražen u bitovima (bit-jedinica informacije).

Šenonova definicija informacija u matematičkoj

formi povezuje informaciju sa svojim

numeričkom (digitalnom) prezentacijom—

sintaksni aspekt.

Page 84: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 93

Primer

• “Fer” novčić, novčić koji prilikom bacanja

ima podjednaku verovatnoću pojavljivanja

“pisma” i “glave” ima entropiju 1 bit.

• I = – log2 0.5= 1 bit.

• Napomena: ukoliko novčić nije fer, tada je

neizvesnost manja, a samim tim i

Shannon-ova entropija.

Page 85: Informatika Predavanje br. 3 Podaci i informacije P3.pdf · Šta je atribut? •Atribut je osobina ili karakteristika objekta koja se razlikuje među objekima ili je različita (vremenski)

1.4.2019. autor: dr Ana Kovačević, FB 94

Literatura

• Dejan Simić, 2011, Osnove informaciono

komunikacionih tehnologija, glava 3.

• Ozren Džigurski, Informatika, Fakultet

civilne odbrane, 2002.

• Tan, P., Steinbach, M., Kumar, V.

(2006). Introduction to data mining.

Pearson AddisonWesley

– Nenad Mitić, Podaci

http://poincare.matf.bg.ac.rs/~nenad/ip.2016/2

.podaci.pdf)