62
1 Bibliometrija

(Bibliometrija) Prezentacija

  • Upload
    vutram

  • View
    221

  • Download
    2

Embed Size (px)

Citation preview

Page 1: (Bibliometrija) Prezentacija

1

Bibliometrija

Page 2: (Bibliometrija) Prezentacija

2

Kvantitativni aspekti prometa informacija• U okviru Bibliotekarstva i informatike kao i srodnih disciplina (npr.

sociologija nauke) razvijene su mnoge teorije i metodologije koje se odnose na kvantitativne aspekte generisanja, organizovanja, širenja i korišćenja informacija od strane različitih korisnika u različitom kontekstu.• Istorijski, do ovog razvoja je došlo u prvoj polovini dvadesetog veka i

on se zasnivao na statističkom istraživanju bibliografija i naučnih časopisa. • Tako su otkriveni neki poznati zakoni.

Page 3: (Bibliometrija) Prezentacija

3

Koliko različitih metrika postoji?• “Bibliometrics,” “scientometrics,” “informetrics,” “webometrics,”

“netometrics,” “cybermetrics”: metrologija naučne komunikacije koristi mnoge termine da ukaže na različita istraživačka područja koja je teško razdvojiti. • Najlakše bi bilo ako bi mogla da se uspostavi direktna hijerarhijska veza

među njima: bibliometrija vodi u sajberometriju preko scientometrije i informometrije. • Ali, situacija je mnogo složenija. Cilj svakog istraživačkog područja je da

analizira, kvantifikuje i izmeri fenomen komunikacije da bi izgradio tačnu formalnu reprezentaciju njegovog ponašanja radi razumevanja, evaluacije ili u administrativne svrhe. • Razlike leže u redosledu i broju faktora i u međama objekta koji se „meri“.

Page 4: (Bibliometrija) Prezentacija

4

Bibliometrija• Vezana je za tradicionalne studije bibliotekarstva;• Termin “bibliometrics“ – bibliometrija – koji je skovao Alan Pričard (Alan

Pritchard) u kasnim 1960-tim, naglašava materijalni aspekt merenja: broje se knjige, radovi, publikacije, citati, i uopšte svaka statistički značajna manifestacija zabeležene informacije, nezavisno od granica među disciplinama. • Pričardova definicija glasI: “BIBLIOMETRIJA, to jest, primena matematičkih i

statističkih metoda na knjige i druge medije komunikacije“. • Alan Pritchard, “Statistical Bibliography or Bibliometrics?” Journal of Documentation 25, no.

4 (1969): 349. • Iste godine, ovu Pričardovu definiciju je preformulisao drugi istraživač:

„kvantitativna obrada osobina zabeleženog govora i ponašanja koje ga karakteriše“• Robert A. Fairthorne, “Empirical Hyperbolic Distributions (Bradford-Zipf-Mandelbrot) for

Bibliometric Description and Prediction,” Journal of Documentation 25, no. 4 (1969): 319.

Page 5: (Bibliometrija) Prezentacija

5

Scientometrija/naukometrija• Nasuprot tome, naglasak “scientometrics” – scientometrije – je na merenju

specifične vrste informacije, one informacije koja je već prošla neku vrstu provere koju je obavio neko za to zadužen i kome se veruje. • U najširem smislu, scientometrija obuhvata sve kvantitativne aspekte modela koji

se odnose na proizvodnju i diseminaciju naučnog i tehnološkog znanja. • Polazeći od nekih polaznih pretpostavki šta je nauka i kako se pravo naučno

dostignuće može meriti, scientometrija se bavi kvantitativnom i komparativnom evaluacijom doprinosa kojim naučnici, istraživačke grupe, institucije i države doprinose napretku znanja. • Pri tome su objavljena dokumenta samo neke jedinice koje se analiziraju – tu su i:

ljudski rad, oprema, objekti, ekonomska i finansijska ulaganja i povraćaj. • Ali dok god se scientometrijsko istraživanje obavlja preko publikacija i citata, to

jest, dok god se bibliometrijske tehnike primenjuju na naučnu i tehničku literaturu, oblasti scientometrije i bibliometrije se velikim delom preklapaju.

Page 6: (Bibliometrija) Prezentacija

6

Informetrija• Prema jednoj priznatoj definiciji “informetrics” – informetrija – je

„izučavanje kvantitavnih aspekata informacija koje mogu biti u ma kom obliku, a ne samo u obliku pisanih zapisa ili bibliografija, i unutar bilo koje društvene grupe, a ne samo među naučnicima.“• Jean Tague-Sutcliffe, “An Introduction to Informetrics,” Information Processing &

Management 28, no. 1 (1992)• Danas je informacija ključni koncept u različitim kontekstima. Prateći

računarsku i mrežnu revoluciju naučnici sve više koriste računare i mreže i kao alat i kao metaforu za modeliranje protoka informacija na ma kom nivou i ma koje složenosti, od mikrobioloških sistema do crnih rupa.• Naravno, pokušaj merenja informacija u svim njihovim društvenim i

prirodnim manifestacijama bilo bi besmisleno.

Page 7: (Bibliometrija) Prezentacija

7

Informetrija/2• Ali, svaki put kada su takve manifestacije informacija zabeležene u obliku

koji je podesan za sadašnju ili buduću komunikaciju, one ulaze u domene informatičke nauke (informatike) i svim pitanjama koja su urođena skupljanju, skladištenju, pronalaženju i prenosu njegovih simboličkih izraza može se pristupiti kvantitativno. • Na ovom nivou opštosti, bibliometrijske tehnike se definitivno odvajaju od

sveta knjiga i bibliotekarstva i u potpunosti uključuju u carstvo informatike, pod čime se podrazumeva da je podskup razmene informacija koji se odvija u bibliotečkom okruženju samo poseban slučaj procesa proizvodnje informacija koji se može podvrgnuti opštoj matematičkoj obradi. • I, ako se nastavi sa ovim uopštavanjem, informetrija se može posmatrati

kao nadskup koji obuhvata sve druge metrike dok god se one bave prebrojavanjem nekog tipa informacija.

Page 8: (Bibliometrija) Prezentacija

8

Vebometrija• U svetu digitalnih mreža, “webometrics” – vebometrija – čiji su srodni termini

“netometrics” i “cybermetrics” – sajbermetrija – označava proširenje informetričkih metoda i koncepata na transakcije informacija koje se odvijaju na internetu. • Sve dok su te transakcije negde zabeležene, trajno ili privremeno, domen

vebometrike se preseca sa domenom bibliometrije, a sve dok se analiza usredsređuje na sajber tragove naučnih i tahnoloških transakcija, njen domen se preseca i sa domenom informetrije. • Lennart Björneborn i Peter Ingwersen, dva pionira vebometrije takođe predlažu

da se pravi razlika između kvantitativnog izučavanja veb resursa (vebometrija u užem značenju) i opštije kvantitativne analize svih internet aplikacija (sajbermetrija).• Björneborn and Ingwersen, “Toward a Basic Framework for Webometrics,” Journal of the

American Society for Information Science and Technology 55, no. 14 (2004): 1217–18, www.db.dk/binaries/PerspectivesWebometrics-Jasist.pdf.

Page 9: (Bibliometrija) Prezentacija

9

Odnos između različitih „metrika“• Odnos između različitih

polja unutar LIS-a infor-/biblio-/sciento-/cyber-/webo-/metrics. (veličine elipsi koje se preklapaju se razlikuju samo zbog jasnije vizuelizacije)• Björneborn, L.

(2004). Small-world link structures across an academic web space: a library and information science approach. Det Information svidenskabelige Akademi Danish School of Library and Information Science, Institut østInstitut øst.

Page 10: (Bibliometrija) Prezentacija

10

Nešto sasvim novo –altmetrics• Alternativna metrika;• U naučnom izdavaštvu altmetrics - altmetrija – je netradicionalna metrika koja se

predlaže kao alternativa za tradicionalne mere koje se zasnivaju na citiranosti (citation impact), kao što su impakt faktor i h-indeks.

• Ovaj termin je predložen 2010. kao uopštenje mera vezanih za radove i njegov koren je u #altmetrics heštagu (hashtag). • J. Priem, D. Taraborelli, P. Groth, C. Neylon, altmetrics: a manifesto, 2010,

http://altmetrics.org/manifesto/• Iako je altmerija počela kao metrija članaka, primenjuje se i na ljude, knjige, časopise,

baze podataka, prezentacije, video snimke, repozitorijume izvornih kodova (programa), veb stranice, itd.

• Na početku, altmetrija nije pokrivala metriku citiranja. • Danas ona pokriva druge uticaje nekog rada (rada uopšte, ne nužno publikovanog

članka), kao što je koliko baza podataka i znanja se referiše na njega, koliko puta je članak pregledan, preuzet ili pomenut u društvenim i novinskim medijima.

Page 11: (Bibliometrija) Prezentacija

11

Podela zaduženja – prezentacije od pola sata• Tradicionalna bibliometrija – mere, 10. XII 2015.• Milena Obradović i Milica Ninković

• Scientometrija i Informometrija ‘’, 17. XII 2015.• Marija Pantić

• Vebometrija, 17. XII 2015.• Mihailo Škorić

• Altometrija, 24. XII 2015.• Petar Popović

Page 12: (Bibliometrija) Prezentacija

12

Literatura• Knjiga: De Bellis, N.: Bibliometrics and Citation Analysis: From the

Science Citation Index to Cybermetrics, Scarecrow Press, 2009.• Doktorska disertacija:

• Björneborn, L. (2004). Small-world link structures across an academic web space: a library and information science approach. Det Information svidenskabelige Akademi Danish School of Library and Information Science, Institut østInstitut øst.

• Rad:• Vesna Oluić-Vuković, “Kvantitativna istraživanja procesa stvaranja, prijenosa i korištenja

informacija – nužnost jedinstvenog pristupa”, Vjesnik bibliotekara Hrvatske 50, /2(2007), 27-42, ISSN 0507-1925

• Svakome ću poslati još i dodatnu literaturu, svi još treba dodatno da istraže

Page 13: (Bibliometrija) Prezentacija

13

Prezentacije za Napredne metode u pronalaženju informacija – prezentacije od pola sata• Knjiga:• P. Jackson, I. Moulnier, Natural Language Processing for On-line Applications,

John Benjamins Publishing Company, 2007• Istraživanje dodatne literature

• Mihailo Škorić – januar 2016.• Mašine za pretraživanje - rangiranje i evaluacija (poglavlja 2.4-2.6)

• Marija Pantić – januar 2016.• Sistemi za obradu prirodnog jezika (poglavlje 1 iz knjige)

• Marijana Stojanović- 24. XII 2015.• Tradicionalno pronalaženje informacija (poglavlja 2.1-2.3)

Page 14: (Bibliometrija) Prezentacija

14

Nagoveštaj preokreta u kvantitativnom izučavaju prometa informacija• Klasifikovanje i prebrojavanje naučnika, knjiga, radova i citata, kao što

su radili rani bibliografi je ostajala prilično improvizovana aktivnost sve dok se izučavala izvan matematičkog okvira koji bi omogućio da se otkrije neki smisleni obrazac u obradi dokumenata. • Dvadesetih i tridesetih godina XX veka su otkriveni neki poznati

zakoni: Lotka, Bradford i Zipf su koristili jednostavne matematičke formule i grafička sredstva koji odražavaju empirijsku vezu koja postoji između izvora i stavki koje oni proizvode u tri domena:• Autori proizvode radove;• Časopisi proizvode radove na datu temu;• Tekstovi proizvode reči s nekom frekvencijom.

Page 15: (Bibliometrija) Prezentacija

15

Ko je bio Alfred Lotka?• Rođen je u Lavovu (Poljska) koji je tada bio deo Austrougarske.• Američki naučnik – matematičar, statističar i fizikohemičar – koji je

postao poznat po svojim radovima u oblasti dinamike populacije (dinamika stanovništva, populaciona dinamika) koja se bavi promenom u broju i strukturi jedne ili više populacija.• Poznat je njegov model nazvan grabljivica-plen do koga je

istovremeno ali nezavisno došao i naučnik Vito Voltera, i koji je zato poznat kao model Lotka-Voltera.• U pitanju su nelinearne diferencijalne jednačine koje opisuju

dinamiku bioloških sistema u okviru kojih dve vrste žive i reaguju, od kojih je jedna grabljivica (predator) a druga plen (pray).

Page 16: (Bibliometrija) Prezentacija

16

Model Lotka-Voltera• Jednačine imaju periodična rešenja koja

se ne mogu jednostavno izraziti uobičajenim trigonometrijskim funkcijama.• Pretpostavimo da imamo dve

životinjske vrste, babune (plen) i geparde (grabljivice). Neka su početni uslovi da ima 80 babuna i 40 geparda, onda se može nacrtati progesiona funkcija ove dve vrste u vremenu. Izbor vremenskog intervala je proizvoljan.

"Cheetah Baboon LV" by Elb2000 (talk) (Uploads) - Own work. Licensed under Public Domain via Wikipedia – https://en.wikipedia.org/wiki/File:Cheetah_Baboon_LV.jpg#/media/File:Cheetah_Baboon_LV.jpg

"Volterra lotka dynamics". Licensed under CC BY-SA 3.0 via Commons – https://commons.wikimedia.org/wiki/File:Volterra_lotka_dynamics.PNG#/media/File:Volterra_lotka_dynamics.PNG

Page 17: (Bibliometrija) Prezentacija

17

Lotka’s law – Lotkin zakon• Odnos između autora i radova - distribucija radova po autorima• LOTKA, A. J. (1926), The frequency distribution of scientific productivity,

Journal of the Washington Academy of Science, 16 (12) : 317–323.• On je pokušao da utvrdi koliko su naučnici različitog kalibra uključeni

u prve redove borbe za „vidljivost“ u svetu naučne komunikacije, doprinosili napretku znanja.• Lotka je klasifikovao, prema broju autorskih publikacija, naučnike koji

su se našli u indeksu Chemical Abstracts (1907–1916) i u Geschichtstafeln der Physik (koji pokriva sve napisano do 1900. iz fizike), a brojanje je uključivalo starije autore u slučaju radova koje je pisalo više autora.

Page 18: (Bibliometrija) Prezentacija

18

Lotka’s law – Lotkin zakon• Originalno je Lotka ovaj zakon formulisao na sledeći način:• Eksperimentalni podaci (dobijeni prebrojavanjem) se iscrtavaju na log-log

skali (dvostruka logaritamska skala, vrednosti su „logaritmovane“ i na x i na y osi – monomi oblika y=a x∙ n se na ovoj skali prikazuju kao prave linije);• Učestalost autora koji su objavili 1, 2, 3 itd. radova (y vrednost) se iscrtava

prema brojevima radova 1, 2, 3 itd. (x vrednosti);• Lotka je uočio da „tačke u ravni koje predstavljaju dve promenljive iz uzorka

se pojavljuju prilično blizu rasute oko prave linije koja ima nagib otprilike dva prema jedan.“• Tako je formulisan originalan Lotkin zakon:

• Broj autora koji su objavili n radova je približno jednak 1/n2 broja autora koji su napisali samo jedan rad.

Page 19: (Bibliometrija) Prezentacija

19

Lotka’s law – Lotkin zakon• Jednostavnim rečima rečeno, to znači da ako je 60 autora od njih 100 iz

neke naučne oblasti napisalo samo jedan rad onda je 15 autora od njih 100 napisalo 2 rada, 7 autora oo 100 je napisalo 3 rada i tako dalje.• Nuačna produktivnost, prema tome, nije podjednako raspodeljna; samo

mali broj naučnika je veoma produktivan dok je mnogo više onih koji objavljuju malo. • Kasniji empirijski testovi su pokazali da eksponent u imeniocu – poznat kao

„Lotkin eksponent“ – ne mora da bude baš 2 i kreće se u rasponu od 2 do 4.• Tako se dobija opštiji oblik Lotkinog zakona:

• p(n) = C/na

• gde je p broj autora koji su napisali n radova, a C je konstanta koja zavisi od istraživačke oblasti.

Page 20: (Bibliometrija) Prezentacija

20

Lotka’s law – Lotkin zakonbroj radova broj autora

10 1 100/102 1

9 1 100/92 1.23

8 2 100/82 1.56

7 2 100/72 2.04

6 3 100/62 2.77

5 4 100/52 4

4 6 100/42 6.25

3 11 100/32 11.111...

2 25 100/22 25

1 100 100/12 100

• Neka je 100 autora napisalo jedan rad u nekom vremenskom periodu, i pretpostavimo da je C=1 i n=2;• To bi značilo da je ukupno 293

radova napisalo 155 autora, što u proseku daje 1.9 radova po autoru.

Page 21: (Bibliometrija) Prezentacija

21

Lotka’s law – Lotkin zakon

Page 22: (Bibliometrija) Prezentacija

22

Ko je bio Bradford?• Samuel Clement Bradford (1878-1948);• Bio je matematičar, bibliotekar i dokumentalista, radio je u Londonskom

Muzeju nauke;• Njegov ideal je bio zajednički katalog sveg ljudskog znanja koji bi

naučnicima omogućio da imaju bibliografsku kontrolu nad tehničkom i naučnom dokumentacijom;• Najveći problem da se to postigne bila je, po njegovom mišljenju,

nemogućnost onovremenih servisa za apstrahovanje i indeksiranje da ovladaju „haosom dokumentacije“ tako što bi smestili dostupnu literaturu u homogenu mrežu predmetnih odrednica. • Kao rezultat fragmentiranosti i nedostatka standarda informacione usluge

su bile lošeg kvaliteta i napori su se nepotredno duplirali.

Page 23: (Bibliometrija) Prezentacija

23

Bradfordov zakon• „Ispitivanje ovih apstrakata je pokazalo da se oni odnose samo na oko

280,000 različitih radova, pri čemu je svaki rad bio apstrahovan u proseku 2,7 puta. To znači da je manje od polovine korisnih radova apstrahovano u časopisima s apstraktima, što znači da zapisi o više od polovine otkrića i inovacija leži na policama neprimećeno.“• Bradford, S. C. (1934). Sources of information on specific

subjects. Engineering, 26, p. 85-86.

• U pokušaju da utvrdi šta je uzrok lošem indeksiranju on je krenuo, kao prvo, da ustanovi kako su radovi razbacani po naučnim časopisima.

Page 24: (Bibliometrija) Prezentacija

24

Bradfordov zakon• On je analizirao dve bibliografije iz domena geofizike:• Current Bibliography of Applied Geophysics (1928–1931) and• Quarterly Bibliography of Lubrication (1931–1933)

• I ustanovio sledeće:• Ako se časopisi koji su relevantni za neku oblast poređaju u opadajućem

redosledu njihove produktivnosti, i izbroji se broj radova objavljen u svakom od njih, rezultat će biti jezgro ili nukleus od nekoliko časopisa koji doprinose objavljivanju najvećeg broja radova iz date oblasti, a za njima slede druge grupe u kojima je isti broj članaka kao i u jezgru, ali oni su razasuti po sve većem broju časopisa.

Page 25: (Bibliometrija) Prezentacija

25

Bradfordov zakon - primer• U slučaju bibliografija iz geofizike Bradford je ustanovio:

• U prvoj grupi (nukleusu) je bilo 9 naslova koji su doprineli oblasti sa 429 radova; • U sledećoj grupi je bilo 59 časopisa koji su dorpineli sa 499 radova• U poslednjoj grupi je bilo 258 naslova koji su dorpineli sa ukupno 404 reference.

• Svaka od ovih grupa časopisa je prema tome proizvela približno isti broj radova (iako ne isti). Broj časopisa potreban da se dobiju ovi odnosi bi se ovako mogao izraziti:• 9 naslova je u jezgru najproduktivnijih izvora;• 9 ∙ 5 naslova je u drugoj grupi (45 naslova, što je prihvatljiva aproksimacija za 59);• 9 ∙ 5 ∙ 5 = 9 ∙ 52 naslova u trećoj grupi (225 naslova, što je prihvatljiva

aproksimacija za 258).

Page 26: (Bibliometrija) Prezentacija

26

Formulacija Bradfordovog zakona• Prema tome, odnos grupa naslova koji doprinose približno istim brojem

radova u nukleusu i zonama koje slede bi mogao da se zapiše ovako• 9 : 9 ∙ 5 : 9 ∙ 52

• U opštem slučaju — u kome, na primer, broj naslova u jezgru nije 9 i množilac nije 5 — ako podelimo ceo izraz sa 9, zamenimo 5 s promenljivom m i ne ograničimo se na samo tri zone, rezultat je formula• 1 : m : m2 : m3. . .

• Ovde je m “Bradfordov množilac” i on zavisi od kolekcije časopisa; Bradford je priznavao da to “sigurno nije konstanta,” njegova hipoteza je bila da se može aproksimirati konstantom, bar za veće grupe.

Page 27: (Bibliometrija) Prezentacija

27

Formulacija Bradfordovog zakona• Ovaj niz odnosa govori da je najveći broj članaka na datu temu

koncentrisan u malom skupu jezgra časopisa dok su ostali razbacani po drugim časopisima i to na takav način da ako se skup relevantnih radova podeli u grupe ili zone koje sadrže isti broj stavki kao i jezgro, biće potreban sve veći broj časopisa da se te zone popune, a taj broj eksponencijalno raste. • Grafički prikaz ovog zakona se dobija na sledeći način: časopisi se rangiraju

1, 2, 3, . . . , n u opadajućem redu njihove produktivnosti i smeštaju na x osu na uobičajenu logaritamsku skalu, a zatim se kumulativne sume R(n) članaka objavljenih u prvih n časopisa smešta na y osu.• Kao rezultat se dobija rastuća konveksna kriva, daleko od prave linije, ali

koja se ipak u velikom delu opsega može aproksimirati pravom linijom.

Page 28: (Bibliometrija) Prezentacija

28

Grafički prikaz Bradfordovog zakona

Bradfordova distribucija: izvori su rangirani u opadajućem redosledu produktivnostiDok je logaritam ranga označen na x osi

Page 29: (Bibliometrija) Prezentacija

29

Uticaj Bradfordovog zakona• Iako baš i nema objašnjenja zašto je to tako, Bradfordov zakon se pokazao

dosta korisnim za bibliotekare;• Njegov uticaj je bio mnogo veći, ali je došao kasnije. Judžin Garfild iz

Instituta za naučne informacije (Institute for Scientific Information – ISI) inspirisan Bradfordovim zakonom i čuvenim radom Vanevera Buša As We May Think je 1960. razvio obuhvatan indeks koji pokazuje kako se naučno mišljenje širi.• Negov Naučni citatni indeks (Science Citation Index - SCI) je učinio da se

lako identifikuju naučnici koji su zaista doprineli nauci, i časopisi koji su to objavili. Tako je otkriveno, što mnogi nisu očekivali, da mali broj časopisa, kao što su Nature i Science, predstavlja jezgro prirodnih nauka. Isti obrazac se nije potvrdio u humanističkim i društvenim naukama.

Page 30: (Bibliometrija) Prezentacija

30

Ko je bio Džordž Zipf?• George Kingsley Zipf (1902–1950);• Američki lingvist i filolog koji je izučavao statističke pojave u mnogim

jezicima;• Bio je harvardski đak, studirao i na nemačkim univerzitetima, a potom

profesor nemačkog na Harvardu;• Osim jezika izučavao je i demografske pojave pa se mnoge osobine

velikih kolekcija podataka (kao što je distribucija dohotka među državama) mogu objasniti rezultatima njegovih israživanja;• Najpoznatiji je po Zipfovom zakonu.

Page 31: (Bibliometrija) Prezentacija

31

Zipfov zakon• Na prvi pogled Zipfov zakon nema mnogo veze sa Lotkinim, Bradfordovim i

Grafildovim zakonom jer nije vezan za tradicionalne, spoljašnje činioce dokumentacionog scenarija – autori, radovi, časopisi, citati;• On se odnosi na unutrašnji i u priličnoj meri skriveni čin generisanja i

oblikovanja lingvističkog izraza pisanog teksta ili govornog iskaza iz ma kog domena.• Distribucija frekvencije reči je već i pre Zipfa privlačila pažnju statističara

pre svega zato što za razliku od drugih asimetričnih distribucija koje se javljaju u prirodi i društvu kod nje se javlja veliki broj retkih, malo verovatnih događaja (reči). Osim toga ona pruža spremno empirijsko okruženje kada treba da se potvrdi efekat nenasumičnog ponašanja koje je karakteristično za ljudski govor na probabilističke modele koji su prožeti pretpostavkama o nasumičnosti.

Page 32: (Bibliometrija) Prezentacija

32

Istraživanja koja su prethodila Zipfovom zakonu• Vezana su za radove ruskog matematičara Andreja Andrejeviča Markova

(1856–1922) koji je danas najviše poznat po tzv. Markovljevim lancima;• Markovljevi lancu su (najjednostavnije rečeno) nasumični proces prelaska

iz jednog stanja u drugo kod koga distrubicija verovatnoće prelaska u naredno stanje zavisi samo od tekućeg stanja, a ne od niza događaja koji su prethodili.• Da bi ilustrovao lance Markov ih je primenio na distribuciju samoglasnika i

suglasnika u Puškinovoj poemi „Evgenije Onjegin“.• Markov je izučavao niz od 20.000 slova iz ovog Puškinovog dela i utvrdio da

je verovatnoća vokala p = 0,432, verovatnoća da vokal sledi iza vokala p1 = 0,128, a da je verovatnoća da vokal sledi iz konsonanta p2 = 0,663.• Kasnije su otkrivene mnogo značajnije primene Markovljevih lanaca.

Page 33: (Bibliometrija) Prezentacija

33

Zipfov zakon• Zipf je smatrao da je jezik veoma složen sistem čija se sakrivena poruka

može dokučiti kvantitativnim istraživanjem obrazaca koji se koriste u svakodnevnom govoru.• Na osnovu takvih pretpostavki on je izučavao govor kao prirodan fenomen

na način na koji se to radi u egzaktnim naukama direktnom primenom statističkih principa na posmatrani govorni fenomen.• Zipf, George Kingsley. The Psycho-Biology of Language: An Introduction to Dynamic

Philology. London: Routledge, 1936.• Zipf nije bio školovan matematičar i da bi podržao rezultate dobijene

prebrojavanjem koristio je argumente koji se oslanjaju na neku mističnu silu koja vlada u prirodi. U istoriji nauke nisu retki primeri plodnih istraživačkih programa i validnih naučnih rezultata koji su zasnovani na kontraverznim metafizičkim verovanjima.

Page 34: (Bibliometrija) Prezentacija

34

Zipfov zakon• Zakon se odnosi na reči iz teksta, i to reči u svojim flektivnim oblicima

kako se javljaju u tekst (reči-tokeni, engl. word-tokens), pri čemu je svaka reč-token jedno pojavljivanje odgovarajuće leksičke jedinice ili rečničke odrednice (reč-tip, engl. word-type). • Na primer, u rečenici “child is child is child is child,” javljaju se dva tipa

(“child” i “is”) i sedam tokena (sva različita pojavljivanja “child” i “is”), na osnovu čega bi zipfovska analiza prebrojala sedam jedinica, i dodelila rang 1 reči-tipu “child” koji se javlja četiri puta, a rang 2 reči-tipu “is” koji se javlja tri puta.

Page 35: (Bibliometrija) Prezentacija

35

Zipfov zakon - formulacija• Zipfov zakon kaže da će u relativno dugačkom tekstu, ako se poređaju

reči-tipovi u opadajućem redosledu frekvencija tako da se rang 1 dodeli reči s najvećom frekvencijom, rang 2 reči koja je sledeća najfrekventnija reč i tako dalje, i ako se potom pomnoži svaki rang s brojem pojavljivanja odgovarajućih reči-tokena, proizvod biti (otprilike) konstanta, bar za vrednosti smeštene u srednjem delu nižih rangova.• Matematički se to izražava kao: r ∙ f = C• Ili ako se izraz logaritmuje logr + logf = logC• Ako se ovo prikaže na dvostrukoj logaritamskoj skali dobija se grafikon

prave linije s nagibom otprilike -1 (opada), jer je (logr = logC - logf)

Page 36: (Bibliometrija) Prezentacija

36

Grafički prikaz Zipfovog zakona

Osnovna hiperbolička distribucija veličina-frekvencija prikazanaNa dvostrukog logaritamskoj skali

Page 37: (Bibliometrija) Prezentacija

37

Interpretacija Zipfovog zakona• Najednostavnije govoreći, ovaj zakon govori da se najveći broj reči u

tekstu pojavljuje svega nekoliko puta (ili jednom), dok je ograničen broj reči veoma frekventan. • Distribucija reči u tekstu je asimetrična, veoma liči na distribuciju

naučnih radova po autorima (Lotka) i radova po časopisima (Bradford). • Zaista, ako se Zipfov zakon napiše u opštijem obliku rB ∙ f = C gde je B

konstanta ≤ 1, jasno je da je broj f pojavljivanja reči s rangom r opadajuća stepena funkcija ranga r.

Page 38: (Bibliometrija) Prezentacija

38

Zipfov zakon – primer 1• Prvo poglavlje romana „Dobri vojnik Švejk“ Jaroslava Hašeka• Ima 3362 reči-tokena• Pri vrhu najfrekventnijih su:

1. 101 je2. 101 i3. 97 da4. 93 u5. 70 se6. 38 to7. 35 na8. 31 A9. 30 ne10. 26 a

Page 39: (Bibliometrija) Prezentacija

39

Zipfov zakon – primer 1

Page 40: (Bibliometrija) Prezentacija

40

Zipfov zakon – primer 2• Kompletan roman „Travnička hronika“ Ive Andrića• Ima 147.571 reč-tokena• Pri vrhu najfrekventnijih su:

1. 10072 i (2)2. 6073 je (1)3. 3871 da (3)4. 3530 u (4)5. 3064 se (5)6. 1783 na (7)7. 1624 su8. 1273 sa9. 1172 kao10. 1125 od

Page 41: (Bibliometrija) Prezentacija

41

Zipfov zakon – primer 2

Page 42: (Bibliometrija) Prezentacija

42

Šta je SCI (Science Citation Index) i kako je nastao

Page 43: (Bibliometrija) Prezentacija

43

Ko je Judžin Garfild?• Eugene Garfield (1925- );• Američki lingvista i biznismen koji se smatra osnivačem bibliometrije i

scientometrije;• Studirao i doktorirao na Pensilvanijskom univerzitetu;• Osnovao je Institut za naučne informacije koji je danas najvažniji

naučni deo kompanije Thompson Reuters.• Smatra se zaslužnim za mnoge bibliografske proizvode kao što su

Current Contents, Science Citation Index (SCI), i druge citatne baze podataka, Journal Citation Reports i Index Chemicus.

Page 44: (Bibliometrija) Prezentacija

44

Istraživanje Judžina Garfilda• Garfild je reafirmisao vrednost Bradfordovog zakona i na osnovu

podataka dobijenih iz SCI (1969) i Current Abstracts of Chemistry and Index Chemicus (1969), proširio njegovo polje primene sa jedne discipline na nauku kao celinu. • Eugen Garfield. “Citation Indexes—New Paths to Scientific Knowledge.” The

Chemical Bulletin 43, no. 4 (1956): 11. www.garfield.library.upenn.edu/papers/31.html.

• Njegova empirijska istraživanja citiranosti časopisa su otkrila da se nauka može shvatiti kao nadskup područja raznih disciplina koja se presecaju i preklapaju na razne načine očuvavajući pri tome relativno malo, multidisciplinarno jezgro izvora dokumenata.

Page 45: (Bibliometrija) Prezentacija

45

Garfildov zakon• On je pisao:• „Preklapanje između disciplina je, u stvari, tako veliko da jezgro literature

za sve naučne discipline uključuje najviše 1000 časopisa, a može da ih ima i samo 500.“• Eugen Garfield. Citation Indexing: Its Theory and Application in Science, Technology,

and Humanities. Philadelphia: ISI Press, 1983. www.garfield.library.upenn.edu/ci/title.pdf.

• Opažanje da se u svakom naučnom polju radovi koncentrišu unutar iste grupe multidisciplinarnih časopisa je Garfild uobiličio u novi opšti zakon – Garfildov zakon koncentracije.• On sam je smatrao da je to pre aksioma nego zakon u strogom, naučnom

smislu.

Page 46: (Bibliometrija) Prezentacija

46

Uticaj Garfildovog zakona• Zakon koncentracije je izvršio uticaj na pronalaženje informacija i

evaluaciju tako što je legitimizovao ideju da nasuprot mitu o naučniku koji je preplavljen mnoštvom informacija razbacanih po gomili literature koja stalno raste, ograničen broj časopisa proizvodi najveći deo relevantnih naučnih rezultata u svakom naučnom polju.• Ovaj zaključak dramatično redukuje dimenzije virtualno beskonačnog

univerzuma dokumenata koji je takav da je svaki pokušaj da se postigne potpuna pokrivenost finansijski neodrživ i konceptualno pogrešan (npr. nabavke biblioteka).• Prema tome, multidisciplinarni indeksi kakvi su CC i SCI, čiji su kriterijumi za

odabir izvora otvoreno inspirisani Bradfordovim pretpostavkama, mogu s pravom da se pozivaju na veću efikasnost u pronalaženju zaista relevantne literature od bilo kog indeksa koji je specifičan za neki poseban domen.

Page 47: (Bibliometrija) Prezentacija

47

Veza Grafildovog zakona sa prethodnim istraživanjima• Britanski bibliotekar Donald Erkart (Urquhart, 1909-1994)

• Radio je u Biblioteci Muzeja nauke, u Odseku za naučno i industrijsko istraživanje, osnovao je National Lending Library for Science and Technology (NLLST), koja je postala i ostala jedan od najvećih svetskih centara za nabavku dokumentacije.

• On, navodno, sebe nije smatrao bibliotekarom i uživao je tokom celog života da provocira bibliotečku profesiju;• Pravilnost sličnu onoj koju je formulisao Garfild za časopise je uočio Erkart

u domenu bibliotečkih servisa.• Analizirajući međubibliotečke pozajmice časopisa iz Biblioteke Muzeja

nauke u 1956, Erkart je utvrdio da manje od 10% stavki pokriva oko 80% potražnje, i predložio je Poasonovu distribuciju kao prihvatljiv stohastički model za cirkulaciju.

Page 48: (Bibliometrija) Prezentacija

48

Erkartov zakon• Pošto je broj međubibliotečkih pozajmica svakog časopisa pokazao veliku

pozitivnu korelaciju sa posedovanjem istih naslova u najznačajnijim Britanskim bibliotekama, Erkart je uopštio rezultate u zakon koji tvrdi da je broj međubibliotečkih pozajmica časopisa pouzdana mera njihovog ukupnog korišćenja.• Relativno mali skup časopisa zadovoljava većinu zahteva unutar i među

bibliotekama i sastoji se od uvek istog jezgra časopisa koje uglavnom ima većina akademskih biblioteka.• Kasniji radovi su pokazali da je fenomen korišćenja izvora u bibliotekama

pod istim snažnim uticajem procesa „kumulativne prednosti“ kao što je slučaj sa izdavanjem i citatima, pa se s pravom veruje da se njihovim asimetričnim obrascima rukovode isti zakoni koji važe, na primer, u slučaju socijalne stratifikacije stipendija za školovanje (u SAD-u).

Page 49: (Bibliometrija) Prezentacija

Garfildov zakon koncentracije i Nobelova nagrada• Judžin Garfild i njegovi saradnicu su obavili više istraživanja u kojima su

brojeve radova i citata korelirali sa dobitnicima Nobelove nagrade.• U radu objavljenom 1992. su izložili frekvenciju s kojom se dobitnici

Nobelovih nagrada nalaze na vrhu liste autora rangiranih prema broju citata njihovih radova. Na primer, među 50 najcitiranijih autora u SCI iz 1967. bilo je 6 autora koji su već dobili Nobelovu nagradu i 8 koji će je dobiti posle te godine.• Ovo otkriće je pokazalo snagu citatne analize za predviđanje dobitnika

Nobelove nagrade.• Među 50 najcitiranijih autora iz oblasti ekonomije za period 1966-1986, 15

autora je dobilo Nobelovu nagradu pre 1986. godine a još dvoje do 1991.

49

Page 50: (Bibliometrija) Prezentacija

50

Dobre i loše strane Garfildovog i Erkartovog zakona (tj. njihove primene)• Dobra strana: mogućnost da se uspostavi tehnički i finansijski ostvarivo

praćenje izvrsnosti – onoga što je stvarno bitno – u džungli naučnih informacija; da je Bradfordov zakon stvarno pogrešan, ne bi postojao SCI i ne bi bio tako koristan za evaluaciju u bibliometriji.• Loša strana: sklonost da se ponavlja i teorijski opravdava postojeće stanje

stvari – koje karakteriše nefer alokacija društvenog i ekonomskog kapitala – tako što se ponavlja priča koju Grafildovi citatni indeksi treba da dovedu do logičnog završetka, a to je priča o stratifikovanoj naučnoj literaturi koju proizvodi stratifikovana zajednica u kojoj je naučna izvrsnost ograničena na nekoliko umova koji žive i rade u nekoliko institucija i koji isporučuju plodove svoje kreativnosti u nekoliko veoma kvalitetnih međunarodnih časopisa, koji se apsolutno moraju nabaviti, a koje su vlasništvo sve manjeg broja multinacionalnih korporacija koje neprikosnoveno vladaju globalnim informatičkim tržištem.

Page 51: (Bibliometrija) Prezentacija

51

Osnove nastanka SCI• SCI je nastao da bi promovisao naučno istraživanje i unapredio naučnu

komunikaciju.• S tehničke tačke gledišta smatra se da je on direktno izveden iz anglo-američkog

pravnog sistema, stare decisis, koji se zasniva na “zaključivanju na osnovu prethodnog”. Sudija koji presuđuje u nekom slučaju treba da prati prethodne presude viših sudova: tako, kada citira autoritete koji treba da podrže njegove argumente, advokat mora da proveri da li su oni još uvek valjani i da ih nisu neke presude opovrgle.• Table sa prethodnim slučajevima su još u XVIII veku objavljivane u pravničkim

časopisima, a citatni indeks kalifornijskih presuda se pojavio 1860. godine. Najpoznatija primena ovog modela je Šepardov indeks (Shepard’s Citations), referensni alat koji se pojavio 1873. godine i uskoro postao veoma popularan među američkim pravnicima.

Page 52: (Bibliometrija) Prezentacija

52

Šepardov indeks• Frank Shepard (1848–1902) je počeo s objavljivanjem indeksa 1873.• Zanimljivo je da su citati bili štampani na perforiranom papiru s lepkom tako da

su se mogli odvajati i lepiti na stranice izveštaja o nekom slučaju. To su prvi “stikeri”. • Za neki dati slučaj o kome se odlučivalo na sudu neke američke države ili

saveznom sudu, indeks je listao sve naredne slučajeve koji potvrđuju, opovrgavaju ili odbacuju originalnu presudu, pri čemu se svaka nedvosmisleno identifikuje tomom i brojem strane sudskog izveštaja u kome je objavljena. • Frank Šepard je osnovao kompaniju koja u nekoj formi opstaje do danas – posle

mnogih prodaja i kupovina postala je vlasništvo firme Lexis-Nexis 1998. Lexis-Nexis je jedna od najstarijih (1970) baza dokumenata koja je posebno namenjena pravničkoj literaturi, a potom novinarskoj i poslovnoj.

Page 53: (Bibliometrija) Prezentacija

53

Razlike i sličnosti Šepardovog indeksa i SCI• Cilj: prvi pokriva sudske presude, drugi naučnu i tehničku literaturu;• Šepardov indeks pruža nešto manje jer on ne nudi ključ za mrežu citiranosti, kao

naučni radovi koji su povezani osnovnim sociokognitivnim vezama, već samo povezuje presude dodelom znaka plus i minus. • Šepardov indeks pruža i nešto više jer je u pravnom indeksu svaka veza

nedvosmisleno kvalifikovana oznakom njene validnosti kroz vreme, tako da je neka vrsta kontekstne analize uključena u samu alatku (slučaj je potvrđen ili odbačen narednim slučajevima, a to ne mora da važi za naučnu literaturu).• Ipak, ova pravnička komponenta je i dalje (možda sakrivena) prisutna i u SCI, ali

ima jedinstveno značenje: savremeni naučnik citira neki rad da bi se intelektualno odužio autoru, tako da bi svi znali da taj autor ima zasluge, npr. prvenstvo otkrića, intelektualna svojina na novu ili navodno novu ideju koju je izložio sebi ravnima ili celoj zajednici.

Page 54: (Bibliometrija) Prezentacija

Istraživanja koja su dovela do razvoja SCI• Judžin Garfild je ušao u polje informatike kada se priključio projektu indeksiranja

Velške medicinske biblioteke, Univerziteta Džon Hopkins (the Johns Hopkins University’s Welch Medical Library Indexing Project) koji je finansirala Vojna medicinska biblioteka (the Army Medical Library), iz koje je nastala Državna medicinska biblioteka (the National Library of Medicine). • Glavno istraživanje u okviru projekta čiji je cilj bila izrada tekuće liste medicinske

biblioteke (što je prethodnik Index Medicus i MEDLINE), odnosilo se na utvrđivanje da li i kako računari mogu da se koriste za automatizaciju indeksiranja medicinske literature.• U to vreme, imajući u vidu pre svega tehnološka ograničenja tadašnjih računara,

izgledalo je da se oni mogu upotrebiti za analizu teksta samo da bi obavili neke mehaničke zadatke, kao što je proizvodnja konkordanci.

54

Page 55: (Bibliometrija) Prezentacija

Ograničenja onoga vremena• Glavna teškoća je poticala od nemogućnosti računarskih algoritama (i znanja o njima u

ono vreme) da reprodukuju intelektualne procese analize dokumenata i da simuliraju procenu koju čine ljudi kada ocenjuju relativan značaj jedinica od kojih je tekst sačinjen.

• Jedno moguće rešenje, koje je podržavao the Welch Project, bio je da se automatski vade indeksni termini sa mesta na kojima se oni (bar statistički gledano to tako izgleda) nalaze: naslov i apstrakt naučnih radova.

• Stepen selektivnosti koji se time postiže ima mnoge prednosti što se tiče vremena obrade i njene cene. Ali naslovi i apstrakti često veoma loše predstavljaju sadržaj dokumenta, pa se takvim izborom indeksnih termina gube potencijalno korisne informacije.

• Garfild je smatrao da treba bi trebalo uzimati u obzir kompletan tekst dokumenta a da je za to potrebna lingvistička analiza teksta uz pažljivo istraživanje mentalnog procesa indeksiranja.

55

Page 56: (Bibliometrija) Prezentacija

Promena osnovnih ciljeva• Nezadovoljstvo mogućnostima koje je automatsko indeksiranje tada nudilo podstaklo je

Garfilda da naglo promeni ideju koju sledi. • Umesto ostvarenja snova o automatskom sistemu za indeksiranje reči iz teksta ili predmeta

koji bi mogao da se meri sa procenama koje čine ljudi, on je problem postavio na nove osnove tako što je radikalno promenio ono što se analizira: to više nisu reči, koje su same po sebi dvosmislene i zavise od konteksta koji se uvek menja, već su to bibliografski citati, koji su semantički stabilni, bar unutar nekog specijalnizovanog područja istraživanja.

• Ovde dolazi veza sa Šepardovim indeksom: U radu objavljenom 1955. godine “Citation Indexes for Science,” Garfild je ukazao na korisnost sistema za pronalaženje zasnovanog na citiranju koji bi bio modeliran prema Šepardovom indeksu. U tom radu on je izložio plan novog sistema zasnovanog na citatnim indeksima koji redukuju složenost naučnog jezika na male jedinice i omogućavaju korisnicima da se kreću kroz mrežu citata (od citiranog ka onom ko citira i obrnuto).

56

Page 57: (Bibliometrija) Prezentacija

Evolucija naučnog citatnog indeksa• Garfield, Eugene. "The evolution of the science citation

index." International microbiology 10.1 (2010): 65-69.• Science Citation Index (SCI®) je prvi put predstavljen u časopisu Science

1955. godine kao jedna alatka koja omogućava ažurno širenje i pretraživanje naučne literature.• Njegovu praktičnu realizaciju je omogućio informatički servis koji je već

postojao - Current Contents. Prvi računari su omogućili da Current Contents izlazi svake nedelje zajedno sa indeksom reči iz naslova i autorskim indeksom. U to vreme (pre 60 godina) konvencionalni indeksi su zaostajali od 6 meseci do 3 godine za objavljenom literaturom.

57

Page 58: (Bibliometrija) Prezentacija

Current Contents• Ideja potiče iz projekta Welch: poluautomatska proizvodnja

informacionog sistema koja se zasniva ma „fotografisanju“ sadržaja časopisa. • Tako je nastao bibliografski servis Current Contents (CC), koji se

postepeno proširio na oblasti bibliotekarstva i informatike (1953), upravljanja i društvenih nauka (1955), farmacije i biomedicine (1957) i fizike (1960). • Current Contents je bio veoma popularan među istraživačima jer je

uklanjajući urođeno kašnjenje tradicionalnih bibliografija, omogućavao sve široj publici na nedeljnoj osnovi pristup najnovijim informacijama o sadržaju naučnih časopisa koji će tek biti objavljeni.

58

Page 59: (Bibliometrija) Prezentacija

Current Contents• Popularnost CC je tokom godina rasla nagoveštavajući uslove za

uzajamnu zavisnost između bibliografskih alata, izdavačke industrije i naučne zajednice koju je potom SCI potvrdio jednom za svagda (zaista za svagda?)• Uvrštavanje u CC (a potom i među SCI izvore) je moglo značajno da

uveča značaj časopisa (kako po uticaju tako i po finasijskoj dobiti), pri čemu je časopis morao da zadovolji zahteve kvaliteta koje je ISI nametao da bi bio uključen. • S druge strane, naučnici su počeli da šalju radove pre svega u časopise

koje ISI obrađuje.

59

Page 60: (Bibliometrija) Prezentacija

SCI • Ipak, uspeh SCI nije proizašao iz njegove prvobitne namene da bude

mašina za pretragu, već iz njegovog korišćenja kao instrumenta za merenje naučne produktivnosti, što je omogućavaju njegovi dodatni proizvodi SCI Journal Citation Reports (JCR) i rangiranje impakt-faktora.• Multidisciplinarna SCI baza podataka ima dve namene:• Šta je koji naučnik objavio• Gde je I koliko puta citirano to što je objavio.

• Zbog toga je SCI uvek bio podeljen u dva dela: • Indeks autora (the Source Author Index) i• Indeks citata (the Citation Index).

60

Page 61: (Bibliometrija) Prezentacija

SCI• Osim toga, može se odrediti šta su pojedine institucije i zemlje

objavile i koliko puta su njihovi radovi citirani.• Web of Science® (WoS) — elektronska verzija SCI — povezuje ove dve

funkcije: publikacije autora se mogu listati hronološki, po časopisima I po učestalosti citiranja. • Osim toga mogu se tražiti autori koji su objavljivali u toku određenog

vremenskog perioda.

61

Page 62: (Bibliometrija) Prezentacija

Opravdavanje impakt faktora• Hoeffel, C. "Journal impact factors." Allergy 53.12 (1998): 1225-1225.• „Impakt faktor nije savršen alat za merenje kvaliteta radova ali ne

postoji ništa bolje, a njegova prednost je da već postoji pa je, prema tome, dobra tehnika za naučnu evaluaciju. Iskustvo pokazuje da su u svakoj oblasti najbolji časopisi oni u kojima je najteže obajviti rad (nije lako da rad bude prihvaćen) a to su časopisi koji imaju visok impakt faktor. Mnogi od ovih časopisa su postojali i pre nego što je impakt faktor izmišljen. Korišćenje impakt faktora kao mere kvaliteta je tako rašireno jer se dobro uklapa u naše mišljenje o tome koji su časopisi najbolji u određenoj oblasti.“

62