PRIMENA SEMANTIČKIH TEHNOLOGIJA U ORGANIZACIJI I … · 2 Uvod Često se smatra da su Internet i informatička revolucija s kraja drugog milenijuma ključni faktori globalizacije

PRIMENA SEMANTIČKIH TEHNOLOGIJA U ORGANIZACIJI I ANALIZI PODATAKA O NAUČNIM

PUBLIKACIJAMA

Seminarski rad iz predmeta: DATA MINING

Profesor: Student:

dr Mirjana Ivanović Danica Porobić

430/04

Novi Sad, jun 2007.

UNIVERZITET U NOVOM SADU

PRIRODNO MATEMATIČKI FAKULTET

DEPARTMAN ZA MATEMATIKU I

INFORMATIKU

1

Sadržaj Sadržaj ....................................................................................................................................................... 1

Uvod .......................................................................................................................................................... 2

Data-mining i semantičke tehnologije ....................................................................................................... 4

Data-mining ........................................................................................................................................... 4

Semantic Web ....................................................................................................................................... 5

RDF......................................................................................................................................................... 6

Friend of a Friend .................................................................................................................................. 7

OpenAcademia .......................................................................................................................................... 9

Arhitektura sistema ............................................................................................................................... 9

Funkcionalne komponente sistema .................................................................................................... 10

Pristup podacima ................................................................................................................................. 11

Postojeći podaci iz kartona naučnih radnika ....................................................................................... 12

Primena OpenAcademia sistema ........................................................................................................ 13

Zaključak .................................................................................................................................................. 18

Literatura ................................................................................................................................................. 20

2

Uvod

Često se smatra da su Internet i informatička revolucija s kraja drugog milenijuma ključni faktori

globalizacije i oblikovanja budućnosti ljudske civilizacije. Razmena informacija smanjuje udaljenosti

među ljudima stvarajući od Zemljine kugle jedno globalno selo u kome svi ljudi imaju jednake šanse u

životu. Uloga tehnologije u ovom post-industrijskom društvu se prvenstveno ogleda u uticaju na

ekonomiju, a onda posredno i na druge oblasti ljudskog života. Ekonomija je u poslednjim decenijama

dvadesetog veka kroz robotizaciju i kompjuterizaciju industrije načinila veliki otklon ka uslugama kao

najvećem generatoru profita, usput stvarajući informacije kao suštinsku robu novog doba. Sa

globalnom dostupnošću informacija, prvenstveno posredstvom Interneta, dolazi do eksponencijalnog

rasta količine informacija (procenjuje se da se broj bajtova dostupnih na Internetu duplira svake dve

godine) sa kojima čovek naprosto ne može više da se izbori. Zato u trećem milenijumu dolazi do

prelaza na ekonomiju znanja, sa tendencijom prelaska na društvo znanja. Informacije više nisu

pokretač napretka civilizacije, jer sama obimnost podataka i njihova opšta nestrukturiranost

onemogućuju efikasnu pretragu i pristup potrebnoj materiji. Znanje kao psihološki koristan rezultat

posmatranja, učenja i rezonovanja postaje ključna roba u trećem milenijumu, jer predstavlja

upotrebljivi oblik informacija koji donosi progres kako pojedinca tako i društva u celini.

Društvo znanja u kome se tradicionalno znanje različitih kultura i civilizacija kombinuje i

upotpunjuje novih saznanjima radi stvaranja konkurentne i dinamične privrede sposobne da stvori

stabilan održiv razvoj i omogući bolje perspektive i smanji socijalne razlike jedan je od stateških

milenijumskih ciljeva Evropske Unije. U skladu s tim, a u okviru 6. Okvirnog projekta Evropske Unije,

tehnologije znanja su prepoznate kao prioritetni pravac u istraživanju i kao deo opširnije grupe

tehnologija informacionog društva dobile su značajna sredstva iz budžeta EU za istraživanje i razvoj.

Jedan od projekata iz ove grupe je i IST-WORLD[4], međunarodni projekat čiji je cilj prikupljanje i

analiza podataka o istraživačkim projektima širom Evrope sa ciljem identifikacije najznačajnijih

istraživačkih centara i predviđanja budućeg razvoja. U obimnoj bazi podataka nalaze se podaci o

projektima finansiranim iz 5. i 6. Okvirnog programa EU, zatim mnogim nacionalnim istraživačkim

projektima i deo podataka iz drugih sistema za organizaciju podataka o naučnim istraživanjima. Od

prošle godine deo ovog sistema[5], koji Evropska komisija intenzivno koristi pri odlučivanju o dodeli

sredstava za buduća istraživanja, su i podaci o naučnicima sa područja Vojvodine koji su prikupljeni

kroz kartone naučnih radnika[6]. Između ostalog u tim kartonima nalaze se i podaci o objavljenim

publikacijama po kategorijama. Iako je prošle godine realizovan projekat vizualizacije tih podataka,

evidentno je da je potencijal za analizu ovih podataka mnogo veći.

U ovom radu je deo podataka o publikacijama iz kartona naučnih radnika zaposlenih na

Departmanu za matematiku i informatiku Prirodno-matematičkog fakulteta Univerziteta u Novom

Sadu ubačen u open-source sistem za organizaciju informacija o publikacijama OpenAcademia[2], koji

je zasnovan na semantičkim tehnologijama. Naime, ideja je bila da se ispita koliko semantičke

3

tehnologije, kao neizbežna budućnost Interneta, mogu da olakšaju prikupljanje i organizaciju podataka

i donošenje odluka na osnovu naizgled skrivenog znanja sadržanog u podacima. OpenAcademia je

izabrana kao nezahtevno okruženje koje omogućuje efikasno upravljanje informacijama o

publikacijama za male istraživačke grupe na osnovu podataka koji su uobičajeno dostupni, kao što su

osnovni podaci o osobi, lista publikacija u bibtex formatu i organizaciona struktura osoba u okviru

institucije. Sistem omogućuje s jedne strane pretragu i vizualizaciju relacija među autorima, a s druge

strane izvoz informacija u RSS formatu. RSS format se može koristiti za automatsko generisanje liste

publikacija izabranih po raznim kriterijuma koji su idealni za postavljanje na Internet stranicu

istraživača, ali i za praćenje novih publikacija kako pojedinca tako i istraživačke grupe.

U drugom delu rada dat je pregled osnovnih informacija o data mining-u, semantičkim

tehnologijama i pravcima razvoja Interneta i organizacije podataka. Treći deo je posvećen detaljnijem

pregledu strukture i funkcija sistema OpenAcademia, kao i opis jednog mogućeg pravca primene ovog

sistema radi objedinjavanja podataka o naučno-istraživačkoj delatnosti u Vojvodini, na osnovu

postojećih kartona naučnih radnika. U četvrtom delu analizirane su prednosti i mane ovakvog sistema

u odnosu na postojeći način organizacije podataka i dati su neki predlozi daljih razmatranja primene

semantičnih tehnologija.

4

Data-mining i semantičke tehnologije

Data-mining

Data-mining ili iskopavanje (rudarenje) podataka se često definiše kao pronalaženje prethodno

nepoznatih potencijalno korisnih informacija iz velike količine (nestrukturiranih) podataka. Najtipičniji

primer je analiza navika potrošača samo pomoću podataka sa fiskalnih računa, što omogućuje

vlasnicima supermarketa da jednostavnim postavljanjem proizvoda koji se često kupuju zajedno (iako

nemaju na prvi pogled nikakve veze) da povećaju prodaju bez posebnih sniženja i dodatne reklame.

Iako su mnoge veze ovog tipa među artiklima relativno očigledne (profitabilni slatkiši treba da stoje

blizu igračaka i blizu kase da bi privukli decu kada kupuju sa roditeljima; pivo stoji pored mesa

pripremljenog za roštilj; artikli koji se najčešće kupuju kao što su hleb, mleko i novine treba da stoje

što dalje od ulaza u radnju da bi potrošač usput primetio i kupio i ono što nije planirao), ponekad

dolazi i do vrlo neočekivanih rezultata, kao na primer da se pelene i pivo dobro prodaju četvrtkom

popodne. Objašnjenje je vrlo jednostavno – mladi očevi idu u nedeljnu kupovinu pre vikenda da bi

izbegli gužve i kad kupe pelene za dete kupe i pivo za sebe. Postavljanje ova dva artikla u susedne

rafove donelo je povećanje prometa oba proizvoda. Interesantno je da otkrivena pravila ne moraju biti

zasnovana na relacijama među objektima, već mogu biti logičke veze među osobinama jedne klase

objekata, kao na primer otkriće da u jednoj fabrici 73% proizvoda kod kojih je otkrivena jedna fabrička

greška ima bar još jednu nepovezanu grešku koja će se manifestovati u prvih šest meseci posle

proizvodnje.

Data-mining treba razlikovati od automatske obrade podataka, sa kojom se često poistovećuje.

Dok su na prvi pogled rezultati obe tehnike grafikoni i tabele sa podacima koji predviđaju neke

trendove i kvantifikuju postojeće pojave, razlika se ogleda u tome što se se automatska obrada

podataka odvija po prethodno definisanim šablonima i procedurama, dok data-mining aplikacije

pokazuju samostalnost u analizi podataka. Naravno, i data-mining aplikacije su donekle usmerene

intervencijama korisnika koji definiše pravac „iskopavanja“, jer je potpuno automatizovanje jako

neefikasno zato što je broj pronađenih pravila koja su očigledna mnogo veći nego broj novih

interesantnih pravila.

Rezultati primene data-mininga se često dele na dve grupe – otkrivanje znanja i predviđanje

pojava. Otkrivanje znanja je proces pronalaženja zakonitosti i njihovog prezentovanja u formi

razumnjivoj korisniku. Ovaj način se uglavnom koristi u naučnim primenama kao deo metoda poznatog

kao nauka otkrivanja (discovery science). Taj metod se sastoji od skupljanja velike količine podataka o

posmatranom fenomenu i njihove obrade kroz data-mining program koji pronalazi obrasce i korelacije

među grupama podataka koji direktno vode do formiranja hipoteza. Ovo je potpuna suprotnost od

tradicionalnog načina proučavanja sveta oko nas koji se zasniva prvo na formiranju pretpostavki, a

onda na proveravanju tih pretpostavki kroz prikupljene podatke. Data-mining kao deo naučnog

5

metoda zasnovanog na otkriću ima veliku primenu u analizi DNK, modelovanju klimatskih promena,

modelovanju nuklearnih reakcija... S druge strane, u komercijalnoj primeni data-mininga za analizu

poslovanja korporacija, finansijskih podataka, ali i tajnih obaveštajnih informacija, nije toliko bitno

otkriveno znanje nego je mnogo bitnija njegova primena. Ova oblast se izuzetno razvila u poslednje

dve decenije kada su velike korporacije shvatile da mogu mnogo efikasnije da donose poslovne odluke

ako imaju preciznije podatke kako o svom, tako i o poslovanju konkurenata. Tako su kvantifikovanjem

svih aspekata poslovanje korporacije nastale ogromne baze podataka koje su potstakle nastanak

oblasti poznate kao poslovna inteligencija (business intelligence) koja podrazumeva korišćenje

prikupljenih podataka za stvaranje komparativnih prednosti. Ove prednosti se ogledaju u

pravovremenom otkrivanju promena strukture tržišta, tokova novca, očekivanja i navika potrošača i

mogućnosti kompanije, a sve ovo sa ciljem adekvatnog prilagođavanja na uslove privređivanja. Data-

mining je jedna od ključnih tehnologija u ovoj oblasti i prisutan je od samih početaka prikupljanja i

analize podataka u bazama podataka, iako je tek u poslednjoj deceniji pojam preciznije definisan i

detaljnije proučavan. Za razliku od naučne primene, poslovna primena data-mininga je fokusirana na

izvačenje podataka korisnih za poslovanje, na konkretne informacije koje imaju direktan uticaj, dok

opšti principi i dublja značenja imaju sekundarni značaj. Ovi podaci se uglavnom koriste da zamene

čistu intuiciju pri donošenju odluka, jer su zaključci do kojih su došli kompjuterski sistemi mnogo

objektivniji od ljudskih.

Data-mining je od prvobitnih primena samo na velike baze podataka polako prelazio na sve

različitije i manje strukturirane skupove podataka. Sada se pravila i znanje traže u grafovima koji

opisuju kako društvene grupe tako i hemijske molekule, softverskom kodu, tekstu, slikama, na

Internetu...

Semantic Web

Semantic web je evolucija Interneta u kojoj se sadržaj ne izražava samo prirodnim jezikom

razumljivim ljudima već i u formi razumljivoj kompjuterima. Viziju semantic web-a izložio je 1999. Tim

Berners-Lee[9] kao mrežu u kojoj su kompjuteri u stanju da shvate sve podatke koji se nalaze na mreži –

sadržaj, veze i interakciju ljudi i kompjutera. Kada ovo bude bilo moguće svakodnevne rutinske poslove

obavljaće mašine u direktnoj interakciji sa mašinama. Da bismo shvatili značenje ovih ideja

posmatraćemo jedan od pogleda na generacije Interneta[1]. U prvoj generaciji Internet je interaktivna

mreža hiperteksta, monolitna konstrukcija u kojoj su podaci pomešani sa njihovom prezentacijom i

prilagođeni pristupu pomoću Internet pretraživača. Druga generacija donosi izdvajanje servisa,

odnosno aplikacijske logike što omogućuje aktivno korišćenje Interneta kroz mnogo veći stepen

povezanosti. Drugu generaciju odlikuju društvene mreže, odnosno virtuelne zajednice ljudi koji

direktno i slobodno razmenjuju informacije ili učestvuju zajednički u stvaranju novih informacija.

Takođe u drugoj generaciji dolazi do prepoznavanja Interneta od strane privrede kao tržišta i moguće

platforme za poslovanje te se mnoge sfere poslovanja prebacuju na Internet smanjujući troškove

poslovanja. Tipični primeri mrežnih zajednica koji simbolizuju drugu generaciju Interneta su wikipedia,

ebay, skype, del.icio.us, livejournal, myspace... U trećoj generaciji Interneta doći će do potpunog

6

odvajanja podataka i prezentacije, tako da ćemo dobiti potpuno nezavisne celine: podatke, aplikacionu

logiku i prezentaciju. Osnovni gradivni element Interneta neće više biti web stranica nego web

podatak, što će dovesti do razvoja aplikacija sposobnih za jednostavan, direktan pristup svim

podacima na mreži. Ključna tehnologija koja može dovesti do treće generacije Interneta je semantic

web.

Rad na standardizaciji semantic web-a i semantičkih tehnologija generalno počeo je 2001. pod

okriljem World Wide Web Consortium-a i do sada su definisani sledeći slojevi u njegovoj strukturi:

XML, RDF, OWL i SPARQL. Na prvom nivou nalazi se XML (eXtensible markup language) koji

obezbeđuje elementarnu strukturu sadržaja u okviru dokumenta, bez ulaska u značenje tog sadržaja.

RDF (resource description framework) je jezik koji opisuje modele podataka, u smislu objekata i

njihovih međusobnih veza i koristi istu sintaksu kao i XML. Oba ova jezika imaju odgovarajuće schema

jezike koji kao rečnici ovih jezika definišući detaljno njihovu strukturu. Treći nivo predstavlja OWL (web

ontology language) koji je nadgradnja RDF-a u smislu dodavanja značenja i potpuno je prilagođen

obradi podataka od strane aplikacija. OWL ontologije sadrže opis klasa objekata, njihovih osobina,

pojedinačnih instanci objekata. OWL date mogućnost mnogo detaljnijeg opisa klase podataka dodajući

na primer: kompleksne relacije među klasama (npr. disjunktnost), kardinalitet, jednakost, strogo

tipiziranje, nabrajanje klasa i koncept ekvivalentnosti klasa u raznim ontologijama. Poslednja

komponenta je SPARQL, protokol i jezik za zadavanja upita nad semantičkim izvorima podataka.

Iako se korisnost pretvaranja Interneta u jednu gigantsku bazu podataka ne dovodi u pitanje,

semantic web ideje su izložene mnogim kritikama. Smatra se da će dodavanje informacija o podacima

generisati previše beskorisnih podataka o podacima s jedne strane, a sami podaci, s druge strane, neće

biti dovoljno iskorišćeni zbog ograničenja sadašnjih tehnika softverskog inženjerstva. Druga vrsta

kritika upućuje se s obzirom na duplo kreiranje podataka, jedan skup za ljudsku, drugi za mašinsku

upotrebu, međutim ovo ograničenje će se vrlo brzo prevazići sa malo naprednijim pretraživačima

semantičkih sadržaja koji će imati komponente za prikaz sadržaja na nivou sadašnjih Internet stranica.

Treća, najozbiljnija zamerka odnosi se na privatnost, jer ako uz svaki podatak stoji šta tačno predstavlja

i ko ga je kreirao, filtriranje podataka postaje mnogo jednostavnije što omogućuje lako cenzurisanje

neželjenih sadržaja od strane mnogih država.

RDF

RDF je nastao kao W3C specifikacija za modelovanje metapodataka (podataka o podacima) kao

spona XML-a i OWL-a, međutim ubrzo je prerastao u opšti metod modelovanja informacija kroz razne

XML-bazirane sintaksne forme. Ideja RDF modela je opis podataka o objektima (resursima) u obliku

subjekat – predikat – objekat, koji se u RDF terminologiji naziva trojka (triple). Subjekat označava

resurs, predikat opisuje vezu subjekta i objekta, dok je objekat specifična vrednost (koja može biti i

drugi resurs). RDF-S (RDF Schema) jezikom opisuje se struktura trojki.

7

Kolekcija RDF trojki suštinski predstavlja označen usmeren graf. Kao takav, RDF-baziran model

podataka je jako pogodan za organizaciju mnogih oblika znanja koji se tradicionalno čuvaju u bazama

podataka u relacionom i sličnim oblicima.

RDF podaci se mogu pretraživati direktno postavljanjem SPARQL upita ako su smešteni u neku

bazu ili ako su međusobno povezani. Međutim, RDF podaci se mogu pretraživati i praćenjem

međusobnih veza na isti način kao što se prate hiperlinkovi na Internetu. Ovo omogućuje vrlo zgodnu

primenu inteligentnih softverskih agenata koji mogu praćenjem veza među podacima (datalink-ova) da

pronađu i obrade informacije na mnogo lakši način nego na tradicionalnom Internetu.

Trenutno postoji veliki broj ontologija koje opisuju RDF podatke, među kojima su pored

metaontologija (kao što su RDF, OWL, DAML) najpopularnije prema jednom istraživanju iz 2005. [7]

FOAF (modelira osobe), DC (modelira dokumente) i RSS (modelira web strane, odnosno promene na

njima). Ove tri ontologije se pojavljuju svaka u više od milion dokumenata, dok se prisutnost drugih

ontologija meri hiljadama dokumenta. Primećuje se da su ove ontologije strogo vezane za sam

Internet, ali i da je većina dokumenata kreirana od strane automatskih sistema za upravljanje on-line

zajednicama.

Friend of a Friend

FOAF (Friend of a friend) je projekat[3] koji su pokrenuli RDF entuzijasti Dan Brickley i Libby

Miller. Prvobitna ideja im je bila da podatke o sebi predstave u RDF formatu, u cilju eksperimentisanja

sa novim formatom. U jednoj od kasnijih verzija svoje sheme dodali su i foaf:knows atribut koji

predstavlja data-link ka prijatelju. Upotrebna vrednost postala je očigledna tek kada su napisali scutter

– program koji je pratio linkove ka FOAF profilima drugih ljudi konstuišući socijalnu mrežu što je

privuklo dosta pažnje i dovelo do razvoja drugih aplikacija koje pretražuju podatke iz FOAF

dokumenata, predstavljajući ih u obliku crteža i grafikona i analizirajući veze.

FOAF dokumente na Internetu možemo podeliti na dve grupe: automatski kreirane od strane

online zajednica, kojih je apsolutna većina (nekoliko miliona) i ručno kreirane od strane pojedinaca

(nekoliko hiljada). Ova druga grupa se uglavnom sastoji od istraživača u oblasti novih Internet

tehnologija koji su napravili svoj FOAF profil i ugradili ga kao meta podatak u svoju Internet stranicu,

omogućujući korisnicima Internet pretraživača sa RDF podrškom (primer je PiggyBank plug-in za

Firefox) da otkriju ove podatke. Ovaj pristup je sličan principu otkrivanja RSS feed-ova koji je ugrađen

u sve novije Internet pretraživače, kao i najnovije verzije popularnih operativnih sistema. Ručno

kreirani FOAF profili su mnogo interesantniji za posmatranje ne samo zato što modeliraju spontanu

socijalnu mrežu, već što se mogu uočiti svi potencijalni problemi ove ali i drugih semantičkih

tehnologija. Naime, vrlo je verovatno da će se ista osoba naći pod više imena u dokumentima svojih

prijatelja, pod punim imenom, pod nadimcima, sa greškom u pisanju imena ili jednostavno napisano u

drugom formatu (što se kod automatski generisanih dokumenata u okviru iste zajednice ne dešava,

pošto su i veze definisane automatski). Drugi fenomen je mešanje podataka iz različitih ontologija u

istom RDF dokumentu, te se veze foaf:knows često zamenjuju sa rdfs:seeAlso, a imena se predstavljaju

8

u foaf:name, bio:name i dc:name obeležjima koja imaju isto značenje. Jedinstveno identifikovanje

osoba u ovakvom okruženju postiže se upoređivanjem e-mail adresa i Internet stranica (koje se čuvaju

u hešovanom obliku radi očuvanja privatnosti), dok se u unifikaciji imena koriste raznorodne tehnike

od ranije poznate u pronalaženju duplikata u relacionim bazama podataka.

OpenAcademia

Arhitektura sistema

OpenAcademia je projekat

naučnim zajednicama[8]. Aktivno se razvija

da ponudi skup servisa istaživačima i istraživačkim grupama da efikasnije upravljaju podacima o

naučnim publikacijama. Osnovna ideja je da dodavanjem na samo jedno mesto podatak o novom

naučnom radu učini dostupnim što većem broju p

autorovom web sajtu, RSS kanal koji prate instaživači sličnih interesovanja, ali i u semantičkom obliku

dostupnom drugim kompjuterskim sistemima.

9

OpenAcademia

OpenAcademia je projekat otvorenog koda namenjen skladištenju informacija o publikacijama u

. Aktivno se razvija vec tri godine na Vrije univerzitetu



naučnom radu učini dostupnim što većem broju potencijalnih čitalaca, kroz listu publikacija na

kanal koji prate instaživači sličnih interesovanja, ali i u semantičkom obliku

dostupnom drugim kompjuterskim sistemima. Na slici 1 dat je šematski prikaz komponenata sistema.

SLIKA 1 ARHITEKTURA OPENACADEMIA SISTEMA

otvorenog koda namenjen skladištenju informacija o publikacijama u

vec tri godine na Vrije univerzitetu u Amsterdamu sa ciljem



otencijalnih čitalaca, kroz listu publikacija na

kanal koji prate instaživači sličnih interesovanja, ali i u semantičkom obliku

Na slici 1 dat je šematski prikaz komponenata sistema.

10

Na prvi pogled se vidi da je arhitektura ovog sistema distribuirana, jer se podaci o publikacijama

i autorima čuvaju nezavisno na ličnim računarima autora i sami autori su jedini odgovorni za tačnost i

ažurnost tih podataka. OpenAcademia, s druge strane, čuva samo metapodatke – lokaciju samih

podataka i neke od njihovih međusobnih relacija. Ovi metapodaci, koji se čuvaju u RDF skladištu, se

periodično obnavljaju tako što se ponovo pokupe podaci sa računara svih autora i generišu se

međusobne veze tih podataka, a na kraju se pokupe i dodatne informacije sa drugih Internet stranica o

podacima o publikacijama, kao što su na primer komentari čitalaca i podaci o citiranosti. Ovako

dobijenim podacima pristupa se preko RDF-baziranog sistema za postavljanje upita do kog se dolazi ili

preko html interfejsa iz Internet pretraživača ili kroz RSS čitač pristupanjem nekom od RSS kanala.

Funkcionalne komponente sistema

Kao osnovni format za čuvanje podataka o samim publikacijama izabran je bibtex, kao jedan od

najraširenijih formata za čuvanje ove vrste podataka. Mnogi istraživači i izdavači odavno čuvaju

podatke o publikacijama u ovom formatu, a postoji i veliki broj besplatnih alata za manipulaciju bibtex

fajlovima (ekstenzija .bib). Takođe, velike baze podataka o naučnim radovima, citiranosti i digitalne

biblioteke imaju opciju automatskog generisanja bibtex fajlova. Bibtex format je standardan izbor pri

citiranju dokumenata napisanih u tex formatu jer omogućuje lako formatiranje i mnogo opcija za

prikaz referenci. Struktura bibtex fajla je relativno jednostavna: on predstavlja niz referenci, svaka

referenca ima tip (članak, knjiga, zbornik radova s konferencije, doktorska teza...), jedinstveni

identifikator (za citiranje jednom tex komandom \cite {identifikator}) i niz osobina (zadatih u formi

polje=vrednost) razdvojenih zarezima. Za svaki tip reference postoje obavezna i opciona polja.

Za korišćenje podataka u bibtex formatu potrebno je da se .bib fajl nalazi javno dostupan na

Internetu i da bude referenciran u FOAF fajlu sa podacima o istraživaču kao foaf:publications atribut.

Drugi osnovni izvor podataka predstavljaju FOAF dokumenti o istraživačima i istraživačkim grupama.

Linkovi na ove dokumente su jedini podaci koje se čuvaju u openacademia sistemu, tako da se

prebacivanje celog sistema sa jednog na drugi server može obaviti jednostavnim kopiranjem dva

serverska konfiguraciona fajla (koji specificiraju putanje pomoćnih fajlova na diskovima, adrese

servera, podešavanja java servleta koji se koriste kao komponente sistema i podešavanja Sesame RDF

skladišta) i index.rdf fajla u kome se čuvaju linkovi na pomenute FOAF dokumente u obliku

rdfs:seeAlso atributa. Iako se u principu mogu dodavati bilo kakvi dokumenti u RDF formatu, sistem za

sada razume samo FOAF i SWRC (semantic web research community) ontologije. Podaci o istaživačkim

grupama mogu se automatski generisati pomoću podataka o strukturi grupa u okviru naučne

institucije koja je uglavnom dostupna na Internet stranici institucije ili kao niz adresa u mailing listi na

mail serveru institucije. Takođe je moguće dodati podatke o svim radovima izloženim na nekoj

konferenciji referenciranjem bibtex dokumenta sa podacima o radovima u okviru RDF dokumenta u

SWRC ontologiji.

Podaci se u prvom koraku obnavljanja (reload) sistema prikupljaju jednostavnim praćenjem data

linkova u RDF profilima iz indeksnog fajla. Ovom prilikom se može ograničiti skup Internet domena koji

se pretražuju što je korisno ako želimo podatke samo o jednoj instituciji ili institucijama u jednoj

11

zemlji. Zatim dolazi na red transformacija prikupljenih bibtex referenci i njihovo konvertovanje u RDF

format (u SWRC ontologiji), pomoću bib2swrc2 web servisa. Takođe dolazi i do mapiranja istih atributa

i klasa iz različitih ontologija (swrc:Person i foaf:Person, swrc:name i foaf:name, i slično) pomoću

pravila koja su trenutno statički definisana u sistemu. Zatim se pokušava identifikacija referenci i

podataka o osobama prikupljenih iz različitih izvora pomoću približnog poređenja naziva publikacija i

upoređivanja hešovanih e-mail adresa. Ovako identifikovane reference upisuju se u RDF skladište u

obliku owl:sameAs atributa, jer u ovom trenutku (u verziji 1.2) Sesame RDF skladište ne podržava sve

mogućnosti OWL rezonovanja pa se dobijene relacije moraju zapamtiti u obliku RDF trojki. Ukoliko u

okviru bibtex reference postoji link na dokumenat u pdf formatu, primenom Yahoo term extraction

servisa pokušava se generisanje liste ključnih reči koje se pojavljuju u dokumentu. Međutim ovaj servis

ima fiksno ograničenje dnevnog broja upita u nekomercijalne svrhe (u ovom trenutku 5000) tako da se

u slučaju većeg broja dokumenata oni mogu procesirati nekom drugom tehnikom. Ako ne postoji

direktan prostup dokumentu, ključne reči se generišu iz naslova dokumenta, što daje mnogo manju

preciznost. U poslednjem koraku se pretražuje popularni sistem za praćenje blogova tehnorati da bi se

dobili komentari u vezi sa publikacijom.

Pristup podacima

Osnovni način pristupa prikupljenim podacima je kroz HTML interfejs, predstavljen na slici 2, i

sastoji se od dve faze. Prvo se navođenjem nekog od kriterijuma (ime autora, naslov publikacije, tip

publikacije, godina, broj rezultata), izborom kategorije (određena istraživačka grupa, određena

konferencija) i izborom izvora podataka (samo lokalni ili još neki od openacademia servera na

Internetu) u zaglavlju stranice generiše upit. Rezultati se prikazuju u donjem delu stranice u kratkoj

formi (reference prilikom citiranja), punoj formi (dodati linkovi na Internet stranice autora, slike autora

prelaskom miša preko imena, linkovi na komentare i sam dokument, kao i apstrakt rada), obliku bibtex

referenci ili u google scholar formatu. U drugoj fazi možemo posmatrati izabrani skup publikacija kroz

jedan od 6 dodatnih pogleda: kao oblake dodatnih oznaka (tagcloud), graf tema (generisanih na

osnovu ključnih reči), graf koautorstva, vremensku traku, mapu klastera (generisanih na osnovu

koautorstva i zajedničkih tema) i mapu relacija (između istraživača i publikacija u obliku zvezdaste

interaktivne strukture). Svi ovi dodatni pogledi su primene postojećih skripti u java i javascript

programskih jezicima, što ilustuje mogućnost lakog proširenja sistema dodatnim pogledima koji će se

oslanjati na postojeći web servis.

12

SLIKA 2 OSNOVNI POGLED NA REZULTATE PRETRAGE

Drugi način pristupa je u obliku RSS kanala i to na dva načina. Prvi je generisanje dinamičke RSS

skripte koja predstavlja jedan upit web servisu i koja se ugrađuje u Internet stranicu kao script html

tag. Drugi način je generisanje upita web servisu i postavljanje na Internet stranicu kao RSS linka (ili

linka na XML dokument sa detaljnim opisom RSS kanala) u nekom od standardnih RSS formata. Ovakav

RSS link se može pratiti pomoću nekog od mnogih RSS čitača. RSS upiti sistemi detaljnije su definisano

kroz BuRST specifikaciju (Bibliography Management using RSS Technology) koja je proširenje RSS 1.0

standarda.

Treći način pristupa podacima, namenjen naprednim korisnicima i programerima koji rade na

proširivanju sistema je direktan pristup RDF skladištu i postavljanje upita u nekom od standardnih

formata za RDF upita kao što su SPARQL, SeRQL i RDQL.

Postojeći podaci iz kartona naučnih radnika

Pokrajinski sekretarijat za nauku i tehnološki razvoj Autonomne Pokrajine Vojvodine prikupljao

je počevši od 2004. godine podatke o naučno istaživačkoj delatnosti u Vojvodini u formi popunjenih

.doc formulara sa osnovnim ličnim podacima o istraživaču, instituciji u kojoj je zaposlen i objavljenih

publikacijama razvrstanim po kategorijama. Ovaj način prikupljanja podataka se pokazao jednako

komplikovan za analizu kao i tradicionalno ručno popunjavanje papirnih formulara, tako da je prošle

13

godine realizovan projekat prebacivanja podataka o naučnim publikacijama u CERIF format u kome se

čuvaju podaci u IST-WORLD bazi podataka koju koristi Evropska Unija za praćenje naučnih projekata

koje finansira. Ovaj xml format definiše instraživače, institucije i publikacije kao objekte, kao i veze

između instaživača i institucije i istraživača i publikacija. Podaci iz kartona dobijeni u dva koraka:

kartoni su prvo konvertovani u html dokumente (koji imaju zgodniju strukturu od .doc dokumenata), a

zatim su iz njih ekstahovani željeni podaci. Jednake reference su identifikovane njihovim sintaksnim

poređenjem. Podaci su sačuvani u obliku xml dokumenata i baze podataka.

Iako je tačnost ekstrahovanih podataka dosta velika (>90%), zbog mnoštva formata u kojima su

navođenje bibliografske reference, podaci se jako teško analiziraju. Sa trenutnim formatom podataka

moguće je analiziranje saradnje među istraživačima i institucijama, ali samo među onima koji su

dostavili podatke pokrajini u formi kartona i to u približno jednakom formatu. Ovo automatski

onemogućava analizu kako međunarodne tako i saradnje sa istraživačima iz drugih krajeva Srbije.

Druga prepreka efikasnijem praćenju naučnih istraživanja je pomalo zastareo sistem kategorizacije

publikacija koji ne uzima u obzir savremene trendove, naročito Internet izdavaštvo i radove na

konferencijama koji u mnogim oblastima imaju primat nad radovima u tradicionalnim časopisima zbog

mnogo brže dinamike razmene novih rezultata u naučnoj zajednici. Konačno dolazimo i do činjenice da

je periodično popunjavanje formulara istog tipa velikom količinom podataka koji se nisu promenili

dosta zamorno.

Primena OpenAcademia sistema

Tako se rodila ideja ispitivanja mogućnosti primene savremenih semantičkih tehnologija u

oblasti organizovanja bibliografskih podataka. Sistem OpenAcademia je izabran zbog svoje nezahtevne

arhitekture i mogućnosti lakog proširivanja. Prvobitni plan je bio automatsko prebacivanje svih

podataka iz postojećih XML dokumenata u bibtex format. Međutim od ovoga se vrlo brzo odustalo

zbog postojanja velikog formata bibliografskih referenci i očiglednog gubljenja nekih informacija

prilikom konverzija iz .doc i .html formata. Zato je smanjen obim posmatranih podataka prvo samo na

Departman za matematiku i informatiku u Novom Sadu, a onda specifično na informatičke katedre.

Ovo drugo smanjenje je bilo motivisano neuspehom poluautomatskog prebacivanja referenci u bibtex

format. Naime ispostavilo se da je prebacivanja pomoću regularnih izraza koji su bili predviđeni da iz

stringova o referencama prepoznaju podatke o autorima, naslovu, godini i tipu publikacije (na nivou

članak u časopisu ili rad na konferenciji) unosilo previše grešaka, naročito u detekciji granice između

naslova publikacije i naziva časopisa/konferencije. Ubacivanje ovakvih podataka u sistem dovodilo je

do pogrešnih i potpuno beskorisnih rezultata pretrage.

Zato je radi boljeg razumevanja mogućnosti sistema pristupljeno ručnoj detekciji i ispravljanju

grešaka u poluautomatski konvertovanim podacima. Reference su poređenje direktno sa originalnim

podacima u kartonima da bi se dobili najprecizniji mogući rezultati. Korišćen je besplatan program

JabRef napisan u programskom jeziku java, koji omogućava unos podataka u neku vrstu jednostavne

baze podataka kroz intuitivan korisnički interfejs. Ovaj program takođe omogučuje konverziju iz drugih

formata koji se koriste na Internetu, kao na primer CiteSeer i DBLP, kao i iz starijih bibliografskih

14

formata. Takođe moguća je transformacija referenci iz običnog tekstualnog u bibtex format selekcijom

vrednosti koje odgovaraju određenom polju. Posebna pažnja morala se obratiti na formatiranje

podataka o autoru publikacije koji moraju biti u formatu ime pa prezime, a različiti autori razdvojeni su

rečju and. Ovo je jedini zahtev servisa bib2swrc2 jer u slučaju korišćenja drugog formata pojedinačni

autori neće biti tačno prepoznati i asocirani ni sa FOAF profilima ni sa drugim publikacijama.

OpenAcademia sistem je najviše osetljiv na greške u pisanju imena, dok prihvata razlike u nazivima

publikacija, časopisa i konferencija, identifikujući ih i na osnovu godine i izdavača. Iako postoji modul u

okviru sistema koji bi trebao da se bavi unificiranjem dosadašnji rezultati su relativno loši.

Ovako generisani bibtex dokumenti (po jedan za svakog istraživača) postavljeni su na Internet i

generisani su FOAF profili koji sadrže samo osnovne informacije o osobama, imena i prezimena, email

adrese kao i linkove na Internet stranice i slike istraživača. Konačno, ručno su generisani profili katedri

na departmanu i ovi profili su uneti u sistem. Svi generisani fajlovi nalaze se na Internetu tako da ih je

moguće ubaciti i u druge OpenAcademia i slične RDF-bazirane sisteme.

Primećuje se da je sistem pravilno pokupio sve podatke već u prvom punjenju i da je

pretraživanje podataka vrlo brzo (meri se delovima sekunde). Takođe mnogobrojni prikazi podataka

daju nove poglede na podatke i omogućavaju nove zaključke o podacima. RSS kanali su se takođe

pokazali kao efikasan način prikazivanja podataka o publikacijama. Nažalost, u ovom trenutku sistemu

nedostaju linkovi ka dokumentima i apstrakti publikacija, koji bi sigurno povećali upotrebljivost

sistema. Primećuje se da unos imena autora u zahtevanom formatu donosi mogućnost posmatranja i

pretrage podataka ne samo o autorima čije smo podatke direktno ubacili nego i podatke o svim

njihovim koautorima i punim mrežama saradnje istraživača. Još jedna mogućnost koja privlači posebnu

pažnju je mogućnost posmatranja promena u interesovanjima autora ili grupe autora u toku vremena

što omogućuje identifikovanje pravaca istraživanja u budućnosti. Pogledajmo malo detaljnije

alternativne prikaze rezultata.

SLIKA 3 TAGCLOUD

15

Na slici 3 prikazan je tagcloud pogled na rezultate. Ovo je jedan od najčešćih vrsta prikaza u

sistemima ovog tipa i zasnovan je na brojanju pojavljivanja nekih reči ili grupa reči u nekom skupu. Što

je pojam češći to će biti napisan većim slovima. Na ovaj način jednim pogledom dolazimo do saznanja

šta je najčešća tema publikacija iz našeg upita.

SLIKA 4 TEME

Topics prikaz predstavljan na slici 4 je vrlo sličan prethodnom pogledu i takođe se zasniva na

ključnim rečima iz naziva publikacija iz posmatranog skupa. I ovde su popularnije teme napisane većim

slovima, ali je naglasak na međusobnoj povezanosti tema. Na ovaj način brzo možemo da odredimo

srodne teme.

SLIKA 5 KOAUTORSTVO

16

Sledeći pogled, prikazan na slici 5, je graf koautorstva. Grafički je ovaj prikaz sličan prethodnom,

ali je priroda informacija potpuno drugačija. Naime, ovde se nalaze imena autora svih publikacija iz

posmatranog skupa. Autori većeg broj publikacija po pravilu se nalaze u sredini prozora. Linije

povezuju autore koji imaju bar jednu zajedničku publikaciju. Nažalost, sve ove linije su jednake tako da

nemamo informaciju koji je obim saradnje.

SLIKA 6 MAPA KLASTERA

Problem obima saradnje nam elegantno rešava prikaz klasterske mape, slika 6. U levom delu

prozora nalaze se svi autori publikacija iz posmatranog skupa. Izborom autora njegovo ime se dodaje u

prozor s desne strane zajedno sa vezama sa njegovim koautorima među izabranima. Broj zajedničkih

radova predstavljen je brojem kružića u presečnom skupu. Ovo nam omogućuje da vidimo i koliko

zajedničkih radova imaju grupe od tri i više autora. Veoma korisna opcije je mogućnost premeštanja

svakog od objekata s desne strane jer prikaz vrlo brzo može postati nepregledan dodavanjem nekoliko

autora koji međusobno imaju više od nekoliko zajedničkih radova.

17

SLIKA 7 VREMENSKA LINIJA

Vremenski prikaz, čiji je primer dat na slici 7, omogućuje nam posmatranje promena tema od

interesa za posmatrane instraživače u toku vremena. U trakama, od kojih svaka predstavlja jednu

godinu, izlistani su nazivi radova. Klikom na kružić pored naziva dobijaju se sve dostupne informacije o

toj publikaciji.

SLIKA 8 RELACIJE

Poslednji pogled, čije su dve varijacije prikazane na slici 8, predstavlja relacije među osnovnim

objektima sistema – autorima i publikacijama. Ako posmatramo podatke o autoru, on se nalazi u

centru slike i povezan je sa krugovima u kojima su nazivi publikacija. Klikom na takav krug prelazimo u

drugi oblik u kome je publikacija u središtu. Autori su povezani linijama, a sa desne strane nalaze se

detalji o publikaciji. Ovaj pogled nam daje mogućnost da jednostavnim kliktanjem pratimo saradnju

istraživača kroz zajedničke publikacije. Dodatna mogućnost je spisak svih objekata koji se mogu naći u

centru slike koja se nalazi u obliku padajućeg menija u gornjem desnom delu prozora.

18

Zaključak U ovom seminarskom radu prikazano je jedno moguće rešenje za organizaciju podataka o

naučnim publikacijama. Iako na prvi pogled izgleda da je potrebno mnogo manualnog rada za početno

skupljanje podataka, jer se zahteva da podaci o svim naučnim publikacijama budu precizno

strukturirani i očišćeni od grešaka, vrlo brzo se ispostavlja da se ovaj početni napor isplati. Naime,

jednom kada su podaci o početnom stanju prikupljeni, dodavanje i izmena podataka je izuzetno laka.

Potrebno je samo promeniti nekoliko redova u .bib fajlu i na svim mestima na Internetu (koja se

oslanjaju na web servis koji procesira upite) će se u roku od 24 sata pojaviti najnovije informacije (rok

pretstavlja vreme između dva punjenja baze). Ovo je u skladu sa jednom od ključnih prednosti

semantičkih tehnologija – promene filozofije pristupa informacijama, sa sadašnje data pull (svaki put

kad nam je potreban podatak moramo da ga pronađemo) na buduću data push (kada se podatak

promeni bivamo automatski obavešteni) filozofiju.

Očekuje se da će semantičke tehnologije da promene suštinu objavljivanja naučnih radova. Ne

tako davno članci u časopisima bili su primarni način prezentovanja novih rezultata. Međutim od

samog istraživanja do objavljivanja u časopisu prolazilo je i do dve godine, a i časopisa je bilo previše

što je dovodilo do toga da se do istih rezultata dolazi nezavisno više puta. Zato su poslednjih godina

konferencije počele da preuzimaju primat kao mesta dolaska do novih trendova u istraživanjima. Ali

kod konferencija mora da prođe nekoliko meseci između završetka pisanja rada i prezentovanja rada

na konferenciji. Internet, koji je i nastao radi deljenja informacija među naučnicima sa raznih instituta,

doneo je trend da se radovi publikuju na Internet stranicama pre nego što se pojave u časopisu ili na

konferenciji što je dovelo do mnogo brže primene novih saznanja kako u industriji tako i u drugim

istraživanjima. Revolucija koja se očekuje sa semantičkim izdavaštvom ogleda se u publikovanju

mnogo manjih delova istraživanja, na primer ideje za eksperiment, da bi se dobile ideje od naučne

zajednice zainteresovane za taj problem u ranim fazama projekta i tako izbegle mnoge greške i

problemi u toku samog projekta. Ovo je naročito evidentno u istraživanjima u medicini i biološkim

naukama gde se smatra da je čak 50% naučnih radova netačno jer neke faze u istraživanjima nisu

sprovedene na korektan način[10]. Detekcija ovakvih propusta u toku samog istraživanja doprinela bi

drastičnom povećanju kvaliteta naučnih radova.

Jedna posredna dodatna prednost implementacije semantičkog pristupa organizacije podataka

o publikacijama ogleda se u mogućnosti povećanja međunarodnje saradnje kroz veću dostupnost

naučnih rezultata svetskoj javnosti. Naime, kroz povezivanje sa saradnicima sa svetskih univerziteta

jednostavnim linkovima u FOAF profilima, nekada disjunktne socijalne mreže (u okviru jedne institucije

ili jedne zemlje) se povezuju i podaci se objedinjuju, što vrlo lako dovodi do buduće saradnje. Značaj

povezivanja što širih skupova istraživača koji se bave srodnim temama prepoznat je i u Okvirnim

projektima Evropske Unije kroz finansiranje ekspertskih mreža (network of excellence) koje

predstavljaju poseban tip projekata koji nemaju za cilj konkretne rezultate nego samo popularisanje

međunarodne saradnje kroz ogranizaciju konferencija i specijalizovanih Internet zajednica.

19

Primena ovakvog sistema na nivou pokrajine donela bi nemerljive prednosti u unapređenju

procesa praćenja, usmeravanja i primene naučnih istraživanja. Distribuirana arhitektura ovog i sličnih

semantičkih sistema omogućuje jednostavan razvoj dodatnih modula za proizvoljne analize podataka,

što omogućuje prilagođenje metodologije ocenjivanja rezultata istraživanja samo promenama na

strani pokrajinskog regulatornog tela, a ne i na strani istraživača (koji su do sada sa promenama

definicije kategorija morali ponovo da kategorizuju sve publikacije). Unificiranje formata u kojem se

čuvaju podaci drastično pojednostavljuje razmenu podataka. Ovo se jako lepo vidi u najjednostavnijem

primeru: pregledanje desetina stranica istraživača medicinskog fakulteta (koje su verovatno u

različitim formatima i neredovno dopunjavane novim podacima) u potrazi za najnovijim kliničnih

istraživanjima lekova može biti zamenjeno jednim klikom koliko je potrebno za dodavanje RSS kanala

sa temom kliničnih istraživanja (ili sa svim istraživanjima medicinskog fakulteta) u omiljeni RSS čitač i

dobijanje informacija čim postanu dostupne. I pored očiglednih prednosti i beskrajnih mogućnosti nije

realno o implementaciji ovakvog sistema na nivou cele pokrajine jer ni mnogo jednostavniji sistem

prikupljanja kartona koji se trenutno primenjuje nije doveo do skupljanja svih relevantnih podataka

iako se implementira već tri godine.

Međutim, primena ovog sistema na nivou departmana za matematiku i informatiku je mnogo

realnija i idealno se uklapa u dva već postojeća projekta – projekat nove Internet stranice i projekat

razvoja bibliotečnog softvera primenom XML tehnologije. Novi Internet portal departmana sadrži

osnovne podatke o istraživačima i strukturi istraživačkih grupa u obliku baze podataka, te generisanje

FOAF profila i RDF dokumenata sa organizacionom strukturom predstavlja relativno jednostavan

posao. Takođe, verovatno je moguće konvertovati postojeće podatke o publikacijama iz kartona

naučnih radnika u bibtex format i implementirati dodatni modul sajta koji bi istraživačima omogućio

lako menjanje, dodavanje, pretragu i deljenje podataka o publikacijama. Primenom RSS tehnologije

liste publikacija postale bi deo unificiranih stranica o istraživačima (kao što su to danas podaci o email

adresama i brojevima telefona u kabinetima), a bile bi dostupne i zajednički RSS kanali za praćenje

novih publikacija istraživačkih grupa i celog departmana. S druge strane, integracija sa bibliotečkim

softverom razvijenim u XML tehnologiji bi bila neprimetna u smislu jednostavnog dodavanja

metapodataka na sadašnje bibliotečke podatke, kao i dodavanje vrlo korisnog modula pretrage celih

dokumenata (u slučaju da su dostupni u pdf formatu). Semantička tehnologija donela bi i mogućnosti

vizualizacije i automatske kategorizacije dokumenata, ali i izuzetno korisnu funkciju izlistavanja sličnih

dokumenata, bazirano na istim ključnim rečima. Tako je jedan od mogućih a korišćenja ovog

povezanog sistema prikaz knjiga iz oblasti slične radovima koji se trenutno prikazuju ili informacija o

citiranim radovima koji su dostupni u biblioteci departmana u štampanom obliku ili su dostupni u

nekoj od međunarodnih digitalnih biblioteka dostupnih istraživačima.

Konačno, pored svega nabrojanog korišćenje semantičkih tehnologija u svakodnevnoj praksi

omogućilo bi bolje razumevanje ovih tehnologija i inspirisalo bi eksperimentisanje u ovoj oblasti.

Naročito je interesantan pravac implementacije neke od semantičkih tehnika u neki od postojećih

sistema elektronske podrške predmetima koji se predaju na departmanu jer bi to doprinelo svesti o

novoj tehnologiji među studentima i donelo nove ideje koje mogu da ukažu na pravac nekih budućih

istraživanja u ovoj vrlo mladoj i perspektivnoj naučnoj oblasti.

20

Literatura 1. www.wikipedia.org

2. www.openacademia.org

3. www.FOAF-project.org

4. www.ist-world.org

5. Miloš Radovanović, Jure Ferlež, Dunja Mladenič, Marko Grobelnik, Mirjana Ivanović -

Mining and Visualizing Scientific Publication Data from Vojvodina, Novi Sad Journal of

Mathematics, to appear

6. http://apv-nauka.ns.ac.yu/vece/index.jsp

7. Li Ding, Lina Zhou, Tim Finin and Anupam Joshi - How the Semantic Web is Being

Used:An Analysis of FOAF Documents, Proceedings of the 38th International Conference

on System Sciences 2005.

8. Peter Mika, Michel Klein, and Radu Serban. Semantics-based Publication Management

using RSS and FOAF. Proceedings of the 1st Workshop on the Semantic Desktop (SD

2005) at the 4th International Semantic Web Conference (Galway, Ireland), November,

2005.

9. Berners-Lee, Tim; Fischetti, Mark (1999). Weaving the Web. HarperSanFrancisco,

chapter 12

10. http://www.newscientist.com/article.ns?id=dn7915 Most scientific papers are probably

wrong