Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
PRIMENA SEMANTIČKIH TEHNOLOGIJA U ORGANIZACIJI I ANALIZI PODATAKA O NAUČNIM
PUBLIKACIJAMA
Seminarski rad iz predmeta: DATA MINING
Profesor: Student:
dr Mirjana Ivanović Danica Porobić
430/04
Novi Sad, jun 2007.
UNIVERZITET U NOVOM SADU
PRIRODNO MATEMATIČKI FAKULTET
DEPARTMAN ZA MATEMATIKU I
INFORMATIKU
1
Sadržaj Sadržaj ....................................................................................................................................................... 1
Uvod .......................................................................................................................................................... 2
Data-mining i semantičke tehnologije ....................................................................................................... 4
Data-mining ........................................................................................................................................... 4
Semantic Web ....................................................................................................................................... 5
RDF......................................................................................................................................................... 6
Friend of a Friend .................................................................................................................................. 7
OpenAcademia .......................................................................................................................................... 9
Arhitektura sistema ............................................................................................................................... 9
Funkcionalne komponente sistema .................................................................................................... 10
Pristup podacima ................................................................................................................................. 11
Postojeći podaci iz kartona naučnih radnika ....................................................................................... 12
Primena OpenAcademia sistema ........................................................................................................ 13
Zaključak .................................................................................................................................................. 18
Literatura ................................................................................................................................................. 20
2
Uvod
Često se smatra da su Internet i informatička revolucija s kraja drugog milenijuma ključni faktori
globalizacije i oblikovanja budućnosti ljudske civilizacije. Razmena informacija smanjuje udaljenosti
među ljudima stvarajući od Zemljine kugle jedno globalno selo u kome svi ljudi imaju jednake šanse u
životu. Uloga tehnologije u ovom post-industrijskom društvu se prvenstveno ogleda u uticaju na
ekonomiju, a onda posredno i na druge oblasti ljudskog života. Ekonomija je u poslednjim decenijama
dvadesetog veka kroz robotizaciju i kompjuterizaciju industrije načinila veliki otklon ka uslugama kao
najvećem generatoru profita, usput stvarajući informacije kao suštinsku robu novog doba. Sa
globalnom dostupnošću informacija, prvenstveno posredstvom Interneta, dolazi do eksponencijalnog
rasta količine informacija (procenjuje se da se broj bajtova dostupnih na Internetu duplira svake dve
godine) sa kojima čovek naprosto ne može više da se izbori. Zato u trećem milenijumu dolazi do
prelaza na ekonomiju znanja, sa tendencijom prelaska na društvo znanja. Informacije više nisu
pokretač napretka civilizacije, jer sama obimnost podataka i njihova opšta nestrukturiranost
onemogućuju efikasnu pretragu i pristup potrebnoj materiji. Znanje kao psihološki koristan rezultat
posmatranja, učenja i rezonovanja postaje ključna roba u trećem milenijumu, jer predstavlja
upotrebljivi oblik informacija koji donosi progres kako pojedinca tako i društva u celini.
Društvo znanja u kome se tradicionalno znanje različitih kultura i civilizacija kombinuje i
upotpunjuje novih saznanjima radi stvaranja konkurentne i dinamične privrede sposobne da stvori
stabilan održiv razvoj i omogući bolje perspektive i smanji socijalne razlike jedan je od stateških
milenijumskih ciljeva Evropske Unije. U skladu s tim, a u okviru 6. Okvirnog projekta Evropske Unije,
tehnologije znanja su prepoznate kao prioritetni pravac u istraživanju i kao deo opširnije grupe
tehnologija informacionog društva dobile su značajna sredstva iz budžeta EU za istraživanje i razvoj.
Jedan od projekata iz ove grupe je i IST-WORLD[4], međunarodni projekat čiji je cilj prikupljanje i
analiza podataka o istraživačkim projektima širom Evrope sa ciljem identifikacije najznačajnijih
istraživačkih centara i predviđanja budućeg razvoja. U obimnoj bazi podataka nalaze se podaci o
projektima finansiranim iz 5. i 6. Okvirnog programa EU, zatim mnogim nacionalnim istraživačkim
projektima i deo podataka iz drugih sistema za organizaciju podataka o naučnim istraživanjima. Od
prošle godine deo ovog sistema[5], koji Evropska komisija intenzivno koristi pri odlučivanju o dodeli
sredstava za buduća istraživanja, su i podaci o naučnicima sa područja Vojvodine koji su prikupljeni
kroz kartone naučnih radnika[6]. Između ostalog u tim kartonima nalaze se i podaci o objavljenim
publikacijama po kategorijama. Iako je prošle godine realizovan projekat vizualizacije tih podataka,
evidentno je da je potencijal za analizu ovih podataka mnogo veći.
U ovom radu je deo podataka o publikacijama iz kartona naučnih radnika zaposlenih na
Departmanu za matematiku i informatiku Prirodno-matematičkog fakulteta Univerziteta u Novom
Sadu ubačen u open-source sistem za organizaciju informacija o publikacijama OpenAcademia[2], koji
je zasnovan na semantičkim tehnologijama. Naime, ideja je bila da se ispita koliko semantičke
3
tehnologije, kao neizbežna budućnost Interneta, mogu da olakšaju prikupljanje i organizaciju podataka
i donošenje odluka na osnovu naizgled skrivenog znanja sadržanog u podacima. OpenAcademia je
izabrana kao nezahtevno okruženje koje omogućuje efikasno upravljanje informacijama o
publikacijama za male istraživačke grupe na osnovu podataka koji su uobičajeno dostupni, kao što su
osnovni podaci o osobi, lista publikacija u bibtex formatu i organizaciona struktura osoba u okviru
institucije. Sistem omogućuje s jedne strane pretragu i vizualizaciju relacija među autorima, a s druge
strane izvoz informacija u RSS formatu. RSS format se može koristiti za automatsko generisanje liste
publikacija izabranih po raznim kriterijuma koji su idealni za postavljanje na Internet stranicu
istraživača, ali i za praćenje novih publikacija kako pojedinca tako i istraživačke grupe.
U drugom delu rada dat je pregled osnovnih informacija o data mining-u, semantičkim
tehnologijama i pravcima razvoja Interneta i organizacije podataka. Treći deo je posvećen detaljnijem
pregledu strukture i funkcija sistema OpenAcademia, kao i opis jednog mogućeg pravca primene ovog
sistema radi objedinjavanja podataka o naučno-istraživačkoj delatnosti u Vojvodini, na osnovu
postojećih kartona naučnih radnika. U četvrtom delu analizirane su prednosti i mane ovakvog sistema
u odnosu na postojeći način organizacije podataka i dati su neki predlozi daljih razmatranja primene
semantičnih tehnologija.
4
Data-mining i semantičke tehnologije
Data-mining
Data-mining ili iskopavanje (rudarenje) podataka se često definiše kao pronalaženje prethodno
nepoznatih potencijalno korisnih informacija iz velike količine (nestrukturiranih) podataka. Najtipičniji
primer je analiza navika potrošača samo pomoću podataka sa fiskalnih računa, što omogućuje
vlasnicima supermarketa da jednostavnim postavljanjem proizvoda koji se često kupuju zajedno (iako
nemaju na prvi pogled nikakve veze) da povećaju prodaju bez posebnih sniženja i dodatne reklame.
Iako su mnoge veze ovog tipa među artiklima relativno očigledne (profitabilni slatkiši treba da stoje
blizu igračaka i blizu kase da bi privukli decu kada kupuju sa roditeljima; pivo stoji pored mesa
pripremljenog za roštilj; artikli koji se najčešće kupuju kao što su hleb, mleko i novine treba da stoje
što dalje od ulaza u radnju da bi potrošač usput primetio i kupio i ono što nije planirao), ponekad
dolazi i do vrlo neočekivanih rezultata, kao na primer da se pelene i pivo dobro prodaju četvrtkom
popodne. Objašnjenje je vrlo jednostavno – mladi očevi idu u nedeljnu kupovinu pre vikenda da bi
izbegli gužve i kad kupe pelene za dete kupe i pivo za sebe. Postavljanje ova dva artikla u susedne
rafove donelo je povećanje prometa oba proizvoda. Interesantno je da otkrivena pravila ne moraju biti
zasnovana na relacijama među objektima, već mogu biti logičke veze među osobinama jedne klase
objekata, kao na primer otkriće da u jednoj fabrici 73% proizvoda kod kojih je otkrivena jedna fabrička
greška ima bar još jednu nepovezanu grešku koja će se manifestovati u prvih šest meseci posle
proizvodnje.
Data-mining treba razlikovati od automatske obrade podataka, sa kojom se često poistovećuje.
Dok su na prvi pogled rezultati obe tehnike grafikoni i tabele sa podacima koji predviđaju neke
trendove i kvantifikuju postojeće pojave, razlika se ogleda u tome što se se automatska obrada
podataka odvija po prethodno definisanim šablonima i procedurama, dok data-mining aplikacije
pokazuju samostalnost u analizi podataka. Naravno, i data-mining aplikacije su donekle usmerene
intervencijama korisnika koji definiše pravac „iskopavanja“, jer je potpuno automatizovanje jako
neefikasno zato što je broj pronađenih pravila koja su očigledna mnogo veći nego broj novih
interesantnih pravila.
Rezultati primene data-mininga se često dele na dve grupe – otkrivanje znanja i predviđanje
pojava. Otkrivanje znanja je proces pronalaženja zakonitosti i njihovog prezentovanja u formi
razumnjivoj korisniku. Ovaj način se uglavnom koristi u naučnim primenama kao deo metoda poznatog
kao nauka otkrivanja (discovery science). Taj metod se sastoji od skupljanja velike količine podataka o
posmatranom fenomenu i njihove obrade kroz data-mining program koji pronalazi obrasce i korelacije
među grupama podataka koji direktno vode do formiranja hipoteza. Ovo je potpuna suprotnost od
tradicionalnog načina proučavanja sveta oko nas koji se zasniva prvo na formiranju pretpostavki, a
onda na proveravanju tih pretpostavki kroz prikupljene podatke. Data-mining kao deo naučnog
5
metoda zasnovanog na otkriću ima veliku primenu u analizi DNK, modelovanju klimatskih promena,
modelovanju nuklearnih reakcija... S druge strane, u komercijalnoj primeni data-mininga za analizu
poslovanja korporacija, finansijskih podataka, ali i tajnih obaveštajnih informacija, nije toliko bitno
otkriveno znanje nego je mnogo bitnija njegova primena. Ova oblast se izuzetno razvila u poslednje
dve decenije kada su velike korporacije shvatile da mogu mnogo efikasnije da donose poslovne odluke
ako imaju preciznije podatke kako o svom, tako i o poslovanju konkurenata. Tako su kvantifikovanjem
svih aspekata poslovanje korporacije nastale ogromne baze podataka koje su potstakle nastanak
oblasti poznate kao poslovna inteligencija (business intelligence) koja podrazumeva korišćenje
prikupljenih podataka za stvaranje komparativnih prednosti. Ove prednosti se ogledaju u
pravovremenom otkrivanju promena strukture tržišta, tokova novca, očekivanja i navika potrošača i
mogućnosti kompanije, a sve ovo sa ciljem adekvatnog prilagođavanja na uslove privređivanja. Data-
mining je jedna od ključnih tehnologija u ovoj oblasti i prisutan je od samih početaka prikupljanja i
analize podataka u bazama podataka, iako je tek u poslednjoj deceniji pojam preciznije definisan i
detaljnije proučavan. Za razliku od naučne primene, poslovna primena data-mininga je fokusirana na
izvačenje podataka korisnih za poslovanje, na konkretne informacije koje imaju direktan uticaj, dok
opšti principi i dublja značenja imaju sekundarni značaj. Ovi podaci se uglavnom koriste da zamene
čistu intuiciju pri donošenju odluka, jer su zaključci do kojih su došli kompjuterski sistemi mnogo
objektivniji od ljudskih.
Data-mining je od prvobitnih primena samo na velike baze podataka polako prelazio na sve
različitije i manje strukturirane skupove podataka. Sada se pravila i znanje traže u grafovima koji
opisuju kako društvene grupe tako i hemijske molekule, softverskom kodu, tekstu, slikama, na
Internetu...
Semantic Web
Semantic web je evolucija Interneta u kojoj se sadržaj ne izražava samo prirodnim jezikom
razumljivim ljudima već i u formi razumljivoj kompjuterima. Viziju semantic web-a izložio je 1999. Tim
Berners-Lee[9] kao mrežu u kojoj su kompjuteri u stanju da shvate sve podatke koji se nalaze na mreži –
sadržaj, veze i interakciju ljudi i kompjutera. Kada ovo bude bilo moguće svakodnevne rutinske poslove
obavljaće mašine u direktnoj interakciji sa mašinama. Da bismo shvatili značenje ovih ideja
posmatraćemo jedan od pogleda na generacije Interneta[1]. U prvoj generaciji Internet je interaktivna
mreža hiperteksta, monolitna konstrukcija u kojoj su podaci pomešani sa njihovom prezentacijom i
prilagođeni pristupu pomoću Internet pretraživača. Druga generacija donosi izdvajanje servisa,
odnosno aplikacijske logike što omogućuje aktivno korišćenje Interneta kroz mnogo veći stepen
povezanosti. Drugu generaciju odlikuju društvene mreže, odnosno virtuelne zajednice ljudi koji
direktno i slobodno razmenjuju informacije ili učestvuju zajednički u stvaranju novih informacija.
Takođe u drugoj generaciji dolazi do prepoznavanja Interneta od strane privrede kao tržišta i moguće
platforme za poslovanje te se mnoge sfere poslovanja prebacuju na Internet smanjujući troškove
poslovanja. Tipični primeri mrežnih zajednica koji simbolizuju drugu generaciju Interneta su wikipedia,
ebay, skype, del.icio.us, livejournal, myspace... U trećoj generaciji Interneta doći će do potpunog
6
odvajanja podataka i prezentacije, tako da ćemo dobiti potpuno nezavisne celine: podatke, aplikacionu
logiku i prezentaciju. Osnovni gradivni element Interneta neće više biti web stranica nego web
podatak, što će dovesti do razvoja aplikacija sposobnih za jednostavan, direktan pristup svim
podacima na mreži. Ključna tehnologija koja može dovesti do treće generacije Interneta je semantic
web.
Rad na standardizaciji semantic web-a i semantičkih tehnologija generalno počeo je 2001. pod
okriljem World Wide Web Consortium-a i do sada su definisani sledeći slojevi u njegovoj strukturi:
XML, RDF, OWL i SPARQL. Na prvom nivou nalazi se XML (eXtensible markup language) koji
obezbeđuje elementarnu strukturu sadržaja u okviru dokumenta, bez ulaska u značenje tog sadržaja.
RDF (resource description framework) je jezik koji opisuje modele podataka, u smislu objekata i
njihovih međusobnih veza i koristi istu sintaksu kao i XML. Oba ova jezika imaju odgovarajuće schema
jezike koji kao rečnici ovih jezika definišući detaljno njihovu strukturu. Treći nivo predstavlja OWL (web
ontology language) koji je nadgradnja RDF-a u smislu dodavanja značenja i potpuno je prilagođen
obradi podataka od strane aplikacija. OWL ontologije sadrže opis klasa objekata, njihovih osobina,
pojedinačnih instanci objekata. OWL date mogućnost mnogo detaljnijeg opisa klase podataka dodajući
na primer: kompleksne relacije među klasama (npr. disjunktnost), kardinalitet, jednakost, strogo
tipiziranje, nabrajanje klasa i koncept ekvivalentnosti klasa u raznim ontologijama. Poslednja
komponenta je SPARQL, protokol i jezik za zadavanja upita nad semantičkim izvorima podataka.
Iako se korisnost pretvaranja Interneta u jednu gigantsku bazu podataka ne dovodi u pitanje,
semantic web ideje su izložene mnogim kritikama. Smatra se da će dodavanje informacija o podacima
generisati previše beskorisnih podataka o podacima s jedne strane, a sami podaci, s druge strane, neće
biti dovoljno iskorišćeni zbog ograničenja sadašnjih tehnika softverskog inženjerstva. Druga vrsta
kritika upućuje se s obzirom na duplo kreiranje podataka, jedan skup za ljudsku, drugi za mašinsku
upotrebu, međutim ovo ograničenje će se vrlo brzo prevazići sa malo naprednijim pretraživačima
semantičkih sadržaja koji će imati komponente za prikaz sadržaja na nivou sadašnjih Internet stranica.
Treća, najozbiljnija zamerka odnosi se na privatnost, jer ako uz svaki podatak stoji šta tačno predstavlja
i ko ga je kreirao, filtriranje podataka postaje mnogo jednostavnije što omogućuje lako cenzurisanje
neželjenih sadržaja od strane mnogih država.
RDF
RDF je nastao kao W3C specifikacija za modelovanje metapodataka (podataka o podacima) kao
spona XML-a i OWL-a, međutim ubrzo je prerastao u opšti metod modelovanja informacija kroz razne
XML-bazirane sintaksne forme. Ideja RDF modela je opis podataka o objektima (resursima) u obliku
subjekat – predikat – objekat, koji se u RDF terminologiji naziva trojka (triple). Subjekat označava
resurs, predikat opisuje vezu subjekta i objekta, dok je objekat specifična vrednost (koja može biti i
drugi resurs). RDF-S (RDF Schema) jezikom opisuje se struktura trojki.
7
Kolekcija RDF trojki suštinski predstavlja označen usmeren graf. Kao takav, RDF-baziran model
podataka je jako pogodan za organizaciju mnogih oblika znanja koji se tradicionalno čuvaju u bazama
podataka u relacionom i sličnim oblicima.
RDF podaci se mogu pretraživati direktno postavljanjem SPARQL upita ako su smešteni u neku
bazu ili ako su međusobno povezani. Međutim, RDF podaci se mogu pretraživati i praćenjem
međusobnih veza na isti način kao što se prate hiperlinkovi na Internetu. Ovo omogućuje vrlo zgodnu
primenu inteligentnih softverskih agenata koji mogu praćenjem veza među podacima (datalink-ova) da
pronađu i obrade informacije na mnogo lakši način nego na tradicionalnom Internetu.
Trenutno postoji veliki broj ontologija koje opisuju RDF podatke, među kojima su pored
metaontologija (kao što su RDF, OWL, DAML) najpopularnije prema jednom istraživanju iz 2005. [7]
FOAF (modelira osobe), DC (modelira dokumente) i RSS (modelira web strane, odnosno promene na
njima). Ove tri ontologije se pojavljuju svaka u više od milion dokumenata, dok se prisutnost drugih
ontologija meri hiljadama dokumenta. Primećuje se da su ove ontologije strogo vezane za sam
Internet, ali i da je većina dokumenata kreirana od strane automatskih sistema za upravljanje on-line
zajednicama.
Friend of a Friend
FOAF (Friend of a friend) je projekat[3] koji su pokrenuli RDF entuzijasti Dan Brickley i Libby
Miller. Prvobitna ideja im je bila da podatke o sebi predstave u RDF formatu, u cilju eksperimentisanja
sa novim formatom. U jednoj od kasnijih verzija svoje sheme dodali su i foaf:knows atribut koji
predstavlja data-link ka prijatelju. Upotrebna vrednost postala je očigledna tek kada su napisali scutter
– program koji je pratio linkove ka FOAF profilima drugih ljudi konstuišući socijalnu mrežu što je
privuklo dosta pažnje i dovelo do razvoja drugih aplikacija koje pretražuju podatke iz FOAF
dokumenata, predstavljajući ih u obliku crteža i grafikona i analizirajući veze.
FOAF dokumente na Internetu možemo podeliti na dve grupe: automatski kreirane od strane
online zajednica, kojih je apsolutna većina (nekoliko miliona) i ručno kreirane od strane pojedinaca
(nekoliko hiljada). Ova druga grupa se uglavnom sastoji od istraživača u oblasti novih Internet
tehnologija koji su napravili svoj FOAF profil i ugradili ga kao meta podatak u svoju Internet stranicu,
omogućujući korisnicima Internet pretraživača sa RDF podrškom (primer je PiggyBank plug-in za
Firefox) da otkriju ove podatke. Ovaj pristup je sličan principu otkrivanja RSS feed-ova koji je ugrađen
u sve novije Internet pretraživače, kao i najnovije verzije popularnih operativnih sistema. Ručno
kreirani FOAF profili su mnogo interesantniji za posmatranje ne samo zato što modeliraju spontanu
socijalnu mrežu, već što se mogu uočiti svi potencijalni problemi ove ali i drugih semantičkih
tehnologija. Naime, vrlo je verovatno da će se ista osoba naći pod više imena u dokumentima svojih
prijatelja, pod punim imenom, pod nadimcima, sa greškom u pisanju imena ili jednostavno napisano u
drugom formatu (što se kod automatski generisanih dokumenata u okviru iste zajednice ne dešava,
pošto su i veze definisane automatski). Drugi fenomen je mešanje podataka iz različitih ontologija u
istom RDF dokumentu, te se veze foaf:knows često zamenjuju sa rdfs:seeAlso, a imena se predstavljaju
8
u foaf:name, bio:name i dc:name obeležjima koja imaju isto značenje. Jedinstveno identifikovanje
osoba u ovakvom okruženju postiže se upoređivanjem e-mail adresa i Internet stranica (koje se čuvaju
u hešovanom obliku radi očuvanja privatnosti), dok se u unifikaciji imena koriste raznorodne tehnike
od ranije poznate u pronalaženju duplikata u relacionim bazama podataka.
OpenAcademia
Arhitektura sistema
OpenAcademia je projekat
naučnim zajednicama[8]. Aktivno se razvija
da ponudi skup servisa istaživačima i istraživačkim grupama da efikasnije upravljaju podacima o
naučnim publikacijama. Osnovna ideja je da dodavanjem na samo jedno mesto podatak o novom
naučnom radu učini dostupnim što većem broju p
autorovom web sajtu, RSS kanal koji prate instaživači sličnih interesovanja, ali i u semantičkom obliku
dostupnom drugim kompjuterskim sistemima.
9
OpenAcademia
OpenAcademia je projekat otvorenog koda namenjen skladištenju informacija o publikacijama u
. Aktivno se razvija vec tri godine na Vrije univerzitetu
da ponudi skup servisa istaživačima i istraživačkim grupama da efikasnije upravljaju podacima o
naučnim publikacijama. Osnovna ideja je da dodavanjem na samo jedno mesto podatak o novom
naučnom radu učini dostupnim što većem broju potencijalnih čitalaca, kroz listu publikacija na
kanal koji prate instaživači sličnih interesovanja, ali i u semantičkom obliku
dostupnom drugim kompjuterskim sistemima. Na slici 1 dat je šematski prikaz komponenata sistema.
SLIKA 1 ARHITEKTURA OPENACADEMIA SISTEMA
otvorenog koda namenjen skladištenju informacija o publikacijama u
vec tri godine na Vrije univerzitetu u Amsterdamu sa ciljem
da ponudi skup servisa istaživačima i istraživačkim grupama da efikasnije upravljaju podacima o
naučnim publikacijama. Osnovna ideja je da dodavanjem na samo jedno mesto podatak o novom
otencijalnih čitalaca, kroz listu publikacija na
kanal koji prate instaživači sličnih interesovanja, ali i u semantičkom obliku
Na slici 1 dat je šematski prikaz komponenata sistema.
10
Na prvi pogled se vidi da je arhitektura ovog sistema distribuirana, jer se podaci o publikacijama
i autorima čuvaju nezavisno na ličnim računarima autora i sami autori su jedini odgovorni za tačnost i
ažurnost tih podataka. OpenAcademia, s druge strane, čuva samo metapodatke – lokaciju samih
podataka i neke od njihovih međusobnih relacija. Ovi metapodaci, koji se čuvaju u RDF skladištu, se
periodično obnavljaju tako što se ponovo pokupe podaci sa računara svih autora i generišu se
međusobne veze tih podataka, a na kraju se pokupe i dodatne informacije sa drugih Internet stranica o
podacima o publikacijama, kao što su na primer komentari čitalaca i podaci o citiranosti. Ovako
dobijenim podacima pristupa se preko RDF-baziranog sistema za postavljanje upita do kog se dolazi ili
preko html interfejsa iz Internet pretraživača ili kroz RSS čitač pristupanjem nekom od RSS kanala.
Funkcionalne komponente sistema
Kao osnovni format za čuvanje podataka o samim publikacijama izabran je bibtex, kao jedan od
najraširenijih formata za čuvanje ove vrste podataka. Mnogi istraživači i izdavači odavno čuvaju
podatke o publikacijama u ovom formatu, a postoji i veliki broj besplatnih alata za manipulaciju bibtex
fajlovima (ekstenzija .bib). Takođe, velike baze podataka o naučnim radovima, citiranosti i digitalne
biblioteke imaju opciju automatskog generisanja bibtex fajlova. Bibtex format je standardan izbor pri
citiranju dokumenata napisanih u tex formatu jer omogućuje lako formatiranje i mnogo opcija za
prikaz referenci. Struktura bibtex fajla je relativno jednostavna: on predstavlja niz referenci, svaka
referenca ima tip (članak, knjiga, zbornik radova s konferencije, doktorska teza...), jedinstveni
identifikator (za citiranje jednom tex komandom \cite {identifikator}) i niz osobina (zadatih u formi
polje=vrednost) razdvojenih zarezima. Za svaki tip reference postoje obavezna i opciona polja.
Za korišćenje podataka u bibtex formatu potrebno je da se .bib fajl nalazi javno dostupan na
Internetu i da bude referenciran u FOAF fajlu sa podacima o istraživaču kao foaf:publications atribut.
Drugi osnovni izvor podataka predstavljaju FOAF dokumenti o istraživačima i istraživačkim grupama.
Linkovi na ove dokumente su jedini podaci koje se čuvaju u openacademia sistemu, tako da se
prebacivanje celog sistema sa jednog na drugi server može obaviti jednostavnim kopiranjem dva
serverska konfiguraciona fajla (koji specificiraju putanje pomoćnih fajlova na diskovima, adrese
servera, podešavanja java servleta koji se koriste kao komponente sistema i podešavanja Sesame RDF
skladišta) i index.rdf fajla u kome se čuvaju linkovi na pomenute FOAF dokumente u obliku
rdfs:seeAlso atributa. Iako se u principu mogu dodavati bilo kakvi dokumenti u RDF formatu, sistem za
sada razume samo FOAF i SWRC (semantic web research community) ontologije. Podaci o istaživačkim
grupama mogu se automatski generisati pomoću podataka o strukturi grupa u okviru naučne
institucije koja je uglavnom dostupna na Internet stranici institucije ili kao niz adresa u mailing listi na
mail serveru institucije. Takođe je moguće dodati podatke o svim radovima izloženim na nekoj
konferenciji referenciranjem bibtex dokumenta sa podacima o radovima u okviru RDF dokumenta u
SWRC ontologiji.
Podaci se u prvom koraku obnavljanja (reload) sistema prikupljaju jednostavnim praćenjem data
linkova u RDF profilima iz indeksnog fajla. Ovom prilikom se može ograničiti skup Internet domena koji
se pretražuju što je korisno ako želimo podatke samo o jednoj instituciji ili institucijama u jednoj
11
zemlji. Zatim dolazi na red transformacija prikupljenih bibtex referenci i njihovo konvertovanje u RDF
format (u SWRC ontologiji), pomoću bib2swrc2 web servisa. Takođe dolazi i do mapiranja istih atributa
i klasa iz različitih ontologija (swrc:Person i foaf:Person, swrc:name i foaf:name, i slično) pomoću
pravila koja su trenutno statički definisana u sistemu. Zatim se pokušava identifikacija referenci i
podataka o osobama prikupljenih iz različitih izvora pomoću približnog poređenja naziva publikacija i
upoređivanja hešovanih e-mail adresa. Ovako identifikovane reference upisuju se u RDF skladište u
obliku owl:sameAs atributa, jer u ovom trenutku (u verziji 1.2) Sesame RDF skladište ne podržava sve
mogućnosti OWL rezonovanja pa se dobijene relacije moraju zapamtiti u obliku RDF trojki. Ukoliko u
okviru bibtex reference postoji link na dokumenat u pdf formatu, primenom Yahoo term extraction
servisa pokušava se generisanje liste ključnih reči koje se pojavljuju u dokumentu. Međutim ovaj servis
ima fiksno ograničenje dnevnog broja upita u nekomercijalne svrhe (u ovom trenutku 5000) tako da se
u slučaju većeg broja dokumenata oni mogu procesirati nekom drugom tehnikom. Ako ne postoji
direktan prostup dokumentu, ključne reči se generišu iz naslova dokumenta, što daje mnogo manju
preciznost. U poslednjem koraku se pretražuje popularni sistem za praćenje blogova tehnorati da bi se
dobili komentari u vezi sa publikacijom.
Pristup podacima
Osnovni način pristupa prikupljenim podacima je kroz HTML interfejs, predstavljen na slici 2, i
sastoji se od dve faze. Prvo se navođenjem nekog od kriterijuma (ime autora, naslov publikacije, tip
publikacije, godina, broj rezultata), izborom kategorije (određena istraživačka grupa, određena
konferencija) i izborom izvora podataka (samo lokalni ili još neki od openacademia servera na
Internetu) u zaglavlju stranice generiše upit. Rezultati se prikazuju u donjem delu stranice u kratkoj
formi (reference prilikom citiranja), punoj formi (dodati linkovi na Internet stranice autora, slike autora
prelaskom miša preko imena, linkovi na komentare i sam dokument, kao i apstrakt rada), obliku bibtex
referenci ili u google scholar formatu. U drugoj fazi možemo posmatrati izabrani skup publikacija kroz
jedan od 6 dodatnih pogleda: kao oblake dodatnih oznaka (tagcloud), graf tema (generisanih na
osnovu ključnih reči), graf koautorstva, vremensku traku, mapu klastera (generisanih na osnovu
koautorstva i zajedničkih tema) i mapu relacija (između istraživača i publikacija u obliku zvezdaste
interaktivne strukture). Svi ovi dodatni pogledi su primene postojećih skripti u java i javascript
programskih jezicima, što ilustuje mogućnost lakog proširenja sistema dodatnim pogledima koji će se
oslanjati na postojeći web servis.
12
SLIKA 2 OSNOVNI POGLED NA REZULTATE PRETRAGE
Drugi način pristupa je u obliku RSS kanala i to na dva načina. Prvi je generisanje dinamičke RSS
skripte koja predstavlja jedan upit web servisu i koja se ugrađuje u Internet stranicu kao script html
tag. Drugi način je generisanje upita web servisu i postavljanje na Internet stranicu kao RSS linka (ili
linka na XML dokument sa detaljnim opisom RSS kanala) u nekom od standardnih RSS formata. Ovakav
RSS link se može pratiti pomoću nekog od mnogih RSS čitača. RSS upiti sistemi detaljnije su definisano
kroz BuRST specifikaciju (Bibliography Management using RSS Technology) koja je proširenje RSS 1.0
standarda.
Treći način pristupa podacima, namenjen naprednim korisnicima i programerima koji rade na
proširivanju sistema je direktan pristup RDF skladištu i postavljanje upita u nekom od standardnih
formata za RDF upita kao što su SPARQL, SeRQL i RDQL.
Postojeći podaci iz kartona naučnih radnika
Pokrajinski sekretarijat za nauku i tehnološki razvoj Autonomne Pokrajine Vojvodine prikupljao
je počevši od 2004. godine podatke o naučno istaživačkoj delatnosti u Vojvodini u formi popunjenih
.doc formulara sa osnovnim ličnim podacima o istraživaču, instituciji u kojoj je zaposlen i objavljenih
publikacijama razvrstanim po kategorijama. Ovaj način prikupljanja podataka se pokazao jednako
komplikovan za analizu kao i tradicionalno ručno popunjavanje papirnih formulara, tako da je prošle
13
godine realizovan projekat prebacivanja podataka o naučnim publikacijama u CERIF format u kome se
čuvaju podaci u IST-WORLD bazi podataka koju koristi Evropska Unija za praćenje naučnih projekata
koje finansira. Ovaj xml format definiše instraživače, institucije i publikacije kao objekte, kao i veze
između instaživača i institucije i istraživača i publikacija. Podaci iz kartona dobijeni u dva koraka:
kartoni su prvo konvertovani u html dokumente (koji imaju zgodniju strukturu od .doc dokumenata), a
zatim su iz njih ekstahovani željeni podaci. Jednake reference su identifikovane njihovim sintaksnim
poređenjem. Podaci su sačuvani u obliku xml dokumenata i baze podataka.
Iako je tačnost ekstrahovanih podataka dosta velika (>90%), zbog mnoštva formata u kojima su
navođenje bibliografske reference, podaci se jako teško analiziraju. Sa trenutnim formatom podataka
moguće je analiziranje saradnje među istraživačima i institucijama, ali samo među onima koji su
dostavili podatke pokrajini u formi kartona i to u približno jednakom formatu. Ovo automatski
onemogućava analizu kako međunarodne tako i saradnje sa istraživačima iz drugih krajeva Srbije.
Druga prepreka efikasnijem praćenju naučnih istraživanja je pomalo zastareo sistem kategorizacije
publikacija koji ne uzima u obzir savremene trendove, naročito Internet izdavaštvo i radove na
konferencijama koji u mnogim oblastima imaju primat nad radovima u tradicionalnim časopisima zbog
mnogo brže dinamike razmene novih rezultata u naučnoj zajednici. Konačno dolazimo i do činjenice da
je periodično popunjavanje formulara istog tipa velikom količinom podataka koji se nisu promenili
dosta zamorno.
Primena OpenAcademia sistema
Tako se rodila ideja ispitivanja mogućnosti primene savremenih semantičkih tehnologija u
oblasti organizovanja bibliografskih podataka. Sistem OpenAcademia je izabran zbog svoje nezahtevne
arhitekture i mogućnosti lakog proširivanja. Prvobitni plan je bio automatsko prebacivanje svih
podataka iz postojećih XML dokumenata u bibtex format. Međutim od ovoga se vrlo brzo odustalo
zbog postojanja velikog formata bibliografskih referenci i očiglednog gubljenja nekih informacija
prilikom konverzija iz .doc i .html formata. Zato je smanjen obim posmatranih podataka prvo samo na
Departman za matematiku i informatiku u Novom Sadu, a onda specifično na informatičke katedre.
Ovo drugo smanjenje je bilo motivisano neuspehom poluautomatskog prebacivanja referenci u bibtex
format. Naime ispostavilo se da je prebacivanja pomoću regularnih izraza koji su bili predviđeni da iz
stringova o referencama prepoznaju podatke o autorima, naslovu, godini i tipu publikacije (na nivou
članak u časopisu ili rad na konferenciji) unosilo previše grešaka, naročito u detekciji granice između
naslova publikacije i naziva časopisa/konferencije. Ubacivanje ovakvih podataka u sistem dovodilo je
do pogrešnih i potpuno beskorisnih rezultata pretrage.
Zato je radi boljeg razumevanja mogućnosti sistema pristupljeno ručnoj detekciji i ispravljanju
grešaka u poluautomatski konvertovanim podacima. Reference su poređenje direktno sa originalnim
podacima u kartonima da bi se dobili najprecizniji mogući rezultati. Korišćen je besplatan program
JabRef napisan u programskom jeziku java, koji omogućava unos podataka u neku vrstu jednostavne
baze podataka kroz intuitivan korisnički interfejs. Ovaj program takođe omogučuje konverziju iz drugih
formata koji se koriste na Internetu, kao na primer CiteSeer i DBLP, kao i iz starijih bibliografskih
14
formata. Takođe moguća je transformacija referenci iz običnog tekstualnog u bibtex format selekcijom
vrednosti koje odgovaraju određenom polju. Posebna pažnja morala se obratiti na formatiranje
podataka o autoru publikacije koji moraju biti u formatu ime pa prezime, a različiti autori razdvojeni su
rečju and. Ovo je jedini zahtev servisa bib2swrc2 jer u slučaju korišćenja drugog formata pojedinačni
autori neće biti tačno prepoznati i asocirani ni sa FOAF profilima ni sa drugim publikacijama.
OpenAcademia sistem je najviše osetljiv na greške u pisanju imena, dok prihvata razlike u nazivima
publikacija, časopisa i konferencija, identifikujući ih i na osnovu godine i izdavača. Iako postoji modul u
okviru sistema koji bi trebao da se bavi unificiranjem dosadašnji rezultati su relativno loši.
Ovako generisani bibtex dokumenti (po jedan za svakog istraživača) postavljeni su na Internet i
generisani su FOAF profili koji sadrže samo osnovne informacije o osobama, imena i prezimena, email
adrese kao i linkove na Internet stranice i slike istraživača. Konačno, ručno su generisani profili katedri
na departmanu i ovi profili su uneti u sistem. Svi generisani fajlovi nalaze se na Internetu tako da ih je
moguće ubaciti i u druge OpenAcademia i slične RDF-bazirane sisteme.
Primećuje se da je sistem pravilno pokupio sve podatke već u prvom punjenju i da je
pretraživanje podataka vrlo brzo (meri se delovima sekunde). Takođe mnogobrojni prikazi podataka
daju nove poglede na podatke i omogućavaju nove zaključke o podacima. RSS kanali su se takođe
pokazali kao efikasan način prikazivanja podataka o publikacijama. Nažalost, u ovom trenutku sistemu
nedostaju linkovi ka dokumentima i apstrakti publikacija, koji bi sigurno povećali upotrebljivost
sistema. Primećuje se da unos imena autora u zahtevanom formatu donosi mogućnost posmatranja i
pretrage podataka ne samo o autorima čije smo podatke direktno ubacili nego i podatke o svim
njihovim koautorima i punim mrežama saradnje istraživača. Još jedna mogućnost koja privlači posebnu
pažnju je mogućnost posmatranja promena u interesovanjima autora ili grupe autora u toku vremena
što omogućuje identifikovanje pravaca istraživanja u budućnosti. Pogledajmo malo detaljnije
alternativne prikaze rezultata.
SLIKA 3 TAGCLOUD
15
Na slici 3 prikazan je tagcloud pogled na rezultate. Ovo je jedan od najčešćih vrsta prikaza u
sistemima ovog tipa i zasnovan je na brojanju pojavljivanja nekih reči ili grupa reči u nekom skupu. Što
je pojam češći to će biti napisan većim slovima. Na ovaj način jednim pogledom dolazimo do saznanja
šta je najčešća tema publikacija iz našeg upita.
SLIKA 4 TEME
Topics prikaz predstavljan na slici 4 je vrlo sličan prethodnom pogledu i takođe se zasniva na
ključnim rečima iz naziva publikacija iz posmatranog skupa. I ovde su popularnije teme napisane većim
slovima, ali je naglasak na međusobnoj povezanosti tema. Na ovaj način brzo možemo da odredimo
srodne teme.
SLIKA 5 KOAUTORSTVO
16
Sledeći pogled, prikazan na slici 5, je graf koautorstva. Grafički je ovaj prikaz sličan prethodnom,
ali je priroda informacija potpuno drugačija. Naime, ovde se nalaze imena autora svih publikacija iz
posmatranog skupa. Autori većeg broj publikacija po pravilu se nalaze u sredini prozora. Linije
povezuju autore koji imaju bar jednu zajedničku publikaciju. Nažalost, sve ove linije su jednake tako da
nemamo informaciju koji je obim saradnje.
SLIKA 6 MAPA KLASTERA
Problem obima saradnje nam elegantno rešava prikaz klasterske mape, slika 6. U levom delu
prozora nalaze se svi autori publikacija iz posmatranog skupa. Izborom autora njegovo ime se dodaje u
prozor s desne strane zajedno sa vezama sa njegovim koautorima među izabranima. Broj zajedničkih
radova predstavljen je brojem kružića u presečnom skupu. Ovo nam omogućuje da vidimo i koliko
zajedničkih radova imaju grupe od tri i više autora. Veoma korisna opcije je mogućnost premeštanja
svakog od objekata s desne strane jer prikaz vrlo brzo može postati nepregledan dodavanjem nekoliko
autora koji međusobno imaju više od nekoliko zajedničkih radova.
17
SLIKA 7 VREMENSKA LINIJA
Vremenski prikaz, čiji je primer dat na slici 7, omogućuje nam posmatranje promena tema od
interesa za posmatrane instraživače u toku vremena. U trakama, od kojih svaka predstavlja jednu
godinu, izlistani su nazivi radova. Klikom na kružić pored naziva dobijaju se sve dostupne informacije o
toj publikaciji.
SLIKA 8 RELACIJE
Poslednji pogled, čije su dve varijacije prikazane na slici 8, predstavlja relacije među osnovnim
objektima sistema – autorima i publikacijama. Ako posmatramo podatke o autoru, on se nalazi u
centru slike i povezan je sa krugovima u kojima su nazivi publikacija. Klikom na takav krug prelazimo u
drugi oblik u kome je publikacija u središtu. Autori su povezani linijama, a sa desne strane nalaze se
detalji o publikaciji. Ovaj pogled nam daje mogućnost da jednostavnim kliktanjem pratimo saradnju
istraživača kroz zajedničke publikacije. Dodatna mogućnost je spisak svih objekata koji se mogu naći u
centru slike koja se nalazi u obliku padajućeg menija u gornjem desnom delu prozora.
18
Zaključak U ovom seminarskom radu prikazano je jedno moguće rešenje za organizaciju podataka o
naučnim publikacijama. Iako na prvi pogled izgleda da je potrebno mnogo manualnog rada za početno
skupljanje podataka, jer se zahteva da podaci o svim naučnim publikacijama budu precizno
strukturirani i očišćeni od grešaka, vrlo brzo se ispostavlja da se ovaj početni napor isplati. Naime,
jednom kada su podaci o početnom stanju prikupljeni, dodavanje i izmena podataka je izuzetno laka.
Potrebno je samo promeniti nekoliko redova u .bib fajlu i na svim mestima na Internetu (koja se
oslanjaju na web servis koji procesira upite) će se u roku od 24 sata pojaviti najnovije informacije (rok
pretstavlja vreme između dva punjenja baze). Ovo je u skladu sa jednom od ključnih prednosti
semantičkih tehnologija – promene filozofije pristupa informacijama, sa sadašnje data pull (svaki put
kad nam je potreban podatak moramo da ga pronađemo) na buduću data push (kada se podatak
promeni bivamo automatski obavešteni) filozofiju.
Očekuje se da će semantičke tehnologije da promene suštinu objavljivanja naučnih radova. Ne
tako davno članci u časopisima bili su primarni način prezentovanja novih rezultata. Međutim od
samog istraživanja do objavljivanja u časopisu prolazilo je i do dve godine, a i časopisa je bilo previše
što je dovodilo do toga da se do istih rezultata dolazi nezavisno više puta. Zato su poslednjih godina
konferencije počele da preuzimaju primat kao mesta dolaska do novih trendova u istraživanjima. Ali
kod konferencija mora da prođe nekoliko meseci između završetka pisanja rada i prezentovanja rada
na konferenciji. Internet, koji je i nastao radi deljenja informacija među naučnicima sa raznih instituta,
doneo je trend da se radovi publikuju na Internet stranicama pre nego što se pojave u časopisu ili na
konferenciji što je dovelo do mnogo brže primene novih saznanja kako u industriji tako i u drugim
istraživanjima. Revolucija koja se očekuje sa semantičkim izdavaštvom ogleda se u publikovanju
mnogo manjih delova istraživanja, na primer ideje za eksperiment, da bi se dobile ideje od naučne
zajednice zainteresovane za taj problem u ranim fazama projekta i tako izbegle mnoge greške i
problemi u toku samog projekta. Ovo je naročito evidentno u istraživanjima u medicini i biološkim
naukama gde se smatra da je čak 50% naučnih radova netačno jer neke faze u istraživanjima nisu
sprovedene na korektan način[10]. Detekcija ovakvih propusta u toku samog istraživanja doprinela bi
drastičnom povećanju kvaliteta naučnih radova.
Jedna posredna dodatna prednost implementacije semantičkog pristupa organizacije podataka
o publikacijama ogleda se u mogućnosti povećanja međunarodnje saradnje kroz veću dostupnost
naučnih rezultata svetskoj javnosti. Naime, kroz povezivanje sa saradnicima sa svetskih univerziteta
jednostavnim linkovima u FOAF profilima, nekada disjunktne socijalne mreže (u okviru jedne institucije
ili jedne zemlje) se povezuju i podaci se objedinjuju, što vrlo lako dovodi do buduće saradnje. Značaj
povezivanja što širih skupova istraživača koji se bave srodnim temama prepoznat je i u Okvirnim
projektima Evropske Unije kroz finansiranje ekspertskih mreža (network of excellence) koje
predstavljaju poseban tip projekata koji nemaju za cilj konkretne rezultate nego samo popularisanje
međunarodne saradnje kroz ogranizaciju konferencija i specijalizovanih Internet zajednica.
19
Primena ovakvog sistema na nivou pokrajine donela bi nemerljive prednosti u unapređenju
procesa praćenja, usmeravanja i primene naučnih istraživanja. Distribuirana arhitektura ovog i sličnih
semantičkih sistema omogućuje jednostavan razvoj dodatnih modula za proizvoljne analize podataka,
što omogućuje prilagođenje metodologije ocenjivanja rezultata istraživanja samo promenama na
strani pokrajinskog regulatornog tela, a ne i na strani istraživača (koji su do sada sa promenama
definicije kategorija morali ponovo da kategorizuju sve publikacije). Unificiranje formata u kojem se
čuvaju podaci drastično pojednostavljuje razmenu podataka. Ovo se jako lepo vidi u najjednostavnijem
primeru: pregledanje desetina stranica istraživača medicinskog fakulteta (koje su verovatno u
različitim formatima i neredovno dopunjavane novim podacima) u potrazi za najnovijim kliničnih
istraživanjima lekova može biti zamenjeno jednim klikom koliko je potrebno za dodavanje RSS kanala
sa temom kliničnih istraživanja (ili sa svim istraživanjima medicinskog fakulteta) u omiljeni RSS čitač i
dobijanje informacija čim postanu dostupne. I pored očiglednih prednosti i beskrajnih mogućnosti nije
realno o implementaciji ovakvog sistema na nivou cele pokrajine jer ni mnogo jednostavniji sistem
prikupljanja kartona koji se trenutno primenjuje nije doveo do skupljanja svih relevantnih podataka
iako se implementira već tri godine.
Međutim, primena ovog sistema na nivou departmana za matematiku i informatiku je mnogo
realnija i idealno se uklapa u dva već postojeća projekta – projekat nove Internet stranice i projekat
razvoja bibliotečnog softvera primenom XML tehnologije. Novi Internet portal departmana sadrži
osnovne podatke o istraživačima i strukturi istraživačkih grupa u obliku baze podataka, te generisanje
FOAF profila i RDF dokumenata sa organizacionom strukturom predstavlja relativno jednostavan
posao. Takođe, verovatno je moguće konvertovati postojeće podatke o publikacijama iz kartona
naučnih radnika u bibtex format i implementirati dodatni modul sajta koji bi istraživačima omogućio
lako menjanje, dodavanje, pretragu i deljenje podataka o publikacijama. Primenom RSS tehnologije
liste publikacija postale bi deo unificiranih stranica o istraživačima (kao što su to danas podaci o email
adresama i brojevima telefona u kabinetima), a bile bi dostupne i zajednički RSS kanali za praćenje
novih publikacija istraživačkih grupa i celog departmana. S druge strane, integracija sa bibliotečkim
softverom razvijenim u XML tehnologiji bi bila neprimetna u smislu jednostavnog dodavanja
metapodataka na sadašnje bibliotečke podatke, kao i dodavanje vrlo korisnog modula pretrage celih
dokumenata (u slučaju da su dostupni u pdf formatu). Semantička tehnologija donela bi i mogućnosti
vizualizacije i automatske kategorizacije dokumenata, ali i izuzetno korisnu funkciju izlistavanja sličnih
dokumenata, bazirano na istim ključnim rečima. Tako je jedan od mogućih a korišćenja ovog
povezanog sistema prikaz knjiga iz oblasti slične radovima koji se trenutno prikazuju ili informacija o
citiranim radovima koji su dostupni u biblioteci departmana u štampanom obliku ili su dostupni u
nekoj od međunarodnih digitalnih biblioteka dostupnih istraživačima.
Konačno, pored svega nabrojanog korišćenje semantičkih tehnologija u svakodnevnoj praksi
omogućilo bi bolje razumevanje ovih tehnologija i inspirisalo bi eksperimentisanje u ovoj oblasti.
Naročito je interesantan pravac implementacije neke od semantičkih tehnika u neki od postojećih
sistema elektronske podrške predmetima koji se predaju na departmanu jer bi to doprinelo svesti o
novoj tehnologiji među studentima i donelo nove ideje koje mogu da ukažu na pravac nekih budućih
istraživanja u ovoj vrlo mladoj i perspektivnoj naučnoj oblasti.
20
Literatura 1. www.wikipedia.org
2. www.openacademia.org
3. www.FOAF-project.org
4. www.ist-world.org
5. Miloš Radovanović, Jure Ferlež, Dunja Mladenič, Marko Grobelnik, Mirjana Ivanović -
Mining and Visualizing Scientific Publication Data from Vojvodina, Novi Sad Journal of
Mathematics, to appear
6. http://apv-nauka.ns.ac.yu/vece/index.jsp
7. Li Ding, Lina Zhou, Tim Finin and Anupam Joshi - How the Semantic Web is Being
Used:An Analysis of FOAF Documents, Proceedings of the 38th International Conference
on System Sciences 2005.
8. Peter Mika, Michel Klein, and Radu Serban. Semantics-based Publication Management
using RSS and FOAF. Proceedings of the 1st Workshop on the Semantic Desktop (SD
2005) at the 4th International Semantic Web Conference (Galway, Ireland), November,
2005.
9. Berners-Lee, Tim; Fischetti, Mark (1999). Weaving the Web. HarperSanFrancisco,
chapter 12
10. http://www.newscientist.com/article.ns?id=dn7915 Most scientific papers are probably
wrong