16
UNIVERZITET U SARAJEVU Fakultet za saobraćaj i komunikacije SEMINARSKI RAD ( iz predmeta Metodologija naučno – istraživačkog rada ) Tema: SKUPLJANJE PODATAKA WEB PRETRAŽIVAČIMA Mentor: Student: Red. prof. dr. Šefkija Čekić Adi Vrabac

prikupljanje podataka web pretrazivacima

Embed Size (px)

Citation preview

Page 1: prikupljanje podataka web pretrazivacima

UNIVERZITET U SARAJEVUFakultet za saobraćaj i komunikacije

SEMINARSKI RAD ( iz predmeta Metodologija naučno – istraživačkog rada )

Tema:

SKUPLJANJE PODATAKA WEB PRETRAŽIVAČIMA

Mentor: Student:Red. prof. dr. Šefkija Čekić Adi Vrabac Ass: dipl ing Amel Kosovac

Sarajevo, April 2009. godine

Page 2: prikupljanje podataka web pretrazivacima

- Seminarski rad – Metodologija naučno – istraživačkog rada -

Sadržaj:

1.0 Uvod.........................................................................................................................32.0 O Internetu................................................................................................................43.0 Pretraživanje interneta – skupljanje podataka web pretraživačima..........................54.0 Pretraživanje na www (World Wide Web)...............................................................6

4.1 Web direktoriji..............................................................................................74.2 Internet pretraživači......................................................................................7

5.0 Osnove pretraživanja Interneta.................................................................................85.1 Strategija pretraživanja.................................................................................85.2 Načini postavljnjanja upita – sintaksa kod pretraživača...............................95.3 Rezultati pretraživanja..................................................................................9

6.0 Zaključak................................................................................................................107.0 Literatura................................................................................................................11

2

Page 3: prikupljanje podataka web pretrazivacima

- Seminarski rad – Metodologija naučno – istraživačkog rada -

1.0 Uvod:

Bavljenje znanstveno-istraživačkim radom podrazumijeva bavljenje znanjem, a kako znanje nije ništa drugo doli strukturirani skup informacija, to je sasvim razumljivo kako ozbiljnijeg znanstvenog, fundamentalnog i primijenjenog, istraživačkog rada nema bez intenzivne uporabe tako bogatog “rezervoara” informacija kao što je Internet.Budući da su, od samih početaka, najeminentniji univerziteti i instituti, isprva samo američki (UCLA, Berkeley, MIT) a onda i oni iz drugih krajeva svijeta, zapravo bili osnovnim nositeljima razvitka Interneta, jasno je da su njihovi informacijski fondovi, u formi baza podataka i u drugim oblicima, predstavljali – a čine to i danas – informacijski temelj Mreže. U tu svrhu ARPANET je iniciran kao kapitalni projekt sedamdesetih godina ovoga stoljeća upravo zato da bi omogućio razmjenu informacija među znanstvenicima i institucijama u okvirima kojih su oni djelovali. U kojoj je mjeri ta nakana i ostvarena, svjedoči današnje stanje i snaga Interneta. Čak i Internet sam po sebi danas je predmetom znanstveno-istraživačke obrade, jer on nije samo tehnološki, nego, još i više, društveni, politički, ekononomski, psihološki i tko zna kakav još sve ne, fenomen. Istraživanja Interneta i brojnih novih pojava koje on potiče ili stvara sastavnim su dijelom mnogih magistarskih radova i doktorskih disertacija, znanstvenih rasprava i skupova, monografija, eksperimenata i ostalih vidova znanstvenog djelovanja.Dakle, Internet je, sa znanstvene tačke gledanja, dualne prirode: on je, s jedne strane, izvor kvalitetnih informacija potrebnih u znanstvenim istraživanjima, dok je istovremeno, s druge strane, i sam predmetom znanstveno-istraživačkog rada. Utoliko više treba cijeniti njegovu vrijednost, odnosno odatle proizlazi bogatstvo interneta.Temeljni su izvori informacija od značenja za znanstveno-istraživački rad u Internetu baze podataka koje stvaraju i održavaju sveučilišta, fakulteti i znanstveni instituti, nacionalne i javne biblioteke, referalni centri, arhivi, muzeji i galerije, institucije specijalizirane za prikupljanje, obradu, pohranu i diseminaciju informacija, pa čak i privredne organizacije i njihove udruge.

3

Page 4: prikupljanje podataka web pretrazivacima

- Seminarski rad – Metodologija naučno – istraživačkog rada -

2.0 O Internetu:

Internet je svjetska mreža računala - mreža nad mrežama. Ali Internet nije samo računalna mreža, niti je samo tehnološki fenomen kojim se danas bave informatički stručnjaci - već fenomen koji je postao multidisciplinaran, te zaslužuje pažnju i drugih nauka, kao što su: sociologija, psihologija, ekonomija (marketing), politologija... Internet je mreža svih mreža koje slobodno razmjenjuju informacije. On je također i decentralizovan sistem pomoću kojeg dolazimo do podataka, slika, tekstova, muzike i ljudi koji ga koriste. Mreže od kojih je sastavljen internet su najčešće mreže sa javnim pristupom, a to znači da resursi na mreži mogu biti podjeljeni sa bilo kojim povezanim korisnikom na mreži. Zbog svoje otvorenosti se zove INTERNET.

Nastanak i razvoj interneta veže se za 60-e godine prošlog vijeka kada je agencija ARPA (Advanced Projects Agency) pod upravom Ministarstva odbrane u SAD napravila računarsku mrežu. Tokom 70-tih godina dolazi sve više do povezivanja univerziteta i institucija, a kako se i ukazala potreba i za standardizovanjem prenosa podataka razvijen je TCP i IP. Nacionalna fondacija za nauku NSF je 1985. god. u SAD formirala istu paralelnu mrežu NSFNET.

Kako su se superračunari pokazali preskupom varijantom, 1995.g. se prekida projekat, a mrežu počinju koristiti komercijalne organizacije za elektronsku mrežu i druge namjene. Izraz interneta prvi put se javlja 1982. god. kad je DARPA pustila u opticaj internet protokol (IP). Timothy Berners – Lee, engleski naučnik 1989. god. predstavlja World Wide Web (WWW) čija je namjena da pomogne komunikaciju između ljudi na različitim lokacijama.WWW je izvršio revoluciju interneta međutim tokom ranih 90-tih znatno se povećao broj korisnika, zbog jednostavnog korištenja multimedijalnih dokumenata. Između 1993 i 1996. godine, pa do danas, način korištenja interneta se drastično mijenja.

4

Page 5: prikupljanje podataka web pretrazivacima

- Seminarski rad – Metodologija naučno – istraživačkog rada -

3.0 Pretraživanje interneta – skupljanje podataka web pretraživačima:

Traženje informacija u Internetu nije samo sebi svrhom, premda bi se možda na prvi pogled moglo zaključiti suprotno. Naime, pronaći informaciju zapravo znači pronaći stvari, mjesta i ljude na koje se te informacije odnose. Navedene tvrdnje ukazuju na činjenicu da “lutanje” Internetom ima opravdanja tek onda kada je usmjereno nekom tačno određenom i korisnom cilju. Više-manje besciljno aktiviranje i praćenje poveznica s jednog hipermedijskog dokumenta prema drugome – i tako “unedogled” – u internetskom se žargonu naziva “surfanjem” (engl. Surf, Surfing). Ono može biti korisno u početnim fazama privikavanja na Internet, jer će se na taj način steći kakav – takav dojam o bogatstvu Interneta. Može se donekle opravdati i kao oblik rekreacije, zabave ili “ubijanja vremena”. Može se čak shvatiti i kao vježbanje, odnosno priprema za neke ozbiljnije aktivnosti na Internetu. No, nikako ne bi smjelo biti samo sebi svrhom. Cilj je, dakle, pronaći potrebne informacije (odnosno ljude, stvari i mjesta što “stoje” iza njih) uz minimum napora, vremena i troškova. Tu su činjenicu shvatili neki davatelji internetskih usluga i razvili moćne softverske sisteme za pohranjivanje informacija o informacijama raspoloživima na različitim Web mjestima, njihovo klasificiranje i organiziranje, te pretraživanje, pronalaženje i, konačno, dostavljanje onima koji ih trebaju, dakle korisnicima. Tradicionalno, ako se u razmjerno kratkom dosadašnjem razdoblju velike popularnosti Interneta uopće može govoriti o nekoj tradiciji, ti se su se softverski sistemi razvijali u dva smjera, tako da se danas mogu svrstati u dvije glavne skupine osnovnih pretraživačkih alata:

Prvu skupinu čine imenici ili direktoriji informacija o Web mjestima, odnosno stranicama na kojima se mogu pronaći tražene informacije, odnosno dobiti neke informacijske usluge, a koji su izgrađeni po principima bibliotečne katalogizacije bibliografskih izvora i njihova pronalaženja u većem knjižnom, odnosno dokumentacijskom fondu.

Drugu pak skupinu čine pretraživači (gdjekad se rabi i termin “tražilice”) informacija (engl. Search Engine), kao nešto “aktivniji” softverski sustavi koji podržavaju neke sofisticiranije i agresivnije” metode dolaženja do potrebnih informacija ili informacijskih usluga.

Istini za volju valja spomenuti kako je već danas jasno uočljiv trend “približavanja” ili konvergencije, te prožimanja jedne i druge vrste pretraživačkih sustava, tako da među njima više nema oštrih granica, a nema ni previše smisla nasilno ih “trpati” u striktno razdvojene “generičke ladice”. Prema prilično mjerodavnim (i grubim) procjenama, danas se u Internetu može naći čak i nekoliko stotina pretraživačkih sustava i alata, ali jedan od najstarijih i, ujedno, bez premca najpopularniji sustav je Yahoo!, kojega kao osnovni alat za pretraživanje internetskih sadržaja koristi više od polovine internetskih klijenata. Ne pretendirajući na stvaranje nekakve top-liste popularnosti, jer se ona brzo mijenja, valja spomenuti još nekoliko često korištenih pretraživačkih alata – Alta Vista, Google, Excite...

5

Page 6: prikupljanje podataka web pretrazivacima

- Seminarski rad – Metodologija naučno – istraživačkog rada -

Uporaba sistema za pretraživanje informacija krajnje je jednostavna. Korisnik nakon pristupanja Web mjestu na kojemu se nalazi neki pretraživački alat naprosto upisuje u jasno vidljivo i označeno polje na zaslonu svoga računala ključnu riječ prema kojoj treba izvršiti traženje, te potom mora samo još “kliknuti” na “dugme” Search i pritisnuti tipku Enter. Na zaslonu će se potom prikazati traženi sadržaji (naravno, ako ih ima i ako ih pretraživački program može pronaći).

4.0 Pretraživanje na www (World Wide Web):

WWW, World Wide Web, W3, ili jednostavno Web je jedna od najkorištenijih usluga interneta. Ovaj pojam se često pogrešno koristi kao sinonim za internet, a zapravo predstavlja uslugu kojom se ostvaruje razmjena podataka preko te svjetske računalne mreže.

WWW odnosno World Wide Web je skup međusobno povezanih dokumenata hiperlinkovima. Dokumenti mogu sadržavati tekst, grafiku ili nešto treće. WWW je samo jedan od servisa interneta i obično mu se pristupa internet preglednikom. Web preglednik (web browser, Internet browser) je program koji korisniku omogućuje pregled web stranica i multimedijalnih sadržaja vezanih uz njih. Iz jednog od njih trenutno čitate ovaj tekst.

Najpopularniji preglednici danas su:

Firefox - besplatan preglednik otvorenog koda Mozilla - imenom Mozilla danas nazivamo

spoj Firefoxa i Thunderbirda Opera - besplatan preglednik zatvorenog koda tvrtke Opera Internet Explorer - besplatan preglednik zatvorenog koda

tvrtke Microsoft

6

Page 7: prikupljanje podataka web pretrazivacima

- Seminarski rad – Metodologija naučno – istraživačkog rada -

4.1 Web direktoriji:

Web direktoriji su vrsta pretraživača ili tražilica koja nam omogućuje lakšu pretragu traženih pojmova, ali danas je među njima manja razlika nego ranije. Tako ''yahoo'' pokušava organizirati web, tj. indeksirane stranice, dijeleći ga u teme i podteme. Tako ako nam je potrebna neka informacija, a nemoguće je pregledati sve knjige da bi se do nje došlo, potrebno je samo otići na Yahoo pretraživač i unijeti podatak koji nam je potreban (npr. vojska). Pri traženju tog podatka pretraživač koristi softver koji automatski slijedi sve linkove od jednog dokumenta do drugog. Kada otkrije sajt, on šalje informaciju svom glavnom sajtu za indeksiranje tj. vrši katalogizaciju tog sajta i izbaci na ekran sve informacije vezane za uneseni podatak. Međutim, obično se kao rezultat pretrage vraća previše informacija korisnik traži samo onaj podatak koji mu je potreban. Ponekad se također može desiti da uopšte nema rezultata, ali isto tako moguće je otkriti da neki od podataka koji se pretražuje ima i neko drugo korisniku nepoznato značenje.

4.2 Internet pretraživači:

Tražilica ili pretraživač je servis koji nam pomaže da na internetu lakše pronađemo sadržaje koje tražimo. Pomoću pretraživača možemo pronaći sve što nas zanima na internetu, na raznim web stranicama, među brojnim e-mail adresama u svijetu i sl. Dijelovi tražilice su polje za upis izraza koji želimo naći, pull down meni za određivanje opsega pretraživanja i tipka za početak pretraživanja.

Najpoznatiji web pretraživači su:Google: http://www.google.comYahoo: http://www.yahoo.comAltavista: http://www.altavista.digital.comLycos: http://www.lycos.com

7

Page 8: prikupljanje podataka web pretrazivacima

- Seminarski rad – Metodologija naučno – istraživačkog rada -

5.0 Osnove pretraživanja interneta:

Da bi se došlo do željenih informacija na internetu koriste se tzv. Pretraživački alati (Search Tools). Oni rade tako što korisnik unese pojam koji traži, nakon čega dobije listu adresa web sajtova na kojima je taj pojam pronađen. Na Internetu postoji veliki broj pretraživakih alata, koji mogu biti opšte ili specijalizovane za pretragu dokumenata iz samo pojedinih oblasti, a generalno se sve svrstavaju u dvije kategorije:

- pretraživači- katalozi

Postoji i treća vrsta web sajtova, koji se nazivaju Metapretraživači. Obično su sporiji od kataloga i pretraživača, ali ako se kombinuju sa više pretraživačkih mašina, pokrivaju veći procenat Interneta, pa zato mogu dati bolje rezultate kada se traže stvari koje nisu toliko poznate. Osim pretraživača postoje i programi koji vrše istu funkciju i rade na sličan način, a najpoznatiji takve vrste je Copernik. Riječi koje treba uključiti u termin za pretragu su:

REVIEW – recenzija, ako tražite recenziju nekog proizvoda i dr. DOWNLOAD – ako tražite neku datoteku koja je stavljena na download VACATION – odmor, ako tražite mjesto za odmor PRICE – cijena, ako tražite cijenu nekog proizvodaCOMPARE – upoređivanje cijena nekog proizvodaSPECIFICATION – dobit ćete link na specifikacuje nekog proizvodaGALERY – ako tražite neke slike

5.1 Strategija pretraživanja

Ako se traži adresa na Internetu moraju se navesti riječi koje nas interesuju. Kada pretraživač nađe riječi koje su mu zadate, kao rezultat izbacit će niz linkova sa adresama na kojima se nalaze tražene riječi. U slučaju kada se pretražuje Internet, korisnik mora sam uraditi filtriranje informacija. U principu, pretraživanje Interneta može se svesti na nekoliko faza:

a) Prvo što se radi jeste da odemo na neku stranicu koja sadrži pretraživač. Zatim u polje za unos se upišu ključne riječi koje želimo da pretraživač nađe i kliknemo na tipku "search".

b) Drugo što radimo je probiranje kroz linkove koje dobijemo kao rezultat klika na ''search''. U ovoj fazi odlučujemo koje ćemo linkove slijediti a koje ne, te se tako vrši

8

Page 9: prikupljanje podataka web pretrazivacima

- Seminarski rad – Metodologija naučno – istraživačkog rada -

svojstveno filtriranje informacija. c) Treće što se radi je pregledavanje stranica na koje smo otišli i konstatovanje da

li smo našli ono što smo tražili ili ne.

5.2 Načini postavljanja upita - sintaksa kod pretraživača

Sintaksa moze biti različita kod pretraživača. Zadržati ćemo se na sintaksi koja se generalno koristi kod svih pretraživača. Ako uzmemo za primjer upit:

(color OR colour) AND beige je razlicit od upita"color beige" OR "colour beige"

Ova dva upita ce imati razlicite rezultate na istom pretrazivacu. U ova dva primjera korištene su reci "color" i "colour". Ako se koristi engleski jezik za pretraživanje, mora se voditi računa da se Engleski i Američki engleski znaju razlikovati.

5.3 Rezultati pretraživanja

Najčešće se iz prvog pokušaja neće dobiti web sajt na kojem se nalazi ono što tražimo. Zato je bitno znati čitati i analizirati dobijene rezultate, pošto iz njih možemo saznati gdje smo pogriješili i šta još trebamo dodati. Naprimjer, Google prikazuje po deset rezultata na jednoj stranici, pri ćemu će odgovarajuće web stranice biti među prvih 30 izlistanih. Broj prikazanih rezultata možemo podesiti na linku preferences. Svaki link sastoji se iz:

Naziv sajta, koji ponekad može biti samo URL tog sajta (kada stanica nema naziva ili nije potpuno indeksirana);

Isječka iz dijela teksta na stranici (gdje je traženi termin pronađen), Kategorije u kojoj je taj sajt katalogiziran , URL, Slične stranice. U suštini uvijek je stvar do pravilno definisanog termina za

pretragu.

9

Page 10: prikupljanje podataka web pretrazivacima

- Seminarski rad – Metodologija naučno – istraživačkog rada -

6.0 Zaključak:

Iako je Internet "velika biblioteka" i mjesto na kojem možemo pronaći gotovo sve što nam je potrebno, ipak, postoje određeni problemi. Problem se ne odražava u količini informacija, jer je danas već, kao što je vidljivo, velik dio ukupnog ljudskoga znanja digitaliziran, pa onda i dostupan putem Interneta. Ali, iako je Internet, s općeg civilizacijskog stajališta i stajališta znanosti, neprocjenjivo bogatstvo, od neizmjerne pomoći znanstvenicima i istraživačima u njihovu radu, ipak se još uvijek nameće problem pronalaženja informacija potrebnih u konkretnim istraživanjima. Razlozi tome uglavom nisu posljedica težnje nekoga – institucije ili pojedinca – da “skriva” i “taji” informacije, već ipak još uvijek ograničenim mogućnostima pretraživačkih alata korištenih u Internetu. Njihovi nedostaci proizlaze iz dva izvora:orijentacije razvijača i vlasnika većine internetskih pretraživača na njihovu komercijalnu uporabu.

Pogledamo li se samo naslovne stranice najvažnijih internetskih direktorija i pretraživača, lako je uočljivo da su znanstvene teme tek jedna odrednica među desetak ili više drugih koje su im, svaka posebice, u najmanju ruku ravnopravne po broju poveznica na druge web stranice. Obično se sve što se smatra znanstvenim temama “trpa u isti koš”, u kojemu nerijetko ima i puno “smeća”. Uz to, poimanje znanosti kakvo nameću pretraživači nerijetko je, blago rečeno, konzervativno: znanstvenim temama smatra se ono što se odnosi na klasične znanosti, poput filozofije, astronomije, medicine, biologije, fizike itd. Savremenije znanstvene discipline uglavnom su diskriminirane i "skrivene” iza nekih drugih (nelogičnih) odrednica (naprimjer: informatika se svrstava pod tehniku ili tehnologiju itd.).

Metode pretraživanja ugrađene u pretraživače još su uvijek obično “pregrube”, nedovoljno suptilne i sofisticirane. Nove generacije inteligentnih pretraživačkih alata morat će rješavati taj problem primjenom složenijih logičkih metoda, poput asocijacije, razložnog zaključivanja, analogije i sličnih. Dakle, iz svega navedenoga proizlazi da je današnja uloga Interneta kao sredstva pomoći i predmeta znanstveno-istraživačkog rada još uvijek prilično kontroverzna – koliko god ona bila dragocjena i velika, znanstvenici se ipak moraju i nadalje u velikoj mjeri oslanjati na svoj um, intuiciju, pa i ruke. To je, međutim, razumljivo i tako će ostati zauvijek. Ova tvrdnja ne odražava pesimistički aspekt, već je plod “čvrste logike”. Naime, zadatak znanstveno-istraživačkog rada je otkrivanje novoga, onoga što je još nepoznato, pa se ne može ni očekivati da to novo postoji u Internetu, u kojemu postoji samo ono što se već dogodilo i što je već netko ranije spoznao, otkrio ili barem predvidio. Zato će znanstveno-istaživački rad uvijek biti

10

Page 11: prikupljanje podataka web pretrazivacima

- Seminarski rad – Metodologija naučno – istraživačkog rada -

“put u nepoznato” kojemu ni puno savršenija verzija od današnjeg Interneta neće moći biti od presudne pomoći.

7.0 Literatura

Prof. dr. Željko Panian Bogatstvo Interneta – IK "Strijelac" Zagreb, 2000. godine. Internet resursi:

http://hr.wikipedia.org http://www.pretraga.co.yu http://www.google.com http://altavista.digital.com http://www.yahoo.com

11