Upload
kellan
View
32
Download
0
Embed Size (px)
DESCRIPTION
V AD FINNS GÖMT BAKOM DET VI SER PÅ WEBBSIDAN?. This Is Where We Came In Alan Ayck-bournI . Materialet finns tillgängligt på URL http://www.adm.hb.se/personal/hfr/tls/ Helena Francke, 18/09/00. Innehåll… f.m. - PowerPoint PPT Presentation
Citation preview
18/09/00
VAD FINNS GÖMT BAKOM
DET VI SER PÅ WEBBSIDAN?
Materialet finns tillgängligt på URLhttp://www.adm.hb.se/personal/hfr/tls/Helena Francke, 18/09/00
<BODY><H1>This Is Where We Came In</H1><H2>Alan Ayck-bourn</H2><P CLASS="act">I</P>
18/09/00
Innehåll… f.m
Olika format / kodning(PDF, HTML, XML)
Validering Metadata
HTMLDublin CorePICSRDF
18/09/00
Filformat
Plattformsoberoende
html jpegpdf wavgif m fl
Proprietära
doc aippt pctcdr
18/09/00
Filformatet kan ha betydelse för kvalitén..
hur tolkar webbläsare / program filen?
portabilitet bevarandeaspekten manipulation (kan vara av godo) /
adaption
18/09/00
Skilda principer för textbeskrivning
Textens stukturella uppbyggnad
HTML
Textens semantiska betydelse (descriptive markup)
SGML, XML
Textens visuella representation
Text används här i en vidbemärkelse
18/09/00
Exempel på uppmärkning
Ur Alan Ayckbourns This Is Where We Came In:
<character>Uncle O</character > <line>[…] And the princess, as soon as she saw the young prince, fell immediately in love with him…</line>
< character >Nell</ character> <instruction>(falling immediately in love)</instruction>
<line>Oh!</line>
18/09/00
Exempel på visuell kodningUr Alan Ayckbourns This Is Where We
Came In:
Uncle O […] And the princess, as soon as she saw the young prince, fell immediately in love with him…
Nell (falling immediately in love) Oh!
18/09/00
18/09/00
HTML
märkord (taggar) som märker upp strukturen
märker upp ren text (ASCII) webbläsaren omvandlar koderna till
presentationsinstruktioneralt. har man möjlighet att specificera layout-instruktioner - i html-koden eller separat (i t ex en stilmall [css, xsl])
bygger på SGML
18/09/00
Descriptive Markup
kodar efter innehåll likväl som struktur
SGML/XML W3C (World Wide Web Consortium) utifrån SGML + XML skapar man nya
uppmärkningsspråk som beskrivs i en DTD (Document Type Definition)
18/09/00
UPPMÄRKNINGSSPRÅK(Markup Languages)
SGML(Standard Generalized Markup Language)
XML(eXtensible Markup Language)
HTML
TEI MathML
RDF
m fl
18/09/00
"Extensible Markup Language (XML for short) is a new language designed to […] make information self-describing. This simple-sounding change in how computers communicate has the potential to extend the Internet beyond information delivery to many other kinds of human activity. Indeed, since XML was completed in early 1998 by the World Wide Web Consortium […] the standard has spread like wildfire though science and into industries ranging from manufacturing to medicine.”
Jon Bosak and Tim Bray (1999), "XML and the Second-Generation Web” // Scientific American
18/09/00
Val av format Portabilitet Manipulation Sökbarhet Utprodukt Navigering
(XLink, XPointer) Belastning på
nät / servrar
Vilken version är det?
DOCTYPE-deklarationen
Följer koden i html-/ xml-filen W3C:s rekommendationer?
http://validator.w3.org
Validering
18/09/00
Vad är metadata?
data om data, eller (strukturerad) information om olika
resurser eller objekt, eller uppgifter som möjliggör för oss att
identifiera, lokalisera och organisera (digitala) resurser i lokala eller distribuerade samlingar
Meta- (fr. grekiska): med, emellan, efter...
18/09/00
Uniform Resource Locator (URL)
http://www.lub.lu.se/desire/sbigs.html
protokoll toppdomän
katalog (mapp)
filextensi
on
(HyperText Transfer Protocol)
domän
18/09/00
Identifikatorer URL - Uniform Resource Locator
http://www.w3.org URI - Uniform Resource Identifier URN - Uniform Resource Name
URN:NBN:se-d199811234 PURL - Persistent URL
http://purl.oclc.org/OCLC/PURL/FAQ DOI - Digital Object Identifier
10.1002/[ISBN]91-973090-6-0
18/09/00
Dold metadata
exempelvis titeln på en bok, en MARC-post, materialinformationen i skor etc
kan finnas i/på objektet (skoexemplet) eller separat från detta (MARC-posten)
HTML, Dublin Core, PICS, RDF används för att förbättra SÖKNING,
LOKALISERING och SELEKTION
18/09/00
HTML-meta
<title> (skilj mellan titel och rubrik!) - det enda obligatoriska metadata-elementet i html
<meta> ofta använt för att ange ämnesord och sammanfattning
<meta http-equiv=”charset” content=”iso-8859-1”>
18/09/00
Dublin Core Metadata
Element Set Grunden lades vid ett möte i Dublin Ohio 1995 DC är väl lämpat att beskriva dokument och
dokument-liknande objekt Målet var att skapa ett system
som gör metadata enkelt att skapa och hålla aktuellt som är internationellt gångbart som är töjbart
En av begränsningarna med DC idag är att man inte anger någon typ av inmatningsregler - jmf KRS
18/09/00
Unqualified DC (1.1) 15 olika fält:
INNEHÅLL:
DC.Title, DC.Subject, DC.Description, DC.Source, DC.Language, DC.Relation, DC.Coverage
UPPHOV:DC.Creator, DC.Publisher, DC.Contributor, DC.Rights
IDENTIFIKATION, TID OCH TEKNIK:DC.Date, DC.Type, DC.Format, DC.Identifier
Inget fält är obligatorisktAlla fält kan upprepas vid behov
18/09/00
Qualified DC TYPBETECKNINGAR
Precisering av en kategori under rubriken och/eller en tillfogad uppgift med särskild innebörd.<meta name=”DC.Creator.PersonalName.Email” content=”[email protected]”>
SCHEME-TILLÄGGPrecisering av en standard eller praxis som styr utformningen av fältets innehåll.<meta name=”DC.Subject” scheme=”SAB” content=”Do”>
efter Sten Hedberg (1999), ”Dublin Core i Sverige - en minsta gemensam nämnare eller…?” // Human IT nr 4/99
18/09/00
DC forts. Hur tillämpas DC idag?
- i ett stort antal projekt världen över som ofta är initierade från bibliotekshåll och inom söktjänster som inriktar sig på resurser inom en viss disciplin- i Sverige: Svesök, SAFARI, Svenska miljönätet (Nordic Web Index)
DC-formulär skapat av NetLab vid Lunds UB finns på: http://www.lub.lu.se/cgi-bin/nmdc.pl
DC har än så länge dåligt stöd i de kommersiella söktjänsterna
18/09/00
PICS - Platform for Internet Content Selection Utvecklades ursprungligen under influens av den
diskussion som förts i USA kring the Telecommunications Decency Act
Utvecklades av W3C -rekommendationerna kom 1996 Metod eller infrastruktur, inte i sig ett system för
klassificering/värdering Olika system/vokabulärer för värdering skapas av
organisationer eller individer Du instruerar sedan webbläsaren att kontrollera
informationen i dokumentet eller en databas (i IE 5.0 under Verktyg Internet-alternativ Innehåll)
Kan användas till annat än att värdera sex, våld och språk...
18/09/00
”label list” för två dokument(PICS-1.1 "http://www.gcf.org/v2.5" by "John Doe" labels on "1994.11.05T08:15-0500" until "1995.12.31T23:59-0000" for "http://w3.org/PICS/Overview.html" ratings (suds 0.5 density 0 color/hue 1) for "http://w3.org/PICS/Underview.html" by "Jane Doe" ratings (subject 2 density 1 color/hue 1))
från ”PICS Label Distribution Label Syntax and Communication Protocols”
http://www.w3.org/TR/REC-PICS-labels
18/09/00
Resource Description Framework
RDF Används för att ”samla ihop” metadata (t ex DC och PICS) i ett elektroniskt dokument
W3C-rekommendation i feb/mars 1999 RDF är ett XML-språk En RDF-sats innehåller tre delar:
en resurs (en URI)en egenskap (t ex ”författare”, ”titel”)ett värde (t ex ”Astrid Lindgren”)
18/09/00
RDF-exempel
<?xml version=”1.0”?>
<RDF xmlns=”http://www.w3.org/1999/02/22-rdf-syntaxns#” xmlns:DC=”http://purl.org/metadata/dublin_core/” xmlns:DS=”http://www.w3.org/Schemas/DS-Schema/”>
<Description about=”http://www.tls.se/forel.htm” bagID=”Statement_001”> <DC:Creator>Klara Karlsson</DC:Creator></Description><Description about=”#Statement_001”> <DS:CreatedOn>2000-09-18T14:00z</DS:CreatedOn> <DS:CreatedBy>Bengt Bengtsson</DS:CreatedBy></Description>
</RDF>
18/09/00
ATT HITTA INFORMATIONEN...
KRITISK BEDÖMNING AV SÖKVERKTYG
18/09/00
Innehåll… e.m
Olika typer av sökverktyg - hur fungerar det?
Sökstrategier Jämförelse av sökverktyg
18/09/00
Sökverktyg på webben
Sökmaskiner (t ex AltaVista, Excite, Google)
Ämnes- eller länkkataloger (t ex Yahoo!, Svesök, BUBL link)
Metaindex (t ex MetaCrawler, Mamma) Klientbaserade metaindex (t ex
Copernic) Intelligenta agenter
18/09/00
Sökmaskiner
samlar in information på maskinell väg
en robotdepth-firstbreadth-first
ett index inverterade filer
en databasmotor
A
URL:er
Z
A
URL:er
Z
robot
depth-first breadth-first
hämta + lämna URL:er
hämta URL:er
lämna URL:er
18/09/00
Kataloger hierarkiskt organiserade ämnesuppställda kataloger
över länkar som går till andra webbresurser sammanställs av människor bygger på någon typ av klassifikationssytem - kan
vara ett etablerat (t ex SAB, Dewey) eller egenproducerat (Yahoo!, SUNET:s katalog)”Three possible strategic responses [to the reduction of intellectual and physical barriers brought about by the rise of multidisciplinarity and by the influence of computerization] are described: 1) adopting an existing system; 2) adapting an existing system; and 3) finding new structural principles for classification systems.” Clare Beghtol 1998, s 89
länkarna kvalitetsbedömda?
18/09/00
Andra varianter
Hybrider (katalog + sökmotor) (trend: portaler) Metaindex (söker i flera
söktjänsters index samtidigt) Klientbaserade metaindex Intelligenta agenter
18/09/00
Sökstrategier 1
SÖKMASKINER
objekt med signifikant namn - ”Bill Clinton”, ”IFLA” person/organisation/företag/märke/geografisk plats
väl avgränsat område med karaktäristiskt namn - ”XML”
”litet” område med väl definierad terminologi - ”mimesis”
område som är svårt att placera in i en hierarki (t ex multidisciplinära) - ”malört”
det är alltid en avvägning (jmf Massachusetts Institute of Technology/MIT)
18/09/00
Sökstrategier 2 KATALOGER
överblick över vad som finns inom ett område om man är osäker på lämpliga söktermer, t ex
söker inom ett obekant område (måste dock kunna identifiera lämplig kategori)
kvalitetsgranskade resurser (ibland) resurser till en viss målgrupp - t ex barn
(Länkskafferiet, SAFARI har möjlighet att avgränsa efter målgrupp)
fler termer ger bättre precision än få - begränsa sökningen genom att lägga till termer, utvidga den genom att ta bort termer
18/09/00
Att jämföra sökverktyg
precision =antal hittade relevanta dokumenttotala antalet hittade dokument
recall =antal hittade relevanta dokument
antal relevanta dokument i databasen
18/09/00
Sökmaskiner (1)
OMFÅNG: Storlek - hur många webbsidor / filer
indexeras? (Google 560 miljoner webbsidor juli 2000)
Hur stor del av filen indexeras? (fulltext?) Geografisk avgränsning? int/sv/landsspecifik? Språk - i gränssnittet och i tillåtna söktermer
GRÄNSSNITT: Effektivt eller plottrigt? Reklam? Andra
tjänster?
18/09/00
18/09/00
Sökmaskiner (2)PRODUCENT: Vem står bakom tjänsten? kommersiell / ideell? Kostnad?Teknik: Efter vilka principer arbetar roboten? Hur ofta besöks varje webbsida? Hur ofta uppdateras
indexet? Finns materialet cachat? Om tjänsten inte har eget index - från vem köper de tjänsten? Strategier för att matcha fråga - dokument. Hur värderas/rankas/viktas söktermerna? Premieras
uppgifter i metadata? Sökhastighet? Finns någon kvalitetsgranskning / krav? (innehåll eller
teknik?)
18/09/00
Sökmaskiner (3)SÖKNING:
enkel och avancerad sökning + - ”” Boolesk logik vad är
standardinställningen? t ex OR, AND - går det att få reda på
trunkering, maskering närhetsoperatorer naturligt språk (kan du t ex
formulera din sökning som en vanlig fråga? AltaVista, Ask Jeeves)
case sensitivity
avgränsningar (datum, format, språk, geografisk tillhörighet)
går det att ange var i filen du vill utföra sökningen? (titel, URL, länkar…)
söker den automatiskt på synonymer?
viktas termerna? accepteras felstavningar? att söka på annat än text-
filer (bilder, ljud, animationer, applikationer mm)
diskussionsgrupper, mailinglist-arkiv mm
finns möjlighet att filtrera träffarna?
18/09/00
Sökmaskiner (4)
TRÄFFLISTA: Hur många träffar visas? Går det att påverka? Hur mycket och hur relevant information får man om de
olika träffarna? Går typen av information att påverka? ”more like this” Kan man få se endast 1 träff/server? Kan denna funktion
stängas av? Träffkvalitet (precision)
Hjälpsidor - är de informativa och lätta att förstå? Finns all information man behöver?
18/09/00
Specifikt för kataloger… (1)OLIKA TYPER: universella (t ex Yahoo!, LookSmart, Magellan,
BUBL Link) ämnesinriktade (t ex de svenska
ansvarsbibliotekens Samweb, Humweb etc, SOSIG, ARGOS, NOVA Gate, Svenska miljönätet - se lista över ”Subject Based Information Gateways” http://www.lub.lu.se/desire/sbigs.html
nationella / internationella särskild målgrupp (forskare, barn…)
18/09/00
Kataloger (2) Hur är katalogen organiserad?
eget klassifikationssystem? Fungerar det? etablerat system? Är det ett system du känner till?
Hur många hierarkiska nivåer finns? Är de uttömmande eller är strukturen för grund?
Antal kategoriserade resurser Hur har dessa samlats in? Vilka kvalitetskriterier / urvalsprinciper tillämpas? Hur noggrant är resurserna katalogiserade?
Manuellt utvunna metadata som förbättrar sökresultat och träfflisteinfo?
Hur kan man söka i katalogens databas? (jmf sökmaskiner)
Kan man söka mha kontrollerad vokabulär från ämnesords-lista (SAB, MESH, LCSH)?
18/09/00
Tips...
Bakgrundsinfo och jämförelser mellan olika söktjänster finns bl a på:
SearchEngineWatchhttp://www.searchenginewatch.com/har även gratis nyhetsbrev man kan prenumerera på
Search Engine Showdown http://searchengineshowdown.com/har bl a aktuell statistik
18/09/00
Hitta de söktjänster som passar dig
Testa nya tjänster någon gång då och då -
utvecklingen sker snabbt!Ge inte upp! Testa en annan söktjänst om du inte får träff
i den första.
Välj ut några söktjänster som du lär dig ordentligt
Några hurtfriska råd på vägen...
Lycka till!