44
18/09/00 VAD FINNS GÖMT BAKOM DET VI SER PÅ WEBBSIDAN? Materialet finns tillgängligt på URL http://www.adm.hb.se/personal/hfr/tls/ Helena Francke, 18/09/00 <BODY> <H1>This Is Where We Came In</H1> <H2>Alan Ayck- bourn</H2><P CLASS="act">I </P>

V AD FINNS GÖMT BAKOM DET VI SER PÅ WEBBSIDAN?

  • Upload
    kellan

  • View
    32

  • Download
    0

Embed Size (px)

DESCRIPTION

V AD FINNS GÖMT BAKOM DET VI SER PÅ WEBBSIDAN?. This Is Where We Came In Alan Ayck-bournI . Materialet finns tillgängligt på URL http://www.adm.hb.se/personal/hfr/tls/ Helena Francke, 18/09/00. Innehåll… f.m. - PowerPoint PPT Presentation

Citation preview

Page 1: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

VAD FINNS GÖMT BAKOM

DET VI SER PÅ WEBBSIDAN?

Materialet finns tillgängligt på URLhttp://www.adm.hb.se/personal/hfr/tls/Helena Francke, 18/09/00

<BODY><H1>This Is Where We Came In</H1><H2>Alan Ayck-bourn</H2><P CLASS="act">I</P>

Page 2: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Innehåll… f.m

Olika format / kodning(PDF, HTML, XML)

Validering Metadata

HTMLDublin CorePICSRDF

Page 3: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Filformat

Plattformsoberoende

html jpegpdf wavgif m fl

Proprietära

doc aippt pctcdr

Page 4: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Filformatet kan ha betydelse för kvalitén..

hur tolkar webbläsare / program filen?

portabilitet bevarandeaspekten manipulation (kan vara av godo) /

adaption

Page 5: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Skilda principer för textbeskrivning

Textens stukturella uppbyggnad

HTML

Textens semantiska betydelse (descriptive markup)

SGML, XML

Textens visuella representation

PDF

Text används här i en vidbemärkelse

Page 6: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Exempel på uppmärkning

Ur Alan Ayckbourns This Is Where We Came In:

<character>Uncle O</character > <line>[…] And the princess, as soon as she saw the young prince, fell immediately in love with him…</line>

< character >Nell</ character> <instruction>(falling immediately in love)</instruction>

<line>Oh!</line>

Page 7: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Exempel på visuell kodningUr Alan Ayckbourns This Is Where We

Came In:

Uncle O […] And the princess, as soon as she saw the young prince, fell immediately in love with him…

Nell (falling immediately in love) Oh!

Page 8: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Page 9: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

HTML

märkord (taggar) som märker upp strukturen

märker upp ren text (ASCII) webbläsaren omvandlar koderna till

presentationsinstruktioneralt. har man möjlighet att specificera layout-instruktioner - i html-koden eller separat (i t ex en stilmall [css, xsl])

bygger på SGML

Page 10: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Descriptive Markup

kodar efter innehåll likväl som struktur

SGML/XML W3C (World Wide Web Consortium) utifrån SGML + XML skapar man nya

uppmärkningsspråk som beskrivs i en DTD (Document Type Definition)

Page 11: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

UPPMÄRKNINGSSPRÅK(Markup Languages)

SGML(Standard Generalized Markup Language)

XML(eXtensible Markup Language)

HTML

TEI MathML

RDF

m fl

Page 12: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

"Extensible Markup Language (XML for short) is a new language designed to […] make information self-describing. This simple-sounding change in how computers communicate has the potential to extend the Internet beyond information delivery to many other kinds of human activity. Indeed, since XML was completed in early 1998 by the World Wide Web Consortium […] the standard has spread like wildfire though science and into industries ranging from manufacturing to medicine.”

Jon Bosak and Tim Bray (1999), "XML and the Second-Generation Web” // Scientific American

Page 13: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Val av format Portabilitet Manipulation Sökbarhet Utprodukt Navigering

(XLink, XPointer) Belastning på

nät / servrar

Vilken version är det?

DOCTYPE-deklarationen

Följer koden i html-/ xml-filen W3C:s rekommendationer?

http://validator.w3.org

Validering

Page 14: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Vad är metadata?

data om data, eller (strukturerad) information om olika

resurser eller objekt, eller uppgifter som möjliggör för oss att

identifiera, lokalisera och organisera (digitala) resurser i lokala eller distribuerade samlingar

Meta- (fr. grekiska): med, emellan, efter...

Page 15: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Uniform Resource Locator (URL)

http://www.lub.lu.se/desire/sbigs.html

protokoll toppdomän

katalog (mapp)

filextensi

on

(HyperText Transfer Protocol)

domän

Page 16: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Identifikatorer URL - Uniform Resource Locator

http://www.w3.org URI - Uniform Resource Identifier URN - Uniform Resource Name

URN:NBN:se-d199811234 PURL - Persistent URL

http://purl.oclc.org/OCLC/PURL/FAQ DOI - Digital Object Identifier

10.1002/[ISBN]91-973090-6-0

Page 17: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Dold metadata

exempelvis titeln på en bok, en MARC-post, materialinformationen i skor etc

kan finnas i/på objektet (skoexemplet) eller separat från detta (MARC-posten)

HTML, Dublin Core, PICS, RDF används för att förbättra SÖKNING,

LOKALISERING och SELEKTION

Page 18: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

HTML-meta

<title> (skilj mellan titel och rubrik!) - det enda obligatoriska metadata-elementet i html

<meta> ofta använt för att ange ämnesord och sammanfattning

<meta http-equiv=”charset” content=”iso-8859-1”>

Page 19: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Dublin Core Metadata

Element Set Grunden lades vid ett möte i Dublin Ohio 1995 DC är väl lämpat att beskriva dokument och

dokument-liknande objekt Målet var att skapa ett system

som gör metadata enkelt att skapa och hålla aktuellt som är internationellt gångbart som är töjbart

En av begränsningarna med DC idag är att man inte anger någon typ av inmatningsregler - jmf KRS

Page 20: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Unqualified DC (1.1) 15 olika fält:

INNEHÅLL:

DC.Title, DC.Subject, DC.Description, DC.Source, DC.Language, DC.Relation, DC.Coverage

UPPHOV:DC.Creator, DC.Publisher, DC.Contributor, DC.Rights

IDENTIFIKATION, TID OCH TEKNIK:DC.Date, DC.Type, DC.Format, DC.Identifier

Inget fält är obligatorisktAlla fält kan upprepas vid behov

Page 21: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Qualified DC TYPBETECKNINGAR

Precisering av en kategori under rubriken och/eller en tillfogad uppgift med särskild innebörd.<meta name=”DC.Creator.PersonalName.Email” content=”[email protected]”>

SCHEME-TILLÄGGPrecisering av en standard eller praxis som styr utformningen av fältets innehåll.<meta name=”DC.Subject” scheme=”SAB” content=”Do”>

efter Sten Hedberg (1999), ”Dublin Core i Sverige - en minsta gemensam nämnare eller…?” // Human IT nr 4/99

Page 22: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

DC forts. Hur tillämpas DC idag?

- i ett stort antal projekt världen över som ofta är initierade från bibliotekshåll och inom söktjänster som inriktar sig på resurser inom en viss disciplin- i Sverige: Svesök, SAFARI, Svenska miljönätet (Nordic Web Index)

DC-formulär skapat av NetLab vid Lunds UB finns på: http://www.lub.lu.se/cgi-bin/nmdc.pl

DC har än så länge dåligt stöd i de kommersiella söktjänsterna

Page 23: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

PICS - Platform for Internet Content Selection Utvecklades ursprungligen under influens av den

diskussion som förts i USA kring the Telecommunications Decency Act

Utvecklades av W3C -rekommendationerna kom 1996 Metod eller infrastruktur, inte i sig ett system för

klassificering/värdering Olika system/vokabulärer för värdering skapas av

organisationer eller individer Du instruerar sedan webbläsaren att kontrollera

informationen i dokumentet eller en databas (i IE 5.0 under Verktyg Internet-alternativ Innehåll)

Kan användas till annat än att värdera sex, våld och språk...

Page 24: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

”label list” för två dokument(PICS-1.1 "http://www.gcf.org/v2.5" by "John Doe" labels on "1994.11.05T08:15-0500" until "1995.12.31T23:59-0000" for "http://w3.org/PICS/Overview.html" ratings (suds 0.5 density 0 color/hue 1) for "http://w3.org/PICS/Underview.html" by "Jane Doe" ratings (subject 2 density 1 color/hue 1))

från ”PICS Label Distribution Label Syntax and Communication Protocols”

http://www.w3.org/TR/REC-PICS-labels

Page 25: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Resource Description Framework

RDF Används för att ”samla ihop” metadata (t ex DC och PICS) i ett elektroniskt dokument

W3C-rekommendation i feb/mars 1999 RDF är ett XML-språk En RDF-sats innehåller tre delar:

en resurs (en URI)en egenskap (t ex ”författare”, ”titel”)ett värde (t ex ”Astrid Lindgren”)

Page 26: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

RDF-exempel

<?xml version=”1.0”?>

<RDF xmlns=”http://www.w3.org/1999/02/22-rdf-syntaxns#” xmlns:DC=”http://purl.org/metadata/dublin_core/” xmlns:DS=”http://www.w3.org/Schemas/DS-Schema/”>

<Description about=”http://www.tls.se/forel.htm” bagID=”Statement_001”> <DC:Creator>Klara Karlsson</DC:Creator></Description><Description about=”#Statement_001”> <DS:CreatedOn>2000-09-18T14:00z</DS:CreatedOn> <DS:CreatedBy>Bengt Bengtsson</DS:CreatedBy></Description>

</RDF>

Page 27: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

ATT HITTA INFORMATIONEN...

KRITISK BEDÖMNING AV SÖKVERKTYG

Page 28: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Innehåll… e.m

Olika typer av sökverktyg - hur fungerar det?

Sökstrategier Jämförelse av sökverktyg

Page 29: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Sökverktyg på webben

Sökmaskiner (t ex AltaVista, Excite, Google)

Ämnes- eller länkkataloger (t ex Yahoo!, Svesök, BUBL link)

Metaindex (t ex MetaCrawler, Mamma) Klientbaserade metaindex (t ex

Copernic) Intelligenta agenter

Page 30: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Sökmaskiner

samlar in information på maskinell väg

en robotdepth-firstbreadth-first

ett index inverterade filer

en databasmotor

A

URL:er

Z

A

URL:er

Z

robot

depth-first breadth-first

hämta + lämna URL:er

hämta URL:er

lämna URL:er

Page 31: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Kataloger hierarkiskt organiserade ämnesuppställda kataloger

över länkar som går till andra webbresurser sammanställs av människor bygger på någon typ av klassifikationssytem - kan

vara ett etablerat (t ex SAB, Dewey) eller egenproducerat (Yahoo!, SUNET:s katalog)”Three possible strategic responses [to the reduction of intellectual and physical barriers brought about by the rise of multidisciplinarity and by the influence of computerization] are described: 1) adopting an existing system; 2) adapting an existing system; and 3) finding new structural principles for classification systems.” Clare Beghtol 1998, s 89

länkarna kvalitetsbedömda?

Page 32: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Andra varianter

Hybrider (katalog + sökmotor) (trend: portaler) Metaindex (söker i flera

söktjänsters index samtidigt) Klientbaserade metaindex Intelligenta agenter

Page 33: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Sökstrategier 1

SÖKMASKINER

objekt med signifikant namn - ”Bill Clinton”, ”IFLA” person/organisation/företag/märke/geografisk plats

väl avgränsat område med karaktäristiskt namn - ”XML”

”litet” område med väl definierad terminologi - ”mimesis”

område som är svårt att placera in i en hierarki (t ex multidisciplinära) - ”malört”

det är alltid en avvägning (jmf Massachusetts Institute of Technology/MIT)

Page 34: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Sökstrategier 2 KATALOGER

överblick över vad som finns inom ett område om man är osäker på lämpliga söktermer, t ex

söker inom ett obekant område (måste dock kunna identifiera lämplig kategori)

kvalitetsgranskade resurser (ibland) resurser till en viss målgrupp - t ex barn

(Länkskafferiet, SAFARI har möjlighet att avgränsa efter målgrupp)

fler termer ger bättre precision än få - begränsa sökningen genom att lägga till termer, utvidga den genom att ta bort termer

Page 35: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Att jämföra sökverktyg

precision =antal hittade relevanta dokumenttotala antalet hittade dokument

recall =antal hittade relevanta dokument

antal relevanta dokument i databasen

Page 36: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Sökmaskiner (1)

OMFÅNG: Storlek - hur många webbsidor / filer

indexeras? (Google 560 miljoner webbsidor juli 2000)

Hur stor del av filen indexeras? (fulltext?) Geografisk avgränsning? int/sv/landsspecifik? Språk - i gränssnittet och i tillåtna söktermer

GRÄNSSNITT: Effektivt eller plottrigt? Reklam? Andra

tjänster?

Page 37: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Page 38: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Sökmaskiner (2)PRODUCENT: Vem står bakom tjänsten? kommersiell / ideell? Kostnad?Teknik: Efter vilka principer arbetar roboten? Hur ofta besöks varje webbsida? Hur ofta uppdateras

indexet? Finns materialet cachat? Om tjänsten inte har eget index - från vem köper de tjänsten? Strategier för att matcha fråga - dokument. Hur värderas/rankas/viktas söktermerna? Premieras

uppgifter i metadata? Sökhastighet? Finns någon kvalitetsgranskning / krav? (innehåll eller

teknik?)

Page 39: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Sökmaskiner (3)SÖKNING:

enkel och avancerad sökning + - ”” Boolesk logik vad är

standardinställningen? t ex OR, AND - går det att få reda på

trunkering, maskering närhetsoperatorer naturligt språk (kan du t ex

formulera din sökning som en vanlig fråga? AltaVista, Ask Jeeves)

case sensitivity

avgränsningar (datum, format, språk, geografisk tillhörighet)

går det att ange var i filen du vill utföra sökningen? (titel, URL, länkar…)

söker den automatiskt på synonymer?

viktas termerna? accepteras felstavningar? att söka på annat än text-

filer (bilder, ljud, animationer, applikationer mm)

diskussionsgrupper, mailinglist-arkiv mm

finns möjlighet att filtrera träffarna?

Page 40: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Sökmaskiner (4)

TRÄFFLISTA: Hur många träffar visas? Går det att påverka? Hur mycket och hur relevant information får man om de

olika träffarna? Går typen av information att påverka? ”more like this” Kan man få se endast 1 träff/server? Kan denna funktion

stängas av? Träffkvalitet (precision)

Hjälpsidor - är de informativa och lätta att förstå? Finns all information man behöver?

Page 41: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Specifikt för kataloger… (1)OLIKA TYPER: universella (t ex Yahoo!, LookSmart, Magellan,

BUBL Link) ämnesinriktade (t ex de svenska

ansvarsbibliotekens Samweb, Humweb etc, SOSIG, ARGOS, NOVA Gate, Svenska miljönätet - se lista över ”Subject Based Information Gateways” http://www.lub.lu.se/desire/sbigs.html

nationella / internationella särskild målgrupp (forskare, barn…)

Page 42: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Kataloger (2) Hur är katalogen organiserad?

eget klassifikationssystem? Fungerar det? etablerat system? Är det ett system du känner till?

Hur många hierarkiska nivåer finns? Är de uttömmande eller är strukturen för grund?

Antal kategoriserade resurser Hur har dessa samlats in? Vilka kvalitetskriterier / urvalsprinciper tillämpas? Hur noggrant är resurserna katalogiserade?

Manuellt utvunna metadata som förbättrar sökresultat och träfflisteinfo?

Hur kan man söka i katalogens databas? (jmf sökmaskiner)

Kan man söka mha kontrollerad vokabulär från ämnesords-lista (SAB, MESH, LCSH)?

Page 43: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Tips...

Bakgrundsinfo och jämförelser mellan olika söktjänster finns bl a på:

SearchEngineWatchhttp://www.searchenginewatch.com/har även gratis nyhetsbrev man kan prenumerera på

Search Engine Showdown http://searchengineshowdown.com/har bl a aktuell statistik

Page 44: V AD FINNS GÖMT BAKOM DET VI SER PÅ  WEBBSIDAN?

18/09/00

Hitta de söktjänster som passar dig

Testa nya tjänster någon gång då och då -

utvecklingen sker snabbt!Ge inte upp! Testa en annan söktjänst om du inte får träff

i den första.

Välj ut några söktjänster som du lär dig ordentligt

Några hurtfriska råd på vägen...

Lycka till!