Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
CibermetríaIntroducción teórico-práctica a una
disciplina emergente
Isidro F. AguilloVersion 0.81 (Febrero 2003)
Presentación: Isidro F. Aguillo
�� Puesto actual� Laboratorio de Internet. Centro Nacional de Información y
Documentación Científica (CINDOC). Consejo Superior de Investigaciones Científicas (CSIC)
� BIRG (Bibliometric + Informetric Research Group). University of New South Wales.
�� Formación� Licenciado CC. Biológicas (UCM)� Master en Información y Documentación (UC3M)
�� Líneas de trabajo y otros datos� Proyectos nacionales: TECNOCIENCIA (portal de I+D),
ICYTnet (Bibliotecas Virtuales), Ciencia e Internet (Análisis, descripción y evaluación)
� Proyectos europeos: WISER (cibermetría), EICSTES (indicadores I+D), PEKING (gestión del conocimiento), SALUT (anorexia y bulimia), IMPACT-INFO2000 (sociedad de la información)
� Revistas: Editor “Cybermetrics”; Comité asesor “El Profesional de la Información”
� Sociedades: Junta Directiva SEDIC. Director Sector Información ASEDIE
� Premio IWE 1996 Personalidad del año
Agenda
� Definición y objeto de la cibermetría� Cibermetría descriptiva
� El tamaño de Internet� Infraestructuras: Ordenadores, servidores y dominios� Cibergeografía, Ciberdemografía
� Webespacio� El problema de los gTLD
– Traductores de IP� El Webespacio académico� Ficheros ricos y ficheros media� Idiomas en la red� Internet invisible
Agenda (II)
� Métodos, herramientas y aplicaciones (I)� Captura directa: Agentes personales
� Volcadores, inspectores de enlaces y mapeadores� Métodos indirectos
� Motores de búsqueda: - Características y problemática� Multibuscadores
� Cibermetría de los motores de búsqueda� Tamaño y solapamiento� Composición y estructura� Calidad, actualización y cobertura
� Recuperación automática inteligente� Cibercienciometría
� Desarrollo de indicadores de I+D en el Web� Análisis de enlaces hipertextuales (sitas) y Factor de Impacto Web� Co-sitación, redes sociales y teoría del “small world”� Bibliometría de revistas electrónicas y depósitos de documentos
Agenda (III)
� Métodos, herramientas y aplicaciones (II)� Evaluación cuantitativa de sedes Web
� El modelo Google (PageRank)� Calidad de los enlaces, visibilidad e impacto
� Webmetría� Análisis de las visitas a sedes Web (Web usage Mining)
� Informetría� Web data mining� Leyes informetricas
– Ley de Lotka (Zipf)
� Cibermetría es la disciplina dedicada a la descripción cuantitativa de los contenidos y procesos de comunicación que se producen en el ciberespacio� Ciberespacio es el conjunto de contenidos accesibles
en formato electrónico. La condición de accesibilidad universal de Internet aconseja utilizar el termino como sinónimo de la Internet de los contenidos, fundamentalmente pero no exclusivamente, el webespacio
� Puesto que la Cibercienciometría es el sub-campo más desarrollado, por razones prácticas se nombra con el término más general de Cibermetría o el más específico de Webometría
Definición
informetríabibliometría cienciometría
webometríacibermetría
Adaptado de Björneborn
Cibercienciometría
Disciplinas cuantitativas
WEB INVISIBLE
INTERNET FÍSICA
INFRANET DATOS SOBRE EL USO INTRANET
TOPOLOGÍA, TRAFICO, DEMOGRAFÍA, GEOGRAFÍA
OTROS NO INTERNET
INTERNET
CIBERSPACIO (Contenidos en formato electrónico)
CONTENIDOSINTERNET PÚBLICA
EMAIL, FOROS, USENET NEWS
WEBSPACEWEB VISIBLE
INTERNET INVISIBLE
Contenidos
Unidades
*com, *net, *org*biz, *name, *aero*uk, *ar*es, *fr
ctlsD*ac.uk, *edu.ar*edu*csic.es*rediris.es
Subdominio *cindoc.csic.eswww.csic.es, icytnet.cindoc.csic.eswww.cindoc.csic.es/cybermetrics*.html*.pdf, *.doc, *.pswww.cindoc.csic.es*www.cindoc.csic.es/cybermetrics*Sede anidada
Documento
DOMINIOFÍSICO
DOMINIOLÓGICO Sede
ctlDDominio
SitioDirectorio
gtlD
Institucional
TAMAÑOCatálogos de bibliotecas 40,000
webOPACOtras bases de datos bibliográficasObras de referencia: Enciclopedias, diccionariosEstadisticas y datos numéricosBases de datos de texto completo
~22%Ficheros ricos (pdf, ps, ppt..)Ficheros mediaPalabras de accesoDepósitos de documentos y revistas electrónicas
Páginas dinámicas
ASP, PHP 100+ millones
2 - 50 veces mayor que la web visible
500,000 bases de
datos
1.000 millones>15.000 revistas
electrónicas
WEB INVISIBLE Ficheros no
textoPasarelas
Páginas huerfanas
INTERNET INVISIBLE INFRANET Bases de datos
Bibliograficas
Bases de datos Alfanuméricas
� La presencia en el Web refleja mas y mejor las actividades de lainstitución o individuo que las publicaciones tradicionales en papel� En el entorno académico, profesores, investigadores y estudiantes
colocan en la Red material inédito, borradores de trabajos, versiones preliminares de artículos, material para cursos, transparencias para presentaciones o bases de datos
� El Web alcanza una mayor audiencia que otros medios tradicionales de comunicación científica. � Las revistas científicas tienen una distribución restringida
� La naturaleza hipertextual del Web ofrece la posibilidad de descubrir patrones ocultos entre las diferentes sedes� Las sedes académicas a menudo enlazan con otras sedes con las que
tienen relaciones de carácter económico, industrial, cultural, político o social.
Ventajas métricas
Cibergeografía, ciberdemografía
� Datos y fuentes� Internet Geography Project www.zooknic.com� Cybergeography www.cybergeography.org� Nua Surveys www.nua.ie/surveys
� Herramientas� Encuestas
� Portal AUI www.aui.es
� Visualización� Mapas (geográficos)
� Matrix www.mids.org� Mapas conceptuales
� Map.net maps.map.net
Ciberdem
ografía
% W
orld Population Using Internet
0 2 4 6 8 10 12
Dec-95
Apr-96
Aug-96
Dec-96
Apr-97
Aug-97
Dec-97
Apr-98
Aug-98
Dec-98
Apr-99
Aug-99
Dec-99
Apr-00
Aug-00
Dec-00
Apr-01
Aug-01
Dec-01
Apr-02
ww
w.nua.ie/surveys
Ciberdemografía
Worldwide Numbers with Internet Access (millions)(Source: www.nua.ie/surveys and projection)
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
Dec-95 Dec-96 Dec-97 Dec-98 Dec-99 Dec-00 Dec-01 Dec-02 Dec-03 Dec-04 Dec-05
[projection based on extrapolating Sep99-Sep00 growth]
Cibergeografía
NUA Surveys
Encuestas (Portal AUI)
Mapas (geográficos)
Map Net
Tamaño de Internet
� Infraestructuras: Ordenadores, servidores y dominios� Hosts
� Lottor (Mundo) www.isc.org/ds� RIPE (Europa) www.ripe.net� Asia Web Watchwww.ciolek.com/Asia-Web-Watch/main-
page.html� Servidores
� Netcraft www.netcraft.com� Dominios
� Mundo www.countrynics.com� España www.nic.es� Estudios www.zooknic.com
� Experimentos� Capturando Tablas con Excel� Servidores en universidades iberoamericanas
Evolución de Internet (Lottor)
Lottor y Excel
Netcraft
Zooknic
Contenidos en el Web
� Webespacio� Spireproject 10.000 millones (páginas
10/02)spireproject.com/art13.htm
� Depósitos� Archive www.archive.org� Google Cache www.google.com
� Tráfico� El 80% de las sesiones de navegación en el Web
implican el uso de un motor de búsqueda o un directorio. Yahoo y, muy especialmente, Google son los más importantes intermediarios
Wayback Machine
El problema de los gTLD
� gTLD� Tradicionales: com, org, net, int (eu.int)� Nuevos: biz, info, name, aero, coop, museum� De facto: cx, tv, cc� Casos especiales: edu
� Experimentos� Euroseek (API Google) www.euroseek.com
� Delimitador site: Problemática� Dominios y países� Dominios internacionales
� Traductores de IP� IP Locator 1.2
www.searchutilities.com/ipl
Fuente: FAST (July 2002)
Puesto Webpaginas Puesto Webpaginas Puesto Webpaginas Puesto Webpaginas1 com 967.574.482 4 de 107.598.200 5 jp 80.316.887 9 br 32.767.1852 org 146.541.333 6 uk 62.032.688 10 kr 31.872.332 15 ca 22.173.9753 net 110.579.260 8 ru 40.508.956 14 au 22.266.917 34 za 4.253.2777 edu 49.484.142 11 nl 28.234.303 20 cn 13.299.971 35 ar 4.124.63822 to 12.451.808 12 it 27.995.250 26 tw 10.028.508 40 mx 2.797.37423 us 12.075.616 13 pl 22.509.107 30 nz 6.269.705 48 cl 1.745.43725 gov 11.355.141 16 ch 18.042.328 42 il 2.565.176 67 co 679.32833 nu 4.439.622 17 cz 17.730.451 43 tr 2.490.870 73 pe 419.55144 cc 2.200.656 18 fr 17.539.647 46 hk 2.167.075 74 ve 410.63250 mil 1.658.373 19 dk 14.957.171 49 sg 1.699.074 78 uy 336.28453 vu 1.463.476 21 se 12.700.865 51 my 1.568.214 84 cr 239.20254 tv 1.386.958 24 at 11.361.273 56 th 1.323.563 90 cu 147.00755 info 1.363.623 27 no 8.471.288 65 id 749.371 94 ma 132.10362 ws 895.649 28 fi 7.244.978 69 in 564.260 97 ec 121.43366 int 693.996 29 es 6.346.719 70 ph 548.936 100 eg 111.090
TAMAÑO DEL WEBESPACIOgTLD + US Europa Asia-Australasia America/Africa
Euroseek (API Google)
Intranet
Fuente: Euroseek, Julio 2002
TLD .com
REST WORLD65%
FR5%
DE4%
OTHER EU3%
UK9% IT
4%ES4%
SE3%
NL3%
TLD .int
FR6%
ES4%
UK2%
OTHER EU3%
LU32%
BE17%DE
5%
IT5%
REST WORLD26%
TLD .org
DE6%
IT5%
REST WORLD56%
OTHER EU8%
NL4%ES3%AT
2%
UK9%
FR7%
TLD .net
UK9%
DE5%
FR4%
IT4%
NL4%
ES3%
FI3%
OTHER EU7%
REST WORLD61%
Contribution of EU gTLD
OTHER EU4%
UK8%
FR5%
SE2%
ES3%
NO2%
FI1%
BE1%
DE4% IT
4% NL3%
REST WORLD63%
IP Locator
El Webespacio académico
� Sedes� Dominios institucionales
� OCLC Web Characterizacion wcp.oclc.org� Sitios y Sedes
� Webespacio académico� Subdominios académicos� Directorios de universidades y centros de investigación
� Braintrack www.braintrack.com� Universities Worldwide geowww.uibk.ac.at/univ� Galilei www.galilei.com.ar� HEIR siu.no/heir� Portal Tecnociencia www.tecnociencia.es� Universia www.universia.es
Subdominios académicos
ac.ae ac.in ac.rw edu.am edu.cn edu.hk edu.mm edu.pk edu.uaac.at ac.ir ac.se edu.ar edu.co edu.hn edu.mn edu.pl edu.uyac.bd ac.je ac.sg edu.au edu.cu edu.hu edu.mo edu.pr edu.veac.be ac.jp ac.sz edu.az edu.dm edu.jm edu.mp edu.pt edu.vgac.bw ac.ke ac.th edu.ba edu.do edu.jo edu.mt edu.py edu.vnac.by ac.kr ac.tz edu.bb edu.dz edu.kg edu.mx edu.qa edu.wsac.ci ac.lk ac.ug edu.bh edu.ec edu.kh edu.my edu.ru edu.yeac.cn ac.lv ac.uk edu.bm edu.ee edu.kn edu.na edu.sa edu.yuac.cr ac.ma ac.uz edu.bn edu.eg edu.kw edu.nf edu.sg edu.zaac.cy ac.mu ac.vn edu.bo edu.gd edu.ky edu.ng edu.sh edu.zmac.fj ac.mz ac.yu edu.br edu.ge edu.kz edu.ni edu.stac.gg ac.nz ac.za edu.bs edu.gh edu.lb edu.np edu.svac.gs ac.pa ac.zm edu.bt edu.gr edu.lc edu.om edu.toac.id ac.pg ac.zw edu.by edu.gs edu.li edu.pa edu.trac.il ac.pl acad.bg edu.bz edu.gt edu.lv edu.pe edu.ttac.im ac.ru edu.al edu.ck edu.gu edu.mk edu.ph edu.tw
Proporción de recursos académicos
119.0 00 1.561.000
354 .000 3 .9 06 .000
121.000 999 .00 0
2 .410 .000 14 .690 .000
148 .00 0 706 .000
164 .0 00 6 95.000
906 .0 00 3 .714 .000
613 .0 00 2 .4 97.000
2 .13 0 .000 7.470 .00 0
43 1.000 1.399 .0 00
1.410 .00 0 3 .59 0 .000
275.00 0 658 .000
3 12 .000 506 .000
354 .00 0 527.000
260 .0 00 358 .000
1.660 .000 2 .130 .00 0
0% 20% 40% 60% 80% 100%
N e w Ze a la nd
P o la nd
A rg e nt ina
J a pa n
S ing a po re
S o uth A fric a
Ko re a
A us tria
Unite d King do m
B e lg ium
A us tra lia
Ho ng Ko ng
Is ra e l
Turke y
Tha ila nd
Ta iwa n
academicnon academic
Euroseek, Julio 2002
Ficheros ricos y ficheros media
� Ficheros ricos� Definición y tipos
� Adobe Acrobat y Postcript� MS Office: Word (doc, rtf), Excel (xls), Powerpoint (ppt)
� Tamaño: Practicas con Google, FAST y Altavista� Métodos directos (pdf)� Métodos indirectos (delimitadores)
� Ficheros media� Definición y tipos
� FilExt www.filext.com� Localización en motores
� Términos (FAST)� Delimitadores (Altavista, Inktomi)� Bases de datos autónomas (Google)
Google (filetype)
Google (filetype)
Extensiones 11-nov-01 24-may-02 01-oct-02 Extensiones 11-nov-01 24-may-02 01-oct-02html, htm 63.600.000 98.800.000 120.700.000 ps 523.000 635.000 665.000asp, aspx, dsp, jsp 12.120.000 23.900.000 31.156.700 py 662.000php, php3, php4 8.524.000 17.964.000 24.602.000 xls 297.000 443.000 506.000shtm, shtml 4.328.000 7.419.000 8.502.000 ppt 257.000 419.000 442.000cgi 4.350.000 7.500.000 8.060.000 stm 290.000 479.000 440.000pdf 3.990.000 6.310.000 7.410.000 rtf 225.000 336.000 341.000cfm 2.950.000 5.340.000 6.730.000 class, jar 319.500
bmp, gif, jpg, png 9.070 19.610 163.000
zip, gz, bz2 162.800txt, text, csv 1.650.000 2.700.000 3.067.200 gsp 214.000 154.000swf 2.520.000 wml 133.000phtml, phtm 2.180.400 rdf 83.200 175.000 125.000doc 1.160.000 1.820.000 2.140.000 htx 124.000jhtml, jhtm 247.026 493.650 1.085.500 fcgi 103.000xml, xhtml, xsl, dtd 282.400 644.600 742.300 dwg 102.000exe 287.000 393.000 693.000 lasso 101.000
Composición y evolución de los tipos de fichero según Google
c, cc, cpp, cxx,
inc, java, pas, pl,
sh, tcl, bat
1.480.000 2.380.000 4.765.600
Ficheros ricos en ciertos dominios
0% 20% 40% 60% 80% 100%
GER M A N Y
J A P A N
UN ITED KIN GD OM
R US S IA
ITA LY
N ETHER LA N D S
F R A N C E
C A N A D A
C HIN A
A US TR A LIA
KOR EA
P OLA N D
C ZEC HIA
TA IWA N
S WED EN
D EN M A R K
S WITZER LA N D
B R A ZIL
N OR WA Y
A US TR IA
S P A IN
WOR LD
rtfpptxlspsdocpdf
Euroseek, July 2002
Ficheros ricos en dominios académicos
0,00%
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
70,00%
80,00%
90,00%
100,00%ac
.nzed
u.pled
u.ar ac.jp
edu.sg
ac.za ac.kr
ac.at
ac.uk
ac.be
edu.au
edu.hkac
.iled
u.trac
.thed
u.tw
pdfpspptdocrich filesall
Euroseek, Julio 2002
FilExt
Imágenes en Google
Media en Inktomi (MSN Search)
Idiomas en la red
� Fuentes y estudios� Usuarios según idioma
� Global Reach global-reach.biz/globstats/index.php3
� Composición del webespacio� Experimentos con buscadores
� Google� FAST� Altavista� Inktomi (Hotbot/MSN Search)� Copernic
Idiomas en la red
Idiomas utilizados para acceder a GoogleMarch 2001 - October 2002
www.google.com/press/zeitgeist.html
Idiomas en Google
Idiomas (Google)
Language
<lr> value
Language
Idioma Código Idioma CódigoArabic lang_ar Icelandic lang_isChinese (S) lang_zh-CN Italian lang_itChinese (T) lang_zh-TW Japanese lang_jaCzech lang_cs Korean lang_koDanish lang_da Latvian lang_lvDutch lang_nl Lithuanian lang_ltEnglish lang_en Norwegian lang_noEstonian lang_et Portuguese lang_ptFinnish lang_fi Polish lang_plFrench lang_fr Romanian lang_roGerman lang_de Russian lang_ruGreek lang_el Spanish lang_esHebrew lang_iw Swedish lang_svHungarian lang_hu Turkish lang_tr
Países (Google)
Language
Language
Andorra AD Bhutan BT Estonia EE Guinea-Bissau GW Kazakhstan KZUnited Arab Emirates AE Bouvet Island BV Egypt EG Guyana GY Lao PDR LAAfghanistan AF Botswana BW Western Sahara EH Hong Kong HK Lebanon LBAntigua and Barbuda AG Belarus BY Eritrea ER Heard and Mc Donald Islands HM Saint Lucia LCAnguilla AI Belize BZ Spain ES Honduras HN Liechtenstein LIAlbania AL Canada CA Ethiopia ET Croatia (Hrvatska) HR Sri Lanka LKArmenia AM Cocos (Keeling) Islands CC European Union EU Haiti HT Liberia LRNetherlands Antilles AN Congo, DR CD Finland FI Hungary HU Lesotho LSAngola AO Central African Republic CF Fiji FJ Indonesia ID Lithuania LTAntarctica AQ Congo CG Falkland Islands (Malvinas) FK Ireland IE Luxembourg LUArgentina AR Switzerland CH Micronesia, FS FM Israel IL Latvia LVAmerican Samoa AS Cote D'ivoire CI Faroe Islands FO India IN Libya LYAustria AT Cook Islands CK France FR British Indian Ocean Terr. IO Morocco MAAustralia AU Chile CL France, Metropolitan FX Iraq IQ Monaco MCAruba AW Cameroon CM Gabon GA Iran IR Moldova MDAzerbaijan AZ China CN United Kingdom UK Iceland IS Madagascar MGBosnia and Herzegowina BA Colombia CO Grenada GD Italy IT Marshall Islands MHBarbados BB Costa Rica CR Georgia GE Jamaica JM Macedonia, FYR MKBangladesh BD Cuba CU French Quiana GF Jordan JO Mali MLBelgium BE Cape Verde CV Ghana GH Japan JP Myanmar MMBurkina Faso BF Christmas Island CX Gibraltar GI Kenya KE Mongolia MNBulgaria BG Cyprus CY Greenland GL Kyrgyzstan KG Macau MOBahrain BH Czech Republic CZ Gambia GM Cambodia KH Northern Mariana Islands MPBurundi BI Germany DE Guinea GN Kiribati KI Martinique MQBenin BJ Djibouti DJ Guadeloupe GP Comoros KM Mauritania MRBermuda BM Denmark DK Equatorial Guinea GQ Saint Kitts and Nevis KN Montserrat MSBrunei Darussalam BN Dominica DM Greece GR Korea, DPR KP Malta MTBolivia BO Dominican Republic DO South Georgia/South Sandwich I. GS Korea, Republic of KR Mauritius MUBrazil BR Algeria DZ Guatemala GT Kuwait KW Maldives MVBahamas BS Ecuador EC Guam GU Cayman Islands KY Malawi MW
Países II (Google)
Language
Language
Mexico MX Qatar QA Tokelau TKMalaysia MY Reunion RE Turkmenistan TMMozambique MZ Romania RO Tunisia TNNamibia NA Russian Federation RU Tonga TONew Caledonia NC Rwanda RW East Timor TPNiger NE Saudi Arabia SA Turkey TRNorfolk Island NF Solomon Islands SB Trinidad and Tobago TTNigeria NG Seychelles SC Tuvalu TVNicaragua NI Sudan SD Taiwan TWNetherlands NL Sweden SE Tanzania TZNorway NO Singapore SG Ukraine UANepal NP St. Helena SH Uganda UGNauru NR Slovenia SI United States Minor Outlying I. UMNiue NU Svalbard and Jan Mayen Is. SJ United States USNew Zealand NZ Slovakia (Slovak Republic) SK Uruguay UYOman OM Sierra Leone SL Uzbekistan UZPanama PA San Marino SM Holy See (Vatican City State) VAPeru PE Senegal SN Saint Vincent and the Grenadines VCFrench Polynesia PF Somalia SO Venezuela VEPapua New Guinea PG Suriname SR Virgin Islands (British) VGPhilippines PH Sao Tome and Principe ST Virgin Islands (U.S.) VIPakistan PK El Salvador SV Vietnam VNPoland PL Syria SY Vanuatu VUSt. Pierre and Miquelon PM Swaziland SZ Wallis and Futuna Islands WFPitcairn PN Turks and Caicos Islands TC Samoa WSPuerto Rico PR Chad TD Yemen YEPalestine PS French Southern Territories TF Mayotte YTPortugal PT Togo TG Yugoslavia YUPalau PW Thailand TH South Africa ZAParaguay PY Tajikistan TJ Zambia ZM
Idiomas (Altavista)
Language
Language
Países (Altavista)
Language
Language
Internet invisible
� Características� Tamaño y Calidad� Fuentes
� Complete Planet www.completeplanet.com� Internet Invisible www.internetinvisible.com
� Descripción� Identificación
� Institución� País/Idioma� Temática
� Cuantitativa� Tamaño� Visibilidad
� Cualitativa� Estructura� Cobertura� Actualización� Recuperación
Complete Planet
Agentes personales (I)
� VolcadoresAaronWebVacuum 1.00 www.surfwarelabs.comJOC WebSpider 3.42 www.jocsoft.comTeleport Pro 1.29 www.tenmax.comLeech 3.2.4 www.aeria.comWebCopier 3.20 www.maximumsoft.comBackStreet 2.8 www.spadixbd.comBlackWidow 4.16 www.softbytelabs.comMemoWeb 4.0 www.goto.frOffline Commander 1.8 www.zylox.comWebReaper 9.8 www.webreaper.netOffline Explorer Pro 2.5 www.metaproducts.comPowerSiphon 1.1 www.powersiphon.comWebsite Extractor 8.35 www.asona.orgExpress Web Resource 1.1 www.w3agent.comWebWhacker 2000 5.0 www.bluesquirrel.comWebZip 5.01 www.spidersoft.com
Agentes personales (II)� Inspectores de enlaces
Alert LinkRunner 4.7 www.alertbookmarks.com/lrHTML Link Validator 3.43 www.lithopssoft.comHTML Validator Professional 5.50 www.htmlvalidator.comLink Checker Pro 3.0 www.kyosoft.comLinkScan Workstation 11.0 www.elsop.comWeb Link Validator 2.3 www.relsoftware.com/wlvWebTrends Suite 7.0 www.webtrends.com
� MapeadoresAstra Site Manager 2.0 www.merc-int.comSiteXpert 6.0 www.xtreeme.com/sitexpertBlueprint 1.2.6 www.exit0.com/ez1/products/blueprint.htmlCusto 2.0 www.netwu.comWebKing 3.0 www.thewebking.comFunnel Web Profiler 2.0 www.quest.comWebMaster Pro 6.0 www.coast.comXenu's Link Sleuth 1.2 home.snafu.de/tilman/xenulink.html
Agentes personales (III)
� Extractores HTML� WebData Extractor 3.4 www.webextractor.com
� Experimentos� Volcado de sede con el volcador Teleport Pro� Inspección de la sede volcada con WebTrends� Inspección directa de la sede con WebTrends� Mapeado de la sede volcada con Xenu
� Inspección de links� Mapeado directo de la sede con Xenu
� Inspección de links� Tamaño de la sede según los motores de búsqueda
� Google, Fast (alltheweb), Altavista, Inktomi (MSN Search)
WebDataExtractor
Volcado, inspección y mapeado
Cibermetria de los motores de búsqueda
� Motores de búsqueda: - Características y problemática� 8 grandes motores “distintos”
� Estudios sobre motoresSearch Engine Showdown searchengineshowdown.com
Search Engine Watch searchenginewatch.com
Google 3.000 millones Google, Alexa, Yahoo, IwonFAST 2.100 millones Alltheweb, Allthesites, LycosInktomi 2.000 millones Hotbot, MSNSearchWisenut 1.500 millones Wisenut, LooksmartAltavista 1.300 millones AltavistaTeoma 900 millones Teoma, AskJeevesGigablast 150 millones GigablastOpenfind 3.500 millones Openfind
Crecim
ientode G
oogle
# Web Pages Indexed by G
oogle (millions)
0
500
1,000
1,500
2,000
2,500
3,000Jan-99
Apr-99
Jul-99
Oct-99
Jan-00
Apr-00
Jul-00
Oct-00
Jan-01
Apr-01
Jul-01
Oct-01
Jan-02
Apr-02
Jul-02
Delimitadores
FASTALLTHEWEB HOTBOT MSN
DOMINIO domainSUBDOMINIO
HOST (término) site (1,2) NO NO
HOST (completo) site (1) site (3) site (3)
URL url url allinurl inurlLINK (sede/cadena) link link NO NO
LINK (página) link (4) link link NOTIPO FICHERO selector filetype selector (?) NO filetype NOTAMAÑO NO filesize NO NO NO NOIDIOMA selector language selector selector lang (3)PAIS NO NO NO NO NOTITULO title title selector (3) selector allintitle intitle
site (3)
selector
site
linkdomainlinkdomain
selector (3) selector
(1) ^host fija el nombre(2) hostname*(3) termino de búsqueda requerido
(4) sólo en páginas con dirección explícita(5) no delimitadores de dirección simultaneamente(6) Soporta site y inurl simultaneamente
host
site (3)
MOTORES DE BÚSQUEDA
Delimitadores ALTAVISTAINKTOMI
GOOGLE (5) TEOMA (6)
Tamaño
Solapamiento
Composición
Google by Google Google by Notess
Siguiendo a Notess
� Instalación de Copernico 5.2/WebFerret� Capacidad de exportación a Excel
� Experimentos� Cobertura� Tamaño (Copernic/Webferret)
� Búsqueda de términos (varios motores)� Búsquedas delimitadas (cada motores)� Teoría del máximo
� Solapamiento (Copernic)� 300 primeros resultados
� Calidad de los enlaces (Copernic)� Porcentaje de enlaces muertos (un único motor seleccionado)
Copernic
Webferret
Visualización
� Relaciones “ocultas”� TouchGraph Google
www.touchgraph.com/TGGoogleBrowser.html
� Instalación previa del Java JRE 1.3+� Prácticas con un nodo� Prácticas con más de un nodo
� Kartoo www.kartoo.com� Prácticas con términos institucionales
� Mapas� Mapeadores de sedes� Funnel Web Profiler 2.0 www.quest.com
� WebMap� InfoMap
TouchGraph
Kartoo
Funnel Web Profiler
Cobertura
P A GS % P A GS % P A GS % P A GS % P A GS %
OD P - D M OZ 42 6 .2 75 454 .014 394 .93 5 449 .721 4 60 .000
A LTA V IS TA 192 .023 4 5.0 5 227.212 50 ,05 62 .59 5 15,85 50 4 .50 8 112 ,18 526 .976 114 ,56
GOOGLE 175.000 41.05 19 2 .0 00 42 ,29 2 11.000 53 ,43 224 .00 0 49 ,81 2 68 .000 58 ,26
LY C OS 28 7 0 .0 7 98 .796 2 1,76 139 .140 35,23 341.171 75,86 114 .208 24 ,83
N OR T. LIGHT 53 .38 7 12 .52 51.3 68 11,31 nd nd nd nd nd nd
HOTB OT 51.700 12 .13 49 .700 10 ,95 190 .400 4 8 ,2 1 39 .80 0 8 ,8 5 177.100 38 ,50
A LLTHEW EB 13 .734 3 .22 10 .9 34 2 ,41 140 .600 35,60 3 44 .754 76 ,6 6 117.472 2 5,54
11- s e p - 0 2M OTOR B Ú S QU ED A
2 6 - jun- 0 20 6 - no v- 0 1 10 - e ne - 0 2 14 - ma y- 0 2
Metabuscadores
� Primera generaciónEz2www www.ez2www.comFuzzle www.searchonline.infoGimenei gimenei.comKartoo www.kartoo.comiBoogie www.iboogie.tvIcySpicy www.icyspicy.comInfonetware www.infonetware.comMetaEureka www.metaeureka.comSurfwax www.surfwax.comVivisimo www.vivisimo.com
� Segunda generaciónCopernico (5.2/6.0) www.copernic.com
Límites de los Metabuscadores
scientometrics ornithology "Albert Einstein" GodALLTHEWEB 6.718 258.498 1.108.420 39.421.287GOOGLE 8.260 112.000 554.000 36.800.000WISENUT 2.932 90.608 565.892 13.475.757ALTAVISTA 2.522 50.845 452.982 12.488.621TEOMA 2.087 42.290 233.850 7.535.000GIMENEI 73 70 71 82ICYSPICY 33 57 55 72METAEUREKA 42 46 56 73EZ2WWW 395 339 302 335IBOOGIE 221 238 236 299VIVISIMO 307 466 220 454FUZZLE 1.050 1.057 1.016 999
Resultados proporcionados por buscadores y metabuscadores (Octubre 2002)
Buscadores
Metabuscadores
Términos de búsqueda:
Recuperación automática inteligente
� Copernic 6.0 Pro www.copernic.com� Indización� Asignación automática de idiomas� Filtrado por región y dominio
� WebQL www.caesius.com� Demostración
� Identificación de los componentes de la URL� Cadena de caracteres a extraer� Muestra de trabajo
Copernic 6.0
WebQL
Calidad, visibilidad e impacto
� Evaluación cuantitativa de sedes Web� El modelo Google
� Instalación de la ToolBar (toolbar.google.com)� Page Rank
– Escala logarítmica– Componentes: visibilidad + peso
� Visibilidad� Tipos de enlaces: inlinks, outlinks, selflinks, backlinks� Cálculo mediante el uso de motores de búsqueda� Impacto Web (WebIF)� Calidad de los enlaces: Inspectores de enlaces
Google Toolbar
Métricas en acciónURL Tamaño Visibilidad PageRank Popularidad
1 New York Metropolitan Museum of Art metmuseum.org 7.838 135.334 8 12,1162 British Museum thebritishmuseum.ac.uk 707 36.278 8 39,9053 Museum of Modern Art, New York moma.org 5.458 124.371 8 22,2725 Natural History Museum, London nhm.ac.uk 9.652 105.365 8 35,4736 Musee du Louvre louvre.fr 6.610 98,503 8 16,1117 Smithsonian Institution si.edu 131,39 809,165 9 3,4418 Guggenheim Museum guggenheim.org 457 65,537 9 45,521
14 American Museum of Natural History amnh.org 12,934 104,103 8 23,17321 Victoria and Albert Museum vam.ac.uk 996 45,505 8 63,6146 Philadelphia Museum of Art philamuseum.org 1.050 18,691 8 99,917
Posición y nombre de la sede
�Ejemplo (Septiembre 2002)� Búsqueda “museum” en Google� Tamaño y visibilidad según FAST (www.alltheweb.com)� Page Rank extraído del Google Toolbar� Popularidad según Alexa (www.alexa.com)
�Experimento� Búsqueda institucional
Trabajando con enlaces
� Visibilidad� Inlinks (enlaces recibidos)
� Altavista: link AND NOT host� FAST: link.all -site� Inktomi: linkdomain -domain
� Outlinks (enlaces emitidos)� Inspectores de enlaces
� Selflinks (auto-enlaces)� Altavista: link AND host� FAST: link.all site� Inktomi: linkdomain domain
� Impacto Web� Definición del WebIF. Cálculo
� Calidad� Inspectores de enlaces
Terminología básica
� B has an outlink to C : ~ reference� B has an inlink from A : ~ citation� B has a selflink : ~ self-citation
� E and F are reciprocally linked� A is transitively linked with H via B-D� A has a transversal link to G : short cut
� C and D are co-linked from B,i.e. shared inlinks: co-citation
� B and E are co-linking to D,i.e. shared outlinks: bibliog.coupling
A
B
D
E G
F
H
C
co-links
Cibercienciometria
� Desarrollo de indicadores de I+D en el Web� Unidades
� sede institucional� Modelos� Indicadores
� Co-sitación, redes sociales y teoría del “small world”� Small World www.db.dk/lb/2002smallworld.pps
� Bibliometría de revistas electrónicas y depósitos de documentos� CiteSeer citeseer.nj.nec.com� CiteBase citebase.eprints.org/cgi-bin/search
Cibercienciometria
� Indicadores de I+D en el WebCATEGORY AGGREGATION LEVEL
Number of hostsNumber of webservers
Demography Number of usersNumber of domainsNumber of sitesNumber of institutional sitesNumber of pagesNo. of objectsNo. of rich filesNo. of multimedia objectsNo. of executable filesSize of the filesDistribution by languageDistribution by NUTS (EUROSTAT)Distribution by (UNESCO) subjectTemporal evolutionWord count
Infranet access No. of gatewaysDepth Number of levels
Density Number of links per page
INDICATOR NAME
INFRASTRUCTURE
Physical
supranational, country,domain, subdomain, institutional domain
Logical
institutional domain, website
SIZE
Websizesupranational, country, NUTS,
domain, subdomain, institutional domain, website, filetypes
Otros indicadores de I+DCATEGORY AGGREGATION LEVEL
Appearance Percentage HTML mistakesCompatibility Percentage proprietary tagsPerformance Percentage Items too bigSearchability Presence META tags (%)Availability Search engines coverage indexLink quality Percentage of valid links
Age Mode of the pages' freshness Multilinguality Number of languagesConnectivity Total number of linksNavigability Number of internal outlinksEndogamy Percentage of internal linksLuminosity Number of external outlinksIntensity Repeated links/outlinks
Dispersion Domain diversity of outlinksTotal Number of external inlinks
National National external linksInternational International external linksAcademic Academic domains ext. links
WebIF=Visibility/WebsizeVisibility/Secure servers
POPULARITY Position Relative (number of visits) websiteGeographical Domain diversity of inlinks
Institutional Institutional domain diversity of inlinks
Linguistic Language diversity of inlinks
VISIBILITY
institutional domain, website
INDICATOR NAME
DIVERSITY institutional domain, website
ImpactIMPACT
CONNECTIVITY
QUALITY
Obtención de indicadores
� Experimentos� Codificación
� Institucional� Temática (UNESCO)� Geográfica (NUTS)
� Cálculo de indicadores� Visibilidad (sitas)
– Visibilidad de los ficheros ricos– Visibilidad de artículos en depósitos– Visibilidad de revistas electrónicas
� Impacto (WebIF)� Diversidad� Co-citación
Mapa conceptual
Webmetria (Web Usage Mining)
� Definiciones� Data mining: Extracción de conocimiento de las bases de datos� Web Mining: Recolección y análisis de los patrones de visita de una sede
Web� No es buscar o recuperar información de dicha sede
� Objetivos: Aspectos a explorar� Asociación� Clasificación y agrupación (clustering)� Patrones transversales� Patrones sequenciales� Similaridades
� Análisis de las visitas a sedes Web� Ficheros log: Definición y estructura� Programas para análisis de logs
� Prácticas con WebTrends Analysis Suite (www.netiq.com)
Taxonomía de la Minería Web
Minería Web
Minería del uso del WebMinería del uso del Web
Minería deBases de datos
Minería deBases de datos
Minería de contenidos Web
Minería basada en agentes
� Motores de búsqueda� Metabuscadores� Agentes personales
� Internet invisible
� Identificación� Descripción� Herramientas de análisis
Ficheros log (bitacora)
� Dirección IP del visitante� URL visitadas� Hora de la visita� Tiempo dedicado a la visita� URL desde la que se accedió
� Tipo de petición� Tipo de respuesta� Tamaño de la respuesta (bytes)� Navegador usado� etc…
� Fichero que recopila automáticamente todos los datos sobre las visitas que reciben las páginas de una sede Web
� Apache web log205.188.209.10 - - [29/Mar/2002:03:58:06 -0800] "GET /~sophal/whole5.gif HTTP/1.0"200 9609 "http://www.csua.berkeley.edu/~sophal/whole.html" "Mozilla/4.0 (compatible;MSIE 5.0; AOL 6.0; Windows 98; DigExt)"
216.35.116.26 - - [29/Mar/2002:03:59:40 -0800] "GET /~alexlam/resume.html HTTP/1.0"200 2674 "-" "Mozilla/5.0 (Slurp/cat; [email protected];http://www.inktomi.com/slurp.html)“
202.155.20.142 - - [29/Mar/2002:03:00:14 -0800] "GET /~tahir/indextop.html HTTP/1.1"200 3510 "http://www.csua.berkeley.edu/~tahir/" "Mozilla/4.0 (compatible; MSIE 6.0;Windows NT 5.1)“
Utilidades
� Preguntas a responder� ¿Como se ha utilizado la información?� ¿Con que frecuencia?� ¿Que es lo más y lo menos popular (visitado)?� ¿Por donde entran los visitantes?. ¿Por donde salen?� ¿Donde se entretienen más?� ¿Cuanto tiempo dedican?� ¿Que rutas de visita son las más utilizadas?� ¿Quienes son los visitantes? ¿De donde vienen?� ¿Como han llegado?
10-Strike Log-Analyzer 1.31 www.10-strike.com123LogAnalyzer 2.5 www.123loganalyzer.comAdvancedLogAnalyzer 1.2* www.vknoware.com/ala/index.htmAnalog 5.24* www.analog.cxeIQLogAnalyzer 3.0 www.eiqnetworks.comFastStats Analyzer 3.0 www.mach5.com/products/analyzerFunnelWeb Analyzer 4.5 www.quest.comHappyLog 1.64 www.axolot.com/happylogOpenWebScope 1.00* www.openwebscope.comSawMill 6.3.15 www.sawmill.netWebLogExpert 1.61 www.weblogexpert.comWebTrends Analysis Suite 7.0 www.netiq.com
Programas de estadísticas de visitas
10-Strike Log Analyzer
Advanced Log Analyzer
123-Log Analyzer
eIQ Log Analyzer
FastStats Analyzer
Funnel Web Analyzer
HappyLog
OpenWebScope
SawMill
WebLogExpert
Popularidad
� Experimentos� Medidas relativas
� Alexa www.alexa.com� Medidas absolutas
� Webtrends 7.0 www.netiq.com� Prácticas con fichero log del CINDOC
– 1a quincena de Septiembre de 2002– Visitas totales y desagregadas– Páginas y directorios más populares– Ficheros volcados– Puntos de entrada y salida– Demografía de los visitantes– Referentes de entrada (origen, navegador y palabras de
acceso)
Alexa
WebTrends
Informetria
� Estudio de las distribuciones� Ley de Lotka, Zipf o “Power Law”
� Rousseau/Archimbaultwww.cindoc.csic.es/cybermetrics/articles/v4i1p4.htmlwww.cindoc.csic.es/cybermetrics/articles/v4i1c1.html
� Bibliografía/Webliografía General del Curso� Revista electrónica Cybermetrics.
www.cindoc.csic.es/cybermetrics/links03.html
Lotka en Excel
Bibliografia/Webliografía