isidro f. aguillo cibermetría -...

Post on 30-Sep-2018

227 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

CibermetríaIntroducción teórico-práctica a una

disciplina emergente

Isidro F. AguilloVersion 0.81 (Febrero 2003)

isidro@cindoc.csic.esCINDOC-CSIC

Presentación: Isidro F. Aguillo

�� Puesto actual� Laboratorio de Internet. Centro Nacional de Información y

Documentación Científica (CINDOC). Consejo Superior de Investigaciones Científicas (CSIC)

� BIRG (Bibliometric + Informetric Research Group). University of New South Wales.

�� Formación� Licenciado CC. Biológicas (UCM)� Master en Información y Documentación (UC3M)

�� Líneas de trabajo y otros datos� Proyectos nacionales: TECNOCIENCIA (portal de I+D),

ICYTnet (Bibliotecas Virtuales), Ciencia e Internet (Análisis, descripción y evaluación)

� Proyectos europeos: WISER (cibermetría), EICSTES (indicadores I+D), PEKING (gestión del conocimiento), SALUT (anorexia y bulimia), IMPACT-INFO2000 (sociedad de la información)

� Revistas: Editor “Cybermetrics”; Comité asesor “El Profesional de la Información”

� Sociedades: Junta Directiva SEDIC. Director Sector Información ASEDIE

� Premio IWE 1996 Personalidad del año

Agenda

� Definición y objeto de la cibermetría� Cibermetría descriptiva

� El tamaño de Internet� Infraestructuras: Ordenadores, servidores y dominios� Cibergeografía, Ciberdemografía

� Webespacio� El problema de los gTLD

– Traductores de IP� El Webespacio académico� Ficheros ricos y ficheros media� Idiomas en la red� Internet invisible

Agenda (II)

� Métodos, herramientas y aplicaciones (I)� Captura directa: Agentes personales

� Volcadores, inspectores de enlaces y mapeadores� Métodos indirectos

� Motores de búsqueda: - Características y problemática� Multibuscadores

� Cibermetría de los motores de búsqueda� Tamaño y solapamiento� Composición y estructura� Calidad, actualización y cobertura

� Recuperación automática inteligente� Cibercienciometría

� Desarrollo de indicadores de I+D en el Web� Análisis de enlaces hipertextuales (sitas) y Factor de Impacto Web� Co-sitación, redes sociales y teoría del “small world”� Bibliometría de revistas electrónicas y depósitos de documentos

Agenda (III)

� Métodos, herramientas y aplicaciones (II)� Evaluación cuantitativa de sedes Web

� El modelo Google (PageRank)� Calidad de los enlaces, visibilidad e impacto

� Webmetría� Análisis de las visitas a sedes Web (Web usage Mining)

� Informetría� Web data mining� Leyes informetricas

– Ley de Lotka (Zipf)

� Cibermetría es la disciplina dedicada a la descripción cuantitativa de los contenidos y procesos de comunicación que se producen en el ciberespacio� Ciberespacio es el conjunto de contenidos accesibles

en formato electrónico. La condición de accesibilidad universal de Internet aconseja utilizar el termino como sinónimo de la Internet de los contenidos, fundamentalmente pero no exclusivamente, el webespacio

� Puesto que la Cibercienciometría es el sub-campo más desarrollado, por razones prácticas se nombra con el término más general de Cibermetría o el más específico de Webometría

Definición

informetríabibliometría cienciometría

webometríacibermetría

Adaptado de Björneborn

Cibercienciometría

Disciplinas cuantitativas

WEB INVISIBLE

INTERNET FÍSICA

INFRANET DATOS SOBRE EL USO INTRANET

TOPOLOGÍA, TRAFICO, DEMOGRAFÍA, GEOGRAFÍA

OTROS NO INTERNET

INTERNET

CIBERSPACIO (Contenidos en formato electrónico)

CONTENIDOSINTERNET PÚBLICA

EMAIL, FOROS, USENET NEWS

WEBSPACEWEB VISIBLE

INTERNET INVISIBLE

Contenidos

Unidades

*com, *net, *org*biz, *name, *aero*uk, *ar*es, *fr

ctlsD*ac.uk, *edu.ar*edu*csic.es*rediris.es

Subdominio *cindoc.csic.eswww.csic.es, icytnet.cindoc.csic.eswww.cindoc.csic.es/cybermetrics*.html*.pdf, *.doc, *.pswww.cindoc.csic.es*www.cindoc.csic.es/cybermetrics*Sede anidada

Documento

DOMINIOFÍSICO

DOMINIOLÓGICO Sede

ctlDDominio

SitioDirectorio

gtlD

Institucional

TAMAÑOCatálogos de bibliotecas 40,000

webOPACOtras bases de datos bibliográficasObras de referencia: Enciclopedias, diccionariosEstadisticas y datos numéricosBases de datos de texto completo

~22%Ficheros ricos (pdf, ps, ppt..)Ficheros mediaPalabras de accesoDepósitos de documentos y revistas electrónicas

Páginas dinámicas

ASP, PHP 100+ millones

2 - 50 veces mayor que la web visible

500,000 bases de

datos

1.000 millones>15.000 revistas

electrónicas

WEB INVISIBLE Ficheros no

textoPasarelas

Páginas huerfanas

INTERNET INVISIBLE INFRANET Bases de datos

Bibliograficas

Bases de datos Alfanuméricas

� La presencia en el Web refleja mas y mejor las actividades de lainstitución o individuo que las publicaciones tradicionales en papel� En el entorno académico, profesores, investigadores y estudiantes

colocan en la Red material inédito, borradores de trabajos, versiones preliminares de artículos, material para cursos, transparencias para presentaciones o bases de datos

� El Web alcanza una mayor audiencia que otros medios tradicionales de comunicación científica. � Las revistas científicas tienen una distribución restringida

� La naturaleza hipertextual del Web ofrece la posibilidad de descubrir patrones ocultos entre las diferentes sedes� Las sedes académicas a menudo enlazan con otras sedes con las que

tienen relaciones de carácter económico, industrial, cultural, político o social.

Ventajas métricas

Cibergeografía, ciberdemografía

� Datos y fuentes� Internet Geography Project www.zooknic.com� Cybergeography www.cybergeography.org� Nua Surveys www.nua.ie/surveys

� Herramientas� Encuestas

� Portal AUI www.aui.es

� Visualización� Mapas (geográficos)

� Matrix www.mids.org� Mapas conceptuales

� Map.net maps.map.net

Ciberdem

ografía

% W

orld Population Using Internet

0 2 4 6 8 10 12

Dec-95

Apr-96

Aug-96

Dec-96

Apr-97

Aug-97

Dec-97

Apr-98

Aug-98

Dec-98

Apr-99

Aug-99

Dec-99

Apr-00

Aug-00

Dec-00

Apr-01

Aug-01

Dec-01

Apr-02

ww

w.nua.ie/surveys

Ciberdemografía

Worldwide Numbers with Internet Access (millions)(Source: www.nua.ie/surveys and projection)

0

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

Dec-95 Dec-96 Dec-97 Dec-98 Dec-99 Dec-00 Dec-01 Dec-02 Dec-03 Dec-04 Dec-05

[projection based on extrapolating Sep99-Sep00 growth]

Cibergeografía

NUA Surveys

Encuestas (Portal AUI)

Mapas (geográficos)

Map Net

Tamaño de Internet

� Infraestructuras: Ordenadores, servidores y dominios� Hosts

� Lottor (Mundo) www.isc.org/ds� RIPE (Europa) www.ripe.net� Asia Web Watchwww.ciolek.com/Asia-Web-Watch/main-

page.html� Servidores

� Netcraft www.netcraft.com� Dominios

� Mundo www.countrynics.com� España www.nic.es� Estudios www.zooknic.com

� Experimentos� Capturando Tablas con Excel� Servidores en universidades iberoamericanas

Evolución de Internet (Lottor)

Lottor y Excel

Netcraft

Zooknic

Contenidos en el Web

� Webespacio� Spireproject 10.000 millones (páginas

10/02)spireproject.com/art13.htm

� Depósitos� Archive www.archive.org� Google Cache www.google.com

� Tráfico� El 80% de las sesiones de navegación en el Web

implican el uso de un motor de búsqueda o un directorio. Yahoo y, muy especialmente, Google son los más importantes intermediarios

Wayback Machine

El problema de los gTLD

� gTLD� Tradicionales: com, org, net, int (eu.int)� Nuevos: biz, info, name, aero, coop, museum� De facto: cx, tv, cc� Casos especiales: edu

� Experimentos� Euroseek (API Google) www.euroseek.com

� Delimitador site: Problemática� Dominios y países� Dominios internacionales

� Traductores de IP� IP Locator 1.2

www.searchutilities.com/ipl

Fuente: FAST (July 2002)

Puesto Webpaginas Puesto Webpaginas Puesto Webpaginas Puesto Webpaginas1 com 967.574.482 4 de 107.598.200 5 jp 80.316.887 9 br 32.767.1852 org 146.541.333 6 uk 62.032.688 10 kr 31.872.332 15 ca 22.173.9753 net 110.579.260 8 ru 40.508.956 14 au 22.266.917 34 za 4.253.2777 edu 49.484.142 11 nl 28.234.303 20 cn 13.299.971 35 ar 4.124.63822 to 12.451.808 12 it 27.995.250 26 tw 10.028.508 40 mx 2.797.37423 us 12.075.616 13 pl 22.509.107 30 nz 6.269.705 48 cl 1.745.43725 gov 11.355.141 16 ch 18.042.328 42 il 2.565.176 67 co 679.32833 nu 4.439.622 17 cz 17.730.451 43 tr 2.490.870 73 pe 419.55144 cc 2.200.656 18 fr 17.539.647 46 hk 2.167.075 74 ve 410.63250 mil 1.658.373 19 dk 14.957.171 49 sg 1.699.074 78 uy 336.28453 vu 1.463.476 21 se 12.700.865 51 my 1.568.214 84 cr 239.20254 tv 1.386.958 24 at 11.361.273 56 th 1.323.563 90 cu 147.00755 info 1.363.623 27 no 8.471.288 65 id 749.371 94 ma 132.10362 ws 895.649 28 fi 7.244.978 69 in 564.260 97 ec 121.43366 int 693.996 29 es 6.346.719 70 ph 548.936 100 eg 111.090

TAMAÑO DEL WEBESPACIOgTLD + US Europa Asia-Australasia America/Africa

Euroseek (API Google)

Intranet

Fuente: Euroseek, Julio 2002

TLD .com

REST WORLD65%

FR5%

DE4%

OTHER EU3%

UK9% IT

4%ES4%

SE3%

NL3%

TLD .int

FR6%

ES4%

UK2%

OTHER EU3%

LU32%

BE17%DE

5%

IT5%

REST WORLD26%

TLD .org

DE6%

IT5%

REST WORLD56%

OTHER EU8%

NL4%ES3%AT

2%

UK9%

FR7%

TLD .net

UK9%

DE5%

FR4%

IT4%

NL4%

ES3%

FI3%

OTHER EU7%

REST WORLD61%

Contribution of EU gTLD

OTHER EU4%

UK8%

FR5%

SE2%

ES3%

NO2%

FI1%

BE1%

DE4% IT

4% NL3%

REST WORLD63%

IP Locator

El Webespacio académico

� Sedes� Dominios institucionales

� OCLC Web Characterizacion wcp.oclc.org� Sitios y Sedes

� Webespacio académico� Subdominios académicos� Directorios de universidades y centros de investigación

� Braintrack www.braintrack.com� Universities Worldwide geowww.uibk.ac.at/univ� Galilei www.galilei.com.ar� HEIR siu.no/heir� Portal Tecnociencia www.tecnociencia.es� Universia www.universia.es

Subdominios académicos

ac.ae ac.in ac.rw edu.am edu.cn edu.hk edu.mm edu.pk edu.uaac.at ac.ir ac.se edu.ar edu.co edu.hn edu.mn edu.pl edu.uyac.bd ac.je ac.sg edu.au edu.cu edu.hu edu.mo edu.pr edu.veac.be ac.jp ac.sz edu.az edu.dm edu.jm edu.mp edu.pt edu.vgac.bw ac.ke ac.th edu.ba edu.do edu.jo edu.mt edu.py edu.vnac.by ac.kr ac.tz edu.bb edu.dz edu.kg edu.mx edu.qa edu.wsac.ci ac.lk ac.ug edu.bh edu.ec edu.kh edu.my edu.ru edu.yeac.cn ac.lv ac.uk edu.bm edu.ee edu.kn edu.na edu.sa edu.yuac.cr ac.ma ac.uz edu.bn edu.eg edu.kw edu.nf edu.sg edu.zaac.cy ac.mu ac.vn edu.bo edu.gd edu.ky edu.ng edu.sh edu.zmac.fj ac.mz ac.yu edu.br edu.ge edu.kz edu.ni edu.stac.gg ac.nz ac.za edu.bs edu.gh edu.lb edu.np edu.svac.gs ac.pa ac.zm edu.bt edu.gr edu.lc edu.om edu.toac.id ac.pg ac.zw edu.by edu.gs edu.li edu.pa edu.trac.il ac.pl acad.bg edu.bz edu.gt edu.lv edu.pe edu.ttac.im ac.ru edu.al edu.ck edu.gu edu.mk edu.ph edu.tw

Proporción de recursos académicos

119.0 00 1.561.000

354 .000 3 .9 06 .000

121.000 999 .00 0

2 .410 .000 14 .690 .000

148 .00 0 706 .000

164 .0 00 6 95.000

906 .0 00 3 .714 .000

613 .0 00 2 .4 97.000

2 .13 0 .000 7.470 .00 0

43 1.000 1.399 .0 00

1.410 .00 0 3 .59 0 .000

275.00 0 658 .000

3 12 .000 506 .000

354 .00 0 527.000

260 .0 00 358 .000

1.660 .000 2 .130 .00 0

0% 20% 40% 60% 80% 100%

N e w Ze a la nd

P o la nd

A rg e nt ina

J a pa n

S ing a po re

S o uth A fric a

Ko re a

A us tria

Unite d King do m

B e lg ium

A us tra lia

Ho ng Ko ng

Is ra e l

Turke y

Tha ila nd

Ta iwa n

academicnon academic

Euroseek, Julio 2002

Ficheros ricos y ficheros media

� Ficheros ricos� Definición y tipos

� Adobe Acrobat y Postcript� MS Office: Word (doc, rtf), Excel (xls), Powerpoint (ppt)

� Tamaño: Practicas con Google, FAST y Altavista� Métodos directos (pdf)� Métodos indirectos (delimitadores)

� Ficheros media� Definición y tipos

� FilExt www.filext.com� Localización en motores

� Términos (FAST)� Delimitadores (Altavista, Inktomi)� Bases de datos autónomas (Google)

Google (filetype)

Google (filetype)

Extensiones 11-nov-01 24-may-02 01-oct-02 Extensiones 11-nov-01 24-may-02 01-oct-02html, htm 63.600.000 98.800.000 120.700.000 ps 523.000 635.000 665.000asp, aspx, dsp, jsp 12.120.000 23.900.000 31.156.700 py 662.000php, php3, php4 8.524.000 17.964.000 24.602.000 xls 297.000 443.000 506.000shtm, shtml 4.328.000 7.419.000 8.502.000 ppt 257.000 419.000 442.000cgi 4.350.000 7.500.000 8.060.000 stm 290.000 479.000 440.000pdf 3.990.000 6.310.000 7.410.000 rtf 225.000 336.000 341.000cfm 2.950.000 5.340.000 6.730.000 class, jar 319.500

bmp, gif, jpg, png 9.070 19.610 163.000

zip, gz, bz2 162.800txt, text, csv 1.650.000 2.700.000 3.067.200 gsp 214.000 154.000swf 2.520.000 wml 133.000phtml, phtm 2.180.400 rdf 83.200 175.000 125.000doc 1.160.000 1.820.000 2.140.000 htx 124.000jhtml, jhtm 247.026 493.650 1.085.500 fcgi 103.000xml, xhtml, xsl, dtd 282.400 644.600 742.300 dwg 102.000exe 287.000 393.000 693.000 lasso 101.000

Composición y evolución de los tipos de fichero según Google

c, cc, cpp, cxx,

inc, java, pas, pl,

sh, tcl, bat

1.480.000 2.380.000 4.765.600

Ficheros ricos en ciertos dominios

0% 20% 40% 60% 80% 100%

GER M A N Y

J A P A N

UN ITED KIN GD OM

R US S IA

ITA LY

N ETHER LA N D S

F R A N C E

C A N A D A

C HIN A

A US TR A LIA

KOR EA

P OLA N D

C ZEC HIA

TA IWA N

S WED EN

D EN M A R K

S WITZER LA N D

B R A ZIL

N OR WA Y

A US TR IA

S P A IN

WOR LD

rtfpptxlspsdocpdf

Euroseek, July 2002

Ficheros ricos en dominios académicos

0,00%

10,00%

20,00%

30,00%

40,00%

50,00%

60,00%

70,00%

80,00%

90,00%

100,00%ac

.nzed

u.pled

u.ar ac.jp

edu.sg

ac.za ac.kr

ac.at

ac.uk

ac.be

edu.au

edu.hkac

.iled

u.trac

.thed

u.tw

pdfpspptdocrich filesall

Euroseek, Julio 2002

FilExt

Imágenes en Google

Media en Inktomi (MSN Search)

Idiomas en la red

� Fuentes y estudios� Usuarios según idioma

� Global Reach global-reach.biz/globstats/index.php3

� Composición del webespacio� Experimentos con buscadores

� Google� FAST� Altavista� Inktomi (Hotbot/MSN Search)� Copernic

Idiomas en la red

Idiomas utilizados para acceder a GoogleMarch 2001 - October 2002

www.google.com/press/zeitgeist.html

Idiomas en Google

Idiomas (Google)

Language

<lr> value

Language

Idioma Código Idioma CódigoArabic lang_ar Icelandic lang_isChinese (S) lang_zh-CN Italian lang_itChinese (T) lang_zh-TW Japanese lang_jaCzech lang_cs Korean lang_koDanish lang_da Latvian lang_lvDutch lang_nl Lithuanian lang_ltEnglish lang_en Norwegian lang_noEstonian lang_et Portuguese lang_ptFinnish lang_fi Polish lang_plFrench lang_fr Romanian lang_roGerman lang_de Russian lang_ruGreek lang_el Spanish lang_esHebrew lang_iw Swedish lang_svHungarian lang_hu Turkish lang_tr

Países (Google)

Language

Language

Andorra AD Bhutan BT Estonia EE Guinea-Bissau GW Kazakhstan KZUnited Arab Emirates AE Bouvet Island BV Egypt EG Guyana GY Lao PDR LAAfghanistan AF Botswana BW Western Sahara EH Hong Kong HK Lebanon LBAntigua and Barbuda AG Belarus BY Eritrea ER Heard and Mc Donald Islands HM Saint Lucia LCAnguilla AI Belize BZ Spain ES Honduras HN Liechtenstein LIAlbania AL Canada CA Ethiopia ET Croatia (Hrvatska) HR Sri Lanka LKArmenia AM Cocos (Keeling) Islands CC European Union EU Haiti HT Liberia LRNetherlands Antilles AN Congo, DR CD Finland FI Hungary HU Lesotho LSAngola AO Central African Republic CF Fiji FJ Indonesia ID Lithuania LTAntarctica AQ Congo CG Falkland Islands (Malvinas) FK Ireland IE Luxembourg LUArgentina AR Switzerland CH Micronesia, FS FM Israel IL Latvia LVAmerican Samoa AS Cote D'ivoire CI Faroe Islands FO India IN Libya LYAustria AT Cook Islands CK France FR British Indian Ocean Terr. IO Morocco MAAustralia AU Chile CL France, Metropolitan FX Iraq IQ Monaco MCAruba AW Cameroon CM Gabon GA Iran IR Moldova MDAzerbaijan AZ China CN United Kingdom UK Iceland IS Madagascar MGBosnia and Herzegowina BA Colombia CO Grenada GD Italy IT Marshall Islands MHBarbados BB Costa Rica CR Georgia GE Jamaica JM Macedonia, FYR MKBangladesh BD Cuba CU French Quiana GF Jordan JO Mali MLBelgium BE Cape Verde CV Ghana GH Japan JP Myanmar MMBurkina Faso BF Christmas Island CX Gibraltar GI Kenya KE Mongolia MNBulgaria BG Cyprus CY Greenland GL Kyrgyzstan KG Macau MOBahrain BH Czech Republic CZ Gambia GM Cambodia KH Northern Mariana Islands MPBurundi BI Germany DE Guinea GN Kiribati KI Martinique MQBenin BJ Djibouti DJ Guadeloupe GP Comoros KM Mauritania MRBermuda BM Denmark DK Equatorial Guinea GQ Saint Kitts and Nevis KN Montserrat MSBrunei Darussalam BN Dominica DM Greece GR Korea, DPR KP Malta MTBolivia BO Dominican Republic DO South Georgia/South Sandwich I. GS Korea, Republic of KR Mauritius MUBrazil BR Algeria DZ Guatemala GT Kuwait KW Maldives MVBahamas BS Ecuador EC Guam GU Cayman Islands KY Malawi MW

Países II (Google)

Language

Language

Mexico MX Qatar QA Tokelau TKMalaysia MY Reunion RE Turkmenistan TMMozambique MZ Romania RO Tunisia TNNamibia NA Russian Federation RU Tonga TONew Caledonia NC Rwanda RW East Timor TPNiger NE Saudi Arabia SA Turkey TRNorfolk Island NF Solomon Islands SB Trinidad and Tobago TTNigeria NG Seychelles SC Tuvalu TVNicaragua NI Sudan SD Taiwan TWNetherlands NL Sweden SE Tanzania TZNorway NO Singapore SG Ukraine UANepal NP St. Helena SH Uganda UGNauru NR Slovenia SI United States Minor Outlying I. UMNiue NU Svalbard and Jan Mayen Is. SJ United States USNew Zealand NZ Slovakia (Slovak Republic) SK Uruguay UYOman OM Sierra Leone SL Uzbekistan UZPanama PA San Marino SM Holy See (Vatican City State) VAPeru PE Senegal SN Saint Vincent and the Grenadines VCFrench Polynesia PF Somalia SO Venezuela VEPapua New Guinea PG Suriname SR Virgin Islands (British) VGPhilippines PH Sao Tome and Principe ST Virgin Islands (U.S.) VIPakistan PK El Salvador SV Vietnam VNPoland PL Syria SY Vanuatu VUSt. Pierre and Miquelon PM Swaziland SZ Wallis and Futuna Islands WFPitcairn PN Turks and Caicos Islands TC Samoa WSPuerto Rico PR Chad TD Yemen YEPalestine PS French Southern Territories TF Mayotte YTPortugal PT Togo TG Yugoslavia YUPalau PW Thailand TH South Africa ZAParaguay PY Tajikistan TJ Zambia ZM

Idiomas (Altavista)

Language

Language

Países (Altavista)

Language

Language

Internet invisible

� Características� Tamaño y Calidad� Fuentes

� Complete Planet www.completeplanet.com� Internet Invisible www.internetinvisible.com

� Descripción� Identificación

� Institución� País/Idioma� Temática

� Cuantitativa� Tamaño� Visibilidad

� Cualitativa� Estructura� Cobertura� Actualización� Recuperación

Complete Planet

Agentes personales (I)

� VolcadoresAaronWebVacuum 1.00 www.surfwarelabs.comJOC WebSpider 3.42 www.jocsoft.comTeleport Pro 1.29 www.tenmax.comLeech 3.2.4 www.aeria.comWebCopier 3.20 www.maximumsoft.comBackStreet 2.8 www.spadixbd.comBlackWidow 4.16 www.softbytelabs.comMemoWeb 4.0 www.goto.frOffline Commander 1.8 www.zylox.comWebReaper 9.8 www.webreaper.netOffline Explorer Pro 2.5 www.metaproducts.comPowerSiphon 1.1 www.powersiphon.comWebsite Extractor 8.35 www.asona.orgExpress Web Resource 1.1 www.w3agent.comWebWhacker 2000 5.0 www.bluesquirrel.comWebZip 5.01 www.spidersoft.com

Agentes personales (II)� Inspectores de enlaces

Alert LinkRunner 4.7 www.alertbookmarks.com/lrHTML Link Validator 3.43 www.lithopssoft.comHTML Validator Professional 5.50 www.htmlvalidator.comLink Checker Pro 3.0 www.kyosoft.comLinkScan Workstation 11.0 www.elsop.comWeb Link Validator 2.3 www.relsoftware.com/wlvWebTrends Suite 7.0 www.webtrends.com

� MapeadoresAstra Site Manager 2.0 www.merc-int.comSiteXpert 6.0 www.xtreeme.com/sitexpertBlueprint 1.2.6 www.exit0.com/ez1/products/blueprint.htmlCusto 2.0 www.netwu.comWebKing 3.0 www.thewebking.comFunnel Web Profiler 2.0 www.quest.comWebMaster Pro 6.0 www.coast.comXenu's Link Sleuth 1.2 home.snafu.de/tilman/xenulink.html

Agentes personales (III)

� Extractores HTML� WebData Extractor 3.4 www.webextractor.com

� Experimentos� Volcado de sede con el volcador Teleport Pro� Inspección de la sede volcada con WebTrends� Inspección directa de la sede con WebTrends� Mapeado de la sede volcada con Xenu

� Inspección de links� Mapeado directo de la sede con Xenu

� Inspección de links� Tamaño de la sede según los motores de búsqueda

� Google, Fast (alltheweb), Altavista, Inktomi (MSN Search)

WebDataExtractor

Volcado, inspección y mapeado

Cibermetria de los motores de búsqueda

� Motores de búsqueda: - Características y problemática� 8 grandes motores “distintos”

� Estudios sobre motoresSearch Engine Showdown searchengineshowdown.com

Search Engine Watch searchenginewatch.com

Google 3.000 millones Google, Alexa, Yahoo, IwonFAST 2.100 millones Alltheweb, Allthesites, LycosInktomi 2.000 millones Hotbot, MSNSearchWisenut 1.500 millones Wisenut, LooksmartAltavista 1.300 millones AltavistaTeoma 900 millones Teoma, AskJeevesGigablast 150 millones GigablastOpenfind 3.500 millones Openfind

Crecim

ientode G

oogle

# Web Pages Indexed by G

oogle (millions)

0

500

1,000

1,500

2,000

2,500

3,000Jan-99

Apr-99

Jul-99

Oct-99

Jan-00

Apr-00

Jul-00

Oct-00

Jan-01

Apr-01

Jul-01

Oct-01

Jan-02

Apr-02

Jul-02

Delimitadores

FASTALLTHEWEB HOTBOT MSN

DOMINIO domainSUBDOMINIO

HOST (término) site (1,2) NO NO

HOST (completo) site (1) site (3) site (3)

URL url url allinurl inurlLINK (sede/cadena) link link NO NO

LINK (página) link (4) link link NOTIPO FICHERO selector filetype selector (?) NO filetype NOTAMAÑO NO filesize NO NO NO NOIDIOMA selector language selector selector lang (3)PAIS NO NO NO NO NOTITULO title title selector (3) selector allintitle intitle

site (3)

selector

site

linkdomainlinkdomain

selector (3) selector

(1) ^host fija el nombre(2) hostname*(3) termino de búsqueda requerido

(4) sólo en páginas con dirección explícita(5) no delimitadores de dirección simultaneamente(6) Soporta site y inurl simultaneamente

host

site (3)

MOTORES DE BÚSQUEDA

Delimitadores ALTAVISTAINKTOMI

GOOGLE (5) TEOMA (6)

Tamaño

Solapamiento

Composición

Google by Google Google by Notess

Siguiendo a Notess

� Instalación de Copernico 5.2/WebFerret� Capacidad de exportación a Excel

� Experimentos� Cobertura� Tamaño (Copernic/Webferret)

� Búsqueda de términos (varios motores)� Búsquedas delimitadas (cada motores)� Teoría del máximo

� Solapamiento (Copernic)� 300 primeros resultados

� Calidad de los enlaces (Copernic)� Porcentaje de enlaces muertos (un único motor seleccionado)

Copernic

Webferret

Visualización

� Relaciones “ocultas”� TouchGraph Google

www.touchgraph.com/TGGoogleBrowser.html

� Instalación previa del Java JRE 1.3+� Prácticas con un nodo� Prácticas con más de un nodo

� Kartoo www.kartoo.com� Prácticas con términos institucionales

� Mapas� Mapeadores de sedes� Funnel Web Profiler 2.0 www.quest.com

� WebMap� InfoMap

TouchGraph

Kartoo

Funnel Web Profiler

Cobertura

P A GS % P A GS % P A GS % P A GS % P A GS %

OD P - D M OZ 42 6 .2 75 454 .014 394 .93 5 449 .721 4 60 .000

A LTA V IS TA 192 .023 4 5.0 5 227.212 50 ,05 62 .59 5 15,85 50 4 .50 8 112 ,18 526 .976 114 ,56

GOOGLE 175.000 41.05 19 2 .0 00 42 ,29 2 11.000 53 ,43 224 .00 0 49 ,81 2 68 .000 58 ,26

LY C OS 28 7 0 .0 7 98 .796 2 1,76 139 .140 35,23 341.171 75,86 114 .208 24 ,83

N OR T. LIGHT 53 .38 7 12 .52 51.3 68 11,31 nd nd nd nd nd nd

HOTB OT 51.700 12 .13 49 .700 10 ,95 190 .400 4 8 ,2 1 39 .80 0 8 ,8 5 177.100 38 ,50

A LLTHEW EB 13 .734 3 .22 10 .9 34 2 ,41 140 .600 35,60 3 44 .754 76 ,6 6 117.472 2 5,54

11- s e p - 0 2M OTOR B Ú S QU ED A

2 6 - jun- 0 20 6 - no v- 0 1 10 - e ne - 0 2 14 - ma y- 0 2

Metabuscadores

� Primera generaciónEz2www www.ez2www.comFuzzle www.searchonline.infoGimenei gimenei.comKartoo www.kartoo.comiBoogie www.iboogie.tvIcySpicy www.icyspicy.comInfonetware www.infonetware.comMetaEureka www.metaeureka.comSurfwax www.surfwax.comVivisimo www.vivisimo.com

� Segunda generaciónCopernico (5.2/6.0) www.copernic.com

Límites de los Metabuscadores

scientometrics ornithology "Albert Einstein" GodALLTHEWEB 6.718 258.498 1.108.420 39.421.287GOOGLE 8.260 112.000 554.000 36.800.000WISENUT 2.932 90.608 565.892 13.475.757ALTAVISTA 2.522 50.845 452.982 12.488.621TEOMA 2.087 42.290 233.850 7.535.000GIMENEI 73 70 71 82ICYSPICY 33 57 55 72METAEUREKA 42 46 56 73EZ2WWW 395 339 302 335IBOOGIE 221 238 236 299VIVISIMO 307 466 220 454FUZZLE 1.050 1.057 1.016 999

Resultados proporcionados por buscadores y metabuscadores (Octubre 2002)

Buscadores

Metabuscadores

Términos de búsqueda:

Recuperación automática inteligente

� Copernic 6.0 Pro www.copernic.com� Indización� Asignación automática de idiomas� Filtrado por región y dominio

� WebQL www.caesius.com� Demostración

� Identificación de los componentes de la URL� Cadena de caracteres a extraer� Muestra de trabajo

Copernic 6.0

WebQL

Calidad, visibilidad e impacto

� Evaluación cuantitativa de sedes Web� El modelo Google

� Instalación de la ToolBar (toolbar.google.com)� Page Rank

– Escala logarítmica– Componentes: visibilidad + peso

� Visibilidad� Tipos de enlaces: inlinks, outlinks, selflinks, backlinks� Cálculo mediante el uso de motores de búsqueda� Impacto Web (WebIF)� Calidad de los enlaces: Inspectores de enlaces

Google Toolbar

Métricas en acciónURL Tamaño Visibilidad PageRank Popularidad

1 New York Metropolitan Museum of Art metmuseum.org 7.838 135.334 8 12,1162 British Museum thebritishmuseum.ac.uk 707 36.278 8 39,9053 Museum of Modern Art, New York moma.org 5.458 124.371 8 22,2725 Natural History Museum, London nhm.ac.uk 9.652 105.365 8 35,4736 Musee du Louvre louvre.fr 6.610 98,503 8 16,1117 Smithsonian Institution si.edu 131,39 809,165 9 3,4418 Guggenheim Museum guggenheim.org 457 65,537 9 45,521

14 American Museum of Natural History amnh.org 12,934 104,103 8 23,17321 Victoria and Albert Museum vam.ac.uk 996 45,505 8 63,6146 Philadelphia Museum of Art philamuseum.org 1.050 18,691 8 99,917

Posición y nombre de la sede

�Ejemplo (Septiembre 2002)� Búsqueda “museum” en Google� Tamaño y visibilidad según FAST (www.alltheweb.com)� Page Rank extraído del Google Toolbar� Popularidad según Alexa (www.alexa.com)

�Experimento� Búsqueda institucional

Trabajando con enlaces

� Visibilidad� Inlinks (enlaces recibidos)

� Altavista: link AND NOT host� FAST: link.all -site� Inktomi: linkdomain -domain

� Outlinks (enlaces emitidos)� Inspectores de enlaces

� Selflinks (auto-enlaces)� Altavista: link AND host� FAST: link.all site� Inktomi: linkdomain domain

� Impacto Web� Definición del WebIF. Cálculo

� Calidad� Inspectores de enlaces

Terminología básica

� B has an outlink to C : ~ reference� B has an inlink from A : ~ citation� B has a selflink : ~ self-citation

� E and F are reciprocally linked� A is transitively linked with H via B-D� A has a transversal link to G : short cut

� C and D are co-linked from B,i.e. shared inlinks: co-citation

� B and E are co-linking to D,i.e. shared outlinks: bibliog.coupling

A

B

D

E G

F

H

C

co-links

Cibercienciometria

� Desarrollo de indicadores de I+D en el Web� Unidades

� sede institucional� Modelos� Indicadores

� Co-sitación, redes sociales y teoría del “small world”� Small World www.db.dk/lb/2002smallworld.pps

� Bibliometría de revistas electrónicas y depósitos de documentos� CiteSeer citeseer.nj.nec.com� CiteBase citebase.eprints.org/cgi-bin/search

Cibercienciometria

� Indicadores de I+D en el WebCATEGORY AGGREGATION LEVEL

Number of hostsNumber of webservers

Demography Number of usersNumber of domainsNumber of sitesNumber of institutional sitesNumber of pagesNo. of objectsNo. of rich filesNo. of multimedia objectsNo. of executable filesSize of the filesDistribution by languageDistribution by NUTS (EUROSTAT)Distribution by (UNESCO) subjectTemporal evolutionWord count

Infranet access No. of gatewaysDepth Number of levels

Density Number of links per page

INDICATOR NAME

INFRASTRUCTURE

Physical

supranational, country,domain, subdomain, institutional domain

Logical

institutional domain, website

SIZE

Websizesupranational, country, NUTS,

domain, subdomain, institutional domain, website, filetypes

Otros indicadores de I+DCATEGORY AGGREGATION LEVEL

Appearance Percentage HTML mistakesCompatibility Percentage proprietary tagsPerformance Percentage Items too bigSearchability Presence META tags (%)Availability Search engines coverage indexLink quality Percentage of valid links

Age Mode of the pages' freshness Multilinguality Number of languagesConnectivity Total number of linksNavigability Number of internal outlinksEndogamy Percentage of internal linksLuminosity Number of external outlinksIntensity Repeated links/outlinks

Dispersion Domain diversity of outlinksTotal Number of external inlinks

National National external linksInternational International external linksAcademic Academic domains ext. links

WebIF=Visibility/WebsizeVisibility/Secure servers

POPULARITY Position Relative (number of visits) websiteGeographical Domain diversity of inlinks

Institutional Institutional domain diversity of inlinks

Linguistic Language diversity of inlinks

VISIBILITY

institutional domain, website

INDICATOR NAME

DIVERSITY institutional domain, website

ImpactIMPACT

CONNECTIVITY

QUALITY

Obtención de indicadores

� Experimentos� Codificación

� Institucional� Temática (UNESCO)� Geográfica (NUTS)

� Cálculo de indicadores� Visibilidad (sitas)

– Visibilidad de los ficheros ricos– Visibilidad de artículos en depósitos– Visibilidad de revistas electrónicas

� Impacto (WebIF)� Diversidad� Co-citación

Mapa conceptual

Webmetria (Web Usage Mining)

� Definiciones� Data mining: Extracción de conocimiento de las bases de datos� Web Mining: Recolección y análisis de los patrones de visita de una sede

Web� No es buscar o recuperar información de dicha sede

� Objetivos: Aspectos a explorar� Asociación� Clasificación y agrupación (clustering)� Patrones transversales� Patrones sequenciales� Similaridades

� Análisis de las visitas a sedes Web� Ficheros log: Definición y estructura� Programas para análisis de logs

� Prácticas con WebTrends Analysis Suite (www.netiq.com)

Taxonomía de la Minería Web

Minería Web

Minería del uso del WebMinería del uso del Web

Minería deBases de datos

Minería deBases de datos

Minería de contenidos Web

Minería basada en agentes

� Motores de búsqueda� Metabuscadores� Agentes personales

� Internet invisible

� Identificación� Descripción� Herramientas de análisis

Ficheros log (bitacora)

� Dirección IP del visitante� URL visitadas� Hora de la visita� Tiempo dedicado a la visita� URL desde la que se accedió

� Tipo de petición� Tipo de respuesta� Tamaño de la respuesta (bytes)� Navegador usado� etc…

� Fichero que recopila automáticamente todos los datos sobre las visitas que reciben las páginas de una sede Web

� Apache web log205.188.209.10 - - [29/Mar/2002:03:58:06 -0800] "GET /~sophal/whole5.gif HTTP/1.0"200 9609 "http://www.csua.berkeley.edu/~sophal/whole.html" "Mozilla/4.0 (compatible;MSIE 5.0; AOL 6.0; Windows 98; DigExt)"

216.35.116.26 - - [29/Mar/2002:03:59:40 -0800] "GET /~alexlam/resume.html HTTP/1.0"200 2674 "-" "Mozilla/5.0 (Slurp/cat; slurp@inktomi.com;http://www.inktomi.com/slurp.html)“

202.155.20.142 - - [29/Mar/2002:03:00:14 -0800] "GET /~tahir/indextop.html HTTP/1.1"200 3510 "http://www.csua.berkeley.edu/~tahir/" "Mozilla/4.0 (compatible; MSIE 6.0;Windows NT 5.1)“

Utilidades

� Preguntas a responder� ¿Como se ha utilizado la información?� ¿Con que frecuencia?� ¿Que es lo más y lo menos popular (visitado)?� ¿Por donde entran los visitantes?. ¿Por donde salen?� ¿Donde se entretienen más?� ¿Cuanto tiempo dedican?� ¿Que rutas de visita son las más utilizadas?� ¿Quienes son los visitantes? ¿De donde vienen?� ¿Como han llegado?

10-Strike Log-Analyzer 1.31 www.10-strike.com123LogAnalyzer 2.5 www.123loganalyzer.comAdvancedLogAnalyzer 1.2* www.vknoware.com/ala/index.htmAnalog 5.24* www.analog.cxeIQLogAnalyzer 3.0 www.eiqnetworks.comFastStats Analyzer 3.0 www.mach5.com/products/analyzerFunnelWeb Analyzer 4.5 www.quest.comHappyLog 1.64 www.axolot.com/happylogOpenWebScope 1.00* www.openwebscope.comSawMill 6.3.15 www.sawmill.netWebLogExpert 1.61 www.weblogexpert.comWebTrends Analysis Suite 7.0 www.netiq.com

Programas de estadísticas de visitas

10-Strike Log Analyzer

Advanced Log Analyzer

123-Log Analyzer

eIQ Log Analyzer

FastStats Analyzer

Funnel Web Analyzer

HappyLog

OpenWebScope

SawMill

WebLogExpert

Popularidad

� Experimentos� Medidas relativas

� Alexa www.alexa.com� Medidas absolutas

� Webtrends 7.0 www.netiq.com� Prácticas con fichero log del CINDOC

– 1a quincena de Septiembre de 2002– Visitas totales y desagregadas– Páginas y directorios más populares– Ficheros volcados– Puntos de entrada y salida– Demografía de los visitantes– Referentes de entrada (origen, navegador y palabras de

acceso)

Alexa

WebTrends

Informetria

� Estudio de las distribuciones� Ley de Lotka, Zipf o “Power Law”

� Rousseau/Archimbaultwww.cindoc.csic.es/cybermetrics/articles/v4i1p4.htmlwww.cindoc.csic.es/cybermetrics/articles/v4i1c1.html

� Bibliografía/Webliografía General del Curso� Revista electrónica Cybermetrics.

www.cindoc.csic.es/cybermetrics/links03.html

Lotka en Excel

Bibliografia/Webliografía

top related