isidro f. aguillo cibermetría - ?· internet invisible. agenda (ii) métodos, herramientas y...

Download Isidro F. Aguillo Cibermetría - ?· Internet invisible. Agenda (II) Métodos, herramientas y aplicaciones…

Post on 30-Sep-2018

213 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • CibermetraIntroduccin terico-prctica a una

    disciplina emergente

    Isidro F. AguilloVersion 0.81 (Febrero 2003)

    isidro@cindoc.csic.esCINDOC-CSIC

  • Presentacin: Isidro F. Aguillo

    Puesto actual Laboratorio de Internet. Centro Nacional de Informacin y

    Documentacin Cientfica (CINDOC). Consejo Superior de Investigaciones Cientficas (CSIC)

    BIRG (Bibliometric + Informetric Research Group). University of New South Wales.

    Formacin Licenciado CC. Biolgicas (UCM) Master en Informacin y Documentacin (UC3M)

    Lneas de trabajo y otros datos Proyectos nacionales: TECNOCIENCIA (portal de I+D),

    ICYTnet (Bibliotecas Virtuales), Ciencia e Internet (Anlisis, descripcin y evaluacin)

    Proyectos europeos: WISER (cibermetra), EICSTES (indicadores I+D), PEKING (gestin del conocimiento), SALUT (anorexia y bulimia), IMPACT-INFO2000 (sociedad de la informacin)

    Revistas: Editor Cybermetrics; Comit asesor El Profesional de la Informacin

    Sociedades: Junta Directiva SEDIC. Director Sector Informacin ASEDIE

    Premio IWE 1996 Personalidad del ao

  • Agenda

    Definicin y objeto de la cibermetra Cibermetra descriptiva

    El tamao de Internet Infraestructuras: Ordenadores, servidores y dominios Cibergeografa, Ciberdemografa

    Webespacio El problema de los gTLD

    Traductores de IP El Webespacio acadmico Ficheros ricos y ficheros media Idiomas en la red Internet invisible

  • Agenda (II)

    Mtodos, herramientas y aplicaciones (I) Captura directa: Agentes personales

    Volcadores, inspectores de enlaces y mapeadores Mtodos indirectos

    Motores de bsqueda: - Caractersticas y problemtica Multibuscadores

    Cibermetra de los motores de bsqueda Tamao y solapamiento Composicin y estructura Calidad, actualizacin y cobertura

    Recuperacin automtica inteligente Cibercienciometra

    Desarrollo de indicadores de I+D en el Web Anlisis de enlaces hipertextuales (sitas) y Factor de Impacto Web Co-sitacin, redes sociales y teora del small world Bibliometra de revistas electrnicas y depsitos de documentos

  • Agenda (III)

    Mtodos, herramientas y aplicaciones (II) Evaluacin cuantitativa de sedes Web

    El modelo Google (PageRank) Calidad de los enlaces, visibilidad e impacto

    Webmetra Anlisis de las visitas a sedes Web (Web usage Mining)

    Informetra Web data mining Leyes informetricas

    Ley de Lotka (Zipf)

  • Cibermetra es la disciplina dedicada a la descripcin cuantitativa de los contenidos y procesos de comunicacin que se producen en el ciberespacio Ciberespacio es el conjunto de contenidos accesibles

    en formato electrnico. La condicin de accesibilidad universal de Internet aconseja utilizar el termino como sinnimo de la Internet de los contenidos, fundamentalmente pero no exclusivamente, el webespacio

    Puesto que la Cibercienciometra es el sub-campo ms desarrollado, por razones prcticas se nombra con el trmino ms general de Cibermetra o el ms especfico de Webometra

    Definicin

  • informetrabibliometra cienciometra

    webometracibermetra

    Adaptado de Bjrneborn

    Cibercienciometra

    Disciplinas cuantitativas

  • WEB INVISIBLE

    INTERNET FSICA

    INFRANET DATOS SOBRE EL USO INTRANET

    TOPOLOGA, TRAFICO, DEMOGRAFA, GEOGRAFA

    OTROS NO INTERNET

    INTERNET

    CIBERSPACIO (Contenidos en formato electrnico)

    CONTENIDOSINTERNET PBLICA

    EMAIL, FOROS, USENET NEWS

    WEBSPACEWEB VISIBLE

    INTERNET INVISIBLE

    Contenidos

  • Unidades

    *com, *net, *org*biz, *name, *aero*uk, *ar*es, *fr

    ctlsD*ac.uk, *edu.ar*edu*csic.es*rediris.es

    Subdominio *cindoc.csic.eswww.csic.es, icytnet.cindoc.csic.eswww.cindoc.csic.es/cybermetrics*.html*.pdf, *.doc, *.pswww.cindoc.csic.es*www.cindoc.csic.es/cybermetrics*Sede anidada

    Documento

    DOMINIOFSICO

    DOMINIOLGICO Sede

    ctlDDominio

    SitioDirectorio

    gtlD

    Institucional

  • TAMAOCatlogos de bibliotecas 40,000

    webOPACOtras bases de datos bibliogrficasObras de referencia: Enciclopedias, diccionariosEstadisticas y datos numricosBases de datos de texto completo

    ~22%Ficheros ricos (pdf, ps, ppt..)Ficheros mediaPalabras de accesoDepsitos de documentos y revistas electrnicas

    Pginas dinmicas

    ASP, PHP 100+ millones

    2 - 50 veces mayor que la web visible

    500,000 bases de

    datos

    1.000 millones>15.000 revistas

    electrnicas

    WEB INVISIBLE Ficheros no

    textoPasarelas

    Pginas huerfanas

    INTERNET INVISIBLE INFRANET Bases de datos

    Bibliograficas

    Bases de datos Alfanumricas

  • La presencia en el Web refleja mas y mejor las actividades de lainstitucin o individuo que las publicaciones tradicionales en papel En el entorno acadmico, profesores, investigadores y estudiantes

    colocan en la Red material indito, borradores de trabajos, versiones preliminares de artculos, material para cursos, transparencias para presentaciones o bases de datos

    El Web alcanza una mayor audiencia que otros medios tradicionales de comunicacin cientfica. Las revistas cientficas tienen una distribucin restringida

    La naturaleza hipertextual del Web ofrece la posibilidad de descubrir patrones ocultos entre las diferentes sedes Las sedes acadmicas a menudo enlazan con otras sedes con las que

    tienen relaciones de carcter econmico, industrial, cultural, poltico o social.

    Ventajas mtricas

  • Cibergeografa, ciberdemografa

    Datos y fuentes Internet Geography Project www.zooknic.com Cybergeography www.cybergeography.org Nua Surveys www.nua.ie/surveys

    Herramientas Encuestas

    Portal AUI www.aui.es

    Visualizacin Mapas (geogrficos)

    Matrix www.mids.org Mapas conceptuales

    Map.net maps.map.net

  • Ciberdem

    ografa

    % W

    orld Population Using Internet

    0 2 4 6 8 10 12

    Dec-95

    Apr-96

    Aug-96

    Dec-96

    Apr-97

    Aug-97

    Dec-97

    Apr-98

    Aug-98

    Dec-98

    Apr-99

    Aug-99

    Dec-99

    Apr-00

    Aug-00

    Dec-00

    Apr-01

    Aug-01

    Dec-01

    Apr-02

    ww

    w.nua.ie/surveys

  • Ciberdemografa

    Worldwide Numbers with Internet Access (millions)(Source: www.nua.ie/surveys and projection)

    0

    1000

    2000

    3000

    4000

    5000

    6000

    7000

    8000

    9000

    10000

    Dec-95 Dec-96 Dec-97 Dec-98 Dec-99 Dec-00 Dec-01 Dec-02 Dec-03 Dec-04 Dec-05

    [projection based on extrapolating Sep99-Sep00 growth]

  • Cibergeografa

  • NUA Surveys

  • Encuestas (Portal AUI)

  • Mapas (geogrficos)

  • Map Net

  • Tamao de Internet

    Infraestructuras: Ordenadores, servidores y dominios Hosts

    Lottor (Mundo) www.isc.org/ds RIPE (Europa) www.ripe.net Asia Web Watchwww.ciolek.com/Asia-Web-Watch/main-

    page.html Servidores

    Netcraft www.netcraft.com Dominios

    Mundo www.countrynics.com Espaa www.nic.es Estudios www.zooknic.com

    Experimentos Capturando Tablas con Excel Servidores en universidades iberoamericanas

  • Evolucin de Internet (Lottor)

  • Lottor y Excel

  • Netcraft

  • Zooknic

  • Contenidos en el Web

    Webespacio Spireproject 10.000 millones (pginas

    10/02)spireproject.com/art13.htm

    Depsitos Archive www.archive.org Google Cache www.google.com

    Trfico El 80% de las sesiones de navegacin en el Web

    implican el uso de un motor de bsqueda o un directorio. Yahoo y, muy especialmente, Google son los ms importantes intermediarios

  • Wayback Machine

  • El problema de los gTLD

    gTLD Tradicionales: com, org, net, int (eu.int) Nuevos: biz, info, name, aero, coop, museum De facto: cx, tv, cc Casos especiales: edu

    Experimentos Euroseek (API Google) www.euroseek.com

    Delimitador site: Problemtica Dominios y pases Dominios internacionales

    Traductores de IP IP Locator 1.2

    www.searchutilities.com/ipl

  • Fuente: FAST (July 2002)

    Puesto Webpaginas Puesto Webpaginas Puesto Webpaginas Puesto Webpaginas1 com 967.574.482 4 de 107.598.200 5 jp 80.316.887 9 br 32.767.1852 org 146.541.333 6 uk 62.032.688 10 kr 31.872.332 15 ca 22.173.9753 net 110.579.260 8 ru 40.508.956 14 au 22.266.917 34 za 4.253.2777 edu 49.484.142 11 nl 28.234.303 20 cn 13.299.971 35 ar 4.124.63822 to 12.451.808 12 it 27.995.250 26 tw 10.028.508 40 mx 2.797.37423 us 12.075.616 13 pl 22.509.107 30 nz 6.269.705 48 cl 1.745.43725 gov 11.355.141 16 ch 18.042.328 42 il 2.565.176 67 co 679.32833 nu 4.439.622 17 cz 17.730.451 43 tr 2.490.870 73 pe 419.55144 cc 2.200.656 18 fr 17.539.647 46 hk 2.167.075 74 ve 410.63250 mil 1.658.373 19 dk 14.957.171 49 sg 1.699.074 78 uy 336.28453 vu 1.463.476 21 se 12.700.865 51 my 1.568.214 84 cr 239.20254 tv 1.386.958 24 at 11.361.273 56 th 1.323.563 90 cu 147.00755 info 1.363.623 27 no 8.471.288 65 id 749.371 94 ma 132.10362 ws 895.649 28 fi 7.244.978 69 in 564.260 97 ec 121.43366 int 693.996 29 es 6.346.719 70 ph 548.936 100 eg 111.090

    TAMAO DEL WEBESPACIOgTLD + US Europa Asia-Australasia America/Africa

  • Euroseek (API Google)

  • Intranet

    Fuente: Euroseek, Julio 2002

    TLD .com

    REST WORLD65%

    FR5%

    DE4%

    OTHER EU3%

    UK9% IT

    4%ES4%

    SE3%

    NL3%

    TLD .int

    FR6%

    ES4%

    UK2%

    OTHER EU3%

    LU32%

    BE17%DE

    5%

    IT5%

    REST WORLD26%

    TLD .org

    DE6%

    IT5%

    REST WORLD56%

    OTHER EU8%

    NL4%ES3%AT

    2%

    UK9%

    FR7%

    TLD .net

    UK9%

    DE5%

    FR4%

    IT4%

    NL4%