busquedas en la web invisible o profunda

6
Tecnologías de la Información – Internet invisible Prof. J. Tomás Nogales Flores ([email protected]) 1 BÚSQUEDAS EN LA WEB INVISIBLE O PROFUNDA “Internet visible” vs. “Internet invisible o profunda” Los motores de búsqueda no indizan todo lo que es accesible a través de la Web. Según muchos autores, indizan menos de un 1%, y algunos calculan que sobre un 0,2% ( 1 ). Los recursos informativos que constituyen esa pequeña parte, que podríamos llamar la “Internet visible” (o, con más precisión, la “Web visible”), tienen como características comunes las siguientes: o Son de acceso libre (sus autores permiten su difusión en la web) y gratuito (no se requiere un pago por acceder a ellos). o No requieren de un proceso de registro previo (aunque sea gratuito) para acceder a ellos. o Es información relativamente estable (no cambia el contenido del recurso en el transcurso de unos minutos, unas horas o unos pocos días), y tienen un URL propio (suele hacerse referencia a ellas como “páginas web estáticas”). o Tienen de forma nativa un formato extendido, especialmente HTML (aunque pueden indizarse también recursos en otros formatos como PDF, RTF, MS-Word, MS-Excel, MS- PorwerPoint, etc.). o Puede accederse a ellos desde enlaces situados en otros recursos (especialmente páginas HTML, aunque también recursos en otros formatos como PDF, RTF o MS-Word). Así, en lo que podríamos llamar la “Internet invisible”, o la “Internet profunda” (hay quienes consideran dos conceptos diferentes; en cualquier caso sería más preciso hablar de “Web invisible” o “Web profunda”), estarían todos aquellos recursos inaccesibles para los motores de búsqueda, y especialmente: o Los registros concretos de bases de datos de cualquier tipo, a los que sin embargo puede accederse desde una interfaz web. o Documentos en formatos menos extendidos o comunes que los citados antes. o Páginas web (o sitios web completos) que, por expreso deseo, no son indizadas por los motores de búsqueda (mediante indicaciones normalizadas incluidas en ficheros llamados “robots.txt”, que los robots leen antes de pasar el URL al subsistema de indización). o Páginas web de sitios que exigen el registro (nombre de usuario y contraseña) para acceder a todo o parte del sitio, aun cuando dicho registro sea gratuito. o Páginas situadas en servidores web abiertos pero que no tienen acceso desde ningún enlace exterior y por tanto no son visitadas por los robots e indizadas (“islas”). Evidentemente, hay otros recursos en Internet, que podríamos llamar la “Internet privada”, a los que sólo tienen acceso usuarios concretos en tanto que son miembros de una determinada organización en razón de su actividad profesional, por el aval de otros miembros o mediante el pago de cuotas. Esta parte de Internet, que incluye intranets accesibles desde Internet (en ocasiones conocidas como extranets), evidentemente, queda fuera del alcance de la anterior clasificación. Bases de datos accesibles desde la web Como se ha señalado, muchas bases de datos pueden ser consultadas desde la Web, y por tanto, sus registros están accesibles aunque no aparezcan entre los resultados que nos proporciona 1 Michael K. Bergman. White Paper: “The Deep Web: Surfacing Hidden Value”. Journal of Electronic Publishing, 7(1), Agosto 2001. (Disponible en <http://dx.doi.org/10.3998/3336451.0007.104>.)

Upload: hector-davila

Post on 09-Dec-2015

216 views

Category:

Documents


2 download

DESCRIPTION

Web Invisible

TRANSCRIPT

Page 1: Busquedas en La Web Invisible o Profunda

Tecnologías de la Información – Internet invisible

Prof. J. Tomás Nogales Flores ([email protected]) 1

BÚSQUEDAS EN LA WEB INVISIBLE O PROFUNDA “Internet visible” vs. “Internet invisible o profunda” Los motores de búsqueda no indizan todo lo que es accesible a través de la Web. Según muchos autores, indizan menos de un 1%, y algunos calculan que sobre un 0,2% (1). Los recursos informativos que constituyen esa pequeña parte, que podríamos llamar la “Internet visible” (o, con más precisión, la “Web visible”), tienen como características comunes las siguientes:

o Son de acceso libre (sus autores permiten su difusión en la web) y gratuito (no se requiere un pago por acceder a ellos).

o No requieren de un proceso de registro previo (aunque sea gratuito) para acceder a ellos. o Es información relativamente estable (no cambia el contenido del recurso en el transcurso

de unos minutos, unas horas o unos pocos días), y tienen un URL propio (suele hacerse referencia a ellas como “páginas web estáticas”).

o Tienen de forma nativa un formato extendido, especialmente HTML (aunque pueden indizarse también recursos en otros formatos como PDF, RTF, MS-Word, MS-Excel, MS-PorwerPoint, etc.).

o Puede accederse a ellos desde enlaces situados en otros recursos (especialmente páginas HTML, aunque también recursos en otros formatos como PDF, RTF o MS-Word).

Así, en lo que podríamos llamar la “Internet invisible”, o la “Internet profunda ” (hay quienes consideran dos conceptos diferentes; en cualquier caso sería más preciso hablar de “Web invisible” o “Web profunda”), estarían todos aquellos recursos inaccesibles para los motores de búsqueda, y especialmente:

o Los registros concretos de bases de datos de cualquier tipo, a los que sin embargo puede accederse desde una interfaz web.

o Documentos en formatos menos extendidos o comunes que los citados antes. o Páginas web (o sitios web completos) que, por expreso deseo, no son indizadas por los

motores de búsqueda (mediante indicaciones normalizadas incluidas en ficheros llamados “robots.txt” , que los robots leen antes de pasar el URL al subsistema de indización).

o Páginas web de sitios que exigen el registro (nombre de usuario y contraseña) para acceder a todo o parte del sitio, aun cuando dicho registro sea gratuito.

o Páginas situadas en servidores web abiertos pero que no tienen acceso desde ningún enlace exterior y por tanto no son visitadas por los robots e indizadas (“islas”).

Evidentemente, hay otros recursos en Internet, que podríamos llamar la “Internet privada ”, a los que sólo tienen acceso usuarios concretos en tanto que son miembros de una determinada organización en razón de su actividad profesional, por el aval de otros miembros o mediante el pago de cuotas. Esta parte de Internet, que incluye intranets accesibles desde Internet (en ocasiones conocidas como extranets), evidentemente, queda fuera del alcance de la anterior clasificación. Bases de datos accesibles desde la web Como se ha señalado, muchas bases de datos pueden ser consultadas desde la Web, y por tanto, sus registros están accesibles aunque no aparezcan entre los resultados que nos proporciona

1 Michael K. Bergman. White Paper: “The Deep Web: Surfacing Hidden Value”. Journal of Electronic Publishing, 7(1), Agosto 2001. (Disponible en <http://dx.doi.org/10.3998/3336451.0007.104>.)

Page 2: Busquedas en La Web Invisible o Profunda

Tecnologías de la Información – Internet invisible

Prof. J. Tomás Nogales Flores ([email protected]) 2

un motor de búsqueda. La consulta de la base de datos se realiza desde una interfaz web, esto es, una página web (HTML) estática que incluye formularios cuyo contenido se le trasfiere a una pasarela (“gateway”) que los convierte en instrucciones para el gestor de bases de datos que lanzará la búsqueda sobre la base de datos. Los resultados de la búsqueda, devueltos por el gestor de bases de datos a la pasarela, son convertidos a HTML y mostrados al usuario como una página web (en concreto, como una “página web dinámica”, esto es, generada ad hoc como resultado de una búsqueda concreta, igual que sucede con los resultados de una búsqueda en un motor de búsqueda). Aunque se han hecho intentos para generar páginas web estáticas a partir del contenido de los registros de bases de datos, para facilitar así el que ciertos motores de búsqueda pudieran incluir tales registros entre sus resultados, lo cierto es que es más práctico conocer de la existencia de tales bases de datos, y una vez localizada la que puede contestar nuestra necesidad de información, hacer la oportuna búsqueda mediante la interfaz web, que seguramente nos ofrecerá opciones de búsqueda más potentes y adecuadas para la base de datos que las que nos facilita el leguaje de interrogación de los motores de búsqueda. A modo de ilustración sobre tales bases de datos, a continuación se presentan algunas de tales bases de datos que podrían entrar en la categoría de “obras de referencia”. Algunas obras de referencia en Internet Diccionarios

o DRAE (Diccionario de la RAE, Real Academia Española (http://www.rae.es/rae.html). Corresponde a la 22ª edición impresa, de 2001, pero incluye las modificaciones que se incluirán en la siguiente edición: . También es interesante el Diccionario panhispánico de dudas (http://buscon.rae.es/dpdI/) (atención: el último carácter es una “I” mayúscula), justamente para resolver las que se te presenten sobre la lengua española, al hablar o escribir.

o WordReference (http://www.wordreference.com/) Incluye diccionarios de definiciones, sinónimos y bilingües, en varias lenguas, entre ellas el español (para el español dispones de los bilingües con inglés, francés o portugués). Tiene utilidades adicionales, como la pronunciación (auditiva) de las palabras, otras entradas de diccionario que incluyen la palabra buscada, o debates en foros sobre su correcto uso.

o IATE (InterActive Terminology for Europe) (http://iate.europa.eu/) Base de datos terminológica multilingüe de la UE. Se puso en marcha en 2007, reemplazando al EuroDicAutom de 1975 y otras bases de datos terminológicas de la UE. Proporciona traducciones autorizadas entre todas las lenguas de la UE, permitiendo además especificar el ámbito de uso del término buscado, según las categorías del tesauro Erovoc. (http://europa.eu/eurovoc/).

Enciclopedias

o Wikipedia (http://es.wikipedia.org/) (¿Hacía falta indicarlo?). Esfuerzo colaborativo de voluntarios para desarrollar una enciclopedia abierta, de uso libre, dentro de uno de los proyectos de la fundación sin ánimo de lucro Wikimedia . (Advierte que los artículos de la Wikipedia sí están indizados en los motores de búsqueda.)

• Hay que tener en cuenta que son muchas enciclopedias distintas, una por cada lengua (el URL cambia de “es” al código de lengua en cuestión), aunque, afortunadamente, puede accederse directamente desde una entrada en una lengua a la equivalente en cualquier otra que tenga un artículo para esa entrada (seleccionando la lengua en el

Page 3: Busquedas en La Web Invisible o Profunda

Tecnologías de la Información – Internet invisible

Prof. J. Tomás Nogales Flores ([email protected]) 3

apartado “En otras lenguas” de la izquierda de la ventana), de manera que funciona como traductor multilingüe.

• Las entradas para los años (como en “1969” ) pueden entenderse como anuarios (cronológicos o cronologías) (incluyendo la equivalencia con otros calendarios) y las de los días de cada mes (como en “20 de julio” ) como efemérides. Hay además entradas por décadas (como en “años 1960”) y siglos (como en “siglo XX” ).

• Los artículos se categorizan (en varios niveles) de manera que, navegando por el árbol de categorías, puede accederse a colecciones de artículos que han sido incluidos en una misma categoría. Observa, en la portada de la Wikipedia (http://es.wikipedia.org/wiki/Wikipedia:Portada), el apartado de “Portales” . Intenta encontrar un portal directamente relacionado con la Información y Documentación (o Biblioteconomía y Documentación). ¿Lo encuentras? Busca ahora en la versión inglesa de la Wikipedia (http://en.wikipedia.org/). ¿Qué te parece?

• Otros proyectos de Wikimedia son Wikcionario (diccionario con sinónimos), Wikilibros (libros de texto y manuales), Wikiquote (colección de citas), Wikisource (la biblioteca libre), Wikiespecies (directorio de especies), Wikinoticias (Noticias libres), Commons (imágenes y multimedia), Wikiversidad, (plataforma virtual de aprendizaje), Meta-Wiki (coordinación de proyectos)

o Encyclopaedia Britannica (http://www.britannica.com/). Una de las enciclopedias más reconocidas del mundo y en todos los tiempos, dispone también de una versión online. Explora su interfaz y familiarízate con ella. Muchas personas que no aceptan citas a la Wikipedia admitirían citas a artículos de la Britannica.

o HighBeam Encyclopedia (http://www.encyclopedia.com/). Permite buscar en más de cien fuentes, incluyendo enciclopedias diccionarios generales y científicos, y tesauros.

o Enciclopedia de símbolos (http://www.symbols.com/). Enciclopedia en línea de símbolos usados en el mundo occidental. Permite la búsqueda describiendo los elementos gráficos involucrados o la función o equivalencia del símbolo.

Biografías

o Biografías y vidas (http://www.biografiasyvidas.com/). Iniciativa de Biografías y vidas, S.C.P.

o Biography.com (Bio. True Story) (http://www.biography.com/). Base de datos de biografías, creada por A&E Television Networks. En realidad, las enciclopedias generales también ofrecen este tipo de información generalmente.

Directorios (de personas u organizaciones)

o Páginas Blancas (http://www.paginasblancas.es/ o http://blancas.paginasamarillas.es/). Para localizar direcciones postales y teléfonos de particulares, en España.

o Páginas Amarillas (http://www.paginasamarillas.es/) Para localizar direcciones postales y teléfonos de empresas y profesionales liberales, en España. Por cierto, mira el buscador para ver qué operadores lógicos puedes usar. Y observa también el “directorio” (en el sentido en que lo vimos como herramienta de búsqueda por navegación en la web).

o Infobel (http://www.infobel.com/). Creado por la empresa belga Kapitol, permite localizar guías telefónicas de todo el mundo, incluso consultar directamente muchas de ellas. Permite incluso la búsqueda inversa, por número de teléfono (prohibida por ley, hoy sólo ofrece el código postal).

Mapas

Page 4: Busquedas en La Web Invisible o Profunda

Tecnologías de la Información – Internet invisible

Prof. J. Tomás Nogales Flores ([email protected]) 4

o Google Maps (http://maps.google.es/). Servicio de Google que te permite moverte por el mundo con mapas de carreteras y calles, con simulación de relieve, o fotografías de satélite o aéreas, entre otras muchas opciones. Funciona además como callejero para cualquier lugar del mundo y determinar rutas entre dos puntos (Una broma: averigua cómo llegar a pie desde Madrid a Dublín. ¡Ah, claro, cogiendo los ferrys! Pero hacerlo en 6 días y 3 horas...).

o Callejeros (y rutas): como los de las Páginas Amarillas y Blancas ya citadas (mira la pestaña correspondiente), o el de Terra (http://callejero.terra.es/); todos ellos te permiten establecer también rutas interurbanas y urbanas (éstas a pie o en coche) entre dos puntos.

o PCL Map Collection (http://www.lib.utexas.edu/maps/). Colección de mapas de la Perry-Castañeda Library de la Universidad de Texas en Austin. Puedes acceder a ellos navegando. Si quieres más, puedes seguir el enlace asociado al ancla “Maps on Other Web Sites” o los que hay debajo.

o Map Machine (http://maps.nationalgeographic.com/). De National Geographic. También te permite navegar por el mundo siguiendo mapas de carreteras y planos de ciudades, o fotografías de satélite o aéreas.

Cronologías (anuarios, efemérides, etc.)

o Wikipedia (http://es.wikipedia.org/). Como viste en alguna práctica anterior, las entradas para los años (como en “1969” ) pueden entenderse como anuarios (incluyendo la equivalencia con otros calendarios) y las de los días de cada mes (como en “20 de julio” ) como efemérides. Hay además entradas por décadas (como en “años 1960”) y siglos (como en “siglo XX” ).

Estadísticas

o INEbase (http://www.ine.es/). Base de datos del Instituto Nacional de Estadística, con todo lo que te puedes imaginar que contiene: estadísticas relacionadas con el entorno físico u medio ambiente, demografía y población, sociedad, economía, ciencia y tecnología, agricultura, industria, energía, construcción y, finalmente, servicios. También a nivel internacional.

o Eurostat (http://ec.europa.eu/eurostat/, o http://epp.eurostat.ec.europa.eu/). Estadísticas a nivel de la UE. Con casi todo lo imaginable.

o United Nations Cyberschoolbus (http://cyberschoolbus.un.org/infonation3/basic.asp). ¿Quieres comparar rápidamente datos estadísticas de diversos países del mundo? No dejes de usarlo.

Meteorología y climatología

o Agencia Estatal de Meteorología (http://www.aemet.es). El tiempo en España, observado o previsto, incluso a nivel de municipios. Y datos climáticos referidos a muchos observatorios meteorológicos. Da acceso también a datos sobre la meteorología y el clima de todo el mundo, por su vinculación al Servicio de Información Meteorológica Mundial (http://wwis.inm.es/ o http://worldweather.wmo.int/) de la Organización Meteorológica Mundial.

Legislación

o Boletín Oficial del Estado (http://www.boe.es/). Te suena, ¿no? Al menos debes conocer la base de datos Iberlex (http://www.boe.es/aeboe/consultas/bases_datos/iberlex.php), que contiene toda la legislación estatal, autonómica y comunitaria desde 1960.

Page 5: Busquedas en La Web Invisible o Profunda

Tecnologías de la Información – Internet invisible

Prof. J. Tomás Nogales Flores ([email protected]) 5

Cultura

o Ministerio de Cultura (http://www.mcu.es/). Escribe en el buscador “bases de datos”. Mira los resultados. Entra en la base de datos de películas estrenadas en cines comerciales (http://www.mcu.es/cine/CE/BBDDPeliculas/BBDDPeliculas_Index.html), o en la de libros editados en España (http://www.mcu.es/libro/CE/AgenciaISBN/BBDDLibros/Sobre.html).

o Etcétera (http://una.broma.es/). Sí es una broma. Pero es que realmente podríamos relacionar aquí miles de cosas. Un solo ejemplo. Si eres aficionado al cine, seguro que conoces IMDb, The Internet Movies Database (http://www.imdb.com/). No, no hablamos de bajarte películas, sino de saber cosas sobre las películas. ¿O eres de los que prefieren FilmAffinity (http://www.filmaffinity.com/)?

Etcétera

o Etcétera o Etcétera

Porque podríamos seguir así hasta el infinito. Esto era una pequeñísima muestra. Mira en http://www.internetinvisible.com/. Ahí tienes otra muestra.

EJERCICIOS

Intenta, recurriendo a los sitios web que consideres oportuno, responder a las preguntas que se te plantean en estos ejercicios. 1. Tu amigo Antonio López te ha comentado que su abuelo paterno participó como actor en la

famosa película “Casablanca”, en el papel de un agente de policía, pero que no llegó a salir en los créditos porque ese papel no era lo bastante importante. ¿Podrías verificarlo?

2. ¿Cómo debe escribirse: “Solo estoy de paso” o “Sólo estoy de paso”? ¿“Estuvo sólo una

semana” o “Estuvo solo una semana”? 3. Si estuvieras en París, y siguieras la calle Richelieu en dirección sur, ¿a qué puente sobre el río

llegarías? 4. En cifras oficiales y a fecha de hoy, ¿cuánto ha recaudado en cines españoles la película “Agora”

de Alejandro Amenábar? ¿Cuántos espectadores la han visto? 5. Hay un edificio en nuestra Universidad que lleva el nombre de una persona de apellido Benet.

¿En qué lugar ficticio transcurren los relatos incluidos ya en un libro que escribió a finales de los años cincuenta y publicó a principios de los sesenta, y en obras posteriores?

6. Lo necesitas para un informe que te ha pedido tu jefe. ¿Cómo dirías en alemán “índice de

precios al consumo armonizado”? ¿Y “física de los rayos láser”? 7. Por ser la inauguración de un proyecto en el que has participado, necesitas saber el tiempo que

hará el próximo domingo en la localidad de Adrada de Haza. ¿Qué probabilidad hay de que llueva? ¿Será mejor hacer el acto in situ o en un local bajo techo?

Page 6: Busquedas en La Web Invisible o Profunda

Tecnologías de la Información – Internet invisible

Prof. J. Tomás Nogales Flores ([email protected]) 6

8. Si tuvieras que representar mediante un símbolo gráfico a la antipartícula del electrón ¿Qué símbolo podrías utilizar?

9. ¿En qué fecha se publicó el plan de estudios, en extinción, de Ingeniero Técnico en Mecánica de

esta Universidad, y cuál era la fecha de la Resolución? 10. Para la instalación de ciertos equipos en la ciudad de Soria necesitas saber las condiciones

meteorológicas normales a lo largo del año, como la temperatura máxima y mínima diaria, la precipitación acumulada mensual o la humedad relativa media. Por ejemplo, ¿qué humedad relativa podemos esperar encontrarnos en diciembre? ¿Cuál ha sido la temperatura más baja registrada y cuándo fue?

11. Cuál es el último IPI (Índice de Producción Industrial) para la industria española de la

construcción de maquinaria durante 2009? ¿Y para la fabricación de vehículos de motor, remolques y semirremolques?