estrategias busqueda web profunda
Post on 10-Apr-2018
234 Views
Preview:
TRANSCRIPT
-
8/8/2019 Estrategias Busqueda Web Profunda
1/21
Estrategias y mecanismos de bsqueda en la web invisible
Estrategias y mecanismos de bsqueda en la web invisible
Pilar Mara Moreno Jimnez
Mayo, 2003. ltima actualizacin: mayo, 2005.
Resumen
e denomina web invisible o profunda a la informacin que no puede recuperarse con los mecanismos
e bsqueda comunes. Estos mecanismos tratan de abarcar toda la web, pero se calcula que los
mayores motores de bsqueda alcanzan a indizar slo entre un tercio y la mitad de los documentos
isponibles. La web invisible no slo es de mayor tamao que la web visible o superficial sino que
rece a mayor velocidad. Asimismo, mucha informacin disponible en la web profunda, como la que se
ncuentra en bases de datos, tiene un alto valor potencial para el usuario.La multiplicidad de mecanismos de rastreo, indizacin, recuperacin y organizacin de documentos en
a web puede causar confusin al usuario comn. Adems, el nmero de motores de bsqueda, as
omo los hbridos resultado de la combinacin de diferentes mecanismos, ha aumentado. Esto hace
ecesario clasificar y diferenciar los tipos de herramientas disponibles.
En este documento recomiendo algunas estrategias tiles para la bsqueda en la web y presento una
ompilacin de recursos de bsqueda en la web invisible o profunda.
Tabla de contenido
ntroduccin
. Mecanismos de bsqueda en la web
q Buscadoresq Metabuscadoresq Directoriosq Guasq Tutorialesq Software especializado
. Estrategias de bsqueda en la web
q Estrategias generalesq Seleccin de herramientas
q Objetivo de la bsquedaq Forma de bsquedaq Especializacin de la bsqueda
file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (1 de 21)04/12/2006 01:53:57 p.m.
mailto:pmmoreno@colmex.mxhttp://biblio.colmex.mx/recelec/web_invisible.htm#Introducci%E3%AE%80http://biblio.colmex.mx/recelec/web_invisible.htm#1.%20Mecanismos%20de%20B%EA%B3%B1ueda%20en%20la%20webhttp://biblio.colmex.mx/recelec/web_invisible.htm#Buscadoreshttp://biblio.colmex.mx/recelec/web_invisible.htm#Metabuscadoreshttp://biblio.colmex.mx/recelec/web_invisible.htm#Directorioshttp://biblio.colmex.mx/recelec/web_invisible.htm#Gu%EF%BF%BDhttp://biblio.colmex.mx/recelec/web_invisible.htm#Tutorialeshttp://biblio.colmex.mx/recelec/web_invisible.htm#Software%20especializadohttp://biblio.colmex.mx/recelec/web_invisible.htm#2.%20Estrategias%20de%20b%EA%B3%B1ueda%20en%20la%20webhttp://biblio.colmex.mx/recelec/web_invisible.htm#Estrategias%20generaleshttp://biblio.colmex.mx/recelec/web_invisible.htm#Selecci%E3%AE%A0de%20herramientashttp://biblio.colmex.mx/recelec/web_invisible.htm#Objetivo%20de%20la%20b%EA%B3%B1uedahttp://biblio.colmex.mx/recelec/web_invisible.htm#Forma%20de%20b%EA%B3%B1uedahttp://biblio.colmex.mx/recelec/web_invisible.htm#Especializaci%E3%AE%A0de%20la%20b%EA%B3%B1uedahttp://biblio.colmex.mx/recelec/web_invisible.htm#Especializaci%E3%AE%A0de%20la%20b%EA%B3%B1uedahttp://biblio.colmex.mx/recelec/web_invisible.htm#Forma%20de%20b%EA%B3%B1uedahttp://biblio.colmex.mx/recelec/web_invisible.htm#Objetivo%20de%20la%20b%EA%B3%B1uedahttp://biblio.colmex.mx/recelec/web_invisible.htm#Selecci%E3%AE%A0de%20herramientashttp://biblio.colmex.mx/recelec/web_invisible.htm#Estrategias%20generaleshttp://biblio.colmex.mx/recelec/web_invisible.htm#2.%20Estrategias%20de%20b%EA%B3%B1ueda%20en%20la%20webhttp://biblio.colmex.mx/recelec/web_invisible.htm#Software%20especializadohttp://biblio.colmex.mx/recelec/web_invisible.htm#Tutorialeshttp://biblio.colmex.mx/recelec/web_invisible.htm#Gu%EF%BF%BDhttp://biblio.colmex.mx/recelec/web_invisible.htm#Directorioshttp://biblio.colmex.mx/recelec/web_invisible.htm#Metabuscadoreshttp://biblio.colmex.mx/recelec/web_invisible.htm#Buscadoreshttp://biblio.colmex.mx/recelec/web_invisible.htm#1.%20Mecanismos%20de%20B%EA%B3%B1ueda%20en%20la%20webhttp://biblio.colmex.mx/recelec/web_invisible.htm#Introducci%E3%AE%80mailto:pmmoreno@colmex.mx -
8/8/2019 Estrategias Busqueda Web Profunda
2/21
Estrategias y mecanismos de bsqueda en la web invisible
q Precisin de la bsquedaq Mucha informacin recuperadaq Seleccin de recursosq Poca informacin recuperada
. Caracterizacin de la web invisible o profunda
q La web opacaq La web privadaq La web propietariaq La web realmente invisible
. Herramientas de bsqueda en la web profunda
q Buscadores
q Metabuscadoresq Directoriosq Guasq Tutorialesq Motores avanzados
. Estrategias de bsqueda en la web profunda
q Informacin especializadaq Bsquedas avanzadasq Evaluacin de la informacinq Informacin en bases de datos
6. Compilacin de recursos de bsqueda en la web profunda
q Recursos de bsqueda ordenados alfabticamenteq Recursos de bsqueda ordenados por tipo de recurso
7. Qu tan invisible es hoy la web invisible?
q La web opacaq La web privadaq La web propietariaq La web realmente invisible
8. Bibliografa
ntroduccinEl trmino web invisible fue utilizado por primera vez por la Dra. Jill Ellsworth paradenominar la informacin que resultaba invisible para las maquinarias de bsqueda
file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (2 de 21)04/12/2006 01:53:57 p.m.
http://biblio.colmex.mx/recelec/web_invisible.htm#Precisi%E3%AE%A0de%20la%20b%EA%B3%B1uedahttp://biblio.colmex.mx/recelec/web_invisible.htm#Mucha%20informaci%E3%AE%A0recuperadahttp://biblio.colmex.mx/recelec/web_invisible.htm#Selecci%E3%AE%A0de%20recursoshttp://biblio.colmex.mx/recelec/web_invisible.htm#Poca%20informaci%E3%AE%A0recuperadahttp://biblio.colmex.mx/recelec/web_invisible.htm#3.%20Caracterizaci%E3%AE%A0de%20la%20web%20invisible%20o%20profundahttp://biblio.colmex.mx/recelec/web_invisible.htm#web%20opacahttp://biblio.colmex.mx/recelec/web_invisible.htm#web%20privadahttp://biblio.colmex.mx/recelec/web_invisible.htm#web%20propietariahttp://biblio.colmex.mx/recelec/web_invisible.htm#web%20realmente%20invisiblehttp://biblio.colmex.mx/recelec/web_invisible.htm#4.%20Herramientas%20de%20b%EA%B3%B1ueda%20en%20la%20web%20profundahttp://biblio.colmex.mx/recelec/web_invisible.htm#Buscadores2http://biblio.colmex.mx/recelec/web_invisible.htm#Metabuscadores2http://biblio.colmex.mx/recelec/web_invisible.htm#Directorios2http://biblio.colmex.mx/recelec/web_invisible.htm#Gu%EF%BF%BD2http://biblio.colmex.mx/recelec/web_invisible.htm#Tutoriales2http://biblio.colmex.mx/recelec/web_invisible.htm#Motores%20avanzados2http://biblio.colmex.mx/recelec/web_invisible.htm#5.%20Estrategias%20de%20b%EA%B3%B1ueda%20en%20la%20web%20profundahttp://biblio.colmex.mx/recelec/web_invisible.htm#Informaci%E3%AE%A0especializadahttp://biblio.colmex.mx/recelec/web_invisible.htm#B%EA%B3%B1uedas%20avanzadashttp://biblio.colmex.mx/recelec/web_invisible.htm#Evaluaci%E3%AE%A0de%20la%20informaci%E3%AE%80http://biblio.colmex.mx/recelec/web_invisible.htm#Informaci%E3%AE%A0en%20bases%20de%20datoshttp://biblio.colmex.mx/recelec/web_invisible.htm#6.%20Compilaci%E3%AE%A0de%20recursos%20de%20b%EA%B3%B1ueda%20en%20la%20web%20profundahttp://biblio.colmex.mx/recelec/web_invisible.htm#Recursos%20ordenados%20alfab%E9%B4%A9camentehttp://biblio.colmex.mx/recelec/web_invisible.htm#Recursos%20ordenados%20por%20tipohttp://biblio.colmex.mx/recelec/web_invisible.htm#7.%20%EF%91%B5%E9%A0%B4an%20invisible%20es%20hoy%20la%20web%20invisible?http://biblio.colmex.mx/recelec/web_invisible.htm#Web%20opaca2http://biblio.colmex.mx/recelec/web_invisible.htm#Web%20privada2http://biblio.colmex.mx/recelec/web_invisible.htm#Web%20propietaria2http://biblio.colmex.mx/recelec/web_invisible.htm#Web%20realmente%20invisible2http://biblio.colmex.mx/recelec/web_invisible.htm#8.%20Bibliograf%EF%BF%BDhttp://biblio.colmex.mx/recelec/web_invisible.htm#8.%20Bibliograf%EF%BF%BDhttp://biblio.colmex.mx/recelec/web_invisible.htm#Web%20realmente%20invisible2http://biblio.colmex.mx/recelec/web_invisible.htm#Web%20realmente%20invisible2http://biblio.colmex.mx/recelec/web_invisible.htm#Web%20propietaria2http://biblio.colmex.mx/recelec/web_invisible.htm#Web%20privada2http://biblio.colmex.mx/recelec/web_invisible.htm#Web%20opaca2http://biblio.colmex.mx/recelec/web_invisible.htm#7.%20%EF%91%B5%E9%A0%B4an%20invisible%20es%20hoy%20la%20web%20invisible?http://biblio.colmex.mx/recelec/web_invisible.htm#Recursos%20ordenados%20por%20tipohttp://biblio.colmex.mx/recelec/web_invisible.htm#Recursos%20ordenados%20alfab%E9%B4%A9camentehttp://biblio.colmex.mx/recelec/web_invisible.htm#6.%20Compilaci%E3%AE%A0de%20recursos%20de%20b%EA%B3%B1ueda%20en%20la%20web%20profundahttp://biblio.colmex.mx/recelec/web_invisible.htm#Informaci%E3%AE%A0en%20bases%20de%20datoshttp://biblio.colmex.mx/recelec/web_invisible.htm#Evaluaci%E3%AE%A0de%20la%20informaci%E3%AE%80http://biblio.colmex.mx/recelec/web_invisible.htm#B%EA%B3%B1uedas%20avanzadashttp://biblio.colmex.mx/recelec/web_invisible.htm#Informaci%E3%AE%A0especializadahttp://biblio.colmex.mx/recelec/web_invisible.htm#5.%20Estrategias%20de%20b%EA%B3%B1ueda%20en%20la%20web%20profundahttp://biblio.colmex.mx/recelec/web_invisible.htm#Motores%20avanzados2http://biblio.colmex.mx/recelec/web_invisible.htm#Tutoriales2http://biblio.colmex.mx/recelec/web_invisible.htm#Gu%EF%BF%BD2http://biblio.colmex.mx/recelec/web_invisible.htm#Directorios2http://biblio.colmex.mx/recelec/web_invisible.htm#Metabuscadores2http://biblio.colmex.mx/recelec/web_invisible.htm#Buscadores2http://biblio.colmex.mx/recelec/web_invisible.htm#4.%20Herramientas%20de%20b%EA%B3%B1ueda%20en%20la%20web%20profundahttp://biblio.colmex.mx/recelec/web_invisible.htm#web%20realmente%20invisiblehttp://biblio.colmex.mx/recelec/web_invisible.htm#web%20realmente%20invisiblehttp://biblio.colmex.mx/recelec/web_invisible.htm#web%20propietariahttp://biblio.colmex.mx/recelec/web_invisible.htm#web%20privadahttp://biblio.colmex.mx/recelec/web_invisible.htm#web%20opacahttp://biblio.colmex.mx/recelec/web_invisible.htm#3.%20Caracterizaci%E3%AE%A0de%20la%20web%20invisible%20o%20profundahttp://biblio.colmex.mx/recelec/web_invisible.htm#Poca%20informaci%E3%AE%A0recuperadahttp://biblio.colmex.mx/recelec/web_invisible.htm#Selecci%E3%AE%A0de%20recursoshttp://biblio.colmex.mx/recelec/web_invisible.htm#Mucha%20informaci%E3%AE%A0recuperadahttp://biblio.colmex.mx/recelec/web_invisible.htm#Precisi%E3%AE%A0de%20la%20b%EA%B3%B1ueda -
8/8/2019 Estrategias Busqueda Web Profunda
3/21
Estrategias y mecanismos de bsqueda en la web invisible
onvencionales en la web (Ellsworth, 1995). Tambin se la denomina web profunda (deepweb), por oposicin a la web superficial (surface web) cuya informacin puede recuperarseon los buscadores de Internet (Bergman, 2000). Un buscador es un sitio web cuyo propsitorincipal consiste en que el pblico pueda encontrar informacin. Estos mecanismos y eloftware que los apoya tratan de indizar toda la web, por lo que generan y mantienen enormesases de datos recuperables. A pesar de su pretendida exhaustividad, se calcula que los
mayores motores de bsqueda indizan slo entre un tercio y la mitad de los documentosdisponibles al pblico en la Red (Turner, 2003). Un estudio muy citado de Bright Planet hastimado que la informacin contenida en la web invisible es aproximadamente 550 veces
mayor que la de la web superficial y crece a mucha mayor velocidad (Bergman, 2000). Unstudio posterior de Cyveillance calcula que el tamao de la web profunda es 275 veces mayorue el de la web visible (Murray, 2000, citado en Ouf, 2001). Estimaciones posteriores, enambio, sealan que el tamao de la web invisible es slo entre 2 y 50 veces mayor que el dea web visible (Sherman y Price, 2001b). Las diferencias en las cifras se deben a las diferentes
metodologas utilizadas por los autores. En cualquier caso, el valor de la informacinontenida en la llamada web profunda justifica su estudio y el de sus formas de acceso.. Mecanismos de bsqueda en la web
La multiplicidad de trminos con que se alude a los mecanismos de rastreo, indizacin,ecuperacin y organizacin de documentos en la web puede causar confusin al usuarioomn. Lo cierto es que cada herramienta de bsqueda funciona y tiene un propsito y alcance
diferentes, pero cada vez ms las diferentes herramientas se combinan dando lugar a hbridos,ue pueden dificultar la comprensin del funcionamiento interno de estos mecanismos. Una
dificultad adicional es el nmero creciente de mecanismos disponibles, lo que hace an msecesario clasificarlos y diferenciarlos.Buscadores
A los softwares que usan los llamados buscadores, motores o maquinarias de bsqueda (searchngines) para localizar pginas agregables a sus bases de datos tambin se les denominandistintamente araas (spiders), rastreadores (crawlers) o robots (en el contexto web).
Estos rastrean e indizan de forma automtica pginas web, as como todos los documentoseferenciados en ellas. Los buscadores tambin aaden a sus bases de datos las pginas de
uya existencia son informados directamente por sus autores, as como los documentoseferenciados en las mismas. Los buscadores presentan interfaces para el pblico, queonsisten en cuadros donde realizar bsquedas de forma sencilla. Altavista, Ask Jeeves y
Google, entre otros, son buscadores.Los buscadores arrojan resultados sobre las bsquedas realizadas en sus propios ndices y noobre la web directamente. Esto ltimo sera imposible debido al volumen de informacin y aliempo requerido para realizar la bsqueda. El rastreo de pginas web que efectan los robotse realiza con periodicidad variable y, por economa, tiende a no ser muy frecuente. Por ello,iempre existe una diferencia entre lo que pueden recuperar los buscadores y lo que realmentee encuentra en la web.
Aparte del volumen y frecuencia de indizacin de documentos, la diferencia ms notoria entreos buscadores es su frmula para calcular la relevancia de la informacin recuperada y
file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (3 de 21)04/12/2006 01:53:57 p.m.
http://biblio.colmex.mx/recelec/web_invisible.htm#Ellsworthhttp://biblio.colmex.mx/recelec/web_invisible.htm#Bergmanhttp://biblio.colmex.mx/recelec/web_invisible.htm#Turnerhttp://biblio.colmex.mx/recelec/web_invisible.htm#Bergmanhttp://biblio.colmex.mx/recelec/web_invisible.htm#Oufhttp://biblio.colmex.mx/recelec/web_invisible.htm#Sherman%20y%20Pricebhttp://altavista.com/http://www.ask.com/http://www.google.com/intl/es/http://www.google.com/intl/es/http://www.ask.com/http://altavista.com/http://biblio.colmex.mx/recelec/web_invisible.htm#Sherman%20y%20Pricebhttp://biblio.colmex.mx/recelec/web_invisible.htm#Oufhttp://biblio.colmex.mx/recelec/web_invisible.htm#Bergmanhttp://biblio.colmex.mx/recelec/web_invisible.htm#Turnerhttp://biblio.colmex.mx/recelec/web_invisible.htm#Bergmanhttp://biblio.colmex.mx/recelec/web_invisible.htm#Ellsworth -
8/8/2019 Estrategias Busqueda Web Profunda
4/21
Estrategias y mecanismos de bsqueda en la web invisible
rdenar as su presentacin. Algunos buscadores se basan en un anlisis estadstico derecuencia de palabras en el texto, otros en el anlisis de la frecuencia con que las pginasstn ligadas a otras. En algunos casos, los buscadores muestran los resultados indicando elrado de relevancia de cada documento, mediante signos como estrellas, o bien conorcentajes.
Un estudio del 2000 (Notess, citado por Sherman y Price, 2001b) demostr que existe poco
olapamiento entre buscadores, lo cual tal vez justifica su proliferacin, ya que cada uno vaubriendo diferentes reas del espacio web, sin que por ahora sea posible tcnicamente queinguno sea exhaustivo.
Metabuscadores
Los metabuscadores (metasearch engines) son servidores web que realizan bsquedas enmuchos buscadores y/o directorios y presentan un resumen de los resultados, eliminandoduplicaciones. Los metabuscadores no se sirven de robots, sino que van a buscar directamente
los ndices de cada buscador. Dogpile, Mamma, Metacrawler o InfoSpace son ejemplos de
metabuscadores.Los metabuscadores, al igual que los buscadores, suelen presentar los resultados ordenados porelevancia y muchas veces indican de qu buscadores especficos se ha recuperado cada
documento.Una limitacin de los metabuscadores es que no suelen presentar opciones de bsquedavanzada, con lo cual se sacrifica la precisin en los resultados de las bsquedas.
Existen sitios web concentradores de buscadores y/o directorios, donde es posible realizarsquedas sucesivas en varios de ellos, seleccionndolos de listas preestablecidas. A veces, enstos directorios los buscadores y/o directorios se encuentran clasificados por especialidad oobertura geogrfica. En otros casos, como en Metasearch por ejemplo, existe un mecanismoue "traduce" la frmula de bsqueda y permite realizar bsquedas sucesivas en variosuscadores y/o directorios.
Directorios
Los directorios (directories) son organizados manualmente a partir del registro de pginas porarte de sus autores e implican una seleccin editorial y un proceso de categorizacinerarquizada. LookSmart y Yahoo! son algunos de los directorios ms conocidos.
Muchos directorios se especializan en un conjunto especfico de recursos, los cualeseneralmente son cuidadosamente seleccionados y descritos por los editores. Los editores den directorio pueden ser empleados por la empresa que lo realiza y entonces hablamos de un
modelo cerrado (closed model directories), que implica un mayor costo, pero tambin unmayor grado de calidad. Si los editores del directorio son voluntarios, entonces se habla de unmodelo abierto (open model directories), lo que significa un costo y calidad inferiores. Losriterios de seleccin de recursos pueden ser explcitos o no, y variar segn los editores,specialmente en los modelos abiertos.
Las categoras en las que se organiza el directorio pueden tener un nmero variable de recursos
sociados, con lo cual algunas veces unas categoras resultan saturadas y otras muy pocoepresentadas. En ocasiones, razones como la falta de tiempo, conocimientos o habilidades deos editores, limitan la cobertura de los directorios. Por otro lado, la poltica de solicitar unargo por incluir pginas, que han adoptado algunos directorios, puede desalentar la inclusin
file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (4 de 21)04/12/2006 01:53:57 p.m.
http://biblio.colmex.mx/recelec/web_invisible.htm#Sherman%20y%20Pricebhttp://www.dogpile.com/info.dogpl/http://www.mamma.com/http://www.metacrawler.com/info.metac/dog/index.htmhttp://www.infospace.com/home/searchhttp://www.metasearch.com/http://www.looksmart.com/http://mx.yahoo.com/http://mx.yahoo.com/http://www.looksmart.com/http://www.metasearch.com/http://www.infospace.com/home/searchhttp://www.metacrawler.com/info.metac/dog/index.htmhttp://www.mamma.com/http://www.dogpile.com/info.dogpl/http://biblio.colmex.mx/recelec/web_invisible.htm#Sherman%20y%20Priceb -
8/8/2019 Estrategias Busqueda Web Profunda
5/21
Estrategias y mecanismos de bsqueda en la web invisible
de recursos potencialmente valiosos.En cuanto a la actualizacin, como el mantenimiento del directorio debe ser manual, la
erificacin de ligas puede realizarse tan frecuentemente como se quiera, aunque esto noiempre sucede.
Muchos buscadores web incluyen un sistema de navegacin en forma de directorio pararientar la bsqueda de recursos en sus bases de datos. Por otro lado, debido a que la mayora
de los directorios tienen un tamao relativamente reducido, algunos directorios complementanus resultados con los de una bsqueda en algn buscador. Algunos sitios incluyen dospciones de bsqueda, en directorios compilados manualmente, o bien en buscadores que seirven de robots.
Frecuentemente los directorios tambin son denominados maquinarias de bsqueda (searchngines). Pero es importante distinguir entre los mecanismos que son buscadores y los queon directorios, ya que, como hemos visto, se conforman y funcionan de manera diferente. As,as formas de bsqueda ms eficientes varan en unos y otros. Mientras que la bsqueda poralabras es ms adecuada en los buscadores, la navegacin es ms recomendable en los
directorios. Derivado de ello, las bsquedas en las categoras de un directorio elaborado paran buscador, o las bsquedas por palabras en un directorio, presentarn ciertas limitaciones.
Por ejemplo, si se busca por palabras en un directorio, stas se extraern del ndice de ligaslinks) y anotaciones a esas ligas, que bsicamente componen el directorio y que excluyen elexto completo de las pginas referenciadas, a diferencia de los buscadores.
Guas
Diversos especialistas y entidades acadmicas se dan a la tarea de elaborar y mantener pginasoncentradoras de recursos web seleccionados por reas de especialidad, a modo de directorios
notados o guas temticas (subject guides), que pueden contener recursos que no sonecuperables con un buscador comn. Estos directorios anotados o guas temticas suelen tenern alto grado de calidad, ya que comprometen el prestigio de los autores e institucionesnvolucradas. La seleccin de recursos suele ser muy cuidadosa y su actualizacin frecuente.
En ocasiones diversas instituciones se asocian formando circuitos (web rings) para lalaboracin cooperativa de estas guas, dividindose cada una de las partes. Un buen ejemplo
de ello es The WWW Virtual Library.Los directorios anotados o guas pueden incluir, adems, algn mecanismo de bsqueda en sus
ginas o en la web en general.Tutoriales
Comnmente no basta con conocer la variedad de herramientas de bsqueda disponibles en laweb, sino que se requiere una orientacin sobre su funcionamiento, sobre qu estrategiaseguir para trazar una adecuada ruta de bsqueda y sobre cmo elegir los mejores instrumentosara cada necesidad.
How to Choose a Search Engine or Directory de la Universidad de Albany en Estados Unidos las guas de SearchAbility y de la Universidad de Leiden en HolandaA Collection of Special
Search Engines, orientan al usuario en el amplio mundo tanto de los recursos especializados ena web como de las maquinarias que permiten su localizacin.
Software especializado
file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (5 de 21)04/12/2006 01:53:57 p.m.
http://www.vlib.org/http://library.albany.edu/internet/choose.htmlhttp://www.searchability.com/http://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.searchability.com/http://library.albany.edu/internet/choose.htmlhttp://www.vlib.org/ -
8/8/2019 Estrategias Busqueda Web Profunda
6/21
Estrategias y mecanismos de bsqueda en la web invisible
Los agentes auxiliares para las bsquedas en la web son un tipo de programas que operan juntoon los navegadores web y aaden funcionalidades a stos, como el manejo de conceptos, enugar de palabras, para recuperar informacin. Flyswat, Kenjin y Zapper son algunos de estosrogramas. Otros agentes residen en el cliente web y permiten, por ejemplo, realizarsquedas simultneas en varios buscadores, eliminar las ligas muertas (dead links), refinar losesultados de las bsquedas o acceder a algunos sitios de la web invisible. Copernic, por
jemplo, es uno de estos agentes.. Estrategias de bsqueda en la webMuchas veces, resulta tan frustrante no encontrar informacin en la web, como confusodisponer de demasiadas opciones de bsqueda y no saber cmo emprenderla.A continuacin presento algunas estrategias generales que deben tenerse en cuenta para
tilizar las diferentes herramientas de bsqueda en la web de forma ms rpida y eficiente. Losubros bajo los cuales aparecen son orientativos.
Estrategias generales
Usar varios recursos de bsqueda, y no ceirse a uno exclusivamente para todos los tiposde bsqueda. Elaborar y mantener una lista propia de buscadores, metabuscadores, directorios, guas yecursos ms tiles. Guardar la seleccin en un archivo de Favoritos (bookmarks) en nuestraomputadora y/o en un servicio de acceso remoto a favoritos que permita consultar elrchivo desde cualquier computadora con acceso a la web, como Backflip.
Consultar a los bibliotecarios para recibir orientacin sobre estrategias de bsqueda yocalizacin de recursos de informacin en la web, y para obtener documentos.
Seleccin de herramientas Usar los tutoriales para aprender a seleccionar y utilizar las diferentes herramientas desqueda.
Objetivo de la bsqueda
Usar buscadores o metabuscadores para localizar informacin de la que poseemos datosspecficos. Usar directorios o guas para explorar reas de inters temtico.
Forma de bsqueda
Usar buscadores o metabuscadores para realizar bsquedas por palabras. Usar directorios o guas para revisar por categoras.Especializacin de la bsqueda
Usar metabuscadores para realizar bsquedas generales en muchos buscadores a la vez. Usar los concentradores o directorios de buscadores para buscar en varios buscadoresspecializados.
Precisin de la bsqueda
Seleccionar e instalar en nuestra computadora la versin gratuita de algn motor
vanzado o agente auxiliar para las bsquedas en la web. Solicitar la adquisicin para uso institucional de la versin completa de algn motorvanzado o agente auxiliar para las bsquedas en la web.
Mucha informacin recuperada
file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (6 de 21)04/12/2006 01:53:57 p.m.
http://www.copernic.com/en/index.htmlhttp://www.backflip.com/dir_start.ihtmlhttp://www.backflip.com/dir_start.ihtmlhttp://www.copernic.com/en/index.html -
8/8/2019 Estrategias Busqueda Web Profunda
7/21
Estrategias y mecanismos de bsqueda en la web invisible
Usar buscadores con opciones avanzadas de bsqueda. Usar directorios anotados o guas.
Seleccin de recursos
Usar las guas temticas para conocer los principales recursos de informacin que cubrenuestros intereses. Usar directorios especializados para bsquedas exhaustivas de recursos.
Poca informacin recuperada Usar mecanismos de bsqueda en la web invisible cuando se hayan agotado los
mecanismos de bsqueda en la web superficial. Consultar a especialistas que conozcan recursos especializados. Buscar en recursos adicionales si no se encuentra el material en la web.. Caracterizacin de la web invisible o profunda
Sherman y Price (2001a) identifican cuatro tipos de contenidos invisibles en la web: la webpaca (the opaque web), la web privada (the private web), la web propietaria (the proprietary
web) y la web realmente invisible (the truly invisible web).La web opaca
Se compone de archivos que podran estar incluidos en los ndices de los motores de bsqueda,ero no lo estn por alguna de estas razones: Extensin de la indizacin: por economa, no todas las pginas de un sitio son indizadasn los buscadores. Frecuencia de la indizacin: los motores de bsqueda no tienen la capacidad de indizarodas las pginas existentes; diariamente se aaden, modifican o desaparecen muchas y la
ndizacin no se realiza al mismo ritmo. Nmero mximo de resultados visibles: aunque los motores de bsqueda arrojan a vecesn gran nmero de resultados de bsqueda, generalmente limitan el nmero de documentosue se muestran (entre 200 y 1000 documentos). URLs desconectados: las generaciones ms recientes de buscadores, como Google,resentan los documentos por relevancia basada en el nmero de veces que apareceneferenciados o ligados en otros. Si un documento no tiene una liga en otro documento sermposible que la pgina sea descubierta, pues no habr sido indizada.
La web privadaConsiste en las pginas web que podran estar indizadas en los motores de bsqueda pero sonxcluidas deliberadamente por alguna de estas causas: Las pginas estn protegidas por contraseas (passwords). Contienen un archivo robots.txt para evitar ser indizadas. Contienen un campo noindex para evitar que el buscador indice la parteorrespondiente al cuerpo de la pgina.
La web propietaria
ncluye aquellas pginas en las que es necesario registrarse para tener acceso al contenido, yaea de forma gratuita o pagada. Se dice que al menos 95% de la web profunda contienenformacin de acceso pblico y gratuito (Turner, 2003)
La web realmente invisible
file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (7 de 21)04/12/2006 01:53:57 p.m.
http://biblio.colmex.mx/recelec/web_invisible.htm#Sherman%20y%20Priceahttp://www.google.com/intl/es/http://biblio.colmex.mx/recelec/web_invisible.htm#Turnerhttp://biblio.colmex.mx/recelec/web_invisible.htm#Turnerhttp://www.google.com/intl/es/http://biblio.colmex.mx/recelec/web_invisible.htm#Sherman%20y%20Pricea -
8/8/2019 Estrategias Busqueda Web Profunda
8/21
Estrategias y mecanismos de bsqueda en la web invisible
Se compone de pginas que no pueden ser indizadas por limitaciones tcnicas de losuscadores, como las siguientes: Pginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programasjecutables y archivos comprimidos. Pginas generadas dinmicamente, es decir, que se generan a partir de datos quentroduce el usuario.
Informacin almacenada en bases de datos relacionales, que no puede ser extrada amenos que se realice una peticin especfica. Otra dificultad consiste en la variable estructura diseo de las bases de datos, as como en los diferentes procedimientos de bsqueda.. Herramientas de bsqueda en la web profunda
Buscadores
En general, los buscadores han mejorado su desempeo en los ltimos aos, permitiendo unmayor nivel de precisin en las bsquedas y ofreciendo los resultados en formas cada vez msonvenientes para el usuario.
Pero por ahora, los buscadores comunes slo pueden recuperar directamente la informacinue se encuentra disponible en la web y no aquella que se ofrece a travs de la web.Desde que se empez a hablar de la web invisible los buscadores comunes han aadidouncionalidades adicionales para la bsqueda en la llamada web profunda y han surgidouscadores especializados en ese segmento de la web. Estos ltimos permiten la bsqueda
directa de artculos y documentos en texto completo y recuperan archivos PDF o PostScript.Metabuscadores
Como hemos visto, los metabuscadores pueden presentar limitaciones respecto a lasosibilidades de bsqueda de cada buscador por separado. Por ejemplo, cuando la bsqueda esobre materiales o formatos especiales, resulta ms prctico sacar provecho de las opcionesvanzadas de bsqueda de los buscadores y, si es necesario, realizar bsquedas sucesivas enarios de ellos. En este sentido, son ms recomendables los directorios concentradores deuscadores.
Directorios
La mayora de los mecanismos que se usan para localizar recursos en la web profundaonsisten en directorios de recursos especializados, principalmente bases de datos disponibles
de forma gratuita en la red. El patrocinio de las instituciones acadmicas en la elaboracin de
os directorios, particularmente de los que son anotados, garantiza la cobertura y calidad de losecursos compilados.
Guas
Las guas de recursos especializados generalmente estn elaboradas por bibliotecarios y sonna excelente herramienta de bsqueda y localizacin de recursos, adems de constituir unuen instrumento de aprendizaje en el uso de la informacin.
Tutoriales
Las pginas ya mencionadasHow to Choose a Search Engine or Directoryde la Universidadde Albany en Estados Unidos y las guas de SearchAbility y de la Universidad de Leiden enHolandaA Collection of Special Search Engines incluyen los recursos de informacin y
file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (8 de 21)04/12/2006 01:53:57 p.m.
http://library.albany.edu/internet/choose.htmlhttp://www.searchability.com/http://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.searchability.com/http://library.albany.edu/internet/choose.html -
8/8/2019 Estrategias Busqueda Web Profunda
9/21
Estrategias y mecanismos de bsqueda en la web invisible
squeda en la web profunda.
Motores avanzados
Finalmente, los recientes motores de pregunta dirigida (directed query engines) tienen laapacidad de realizar bsquedas simultneas en varias bases de datos en la web. Lexibot y su
ucesor, Deep Query Manager, as como Distributed Explorer (Warnick y otros, 2001) yFeedPoint, son ejemplos de estos motores avanzados de bsqueda.. Estrategias de bsqueda en la web profunda
Adems de las estrategias ya sealadas para la bsqueda en la web, podemos aadir otrasspecficas para la bsqueda en la web profunda o invisible, agrupadas en rubros orientativos.nformacin especializada
Usar las herramientas de bsqueda en la web profunda si buscamos informacincadmica de calidad.
Usar buscadores regionales especializados para localizar informacin originada fuera deos Estados Unidos o en idiomas diferentes al ingls. Usar metabuscadores para realizar bsquedas en varios buscadores especializados a laez.
Bsquedas avanzadas
Usar las opciones avanzadas de los buscadores para localizar imgenes o archivos PDF oPostScript. Usar directorios concentradores de buscadores para realizar bsquedas avanzadas
ucesivas en varios de ellos.Evaluacin de la informacin Usar directorios anotados para evaluar si los recursos disponibles en la web profunda sontiles para la bsqueda que estamos realizando. Usar directorios de bases de datos para conocer cules de ellas pueden ofrecernosnformacin til para nuestras bsquedas.nformacin en bases de datos
Usar guas, directorios o motores avanzados si la informacin que buscamos puede estar
n una base de datos.6. Compilacin de recursos de bsqueda en la web profundaA continuacin presentar una compilacin de recursos de bsqueda en la web profunda, queonsidero que pueden ser de utilidad para los usuarios acadmicos universitarios. Dada lamportancia de distinguir entre tipos de recursos para seleccionar el tipo de bsqueda aealizar, los presento clasificados segn su funcionalidad, como buscadores, metabuscadores,
directorios, guas y motores avanzados, primero ordenados alfabticamente y luego por tipo.
Recursos de bsqueda en la web profunda
ordenados alfabticamente
file:///C|/Documents%20and%20Settings/edudist/Es...%20de%20bsqueda%20en%20la%20web%20invisible.htm (9 de 21)04/12/2006 01:53:57 p.m.
http://www.brightplanet.com/products/product_specs.asphttp://biblio.colmex.mx/recelec/web_invisible.htm#Warnickhttp://www.quigo.com/feedpoint.htmhttp://www.quigo.com/feedpoint.htmhttp://biblio.colmex.mx/recelec/web_invisible.htm#Warnickhttp://www.brightplanet.com/products/product_specs.asp -
8/8/2019 Estrategias Busqueda Web Profunda
10/21
Estrategias y mecanismos de bsqueda en la web invisible
Recurso TipoAbout
ttp://www.about.com/Gua
AcademicInfo
ttp://www.academicinfo.net/Directorio
AlphaSearchttp://www.alphasearch.org/ Directorio de buscadores
Beaucoup
ttp://www.beaucoup.com/Directorio de buscadores
The Big Hub
ttp://www.thebighub.com/Directorio
Boogie
ttp://www.iboogie.tv/
MetabuscadorCollection of Search Engines
ttp://www.leidenuniv.nl/ub/biv/specials.htmDirectorio de buscadores
CompletePlanet
ttp://www.completeplanet.com/Directorio
Deep Query Manager (sustituye a Lexibot)ttp://brightplanet.com/news/dqm2.asp
Motor avanzado
Direct Searchttp://www.freepint.com/gary/direct.htm
Directorio
Fazzle
ttp://www.fazzle.com/Metabuscador
FeedPoint
ttp://www.quigo.com/feedpoint.htmMotor avanzado
Fossick
ttp://fossick.com/
Metabuscador
HotSheet
ttp://www.hotsheet.com/Directorio
ncyWincy
ttp://www.incywincy.com/Directorio
nfomine
ttp://infomine.ucr.edu/Directorio
nternetInvisiblettp://www.internetinvisible.com/
Directorio
file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (10 de 21)04/12/2006 01:53:57 p.m.
http://www.about.com/http://www.about.com/http://www.academicinfo.net/http://www.academicinfo.net/http://www.alphasearch.org/http://www.alphasearch.org/http://www.beaucoup.com/http://www.beaucoup.com/http://www.thebighub.com/http://www.thebighub.com/http://www.iboogie.tv/http://www.iboogie.tv/http://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.completeplanet.com/http://www.completeplanet.com/http://brightplanet.com/news/dqm2.asphttp://brightplanet.com/news/dqm2.asphttp://www.freepint.com/gary/direct.htmhttp://www.freepint.com/gary/direct.htmhttp://www.fazzle.com/http://www.fazzle.com/http://www.quigo.com/feedpoint.htmhttp://www.quigo.com/feedpoint.htmhttp://fossick.com/http://fossick.com/http://www.hotsheet.com/http://www.hotsheet.com/http://www.incywincy.com/http://www.incywincy.com/http://infomine.ucr.edu/http://infomine.ucr.edu/http://www.internetinvisible.com/http://www.internetinvisible.com/http://www.internetinvisible.com/http://www.internetinvisible.com/http://infomine.ucr.edu/http://infomine.ucr.edu/http://www.incywincy.com/http://www.incywincy.com/http://www.hotsheet.com/http://www.hotsheet.com/http://fossick.com/http://fossick.com/http://www.quigo.com/feedpoint.htmhttp://www.quigo.com/feedpoint.htmhttp://www.fazzle.com/http://www.fazzle.com/http://www.freepint.com/gary/direct.htmhttp://www.freepint.com/gary/direct.htmhttp://brightplanet.com/news/dqm2.asphttp://brightplanet.com/news/dqm2.asphttp://www.completeplanet.com/http://www.completeplanet.com/http://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.iboogie.tv/http://www.iboogie.tv/http://www.thebighub.com/http://www.thebighub.com/http://www.beaucoup.com/http://www.beaucoup.com/http://www.alphasearch.org/http://www.alphasearch.org/http://www.academicinfo.net/http://www.academicinfo.net/http://www.about.com/http://www.about.com/ -
8/8/2019 Estrategias Busqueda Web Profunda
11/21
Estrategias y mecanismos de bsqueda en la web invisible
nternets
ttp://www.internets.com/Directorio
nvisibleWeb.com
ttp://www.invisibleweb.com/Directorio
nvisible Web Directory
ttp://www.invisible-web.net/Directorio
xquick
ttp://www.ixquick.com/Metabuscador
Librarians Index
ttp://lii.org/Directorio
LibrarySpot
ttp://www.libraryspot.com/Gua
Master Link List On the Internetttp://www.web-friend.com/links/masterlinks.html
Directorio
ProFusion
ttp://www.profusion.com/Metabuscador
RefDesk.com
ttp://refdesk.com/Directorio
ResearchIndex (CiteSeer)ttp://citeseer.nj.nec.com/cs Buscador
Resource Discovery Network
ttp://www.rdn.ac.uk/Directorio anotado
Scirus
ttp://www.scirus.com/Buscador
Search.Com
ttp://www.search.com/
Metabuscador
Search4science
ttp://www.search4science.com/Motor avanzado
Strategic Finder
ttp://www.strategicfinder.com/Motor avanzado
WebData.com
ttp://www.webdata.com/Directorio de bases de datos
Webfile.comttp://webfile.com/ Directorio
file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (11 de 21)04/12/2006 01:53:57 p.m.
http://www.internets.com/http://www.internets.com/http://www.invisibleweb.com/http://www.invisibleweb.com/http://www.invisible-web.net/http://www.invisible-web.net/http://www.ixquick.com/http://www.ixquick.com/http://lii.org/http://lii.org/http://www.libraryspot.com/http://www.libraryspot.com/http://www.web-friend.com/links/masterlinks.htmlhttp://www.web-friend.com/links/masterlinks.htmlhttp://www.web-friend.com/links/masterlinks.htmlhttp://www.profusion.com/http://www.profusion.com/http://refdesk.com/http://refdesk.com/http://citeseer.nj.nec.com/cshttp://citeseer.nj.nec.com/cshttp://www.rdn.ac.uk/http://www.rdn.ac.uk/http://www.scirus.com/http://www.scirus.com/http://www.search.com/http://www.search.com/http://www.search4science.com/http://www.search4science.com/http://www.strategicfinder.com/http://www.strategicfinder.com/http://www.webdata.com/http://www.webdata.com/http://webfile.com/http://webfile.com/http://webfile.com/http://webfile.com/http://www.webdata.com/http://www.webdata.com/http://www.webdata.com/http://www.strategicfinder.com/http://www.strategicfinder.com/http://www.search4science.com/http://www.search4science.com/http://www.search.com/http://www.search.com/http://www.scirus.com/http://www.scirus.com/http://www.rdn.ac.uk/http://www.rdn.ac.uk/http://citeseer.nj.nec.com/cshttp://citeseer.nj.nec.com/cshttp://refdesk.com/http://refdesk.com/http://www.profusion.com/http://www.profusion.com/http://www.web-friend.com/links/masterlinks.htmlhttp://www.web-friend.com/links/masterlinks.htmlhttp://www.web-friend.com/links/masterlinks.htmlhttp://www.libraryspot.com/http://www.libraryspot.com/http://lii.org/http://lii.org/http://www.ixquick.com/http://www.ixquick.com/http://www.invisible-web.net/http://www.invisible-web.net/http://www.invisibleweb.com/http://www.invisibleweb.com/http://www.internets.com/http://www.internets.com/ -
8/8/2019 Estrategias Busqueda Web Profunda
12/21
Estrategias y mecanismos de bsqueda en la web invisible
WebSearch
ttp://www.websearch.com.au/Buscador
Where to Do Research
ttp://www.wheretodoresearch.com/Directorio
Recursos de bsqueda en la web profunda
por tipo de recurso
Tipo de recurso Nombre y direccin del recurso
Buscadores ResearchIndex (CiteSeer)http://citeseer.nj.nec.com/cs
Scirus
http://www.scirus.com/
WebSearch
http://www.websearch.com.au/
Metabuscadores iBoogiehttp://www.iboogie.tv/
Fazzle
http://www.fazzle.com/
Fossick
http://fossick.com/
Ixquick
http://www.ixquick.com/
ProFusion
http://www.profusion.com/
file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (12 de 21)04/12/2006 01:53:57 p.m.
http://www.websearch.com.au/http://www.websearch.com.au/http://www.wheretodoresearch.com/http://www.wheretodoresearch.com/http://citeseer.nj.nec.com/cshttp://citeseer.nj.nec.com/cshttp://www.scirus.com/http://www.scirus.com/http://www.websearch.com.au/http://www.websearch.com.au/http://www.iboogie.tv/http://www.iboogie.tv/http://www.fazzle.com/http://www.fazzle.com/http://fossick.com/http://fossick.com/http://www.ixquick.com/http://www.ixquick.com/http://www.profusion.com/http://www.profusion.com/http://www.profusion.com/http://www.profusion.com/http://www.ixquick.com/http://www.ixquick.com/http://fossick.com/http://fossick.com/http://www.fazzle.com/http://www.fazzle.com/http://www.iboogie.tv/http://www.iboogie.tv/http://www.websearch.com.au/http://www.websearch.com.au/http://www.scirus.com/http://www.scirus.com/http://citeseer.nj.nec.com/cshttp://citeseer.nj.nec.com/cshttp://www.wheretodoresearch.com/http://www.wheretodoresearch.com/http://www.websearch.com.au/http://www.websearch.com.au/ -
8/8/2019 Estrategias Busqueda Web Profunda
13/21
Estrategias y mecanismos de bsqueda en la web invisible
Search.Com
http://www.search.com/
Directorios de buscadores AlphaSearchhttp://www.alphasearch.org/
Beaucoup
http://www.beaucoup.com/
Collection of Search Engines
http://www.leidenuniv.nl/ub/biv/specials.htm
Directorios
The Big Hubhttp://www.thebighub.com/
CompletePlanet
http://www.completeplanet.com/
Direct Search
http://www.freepint.com/gary/direct.htm
HotSheet
http://www.hotsheet.com/
IncyWincy
http://www.incywincy.com/
Infominehttp://infomine.ucr.edu/
InternetInvisible
http://www.internetinvisible.com/
Internets
http://www.internets.com/
file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (13 de 21)04/12/2006 01:53:57 p.m.
http://www.search.com/http://www.search.com/http://www.alphasearch.org/http://www.alphasearch.org/http://www.beaucoup.com/http://www.beaucoup.com/http://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.thebighub.com/http://www.thebighub.com/http://www.thebighub.com/http://www.completeplanet.com/http://www.completeplanet.com/http://www.freepint.com/gary/direct.htmhttp://www.freepint.com/gary/direct.htmhttp://www.hotsheet.com/http://www.hotsheet.com/http://www.incywincy.com/http://www.incywincy.com/http://infomine.ucr.edu/http://infomine.ucr.edu/http://www.internetinvisible.com/http://www.internetinvisible.com/http://www.internets.com/http://www.internets.com/http://www.internets.com/http://www.internets.com/http://www.internetinvisible.com/http://www.internetinvisible.com/http://infomine.ucr.edu/http://infomine.ucr.edu/http://www.incywincy.com/http://www.incywincy.com/http://www.hotsheet.com/http://www.hotsheet.com/http://www.freepint.com/gary/direct.htmhttp://www.freepint.com/gary/direct.htmhttp://www.completeplanet.com/http://www.completeplanet.com/http://www.thebighub.com/http://www.thebighub.com/http://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.leidenuniv.nl/ub/biv/specials.htmhttp://www.beaucoup.com/http://www.beaucoup.com/http://www.alphasearch.org/http://www.alphasearch.org/http://www.search.com/http://www.search.com/ -
8/8/2019 Estrategias Busqueda Web Profunda
14/21
Estrategias y mecanismos de bsqueda en la web invisible
InvisibleWeb.com
http://www.invisibleweb.com/
Invisible Web Directory
http://www.invisible-web.net/
Librarians Index
http://lii.org/
Master Link List On the Internet
http://www.web-friend.com/links/masterlinks.html
RefDesk.com
http://refdesk.com/
Webfile.com
http://webfile.com/
Where to Do Research
http://www.wheretodoresearch.com/
Directorios anotados AcademicInfohttp://www.academicinfo.net/
Resource Discovery Network
http://www.rdn.ac.uk/
Directorios de bases de datos WebData.comhttp://www.webdata.com/
Guas Abouthttp://www.about.com/
LibrarySpot
http://www.libraryspot.com/
Motores avanzados Deep Query Manager (sustituye a Lexibot)http://brightplanet.com/news/dqm2.asp
file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (14 de 21)04/12/2006 01:53:57 p.m.
http://www.invisibleweb.com/http://www.invisibleweb.com/http://www.invisible-web.net/http://www.invisible-web.net/http://lii.org/http://lii.org/http://www.web-friend.com/links/masterlinks.htmlhttp://www.web-friend.com/links/masterlinks.htmlhttp://refdesk.com/http://refdesk.com/http://webfile.com/http://webfile.com/http://www.wheretodoresearch.com/http://www.wheretodoresearch.com/http://www.academicinfo.net/http://www.academicinfo.net/http://www.rdn.ac.uk/http://www.rdn.ac.uk/http://www.webdata.com/http://www.webdata.com/http://www.about.com/http://www.about.com/http://www.libraryspot.com/http://www.libraryspot.com/http://brightplanet.com/news/dqm2.asphttp://brightplanet.com/news/dqm2.asphttp://brightplanet.com/news/dqm2.asphttp://brightplanet.com/news/dqm2.asphttp://www.libraryspot.com/http://www.libraryspot.com/http://www.about.com/http://www.about.com/http://www.webdata.com/http://www.webdata.com/http://www.rdn.ac.uk/http://www.rdn.ac.uk/http://www.academicinfo.net/http://www.academicinfo.net/http://www.wheretodoresearch.com/http://www.wheretodoresearch.com/http://webfile.com/http://webfile.com/http://refdesk.com/http://refdesk.com/http://www.web-friend.com/links/masterlinks.htmlhttp://www.web-friend.com/links/masterlinks.htmlhttp://lii.org/http://lii.org/http://www.invisible-web.net/http://www.invisible-web.net/http://www.invisibleweb.com/http://www.invisibleweb.com/ -
8/8/2019 Estrategias Busqueda Web Profunda
15/21
Estrategias y mecanismos de bsqueda en la web invisible
FeedPoint
http://www.quigo.com/feedpoint.htm
Search4science
http://www.search4science.com/
Strategic Finder
http://www.strategicfinder.com/
7. Qu tan invisible es hoy la web invisible?
La web opaca
No cabe duda de que los actuales buscadores y directorios de la web estn mejorando suuncionamiento. Ms all de los detalles tcnicos que el pblico no alcanza a ver, la eficienciade estas maquinarias ha aumentado y esto se aprecia en los resultados de las bsquedas. Amedida que estas herramientas se vayan haciendo ms poderosas disminuir la necesidad de lalaboracin manual de guas o concentradores de recursos y quizs ms la de orientacin enas estrategias de bsqueda y en el uso y aprovechamiento de los recursos localizados.
Un observador cuidadoso puede apreciar que persiste la prctica de los robots de no indizarodas las pginas de un sitio, fijndose en los resultados de las bsquedas que arrojan las
diferentes herramientas. Por ejemplo, se puede tener la referencia de una base de datos,disponible a travs de un sitio web, en una de las pginas del sitio que contiene una liga a ella,
no aparecer, en cambio, la referencia a la pgina de acceso directo a la base de datos en eseitio.
La frecuencia de la indizacin puede haber aumentado en algunos buscadores, o inclusoacerse de forma diferenciada para algunos recursos. Aquellas pginas que, por su naturaleza,aran ms (por ejemplo, la informacin burstil) seran visitadas ms frecuentemente por losobots que aquellas que tienden a ser ms estables en su contenido.
El nmero mximo de resultados visibles no es un problema cuando los buscadores presentan
os resultados ordenados por relevancia, pues siempre aparecern primero aquellos que sejustan ms a la bsqueda realizada. En la medida en que se pueda realizar una bsquedavanzada y los criterios de relevancia combinen el nmero de ligas con la frecuencia dealabras, la presentacin de los resultados no constituir un obstculo para encontrar lanformacin. El usuario siempre debe tener en cuenta que los buscadores son ms apropiadosuando la bsqueda es especfica, es decir, se conocen datos sobre lo que se busca; mientrasue es ms adecuado realizar bsquedas temticas en los directorios.
Los URLs desconectados podran evitarse si existiera la obligacin de registrar, aunque fuera
de forma muy sencilla, toda pgina que se colgara en la web. Pero dada la grandescentralizacin de Internet, esto no parece vislumbrarse en un futuro inmediato.La web privada
Este segmento de la web no representa una gran prdida en trminos de valor de la
file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (15 de 21)04/12/2006 01:53:57 p.m.
http://www.quigo.com/feedpoint.htmhttp://www.quigo.com/feedpoint.htmhttp://www.search4science.com/http://www.search4science.com/http://www.strategicfinder.com/http://www.strategicfinder.com/http://www.strategicfinder.com/http://www.strategicfinder.com/http://www.search4science.com/http://www.search4science.com/http://www.quigo.com/feedpoint.htmhttp://www.quigo.com/feedpoint.htm -
8/8/2019 Estrategias Busqueda Web Profunda
16/21
Estrategias y mecanismos de bsqueda en la web invisible
nformacin que contiene, ya que se trata, en general, de documentos excluidosdeliberadamente por su falta de utilidad. En cualquier caso, son los dueos de la informacinos que deciden no hacerla disponible, por lo que difcilmente se podrn encontrar mecanismosegtimos para franquear esa barrera. Adems, los archivos robots.txt sirven para evitar que losobots caigan en agujeros negros, que les hagan entrar en procesos circulares interminables,
mermando as la eficiencia en su funcionamiento (Koster, 1997).
La web propietariaEn un artculo reciente de la OCLC Office for Research (ONeill, 2003) se examinan lasendencias en cuanto a tamao, crecimiento e internacionalizacin de la web pblica, es decir,a porcin de informacin ms visible y accesible para el usuario promedio. Las principalesonclusiones del estudio son: El crecimiento de la web pblica muestra un estancamiento en los ltimos aos. Ello se
debe a que se crean menos sitios web y otros desaparecen, aunque esto no quiere decir que noumente en volumen de informacin, es decir, en nmero de pginas o nmero de terabytes.
Otra posibilidad, que no se seala en este estudio, pero que puede aventurarse, es que algunositios web estn transformndose en sitios accesibles solamente mediante pago. La web pblica est dominada por contenidos originados en los Estados Unidos, as comoscritos en ingls. Esto nos lleva a pensar que es probable que haya ms recursos invisibles enginas originadas en pases distintos a los Estados Unidos y en idioma diferente al ingls.
La web realmente invisible
Algunos buscadores tradicionales como Altavista o Google han evolucionado y presentanhora la posibilidad de realizar bsquedas por materiales o formatos especiales. As, Altavista
ermite la bsqueda de imgenes, audio y video, presentando opciones de bsqueda avanzada.Google permite realizar bsquedas avanzadas para localizar imgenes. Por su parte, eloncentrador HotBot presenta la posibilidad de buscar por distintos formatos, para localizarmgenes, audio, vdeo, archivos PDF, Script y Shockwave/Flash. Estas opciones estn activasn HotBot para los buscadores Fast (Altheweb) e Inktomi (Pure Web Search), mientras que nouncionan con Teoma ni Google, aunque como dijimos existe esta posibilidad si se realiza lasqueda directamente desde el sitio de Google.
Estas bsquedas en materiales especiales, como imgenes, audio y vdeo son posibles porque
e realiza una catalogacin textual de stos. Las bsquedas en materiales en formatos comoPDF, Flash, etc. se pueden realizar porque existen directorios de estos archivos. As, el
rincipal medio por el cual se pueden efectuar las bsquedas es el texto. Por ejemplo, siueremos recuperar imgenes en blanco y negro, stas deben estar clasificadas de ese modo ena base de datos. Esto implica, desde luego un proceso manual. Hoy por hoy, los mtodosibliotecarios tradicionales resultan ser los ms eficaces en la bsqueda de informacin, al
menos mientras la inteligencia artificial no avance ms. Realizar una bsqueda del tipo quierootografas de personas que se parezcan a Woody Allen slo es posible si hay un especialista
ue clasifique las imgenes para distinguir si se trata de dibujos o fotografas, si stas son deersonas, y adems incluya la informacin acerca de los parecidos. Las maquinarias actualesde bsqueda son extraordinariamente eficaces para recuperar informacin textual, pero esto noxcluye la necesidad de la catalogacin y clasificacin de los recursos. Por lo mismo, el
file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (16 de 21)04/12/2006 01:53:57 p.m.
http://biblio.colmex.mx/recelec/web_invisible.htm#Kosterhttp://biblio.colmex.mx/recelec/web_invisible.htm#O'Neillhttp://altavista.com/http://www.google.com/intl/es/http://altavista.com/http://www.google.com/intl/es/http://www.hotbot.com/http://www.hotbot.com/http://www.altheweb.com/http://search.positiontech.com/InktomiSearch/PositionTechSearch.jsphttp://www.teoma.com/http://www.google.com/intl/es/http://www.google.com/intl/es/http://www.google.com/intl/es/http://www.google.com/intl/es/http://www.teoma.com/http://search.positiontech.com/InktomiSearch/PositionTechSearch.jsphttp://www.altheweb.com/http://www.hotbot.com/http://www.hotbot.com/http://www.google.com/intl/es/http://altavista.com/http://www.google.com/intl/es/http://altavista.com/http://biblio.colmex.mx/recelec/web_invisible.htm#O'Neillhttp://biblio.colmex.mx/recelec/web_invisible.htm#Koster -
8/8/2019 Estrategias Busqueda Web Profunda
17/21
Estrategias y mecanismos de bsqueda en la web invisible
mero de archivos de este tipo que se pueden recuperar con los buscadores actuales tiene queer limitado. Una pgina web que contiene una imagen, sin mayor informacin textual acerca eu contenido, no podr ser recuperada automticamente ms que por su extensin (.jpg, porjemplo).
Como hemos visto, la definicin ms genrica de lo que constituye la web invisible o profundapunta a los recursos que no pueden ser recuperados mediante las herramientas comunes de
squeda. Para verificar qu tan visible es la porcin de la web profunda que ha sidodentificada por los autores de The Invisible Web, he seleccionado al azar diez recursos de suThe Invisible Web Directoryy he procedido a realizar la bsqueda en un buscador, undirectorio, un metabuscador y un agente metabuscador avanzado en su versin gratuita. Losesultados de esta sencilla prueba aparecen reflejados en el cuadro de la pgina siguiente.
Resultados de bsqueda de recursos de The Invisible Web DirectoryRecurso MSN Yahoo! MetaCrawler Copernic
Artcyclopedia SI SI SI (6 buscadores) SI (8 buscadores)
CRA ForsytheList
SI SI SI (3 buscadores) SI (5 buscadores)
Current Films inhe WorkBoxoffice
Hollywood HotSet)
SI SI SI (3 buscadores) SI (4 buscadores)
EmployeeBenefitsNFOSOURCE
SI SI SI (2 buscadores) SI (3 buscadores)
Hamnet SI SI SI (4 buscadores) SI (6 buscadores)
nfonation SI SI SI (5 buscadores) SI (7 buscadores)
ourlit SI SI SI (3 buscadores) SI (7 buscadores)
Scholarly
Societies Project
SI SI SI (4 buscadores) SI (6 buscadores)
VesselRegistrationQuery System
SI SI SI (2 buscadores) SI (6 buscadores)
Whos who inAmerican ArtAskArt)
SI SI SI (6 buscadores) SI (8 buscadores)
Vemos que todos los recursos seleccionados de The Invisible Web Directory son localizableson las actuales herramientas de bsqueda. Adems, en los resultados se observa que existen
mltiples referencias en otras pginas, es decir, que se trata de pginas conectadas. La nicadificultad para encontrarlas consiste, en algunos casos, en las palabras con las cuales se
file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (17 de 21)04/12/2006 01:53:57 p.m.
http://www.invisible-web.net/http://www.invisible-web.net/http://www.artcyclopedia.com/http://www.cra.org/reports/forsythe.htmlhttp://www.cra.org/reports/forsythe.htmlhttp://www.boxoff.com/justinhotset.htmlhttp://www.boxoff.com/justinhotset.htmlhttp://www.ifebp.org/infosource/default.asphttp://www.ifebp.org/infosource/default.asphttp://www.ifebp.org/infosource/default.asphttp://shakespeare.folger.edu/http://cyberschoolbus.un.org/infonation/info.asphttp://www.apsa.org/lit/http://ssp-search.uwaterloo.ca/compound.cfmhttp://ssp-search.uwaterloo.ca/compound.cfmhttp://www.tc.gc.ca/ShipRegistry/menu.asp?lang=ehttp://www.tc.gc.ca/ShipRegistry/menu.asp?lang=ehttp://www.tc.gc.ca/ShipRegistry/menu.asp?lang=ehttp://www.askart.com/http://www.askart.com/http://www.invisible-web.net/http://www.invisible-web.net/http://www.askart.com/http://www.askart.com/http://www.tc.gc.ca/ShipRegistry/menu.asp?lang=ehttp://www.tc.gc.ca/ShipRegistry/menu.asp?lang=ehttp://www.tc.gc.ca/ShipRegistry/menu.asp?lang=ehttp://ssp-search.uwaterloo.ca/compound.cfmhttp://ssp-search.uwaterloo.ca/compound.cfmhttp://www.apsa.org/lit/http://cyberschoolbus.un.org/infonation/info.asphttp://shakespeare.folger.edu/http://www.ifebp.org/infosource/default.asphttp://www.ifebp.org/infosource/default.asphttp://www.ifebp.org/infosource/default.asphttp://www.boxoff.com/justinhotset.htmlhttp://www.boxoff.com/justinhotset.htmlhttp://www.cra.org/reports/forsythe.htmlhttp://www.cra.org/reports/forsythe.htmlhttp://www.artcyclopedia.com/http://www.invisible-web.net/http://www.invisible-web.net/ -
8/8/2019 Estrategias Busqueda Web Profunda
18/21
Estrategias y mecanismos de bsqueda en la web invisible
denomina el sitio o el recurso. Por ejemplo, en el The Invisible Web Directoryaparece VesselQuery Registration System, en lugar de Vessel Registration Query System, lo cual hace quea bsqueda por todas las palabras sea exitosa, pero la bsqueda por frase no. Igualmente, la
denominacin de Whos who in American Art para el sitio de AskArt, dificulta lasqueda, mientras que si se busca directamente por su nombre aparece en numerososuscadores. La tabla refleja adems cmo el solapamiento entre buscadores es variable.
Desde luego, se puede decir que el contenido de las bases de datos que estn incluidas en estedirectorio es invisible, ya que es necesario realizar las bsquedas directamente en cada una dellas. Pero lo cierto es que llegar hasta la puerta de estas bases de datos resulta relativamenteencillo. El mismo hecho de que el directorio haya sido colocado en la web, le confiere mayorisibilidad a los recursos incluidos, ya que las ligas en el directorio aumentan la posibilidad dendizacin de esas pginas. Entonces, podemos decir que The Invisible Web Directoryes unuen directorio de recursos y bases de datos disponibles en la web, pero no un directorio deecursos invisibles.
En conclusin, lo que realmente sigue siendo invisible en la web son:-- las pginas desconectadas;-- las pginas no clasificadas que contienen principalmente imgenes, audioo vdeo;-- las pginas no clasificadas que contienen principalmente archivos PDF,PostScript, Flash, Shockwave, ejecutables y comprimidos;-- el contenido de las bases de datos relacionales;-- el contenido que se genera en tiempo real;-- el contenido que se genera dinmicamente.
Pero:-- algunos buscadores recuperan archivos PDF y pginas con imgenes,aunque de forma limitada;-- es relativamente sencillo llegar hasta la puerta de las bases de datos concontenido importante;-- existen ya motores avanzados capaces de realizar bsquedas directassimultneas en varias bases de datos a la vez; y aunque la mayora requieren depago, tambin ofrecen versiones gratuitas;
-- el contenido que se genera en tiempo real pierde validez con muchavelocidad, salvo para anlisis histricos;-- es relativamente sencillo llegar hasta la puerta de los servicios queofrecen informacin en tiempo real;-- el contenido que se genera dinmicamente interesa nicamente a ciertosusuarios con caractersticas especficas;-- es relativamente sencillo llegar hasta la puerta de los servicios queofrecen contenido generado dinmicamente.
8. Bibliografa
file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (18 de 21)04/12/2006 01:53:57 p.m.
http://www.invisible-web.net/http://www.invisible-web.net/http://www.invisible-web.net/http://www.invisible-web.net/ -
8/8/2019 Estrategias Busqueda Web Profunda
19/21
Estrategias y mecanismos de bsqueda en la web invisible
1. A collection of special search engines [Pgina Web]. Consultada 2003 Abr.24. Disponible en: http://www.leidenuniv.nl/ub/biv/specials.htm
2. The Deep Web [Pgina Web]. 2002; Consultada 2003 Mayo 6. Disponibleen: http://library.albany.edu/internet/deepweb.html.University at Albany Libraries. Internet tutorials
3. FOLDOC: Free On-Line Dictionary of Computing [Pgina Web].Consultada 2003 Abr. 24. Disponible en : http://foldoc.doc.ic.ac.uk/foldoc/
4. How to Choose a Search Engine or Directory [Pgina Web]. 2003 ;Consultada 2003 Mayo 14. Disponible en: http://library.albany.edu/internet/choose.html
5. Invisible Web: What it is, Why it exists, How to find it, and Its inherent
ambiguity [Pgina Web]. Consultada 2003 Mayo 5. Disponible en: http;//www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html.UC Berkeley. Teaching Library Internet Workshops. Finding information on theInternet: a tutorial.
6. Search Engines Terms: As Suggested by Members of the I-Search Digest[Pgina Web]. Consultada 2003 Abr. 24. Disponible en: http://www.cadenza.org/search_engine_terms/
7. Top 25 Invisible Web Categories. Searcher. 2001; 9(6):68-72.
8. Le Web Invisible [Pgina Web]. Consultada 2003 Mayo 5. Disponible en:http://f.magnan.free.fr/web_invisible.htm
9. What is Fast? [Pgina Web]. Consultada 2003 Mayo 13. Disponible en:http://www.lexibot.com/howitworks/whatisfast.asp
10. The WWW Virtual Library [Pgina Web]. Consultada 2003 Abr 24.Disponible en: http://www.vlib.org/
11. Bergman, Michael K. The Deep Web: Surfacing Hidden Value. BrightPlanet; 2000.
12. Botluk, Diana. Minig Deeper Into the Invisible Web . Law LibraryResource Xchange; 2000.Features.
13. Dragutsky, Paula. Guides to Specialized Search Engines [Pgina Web].2003; Consultada 2003 Mayo 15. Disponible en: http://www.searchability.com
file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (19 de 21)04/12/2006 01:53:57 p.m.
-
8/8/2019 Estrategias Busqueda Web Profunda
20/21
Estrategias y mecanismos de bsqueda en la web invisible
14. Daz, Karen R. The Invisible Web: Navigating the Web outside TraditionalSearch Engines. Reference & User Services Quarterly. 2000; 40(2):131-134.
15. Ellsworth, Jill and Ellsworth, Matthew V. Marketing on the Internet :Multimedia Strategies for the World Wide Web. New York: John Wiley & Sons;1995.
16. Koster, Martijn. Robots in the Web: threat or treat? [Pgina Web]. 1997;Consultada 2003 Mayo 16. Disponible en: http://www.robotstxt.org/wc/threat-ortreat.html.
17. O'Neill, Edward T.; Lavoie, Brian F., and Bennett, Rick. Trends in theEvolution of the Public Web: 1998-2002. D-Lib Magazine. 2003; 9(4).
18. Ouf, Rehib. Le Dynamisme du World Wide Web: Taille, Croissance,
Visibilit, Distribution et Accessibilit de l'Information. Lyon, France: EcoleNationale Suprieure des Sciences de l'Information et des Bibliothques; 2001.
19. Salazar Garca, Idoia. La Red profunda: lo que los buscadoresconvencionales no encuentran. En: Fernndez Muerza, Alex and Dantart Usn,Alex, Coordinacin. Congreso ONLINE del Observatorio para la CiberSociedad;Espaa.Comunicaciones - Grupo 20: Periodismo y Comunicacin Digital
20. Sherman, Chris. The Invisible Web. Free Pint. 2000; (64).
21. ---. Navigating the Invisible Web. SearchDay. 2001.
22. Sherman, Chris and Price, Gary. The invisible Web. Searcher. 2001; 8(9):62-74.
23. ---. The invisible Web: Uncovering information sources search engines can'tsee. Medford, New Jersey: CyberAge Books; Information Today; 2001.
24. Sullivan, Danny. Invisible Web Gets Deeper. The Search Engine Report.2000.
25. Turner, Laura. Doing it Deeper: The Deep Web [Pgina Web]. Consultada2003 Mayo 2. Disponible en: http://www.bhsu.edu/education/edfaculty/lturner/The%20Deep%20Web%20article1.doc
26. Warnick, Walter L; Lederman, Abe; Scott, R. L.; Spence, Karen J.;Johnson, Lorrie A., and Allen, Valerie S. Searching the Deep Web: DirectedQuery Engine Applications at the Department of Energy. D-Lib Magazine. 2001;7(1).
file:///C|/Documents%20and%20Settings/edudist/E...20de%20bsqueda%20en%20la%20web%20invisible.htm (20 de 21)04/12/2006 01:53:57 p.m.
-
8/8/2019 Estrategias Busqueda Web Profunda
21/21
Estrategias y mecanismos de bsqueda en la web invisible
27. Wiseman, Ken . The invisible Web [Pgina Web]. Consultada 2002 Mayo5. Disponible en: http://www3.dist214,k12.il.us/invisible/article/invisiblearticle.html
top related