analisis de internet profundo e invisible

REALIZAR UN BREVE ANÁLISIS SOBRE

LAS LECTURAS DE TARINGA SOBRE LA

INTERNET PROFUNDA O INVISIBLE

DEFINICION

• Se denomina 'Internet invisible' o Infranet al conjunto de recursos accesibles únicamente a través de algún tipo de pasarela o formulario Web que por tanto, no pueden ser indicados de forma estructural por los robots de los buscadores. Es toda la información a la cual no acceden los buscadores comunes. Generalmente, es información almacenada y accesible mediante base de datos. Se llama Internet invisible al conjunto de recursos Web a los que se consigue acceder de manera indirecta y habitualmente con alguna restricción, cuyo contenido permanece vedado a la indización de los robots de búsqueda de los buscadores. En 1994 la doctora Jill Ellsworth utilizó el término de "Invisible Web" ( Internet Invisible ), para referirse a la información que los motores de búsqueda tradicionales no pueden encontrar. Otra forma de denominar a esta información es " depp web” (Internet profunda ) , ya que en realidad no es invisible, sólo hay que saber llegar a ella a través de navegadores convencionales o con plugin. Por ello, el término más correcto para denominar a la web invisible sería " no indizable" .

Tipos de Internet Internet global: Red de información libre y gratuita que es accesible mediante la

interconexión de ordenadores. La forma de acceso se realiza mediante programas navegadores, Chats,

mensajería o intercambio de protocolos (FTP, P2P). Internet invisible: Información que está disponible en

Internet pero que únicamente es accesible a través de páginas generadas dinámicamente tras realizar una

consulta en una base de datos. Es inaccesible mediante los procesos habituales de recuperación de la

información que realizan buscadores, directorios y agentes de búsqueda. Pero podemos acceder mediante

herramientas de navegación, correo. Internet oscuro: Los servidores o host que son totalmente inaccesibles

desde nuestro ordenador. La causa principal se debe a zonas restringidas con fines de seguridad nacional y

militar, otros motivos son la configuración incorrecta de routers, servicios de cortafuegos y protección,

servidores inactivos y finalmente "secuestro" de servidores para utilización ilegal.

4. TIPOS DE INFORMACIÒN Bases de datos: los buscadores sólo proporcionan acceso a la página de inicio

porque las restantes son dinámicas. Documentos en formato pdf, word...: los motores de búsquedas fueron

creados sólo para localizar e indizar páginas html, aunque actualmente Google indiza documentos en formato

pdf, doc, xml. Páginas web que no son indizadas por los motores de búsqueda: porque se excluyen ellas

mismas a través de un protocolo

• . CLASIFICACIÒN DE INTERNET INVISIBLE Sherman y Price (2001) identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the

private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisibleWeb).

• 9. WEB OPACA Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:

Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores. Frecuencia de la indización: los motores de búsqueda

no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo

ritmo. Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan

el número de documentos que se muestran (entre 200 y 1000 documentos). URL’s desconectados: las generaciones más recientes de buscadores, como Google,

presentan los documentos por relevancia basada en el número de veces que aparecen referenciados o ligados en otros. Si un documento no tiene una liga en

otro documento será imposible que la página sea descubierta, pues no habrá sido indizada.

• 10. WEB PRIVADA Consiste en las páginas Web que podrían estar indizadas en los motores de búsqueda pero son excluidas deliberadamente por alguna de

estas causas: Las páginas están protegidas por contraseñas (passwords). Contienen un archivo “robots.txt” para evitar ser indizadas. Contienen un campo

“noindex” para evitar que el buscador índice la parte correspondiente al cuerpo de la página.

• 11. WEB PROPIETARIA Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice

que al menos 95% de la Web profunda contiene información de acceso público y gratuito (Turner, 2003)

• 12. WEB REALMENTE INVISIBLE Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:

Páginas Web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos. Páginas generadas

dinámicamente, es decir, que se generan a partir de datos que introduce el usuario. Información almacenada en bases de datos relacionales, que no puede ser

extraída a menos que se realice una petición específica. Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como en los

diferentes procedimientos de búsqueda.

• 13. CLASIFICACIÒN DE LA WEB INVISIBLE Web invisible contiene un gran número de fuentes de información que no pueden buscarse porque su contenido no

ha sido indizado ni puede serlo por los principales buscadores. Aun cuando recuperemos un sitio que contenga una base de datos, es improbable que el buscador

conduzca a la base de datos misma, puesto que requiere que se navegue por el sitio Web para encontrarla. Así pues, la Web invisible está constituida por toda

esa

• 14. Bases de datos bibliográficas : incluidos los catálogos de bibliotecas, las bases de datos de referencias bibliográficas, gratuitas o de pago, etc. Basesde datos alfanuméricas y a texto completo : que incluyen en esta categoría las obras de referencia, tipo enciclopedia o diccionarios. Revistas electrónicas yarchivos de documentos : tanto las de acceso gratuito, que normalmente exigen registro previo, como los repositorios institucionales; como las de pago(acceso a través de IP o clave personal), que son invisibles a los motores de búsqueda tradicionales. Documentos en formatos no indizables , esto es,ficheros no HTML o textuales desarrollados con formatos más elaborados (pdf; ppt; doc; etc).

• 15. EJEMPLOS Bibliotecas Digitales Base de Datos de Bibliotecas Catálogos de Editoriales Directorio de publicaciones Periódicas Directorio de base deDatos Guías o recopilaciones de sitios.

• 16. SITIOS DE INTERNET INVISIBLE

• Motores de Búsqueda Buscadores: Especializados- Regionales-Generales. Ejemplo: Google Youtube Altavista Web crawler

• 17. METABUSCADORES Un metabuscador es una clase de buscador que carece de base de datos propia y, en su lugar, usa las de otros buscadores ymuestra una combinación de las mejores páginas que ha devuelto cada buscador. EJEMPLO: IXQUICK MAMMA VIVISIMO GLUSTY

• 18. DIRECTORIO Es una agrupación de archivos de datos, atendiendo a su contenido, a su propósito o a cualquier criterio que decida el usuario.Técnicamente el directorio almacena información acerca de los archivos que contiene: como los atributos de los archivos o dónde se encuentranfísicamente en el dispositivo de almacenamiento. EJEMPLO: EXIT YAHOO

• 19. CONCLUSIONES

• Calidad y cantidad Ahorro de tiempo Ahorro de dinero

analisis de internet profundo e invisible

Documents