clase n° 2tec-comunicacion.unsl.edu.ar/tecno%20i/2017/teor... · se define como la ^porciónde la...
TRANSCRIPT
![Page 1: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/1.jpg)
![Page 2: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/2.jpg)
CLASE II
Investigación en Internet. Búsquedas
de información en la Web Invisible y
Semántica
CREATIVE COMMONS RECONOCIMIENTO-NOCOMERCIAL-COMPARTIRIGUAL 3.0 UNPORTED LICENSE
![Page 3: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/3.jpg)
Las WWW’s…En la clase anterior se introdujo el concepto de WWW y se dio su clasificación (Visible, Invisible y Semántica).
Comenzando con la WEB VISIBLE , se presentaron especialmente dos tipologías de buscadores existentes en esta Web, a través de los cuales es posible acceder a páginas estáticas:1) por directorio o categorías 2) por palabra clave
En esta clase continuamos con las búsquedas de información centrándonos en la Web Invisible, analizando el desarrollo de la Web Semántica y finalizando con una reflexión respecto del proceso de búsqueda en estas Webs.
![Page 4: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/4.jpg)
Se define como la “porción de la Web que no puede ser indexada por los buscadores comunes”. Se compone del 95% de la información existente en la WWW, contra el 5% de la Web Visible…
Web Invisible o Profunda…
5%
95%
En los primeros niveles de las aguas profundas
se encuentra lamejorinformación,utilizable a nivelprofesional yacadémico.
![Page 5: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/5.jpg)
La WEB INVISIBLE contiene información que no puede ni debe ser visibilizada por un buscador común, y en consecuencia no puede ser indizada por esta herramienta.
Esta información está contenida en diferentes Webs, entre las que podemos mencionar:
•La Web Opaca
•La Web Privada
•La Web Propietaria y
•La Web Realmente
Invisible…
![Page 6: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/6.jpg)
En este primer ejemplo, Google devuelve solo dos resultados del sitio web: Flickr…
Web Invisible o Profunda…
1no son indexados por un buscador
por cuestiones de economía.
WEB OPACA Se compone de contenidos que
![Page 7: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/7.jpg)
En este segundo ejemplo, Google solo deja acceder a 100 de sus resultados…
Solo muestra 100 resultados aunque señala disponer de más de 2 millones…
![Page 8: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/8.jpg)
Último rastreo: 30/07
Próximo rastreo: 30/08
Las páginas creadas del 31/07 al 29/08 no aparecerán como parte de los resultados…
2 contenidos que no son indexados dada la frecuencia de indización del buscador…
Estas imágenes intentan señalar que todos los sitios web creados
después del 30/07 y antes del 30/8 no aparecerán como resultados
de una búsqueda, hasta que se produzca un nuevo rastreo, una
nueva actualización por parte del buscador…
![Page 9: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/9.jpg)
Solo se muestran las páginas
con mayor Page Rank…
3contenidos con bajo número de Page Rank,
lo que hace que el buscador no lo muestre como parte de sus resultados
![Page 10: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/10.jpg)
Existen muchas razones por las que una página puede tener un bajoposicionamiento en las búsquedas: pocas visitas, poca cantidad de enlaces,poca autoridad de quienes escriben en el sitio, etc. Esto ocasiona entoncesque las páginas queden fuera del rastreo: “poco conectadas” o directamente“desconectadas”…
Quedan
entonces
fuera del
rastreo!!!
![Page 11: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/11.jpg)
Web Invisible o Profunda…
1 páginas protegidas por contraseñas
WEB PRIVADA Contiene información confidencial, jamás accesible para el buscador. Se compone de
![Page 12: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/12.jpg)
Existen archivos especiales o campos específicos asociados/dentro de una página web que explicitan que la página no sea indexada…
Archivo:“robots.txt”
Campo: “noindex”
2 páginas que expresamente piden no ser indexadas
![Page 13: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/13.jpg)
Web Invisible o Profunda…
WEB PROPIETARIA Contiene páginas en las que es necesario registrarse para acceder al contenido…
![Page 14: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/14.jpg)
Afortunadamente, muchos buscadores han evolucionado y permiten encontrar diversidad de tipos de archivos…
.JS
.RAR
.ZIP…
Web Invisible o Profunda…
a
WEB REALMENTE INVISIBLE incluye
archivos de la Web en diversos formatos: .pdf, .js, .ppt, etc.
![Page 15: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/15.jpg)
Página dinámica
Página estática
bpáginas que se generan dinámicamente, esto es,en tiempo de ejecución (por ej. al realizar una consulta en una base de datos).
![Page 16: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/16.jpg)
Página generada en tiempo real
cpáginas que se generan en tiempo real (por ej. ante la transmisión en vivo y en directode un partido).
![Page 17: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/17.jpg)
A través de buscadores especializados en bases de datos que trabajan generalmente con las tipologías: directorio y motor de búsqueda.
Web Invisible o Profunda…
¿CÓMO ACCEDEMOS
A ELLA?
![Page 18: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/18.jpg)
Cajas de
búsqueda
Opciones
de
restricción
de
resultados
Más opciones de
restricción de
resultados
BUSCADORESWeb Invisible o Profunda…
GOOGLE (en su clasificación general/avanzada)1
![Page 19: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/19.jpg)
DIRECTORIO/ MOTOR DE BÚSQUEDA ESPECIALIZADO COMUNICACIÓN INVISIBLE (http://www.comunicacioninvisible.net/ci/)
Es una base de Bases de datos de estudios fílmicos…
2
BUSCADORESWeb Invisible o Profunda…
![Page 20: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/20.jpg)
Para buscar se utiliza la Búsqueda Avanzada, o bien, por Categorías…
COMUNICACIÓN INVISIBLE.NET
![Page 21: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/21.jpg)
COMUNICACIÓN INVISIBLE.NETBúsqueda por Palabra Clave
Las búsquedas requieren clarificar y comprender cada operador de búsqueda…
doblaje
Argentina
![Page 22: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/22.jpg)
En caso de no encontrar resultados podemos efectuar Búsquedas por categorías…
COMUNICACIÓN INVISIBLE.NETBúsqueda por Palabra Clave
![Page 23: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/23.jpg)
Para buscar se selecciona una categoría…
COMUNICACIÓN INVISIBLE.NETBúsqueda por Categorías
![Page 24: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/24.jpg)
Y luego la sub categoría donde podía encontrarse la información…
COMUNICACIÓN INVISIBLE.NETBúsqueda por Categorías
![Page 25: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/25.jpg)
A partir de allí aparecen diversas bases de datos donde consultar…
COMUNICACIÓN INVISIBLE.NETBúsqueda por Categorías
![Page 26: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/26.jpg)
El acceso a cada una de ellas constituye un proceso que puede llevar mucho tiempo ya sea que busquemos por palabra clave o categorías…
COMUNICACIÓN INVISIBLE.NETBúsqueda por Categorías
![Page 27: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/27.jpg)
Los directorios conducen a nuevos sitios con más información cuya exploración demanda tiempo pero la calidad de la información lo vale…
COMUNICACIÓN INVISIBLE.NETBúsqueda por Categorías
![Page 28: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/28.jpg)
DIRECTORIO/ MOTOR DE BÚSQUEDA GENERALSCIELO (http://www.scielo.org/php/index.php?lang=es)
Contiene Bases de datos de revistas científicas…
BUSCADORESWeb Invisible o Profunda…
3
![Page 29: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/29.jpg)
SCIELOBúsqueda por Categorías
![Page 30: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/30.jpg)
SCIELOBúsqueda por Categorías
![Page 31: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/31.jpg)
SCIELOBúsqueda por Categorías
![Page 32: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/32.jpg)
Internet
SCIELOBúsqueda por Palabra clave
![Page 33: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/33.jpg)
BUSCADORESWeb Invisible o Profunda…
MOTOR DE BÚSQUEDA GENERALISTA
WAYBACK MACHINE (http://archive.org/web/web.php)
Permite el acceso a versiones de sitios web que pueden o no estar en línea…
4
![Page 34: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/34.jpg)
Para buscar se coloca la dirección web del sitio y luego se selecciona el año, mes y día que se desea visualizar (siempre que esté disponible)…
WAYBACK MACHINE
![Page 35: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/35.jpg)
El resultado es el acceso a la versión en línea de esa información…
WAYBACK MACHINE
![Page 36: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/36.jpg)
Poseen una base de datos propia (elaborada por
personas o robots) compuesta por accesos a sitios
web confiables, aunque puedan estar desactualizados.
BUSCADORESWeb Invisible o Profunda…
¿CÓMO
TRABAJAN
LOS
BUSCADORES
PROFUNDOS?
Se utilizan para
buscar información
especializada en torno
a una temática, de
carácter científico.
Poseen opciones de búsqueda por categorías o palabra
clave. En este último caso permiten especificar: título
del recurso, autor del recurso, descripción o resumen
del recurso, contenido del recurso y palabras clave, que
permiten identificarlo, entre otros.
Permiten la configuración de las
bases de datos donde buscar, la
tipología de archivos y el lugar y
cantidad de resultados que
devuelven.
![Page 37: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/37.jpg)
WWW Semántica
Se define como “…una extensión de la Web existente quepermite la realización de búsquedas más inteligentes através de buscadores inteligentes”.
94%
5% 1%WebInvisible
Web Visible
WebSemántica
Su objetivo es mejorar
las búsquedas, de
forma tal que las
máquinas no solo sean
capaces de utilizar la
información, sino
también interpretarla…
![Page 38: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/38.jpg)
La reestructuración de la Web podría funcionar de manera potente pero se proyectan muchos años para su óptimo funcionamiento…
“Quiero viajar a Lima, Perú, y sólo
quiero gastar 5000 dólares”REQUIERE:
•OWL: permite definir
conceptos u ontologías que
puedan ser utilizadas por
usuarios, sistemas y bases
de datos.
•RDF: describe conceptos y
ontologías y cómo se
encuentran relacionados.
•SPARQL: lenguaje de
consulta sobre las
ontologías que permite
hacer búsquedas sobre los
recursos de la Web
WWW Semántica
![Page 39: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/39.jpg)
GOOGLE Y WEB SEMÁNTICA
Trabaja para lograr este tipo de búsquedas aunque aún está en proceso de desarrollo ya que no siempre las búsquedas funcionan de manera inteligente…
![Page 40: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/40.jpg)
Actividad Teórico-Práctica
Reflexionamos sobre los conceptos
antes descriptos:
• Web Visible
• Web Invisible
• Web Semántica
¿Qué ejemplos de recursos web (sitios, páginas,
imágenes, archivos, videos, etc.) pertenecen a la Web
Visible o Invisible?
¿Con qué buscador de la WWW debe ser localizado?
¿Cuáles serían los operadores de búsqueda que
deberían ser utilizados a los efectos de encontrar
rápidamente un resultado?
![Page 41: Clase N° 2tec-comunicacion.unsl.edu.ar/Tecno%20I/2017/Teor... · Se define como la ^porciónde la Web que no puede ser indexada por los buscadores comunes.Se compone del 95% de la](https://reader033.vdocumento.com/reader033/viewer/2022042806/5f6fd4d528da0e3e68351427/html5/thumbnails/41.jpg)
FIN DE PRESENTACIÓNGracias por su atención…
Elaborado por Prof. Viviana M. [email protected]
Fac. de Cs. Humanas- UNSL