seminario de extracción de información

17
Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos [email protected]

Upload: ondrea

Post on 14-Feb-2016

48 views

Category:

Documents


0 download

DESCRIPTION

Seminario de Extracción de Información. DAPPER: The Data Mapper. Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos [email protected]. INDICE. Problemática ¿ Qué es DAPPER ¿ Cómo crear un Dapp ? ¿ Cómo usar un Dapp ? Dos ejemplos prácticos - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Seminario de Extracción de Información

Seminario de Extracción de Información

DAPPER: The Data Mapper

Rubén Izquierdo BeviáDepartamento de Lenguajes y Sistemas Informáticos

[email protected]

Page 2: Seminario de Extracción de Información

2

INDICE1. Problemática2. ¿ Qué es DAPPER3. ¿ Cómo crear un Dapp?4. ¿ Cómo usar un Dapp?5. Dos ejemplos prácticos6. Características Interesantes7. Algunos problemas de DAPPER

Page 3: Seminario de Extracción de Información

3

ProblemáticaEn 2008, alrededor de 160 millones de webs

Estructura heterogénea y dinámica

Datos semi-estructurados

Desarrollo manual de wrappers◦ Especializado por web◦ Muy costoso de desarrollar◦ Todavía más de mantener

Page 4: Seminario de Extracción de Información

4

¿Qué es DAPPER?Herramienta de Extracción de

Información desde Internet

Page 5: Seminario de Extracción de Información

5

¿Qué es DAPPER?Servicio web, gratuito (registro)No es necesario programar (entorno visual)Fases:

◦1 desarrollo del Dapp para una web◦∞ usos del Dapp sobre diferentes webs

Nos permitirá:◦Extraer la información requerida de una web◦Utilizarla de diferentes modos

Page 6: Seminario de Extracción de Información

6

¿Cómo crear un DAPP?1. Varias muestras de webs con la

misma estructura

Page 7: Seminario de Extracción de Información

7

¿Cómo crear un DAPP?

Page 8: Seminario de Extracción de Información

8

¿Cómo crear un DAPP?1. Varias muestras de webs con la

misma estructura2. Definir información que queremos

Page 9: Seminario de Extracción de Información

9

¿Cómo funciona DAPPER?TITULARSUBTITULAR

CUERPO

Page 10: Seminario de Extracción de Información

10

¿Cómo crear un DAPP?1. Varias muestras de webs con la

misma estructura2. Definir información que queremos3. DAPPER aprende y propone

automáticamente• Información estática / dinámica• Estructura y etiquetas HTML (XPATH)

4. Refinamos el Dapp5. Guardamos el Dapp

Page 11: Seminario de Extracción de Información

11

¿Cómo usar un DAPP? Suscribirnos mediante un lector

◦ RSS Feed (formato de redifusión de fuentes web)

◦ Atom Feed

Ponerlo en nuestra página web◦ Gadget Google◦ Módulo Netvibes◦ Widget en flash

Page 12: Seminario de Extracción de Información

12

¿Cómo usar un DAPP? Usarlo desde un lenguaje de

programación◦ XML◦ JSON◦ YAML, XSL, CSV …

Otros◦ iCal◦ Google Map

Page 13: Seminario de Extracción de Información

13

Ejemplo Práctico IExtraer información de noticias

del diario MARCA◦Titular◦Subtitular◦Cuerpo

Crear un widget para mi página web

Page 14: Seminario de Extracción de Información

14

Ejemplo Práctico IICrear un buscador que use yahoo

Crear un gadget para iGoogle

Page 15: Seminario de Extracción de Información

15

Características Interesantes

Uso de variables de entrada◦ Query para un buscador

Creación de alertas◦ Email cuando en cuerpo de noticia aparezca “Rubén

Izquierdo”

Enlazar varios Dapp◦ Dapp buscador inglés Dapp traductor

Explotación de Dapp’s◦ API JAVA◦ Python…

Page 16: Seminario de Extracción de Información

16

Algunos problemas de DAPPERNo funciona con flash

Algunas web bloquean al robot de DAPPER

Limitación hits/segundo

Se ejecuta en el servidor de Yahoo◦Dependencia de Yahoo◦Dependencia de la carga de la red

Page 17: Seminario de Extracción de Información

¿Sugerencias? ¿Preguntas?

DAPPER: The Data Mapper

Rubén Izquierdo BeviáDepartamento de Lenguajes y Sistemas Informáticos

[email protected]