propuesta de tesis vera olivera, david carlos marín rosales, nicolae harry seminario de tesis i...

31
Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes de mapa de bits mediante Repositorios de Clasificación y Aprendizaje 4 Noviembre 2006

Upload: fabian-farin

Post on 01-Jan-2015

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

Propuesta de Tesis

Vera Olivera, David CarlosMarín Rosales, Nicolae Harry

Seminario de Tesis I

Método de Reconocimiento de texto impreso a partir de imágenes de mapa de bits mediante Repositorios de Clasificación y Aprendizaje

4 Noviembre 2006

Page 2: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

2

22 /31/31

Tesistas

Vera Olivera, David Carlos Ing. De Sistemas, UNI, 10mo Ciclo,

[email protected]

Marín Rosales, Nicolae Harry Ing. De Sistemas, UNI, 10mo Ciclo,

[email protected]

Page 3: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

333 /31/31

PROPUESTA

Page 4: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

4

44 /31/31

Título

Método de Reconocimiento de texto impreso a partir de imágenes de

mapa de bits mediante Repositorios de Clasificación y

Aprendizaje

Page 5: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

5

55 /31/31

JUSTIFICACIÓN Actualmente los algoritmos no pueden

identificar eficazmente los tipos y tamaños de letras de aquellas regiones de texto que padecen de escasa resolución y cierta presencia de ruido en las imágenes de mapa de bits.

Este método presentará una innovación en términos de análisis por incorporar métodos de aprendizaje y no solamente métodos clásicos de reconocimiento de texto basados en la comparación directa con patrones de tipos y tamaños de letra.

Page 6: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

6

66 /31/31

Ámbito de la investigación

Se tendrá en cuenta todas las imágenes de mapa de bits que resulten del proceso de digitalización (Scanner) a partir de imágenes impresas en un medio físico, particularmente papel.

Page 7: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

7

77 /31/31

El Problema

Dentro de los sistemas de reconocimiento de texto clásicos, existe una necesidad de reconocimiento dinámico, un sistema de reconocimiento que cuente con un modulo de aprendizaje.

Capítulo 2 de Sampieri

Page 8: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

8

88 /31/31

Objetivo General

Disminuir el nivel de error de reconocimiento de texto de los métodos clásticos OCR, de tal manera que a pesar de los altos niveles de ruido y baja resolución la eficiencia del sistema no baje del 50%.

Capítulo 2 de Sampieri

Page 9: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

9

99 /31/31

Objetivos Específico Revisar las distintas técnicas existentes

de reconocimiento de texto y caracteres. Establecer un método idóneo de

reconocimiento de texto basado en el entrenamiento de ciertas plantillas.

Implementar el método apoyado en diversas técnicas de análisis de regiones de texto junto con repositorios de plantillas entrenables.

Capítulo 2 de Sampieri

Page 10: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

10

1010 /31/31

Antecedentes

SHUNJI MORI, CHING (1992), revisión histórica del desarrollo e investigación del Reconocimiento Óptico de Caracteres (OCR)

GEORGE NAGY (2000), Investigación acerca del análisis de imágenes y texto en documentos digitalizados.

Capítulo 3 de Sampieri

Page 11: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

111111 /31/31

METODOLOGIA DE LA INVESTIGACION

Page 12: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

12

1212 /31/31

Tipo de Investigación

Tipo de Diseño Experimental Experimental

Capítulo 6 de SampieriCapítulo 4 de Sampieri

Page 13: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

13

1313 /31/31

DISEÑO DEL EXPERIMENTO

Page 14: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

14

1414 /31/31

Diseño Experimental Porque se establece manipulación de una

variable experimental no comprobada, en condiciones rigurosamente controladas, con el fin de describir de que modo o por qué causa se produce una situación o acontecimiento particular.

En este caso, el de los distintos tamaños y tipos de fuentes cuando se presentan en las regiones de texto con distintas resoluciones y niveles de ruido.

Page 15: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

15

1515 /31/31

Objeto de la Investigación Una imagen digitalizada a partir de un

medio impreso (diarios, revistas, libros, etc.).

El muestreo para la investigación se tratara de 10 experimentos por cada combinación entre tipos y tamaños de fuente.

Capítulo 6 de Sampieri

Page 16: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

16

1616 /31/31

Población

Todos lo tipos de fuente de texto, utilizados frecuentemente en medios impresos (revistas, diarios, libros).

Todos los tamaños de fuente de texto, utilizados con frecuencia en los medios impresos (revistas, diarios, libros).

Page 17: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

17

1717 /31/31

Muestra Se tomara el 10% de los tipos de fuente mas

usados en los medios de texto impresos.

Se tomara el 10% de los tamaños de fuente mas usados en los medios de texto impresos.

Se realizara 10 experimentos por cada combinación entre tipo de fuente y tamaño de fuente entre los valores del diseño muestral.

Page 18: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

18

1818 /31/31

VariablesVariables independientes:Regiones de Texto.Grupos de Tamaño de fuente.Grupos Tipo de fuente.Estado de Región (Tipo + Tamaño de fuente).Nivel de ruido en imágenes.Separación de caracteres.Nivel de resolución.Nivel de Grises.

EXPERIMENTO

Variables dependientes:éxito = (1 – error) es comúnmente usado para determinar la efectividad un clasificador:

Instrumento de mediciónNo se diseña una encuestaLos datos se extraen desde la imagen digitalizada mediante: - Adquisición y Binarización - Fragmentación de la imagen. - Adelgazamiento de las componentes. - Comparación de patrones

Instrumento de mediciónNo se diseña una encuesta para registrar los datos.Se diseña un algoritmo para extraer el error de cada experimento.

Page 19: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

19

1919 /31/31

Diseño Experimental La base o repositorio inicial con la que se cuenta es la

NIST SD4 4000 imágenes de los 26 distintos tipos de letra utilizados en los diarios y revistas del mundo.

Los parámetros de entrada, los estados considerados como variables independientes. Serán evaluados acompañados por distintos tipos de resolución, tales como 16, 20, 24, 28, y también por lo niveles de ruido (1, 2, 4, 8….).

Extraemos la variable dependiente (error) evaluando mediante el algoritmo de reconocimiento la eficiencia de los repositorios para encontrar el carácter correcto contenido en la región de texto.

Page 20: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

20

2020 /31/31

Page 21: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

21

2121 /31/31

Procedimiento Experimental

Page 22: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

22

2222 /31/31

Hipótesis Ho: La efectividad del clasificador se reduce al

incrementarse el ruido en la imagen digitalizada. Ho: EL tamaño de la fuente determina la

efectividad del clasificador. Ho: El tipo de fuente determina la efectividad del

clasificador. Ho: La disposición de las regiones determina la

efectividad del clasificador.

Capítulo 5 de Sampieri

Page 23: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

23

2323 /31/31

Page 24: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

24

2424 /31/31

MODELO DE SOLUCION

Page 25: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

25

2525 /31/31

MODELO DE SOLUCION

Page 26: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

26

2626 /31/31

PLANIFICACION

Page 27: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

27

2727 /31/31

CRONOGRAMA DE TRABAJO

Page 28: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

28

2828 /31/31

PRESUPUESTO DE LA INVESTIGACION

Recurso Costo mensual

Su sueldo (a precio de mercado) $500 costos de transacción y negociación $50

costos de cada experimentos $10

Costo de muestreo. $50

Alquiler de máquinas $50

Compra de libros $50

Suscripción a revistas $20

Viajes, visitas. $0

Costo total del proyecto (mensual) $730

Costo total del proyecto $3650

Page 29: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

29

2929 /31/31

CONCLUSIONES

Page 30: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

30

3030 /31/31

CONCLUSIONES Y RECOMENDACIONES

Podemos decir que, con este trabajo se pretende desarrollar un sistema tipo software que permita trabajar con imágenes reales de documentos y que realice una primera aproximación al proceso del reconocimiento del texto incluido en tales documentos utilizando la tecnología de las redes neuronales.

Page 31: Propuesta de Tesis Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Método de Reconocimiento de texto impreso a partir de imágenes

31

3131 /31/31

Aplicación de técnicas de reducción de ruido en las imágenes.

Utilización de algoritmos que resuelvan los problemas de separación de caracteres conexos o solapados.

Reconocimiento de caracteres manuscritos, siendo éste un campo en el que existe actualmente una gran actividad investigadora.

Extracción de nuevas características de los caracteres, que redunde en una clasificación posterior más fiable e invariante.

Mejorar técnicas de PostProcesamiento existentes.

CONCLUSIONES Y RECOMENDACIONES