vision por computador

Upload: jfhack

Post on 10-Oct-2015

250 views

Category:

Documents


2 download

TRANSCRIPT

  • COMPUTADOR

  • - i -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    ndice CAPTULO 1 INTRODUCCIN A LA VISIN ARTIFICIAL ............... 1

    1.1. MODELO FSICO DE LA LUZ .................................................................. 1 1.1.1 La luz en la historia .................................................................... 1 1.1.2 Definiciones ................................................................................ 3

    1.2. MODELO FISIOLGICO ......................................................................... 7 1.2.1 Percepcin acromtica ............................................................... 8 1.2.2 Percepcin cromtica ............................................................... 11 1.2.3 Diagrama cromtico y teora triestmulo ................................. 13

    1.3. VISIN ARTIFICIAL ............................................................................ 19 1.3.1 Representacin de la realidad .................................................. 19 1.3.2 Etapas de un sistema de visin artificial .................................. 21 1.3.3 Configuracin informtica de un sistema de visin artificial... 22

    1.4. BIBLIOGRAFA DEL CAPTULO ............................................................ 22

    CAPTULO 2 ADQUISICIN Y REPRESENTACIN DE IMGENES DIGITALES.......................................................................... 25

    2.1. CAPTURA Y DIGITALIZACIN DE IMGENES....................................... 26 2.1.1 Modelos de captura de imgenes.............................................. 26 2.1.2 La digitalizacin ....................................................................... 30 2.1.3 Dispositivos de captura............................................................. 36

    2.2. REPRESENTACIN DE LA IMAGEN Y ESTRUCTURAS DE DATOS .......... 45 2.2.1 Estructura del fichero de imagen.............................................. 45 2.2.2 Compresin de imgenes .......................................................... 46 2.2.3 Formatos comerciales de representacin ................................. 56

    2.3. RELACIONES BSICAS ENTRE PXELES ............................................... 58 2.3.1 Relaciones de proximidad......................................................... 58 2.3.2 Relaciones de distancia............................................................. 61

    2.4. CONCLUSIONES AL CAPTULO ............................................................ 62 2.5. BIBLIOGRAFA DEL CAPTULO ............................................................ 62

  • ndice

    - ii -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    CAPTULO 3 FILTRADO Y REALZADO DE IMAGEN ....................... 65

    3.1. OPERACIONES BSICAS ENTRE PXELES............................................. 66 3.1.1 Operaciones aritmtico-lgicas ................................................ 66 3.1.2 Operaciones geomtricas.......................................................... 68

    3.2. OPERACIONES SOBRE EL HISTOGRAMA.............................................. 70 3.2.1 Aumento y reduccin de contraste ............................................ 72 3.2.2 Ecualizado del histograma........................................................ 76

    3.3. FILTRADO ESPACIAL........................................................................... 81 3.3.1 Filtros de suavizado .................................................................. 83 3.3.2 Filtros de obtencin de contornos ............................................ 85 3.3.3 Filtro de la laplaciana .............................................................. 88

    3.4. OPERACIONES EN EL DOMINIO DE LA FRECUENCIA............................ 89 3.4.1 Transformada de Fourier.......................................................... 90 3.4.2 Filtrado frecuencial ................................................................ 105 3.4.3 Teorema de convolucin ......................................................... 109 3.4.4 Otros operadores en el dominio de la frecuencia.................. 110

    3.5. OPERACIONES MORFOLGICAS ........................................................ 110 3.5.1 Definiciones bsicas ............................................................... 111 3.5.2 Filtros morfolgicos................................................................ 116 3.5.3 Operaciones morfolgicas bsicas en imgenes de niveles de

    gris .......................................................................................... 119 3.5.4 Aplicaciones de la morfologa matemtica............................. 120

    3.6. CONCLUSIONES AL CAPTULO .......................................................... 122 3.7. BIBLIOGRAFA DEL CAPTULO .......................................................... 123

    CAPTULO 4 SEGMENTACIN............................................................. 125

    4.1. CONCEPTOS BSICOS SOBRE SEGMENTACIN.................................. 125 4.1.1 La textura ................................................................................ 127 4.1.2 El contorno.............................................................................. 128

    4.2. SEGMENTACIN BASADA EN LA UMBRALIZACIN ........................... 128 4.2.1 Umbralizacin fija .................................................................. 129 4.2.2 Umbralizacin generalizada................................................... 131

    4.3. TCNICAS BASADAS EN LA DETECCIN DE CONTORNOS.................. 134 4.3.1 Segmentacin basada en las componentes conexas................ 135 4.3.2 Deteccin de contornos con filtros de gradiente .................... 140

  • ndice

    - iii -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    4.4. TCNICAS BASADAS CRECIMIENTO DE REGIONES ............................ 149 4.4.1 Unin de regiones ................................................................... 150 4.4.2 Divisin de regiones................................................................ 151 4.4.3 Divisin y unin de regiones (split and merge).................. 151 4.4.4 Segmentacin basada en morfologa: watershed............... 153

    4.5. OTROS ENFOQUES PARA LA SEGMENTACIN ................................... 155 4.5.1 Segmentacin basada en el color............................................ 155 4.5.2 Segmentacin basada en la textura......................................... 157 4.5.3 Segmentacin basada en el movimiento ................................. 159

    4.6. REPRESENTACIN DE OBJETOS SEGMENTADOS ............................... 159 4.6.1 Descripcin basada en el cdigo de cadena........................... 160 4.6.2 Descripcin basada en los Momentos..................................... 161 4.6.3 Descripcin basada en la transformada de Fourier............... 164

    4.7. CONCLUSIONES AL CAPTULO .......................................................... 165 4.8. BIBLIOGRAFA DEL CAPTULO .......................................................... 165

    CAPTULO 5 INTRODUCCIN A LOS CLASIFICADORES ............ 167

    5.1. CARACTERSTICAS DISCRIMINANTES ............................................... 167 5.1.1 La muestra de aprendizaje...................................................... 170 5.1.2 Criterios para la seleccin de caractersticas ........................ 172 5.1.3 Procedimiento de seleccin..................................................... 176

    5.2. TIPOLOGA DE LOS ALGORITMOS DE CLASIFICACIN DE PATRONES 177 5.2.1 Clasificadores a priori y a posteriori ..................................... 177 5.2.2 Clasificadores supervisados y no supervisados...................... 178

    5.3. CLASIFICADORES BASADOS EN LA DISTANCIA ................................. 178 5.3.1 Clasificador de distancia eucldea determinista a priori ....... 179 5.3.2 Clasificador estadstico a priori ............................................. 182 5.3.3 Clasificador de distancia con aprendizaje supervisado ......... 188 5.3.4 Clasificador de k-vecinos ms cercanos ................................. 196

    5.4. ALGORITMOS DE AGRUPACIN DE CLASES ...................................... 196 5.4.1 Algoritmo de distancias encadenadas..................................... 197 5.4.2 Algoritmo MaxMin.................................................................. 198 5.4.3 Algoritmo de las k-medias....................................................... 199

    5.5. CONCLUSIONES AL CAPTULO .......................................................... 201 5.6. BIBLIOGRAFA DEL CAPTULO .......................................................... 202

  • ndice

    - iv -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    CAPTULO 6 INTRODUCCIN A LA VISIN TRIDIMENSIONAL203

    6.1. MTODO DEL PAR ESTEREOSCPICO................................................ 204 6.1.1 Visin monocular .................................................................... 204 6.1.2 Calibracin ............................................................................. 207 6.1.3 Visin estereoscpica.............................................................. 213 6.1.4 Conclusiones a la visin estreoscpica................................. 216

    6.2. OTROS ENFOQUES PARA LA VISIN 3D ............................................ 218 6.2.1 Ejemplos de otros enfoques..................................................... 218 6.2.2 Imgenes de rango .................................................................. 222

    6.3. CONCLUSIONES AL CAPTULO .......................................................... 223 6.4. BIBLIOGRAFA DEL CAPTULO .......................................................... 224

    ANEXO A CLASIFICACIN CON EL PERCEPTRN MULTICAPA ..................................................................... 225

    A.1. INTRODUCCIN A LAS REDES DE NEURONAS ARTIFICIALES ............. 226 A.1.1 El proceso de aprendizaje de una red..................................... 227

    A.2. ESTRUCTURA DEL PERCEPTRN MULTICAPA ................................... 230 A.3. PROPIEDADES DEL PERCEPTRN MULTICAPA .................................. 233 A.3.1 Seleccin del nmero de capas ocultas................................... 233

    A.4. ALGORITMOS DE APRENDIZAJE PARA EL PERCEPTRN MULTICAPA 235 A.4.1 La regla Delta ......................................................................... 235 A.4.2 Generalizacin de la regla Delta............................................ 239

    A.5. EJEMPLO DE RECONOCIMIENTO DE CARACTERES A MQUINA......... 242 A.5.1 Vector de caractersticas......................................................... 243 A.5.2 Construccin de la muestra .................................................... 243 A.5.3 Estructura de la red ................................................................ 244 A.5.4 Entrenamiento y ajuste de la red ............................................ 244

    A.6. CONCLUSIONES AL CAPTULO. ......................................................... 247 A.7. BIBLIOGRAFA DEL ANEXO............................................................... 247

    ANEXO B REFERENCIAS BIBLIOGRFICAS ............................. 249

    B.1 BIBLIOGRAFA BSICA ..................................................................... 249 B.2 BIBLIOGRAFA ADICIONAL ............................................................... 250 B.3 MATERIAL COMPLEMENTARIO......................................................... 254 B.3.1 Revistas ................................................................................... 254 B.3.2 Software .................................................................................. 255

  • ndice

    - v -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    B.3.3 Imgenes de test ...................................................................... 256 B.3.4 Paginas Web............................................................................ 256 B.3.5 Asociaciones relacionadas con visin computacional............ 260

    ANEXO C NDICE ALFABTICO .................................................... 263

  • ndice

    - vi -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

  • - 1 -

    2002 y 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Captulo 1 Introduccin a la Visin Artificial

    En este tema se introducen una serie de conceptos fsicos y fisiolgicos imprescindibles para entender el por qu de muchas decisiones de diseo que se toman al construir los sistemas de visin computacional.

    1.1. Modelo fsico de la luz En general, desde el punto de vista del procesado digital de imagen, basta considerar la luz como una onda. Segn el modelo ondulatorio las caractersticas de un rayo de luz vienen completamente determinadas por dos propiedades: su amplitud y su longitud de onda. Sin embargo, como se ver en el siguiente apartado, el modelo ondulatorio no fue el primero que se propuso, ni tampoco, el que mejor explica los fenmenos observados respecto a la luz.

    1.1.1 La luz en la historia La primera teora sobre el comportamiento de la luz fue probablemente debida a Euclides (330 antes de Cristo) que supona que la luz era una especie de rayo lanzado por el ojo hacia la cosa vista. Esta teora tiene diversos errores, quizs el ms patente consiste en que no explica la oscuridad.

  • Captulo 1 - Introduccin a la Visin Artificial

    - 2 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Ya en el ao 1000 de nuestra era, el rabe Alhacen afirm que la luz se dirige desde una fuente que la emite hasta nuestros ojos, despus de ser reflejada por los objetos vistos. Pero fue en el siglo XVII cuando se realizaron los mayores progresos de la mano de Newton, que hizo notables avances en la teora del color y la dispersin. Newton era defensor de una teora corpuscular, segn la cual la luz estaba formada por un flujo de partculas proyectadas por un cuerpo luminoso.

    Al mismo tiempo, otros cientficos, como Hooke y Huygens, defendan una teora ondulatoria que explicaba mejor ciertos hechos como por ejemplo que dos haces luminosos se crucen sin perturbarse. En este modelo se define el concepto de rayo de luz como una lnea imaginaria paralela a la direccin de propagacin de la onda. El principal problema de aquella teora ondulatoria estribaba en que no exista ninguna evidencia emprica del medio en el que se propagaba la onda y que debera llenar el espacio. Este medio, que se denomin ter, se razon que debera tener una dureza altsima para permitir la alta velocidad de propagacin que caracteriza a la luz. Por todo ello, y tambin quizs debido al peso de la autoridad de Newton, la teora corpuscular se impuso a la ondulatoria durante doscientos aos.

    En el siglo XIX, los trabajos de Young, Fresnel y Foucault salvaron la mayora de las objeciones propuestas por Newton a la teora ondulatoria cosechando numerosos xitos en el campo de la ptica. El impulso definitivo a favor de la naturaleza ondulatoria de la luz lo dio Maxwell en 1873 con su teora electromagntica. sta explicaba la luz como una radiacin de naturaleza ondulatoria que se puede propagar en el vaco, haciendo innecesaria la idea del ter.

    Sin embargo, hacia 1900 se constat un nuevo fenmeno, denominado efecto fotoelctrico, que proporcion evidencias experimentales de que la luz tena carcter corpuscular en su interaccin con la materia. Esto llev de nuevo al replanteamiento de la naturaleza de la luz. Albert Einstein, Louis de Broglie y otros construyeron una nueva teora que llamaron teora onda-corpsculo. Esta teora considera la luz formada por unas partculas, los fotones, cada una de las cuales tiene asociada una ecuacin de ondas. As, cuando la luz interacta con la materia, como en el efecto fotoelctrico, se invoca a un modelo corpuscular para explicar tal interaccin, mientras que para explicar fenmenos relativos a su propagacin, como en la difraccin de los rayos X, se recurre a un modelo

  • Captulo 1 - Introduccin a la Visin Artificial

    - 3 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    ondulatorio. Este modelo dual, onda-corpsculo, permite explicar la totalidad de los fenmenos observados hasta la fecha.

    1.1.2 Definiciones Aunque las ondas luminosas constituyen una parte muy pequea del conjunto de ondas electromagnticas, son especialmente interesantes porque tienen la particularidad de que son captadas por los ojos y procesadas en el cerebro. El ojo humano es capaz de distinguir radiaciones de longitudes de onda comprendidas entre 400 y 700 nanmetros (1 nanmetro = 10-9 metros).

    Nuestro sistema sensorial visual interpreta las diferentes amplitudes y longitudes de onda de la luz, produciendo las sensaciones que conocemos como brillo y color respectivamente. As por ejemplo, una onda electromagntica que viaja por el vaco con una longitud de onda predominante de 680 nanmetros se interpreta en el cerebro como la sensacin del color rojo.

    400 480 520 572 602 700 (nm)

    Ultravioleta Azul Verde Amarillo Rojo InfraRojo

    Figura 1.- La parte de la radiacin electromagntica que constituyen las ondas luminosas abarca desde el fin del ultravioleta 400 nm hasta el comienzo del infrarrojo 700 nm.

    Distribucin espectral de energa

    Una curva de distribucin espectral de energa representa la cantidad de energa (en vatios) asociada a cada longitud de onda en una radiacin electromagntica.

    Si se representa el diagrama espectral de una radiacin electromagntica que posee una longitud de onda igual a 680 nm, se obtiene un grfico con un pico en la longitud correspondiente a 680 nm y 0 en el resto (ver Figura 2). Una luz de estas caractersticas, compuesta por una radiacin con una longitud de onda determinada, se denomina luz monocromtica.

  • Captulo 1 - Introduccin a la Visin Artificial

    - 4 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    680 nm

    Potencia (w)

    Figura 2.- Diagrama espectral ideal de una luz roja.

    En general, las radiaciones no son tan puras y resultan de la mezcla de diferentes haces con diferentes longitudes de onda. Adems, cuanto ms monocromtico sea un haz de luz menos energa tendr asociada y por tanto ser menos perceptible. Por ello, los diagramas espectrales de los objetos que encontramos en la naturaleza son ms parecidos a los de la Figura 3.

    520 nm

    Potencia (w) Potencia (w)

    (a) (b)

    Figura 3.- Diagramas espectral de una luz (a) con predominio de verde y de una luz (b) blanca.

    Flujo radiante

    El flujo radiante es la cantidad de energa emitida por una fuente de ondas electromagnticas por unidad de tiempo y se mide en vatios (ver Figura 4).

  • Captulo 1 - Introduccin a la Visin Artificial

    - 5 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Potencia elctrica Flujo radiante Flujo Luminoso

    Flujo no luminoso (radiacin no visible)

    Prdida por conduccin

    (calor)

    radiacin visible

    Figura 4.- De la energa usada para producir luz, el humano slo percibe una pequea parte que se denomina flujo luminoso.

    Flujo luminoso

    El flujo luminoso es la parte del flujo radiante detectada por el ojo (ver Figura 4). La unidad de flujo luminoso es el lumen (L). Un lumen corresponde al flujo luminoso procedente de una abertura de 1/60 cm2 en un cilindro de material refractario que contiene un material patrn que radia a travs de un cono de radiacin de un estereorradin. El flujo luminoso se puede medir con un fotmetro y se representa con el smbolo .

    Mediante experimentacin se ha definido la curva de la Figura 5, que permite obtener, en lmenes, el flujo luminoso correspondiente a una luz monocromtica de cualquier longitud de onda que tenga un flujo radiante igual a un vatio. De este diagrama se deduce, por ejemplo, que una luz monocromtica de 1 vatio de potencia, de 600 nm produce una sensacin de luminosidad en el ojo humano igual a 420 lmenes. Adems, en l se aprecia que el mayor rendimiento de flujo luminoso se obtiene para las longitudes de onda correspondientes a los tonos verdes.

  • Captulo 1 - Introduccin a la Visin Artificial

    - 6 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    0

    100

    200

    300

    400

    500

    600

    700

    800

    360 440 520 600 680

    Longitud de onda (nm)

    Eficiencia Luminosa (Lumenes/vatio)

    Figura 5.- Esta curva expresa el rendimiento luminoso de un flujo monocromtico en funcin de la longitud de onda.

    Esta curva, que llamaremos V(), permite definir la relacin (1.1). sta permite calcular el flujo luminoso de una radiacin cuando se conoce su distribucin espectral P().

    (L) )()(0

    = dVP (1.1)

    Ejemplo 1.-

    El flujo luminoso, en lmenes, de una energa radiante de 27 vatios de una fuente luminosa monocromtica con una longitud de onda de entre 600 nm y 601 nm se puede calcular usando el diagrama de la Figura 5. Sobre ste se ve que una luz monocromtica de 600 nm produce un flujo luminoso de aproximadamente 420 L/w, por tanto si la potencia es de 27 w:

    (L) 1134004227 ==

  • Captulo 1 - Introduccin a la Visin Artificial

    - 7 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Intensidad luminosa

    La intensidad luminosa (1.2) es el flujo luminoso emitido por unidad de ngulo slido (Figura 6). Se representa como I, y su unidad es la buja (b), que se corresponde a un lumen/estereorradin. Puede comprobarse que la intensidad luminosa es independiente de la distancia a la que se encuentra el manantial, y slo vara segn la orientacin de la medicin.

    (b) dd

    I

    = (1.2)

    Figura 6.- Representacin del flujo luminoso que atraviesa un estereorradin.

    Luminancia o brillo

    La luminancia o brillo de un manantial es la intensidad luminosa por unidad de superficie. As, por ejemplo, si una noche, sobre una ventana parcelamos regiones de reas iguales, y medimos el brillo para una estrella y el brillo para una lmpara cercana, encontraremos que es mayor para esta ltima, pues la intensidad luminosa por unidad de superficie ser mayor. Sin embargo, la intensidad luminosa de esa estrella ser mucho mayor que la intensidad luminosa de cualquier objeto de nuestro entorno (como una lmpara), pues ya se ha dicho que la intensidad luminosa no depende de la distancia.

    1.2. Modelo Fisiolgico Hasta ahora se ha hablado de la luz desde un punto de vista fsico. Sin embargo, la correspondencia entre los fenmenos fsicos y lo que perciben nuestros sentidos no es directa. Hay experimentos que demuestran que a veces nuestro sistema de percepcin confunde elementos que son iguales, y a veces encuentra diferencias entre elementos que son idnticos. Esto se debe a que nuestro sistema visual impone ciertas limitaciones, algunas de las cuales se analizarn en este apartado.

    El ojo es un rgano que captura la luz y la transforma en un impulso neuronal que transmite al cerebro para su procesamiento. La luz, tras atravesar una lente llamada cristalino, incide en una capa de clulas receptoras llamada retina, que est situada en la parte anterior del ojo. Estas clulas en presencia de luz generan impulsos neuronales que se envan al cerebro mediante el nervio ptico.

  • Captulo 1 - Introduccin a la Visin Artificial

    - 8 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    El cerebro procesa la informacin que recibe y genera sensaciones, en lo que se conoce como el proceso de percepcin visual. A continuacin se describe la percepcin acromtica (slo teniendo en cuenta el brillo, es decir la cantidad de energa), y despus la percepcin cromtica (que tiene en cuenta el color, esto es, la forma de distribuirse la energa en distintas longitudes de onda).

    1.2.1 Percepcin acromtica La percepcin del brillo de una imagen la realizan en el ojo los bastones (ver Figura 7). Los bastones son unas clulas especializadas que tenemos en la retina, en un nmero superior a 100 millones, que son capaces de detectar y medir el brillo de los haces luminosos que les llegan. La sensacin de brillo est relacionada con dos fenmenos:

    La sensibilidad a la intensidad.

    La inhibicin lateral.

    Humor Vitero

    Retina

    Crnea

    Iris

    Pupila

    Cristalino

    Disco ptico

    Nervio ptico

    Bastn

    Cono

    Ncleo

    Fotorreceptores

    Conexionessinpticas

    Figura 7.- A la izquierda una seccin del ojo humano. A la derecha una visin esquemtica de las clulas fotorreceptoras.

    Sensibilidad a la intensidad luminosa y el contraste

    La sensibilidad a la intensidad es lo que dota de la capacidad de distinguir un nivel de intensidad de otro. La diferencia de intensidad se denomina contraste. Se dice

  • Captulo 1 - Introduccin a la Visin Artificial

    - 9 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    que una escena tiene gran contraste si las diferencias de intensidad que contiene son pronunciadas.

    La sensibilidad a la intensidad en el ser humano es alta siempre que los elementos que se comparan son pocos. Cuando el nmero de intensidades involucradas simultneamente es superior a unos 24 tonos se pierde la mayor parte de esta sensibilidad. Esto implica que, en la mayora de casos prcticos, sea suficiente el uso de 32 64 niveles de intensidad para representar una imagen.

    Los seres humanos son capaces de distinguir un rango muy amplio de intensidades. Sin embargo la relacin entre la intensidad real de la luz reflejada por un pigmento y la intensidad percibida por un humano no es lineal. La curva A de la Figura 8 representa el brillo apreciado en relacin con el brillo fsico reflejado por un pigmento. Se aprecia que el humano es capaz de distinguir pigmentos de intensidades poco diferentes (como el a1 y el a2) cuando los cuerpos que tienen esos pigmentos estn prximos espacialmente. Sin embargo, los contrastes acentuados hacen que esta sensibilidad decrezca. Por ello, cuando hay involucrados pigmentos con intensidades muy dispares simultneamente, como el b y el c, la distincin entre intensidades prximas decrece. De manera que la percepcin de a2 y a1 se sita en curvas similares a la B y a la C respectivamente, que como se aprecia las hacen percibir como lejanas (a1 y a2).

    Intensidad real

    Intensidad percibida

    a2

    b

    c C

    B

    a1

    A

    a2

    a1

    Figura 8.- La lnea A representa la relacin entre el brillo distinguido por el ojo humano y el nivel de brillo real.

  • Captulo 1 - Introduccin a la Visin Artificial

    - 10 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    En la Figura 9 se puede comprobar este efecto. En ella se percibe que los rectngulos interiores tienen intensidades distintas, cuando en realidad tienen la misma. Se concluye que, aunque el sistema visual es capaz de percibir y distinguir un amplio rango de niveles de brillo, disminuye su precisin cuando hay muchos niveles involucrados a la vez, necesitando periodos de adaptacin a cada situacin.

    Figura 9.- El color gris del cuadrado interior de la figura de la derecha parece ms oscuro que el cuadrado interior de la figura de la izquierda, a pesar de que ambos estn tintados

    con el mismo gris.

    Inhibicin lateral

    El otro fenmeno que se indicaba, la inhibicin lateral, se origina en el hecho de que las clulas de la retina, al detectar un nivel de intensidad, inhiben las clulas vecinas, produciendo perturbaciones en las fronteras de cambio de intensidad. Este fenmeno, que puede apreciarse en la Figura 10, tambin influye en que el brillo percibido no est en proporcin directa con el brillo fsico.

    Figura 10.- La tonalidad de cada una de las franjas verticales de la figura de la izquierda es uniforme. Sin embargo, al observarlas, parece que son ms oscuras por la derecha y ms claras por la izquierda. El brillo percibido para cada banda se refleja en el diagrama de la

    derecha.

  • Captulo 1 - Introduccin a la Visin Artificial

    - 11 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    1.2.2 Percepcin cromtica La percepcin del color de una imagen la realizan los conos (ver Figura 7). Son unas clulas especializadas, dispuestas en la retina en un nmero cercano a los 6 millones, que son capaces de variar su comportamiento ante cambios en la longitud de onda de una radiacin electromagntica. Basndose en la informacin aportada por los conos el cerebro construye la sensacin de color.

    Los conos del ojo humano tienen una sensibilidad menor que los bastones. Se dice popularmente que de noche todos los gatos son pardos, reflejando el hecho de que con poca luz slo los bastones captan suficiente energa para activarse.

    Estudios fisiolgicos han revelado que existen tres tipos de conos, que se han denominado mediante las letras S, L, y M. Los conos de tipo S (short) son ms sensibles a las radiaciones con longitud de onda corta (azules), los M (medium) a las radiaciones de longitud media (verdes), y los L (large) a las de longitud larga (rojos). As, la sensacin de color que percibimos est relacionada con la energa que tiene a diferentes longitudes de onda una radiacin electromagntica. Para explicar tal relacin se definen el matiz y la saturacin.

    Matiz

    Los colores que normalmente vemos no proceden de fuentes monocromticas (y por tanto no se corresponden con una nica longitud de onda). Por ejemplo la luz blanca resulta de la suma de numerosas longitudes de ondas, o los tonos prpuras resultan de combinar los colores rojo y azul, ambos en extremos opuestos del espectro.

    El matiz o tono es un concepto que se deriva de la relacin que se produce entre las activaciones de los distintos tipos de conos cuando sobre ellos incide la luz. El matiz depende de la longitud de onda dominante, es decir, aqulla para la que se encuentra ms energa en el diagrama espectral (ver Figura 11). El ser humano es capaz de distinguir entre 125 y 150 matices distintos cuando estn prximos, perdiendo esa capacidad si estn distanciados espacialmente.

  • Captulo 1 - Introduccin a la Visin Artificial

    - 12 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Por otro lado se debe destacar que hay matices que nos producen diferente sensacin de color dependiendo de la intensidad a la que estn asociados. Por ejemplo el matiz naranja, si tiene baja intensidad es percibido como marrn.

    680 nm

    Potencia (w) Potencia (w)

    (a) (b)

    Figura 11.- La figura de la izquierda no tiene una longitud de onda dominante, su matiz es blanco. La figura de la derecha corresponde a un objeto rojo, siendo la longitud de onda

    dominante la correspondiente a 680 nm.

    Saturacin

    Mide la proporcin entre la longitud de onda dominante y el resto de longitudes de onda. En la Figura 12 se presenta un ejemplo de dos diagramas espectrales con el mismo matiz, pero con diferente saturacin.

  • Captulo 1 - Introduccin a la Visin Artificial

    - 13 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Potencia (w) Potencia (w)

    (a) (b) 680 nm 680 nm

    Figura 12.- Dos espectros con el mismo matiz. El de la izquierda corresponde a un rojo muy saturado. El de la derecha a una luz roja poco saturada.

    Definidos los conceptos de matiz, saturacin y brillo se dice que se ve un color determinado cuando se percibe una cierta combinacin de estos tres elementos.

    La existencia de slo tres tipos de receptores, para percibir todos los colores, es la base de la teora triestmulo.

    1.2.3 Diagrama cromtico y teora triestmulo Se ha comprobado experimentalmente que la mezcla aditiva de la luz emitida por tres linternas, una roja, otra verde y otra azul, permite obtener una amplia gama de colores. Sobre este hecho se sustentan multitud de dispositivos que generan imgenes en color, como los tubos de los televisores y monitores, las pantallas de cristal lquido, las pantallas de plasma, etc. Sin embargo, se ha demostrado que no es posible obtener todos los matices que el ojo humano puede distinguir (que como se ha dicho son ms que los que aparecen en el espectro) mediante mezcla aditiva de tres linternas. Estos resultados se encuentran dentro de la denominada teora triestmulo o teora aditiva.

    En la dcada de los aos 20 del siglo XX D. Wright y J. Guiad, de manera independiente, realizaron una serie de experimentos relacionados con la percepcin del color. Estos experimentos consistan en pedir a una serie de personas que modificasen la intensidad de tres linternas para igualar el color

  • Captulo 1 - Introduccin a la Visin Artificial

    - 14 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    (matiz, saturacin y brillo) de una cuarta linterna. En estos experimentos se utiliz una luz roja, una verde y una azul1.

    Cuando en algn caso el sujeto no lograba igualar las luces, se le aada al azar cierta cantidad de luz al color de la cuarta linterna. Esa misma luz se restaba luego de la utilizada por el sujeto en las otras tres linternas. Tras estos experimentos se obtuvieron tres curvas que se normalizaron de manera que la curva para el verde se correspondiese con la del rendimiento luminoso (V()). Al tener que usar una componente negativa queda patente que no es posible generar toda la gama de colores que el ojo puede percibir mediante mezcla aditiva de tres linternas. Sin embargo debe observarse que s es posible expresar matemticamente todos los colores como combinacin lineal2 de tres linternas.

    Posteriormente, en 1931 la Comisin Internacional de Iluminacin (C.I.I.) adapt estos resultados con objeto de obtener una descripcin ms til del espacio de color. Esta comisin convino expresar qu cantidad, en Lmenes, tiene que emitir cada una de tres linternas patrn para expresar todos los matices del espectro de manera aditiva (ver Figura 13). Los colores de estas tres linternas, que se denominaron a, b y c, se encuentran fuera del dominio de los colores reales, pero esto carece de importancia, puesto que las cantidades luz de estas linternas necesarias para igualar cualquier matiz del espectro, se calculan por mtodos matemticos a partir de las curvas de Wright y Guiad.

    Para obtener un color determinado se toma A como la cantidad del componente a, B como la cantidad del componente b, y C como la cantidad del componente c. Ahora, con objeto de normalizar A, B y C, se plantean las siguientes relaciones:

    1 Las tres luces eran radiaciones monocromticas, la verde tena una longitud de onda de 546.1 nm, la azul de 435.8 nm, y la roja de 700 nm. Tanto la verde como la azul fueron elegidas por ser fcilmente producidas por una lmpara de descarga de mercurio, mientras que la roja se eligi por corresponder al valor ms alto de respuesta medido en el humano para el rojo.

    2 La mezcla aditiva puede realizarse en la realidad sin ms que mezclar la luz de las linternas. La combinacin lineal debe permitir la resta de luces, cosa que no es posible fsicamente.

  • Captulo 1 - Introduccin a la Visin Artificial

    - 15 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    CBA

    Ax

    ++= ,

    CBA

    By

    ++= ,

    CBA

    Cz

    ++=

    Evidentemente x+y+z=1, con lo que el valor de z depende de los valores de x e y. Por ello slo son necesarias las magnitudes x e y para definir cualquier color. Representando en un plano XY el color asociado a cada punto (x,y,z) se obtiene el grfico de la Figura 14 (a).

    0

    0,5

    1

    1,5

    2

    2,5

    360 440 520 600 680 760

    Longitud de onda (nm)

    Lumenes

    ab

    c

    Figura 13.- Curvas fijadas por la C.I.I., mediante experimentacin con personas. Reflejan el nmero de lmenes percibidos para cada una de las tres linternas monocromticas (a , b y

    c) usados al igualar un vatio de flujo radiante de cada longitud de onda del espectro.

  • Captulo 1 - Introduccin a la Visin Artificial

    - 16 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    (a) (b)

    Rojos

    Verdes

    Azules

    Amarillos

    Magentas

    Cyanes

    Figura 14.- Diagrama Cromtico del C.I.I.

    Este diagrama con forma de lengua representa los colores que en media puede ver un humano. Los colores del borde curvo se corresponden con los del espectro, mientras que los del borde recto no pueden obtenerse mediante luces monocromticas.

    El diagrama cromtico C.I.I cumple que tomando dos puntos P1 y P2 interiores a l, la gama de colores que se obtiene mezclando de manera aditiva la luz de dos linternas con esos colores, se corresponde con los colores existentes entre esos dos puntos en el diagrama. Sin embargo se debe sealar que las proporciones de intensidad necesarias para obtener los colores intermedios entre P1 y P2 no varan de manera lineal.

    Se observa que hay colores que se pueden obtener por mezcla aditiva de otros. Estos colores, que en la teora aditiva se denominan primarios, se corresponden con los matices de rojo, verde y azul. Los colores intermedios entre el rojo, el verde y el azul son el cyan, el magenta y el amarillo, y se llaman secundarios en la teora aditiva.

  • Captulo 1 - Introduccin a la Visin Artificial

    - 17 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    As, los matices comprendidos dentro del tringulo definido por los puntos R, G y B3 de la Figura 14 (b) son aqullos que se pueden obtener por mezcla aditiva de tres linternas con los matices correspondientes a los vrtices del tringulo. Por eso en los televisores y en otros dispositivos similares, se debe elegir cuidadosamente cada uno de los tres matices (rojo, verde y azul) que se usarn para construir las imgenes. Esta eleccin debe realizarse de manera que el rea del triangulo dentro del diagrama C.I.I. sea mxima, y as poder representar un nmero mayor de colores.

    El diagrama C.I.I. da lugar a otro tipo de representacin denominado HSV (Matiz Saturacin y Luminosidad4). Esta representacin puede considerarse como un superconjunto de una representacin RGB. Una descripcin ms amplia de los modelos de representacin del color puede encontrarse en [F+97].

    Figura 15.- A la izquierda mezcla aditiva de la luz tres linternas sobre una superficie blanca no iluminada. A la derecha mezcla substractiva de tres tintes sobre un lienzo blanco.

    Pigmentos

    Cuando la luz choca con una superficie pigmentada no se produce una reflexin especular. Al contrario, la luz penetra en el pigmento y sufre numerosos choques

    3 RGB por red, green, blue.

    4 Hue-Saturation-Value en ingls.

  • Captulo 1 - Introduccin a la Visin Artificial

    - 18 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    contra las molculas que lo componen. En cada choque la luz pierde aquellas componentes que esa molcula del pigmento no refleja. Por ello, usando pigmentos no se realiza una mezcla aditiva de haces de luz, sino una mezcla substractiva resultado de restar a la luz blanca las componentes que absorbe el pigmento.

    Puede entenderse que al mezclar dos pigmentos se est creando un nuevo pigmento que slo refleja aquellas componentes de la luz que reflejaban a la vez cada uno de los pigmentos originales. Nuevamente, se trata de escoger adecuadamente una base de colores, para que la gama de matices que se pueda representar mezclando componentes de esta base sea lo ms extensa posible.

    Por ejemplo, si se toma la base: rojo, verde, y azul (RGB). Mezclando tinta roja (cuyas partculas solo reflejan luz en torno al matiz rojo) y tinta verde (que solo refleja luz en torno al matiz verde), se obtiene una tinta con partculas que absorben casi toda la radiacin y no refleja ninguna, por lo que aparece el color negro. Esto ocurre porque el solapamiento entre las regiones de no absorcin de las dos tintas es pequeo. Mezclando rojo y azul o verde y azul ocurre lo mismo. Por ello el rojo, el verde y el azul forman una base que, fuera de los tres colores que posee, no permite obtener muchos ms de manera substractiva.

    Si la base es celeste, magenta y amarillo (CMY5) el nmero de colores que se pueden obtener de manera substractiva es mayor. Esto se debe a que estos colores se perciben utilizando conos receptores para el rojo, el verde y el azul. As, por ejemplo, al mezclar un tinte amarillo (que refleja luz con componentes desde el rojo y al verde) con otro tinte magenta (que refleja componentes desde el azul y al rojo) se obtiene un tinte que en conjunto absorbe el azul y el verde pero refleja el rojo. As, mientras que la base RGB no permite obtener el color amarillo de manera substractiva, la CMY s permite obtener el rojo. Este ejemplo ilustra por qu los dispositivos que emiten rayos luminosos (como los tubos de rayos catdicos y los dispositivos LCD de los monitores y de las televisiones) eligen la base RGB, mientras que las impresoras, que usan papel y tinta, toman como base la CMY.

    5 Cyan, magenta, yellow.

  • Captulo 1 - Introduccin a la Visin Artificial

    - 19 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Si representamos sobre los tres ejes de 3 cada una de las componentes RGB y asignamos valor 1 al mximo brillo en cada componente encontraremos que si el origen de la base RGB est en la posicin (0,0,0), el origen de la base CMY estar en la posicin (1,1,1) y el sentido de los ejes ser opuesto. Esto se puede expresar mediante la relacin (1.2).

    =

    y

    m

    c

    b

    g

    r

    1 (1.2)

    1.3. Visin Artificial La visin artificial tiene como finalidad la extraccin de informacin del mundo fsico a partir de imgenes, utilizando para ello un computador. Se trata de un objetivo ambicioso y complejo que actualmente se encuentra en una etapa primitiva.

    1.3.1 Representacin de la realidad Un sistema de Visin Artificial acta sobre una representacin de una realidad que le proporciona informacin sobre brillo, colores, formas, etctera. Estas representaciones suelen estar en forma de imgenes estticas, escenas tridimensionales o imgenes en movimiento.

    Imgenes

    Una imagen bidimensional es una funcin que a cada par de coordenadas (x, y) asocia un valor relativo a alguna propiedad del punto que representa (por ejemplo su brillo o su matiz). Una imagen acromtica, sin informacin de color, en la que a cada punto se le asocia informacin relativa al brillo, se puede representar como una superficie (ver Figura 16), en la cual la altura de cada punto indica su nivel de brillo. Una imagen en color RGB se puede representar asociando a cada punto una terna de valores que indica la intensidad de tres linternas (una roja, otra verde y otra azul). Una imagen de color de espectro completo se puede representar asociando a cada punto un diagrama espectral de emisin de color.

  • Captulo 1 - Introduccin a la Visin Artificial

    - 20 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Figura 16.- La imagen plana (2D) de la derecha puede presentarse como una superficie. En ella la coordenada z para el punto (x, y) corresponde al brillo que tiene en la imagen plana.

    Escenas 3D

    Otra forma de representar la realidad consiste en asignar a cada punto del espacio que pertenece a un objeto (x, y, z) una propiedad del punto (su existencia, su intensidad, su matiz, etctera.). Al trabajar con imgenes 3D, como se tiene la forma de los objetos, la informacin de brillo y color puede no ser tan relevante.

    Secuencias animadas

    Un punto con un brillo suficiente que parpadee con una frecuencia superior a 25 pulsos por segundo ser percibido como un punto brillante fijo por nuestros sentidos. ste efecto es el usado en cine y televisin para crear la ilusin del movimiento. As, cuando una cmara cinematogrfica toma sucesiones de imgenes estticas que se capturan a una frecuencia determinada, si estas sucesiones de imgenes se presentan luego a una frecuencia superior a 25 imgenes por segundo, el sistema visual humano no es capaz de distinguir el cambio e interpreta movimiento.

  • Captulo 1 - Introduccin a la Visin Artificial

    - 21 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    1.3.2 Etapas de un sistema de visin artificial Se ha visto que el ser humano captura la luz a travs de los ojos, y que esta informacin circula a travs del nervio ptico hasta el cerebro donde se procesa. Existen razones para creer que el primer paso de este procesado consiste en encontrar elementos ms simples en los que descomponer la imagen (como segmentos y arcos). Despus el cerebro interpreta la escena y por ltimo acta en consecuencia. La visin artificial, en un intento de reproducir este comportamiento, define tradicionalmente cuatro fases principales:

    La primera fase, que es puramente sensorial, consiste en la captura o adquisicin de las imgenes digitales mediante algn tipo de sensor.

    La segunda etapa consiste en el tratamiento digital de las imgenes, con objeto de facilitar las etapas posteriores. En esta etapa de procesamiento previo es donde, mediante filtros y transformaciones geomtricas, se eliminan partes indeseables de la imagen o se realzan partes interesantes de la misma.

    La siguiente fase se conoce como segmentacin, y consiste en aislar los elementos que interesan de una escena para comprenderla.

    Por ltimo se llega a la etapa de reconocimiento o clasificacin. En ella se pretende distinguir los objetos segmentados, gracias al anlisis de ciertas caractersticas que se establecen previamente para diferenciarlos.

    Estas cuatro fases no se siguen siempre de manera secuencial, sino que en ocasiones deben realimentarse hacia atrs. As, es normal volver a la etapa de segmentacin si falla la etapa de reconocimiento, o a la de preproceso, o incluso a la de captura, cuando falla alguna de las siguientes.

  • Captulo 1 - Introduccin a la Visin Artificial

    - 22 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Captura

    Segmentacin

    Reconocimiento

    Preproceso

    Figura 17.- Diagrama de bloques de las etapas tpicas en un sistema de visin artificial.

    1.3.3 Configuracin informtica de un sistema de visin artificial

    Aunque se pueden proponer configuraciones muy avanzadas, por ejemplo incluyendo hardware especfico para acelerar ciertas operaciones, los elementos imprescindibles son:

    Un sensor ptico para captar la imagen: Una cmara de vdeo, una cmara fotogrfica, una cmara digital, un escner... unindole un conversor analgico-digital cuando sea preciso.

    Un computador que almacene las imgenes y que ejecute los algoritmos de preprocesado, segmentacin y reconocimiento de la misma.

    1.4. Bibliografa del captulo [GW93] caps. 1 y 2.

    [Bax94] caps. 1 y 2.

    [F+97] cap. 13.

    [Cas 85] caps. 32, 33 y 35.

  • Captulo 1 - Introduccin a la Visin Artificial

    - 23 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

  • - 25 -

    2002 y 2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Captulo 2 Adquisicin y representacin de imgenes digitales

    Este captulo trata los aspectos ms relevantes del proceso de captura y digitalizacin de una imagen, esto es, la adquisicin de la imagen del mundo fsico y su paso al dominio discreto y virtual informtico.

    Una vez digitalizada una imagen bidimensional digital est constituida por un conjunto de elementos llamados pxeles6. Cada pxel ofrece cierta informacin sobre una regin elemental de la imagen. En imgenes en niveles de gris esta informacin es el brillo. En imgenes en color, la informacin corresponde a la intensidad de cada una de las componentes de una base de color (por ejemplo RGB). Dentro de este captulo tambin se repasan las tcnicas de compresin, que buscan la forma ms eficiente de almacenar las imgenes digitales.

    Se finaliza el captulo con el estudio de las relaciones bsicas que se pueden establecer entre los pxeles de una imagen.

    6 Del ingls pxel que abrevia a picture element.

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 26 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    2.1. Captura y digitalizacin de imgenes Las imgenes digitales son seales discretas, que suelen tener origen en una seal continua. Por ejemplo, una cmara digital toma imgenes del mundo real que es continuo (tanto el espacio, como el espectro de la radiacin reflejada por los objetos se consideran continuos); otro ejemplo es el de un escner, el cual digitaliza imgenes procedentes de documentos o fotografas que a efectos prcticos tambin se consideran continuos.

    En el proceso de obtencin de imgenes digitales se distinguen dos etapas. La primera, conocida como captura, utiliza un dispositivo, generalmente ptico, con el que obtiene informacin relativa a una escena. En la segunda etapa, que se conoce como digitalizacin, se transforma esa informacin, que es una seal con una o varias componentes continuas, en la imagen digital, que es una seal con todas sus componentes discretas.

    2.1.1 Modelos de captura de imgenes A grandes rasgos, para capturar una imagen se suele distinguir entre dispositivos pasivos (basados generalmente en el principio de cmara oscura) y dispositivos activos (basados en el escaneo). Esta clasificacin no incluye todas las formas posibles de creacin de imgenes, como por ejemplo la construccin de imgenes sintticas.

    El modelo de lente fina

    Desde hace mucho tiempo es conocida la manera de formar una imagen utilizando el principio de cmara oscura. Este dispositivo pasivo est constituido por una caja cerrada, conocida como cmara, en una de cuyas paredes existe un orificio que permite el paso de la luz. La luz, tras entrar en la cmara, se proyecta sobre la pared opuesta a la que tiene el orificio, obtenindose all una imagen invertida de la escena que est fuera de la cmara. Cardan, en 1550, tuvo la idea de colocar una lente delante de dicho orificio para aumentar la luminosidad. Para explicar el funcionamiento del conjunto se usa el modelo de lente fina.

    El modelo de lente fina explica que una lente de grosor despreciable y perfectamente biconvexa permite recoger la luz de una escena y proyectarla de

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 27 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    manera ntida sobre una superficie llamada plano de formacin de la imagen. Este comportamiento es posible gracias a las propiedades que tiene tal lente:

    Es una lente biconvexa de grosor despreciable que posee un plano de simetra y un eje de simetra denominado eje ptico. El centro ptico es el punto interior a la lente donde se corta el eje ptico y el plano de simetra.

    Todo haz de luz que pasa por el centro ptico de una lente fina contina en lnea recta (Figura 18 a).

    Todos los haces paralelos que inciden perpendiculares al plano de simetra de una lente fina, tras atravesarla, se cortan en un punto llamado foco (Figura 18 a) situado sobre el eje ptico. Se define distancia focal como la distancia del foco al centro ptico de la imagen.

    Sea un punto P, que se encuentra a una distancia de la lente fina mucho mayor a la distancia focal. Todos los rayos que provengan de P, tras atravesar la lente, se cortan en un punto llamado punto de formacin de la imagen (Figura 18 b).

    P lano de formacin de laImagen

    Punto de fo rmacinde la imagen

    LenteP

    C = Centro ptico de la lente

    C

    Foco

    Rayos de LuzLente

    E je axia l de la lente

    Distancia Focal

    Eje ptico

    (a) (b)

    Figura 18.- Trayectoria seguida por la luz al atravesar una lente fina. (a) los haces paralelos que inciden perpendiculares al eje de la lente se cortan en el foco. En (b) los haces

    provenientes de un mismo punto objeto se cortan en el punto de formacin de la imagen.

    De esta ltima propiedad se deduce que los puntos de formacin de la imagen correspondientes a puntos P que estn a la misma distancia de la lente, forman un plano perpendicular al eje ptico de la lente, que es el plano de

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 28 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    formacin de la imagen. As, a una figura formada por un conjunto de puntos P que equidistan de la lente se corresponde una figura semejante, aunque invertida, en el plano de formacin de la imagen.

    La distancia del plano de formacin de la imagen al eje plano de simetra de la lente est relacionada con la distancia del punto P al mismo y con la distancia focal de la lente. Si llamamos S0 a la distancia del punto P a la lente, Si a la distancia de la lente al plano de formacin de la imagen para ese punto P y f a la distancia focal, se cumple la relacin:

    fSS i

    111

    0

    = (2.1)

    Sobre la Figura 18 se aprecia que el punto de formacin de la imagen est contenido dentro del plano de formacin de la imagen. Sin embargo, de la formula (2.1) se deduce que no es posible esta coincidencia simultneamente para puntos que estn a diferentes distancias de la lente. As, la variacin de la distancia del plano de formacin de la imagen respecto de la lente, permite concentrar ms o menos los haces procedentes del punto P sobre tal plano. Este proceso se conoce como enfoque.

    Por otro lado Si/S0 corresponde a la relacin de aumento entre la imagen real y la imagen proyectada.

    Las lentes reales se construyen utilizando un material transparente llamado vidrio ptico, mezcla de productos qumicos como el xido de bario, lantano y tntalo. Las lentes se disean con una geometra tal que se obtengan los resultados descritos, utilizando fundamentalmente una propiedad de la luz que consiste en su cambio de direccin al pasar de un medio a otro. Segn esta propiedad el ngulo del cambio de direccin depende del medio que se atraviese y del ngulo del rayo de luz con la normal a la superficie que separa los dos medios. El ndice de refraccin mide la dependencia de este cambio respecto al medio atravesado. Por ejemplo, el vaco tiene ndice de refraccin 10, el agua 1333, el vidrio normal 1528 y el vidrio que se suele usar en ptica 1519.

    Una lente como la descrita en el modelo de lente fina no puede conseguirse en la realidad debido a problemas inherentes a la tecnologa de fabricacin de componentes pticos. Por ejemplo, las lentes reales tienen un grosor

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 29 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    que no es despreciable y esto provoca aberraciones cromticas7. Otra diferencia con el modelo de lente fina radica en que el grosor del vidrio vara a lo largo de la lente y esto crea aberraciones esfricas8. Otros aspectos que desvan su comportamiento del ideal son la existencia de defectos en el cristal o la no ausencia total de color en el mismo.

    Es por todo esto que las propiedades descritas para el modelo de lente fina slo se cumplen de manera aproximada en la realidad, aunque en general, cuanto mejor sea la calidad de una lente ms se aproximar su comportamiento al ideal.

    La cmara oscura

    El principio de cmara oscura, descrito en el punto anterior, se puede usar para capturar imgenes de escenas tridimensionales (del mundo real) y proyectarlas en un plano bidimensional. Dispositivos de este tipo son las cmaras fotogrficas y las cmaras de vdeo. Este modelo adems se puede usar para capturar imgenes de elementos bidimensionales, como fotografas y documentos, como por ejemplo hacen los escneres de cmara. Tambin se pueden usar dos o ms cmaras para capturar diferentes perspectivas de una misma escena y construir una representacin 3D de la misma (ver Captulo 6).

    El escaneo

    Este esquema es fundamentalmente distinto del basado en cmara, ya que existe un elemento activo (generalmente un haz de luz lser) que recorre la escena que se desea capturar. Por tanto son imprescindibles dos dispositivos, uno emisor del haz de luz y otro el receptor. El escner emite el haz de luz y ste, tras chocar con la imagen que se escanea, es recogido en el detector de luz. Repitiendo este proceso

    7 La aberracin cromtica se debe a que el ndice de refraccin es diferente segn la longitud de onda de la luz que atraviesa la lente. As, diferentes colores dan lugar a diferentes planos de formacin de la imagen, y esto da lugar a la aparicin de bandas de colores en los bordes de los objetos dentro de una imagen.

    8 La distorsin esfrica se origina al existir diferente plano de formacin de la imagen para los rayos que atraviesan la zona ms gruesa de la lente que para los que atraviesan la zona ms delgada de la misma.

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 30 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    de manera continua se puede construir una seal que corresponde a una representacin de la escena.

    Los dispositivos basados en el escaneo tambin se usan con diferentes fines. As, los escneres-lser pueden capturar escenas 3D directamente, y los escneres de tambor permiten capturar imgenes de elementos bidimensionales.

    Los dispositivos basados en cmara aventajan a los basados en escaneo en velocidad. Adems son ms simples y se parecen ms al sistema visual humano. Es de prever que, con el tiempo, los modelos de cmara terminen superando tambin a los de escaneo en cuanto a calidad de la imagen obtenida, ya que su principal cuello de botella, que se encuentra actualmente en el elemento digitalizador, parece que puede ser mejorado sensiblemente con nuevos desarrollos tecnolgicos.

    2.1.2 La digitalizacin Es el proceso de paso del mundo continuo (o analgico) al mundo discreto (o digital). En la digitalizacin normalmente se distinguen dos procesos: el muestreo (sampling) y la cuantizacin (quantization).

    Muestreo

    El muestreo de una seal continua consiste en la medicin a intervalos (discretizacin) respecto de alguna variable (generalmente el tiempo o el espacio), siendo su parmetro fundamental la frecuencia de muestreo, que representa el nmero de veces que se mide un valor analgico por unidad de cambio.

    Mediante el muestreo se convierte una imagen IC, que es algo continuo, en una matriz discreta ID de NM pxeles. El nmero de muestras por unidad de espacio sobre el objeto original conduce al concepto de resolucin espacial de la imagen. sta se define como la distancia, sobre el objeto original, entre dos pxeles adyacentes. Sin embargo la unidad de medida de resolucin espacial ms habitual suele ser los pxeles por pulgada (comnmente DPIs9) siempre medidos sobre el objeto original.

    9Dots per inch en ingls.

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 31 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    De esta forma, el proceso de muestreo, para una imagen, que asocia a cada punto un valor real, cambia una imagen del formato:

    IC(x, y) en donde x, y

    al formato:

    ID(x, y) en donde x, y N y 0xN-1 , 0yM-1

    que se puede representar en forma matricial:

    ID(x, y) =

    )1,1(...)1,1()0,1(

    ......

    )1,1(...)1,1()0,1(

    )1,0(...)1,0()0,0(

    MNININI

    MIII

    MIII

    DDD

    DDD

    DDD

    Cuantizacin

    La segunda operacin es la cuantizacin de la seal, que consiste en la discretizacin de los posibles valores de cada pxel. Los niveles de cuantizacin suelen ser potencias de 2 para facilitar el almacenamiento en el computador de las imgenes, ya que stos utilizan el byte10 como unidad mnima de memoria directamente direccionable. As, suelen usarse 2, 4, 16 256 niveles posibles. De esta forma, ID que pertenece a se convierte en IDC (discreta cuantizada) que pertenece a N. El nmero de niveles posibles define la resolucin radiomtrica.

    IDC (x, y) N

    10 Un byte est compuesto de 8 bits. Un bit es la unidad mnima de informacin en un computador y puede tomar valores 0 y 1, lo que permite al byte representar 256 nmeros.

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 32 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Donde,

    x, y N y 0 x N-1 , 0 y M-1

    0 IDC (x, y) 2q-1

    Cuando las imgenes slo tienen informacin sobre el brillo se habla de imgenes en niveles de gris y se suelen utilizar hasta 256 niveles para representar los tonos intermedios desde el negro (0) hasta el blanco (255). Si slo se permiten dos niveles de cuantizacin (normalmente blanco y negro) se habla de imgenes bitonales o imgenes binarias. Para el caso del color suelen usarse 256 niveles para representar la intensidad de cada uno de los tres colores primarios (RGB). De esta forma se obtienen 16 millones de colores aproximadamente (256x256x256) y se habla de imgenes en color real. En algunos casos puede necesitarse mayor resolucin radiomtrica y se usan 4096 niveles por banda de color en vez de 256, o incluso ms.

    Bitonal

    256 colores

    Color real

    N x M bytes

    (N/8) x M bytes

    3 x N x M bytes

    N

    M

    N

    M

    N

    M

    Figura 19.- Diferentes tipos de imgenes digitales y su tamao en bytes.

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 33 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    En ocasiones el sistema de almacenamiento de imgenes impone restricciones como que cada una de las M lneas que componen una imagen ocupen un valor mltiplo de 1 byte o de 4 bytes. As, para el caso bitonal forzando alineamiento de 32 bits el ancho en bytes sera: N/8 + (N%32 >> (N/32)). Y forzndolo de 8 bits sera: N/8 + (N%8 >> (N/8)). En el caso de 256 colores y forzando alineamiento de 32 bits el ancho sera: N + (N%4 >> (N/4)).

    Eleccin de las resoluciones espaciales y radiomtricas

    El proceso de digitalizacin requiere evaluar qu resolucin espacial y qu resolucin radiomtrica se precisan para representar adecuadamente una imagen. Dicho de otra forma, con qu frecuencia se muestrean los pxeles (frecuencia de muestreo), y qu gama de colores se permite (eleccin de la paleta).

    La conjetura de muestreo de Nyquist (posteriormente convertida en teorema por Shannon) establece la frecuencia mnima que es preciso aplicar para poder recuperar sin errores una seal. El teorema establece que la frecuencia de muestreo debe ser al menos el doble de la mxima frecuencia con la que cambian los elementos que se quieran capturar en la seal. Por ejemplo, si se ha impreso una hoja de papel con una impresora configurada a 200 DPIs, el proceso de escaneo, necesario para obtener una representacin fiel de tal papel, debe realizarse muestreando al menos a 400 DPIs.

    Tambin hay que tener en cuenta que dependiendo del uso que se vaya a hacer de una imagen, la eleccin de los parmetros de digitalizacin puede variar de una forma menos objetiva. As, para la publicacin de un peridico en blanco y negro, 16 niveles de intensidad podran ser suficientes, pero elegir menos de 80 por 80 pxeles por pulgada de resolucin espacial sera inadmisible; mientras que para una imagen, con vistas a su reconocimiento, aunque podra ser preciso utilizar ms niveles de intensidad, se podra permitir una resolucin espacial menor.

    Para ilustrar estos aspectos en la Figura 20 se presenta la imagen de Lena11 digitalizada con diferentes resoluciones espaciales y radiomtricas.

    11 La imagen de Lena es una imagen clsica dentro del mundo del procesado digital de imgenes. Es una imagen de una chica, aparecida en la publicacin Play Boy en 1972,

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 34 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    256 Niveles de intensidad

    160 x 160 pxeles

    256 Niveles de intensidad

    80 x 80 pxeles

    256 Niveles de intensidad

    16 x 16 pxeles

    16 Niveles de intensidad

    160 x 160 pxeles

    8 Niveles de intensidad

    160 x 160 pxeles

    2 Niveles de intensidad

    160 x 160 pxeles

    Figura 20.- En la fila superior se presenta la misma imagen, siempre a 256 niveles de intensidad, usando diferentes resoluciones espaciales. En la fila inferior se mantiene la

    resolucin espacial y se reduce el nivel de cuantizacin.

    En la Figura 21b se presenta otro ejemplo, en l se aprecia cmo una reduccin de la resolucin espacial de la imagen, conseguida dejando uno de cada 4 pxeles, produce una prdida de la legibilidad del documento binario de la Figura 21a. Dicha prdida no sera tan patente si se hubiese usado un mtodo de reescalado ms adecuado, como por ejemplo el que consiste en construir una imagen que interpola los valores de cada grupo de 4 pxeles aumentado la resolucin radiomtrica para representarlos (ver Figura 21c). Este mtodo de reescalado implica un intercambio no reversible de valores entre la resolucin

    escaneada por un investigador desconocido. La ventaja de operar sobre imgenes estndar radica en que permiten comparar los resultados que se obtienen con los que han obtenido otros investigadores.

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 35 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    espacial (que disminuye) y la radiomtrica (que aumenta). En particular, en la Figura 21c se construye cada pxel de la imagen reducida interpolando su valor a partir de los 4 pxeles correspondientes de la imagen original.

    (a)

    (b))

    (c)

    Figura 21.- Efecto de la reduccin de resolucin sobre una imagen. La imagen (a) corresponde a un texto y se ha tomado con un escner bitonal; en (b) la misma imagen tras reducir su resolucin en un 50% respecto de la original conservando uno de cada cuatro pxeles; en (c) la misma imagen tras reducir su resolucin en un 50% interpolando.

    Muestreo y cuantificacin no uniformes

    Hasta ahora se ha tratado el concepto de muestreo y cuatizacin como si fuese un proceso uniforme. El muestreo no uniforme consiste en el uso de diferente frecuencia de muestreo para diferentes zonas de la imagen. De esta forma, las zonas ms interesantes pueden tener una resolucin espacial mayor que las menos interesantes, consiguiendo un ahorro de los recursos del sistema.

    La cuantizacin no uniforme se basa en el uso de paletas. Una paleta consiste en un conjunto de colores a los que se les asigna una referencia. Los pxeles de las imgenes que usan paletas contienen como valor la referencia al color de la paleta que quieren presentar. Cuando el nmero de colores de una imagen es pequeo, el uso de paletas permite, adems de un ahorro de memoria, simplificar ciertas operaciones, como el cambio de un color por otro dentro de una

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 36 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    imagen, que slo exige el cambio de la paleta y no el cambio directo de todos los pxeles de la imagen.

    Ejemplo 2.-

    Para saber cuntos bytes ocupa una imagen de 640x480 pxeles con 256 niveles de intensidad cuando se representa en una pantalla de ordenador, se opera:

    N de pxeles = 640 x 480 = 307.200 (pxeles)

    Como se utilizan 256 niveles de intensidad para codificar 256 valores se necesita 1 byte por pxel, as:

    N de bytes = 307.200 x 1 300 (Kb)

    Ejemplo 3.-

    Para saber cuantos bytes ocupa una imagen de 1024 por 768 pxeles con codificacin para 16 millones de colores (color Real) se opera:

    N de pxeles = 1024 x 768 = 786.432 (pxeles)

    En este caso cada pxel necesita 3 bytes (uno para codificar 256 niveles de rojo, otro para 256 niveles de azul, y otro para 256 de verde), por tanto:

    N de bytes = 786.432 x 3 = 2.359.296 (bytes) 23 (Mb)

    2.1.3 Dispositivos de captura En los siguientes apartados se analizan los principales dispositivos (fundamentalmente cmaras y escneres) que se pueden encontrar en el mercado para realizar procesos de captura. En la Figura 22 se muestra cmo se relacionan estos dispositivos con un computador.

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 37 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Cmara fotogrfica analgica

    Bsicamente, una cmara fotogrfica est constituida por un recinto oscuro (la cmara), en la que se ha montado un objetivo. El objetivo est formado por un conjunto de lentes que tiene la misin de comportarse como una nica lente que seguira el modelo ideal de lente fina, intentando corregir las aberraciones que se producen al utilizar lentes reales.

    Escaner 3D Software de generacinde imgenes sinteticas

    Cmaras de Video Cmaras Fotogrficas

    Analgicas Digitles (CCD) Convencionales

    Conversor Analgico Digital

    Tarjeta de memoria

    Disco duroporttil

    Procesado Qumico

    Papel Transparencia Negativo Diapositiva

    Escaner plano

    Escner de tambor, esner plano de pelcula y FotoCD

    Ordenador

    Figura 22.- Cuadro de relacin entre dispositivos y el computador.

    El objetivo forma la imagen luminosa en el interior de la cmara, en el plano de formacin de la imagen, donde hay una superficie sensible a la luz llamada pelcula. Entre el objetivo y la superficie sensible se encuentra el obturador, que slo deja pasar la luz en el momento de captura de la imagen. Este momento lo determina el fotgrafo presionando el disparador. Para permitir al usuario encuadrar el objeto el aparato dispone de un visor. Por ltimo, para obtener la imagen, es necesario realizar un proceso qumico sobre la superficie sensible, que se conoce como revelado. Este proceso no es reversible, por lo que la pelcula es de slo un uso.

    Normalmente las cmaras fotogrficas permiten variar la distancia a la que se encuentra la lente ideal del plano de formacin de la imagen (donde est la pelcula). Este proceso permite el enfoque, es decir el ajuste de la definicin de la imagen de los objetos que se encuentren a una distancia determinada de la cmara.

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 38 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Una cmara tambin suele permitir variar la cantidad de luz que entra en ella mediante un dispositivo conocido como diafragma. Cuando se abre mucho el diafragma, entran muchos rayos de luz por cada punto P de la escena, y de acuerdo con los principios que se enunciaron para el modelo de lente fina, esto hace que slo los elementos que estn a cierta distancia de la cmara aparezcan enfocados. Por el contrario, cuanta menor es la apertura del diafragma menos rayos de luz entran por cada punto P de la escena. En el lmite, cuando por cada punto P de la escena slo incidiese un rayo en el plano de formacin de la imagen, toda la imagen debera aparecer enfocada simultneamente. As, en el caso de poca apertura se dice que se tiene gran profundidad de campo, y en el caso de mucha apertura se dice que se tiene poca amplitud de campo.

    Pelcula

    VisorObjetivo

    Diafragma

    Obturador

    Figura 23.- Esquema de una cmara analgica de fotografa. La cmara presenta un visor directo, un objetivo de focal fija y un diafragma formado por unas lminas superpuestas

    mviles que permiten regular la cantidad de luz que entra en la misma.

    Cuando la apertura es pequea el tiempo que debe dejarse abierto el obturador (tiempo de exposicin) debe ser grande, pues en otro caso no entrara suficiente luz como para impresionar la pelcula. Sin embargo, mantener mucho tiempo abierto el obturador puede ocasionar que la imagen resultante aparezca borrosa si durante este tiempo los objetos de la escena se mueven respecto a la cmara.

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 39 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Tambin es posible aumentar la sensibilidad de la pelcula, para que con menos luz quede impresionada. Sin embargo, existe la contrapartida de que a mayor sensibilidad de la pelcula menor definicin posee la misma (el grano de la pelcula es ms grueso12).

    Se debe sealar que existen multitud de objetivos con diferentes distancias focales. Para cada distancia focal se obtiene diferente tamao en la representacin de un objeto (ampliacin). Hay tambin objetivos de focal variable que permiten cambiar la distancia focal dentro de un rango de valores (zoom). La problemtica que introducen estos objetivos es ms compleja. En ellos, por ejemplo, las aberraciones son ms difciles de corregir. Por ello slo son tiles para aquellos problemas en los que la calidad de la imagen no sea un factor muy importante.

    Por ltimo hay que decir que este esquema bsico se complica en la realidad con multitud de detalles tcnicos que diferencian unas cmaras de otras. As existen cmaras compactas, de doble objetivo, rflex, con obturador de cortina, con autoenfoque, panormicas y un largo etctera de variantes para cuyo estudio se remite al lector a [Lan99].

    12 Se llama grano a cada partcula de haluro de plata. Este compuesto, utilizado en las pelculas fotogrficas, es una sustancia reactiva a la luz que incide sobre ella. Cuanto mayor es el grano, mayor sensibilidad a la intensidad se consigue, pero menor definicin y detalle tiene la imagen debido a la menor densidad de granos.

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 40 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Seal de sincronizacin entre lneas de barrido

    Seal de sincronizacin entre imgenes

    Datos de una lnea de barrido

    Segundos

    Voltios

    Figura 24.- Representacin de una seal de video analgico.

    Cmara de vdeo analgica

    La cmara de vdeo es un aparato que transforma una secuencia de escenas pticas en seales elctricas. Est constituida por un objetivo, un tubo de cmara y diversos dispositivos electrnicos de control. La luz se enfoca dentro del tubo de cmara sobre una superficie fotosensible que convierte la seal lumnica en una seal elctrica denominada seal de vdeo. Esta seal consiste en una onda en la cual la intensidad de cada punto de cada lnea de la pantalla se describe por la amplitud de la onda. La onda contiene la informacin de cada lnea de la pantalla separada por una seal de control, y a su vez, cada imagen que est separada de la siguiente por otra seal de control (ver Figura 24).

    La conversin de la seal lumnica en seal elctrica se realiza sobre una superficie fotosensible, llamada diana, cuyo dimetro oscila entre 12 y 30 mm. Cuanto mayor sea esta superficie mayor resolucin se puede obtener. En las cmaras domsticas analgicas se utiliza un tipo de diana fotoconductora llamada vidicon de unos 17 mm de dimetro.

    Finalmente, para obtener una imagen digital se precisa una tarjeta digitalizadora de vdeo. La calidad de este dispositivo depende del nmero de muestras que es capaz de tomar de la seal de vdeo por unidad de tiempo, y de la resolucin radiomtrica que es capaz de alcanzar.

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 41 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Cmara digital de fotografa y vdeo

    El esquema de ambas cmaras es idntico al de sus correspondientes analgicas, con la diferencia de que el dispositivo sensible es un componente electrnico constituido por una matriz de elementos fotosensibles, que se sita en el mismo lugar que el plano de formacin de la imagen, de manera que se forma la imagen sobre l.

    El funcionamiento de estos elementos fotosensibles tiene su base en el efecto fotoelctrico. Consisten en materiales que de manera espontnea emiten electrones en una cantidad proporcional al nmero de fotones que reciben.

    El nmero de elementos fotosensibles, junto con el rea que ocupan, definen la resolucin espacial del dispositivo. El primer CCD comercial, constaba de 120.000 elementos y tena un tamao de 05x025 pulgadas.

    Por otro lado, cada uno de estos elementos fotosensibles es capaz de obtener una carga elctrica proporcional a la intensidad de la luz que le incide. Despus, la carga elctrica de cada elemento se transmite a un amplificador elctrico. El tiempo que tarda esta operacin determina el nmero de imgenes por segundo que puede tomar el dispositivo.

    As, desde el punto de vista de la resolucin espacial estas matrices son dispositivos digitales, mientras que desde el de la resolucin radiomtrica pueden considerarse dispositivos analgicos. Aunque finalmente, esta informacin de carga analgica es discretizada mediante un conversor analgico digital, fijndose en este punto la resolucin radiomtrica.

    Originalmente estos dispositivos registran nicamente la intensidad de luz incidente. Una solucin para conseguir una imagen en color consiste en cubrir la retcula de celdas con filtros que slo permitan el paso de cada una de las componentes RGB. Al tener 3 componentes de color aparece un problema geomtrico derivado de tener que teselar el plano mediante grupos de 3 receptores por cada pxel. Por ello estos receptores se disponen en grupos de cuatro pues la teselacin es ms sencilla (disposicin Bayer ver Figura 25). As, cada pxel recibe la informacin de cuatro receptores (RGBG), disponiendo de paso dos filtros para el verde para emular la mayor sensibilidad del ojo humano hacia ese matiz.

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 42 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Un problema que aparece con esta tcnica consiste en que los cuatro receptores que aportan la informacin hacia un mismo pxel no ocupan la misma posicin fsica. Por ello, en los bordes de los objetos que aparecen en las imgenes pueden aparecer distorsiones del color. Para evitar estos problemas podran utilizarse 3 matrices (una por cada plano de color), aunque esta solucin es ms cara y voluminosa. Tambin podran tomarse tres imgenes diferentes usando un filtro diferente cada vez, aunque esto exige que la escena no cambie de una toma a otra.

    Actualmente existen dos tecnologas para estos dispositivos: C-Mos y CCD13. La tecnologa C-Mos es ms barata al basarse en elementos semiconductores clsicos. Sin embargo la resolucin y la respuesta conseguida con la tecnologa CCD ha sido hasta ahora mejor. Este panorama puede cambiar con nuevos avances tecnolgicos, como el introducido por el sistema Foveon, el cual, basado en la tecnologa C-Mos, permite incorporar los tres receptores (R, G y B) en la misma posicin fsica mediante un sistema multicapa.

    Amplificador

    Conversor A/D

    Fotodiodos

    Registros de desplazamiento vertical

    Registro de desplazamiento horizontal

    Filtros

    Figura 25.- Esquema de un CCD que utiliza un filtro Bayer.

    13Dispositivo de Carga Acoplada (Coupled Charge Device).

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 43 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Escner de cmara

    Este dispositivo recorre una imagen plana (un documento, una fotografa, un plano...) con un CCD compuesto por una nica lnea de elementos fotosensibles, llamado CCD lineal. En su recorrido, el CCD lineal construye una representacin digital de la imagen.

    Se pueden distinguir dos tipos de escneres de cmara: los fijos, que mueven el haz de luz para recorrer el documento, y los de rodillo, que mantienen fijo el haz de luz y mueven el documento a escanear. Los de rodillo tienen su principal atractivo en la reduccin de espacio que ocupa el dispositivo, y en la facilidad para la alimentacin automtica de documentos. Los fijos permiten un ajuste ms exacto del papel (que no se mueve).

    Una propiedad interesante de estos dispositivos es que mientras la resolucin en una de las dimensiones viene determinada por el nmero de celdas receptoras en el CCD lineal, la resolucin en la dimensin perpendicular depende de la velocidad relativa a la que se desplace respecto al elemento escaneado.

    Escner de tambor

    Este tipo de escner se utiliza para digitalizar elementos planos (documentos, fotografas, etc.). El elemento que se desea escanear se sita sobre un cilindro denominado tambor. All, se escanea usando un dispositivo que emite un haz puntual en direccin al tambor. Este haz, tras reflejarse en el elemento que se escanea se recoge en un detector sensible. Despus se analiza el haz recibido y se construye una representacin del elemento escaneado.

    Escner 3D o sensor de rango

    Los sensores de rango se utilizan para reconstruir la estructura 3D de una escena. Capturan imgenes en las que est codificada la forma 3D de los objetos midiendo la profundidad de sus superficies. Son apropiados en aplicaciones que requieren medir distancias (por ejemplo para desviar objetos mviles de obstculos) o para estimar la forma de la superficie de un objeto (por ejemplo en la inspeccin de objetos en industrias).

    Si para muestrear la superficie de un objeto un elemento mvil la recorre tocndola, se denominan sensores de contacto (o tctiles). Este tipo de sensores

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 44 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    pueden ser manuales o automticos. Generalmente consisten en un brazo con varias articulaciones que est fijado a un soporte, habiendo en el extremo del brazo un puntero que se rastrea sobre la superficie del objeto a escanear.

    Ms caros que los sensores tctiles son los sensores de rango no tctiles. Estos sensores se clasifican a su vez en activos y pasivos. Son activos los que o bien proyectan haces controlados de energa (luz o sonido sobre la escena) desde una posicin y orientacin conocidas, o bien analizan el efecto de cambios controlados en algn parmetro del sensor (por ejemplo el foco). Los sensores de rango activos detectan la posicin del haz en el objeto para realizar una medida de la distancia. Adems pueden utilizar una gran variedad de principios fsicos, entre los que podemos sealar: radares, sonoros, interferometra hologrfica, enfoque y la triangulacin activa. Si utilizan fenmenos pticos para adquirir las imgenes de rango, se denominan tambin sensores de rango pticos.

    Un ejemplo de sensor de rango ptico es el escner 3D lser. Este dispositivo obtiene gran densidad de puntos de forma precisa pero es mucho ms caro que un digitalizador tctil. Para obtener los puntos de la superficie de un objeto utiliza un mtodo conocido como tiempo de vuelo, que bsicamente consiste en medir el tiempo que tarda en recibirse el rebote del elemento que escanea y que se conoce como vxel14. Si el objeto a percibir es oscuro, el lser no es reflejado, por lo que las zonas negras o muy oscuras pueden no aparecer. Actualmente existen digitalizadores 3D de tamao pequeo, de fcil uso, que realizan un muestreo en menos de un segundo, generando hasta 200x200 puntos 3D, informacin de color en cada punto, e informacin de la conectividad de los mismos, proporcionando una representacin de superficie en forma de mallado poligonal (ver Figura 26).

    Los sensores pasivos son los no considerados como activos y se basan normalmente en imgenes 2D de niveles de gris o de color para reconstruir la profundidad. Un ejemplo de sensores pasivos lo constituyen los que se basan en la visin estreo, cuyos principios se estudiarn en el captulo 6.

    14 Del ingls voxel que juega con la abreviatura de volume element y con el parecido a la palabra pxel.

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 45 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Figura 26.- Imagen obtenida con un escner 3-D lser.

    2.2. Representacin de la imagen y estructuras de datos

    Las imgenes suelen almacenarse en los ordenadores en forma de ficheros. En este punto se analizarn las estructuras que se usan a tal efecto, los mtodos utilizados para optimizar el espacio requerido y algunos de los diferentes formatos estndar (TIFF, GIF, BMP, JPG...).

    2.2.1 Estructura del fichero de imagen Generalmente una imagen almacenada en un ordenador est constituida (ver Figura 27) por un mapa de bits15 (sera mejor decir de pxeles) precedido por una cabecera que describe sus caractersticas (tamao de la imagen, modo de color, paleta, resolucin de la imagen...). Frecuentemente, cuando la imagen se encuentra en la memoria principal del ordenador la cabecera y el mapa de bits no estn contiguos.

    15 Existen tambin ficheros vectoriales. Bsicamente estos ficheros almacenan pares de coordenadas con los puntos que componen las figuras geomtricas de las figuras que

  • Captulo 2 - Adquisicin y representacin de imgenes digitales

    - 46 -

    2003 - Jos Francisco Vlez Serrano, Ana Beln Moreno Daz, ngel Snchez Calle, Jos Luis Esteban Snchez-Marn

    Figura 27.- Esquema de una imagen en fichero.

    Ejemplo 4.-

    Un formato de fichero muy sencillo para imgenes en niveles de gris podra constar de:

    Una cabecera, donde se indicara el tamao de la imagen mediante dos nmeros enteros N y M.

    Un mapa de bits con NxM nmeros, en formato ASCII y separados por espacios. Utilizando el 0 para indicar el color negro, el 255 para indicar el color blanco, y los nmeros intermedios para intensidades entre blanco y negro.

    Este ejemplo corresponde