unam - datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las...

26
INFORMACION Datos no estructurados: conjunto de muestras, mediciones u observaciones, sin información de posición, ni primitiva de representación: { } { } 1 2 1 , , ..., N N i i u u u u = Nota: Las u i pueden ser valores escalares, pero también entidades estructuradas: vectores, funciones, imágenes, ecuaciones, sistemas, pero no hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes de ciudades, no tiene orden único). Cuando sí importa el orden, el índice i indica este orden (por ejemplo en una sucesión temporal). Datos estructurados: Muestras obtenidas o acomodadas en orden (temporal), o con una organización espacial (geometría), configuración (relativa), o inclusive una jerarquía determinada. Señales: información en secuencia (temporal): u(t). En el caso discreto de denominan secuencias o sucesiones: u(i), u[i], o bien u i . A diferencia de datos no estructurados, existe un orden y la señal (de preferencia secuencia) puede representarse por un vector: ( 1 2 , , ..., N u u u u G ) o como vector columna: 1 2 ... N uu u u T Imágenes (discretas): información que puede disponerse en arreglo regular N×M (2D), o N×M×L (3D), pero también en tramados hexagonales o redes que llenan el espacio (paving). Existen muchas formas de organización de datos, se acuerdo a su forma de embeberse en un espacio (topología) por ejemplo: ©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 1

Upload: others

Post on 08-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

INFORMACION

Datos no estructurados: conjunto de muestras, mediciones u observaciones, sin información de posición, ni primitiva de representación: { } { }1 21

, , ..., N

Ni i

u u u u=

Nota: Las ui pueden ser valores escalares, pero también entidades estructuradas: vectores, funciones, imágenes, ecuaciones, sistemas, pero no hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes de ciudades, no tiene orden único). Cuando sí importa el orden, el índice i indica este orden (por ejemplo en una sucesión temporal). Datos estructurados: Muestras obtenidas o acomodadas en orden (temporal), o con una organización espacial (geometría), configuración (relativa), o inclusive una jerarquía determinada.

Señales: información en secuencia (temporal): u(t). En el caso discreto de denominan secuencias o sucesiones: u(i), u[i], o bien ui. A diferencia de datos no estructurados, existe un orden y la señal (de preferencia secuencia) puede representarse por un vector:

( 1 2, , ..., Nu u u u ) o como vector columna: 1 2 ... Nu u u⎡ ⎤⎣ ⎦u T

Imágenes (discretas): información que puede disponerse en arreglo regular N×M (2D), o N×M×L (3D), pero también en tramados hexagonales o redes que llenan el espacio (paving).

Existen muchas formas de organización de datos, se acuerdo a su forma de embeberse en un espacio (topología) por ejemplo:

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 1

Page 2: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 2

Trayectorias y contornos: información acomodada como sucesión de puntos en el espacio, por ejemplo una trayectoria discreta (llamada también polilínea): (x1, y1, z1), (x2, y2, z2),…, (xN, yN, zN); si se cumple que (x1, y1, z1) = (xN, yN, zN), la trayectoria se cierra y forma un contorno (el índice puede ser el tiempo, la parametrización, en vez de unitaria, puede ser respecto la longitud de arco: (x(s), y(s), z(s)), o incluso desigual). Pueden haber trayectorias de objetos, imágenes, etc y es necesario parámetros adicionales de orientación, además de la posición. Notar que una trayectoria o contorno se puede igualmente describir como una secuencia o como un vector de N dimensiones, cuya i-ésima “coordenada” (o elemento de la secuencia) son puntos en el espacio xi=(xi, yi, zi). Superficies: información acomodada en mallas poligonales embebidas en 3D, localmente isomorfa a una imagen 2D. Las superficies discretas suelen representarse mediante voxeles, pero hay otras primitivas de representación que combinan el caracter discreto y el continuo: las mallas poligonales. Una superficie parametrizada se representa como (x(s,t), y(s,t), z(s,t)), que localmente indica una correspondencia entre una región del plano y una región de la superficie. Variedades: En N dimensiones el equivalente a una superficie de denomina variedad (manifold) y su dimensionalidad intrínseca (dimensión topológica) puede ser menor a la del espacio en el cuál reside (dimensión euclideana). En general la información puede organizarse en el espacio de acuerdo a diversas reglas, o con el fin de modelar un objeto o fenómeno. A veces corresponden al diseño del sensor y es transformada geométricamente para facilitar su análisis y visualización. Primitiva de representación + Atributo + Localización (ver lámina ppt).

Page 3: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

Datos y Señales Conceptos para caracterizar los atributos más elementales de una señal f(x) o conjunto de muestras {fi}i=1

N (ver diagramas).

• Moda: ( )f x , valor de x que maximiza f(x) (ordenada

donde se alcanza el máximo). En una distribución, la moda es el valor más frecuente. Si hay dos o más máximos, la señal o distribución es “bimodal” o “multimodal”. Se cumple que:

max = argmax x

x

2

2

moda moda

( ) ( )0 yx x x x

df x d f xdx dx= =

= < 0

*Nota: en distribuciones discretas de un atributo (por ejemplo el histograma de valores de gris en una imagen escalar), el número de clases o bins debe ser menor o igual al número de niveles del atributo, y la población suficiente para “llenar” los bins, si no, se pueden formar “falsas modas”. Si la población es baja, es mejor tener un número limitado de clases, típicamente de 6 a 20, aunque en ciertas aplicaciones pueden ser 4 ó inclusive 2 (caso de las imágenes binarias).

• Media = promedio de un conjunto de observaciones. Ver tema aparte, más adelante. “Mean”, “average”. Algunos autores lo igualan al valor esperado, pero estrictamente es distinto aunque puede coincidir numéricamente en ciertas condiciones.

• Mediana = valor de f(x) a la mitad de las N muestras en una señal (si N es

par). En una distribución con valores y(x=i) repetidos, i=1,...,N. se ordenan de menor (i’=1) a mayor (i’=N), y la mediana es:

o Opción 1: y(N/2) si N es par, y((N+1)/2 si N es impar. o Opción 2: y(N/2+1) si N es par, y((N+1)/2 si N es impar. o Opción 3: ½( y(N/2) + y(N/2+1) ) si N es par, y((N+1)/2 si N es

impar. Las opciones 1 y 2 son ambas asimétricas, y 3 es un compromiso entre 1 y 2, aunque es probable que el valor asignado no sea entero y al redondear o truncar, el resultado equivale a 1 ó 2. Si N es grande, las opciones suelen resultar iguales para la mayoría de los casos. En notación discreta, para la sucesión [yn], con n=1,...,N:

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 3

Page 4: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

o Opción 1: yN/2 si N es par, y(N+1)/2 si N es impar. o Opción 2: y(N/2+1) si N es par, y(N+1)/2 si N es impar. o Opción 3: ½( yN/2 + y(N/2+1) ) si N es par, y(N+1)/2 si N es impar.

Como ayuda mnemónica, observe que al señalar las muestras con “I”, la opción 1 (valor mediana) es el “palito” en negrilla en este ejemplo:

y1 y2 y3 y4 y5 y6 y1 y2 y3 y4 y5 y6 y7

I I I I I I I I I I I I I • FWHM = Ancho “total o completo” a medio máximo. Sin embargo lo

“total” en español parece referirse a todo el soporte del pico y la noción de máximo involucra un máximo absoluto (cuando es local la definición no es clara). Si usamos la traducción Ancho Neto a Media Altura (del Máximo), intuitivamente consideramos sólo la parte más importante de la señal bajo el criterio de medir el ancho a “la mitad”. En picos simétricos a veces se usa el parámetro HWHM (Half Width…).

Histograma – tema aparte.

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 4

Page 5: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

Promedios (mean, average, “expected value”).

Media o promedio aritmético

Dadas N observaciones {xi}i=1,...,N su media o promedio aritmético es:

1

1 N

ii

x xN

μ=

= = ∑ (1)

con desviación estándar: 2

11

( )N

ii

N

x xsσ =

−∑= = (2)

con s2 la varianza y CV el coeficiente de variación: 100%sCV

x= ×

Nota: si N >30, se usa como denominador N en vez de N-1. Nota: Las mediciones o muestras xi son información no estructurada aunque puede provenir de señales, imágenes, etc. (información estructurada). El orden o estructura no importa en el promedio y son valores que pueden repetirse. Para una función x(t) contínua, integrable, se define su promedio en el intervalo [A,B], con A<B como:

1

( )( )

B

AB Ax x t dt

−= ∫ (3)

con desviación estándar: 1/2

21

( )( ( ))

B

AB Ax x t dtσ

⎛ ⎞−⎜ ⎟

⎝ ⎠= ∫ (4)

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 5

Page 6: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

*Valor esperado o expectancia

Dadas probabilidades discretas pi asignadas a la variable aletoria χ que toma valores xk con k =1,..., L, el valor esperado de χ o expectancia de χ se define como:

1 1con( ) , 1k k k

k k

L LE p x

= =

χ = χ = =∑ ∑ p (5)

Las pk son frecuencias de incidencia u ocurrencia normalizadas al total L de eventos posibles “χ=xk” (enfoque frecuencista). Es común obviar la diferencia entre “variable aleatoria” (χ) y el valor que toma (x), por lo que suele escribirse como ( )E x x= . No necesariamente es igual a

x , pero muchos autores usan la misma notación, al menos para ⋅ . Notar que L no es un número de muestras N, como en la definición de promedio, sino todos los valores posibles xk (usualmente se ordenan de menor a mayor, a diferencia de las muestras xi en la definición de promedio, que pueden repetirse) → ver también la sección sobre histogramas. En continuo, se tiene una distribución de probabilidad o función de densidad probabilística p(x) (en inglés PDF), y el valor esperado de χ se define como:

0 0

con( ) ( ) , ( ) 1E xp x dx p x dx∞ ∞

χ = χ = =∫ ∫ (6)

En ambos casos la varianza es (7) 2 ((χ (χ)) )E Es −= 2

Notar que en discreto no es tan notoria la diferencia de promedio con valor esperado (comparar ecuaciones (1) y (5), pero en continuo es útil entender las diferencias entre las ecuaciones (3) y (6). En la última la variable x corre sobre todos los valores posibles de x. En (5), si todas

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 6

Page 7: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

las pk son igual a 1/L, se tiene aparentemente la misma ecuación de un

promedio. Recordar que la probabilidad de que χ<x es 0

( ') 'x

p x dx∫ .

Cuando se tienen N muestras {xi} (conceptualmente distintas de los L valores posibles xk, pero usaremos la misma notación) de la variable aleatoria χ , el teorema central asegura cuando N→∞ el promedio aritmético de muestras coincide con E(χ) (discreto o continuo). En la práctica con N grande se tiene la aproximación:

( )E x x x= ≈ (8) donde hemos usado x (sin subíndice) para designar tanto la variable aleatoria como la variable de las N observaciones o muestras xi. Es por ello que se dice que la media aritmética de muestras uniformemente distribuidas de x (como variable aleatoria, o sea χ) es el (mejor) estimador no-sesgado de E(x). Nota: es común ignorar las diferencias y usar por comodidad la notación de valor esperado < x > por la de media y hacer la diferencia usando E(x) para valor esperado, en particular para evitar la barra de promedio. Recordar sin embargo que hay tres conceptos distintos:

• χ la variable aleatoria, o sea el atributo de interés, sólo tiene sentido su uso en establecer eventos, sus probabilidades y se habla de su valor esperado (de χ o de funciones de χ), calculado mediante la distribución de los valores que puede tomar.

• xk los valores posibles que puede tener χ (sean L, o un intervalo continuo), en orden y sin repetición (pueden ser clases, intervalos o bins); sólo tienen sentido para calcular valores esperados.

• xi las N muestras particulares u observaciones de la variable aleatoria, que pueden repetirse, caer en medio de un bin [xk, xk+1], y cuyo orden es irrelevante en el cálculo de promedios (no tienen sentido para calcular valores esperados). Notar que sólo por contexto ditinguiremos entre los L valores posibles de χ y las N muestras experimentales de χ.

Ejemplo: las alturas (variable aleatoria) de 15 personas (N muestras) pueden tener valores posibles en el continuo entre 1.50 y 1.80, pero es común discretizar en

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 7

Page 8: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

intervalos, por ejemplo de 1 cm, existiendo entonces L=31 valores posibles xk : 1.5, 1.51,...,1.79, 1.80 que definen las clases de alturas entre 1.5 y 1,51, entre 1.51 y 1.52, etc. Cada clase (o bin) tiene una probabilidad (obtenida por ejemplo a posteriori mediante un histograma de la población mundial), con p1= 0.0001, p15= 0.7, p25 = 0.0005, etc. Al tomar las veinte personas (muestras de la población mundial), se obtienen las mediciones u observaciones siguientes: {xi }= {1.58, 1.602, 1.6203, 1.62, 1.672, 1.6905, 1.7, 1.72,.1.72,1.725, 1.73, 1.735, 1.75, 1.75, 1.782}. Es aquí claro que el valor esperado no es igual, conceptualmente, a un promedio de muestras, y sólo si se toma el promedio de mediciones de todo el universo-muestra (el mismo de donde se obtuvieron las pi), se obtendrá exactamente el mismo resultado vía promedio (estadística) que vía expectancia (probabilidad). Ejemplo 2: A las mismas personas se les toma el peso wi y la presión arterial, de modo que la nueva variable aleatoria es el vector (altura, peso, presión_arterial), los valores posibles pueden ser distintos (vector (Laltura, Lpeso, Lpresión)), hay un vector de muestras (que a su vez se pueden tratar como vector de alturas, etc.). Promedio robusto (excluyendo outliers (datos intrusos)):

Si se detectan L outliers, formamos un conjunto robusto de N-L observaciones: {xi (k)}k=1,...,(N-L) donde i(k) son una selección de índices i excluyendo aquellos valores xi considerados como outliers, entonces definimos el promedio robusto como:

( )1

1 N L

Robust i kRobustk

x xN L

μ−

=

= =− ∑ (9)

Su desviación estándar excluye igualmente los outliers:

11

2( )( )

robust

N L

kN L

i krobustx xs

=− −

−∑=

(10) Como la selección fue de outliers, se satisface: srobust < s.

En la práctica, simplemente substituímos N-M por N en ec. (1).

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 8

Page 9: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

Criterios de selección (exclusión o rechazo de outliers):

• xi es outlier si ( )i

x x ns> , con n>0 el grado de laxitud y s la desviación estándar (menor n implica mayor robustez; típicamente se toma n =2 (un 25% serán outliers en una distribución gaussiana).

• xi es outlier si ( ) FWHM , con n>0 el grado de laxitud y FWHM el ancho neto a la mitad de altura del máximo de la distribución (pico principal del histograma).

ix x n− >

• xi es outlier si está fuera del intervalo interquartil (definido

entre 25 percentiles y 75 percentiles de la distribución).

• A segundo orden, se puede repetir el proceso (N grande, v.g. N >100) y seleccionar nuevos outliers respecto srobust y robust

x

• Estadística de orden: Se ordenan las muestras de menor a mayor y se toman como outliers n parejas de valores extremos; usualmente n=1, definiendo entonces la “media truncada” (cropped mean):

( ) ( )1

1 max min2

N

crop i i icrop iik

x x xN

μ=

⎛ ⎞= = − −⎜ ⎟− ⎝ ⎠∑ x

(11)

Hay otro promedio denominado “α-trimmed average”, en el cuál se descartan valores alejados un valor α del promedio convencional. Estos a veces se denominan “promedios robustos”, porque los outliers los afectan poco o nada.

Nótese que la mediana (x(N+1)/2 si N es impar, etc.) puede definirse descartando parejas de extremos como outliers. En

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 9

Page 10: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

este caso N-L = 2 ó 1 (sólo se promedian los 2 valores centrales si N es par).

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 10

Page 11: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

Promedio ponderado

• Ponderación implícita

Sean N pesos W={wi}i=1,...,N tales que: (12) 1

1, 0N

i ii

w w=

= ≥∑

definimos el promedio ponderado (el factor 1/N del promedio está incluido en la normalización de W):

w ww1

N

i ii

x x wμ=

= = = x∑ (13)

Si 22 21

2i

iw e σ

σ π−≡ la ponderación es Gaussiana.

Nota: Si existe o se establece un orden en las muestras xi , se extiende a los pesos (ejemplo: una secuencia o señal discreta), y tenemos los vectores

en cuyo caso la ecuación (11) se escribe como:

1 2 1 2x ( , ,..., ), w ( , ,..., )Nx x x w w w= = N

W= x wx ⋅ . En notación matricial, con vectores columna

1 2... ], 1 2[ [ ... ]N Nx x x=x wT w w w=T , escribimos:

W= x x wT

(14)

• Ponderación explícita

Si el conjunto de pesos W no se encuentra normalizado, definimos:

1

1

W

i i

i

N

iN

i

w x

w

x =

=

=∑

∑ (15)

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 11

Page 12: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

Con pesos arbitrarios (negativos, sin normalización), el numerador

solo: se denomina combinación lineal. Si wi > 1, para todo i,

entonces se denomina combinación convexa. Algunos autores incluyen la normalización y si wi puede ser negativo, entonces se denomina combinación afín.

1i i

N

iw x

=∑

Ejemplo 1: centro de masa en 3D (normaliza respecto a W={mi}):

=

== N

ii

N

iiiii

CMCMCMm

zyxmzyx

1

1][

][ (16)

El promedio ponderado (centro de masa) es un vector (posición). Notar que se tienen muestras vectoriales { que localizan cada masa mi. } 1

( , , ) Ni i i i

x y z=

Si los pesos de ponderación dependen de los datos, a veces el promedio ponderado se denomina adaptivo y puede ser “robusto” si la ponderación penaliza datos lejanos al promedio neto (ponderado). Ejemplo 2: Penalización de observaciones lejanas de la media con precisión diferente (incertidumbres individuales). Se toman como pesos los inversos de las varianzas de cada observación xi con i=1,...,N.

Si definimos wi = 1/si2 y la media ponderada es:

2

{1,..., }0i

i Ns

∈>∀

2

1W

2

1

/

1 /

N

i ii

N

ii

x sx

s

=

=

=∑

∑ (17)

Ejemplo 3: Promedio ponderado por intervalo. Dadas parejas (xa,ya), (xb,yb), con xa ≠ xb, donde y=f(x), se puede ponderar el promedio de la

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 12

Page 13: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

variable de respuesta y por su dependencia sobre x en términos de separación relativa:

b b a a

b a

y x y xy

x x−

=− (18)

Ejemplo 4: Interpolación lineal. En una relacióm funcional y=f(x), dadas dos muestras (xa,ya), (xb,yb), con xa ≠ xb, se puede aproximar linealmente el valor para x ∈ [xa, xb], sin conocer o aplicar f(x), mediante:

f(x) = (1−α) f(xa) + α f(xb) (19a)

o bien: yα = (1−α) ya + α yb (19b) Donde α=( x−xa)/( xb−xa). Notar que α∈ [0,1], y tenemos: y0 = ya, y1 = yb, y y1/2 =1/2(ya + yb). Si hacemos wa = (1−α), y wb = α, la ec. (19) es un caso particular de la definición (13) y cumple la condición (12). El error

total de la aproximación lineal es ( )( )2 b

a

x

xy f x dxα −∫

Otros ejemplos: valor esperado con densidades de probabilidad (ecuaciones (5) y (6), o la evaluación de este curso.

Equivalente continuo:

( )

( )

x xdxx

x dxσ

σ

σ

−∞∞

−∞

=∫

∫ (20)

donde σ(x) es una densidad de distribución (el dominio de integración puede se general una región finita fija). Ejemplo: si x es variable aleatoria y

σ(x)=p(x) es su densidad de distribución probabilística, con 0

( )p x dx∞

∫ =1,

entonces E(x) es el valor esperado o primer momento de x (y deberíamos

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 13

Page 14: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

mejor usar la notación de variable aleatoria χ), e indica el valor más probable

de x. Recordemos que la probabilidad P(χ=x0) es 0

0

( )x

p x dx∫ .

Nota 1: Como en Teoría Probabilística, una ventaja de escribir explícitamente la normalización (denominador) radica que, en M dimensiones pueden interesar las componentes marginales (integración parcial) de modo que aunque la integral total da 1, las marginales no.

*La varianza de muestra (sample variance) ponderada sesgada (biased weighted) se define con los mismos pesos para la respectiva media ponderada:

22( )i iw xW1

1weighted

Ni

Nii

w

μσ =

=

−=∑

∑ (21)*

Nota 2: En ciertas aplicaciones son de interés ciertas características del conjunto de pesos W (que supondremos normalizado), en forma análoga a las probabilidades pi de una distribución (ver por ejemplo la tabla de rasgos de histogramas para otros descriptores y momentos); en el caso discreto:

Energía: 2

1

N

ii

w=∑

Entropía: 1

log(N

i=−∑ )i iw w

Promedio móvil o local (en una señal que fluctúa):

A 1er orden (un vecino), substituimos el conjunto de muestras (señal) {xi}i=1,...,N por { ix }i=2,...,N-1 donde:

11 1 14 2 4i i i i 1x x x x− + + + (22)

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 14

Page 15: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

Notar que hemos agregado pesos de ponderación y que ¼ + ½ + ¼ =1.

En general (orden K vecinos) el promedio ponderado local es: K

i k KWk K

i kx w x+ −=−

= ∑ , con i= K,K+1,...,N− K (23)

donde W={wk}k=0,...,2K-1 es el núcleo (kernel, ventana o

máscara) de pesos de ponderación tales que: .

2 1

01

K

kk

w−

=

=∑Notar en i el problema del borde: se reduce el dominio de la secuencia obtenida i Wx .

ver tema de filtros (si i es índice temporal, es casi una convolución en dominio temporal). La igualdad ocurre sólo si el núcleo es simétrico.

ver... Nota: el promedio (17) también se denomina running average.

Las muestras{xi} pueden ser parejas de puntos {(ui vi )}, o sea curvas 2D, valores de un campo escalar (imagen {uij} i=1,..,.N; j=1,...,M ), vectorial (imagen en color {(rij gij bij)} ), formas, etc.

El efecto de substituir una señal (muestras{xi}) por muestras{ i Wx }, con W positivos (v.g. Kernel Gaussiano), es de suavizar la señal {xi} (blur). Si hay valores negativos (efecto de “inhibición lateral”), se puede afinar o acentuar detalles (sharp). Sin normalización, hay además amplificación o atenuación. Nota: La normalización del promedio ponderado en la convolución se da en términos de la interpretación de la convolución como un filtro, cuyo efecto se desea interpretar (pasa bajas, pasa banda, realce de borde, detección de borde, etc.), y en tal caso no siempre se desea amplificar o atenuar el resultado (en detección de bordes sí puede haber tal interés). Es común que no se muestre la ponderación explícitamente en la definición de convolución, pero en ciertos filtrados (normalmente los pasa-bajas), la integral (o suma de todos

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 15

Page 16: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

sus valores) del núcleo de convolución se normalizan a 1 (ponderación implícita). Aplicación: Una señal puede descomponerse en 3 partes:

x(t) = xTrend (t) + xPeriod (t) + xRandom(t) (24)

xTrend (t) es la tendencia o fondo representando un cambio sistemático, secular y predominantemente “lento” de x(t) ;

xPeriod (t) representa la componente de señal cíclica, un patrón que se repite de manera aproximadamente regular y suele contener la información de interés;

xRandom (t) representa fluctuaciones más bien aleatorias (usualmente ruido, textura o estructura fina).

El contenido en frecuencia es en general bajas, medias y altas, respectivamente, pero no necesariamente es siempre así y es más bien la distribución de energía (densidad espectral): baja en el espectro de xTrend (t), alta en xPeriod (t) y baja en xRandom(t). Otros parámetros: regularidad y auto-correlación. El promedio móvil con K al período característico de xPeriod (t) es una estimación de xTrend (t), permitiendo separar de x(t) esta componente. La operación de filtrado x(t) − xTrend(t) se denomina “remoción de fondo” y equivale aproximadamente a un filtro pasa-altas. Promedio cuadrático, RMS, o valor RMS (Root Mean Square or Quadratic Mean)

1/22

1

2 21 N

ii

RMSx x x xN =

⎛ ⎞= = =⎜⎝∑ ⎟

⎠ (25)

la varianza s2 (promedio cuadrático de errores, ec. (2)) es un ejemplo.

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 16

Page 17: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

NOTA: La desviación estándar es también llamada error RMS o error cuadrático medio: ( )RMSx xσ = − NOTA: En clase se vio además la noción de “potencia” de una señal, como una medida que se denominó “valor RMS”. NOTA: En términos probabilísticos (valor esperado con distribución o función de densidad probabilística p(x)). El cuadrado del valor RMS es el 2º. momento de la distribución:

( )0 0

2( ) ( ) , con ( )RMS 1x E x p x dx p x dx

∞ ∞2 2 2= χ = ⟨χ ⟩= =∫ ∫ (26)

y con probabilidades discretas pi de L valores posibles xi es: 2

1con( ) ,i i i

i i

L LE p x2 2

= =

χ = χ = =∑ ∑1

1p (27)

Ejemplo 1. Ruido RMS se refiere al valor medio cuadrático del ruido en ausencia de señal y corresponde a la potencia del ruido presente en una señal. Ejemplo 2. En física de superficies, y análisis de películas delgadas, la rugosidad RMS es una medida de la rugosidad de una superficie; es de hecho la varianza (a veces local) del nivel de la superficie respecto al nivel medio (local - ver promedio móvil). Promedio RMS de una función continua (Potencia): Si f(t) es una función que describe a una señal analógica, su Potencia RMS es el equivalente al promedio cuadrático RMS en el límite continuo:

2

1

1/2

2 1

21( )

( )T

TRMS T Tf f t

⎛ ⎞= ⎜ ⎟⎝ ⎠

∫ (28)

Otras medias: Geométrica, Harmónica, Aritmética-Geométrica, Harmónica-Geométrica. Uso en respuestas logarítmicas, superposición no-

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 17

Page 18: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

lineal (recordar cómo se calcula la resistencia equivalente a N resistencias en paralelo), en operaciones en dominios de transformadas, etc. *Promedios regionales. Es común en dos o tres dimensiones obtener medidas locales. En general la ventana, núcleo, kernel o máscara W no es necesariamente isotrópico y su propia forma puede depender de la posición (sistemas lineales variantes a posición). Aunque sigue expresándose como una forma de sumatoria ponderada (o integral, en continuo), ya no hay una correspondencia con la convolución. También es común que el promedio se tome sobre una región R del espacio (discreto) con forma arbitraria. En procesamiento de imágenes la región de interés puede ser el interior del contorno de la imagen de un objeto. Como R puede tener varias componentes conexas o consistir de un conjunto de puntos dispersos, conviene una notación universal para “datos no estructurados”:

31

( ),

iuicard

u u∈

⊂∑RRR

R (29)

donde card(R) es el total de puntos (pixeles, voxeles) en R y el índice i sólo sirve para identificar los puntos ui(x,y,z) que pueden corresponder, por

ejemplo, a valores escalares de nivel de gris, o incluso a vectores de color con componentes R,G,B) en una posición del espacio con coordenadas enteras x,y,z.

iu

En Procesamiento de Imágenes los promedios regionales, locales o en una ventana R, o región de interés ROI se expresan de acuerdo a la estructura de las primitivas de representación (pixeles), por ejemplo si R es una ventana rectangular de N×M, pero puede ser mas general) y W es un conjunto de valores ponderados, tenemos:

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 18

Page 19: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

1 1

0 01 1

0 0

( , ) ( ,( , )

( , )

N M

i jN M

i j

I n i m )j w i jI n m

w i j

− −

= =− −

= =

− −=∑∑

∑∑RW

(30)

donde los subíndices indican la dependencia de la región o ventana y del conjunto de ponderación. El denominador suele normalizarse a 1. En el caso de un promedio con pesos uniformes = 1/NM (tamaño de la ventana rectangular R) el promedio regional es:

1 1

0 0( ,

( , )

N M

i j)I n i m j

I n mNM

− −

= =

− −=∑∑

R (31)

*Promedio no-lineal, generalizado

Sean N pesos: W={wi}i=1,...,N , g(xi) función con inversa g-1; definimos el promedio ponderado, no-lineal, de pesos constantes (no necesariamente normalizados):

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

=

=−N

ii

N

iii

w

xgwgx

1

11wg

)(

(32)

Casos particulares, cuando wi=1, para toda i=1,...,N:

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 19

Page 20: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

2

22

1

promedio (logarítmico/exponencial)

promedio aritméticopromedio RMS (ó )promedio armónicopromedio geométricopromediopromedio ("central")

/Log( )( )

,i

p

i

i

i

ii

i

i ix

p

L

L

xx

xxg x

xx x w 0e

⎧⎪⎪⎪⎪= ⎨⎪⎪ − >⎪⎪⎩

(33)

Nota: Recordar que cada muestra xi puede ser un valor escalar, un vector (vector de muestras), una función, una imagen, volumen, tensor o secuencia de los mismos. Nota: Ver características de un histograma y temas de texturas y morfología (momentos). Hay promedios no-lineales aún más generales: con pesos wi(xi) dependientes de la posición, o de características locales (promedio adaptivo), y con g(xi, ...) dependiendo de varios (o todos los) valores de xi, i = 1,...,N; en particular las convoluciones discretas g(x)=h(x)*f(x), siempre que exista

g -1(x)= F -1(H(s)F(s)) (34) Otra manera de combinar las muestras para obtener valores “intermedios” es promediando aritméticamente productos ( xi x j )1/2

, o promediando geométricamente términos ((1-αi)xi + αi x j), con αi ≤ 1 ( (xi ± ai)( x j ± bi) )1/2 , donde aibi =1 *Ejemplo en probabilidad (ver tema de Métodos Monte Carlo): valor esperado de una función a(.) de una variable aleatoria χ:

0 0

con( ( ) ( ) ( ) , ( ) 1E a a a x p x dx p x dx∞ ∞

χ) = (χ) = =∫ ∫ (35)

*Fórmula básica de estimación Monte Carlo: ©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 20

Page 21: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

1 1( ) ( )

0 0, ,

11( ) ( ) ( )N N

t t

t tProbabilidades PDFs Muestras Estadística

NNa a p d a a

− −

= =< >= ≈ = =∑ ∑∫ x x x x a

(36)

donde las x(t) son independientes y la Ley de los Grandes Números garantiza que a es un estimador no sesgado de < a >. Es decir que a a< >=< > donde < · > denota valor esperado (expectancia) con respecto a las posibles realizaciones del procedimiento MC.

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 21

Page 22: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

Convolución entre dos señales (analógicas, contínuas) h(t), f(t):

*( ) ( )* ( ) ( ) ( )g t h t f t h t f dτ τ

+∞

−∞

= = −∫ τ (37)

donde f *(t) es el complejo conjugado de f (t). Si F(ω)= F(f (t)), G(ω)=

F(g(t)), y H(ω)= F(h (t)) son las transformadas de Fourier de las mismas señales, se cumple entonces que (Teorema de Convolución):

G(ω)= H(ω) F(ω) (38) La convolución temporal equivale en dominio en frecuencia a una modulación en frecuencia. Si H(ω) es una función puerta Π(ω), se obtiene un filtrado pasabanda. En dominio temporal (o respectivamente, espacial) la convoución es por una función sinc(t). Teoremas semejantes existen con la transformada de Laplace.

En señales y sistemas lineales es común relacionar salidas g(t) con entradas f(t) mediante una convolución, donde h(t) caracteriza la respuesta a impulso del sistema. En imágenes, entendidas como señales bidimensionales, se tienen funciones en dominio espacial f(x,y) , g(x,y). Entonces h(x,y) es conocida como la PSF o Función de Dispersión Puntual del sistema, y la convolución bidimensional contínua es:

*( , ) ( , )* ( , ) ( ', ') ( ', ') ' 'g x y h x y f x y h x x y y f x y dx dy+∞ +∞

−∞ −∞

= = − −∫ ∫ (39)

Convolución entre dos señales discretas

Consideremos, en una dimensión, 2K+1 muestras discretas de las señales anteriores (dos vectores de muestras o secuencias), primero en una dimensión: { fk, gk, hk }, donde k= –(K–1),…,–1,0,1,…,K–1.

(40) * K K

n K n Kn nk k k k n kg h f h f h f

=− =−−= = =∑ ∑ n−

Comparemos con el promedio móvil ponderado:

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 22

Page 23: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

K

i k K i kWk K

w x+ −=−

= ∑ , (41)

2

1

1K

kk

w=

=∑x

En efecto, la convolución discreta es (salvo el signo) una forma de promedio ponderado. Si la secuencia {hk} es simétrica respecto al origen, se cumple la igualdad. La normalización también es deseable (interpretación de filtros) y de este modo la PSF unidimensional discreta {hk} es definida para que la suma de sus valores (área) en su dominio de definición sea 1.

En se define la Transformada Discreta de Fourier (DFT). En la práctica se utiliza un rearreglo algorítmico de las operaciones (sumas de productos) conocido como DFFT (Discrete Fast Fourier Transform). Convolución entre dos imágenes digitales, escalares:

, ,*K L L K

k l k lk K l L l L k K

ij ij ij k i l j k i l jg h f h f f h=− =− =− =−

− − − −= = =∑ ∑ ∑ ∑ (42)

Separabilidad : Cuando alguna de las funciones puede expresarse como producto de dos funciones con variables separadas, por ejemplo hmn = um vn . En tal caso la convolución bidimensional equivale a 2K+1 convoluciones unidimensionales seguidas de 2L+1convoluciones unidimensionales sobre los resultados obtenidos. En total hay 2(K+L+1) productos y sumas en vez de (2K+1)×( 2L+1).

Ejemplo: Sea 2 22 2A k Bl A k Bl

kl f = e e e+ = , entonces

2 2

2 2

,

,

*K L

k K l L

K L K

i2

jkk K l L k K

Ak B lij ij k i l j

A k B l A kk i l j

h f h e e

e h e e

=− =−

=− =− =−

− −

− −

=

⎛ ⎞= =⎜ ⎟⎝ ⎠

∑ ∑

∑ ∑ ∑ C (43)

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 23

Page 24: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

primero se calculan 2L+1 coeficientes Cijk (columnas l, convoluciones parciales) y luego 2K+1 (renglones k). La transformada de Fourier, las convoluciones Gaussianas y de núcleo rectangular siempre son separables.

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 24

Page 25: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

Coeficiente de correlación en N pares de observaciones {xi , yi}:

1

2

1 1

( )( )

( ) (( , )

N

i ii

N N

i ii i

x x y y

2)x x y yr x yρ =

= =

− −∑

− −∑ ∑= =

(44)

(no confundir con covarianza ni con coeficiente de variación CV, ec. (2b)). Ajuste de recta (regresión lineal): y = mx + b, donde m,b se obtienen de minimizar el error cuadrático medio Σ(δyi)2, donde δyi = yi – mxi + b, o sea, resolviendo (condición para mínimo):

( ) ( )2 2δ δ0 y 0i iy y

m∂ ∂

= =∂ ∂

∑ ∑b (45)

(ver desarrollo por ejemplo en Apéndice 2, Baird: An introd. to Meas. Theory and Exp. Design). Obtenemos:

( )1 1 1

2

1 1

N N N

i i i ji i j

N N

i ii i

N x

2

y x y

N x xm = = =

= =

−∑ ∑ ∑

−∑ ∑=

(46)

( )2

1 1 1 1

2 2

1 1

N N N N

j i i ij i i j

N N

i ii i

jy x x y

N x xb = = = =

= =

−∑ ∑ ∑ ∑

−∑ ∑=

x

(47)

con la desviación estándar de y(x) dada por el promedio RMS de sus incertidumbres:

1

2

2

(δ )N

iy

i

N

ys =

∑= (48)

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 25

Page 26: UNAM - Datos no estructurados: · 2019-02-13 · hay ningún tipo de ordenamiento entre las muestras (una secuencia de imágenes de video tiene orden temporal, un conjunto de imágenes

y para m,b:

2 2

1 1( )

N Ni i

i i

m yN

N x xs s

= =−∑ ∑

=,

2

1

2 2

1 1( )

Ni

iN N

i ii i

b y

x

N x xs s =

= =

−∑ ∑=

(49)

©Copyright 2008 by Jorge Márquez Flores – Derechos reservados 26