sistemas expertos basados en probabilidad (2010/2011) · se ilustrará con el ejemplo de...

Sistemas

Expertos

basados en

probabilidad

(2010/2011)

Luis Valencia Cabrera

[email protected]

(http://www.cs.us.es/~lvalencia)

Ciencias de la Computacion e IA

(http://www.cs.us.es/)

Universidad de Sevilla

mailto:[email protected]

http://www.cs.us.es/~lvalencia

http://www.cs.us.es/

Introducción a

los Sistemas Expertos

Basados en Probabilidad Núcleo de los SE basados en reglas

reglas que describen las relaciones entre los objetos (variables)

En los SE probabilísticos las relaciones entre las variables las describe su función de

probabilidad conjunta.

la función de probabilidad conjunta forma parte del conocimiento.

Se ilustrará con el ejemplo de diagnóstico médico, aunque los conceptos descritos se aplican a otros muchos campos. El diagnóstico médico es una de las áreas de mayor aplicación

de los Sistemas Expertos Probabilísticos

Algunos modelos de SE probabilísticos fueron desarrollados para resolver problemas con la estructura “síntomas-enfermedad”.

Diagnóstico médico Partimos de una BD con información

sobre N pacientes.

Un paciente puede tener una y sólo una de m enfermedades (e1, . . . , em)

Puede tener ninguno, uno, o más de n síntomas S1, . . . , Sn.

La variable aleatoria enfermedad, E, toma como valores las enfermedades e1, . . . , em.

Los síntomas son variables binarias, (1 si está presente, 0 si no).

Cualquier variable aleatoria en el conjunto {E,S1, . . . , Sn} define una partición del conjunto universal de pacientes en una clase disjunta y exhaustiva de conjuntos.

Diagnóstico médico Combinando las enfermedades y los

síntomas, cada paciente puede clasificarse en una y sólo una región.

Los objetos o variables son: la enfermedad E

los síntomas S1, . . . , Sn.

La función de probabilidad conjunta de (E,S1, . . . , Sn) está dada por las frecuencias (nº de pacientes en cada región).

Notación: Una variable se representa con

mayúsculas

Los valores de la variable con minúsculas

La enfermedad E toma m valores posibles y los síntomas se suponen binarios. (Los posibles valores de E son e1, . . . ,

em, y los valores posibles de la variable Sj son 1 (presente) ´o 0 (ausente).

Las probabilidades asociadas a la enfermedad E pueden ser estimadas por: p(E = e) ≈ card(E = e)/N, (3.18)

N: nº total de pacientes de la BD card(E = e): nº de pacientes con E = e. Por ejemplo:

Enfermedad e1 presente:

p(E = e1) ≈ card(E = e1)/N,

Enfermedad e1 ausente:

p(E ≠ e1) ≈ card(E ≠ e1)/N.

Diagnóstico médico Problema frecuente:

Sólo se observan un subconjunto de síntomas, y con los síntomas observados, se desea diagnosticar con un grado de certeza razonable la enfermedad que da lugar a los síntomas.

Cuestión a abordar: Dado que un paciente presenta un

subconjunto de síntomas S1=s1,. . . Sk=sk, ¿qué enfermedad tiene el paciente?

El problema consiste en calcular la probabilidad de que el paciente tenga la enfermedad ei, dado el conjunto de valores s1, . . . , sk de los síntomas S1, . . . , Sk. Es decir, para i = 1, . . . , m, se desean

calcular las probabilidades condicionales:

p(E = ei|S1 = s1, . . . , Sk = sk).

Se trata de un problema de clasificación generalizado: Un paciente puede ser clasificado en uno o más grupos (enfermedades).

Se pueden obtener las probabilidades de la tabla.

Diagnóstico médico Los sistemas expertos probabilísticos

pueden utilizarse para resolver éstos y otros problemas. Por ejemplo:

1. Pueden memorizar información. Uno puede almacenar y recuperar información de la BD.

Las enfermedades y los síntomas son variables categóricas (binarias o multinomiales).

Por ejemplo, información de una BD con diez pacientes para el problema de diagnóstico con cinco enfermedades binarias y tres síntomas.

2. Pueden contar o calcular las frecuencias absolutas y relativas de cualquier subconjunto de variables a partir de la BD. Estas frecuencias pueden utilizarse para calcular las probabilidades condicionales p(ei|s1, . . . , sk)

Diagnóstico médico Esta probabilidad puede ser estimada

mediante

donde card(ei, s1, . . . , sk) es la frecuencia de aparición en la BD de los pacientes con los valores indicados de las variables.

Se pueden calcular las frecuencias asociadas a cualquier combinación de valores de síntomas y enfermedades contando el nº de casos de la base de datos que coinciden con la evidencia.

Por ejemplo, card(E ≠ e1|S1 = 1, S2 = 1) = 2 puesto que hay dos pacientes (los pacientes 1 y 3) que no presentan la enfermedad e1 pero muestran los síntomas S1 y S2. Similarmente, card(E = e1|S1 = 1, S2 = 1) = 3, card(S1 = 1, S2 = 1) = 5, etc. Entonces, ésta puede calcularse usando (3.3), las probabilidades condicionales asociadas a una enfermedad dada y un conjunto de s´ıntomas. Por ejemplo:

Los sistemas expertos pueden aprender de la experiencia. Tan pronto como un nuevo paciente es examinado y diagnosticado, se añade la nueva información a la BD y se cambian las frecuencias como corresponda.

Por ejemplo, si un nuevo paciente que presenta los síntomas S1 = 1, S2 = 1 y S3 = 0 se sabe que tiene la enfermedad e1, se puede actualizar la base de datos con esta nueva información sin más que incluir un caso más.

Los sistemas expertos pueden tomar (o ayudar a los expertos humanos a tomar) decisiones tales como: ¿se tiene suficiente información como para

diagnosticar la enfermedad?

¿se necesitan nuevas pruebas clínicas? y si la respuesta es positiva,

¿qué prueba o pruebas suministran la máxima información sobre la enfermedad que se sospecha tiene el paciente?

La Base de Conocimiento La base de conocimiento (BC)

de un sistema experto (SE) basado en reglas consta de: el conjunto de objetos

(variables) y el conjunto de reglas

La BC de un SE probabilístico: conjunto de variables, {X1, . .

. , Xn}, y

función de probabilidad conjunta definida sobre ellas, p(x1, . . . , xn).

Construir la BC de un SE probabilístico definir la función de probabilidad conjunta de las variables.

Primera aproximación establecer la función de probabilidad conjunta, asignando un valor de probabilidad para cada combinación de valores de las variables.

Problema: inviable ya que necesita una cantidad exponencial de espacio Ejemplo: con n variables binarias,

la función de probabilidad conjunta más general tiene 2n parámetros (p(x1, . . . , xn) para toda realización {x1, . . . , xn} de las variables)

Es peor aún si no conocemos todos los valores {x1, . . . , xn}, lo que suele ser usual

Simplificaciones para resolver

el problema La primera aproximación anterior provocó muchas críticas al uso de la

probabilidad en los SSEE.

Sin embargo, en la mayoría de situaciones prácticas, muchos subconjuntos de variables pueden ser independientes o condicionalmente independientes. Se pueden obtener simplificaciones del modelo general teniendo en cuenta

la estructura de independencia de las variables. Reducción importante del nº parámetros.

Simplificaciones: 1. Modelo de Síntomas Dependientes (MSD).

2. Modelo de Síntomas Independientes (MSI). 3. Modelo de Síntomas Relevantes Independientes (MSRI). 4. Modelo de Síntomas Relevantes Dependientes (MSRD).

Estos son modelos ad hoc que se aplican principalmente en el campo médico

Hay otros más generales y potentes (redes de Markov, redes Bayesianas, y modelos especificados condicionalmente). Los veremos más adelante.

Retomando ejemplo

diagnóstico médico Tenemos n síntomas S1, S2, …, Sn

Una variable aleatoria E, enfermedad que puede tomar valores e1, …, em.

Problema: diagnosticar presencia de enfermedad e, dado los síntomas s1, …, sn.

Se tiene la función de probabilidad conjunta p(e,s1,…,sn).

La forma más general implica demasiados parámetros.

Para reducirlos Imponer hipótesis (restricciones) entre ellos. Hacemos uso de los modelos mencionados

Modelo de

Síntomas Dependientes Se suponen los síntomas dependientes. Enfermedades independientes entre sí, dados los síntomas.

Como vemos en la figura, en el modelo MSD todo síntoma se conecta con los demás síntomas y con todo valor posible de E.

Así, la función de probabilidad conjunta se escribe como: p(ei, s1, . . . , sn) = p(s1, . . . , sn)p(ei|s1, . . . , sn).

Modelo de

Síntomas Dependientes La ecuación se obtiene de «p(x, y) = p(x)p(y).», con X = {E} e

Y = {S1, . . ., Sn}. Ahora, p(ei|s1, . . . , sn) puede expresarse como:

Sólo incluye probabilidades “a priori” y verosimilitudes (probabilidades condicionales de los síntomas para cada enfermedad). Estos valores pueden estimarse a partir de la información objetiva dada por las frecuencias de enfermedades y síntomas en la población.

Los parámetros necesarios para la base de conocimiento del MSD son: Las probabilidades marginales p(ei), para todos los valores posibles de E.

Las verosimilitudes p(s1, . . . , sn|ei), para todas las combinaciones de síntomas y enfermedades.

Complejidad Computacional

para el Modelo MSD Para m enfermedades y n síntomas binarios, la

función de probabilidad marginal de E, p(ei), depende de m − 1 parámetros (los m parámetros deben sumar uno). Se necesita especificar m − 1 parámetros para la

función de probabilidad marginal de E.

Para las verosimilitudes p(s1, . . . , sn|ei), se necesita especificar (2n−1) parámetros (para n síntomas binarios hay 2n parámetros, uno por cada combinación de síntomas, que deben sumar 1) para cada valor posible de E, un total de m(2n−1) parámetros.

Por ello, el MSD requiere un total de: m − 1 + m(2n − 1) = m2n − 1 parámetros.

Ejemplo uso Modelo de

síntomas dependientes (MSD) Partimos del ejemplo del

adenocarcinoma, interesándonos la enfermedad G, que puede tomar valor 𝑔 o 𝑔 .

Hay tres síntomas binarios: D, P, V.

Conviene utilizar 1 (presencia del síntoma) y 0 (ausencia).

Para definir el MSD, se necesita conocer: Función de probabilidad marginal

p(ei)

Funciones de probabilidad condicional de los síntomas dada la enfermedad: p(d, v, p|ei)

Se requieren 2·23 − 1=15 parámetros (𝑝 𝑔 , 𝑝 𝑑 = 0, 𝑣 = 0, 𝑝 = 0 𝐸 = 𝑔 𝑦

𝑝 𝑑 = 0, 𝑣 = 0, 𝑝 = 0 𝐸 = 𝑔 ) son redudantes)


síntomas dependientes A partir de lo anterior se puede

calcular la probabilidad de cualquier enfermedad dada cualquier combinación de síntomas.

Por ejemplo, la función de probabilidad condicionada de la enfermedad dado que estén presentes los tres síntomas se calcula como sigue:

Dividiendo ahora por la constante de normalización 0.2198 + 0.0039=0.2237, se obtiene:

Modelo de Síntomas

Dependientes. Limitaciones El principal problema del MSD es que requiere un nº muy

alto de parámetros.

Especificar las frecuencias para todas esas combinaciones es muy difícil. Se hace imposible al crecer los nºs de las enfermedades y

síntomas.

Por ejemplo, con 100 enfermedades y 200 síntomas, el nº de frecuencias (parámetros) necesarios es mayor que 1062.

El caso estudiado supone síntomas binarios (sólo dos posibles opciones, tales como fiebre, no fiebre; dolor, no dolor; etc.). Las dificultades se incrementan notablemente en el MSD en

casos en los que se tengan síntomas con múltiples opciones o niveles (ej: fiebre alta, fiebre media, fiebre baja y no fiebre).

Modelo de

Síntomas Independientes Las limitaciones comentadas imposibilitan trabajar con el modelo

MSD en muchos casos prácticos resulta necesario simplificar el modelo.

Una simplificación posible: suponer que, para una enfermedad dada, los síntomas son condicionalmente independientes entre sí.

Los síntomas no están ligados, para indicar la independencia.

Como los síntomas condicionalmente independientes:

Modelo de

Síntomas Independientes En base a lo anterior, se puede escribir la función de probabilidad

conjunta de la enfermedad E dados los síntomas s1, . . . , sn como:

La hipótesis de independencia modifica las probabilidades de todas las enfermedades cuando se conocen nuevos síntomas. La probabilidad inicial de la enfermedad ei es p(ei), pero tras conocer los síntomas sj , para j = 1, . . . , k, resulta proporcional a p(sj |ei). Cada nuevo síntoma conduce a un nuevo factor.

Los parámetros necesarios para la base de conocimiento del MSI son: Las probabilidades marginales p(ei), para todos los valores posibles de E. Las probabilidades condicionales p(sj|ei), para todos los valores posibles

del síntoma Sj y la enfermedad E.


para el Modelo MSI

Con las hipótesis de independencia de los síntomas, el nº de parámetros se reduce considerablemente.

Con m enfermedades posibles y n síntomas binarios, el nº total de parámetros es:

m(n + 1) − 1.

Por ejemplo: con m = 100 enfermedades y n = 200 síntomas, se tienen 20,099 parámetros en el MSI (en vez de más de 1062 parámetros para el MSD).


síntomas independientes (MSI) Partimos de:

los historiales clínicos de dos centros médicos, cada uno, de ellos con N = 1000 pacientes;

dos valores de la enfermedad (𝑔 y 𝑔 );

tres síntomas, D, V y P.

Para especificar el MSI, se necesita: la probabilidad marginal, p(ei) las probabilidades condicionales

de cada síntoma dada cada enfermedad, p(d|ei), p(v|ei) y p(p|ei).

Aunque los dos conjuntos son muy diferentes, conducen a idénticas probabilidades.


síntomas independientes (MSI) Calculamos las probabilidades anteriores:

A partir de éstas calculamos la probabilidad condicional de E dadas varias combinaciones de los síntomas para los dos centros médicos.


síntomas independientes (MSI) Por ejemplo, para el Centro Médico 1, el valor de p(g|d, v, p) se calcula:

Dividiendo 0.2205 por la constante de normalización: 0.2205 + 0.0036 = 0.2241,

se obtiene y p(𝑔 |d, v, p) = 0.2205/0.2241 = 0.9 8 y p(𝑔 |d, v, p) = 0.0036/0.2241 = 0.02.

El valor de p(g|d, v, p) según el MSI:

Modelo de Síntomas

Independientes. Limitaciones La comparación entre las probabilidades verdaderas y las del MSI

muestra que los dos conjuntos de probabilidades son parecidos para el Centro Médico 1, pero discrepan bastante para el 2. Por ejemplo, el valor real de p(g|d, v, 𝑝 ) es 0, y MSI da 0.82. Esto prueba que el MSI falla al tratar de describir la probabilidad de los

datos del Centro Médico 2.

Se tienen dos conjuntos de datos con las mismas probabilidades “a priori” y mismas verosimilitudes; sin embargo, el MSI es apropiado para reproducir uno de ellos y no, para el otro. Puede concluirse que las probabilidades “a priori” y las verosimilitudes

no son suficientes para especificar un modelo probabilístico.

El ejemplo demuestra que el correcto comportamiento de un sistema experto probabilístico se basa en la especificación correcta de la función de probabilidad conjunta. Es importante seleccionar bien el modelo probabilístico a utilizar en un

caso dado.

Aunque la hipótesis de independencia da lugar a una gran reducción del nº de parámetros, en el MSI es todavía muy alto para ser práctico en ciertos escenarios. Se necesita simplificarlo aún más.

Modelo de Síntomas

Relevantes Independientes Se puede conseguir mayor reducción del nº de

parámetros suponiendo que cada enfermedad tiene un nº reducido de síntomas relevantes. En consecuencia, para cada valor ei de la enfermedad E se

seleccionan los síntomas relevantes S1, . . . , Sr (pocos frente al total) y los restantes se suponen independientes para ese E.

Por simplicidad, supóngase que S1, . . . , Sri son relevantes para la enfermedad ei y que los restantes síntomas Sri+1, . . . , Sn son irrelevantes. Según el MSRI, p(sj |ei) idéntica para todos los síntomas irrelevantes para la enfermedad ei.

Modelo de Síntomas

Relevantes Independientes En base a lo anterior, se puede escribir la función de probabilidad


donde pj = p(sj |ei), que es la misma para todas las enfermedades para la que Sj es irrelevante.

Los parámetros necesarios para la base de conocimiento del MSRI son: Las probabilidades marginales p(ei), para todos los valores posibles de E.

Las probabilidades condicionales p(sj|ei), para cada valor posible de E y cada uno de sus síntomas relevantes Sj

Las probabilidades pj, para cada valor posible de E con al menos un síntoma irrelevante. (pj = p(sj|ei) idéntica para todos los síntomas irrelevantes para ei)


para el Modelo MSRI En la BC se necesita almacenar las probabilidades de todos los síntomas relevantes para cada

enfermedad, y la misma probabilidad para todos los síntomas irrelevantes para cada valor de E. Si se tienen m posibles enfermedades y n síntomas binarios, el nº de parámetros en MSRI es:

con ri el nº de síntomas relevantes para la enfermedad ei y a el nº de síntomas relevantes para todas las enfermedades.

El nº de parámetros se reduce significativamente cuando ri es mucho menor que n. (hay pocos parámetros dependientes de cada enfermedad)

Ejemplo: con 100 enfermedades y 200 síntomas, si ri = 10 para todas las enfermedades, el nº de parámetros se reduce de 20,099 (MSI) a 1,299 (MSRI).

Se puede obtener MSRI a partir del MSI imponiendo restricciones adicionales en los parámetros del MSI, ya que las probabilidades p(sj |ei) deben ser las mismas para todos los síntomas irrelevantes para las enfermedades ei. El Nº restricciones es:

donde nj es el nº enfermedades para las que Sj es irrelevante. Por ello el nº de parámetros de MSRI es el nº de MSI menos el nº restricciones:

Modelo de

Síntomas Relevantes

Independientes. Limitaciones

El MSRI reduce el número de parámetros considerablemente.

Desgraciadamente, es poco realista, ya que los síntomas asociados a ciertas enfermedades suelen producirse en grupos o síndromes (no suelen darse de uno en uno, sino agrupados).

Por ello, puede ser poco razonable suponer que los síntomas relevantes son independientes.

Modelo de Síntomas

Relevantes Dependientes Este modelo evita el inconveniente del MSRI.

El MSRD es el mismo que el MSRI pero sin obligar a los síntomas relevantes a ser independientes, dada la correspondiente enfermedad. De esta forma, sólo los síntomas irrelevantes son independientes pero

los síntomas relevantes pueden ser dependientes. Se trata de una solución de compromiso entre el MSD y el MSRI. Para cada valor ei de la enfermedad E se seleccionan los síntomas

relevantes S1, . . . , Sr (pocos frente al total) y los restantes se suponen independientes para ese E.

Supóngase que S1, . . . , Sri son relevantes para la enfermedad ei y que los restantes síntomas Sri+1, . . . , Sn son irrelevantes.

Modelo de Síntomas

Relevantes Dependientes En base a lo anterior, se puede escribir la función de probabilidad


donde pj = p(sj |ei), que es la misma para todas las enfermedades para las que sj es irrelevante. La idea es clasificar los síntomas en clústeres no mutuamente exclusivos y fuertemente dependientes asociados a enfermedades.

Los parámetros necesarios para la base de conocimiento del MSRD son: Las probabilidades marginales p(ei), para todos los valores posibles de E.

Las probabilidades condicionales p(s1, . . . , sri|ei), para todos los posibles valores de E y sus síntomas relevantes S1, . . . , Sri.

Las probabilidades pj para cada valor de E con al menos un síntoma irrelevante. (Como en el MSRI, pj = p(sj|ei) coincide para los síntomas irrelevantes para ei, es decir, p(sj|ei)=p(sj) )


para el Modelo MSRD En base a lo anterior, para m enfermedades binarias y n síntomas binarios, el nº total de parámetros

en el MSRD es

Cuando ri = r para todos los valores ei, resulta m2r +n−1.

Además, si todos los síntomas son relevantes para todas las enfermedades (a = n y ri = n para todo ei), el MSRD se convierte en el MSD.

Comparando los nºs de parámetros necesarios para especificar los modelos discutidos, para m = 100 enfermedades binarias, n = 200 síntomas binarios, y r = 10 síntomas relevantes por enfermedad tenemos:

En el MSRD el nº de parámetros es muy reducido comparado con el MSD, a pesar de que es un modelo realista, puesto que considera las dependencias entre los síntomas más importantes (relevantes) para cada enfermedad.

Sin embargo, debido a la hipótesis de dependencia, el nº parámetros del MSRD es mayor que el de MSI y MSRI.

Se puede reducir dividiendo el conjunto de síntomas relevantes en subconjuntos (bloques) mutuamente independientes, considerando los síntomas en cada bloque dependientes.

La Base de Conocimiento.

Conclusiones Se han discutido cuatro modelos ad hoc para describir las relaciones

existentes entre un conjunto de variables. El conjunto de parámetros necesario para definir la base de conocimiento

depende del modelo elegido. Cada modelo tiene sus propias ventajas e inconvenientes. Sin embargo, sólo se aplican en situaciones particulares.

Más adelante se introducen modelos probabilísticos más generales: modelos de redes de Markov modelos de redes Bayesianas modelos especificados por listas de relaciones de independencia, y

modelos especificados condicionalmente.

Sea cual sea el modelo elegido, la base de conocimiento debe contener: el conjunto de variables de interés y el mínimo de parámetros (probabilidades o frecuencias) necesarios para

especificar la función de probabilidad conjunta de las variables.

El Motor de Inferencia En los Sistemas Expertos Probabilísticos

encontramos 2 tipos de información: Conocimiento:

Conjunto de variables, y probabilidades asociadas necesarias para construir su función de probabilidad conjunta

Se almacena en la Base de Conocimiento (BC)

Datos: Valores de algunas variables conocidas por el

usuario

Se conoce como evidencia

Se almacena en la Memoria de Trabajo (MT)

El Motor de Inferencia El motor de inferencia emplea conocimiento

y datos para responder a las preguntas del usuario.

Ejemplos:

Antes del examen por parte del doctor, ¿cuál es la enfermedad más probable para el paciente?

No hay evidencia disponible

El conjunto de síntomas es vacío

Problema: calcular la probabilidad marginal de E, p(E = ei), i = 1, …, m

El Motor de Inferencia

Ejemplos:

Dado un paciente con un conjunto de síntomas S1 = s1, …, Sk = sk, ¿qué enfermedad es más probable que tenga el paciente?

Evidencia: s1, …, sk

Problema: calcular la función de probabilidad conjunta para cada enfermedad ei dada la evidencia, es decir:

P(E = ei | s1, …, sk), i = 1, …, m.

El Motor de Inferencia Probabilidad marginal: p (E = ei), se conoce como

probabilidad «a priori», ya que se calcula antes de conocer la evidencia.

Probabilidad condicional: p (ei | s1, …, sn), se conoce como probabilidad «a posteriori», al ser calculada tras conocer la evidencia. Se puede considerar la marginal como caso

particular de la condicional, con el conjunto de síntomas conocido vacío.

Entre las tareas del motor de inferencia: Calcular las probabilidades condicionales de

diferentes enfermedades al conocer nuevos síntomas o datos.

El Motor de Inferencia Entre las tareas del motor de inferencia:

Actualizar las probabilidades condicionales de las enfermedades para todos los posibles valores de síntomas:

Decidir qué enfermedades tienen probabilidades condicionales altas. Generalmente se estudia primero un conjunto reducido y se

muestra al usuario (médicos y pacientes) para su validación.

El término p(s1,…, sk) actúa como constante de normalización Una decisión basada en el máximo también valdría para ver la importancia relativa de las enfermedades:

El Motor de Inferencia.

Limitaciones de Tma de Bayes

El teorema de Bayes se usa para calcular fácilmente las probabilidades «a posteriori» partiendo de pocas enfermedades y síntomas.

Cuando el nº de variables (enfermedades y/o síntomas) es alto (lo habitual en la práctica) se necesitan métodos y modelos más eficientes para calcular ambas probabilidades «a priori» y «a posteriori».

Métodos de propagación de evidencia o incertidumbre. (Los estudiaremos más adelante)

Control de la Coherencia Problema serio de los Sistemas Expertos:

Incoherencias en su BC y/o en su MT

Razones de las incoherencias: Conocimiento incoherente suministrado por los

expertos.

Datos incoherentes proporcionados por los usuarios.

Hechos no actualizados por el MI. Inexistencia de subsistema para controlar la

coherencia, evitando que llegue conocimiento inconsistente a la BC y/o la MT.

Control de la Coherencia.

Ejemplos

Ejemplo: restricciones para dos variables. Supongamos dos variables binarias E y S.

Las probabilidades necesarias serían p(e), p(s) y p(s|e).

El sistema experto pregunta al usuario los valores de p(e) y p(s), que deben satisfacer las restricciones triviales 0 ≤ p(e) ≤ 1 y 0 ≤ p(s) ≤ 1.

Una vez definidas las anteriores, el sistema pregunta al usuario los valores de p(s|e) El sistema debe informar al usuario de las

restricciones a satisfacer, por ejemplo dando sus cotas superior e inferior.


Ejemplos

Algunos valores son redundantes, de modo que el SE debería asignar automáticamente su valor sin preguntar al usuario.

Ejemplo: si tenemos que

Entonces se tiene que:

Por lo que, conocido p(s), el SE no debería preguntar al usuario los valores de p(s|e). Solamente dos son necesarios: p(s=0|E=0) y p(s=1|E=0).

Además, ambas probabilidades deben sumar 1 Solamente una de estas probabilidades es suficiente para definir los parámetros de la BD.

Control de la Coherencia. Además de las relaciones entre las

probabilidades que intervienen en la definición de la función de probabilidad conjunta, también otras condiciones que deben cumplir las probabilidades para ser consistentes.

El subsistema de control de la coherencia debe informar al usuario de las restricciones a las que se deben someter las nuevas unidades de información.


Ejemplos

Ejemplo: restricciones para dos conjuntos

Supongamos dos conjuntos A y B.

Las probabilidades que intervienen en la

definición de la BC de un sistema experto probabilístico son p(A), p(B), p(A∪B) y p(A∩B).

Estas probabilidades deben satisfacer las

restricciones siguientes:


Ejemplos La restricción p(A) + p(B) − 1 ≤ p(A ∩ B) se obtiene de:

(Esto es cierto porque p(𝐴 ∪𝐵 ) ≤ p(𝐴 )+ p(𝐵 ) = 1-p(A)+1-p(B))

El sistema experto comienza preguntando al usuario los valores de p(A) y p(B). Estos valores deben satisfacer las dos primeras restricciones.

Una vez que p(A) y p(B) especificadas y comprobadas, el subsistema de adquisición de conocimiento pregunta los valores de p(A∩B) o de p(A∪B); El sistema debe informar al usuario de las cotas inferior y

superior de estas probabilidades dadas en las dos últimas restricciones.

En otro caso, podrían darse valores fuera de los intervalos de coherencia. Se violarían los axiomas de la probabilidad, y el sistema podría generar conclusiones erróneas.


Ejemplos

Supongamos p(A ∩ B) dada y

comprobada;

entonces se asignará automáticamente a p(A∪B) el valor.


Conclusión De los ejemplos se puede deducir la complejidad del conjunto de

restricciones conforme aumenta el nº de subconjuntos.

Por tanto, el riesgo de que el usuario viole las restricciones aumenta con el nº de variables. En estas situaciones es importante disponer de un sistema capaz de

controlar la coherencia del conocimiento (Smith (1961)).

En algunos modelos probabilísticos como los de redes Bayesianas el control de la coherencia no es problema, puesto que los modelos se construyen coherentes.

En otros modelos probabilísticos debe controlarse la coherencia. En algunos modelos probabilísticos el control de la coherencia es

una necesidad. El subsistema de control de coherencia impide que el conocimiento

incoherente entre en la base de conocimiento y/o la memoria de trabajo.

Más adelante veremos un método para comprobar la consistencia de un modelo probabilístico.

Comparación

Sistemas Expertos Basados en

Reglas VS Probabilísticos

SE basado en reglas: Conocimiento:

Objetos

Conjunto de reglas.

Datos: Evidencia asociada a los

casos a analizar.

BC: Fácil de implementar, sólo

es necesario utilizar elementos simples, como objetos, conjuntos de valores, premisas, conclusiones y reglas.

Conocimiento que a almacenar limitado en comparación con probabilísticos.

SE basado en probabilidad: Conocimiento:

Variables y sus posibles valores

Función de probabilidad conjunta.

Datos: Evidencia asociada a los

casos a analizar.

BC: Conocimiento a almacenar

menos limitado.

Inconveniente: alto nº de parámetros que manejan.

Difícil especificación y definición como consecuencia de lo anterior.

Base de Conocimiento:

Comparación



SE basado en reglas: Las conclusiones se

obtienen de los hechos aplicando las diferentes estrategias de inferencia, tales como Modus Ponens, Modus Tollens y encadenamiento de reglas.

El motor de inferencia es rápido y fácil de implementar.

SE basado en probabilidad: El motor de inferencia es más

complicado que en el caso de SE basados en reglas.

El motor de inferencia se basa en la evaluación de las probabilidades condicionales utilizando distintos métodos por los diferentes tipos de sistemas expertos probabilísticos

El grado de dificultad: depende del modelo

seleccionado y

varía desde baja (modelos de independencia) a alta (modelos de dependencia generales).

Motor de Inferencia:

Comparación



SE basado en reglas: La explicación es fácil,

ya que se sabe qué reglas han sido utilizadas para concluir en cada momento.

El motor de inferencia sabe qué reglas se han utilizado en el encadenamiento y han contribuido a obtener conclusiones y qué reglas se han utilizado sin éxito.

Subsistema de Explicación: SE basado en probabilidad:

La información sobre qué variables influyen en otras está codificada en la función de probabilidad conjunta.

La explicación se basa en los valores relativos de las probabilidades condicionales que miden los grados de dependencia.

Una comparación de las probabilidades condicionales para diferentes conjuntos de evidencia permite analizar sus efectos en las conclusiones.

Comparación



SE basado en reglas: El aprendizaje

consiste en incorporar nuevos objetos, nuevos conjuntos de valores factibles para los objetos, nuevas reglas o modificaciones de los objetos existentes, de los conjuntos de valores posibles, o de las reglas.

SE basado en probabilidad: El aprendizaje

consiste en incorporar o modificar la estructura del espacio de probabilidad: variables, conjunto de posibles valores, o los parámetros (valores de las probabilidades).

Subsistema de Aprendizaje:

sistemas expertos basados en probabilidad (2010/2011) · se ilustrará con el ejemplo de...

Documents