Apéndice A Inferencia bayesiana
El razonamiento bayesiano proporciona un enfoque probabilístico a la inferencia. Está
basado en la suposición de que las cantidad de interés son gobernadas por distribuciones
de probabilidad y que se pueden tomar decisiones óptimas razonando sobre estas
probabilidades junto con los datos obtenidos. Este enfoque está siendo utilizado en
multitud de campos de investigación, de los que cabe destacar la robótica móvil y la
visión computacional, ambas relacionadas con el contenido de esta tesis. En este apéndice
queremos definir dos de las herramientas utilizadas en el desarrollo de esta tesis: el
teorema de Bayes y el principio de longitud de descripción mínima.
A.1 Teorema de Bayes
A menudo nos surgen problemas en los cuales estamos interesados en determinar la mejor
hipótesis h, dados los datos que hemos observado D. Una forma más correcta de
expresar esto es decir que buscamos la hipótesis h más probable, dados los datos
observados D más un conocimiento inicial sobre las probabilidades a priori de h. El
teorema de Bayes nos proporciona un método directo para calcular estas probabilidades.
El teorema de Bayes se define con la siguiente ecuación:
Vamos a comentar el significado de cada término. P(h) es el conocimiento inicial que
tenemos sobre que la hipótesis h sea la correcta. Se le suele denominar la probabilidad
a priori de h. P(D) se define de forma similar, pero esta vez sobre los datos D.
P(D|h) denota la probabilidad de observar los datos D dado que tenemos la hipótesis
h. Se le suele denominar verosimilitud. Por último, P(h|D) es la probabilidad a
posteriori que la hipótesis h tiene, dados los datos observados D. En la mayoría de
problemas donde se plantea la inferencia bayesiana, se parte de un conjunto de hipótesis
H y se trata de encontrar la hipótesis más probable hÎ H. De esta forma, a esta
hipótesis más probable se le suele denominar hipótesis maximum a posteriori o MAP.
Utilizando el teorema de Bayes, diremos que hMAP es una hipótesis MAP de acuerdo a:
|
hMAPºarg |
|
P(h|D)=arg |
|
|
=
arg |
|
P(D|h)P(h)
|
En el último paso hemos eliminado P(D) porque es independiente de h.
En algunos casos todas las probabilidades en H son igualmente probables a priori
(P(hi)=P(hj), " hi,hjÎ H). En este caso sólo utilizaríamos el término de
verosimilitud, P(D|h), y podemos simplificar aún más la anterior ecuación:
donde a la hipótesis hML se le suele nombrar como hipótesis de máxima verosimilitud
(Maximum Likelihood).
Supongamos ahora que debemos elegir entre dos hipótesis, h1 y h2, dados los datos
D. El criterio de elección para responder de forma eficiente sería seleccionar la
hipótesis más probable. Es decir, aplicaríamos lo que se conoce como regla de decisión:
si P(h1|D)>P(h2|D) elegir h1, sino elegir h2
Si aplicamos la regla de Bayes a cada término nos queda:
Aplicando logaritmos a ambas partes nos queda:
En ausencia de información a priori todas las hipótesis son igualmente probables y el
término de la derecha es ln 1=0. La regla de decisión en ausencia de información a
priori queda:
|
si ln |
|
>0 elegir h1, sino
elegir h2
|
A.2 Principio de longitud de descripción mínima
El principio de longitud de descripción mínima (minimum descripción length (MDL))
puede ser resumido como ``elegir la explicación más corta a los datos observados''. Esta
íntimamente relacionada con el criterio MAP antes comentado, incorporando conceptos
básicos de teoría de la información. Retomando la definición de hMAP:
y, de forma equivalente, expresando esta ecuación en términos de la maximización de
log2:
|
hMAP= arg |
|
log2 P(D|h)+log2 P(h)
|
o, alternativamente, minimizando el negativo de esta cantidad:
|
hMAP= arg |
|
-log2 P(D|h)-log2 P(h)
|
Esta última ecuación puede ser interpretada como que se prefieren hipótesis cortas. Cada
uno de estos términos se puede entender como la longitud de descripción de las
distribuciones bajo una codificación óptima. No vamos a entrar en comentar los términos
de teoría de información. El principio MDL recomienda la elección de las hipótesis que
minimizan estas dos longitudes de descripción. Así, este principio se puede definir como
elegir la hipótesis hMDL dada:
|
hMDL= arg |
|
L |
|
P(D|h)+L |
|
P(h)
|
siendo LCi la longitud de descripción del mensaje i con respecto a C, que es el
número de bits requeridos para codificar el mensaje i utilizando el código C. En el
caso de que C2 sea la codificación óptima de las hipótesis (h) y C1 sea la
codificación óptima de (D|h), entonces hMDL=hMAP.
A.3 Hipótesis de máxima verosimilitud y error cuadrático medio
También vamos a demostrar una equivalencia entre la hipótesis de máxima verosimilitud y
el método que encuentra la hipótesis que minimiza el error cuadrático medio. Como ya
hemos comentado:
Vamos a asumir que los datos D=(d1, d2, ..., dm) son independientes dado h, y
así escribir podemos escribir P(D|h) como el producto de los distintos P(di|h):
Suponiendo que las funciones de distribución son normales, con media µ y varianza
s2, vamos a hacer coincidir la hipótesis h con la media µ. Sustituyendo en
la ecuación anterior tenemos:
Siendo ln P una función monotónica de P, maximizar ln P equivale a maximizar P,
y eliminando la varianza, que no depende de la hipótesis h, nos queda:
|
hML)=arg |
|
|
|
- |
|
(di-µ)2=arg |
|
|
|
(di-µ)2
|
Esta ecuación muestra que la hipótesis de máxima verosimilitud es la que minimiza la suma
de los errores cuadráticos entre la hipótesis y los datos, siempre en los supuestos antes
mencionados.