Significado de Teorema de Bayes Definición, Fórmula, y Forma Extendida

Definición formal

El teorema de Bayes es una fórmula que permite actualizar la probabilidad que le asignamos a un evento en función de la observación de nueva evidencia, utilizado para realizar predicciones, interpretar información y diseñar y entrenar Redes Neuronales Artificiales, visto ampliamente en Probabilidad y Estadística.

También referido como Regla de Bayes, resulta fundamental en muchas aplicaciones de Machine Learning, y en construcción de regularizantes para problemas inversos. Más aún, es indispensable para el diseño e interpretación de experimentos y toma de decisiones, y existe incluso todo un paradigma de Racionalidad basado en el análisis Bayesiano de elementos de la psicología cognitiva.

Fórmula y demostración del Teorema de Bayes

Dados dos Eventos, A y B, la probabilidad de A si observamos B puede calcularse como

\(P(A|B) = \frac{P(B|A)\;P(A)}{P(B)}\)

P(A) se conoce como probabilidad a priori, porque es la que asignamos antes de tener conocimiento de B. P(B|A) se conoce como verosimilitud (o likelihood) porque tiene que ver con qué tan creíble pensamos que es observar B si A es cierto, y P(A|B) se conoce como probabilidad a posteriori, porque refleja nuestra creencia actualizada con la nueva información.

La demostración del teorema es muy sencilla, y está basada en que la probabilidad de que ocurran dos eventos en conjunto es igual a la probabilidad de que ocurra cualquiera de ellos, y sabiendo esto, que ocurra el otro. Es decir, \(P(A\cap B) = P(A)P(B|A)\) . Entonces, \(P(A|B)P(B) = P(A\cap B) = P(B|A)P(A)\) , lo que demuestra el Teorema.

Explicación práctica de la fórmula

Monedas en el experimento

Supongamos que tenemos una billetera con dos monedas. Una de las monedas es una moneda común: de un lado tiene un número (digamos 5) y en la otra cara un dibujo (digamos, de un árbol). La otra moneda, por algún error de impresión o falsificación, tiene el número 5 de ambos lados. Es decir, ambas caras con el 5 son indistinguibles entre sí y de la cara con el 5 de la moneda común.

Ahora, supongamos que sacamos una moneda sin mirar. Entonces, claramente, la probabilidad de haber sacado la moneda doble es $1/2$, dado que había dos monedas. Ahora tiramos la moneda al suelo, nos acercamos, y vemos un 5. ¿qué probabilidad hay ahora de que hayamos sacado la moneda doble?… La cara con el 5 que estamos observando puede ser el 5 de la moneda común, o cualquiera de las dos caras de la moneda doble, por lo que la probabilidad de que hayamos sacado la moneda doble resulta mayor. Esto es lo que permite calcular el Teorema de Bayes.

Si llamamos A: «Sacar moneda doble», B: «Obtener 5 si arrojamos una de las monedas», entonces:

\(P(B|A) &= 1\),

\(P(A) &= 1/2\),

\(P(B) &= 3/4\).

Reemplazando estos valores en la Fórmula de Bayes, obtenemos

\(P(A|B) = \frac{P(B|A)\;P(A)}{P(B)}= \frac{1\times1/2}{3/4} = \frac{2}{3}\)

lo cual tiene sentido, dado que vimos un 5, que estaba presente en 3 de las caras, y 2 de ellas estaban en la moneda doble.

Forma extendida

El Teorema de Bayes tiene una forma extendida, que en ciertos casos nos permite calcular la probabilidad a priori sin calcular P(B). Para ello, supongamos que conocemos una partición del conjunto de todos los poisbles eventos \(\mathcal{A} = \bigcup_n A_n\) . Entonces, \(P(B) = \sum_n P(B|A_n)\) , y reemplazando en la fórmula de Bayes, obtenemos:

\(P(A_m|B) = \frac{P(B|A_m)\;P(A_m)}{\sum_n P(B|A_n)}\)

En el ejemplo de la moneda, podríamos definir A1: Sacar la moneda doble y A2: sacar la moneda común. Entonces, en lugar de pensar en P(B) como la probabilidad de obtener 5 si arrojamos una moneda, podemos sumar las probabilidades de obtener un 5 según las monedas que sacamos, que son mucho más fáciles de interpretar.