domingo, 7 de diciembre de 2008

jueves, 4 de diciembre de 2008

4. Estadística inferencial
4.1 Inferencia estadística
Se basa en las conclusiones a la que se llega por la ciencia experimental basándose en información incompleta (de una parte de la población). La inferencia estadística es una parte de la Estadística que permite generar modelos probabilísticos a partir de un conjunto de observaciones. Del conjunto se observaciones que van a ser analizadas, se eligen aleatoriamente sólo unas cuantas, que es lo que se denomina muestra, y a partir de dicha muestra se estiman los parámetros del modelo, y se contrastan las hipótesis establecidas, con el objeto de determinar si el modelo probabilístico es el adecuado al problema real que se ha planteado. La utilidad de la inferencia estadística, consiste en que si el modelo se considera adecuado, puede usarse para la toma de decisiones o para la realización de las previsiones convenientes. En el desarrollo del tema se utilizarán variables aleatorias, que son variables determinadas por el azar. La inferencia estadística parte de un conjunto de observaciones de una variable, y a partir de estos datos “infiere” o genera un modelo probabilístico; por tanto es la consecuencia de la investigación empírica, caundo se está llevando a cabo, y como consecuencia de la ciencia teórica, cuando se están generando estimadores, o métodos, con tal o cual característica para casos particulares. La inferencia estadística es, en consecuencia, un planteamiento inductivo………………. •Es la parte de la estadística matemática que se encarga del estudio de los métodos para la obtención del modelo de probabilidad que sigue una variable aleatoria de una determinada población, a través de una muestra obtenida de la misma…………… •proceso de análisis que consiste en inferir las propiedades de una población con base en la caracterización de la muestra.

4.4 Estimación puntual
El material sobre teoría de la probabilidad constituye la base de la inferencia estadística, rama de la estadística que tiene que ver con el uso de los conceptos de la probabilidad para tratar con la toma de decisiones en condiciones de incertidumbre. La inferencia estadística está basada en la estimación y en la prueba de hipótesis.

Tipos de estimación.

Podemos hacer dos tipos de estimaciones concernientes a una población:

* Una estimación puntual: es sólo u número que se utiliza para estimar un parámetro de población desconocido. Una estimación puntual a menudo resulta insuficiente, debido a que sólo tiene dos opciones: es correcta o está equivocada. Una estimación puntual es mucho más útil si viene acompañada por una estimación del error que podría estar implicado.

* Una estimación de intervalo: es un intervalo de valores que se utiliza para estimar un parámetro de población. Esta estimación indica el error de dos maneras: por la extensión del intervalo y por la probabilidad de obtener el verdadero parámetro de la población que se encuentra dentro del intervalo.

Estimador y estimaciones.

Un estimador es una estadística de muestra utilizada para estimar un parámetro de población. La media de la muestra puede ser un estimador de la media de la población, y la porción de la muestra se puede utilizar como estimador de la porción de la población. También podemos utilizar el alcance de la muestra como un estimador del alcance de la población.

Cuando hemos observado un valor numérico específico de nuestro estimador, nos referimos a ese valor como una estimación. Una estimación es un valor específico observado de una estadística. Hacemos una estimación si tomamos una muestra y calculamos el valor que toma nuestro estimador en esa muestra.

Criterios para seleccionar un buen estimador.

1. Imparcialidad. Se refiere al hecho de que una media de muestra es un estimador no sesgado de una media de población, porque la media de distribución de muestreo de las medias de muestras tomadas de la misma población es igual a la media de la población misma. Podemos decir que una estadística es un estimador imparcial (o no sesgado) si, en promedio, tiende a tomar valores que están por encima del parámetro de la población y la misma extensión con la que tiende a asumir valores por debajo del parámetro de población que se está estimando.

2. Eficiencia. Se refiere al tamaño del error estándar de la estadística. Si comparamos dos estadísticas de una muestra del mismo tamaño y tratamos de decidir cuál de ellas es un estimador más eficiente, escogeríamos la estadística que tuviera el menor error estándar o la menor desviación estándar de la distribución de muestreo. Tiene sentido pensar que un estimador con un error estándar menor (con menos desviación) tendrá una mayor oportunidad de producir una estimación más cercana al parámetro de población que se está considerando.

3. Coherencia. Una estadística es un estimador coherente de un parámetro de población si al aumentar el tamaño de la muestra, se tiene casi la certeza de que el valor de la estadística se aproxima bastante al valor del parámetro de la población. Si un estimador es coherente, se vuelve más confiable si tenemos tamaños de muestras más grandes.

4. Suficiencia. Un estimador es suficiente si utiliza una cantidad de la información contenida en la muestra que ningún otro estimador podría extraer información adicional de la muestra sobre el parámetro de la población.

Una estadística de muestra dada no siempre es el mejor estimador de su parámetro de población correspondiente. Considere una población distribuida simétricamente, en la que los valores de la mediana y de la media coinciden. En este caso, la media de la muestra sería un estimador imparcial de la mediana de la población debido a que asumiría valores que en promedio serían iguales a la mediana de la población. También, la media de la muestra sería un estimador consistente de la mediana de la población, puesto que, conforme aumenta el tamaño de la muestra, el valor de la media de la muestra tenderá a acercarse bastante a la mediana de la población. Y la media de la muestra sería un estimador más eficiente de la mediana de la población que la mediana misma, ya que en muestras grandes, la media de la muestra tiene una desviación estándar menor que la mediana de la muestra.

Al mismo tiempo, la mediana de la muestra de una distribución distribuida simétricamente sería un estimador imparcial y consistente de la media de la población, pero no el más eficiente estimador, porque en muestras grandes su error estándar es mayor que el de la media de la muestra.

Estimaciones puntuales.

La media de la muestra es el mejor estimador de la media de la población. Es imparcial, coherente, el estimador más eficiente y, siempre y cuando la muestra sea la suficientemente grande, su distribución de muestreo puede ser aproximada por la distribución normal.

Si conocemos la distribución de muestreo de la media, podemos llegar a conclusiones con respecto a cualquier estimación que podamos hacer a partir de la información de muestreo.

Estimación puntual de la varianza y de la desviación estándar de la población.

El estimador utilizado con más frecuencia para hacer la estimación de la desviación estándar de la población, es la desviación estándar de la muestra:

s2 =  (x - x)2 / (n - 1)

Al utilizar un divisor n - 1, nos da un estimador imparcial de  2.

Estimación puntual de la porción de la población.

La porción de unidades de una población dada que posee una característica particular se representa mediante el símbolo p. Si conocemos la porción de unidades de una muestra que tiene la misma característica, podemos utilizar esa p como estimador de p. Se puede mostrar que p tiene todas las características deseables: es imparcial (no sesgado), coherente, eficiente y suficiente.

SUGERENCIA:

Incluso cuando estamos utilizando el mejor estimador de un parámetro de población, aceptamos que puede estar implicado algo de error. Afirmamos que la estimación puntual y la medida de la varianza proporcionan información útil para las decisiones.

Estimaciones de intervalo.

El propósito de tomar muestras es para conocer más acerca de una población. Podemos calcular esa información a partir de las muestras como estimaciones puntuales, o como estimaciones de intervalo. Una estimación de intervalo describe un intervalo de valores dentro del cual es posible que esté un parámetro de población.

Si seleccionamos y representamos gráficamente un gran número de medias de muestras de una población, la distribución de tales medias se aproximará a la curva normal. Además, la media de las medias de muestra será la misma media de la población.

Probabilidad de que el verdadero parámetro de la población esté dentro de la estimación de intervalo.

En lo que concierne a cualquier intervalo particular, éste contiene a la media de la población o no la contiene, pues la media de la población es un parámetro fijo, y no varía.

Cuando las organizaciones informan la precisión de encuestas de opinión como "estos resultados son precisos en más menos tres puntos", por lo general no establecen el nivel de confianza que están utilizando para hacer la estimación de intervalo. Una afirmación más completa tendría la forma. "existe un 95% de probabilidad de que la verdadera opinión de la población caiga dentro del intervalo comprendido entre ..... y ........"

Estimaciones de intervalo e intervalos de confianza.

La probabilidad que asociamos con una estimación de intervalo se conoce como nivel de confianza. Esta probabilidad indica qué tanta confianza tenemos de que la estimación de intervalo incluya al parámetro de población. Una probabilidad más alta indica más confianza.

El intervalo de confianza es el alcance de la estimación que estamos haciendo. Expresaremos el intervalo de confianza en términos de errores estándar, más que con valores numéricos. Los límites de confianza son los límites superior e inferior del intervalo de confianza

Relación entre el nivel de confianza e intervalo de confianza.

Podría pensarse que deberíamos utilizar un nivel alto de confianza en todos los problemas sobre estimaciones. En la práctica, sin embargo, altos niveles de confianza producen intervalos de confianza grandes, y éstos no son precisos, dan estimaciones bastante imprecisas.

Uso del muestreo y de la estimación de intervalos de confianza.

A menudo resulta difícil o caro tomar más de una muestra de una población. Basados en solamente una muestra estimamos el parámetro de población.

El intervalo de confianza quiere decir que si seleccionamos muchas muestras aleatorias del mismo tamaño y si calculamos un intervalo de confianza para cada una de las muestras, tendremos un porcentaje de confianza determino de que en todos los casos la media de la población caerá dentro del intervalo.

Por otro lado, existe un cierto equilibrio entre la certidumbre de la estimación y el ancho de un intervalo de confianza.

SUGERENCIA:

Cuando tenemos muestras grandes, utilizamos el Teorema del Límite Central, nuestro conocimiento de la curva normal y nuestra habilidad para hacer correcciones para poblaciones finitas.

Determinación del tamaño de la muestra.

Siempre que tomamos una muestra, perdemos algo de información útil con respecto a la población. El error de muestre se puede controlar si seleccionamos una muestra cuyo tamaño sea el adecuado. En general, cuanta más precisión se quiera, más grande será el tamaño de la muestra necesaria.

Para calcular el tamaño de muestra, podemos utilizar la fórmula del error estándar de la media:

 x =  / n

Si no conocemos la desviación estándar de la población, podemos utilizar el alcance de la población para obtener una estimación burda pero manejable de la desviación estándar. Sabemos que más menos tres desviaciones estándar incluyen 99,7% del área total bajo la curva normal, esto es, más tres desviaciones estándar y menos tres desviaciones estándar de la media incluyen casi toda el área de la distribución.

SUGERENCIAS:

* Un estimador es una variable aleatoria, y por lo tanto es posible asociarle probabilidades, lo que resulta de suma utilidad como herramienta auxiliar para la toma de decisiones bajo condiciones de incertidumbre.

* Una estimación, en cambio, es un valor particular del estimador, calculado en base a una muestra dada. Por tanto, constituye un valor fijo (no aleatorio) que caracteriza a esa muestra en particular, pero que se usa para inferir el valor de un parámetro desconocido.

* Entre un estimador puntual y uno por intervalos, es preferible usar este último porque tiene asociado una probabilidad que contempla el error que se puede cometer en la aproximación.

Conceptos.

* Estimación: valor específico de un estimador, calculado en base a una muestra dada.

* Estimación de intervalo: intervalo de valores utilizado para estimar un parámetro de población desconocido.

* Estimación de parámetros: Aproximación del valor de parámetros poblacionales desconocidos mediante el empleo de estadísticos muestrales.

* Estimación puntual: un solo número que se utiliza para estimar un parámetro de población desconocido.

* Estimador: estadística de muestra utilizada para estimar un parámetro de población. Conceptualmente es una variable aleatoria.

* Estimador coherente: estimador que produce valores que se acercan más al parámetro de la población conforme aumenta el tamaño de la muestra.

* Estimador eficiente: estimador con un menor error estándar que algún otro estimador del parámetro de la población, esto es, cuanto más pequeño sea el error estándar de un estimador, más eficiente será ese estimador.

* Estimador imparcial: estimador de un parámetro de población que, en promedio, asume valores por encima del parámetro de la población con la misma frecuencia, y al mismo grado, con que tiende a tomarlos por debajo del parámetro de la población.

* Estimador suficiente: estimador que utiliza toda la información disponible en los datos correspondientes a un parámetro.

* Intervalo de confianza: intervalo de valores que tiene designada una probabilidad de que incluya el valor real del parámetro de la población.

* Límites de confianza: límites inferior y superior de un intervalo de confianza.

* Nivel de confianza: probabilidad que los estadísticos asocian con una estimación de intervalo de un parámetro de población, ésta indica qué tan seguros están de que la estimación de intervalo incluirá el parámetro de la población. Probabilidad, designada de antemano, de que un intervalo de confianza incluya al valor del parámetro desconocido.

* Propiedades de un buen estimador: características deseables de un estimador, para lograr la mejor aproximación posible de un parámetro poblacional.
4.7 Contraste de hipótesis unilateral y bilateral
PRUEBAS DE HIPÓTESIS.

Una hipótesis es una afirmación acerca de algo. En estadística, puede ser una suposición acerca del valor de un parámetro desconocido.

Pasos en la prueba de hipótesis:

1. Definir la hipótesis nula: suponer una hipótesis acerca de una población.

2. Formular una hipótesis alternativa: es una contra-hipótesis.

3. Definir un criterio de decisión para rechazar o no la hipótesis nula.

4. Recabar datos de la muestra.

5. Calcular una estadística de muestra.

6. Utilizar la estadística de muestra para evaluar la hipótesis.

Generalmente, se habla de "no rechazar" una hipótesis en lugar de "aceptar", ya que las pruebas no son concluyentes.

Introducción.

La prueba de hipótesis comienza con una suposición, llamada hipótesis, que hacemos con respecto a un parámetro de población. Después recolectamos datos de muestra, producimos estadísticas de muestra y usamos esta información para decidir qué tan probable es que sea correcto nuestro parámetro de población acerca del cual hicimos la hipótesis.

Debemos establecer el valor supuesto o hipotetizado del parámetro de población antes de comenzar a tomar la muestra. La suposición que deseamos probar se conoce como hipótesis nula, y se simboliza H0.

Siempre que rechazamos la hipótesis, la conclusión que sí aceptamos se llama hipótesis alternativa y se simboliza H1.

Interpretación del nivel de significancia.

El propósito de la prueba de hipótesis no es cuestionar el valor calculado de la estadística de muestra, sino hacer un juicio respecto a la diferencia entre esa estadística de muestra y un parámetro de población hipotetizado. El siguiente paso después de establecer la hipótesis nula alternativa consiste en decidir qué criterio utilizar para decidir si aceptar o rechazar la hipótesis nula.

Si suponemos que la hipótesis es correcta, entonces el nivel de significancia indicará el porcentaje de medias de muestra que está fuera de ciertos límites.

Siempre que afirmemos que aceptamos la hipótesis nula, en realidad lo que queremos decir es que no hay suficiente evidencia estadística para rechazarla. El empleo del término aceptar, en lugar de rechazar, se ha vuelto de uso común. Significa simplemente que cuando los datos de la muestra n hacen que rechacemos una hipótesis nula, nos comportamos como si fuera cierta.

Selección del nivel de significancia.

Nuestra elección del estándar mínimo para una probabilidad aceptable, o el nivel de significancia, es también el riesgo que asumimos al rechazar una hipótesis nula cuando es cierta. Mientras más alto sea el nivel de significancia que utilizamos para probar una hipótesis, mayor será la probabilidad de rechazar una hipótesis nula cuando es cierta.

Errores tipo I y tipo II.

El rechazo de una hipótesis nula cuando es cierta se denomina error de tipo I, y su probabilidad (que es también el nivel de significancia) se simboliza como  . El hecho de aceptar una hipótesis nula cuando es falsa se denomina error de tipo II, y su probabilidad se simboliza como  . La probabilidad de cometer un tipo de error puede reducirse sólo si deseamos incrementar la probabilidad de cometer el otro tipo de error. Con el propósito de obtener una  baja, tendremos que tolerar una  alta. Los responsables de la toma de decisiones deciden el nivel de significancia adecuado, al examinar los costos o desventajas vinculadas con ambos tipos de errores.

Pruebas de hipótesis de dos extremos y de un extremo.

Una prueba de dos extremos de una hipótesis, rechazará la hipótesis nula si la media de muestra es significativamente mayor o menor que la media de la población hipotetizada. Existen dos regiones de rechazo.

Hay situaciones en las que no es apropiada una prueba de dos extremos, por lo que debemos usar una prueba de un extremo, que pueden ser de extremo izquierdo (o inferior) o extremo derecho (o superior).

La única forma de probar una hipótesis nula es conociendo el parámetro de población, y eso no es posible al tomar una muestra. Por consiguiente, aceptamos la hipótesis nula y nos comportamos como si fuera cierta, simplemente porque no podemos encontrar evidencia para rechazarla.

Medición de la potencia de una prueba de hipótesis.

Idealmente, tanto  como  (las probabilidades de los errores tipo I y II deben ser pequeñas. Una vez que decidimos el nivel de significancia, no hay nada que podamos hacer con respecto a  .

Cuando la hipótesis nula es falsa,  (la media de la población cierta) no es igual a la media hipotetizada.

Puesto que rechazar una hipótesis nula cuando es falsa es exactamente lo que debe hacer una buena prueba, un valor alto de 1 -  significa que la prueba está trabajando bastante bien (está rechazando la hipótesis nula cuando es falsa. Puesto que 1 -  es la medida de qué tan bien trabaja la prueba, se la conoce como la potencia de la prueba. Si representamos gráficamente los valores 1 -  por cada valor de  para el que la hipótesis alternativa es cierta, la curva resultante se conoce como curva de potencia.

SUGERENCIAS:

* Conviene plantear la hipótesis nula siempre por la igualdad. Adapte la contrahipótesis de acuerdo con el objetivo del problema.

* Formule la hipótesis en base a los objetivos del estudio, pero siempre antes de extraer la muestra y calcular el estimador puntual del parámetro desconocido, para no verse influenciado por este resultado.

* Tenga en cuenta que si bien la hipótesis nula es la que se pone bajo prueba, eso no significa que deba ser siempre la suposición que el experimentador desea que se compruebe.

* Como en todo proceso de inferencia, existe algún grado de subjetividad en la realización de una prueba, particularmente en la elección del nivel de significancia y del tamaño de la muestra. Trate de que la elección de estos valores responda a un análisis cuidadoso del problema en cuestión.

* Una vez fijadas las condiciones de la prueba, el resultado de la misma es totalmente objetivo.

* Para fijar el nivel de significancia de la prueba, hay que tener en cuenta que cuando la probabilidad del error tipo I aumenta, la del error tipo II disminuye. La forma de minimizar el error tipo II independientemente del nivel de significancia, es aumentando el tamaño de la muestra.

* Como las probabilidades de los errores tipo I y II están relacionadas entre ´si, pero el experimentador puede fijar la primera, antes de elegir el nivel de significancia hay que ver cuál de los dos tipos de errores resulta más crítico.

Conceptos:

* Alfa: probabilidad de cometer un error de tipo I.

* Beta: probabilidad de cometer un error de tipo II.

* Curva de potencia: gráfica de los valores de la potencia de una prueba por cada valor de  , u otro parámetro de población, para el que la hipótesis alternativa es cierta.

* Error de tipo I: rechazo de una hipótesis nula cuando es cierta.

* Error de tipo II: aceptación de una hipótesis nula cuando es falsa.

* Escala estandarizada: medición en desviaciones estándar a partir de la media de la variable.

* Escala sin procesar: medición en las unidades originales de la variable.

* Hipótesis: suposición o especulación que hacemos con respecto a un parámetro de población.

* Hipótesis alternativa: conclusión que aceptamos cuando los datos no respaldan la hipótesis nula.

* Hipótesis estadística: afirmación acerca del valor de un parámetro desconocido, o sobre la distribución de una variable.

* Hipótesis nula: hipótesis o suposición con respecto a un parámetro de población que deseamos probar.

* Nivel de significancia: valor que indica el porcentaje de valores de muestra que están fuera de ciertos límites, suponiendo que la hipótesis nula es correcta, es decir, se trata de la probabilidad de rechazar la hipótesis nula cuando es cierta.

* Potencia de prueba de hipótesis: probabilidad de rechazar la hipótesis nula cuando es falsa, es decir, una medida de qué tan bien funciona la prueba de hipótesis.

* Prueba de hipótesis: experimento que pone bajo prueba una hipótesis estadística, para decidir si es verdadera o falsa.

* Prueba de dos extremos: prueba de hipótesis en la que la hipótesis nula se rechaza si el valor de muestra es significativamente menor o mayor que el valor hipotetizado del parámetro de población, prueba que involucra dos regiones de rechazo.

* Prueba de extremo inferior: prueba de hipótesis de un extremo en la que un valor de la muestra que se encuentra significativamente por debajo del valor de la población hipotetizada, nos llevará a rechazar la hipótesis nula.

* Prueba de extremo superior: prueba de hipótesis de un extremo en la que un valor de muestra significativamente superior al valor de población hipotetizado nos llevará a rechazar la hipótesis nula.

* Prueba de un extremo: prueba de hipótesis en la que sólo hay una región de rechazo, es decir, sólo nos interesa si el valor observado se desvía del valor hipotetizado en una dirección.

* Valor crítico: valor de la estadística estándar (z) más allá del cual rechazamos la hipótesis nula; el límite entre las regiones de aceptación y rechazo.

unidad III

3. Funciones de Distribución de Variables.
3.1 Variables aleatorias y su clasificación

Si en un experimento aleatorio a cada suceso aleatorio elemental le asignamos un valor numérico obtenemos una variable aleatoria. Es decir, una variable que lleva asociada una probabilidad. La probabilidad de un valor concreto de la variable es la probabilidad que corresponde a los sucesos aleatorios elementales a los que hemos asignado ese valor numérico.

Por ejemplo : En el experimento aleatorio "lanzar un dado" asignamos a cada cara del dado su valor numérico (esta asignación aparece de forma natural). Así generamos una variable aleatoria que toma seis valores, del 1 al 6 con igual probabilidad (1/6) cada uno de ellos. Pero, con este mismo experimento, podemos generar otras variables aleatorias (no tan naturales) como puede ser : asignar el valor 1 a las caras que son múltiplos de tres y el valor 0 a las que no lo son, apareciendo una variable aleatoria que tiene dos valores, el 1 con probabilidad 1/3 y el 0 con probabilidad 2/3.

Crear una variable aleatoria no tiene mucho sentido sino la vamos a utilizar en un determinado contexto, por ejemplo, podemos utilizar la segunda variable aleatoria que hemos creado para apostar si sale o no múltiplo de tres.

Resumiendo, una variable aleatoria se construye al atribuir un número (positivo, negativo o cero) a cada uno de los sucesos aleatorios que forman el espacio muestral de un experimento aleatorio. La probabilidad de cada valor de la variable es la probabilidad conjunta de los sucesos que dan lugar a ese valor. Es decir, definimos una variable aleatoria como una aplicación del espacio muestral W sobre el conjunto de los números reales R.

Según la amplitud del campo de variación de la función podemos distinguir : variables aleatorias discretas y variables aleatorias continuas. De la misma forma que en estadística descriptiva, una variable aleatoria es discreta si toma valores en un conjunto finito o infinito numerable. Y una variable aleatoria es continua si puede tomar valores en un conjunto infinito no numerable. Como ejemplo típico de variable aleatoria discreta tenemos la distribución binomial, y como ejemplo típico de variable aleatoria continua vamos a ver ahora la distribución normal.

Como hemos visto hay variables aleatorias que pueden tomar cualquier valor de un intervalo real de la forma (a, b), (a, +¥), (-¥, b), (-¥, +¥) o uniones de ellos. A las variables de este tipo se las denomina variables aleatorias continuas.

Por ejemplo : Supongamos que vamos a realizar un experimento aleatorio que consiste en seleccionar una persona y apuntar su peso. Podemos crear una variable aleatoria cuyos valores sean el número de kilogramos que pesa la persona observada. En este caso, el rango de valores posibles se extiende entre los límites naturales, pero la continuidad de esta variable aleatoria radica en el carácter continuo de lo que medimos, el peso, es decir, en el hecho de que entre dos valores posibles se podrían obtener infinitos valores intermedios, también posibles si utilizáramos aparatos con suficiente precisión. Estos "infinitos" en el interior del rango de la variable es lo que diferencia a las variables continuas de las discretas.

Sin entrar en profundidades, consideramos que una distribución de probabilidad es cualquier mecanismo que nos ayuda a obtener las probabilidades de los valores de una variable si es discreta, o las probabilidades de intervalos de la variable si es continua. Si la variable aleatoria es discreta es posible asignar probabilidades a cada uno de los valores puntuales de la variable. En contra, cuando es continua cada uno de los infinitos valores posibles tendrá probabilidad cero y sólo podremos hablar de probabilidad dentro de intervalos.

3.2 Distribuciones de probabilidad discretas

3.2.2 Distribución Binomial
Supongamos que un experimento aleatorio tiene las siguientes características:

* En cada prueba del experimento sólo son posibles dos resultados: el suceso A (éxito) y su contrario`A (fracaso).
* El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente.
* La probabilidad del suceso A es constante, la representamos por p, y no varía de una prueba a otra. La probabilidad de `A es 1- p y la representamos por q .
* El experimento consta de un número n de pruebas.

Todo experimento que tenga estas características diremos que sigue el modelo de la distribución Binomial. A la variable X que expresa el número de éxitos obtenidos en cada prueba del experimento, la llamaremos variable aleatoria binomial.

La variable binomial es una variable aleatoria discreta, sólo puede tomar los valores 0, 1, 2, 3, 4, ..., n suponiendo que se han realizado n pruebas. Como hay que considerar todas las maneras posibles de obtener k-éxitos y (n-k) fracasos debemos calcular éstas por combinaciones (número combinatorio n sobre k).

La distribución Binomial se suele representar por B(n,p) siendo n y p los parámetros de dicha distribución.

Función de Probabilidad de la v.a. Binomial

Función de probabilidad de la distribución Binomial o también denominada función de la distribución de Bernoulli (para n=1). Verificándose: 0 £ p £ 1

Como el cálculo de estas probabilidades puede resultar algo tedioso se han construido tablas para algunos valores de n y p que nos facilitan el trabajo.

Parámetros de la Distribución Binomial

Función de Distribución de la v.a. Binomial

siendo k el mayor número entero menor o igual a xi.

Esta función de distribución proporciona, para cada número real xi, la probabilidad de que la variable X tome valores menores o iguales que xi.

3.3 Esperanza matemática
En estadística la esperanza matemática (o simplemente esperanza) o valor esperado de una variable aleatoria es la suma del producto de la probabilidad de cada suceso por el valor de dicho suceso. Por ejemplo, en un juego de azar el valor esperado es el beneficio medio.

Si todos los sucesos son de igual probabilidad la esperanza es la media aritmética.
Para una variable aleatoria discreta con valores posibles x_1, x_2 \ldots x_n \,\! y sus probabilidades representadas por la función de masa p(xi) la esperanza se calcula como:

Para una variable aleatoria continua la esperanza se calcula mediante la integral de todos los valores y la función de densidad f(x) \,\!:

La esperanza también se suele simbolizar con \mu = E[X] \,\!

Las esperanzas E[X^k] para k=0,1,2... se llaman momentos de orden k . Más importantes son los momentos centrados E[(X-E[X])^k] .

No todas las variables aleatorias tienen un valor esperado. Por ejemplo, la distribución de Cauchy no lo tiene.

Propiedades
La esperanza es un operador lineal, ya que:

3.5 Distribución t
Se sabe que se distribuye normalmente con una media m y una varianza s²/n, o la variable se distribuye normalmente con media cero y varianza unitaria. Sin embargo, para calcular Z se requiere que s sea conocido. Por lo tanto, se requiere una distribución para el caso en que s sea desconocido y se pueda reemplazar por un estimativo, tal como S. Tal distribución es la distribución t.

Teorema. Sean Y y Z dos variables aleatorias independientes, Y con una distribución Chi cuadrado con n grados de libertad, y Z con una distribución normal estándar (0,1), entonces la distribución de la variable

está dado por:

y se denomina "distribución t ó distribución de Student, con n grados de libertad.

Origen: WS Gosset publicó inicialmente la distribución bajo el seudónimo de "Student".

Propiedades generales

a) El valor esperado es cero Þ E(T)= 0
b) Distribución simétrica con respecto a cero.
c) La varianza de T está dada por

d) La varianza de T es ligeramente mayor de 1.0, es decir, es ligeramente mayor que la de la distribución normal estandarizada.
e) Para n ³ 30 la distribución t tiende hacia la distribución normal.

Tabulación. La función de distribución no puede calcularse en forma analítica; sin embargo, ha sido tabulada para diferentes valores de la probabilidad acumulada, y para varios grados de libertad. Como la distribución es simétrica, solamente se presentan probabilidades acumuladas para valores positivos de t (t³0). Los valores que se presentan en los encabezamientos de las columnas de la tabla corresponden a las probabilidades de exceder los respectivos valores de t, es decir, presentan las colas a la derecha de los valores respectivos de t. Para encontrar probabilidades correspondientes a valores negativos de t hay que hacer uso de la propiedad de simetría de la distribución t que nos dice que F(-t) = 1 - F(t).

Notación. Usaremos la notación para denotar el valor de la distribución t con n grados de libertad y una probabilidad acumulada de P hacia la derecha (o una probabilidad de 1-P hacia la izquierda).

La aplicación fundamental para la cual se usa esta distribución se presenta en el siguiente teorema.

Teorema. Si y S² son la media y la varianza de una muestra aleatoria de tamaño n tomada de una población normal con media m y varianza s², entonces la variable

tiene la distribución t con n-1 grados de libertad.

3.6 Distribución Chi-cuadrada
En estadística, la distribución ji-cuadrado, también denominada ji-cuadrado de Pearson, es una distribución de probabilidad continua con un parámetro k que representa los grados de libertad de la variable aleatoria:

donde Zi son variables de distribución normal, de media cero y varianza uno.

Esta distribución se expresa habitualmente c X\sim\chi^2_k

Donde el subíndice k de \chi^2_k , es le número de sumandos, se denomina grados de libertad de la distribución.

Se suele usar la denominada prueba ji-cuadrado como test de independencia y como test de bondad de ajuste.

Distribución χ² (ji-cuadrado)
Función de densidad de probabilidad

3.7 Distribución F
Usada en teoría de probabilidad y estadística, la distribución F es una distribución de probabilidad continua. También se la conoce como distribución F de Snedecor o como distribución F de Fisher-Snedecor.

Una variable aleatoria de distribución F se construye como el siguiente cociente:

donde

* U1 y U2 siguen una distribución ji-cuadrada con d1 y d2 grados de libertad respectivamente, y

* U1 y U2 son estadísticamente independientes.

La distribución F aparece frecuentemente como la distribución nula de una prueba estadística, especialmente en el análisis de varianza. Véase el test F.

La función de densidad de una F(d1, d2) viene dada por
donde

* U1 y U2 siguen una distribución ji-cuadrada con d1 y d2 grados de libertad respectivamente, y

* U1 y U2 son estadísticamente independientes.

La distribución F aparece frecuentemente como la distribución nula de una prueba estadística, especialmente en el análisis de varianza. Véase el test F.

La función de densidad de una F(d1, d2) viene dada por

para todo número real x ≥ 0, donde d1 y d2 son enteros positivos, y B es la distribución beta.

La función de distribución es

donde I es la función beta incompleta regularizada.

unidad I

1.-Estadística Descriptiva

Introducción.-Una de las ramas de la Estadística más accesible a la mayoría de la población es la Descriptiva. Esta parte se dedica única y exclusivamente al ordenamiento y tratamiento mecánico de la información para su presentación por medio de tablas y de representaciones gráficas, así como de la obtención de algunos parámetros útiles para la explicación de la información.

La Estadística Descriptiva es la parte que conocemos desde los cursos de educación primaria, que se enseña en los siguientes niveles y que, por lo general, no pasa a ser un análisis más profundo de la información. Es un primer acercamiento a la información y, por esa misma razón, es la manera de presentar la información ante cualquier lector, ya sea especialista o no. Sin embargo, lo anterior no quiere decir que carezca de metodología o algo similar, sino que, al contrario, por ser un medio accesible a la mayoría de la población humana, resulta de suma importancia considerar para así evitar malentendidos, tergiversaciones o errores.

1.2 Población y muestra aleatoria.
Algo importante que hay que mencionar es que no siempre se trabaja con todos los datos. Ésto por diversas razones, que pueden ser desde prácticas hasta por economía.Por ejemplo, resultaría muy costoso obtener los datos de todos los seres humanos, o impráctico (y a la vez destructivo) obtener como datos el tiempo en el que se funden las bombillas producidas por una cierta marca realizando la medición de toda la producción. El estudio conduciría a la empresa a la ruina, pues la producción entera desaparecería.

Por esta razón se considera un subconjunto del total de los casos, sujetos u objetos que se estudian y que se les obtienen los datos. La población, entonces, es el total hipotético de los datos que se estudian o recopilan. Ante la imposibilidad ocasional de conseguir a la población, entonces se recurre a la muestra, que viene siendo un subconjunto de los datos de la población, pero tal subconjunto tiene que contener datos que pueden servir para posteriores generalizaciones de las conclusiones. Un estudio más detallado de las características de las muestras para permitir tales generalizaciones se realizará más adelante.
1.4 Datos no agrupados
1.4.1 Medidas de tendencia central
1.-La media aritmética de una variable estadística es la suma de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores de una variable X es
la media es el valor que podemos escribir de las siguientes formas equivalentes

Si los datos no están ordenados en una tabla, entonces

2.-La mediana
Consideramos una variable discreta X cuyas observaciones en una tabla estadística han sido ordenadas de menor a mayor. Llamaremos mediana, Medal primer valor de la variable que deja por debajo de sí al 50 % de las observaciones. Por tanto, si n es el número de observaciones, la mediana corresponderá a la observación [n/2]+1, donde representamos por [ - ] la parte entera de un número

En el caso de variables continuas, las clases vienen dadas por intervalos, y aquí la fórmula de la mediana se complica un poco más (pero no demasiado): Sea (li-1,li] el intervalo donde hemos encontrado que por debajo están el 50% de las observaciones. Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas,
3.-La moda
Llamaremos moda a cualquier máximo relativo de la distribución de frecuencias, es decir, cualquier valor de la variable que posea una frecuencia mayor que su anterior y su posterior.

1.4.2 Medidas de dispersión
El grado con el cual los datos numericos tienden a separarse del promedio.

Los mas utilizados son
Rango
Desviación media
Rango semi-intercuartil
Percentil 10-90
Desviación Estándar
1.-Rango
El rango de un conjunto de números es la diferencia entre la mayor y el menor.
2.-Desviación de un dato xi respecto a la media x ¯ es la diferencia entre ambos, xi - x ¯ . La desviación media (DM) de un conjunto de datos es la media aritmética de los valores absolutos de las desviaciones de cada dato respecto a la media.
3.-Varianza (σ2) es la media aritmética de los cuadrados de las desviaciones respecto de la media. Su raíz cuadrada positiva se denomina desviación típica (σ).

1.5 Datos agrupados
Datos agrupados en intervalos

Si los datos vienen agrupados en intervalos con sus frecuencias, se multiplica la marca de clase del intervalo por su frecuencia, se suman los resultados obtenidos y este total se divide por el número de datos.
1.5.1 Tabla de distribución de frecuencias
En este tipo de tablas, se divide la amplitud de los valores numéricos de los datos en un cierto número de intervalos ó clases, y se cuenta el número de observaciones que pertenecen a cada una de ellas; a esta cantidad se le denomina frecuencia. Veamos su construcción paso a paso.
1. Determinación del número de clases. Para construir este tipo de tablas, primeramente se establece el número de clases en que se dividirán los datos. Este número es arbitrario, y depende de la amplitud de los datos (diferencia entre el valor mayor y el valor menor) y del nivel de detalle que se precisa; normalmente se utilizan de 5 a 20 clases.

2. Determinación del Intervalo de clase. Una vez definido el número de clases, se determina la "anchura" de cada una de ellas, que se denomina Intervalo de clase. Para determinarlo se obtiene la diferencia entre el valor mayor y el menor (amplitud ó rango), y se divide entre el número de clases. Los puntos que limitan cada clase se denominan límites de clase.Supongamos que queremos organizar nuestros datos en una tabla de distribución de frecuencias con cinco clases. La amplitud se obtiene calculando la diferencia entre las observaciones de mayor y menor valor numérico.
Nº Obs Peso Nº Obs Peso Nº Obs Peso Nº Obs Peso Nº Obs Peso
1 208 6 301 11 322 16 329 21 358
2 252 7 307 12 323 17 332 22 369
3 256 8 309 13 323 18 340 23 374
4 277 9 309 14 327 19 342 24 379
5 288 10 319 15 329 20 345 25 403
Amplitud = Valor mayor - Valor menor= 403-208= 195

Ahora bien, dado que deseamos establecer cinco clases, dividimos la amplitud por el número de clases para obtener el intervalo de clase (I)

I = Amplitud / Nº de clases = 195/5 = 39 » 40

Por razones que se verán más adelante, es conveniente elegir un número algo mayor que el obtenido con la fórmula anterior; para este ejemplo fijaremos el intervalo de clase en 40 unidades.

3. Determinación de los límites de clase: Cada clase posee un límite inferior y un límite superior; un dato pertenece a una clase si es mayor que el límite inferior y menor ó igual al límite superior. Para iniciar, se toma un número ligeramente inferior al valor menor como límite inferior de la primera clase; a éste le sumamos el intervalo de clase para obtener el límite superior de la primera clase, que será a su vez el límite inferior de la segunda clase, y así sucesivamente, hasta completar el número de clases deseado
Límite inferior Límite superior Comentarios
(207 247] Dado que el menor valor observado es 208, seleccionamos 207 como límite inferior de la primera clase. El límite superior se obtiene sumando el intervalo de clase al límite inferior: 207 + 40 = 247
(247 287] El límite inferior de la segunda clase es igual al límite superior de la primera clase, y así sucesivamente
(287 327]
(327 367]
(367 407]
4. Cálculo del valor medio de clase (vi). Es el promedio aritmético entre los límites superior e inferior de cada clase.
Clase

Valor medio de clase (vi)
(207 - 247] (207+247)/2 = 227
(247 - 287] (247+287)/2=267
(287 - 327] 307
(327 - 367] 347
(367 - 407] 387
5. Determinación de la frecuencia absoluta de clase (fi): Es el número de observaciones que pertenecen a cada clase; un dato pertenece a una clase si es mayor que el límite inferior y menor ó igual al límite superior.
Clase Valor medio de clase (vi) Frecuencia Absoluta (fi) Comentarios
(207 - 247] 227 1

Sólo la observación 1 es mayor que 207 y menor que 247
(247 - 287] 267 3 Son las observaciones 2, 3 y 4
(287 - 327] 307 10 Observaciones 5 a 14, inclusive
(327 - 367] 347 7 Observaciones 15 a 21
(367 - 407] 387 4 Observaciones 22 a 25
6. A partir de las frecuencias absolutas pueden calcularse las Frecuencias Relativas de clase (pi), que representan la proporción del total de observaciones que pertenecen a cada clase; pueden calcularse también las frecuencias acumuladas, que indican cuanto datos existen cuyo valor numérico es menor o igual al límite superior de una determinada clase.
Clase Valor medio de clase (vi) Frecuencia Absoluta (fi) Frecuencia Relativa Frecuencia Absoluta Acumulada Frecuencia Relativa Acumulada
(207 - 247] 227 1 1/25 1 1/25
(247 - 287] 267 3 3/25 4 4/25
(287 - 327] 307 10 10/25 14 14/25
(327 - 367] 347 7 7/25 21 21/25
(367 - 407] 387 4 4/25 25 25/25

1.6 Gráficos
Gran parte de la utilidad que tiene la Estadística Descriptiva es la de proporcionar un medio para informar basado en los datos recopilados. La eficacia con que se pueda realizar tal proceso de información dependerá de la presentación de los datos, siendo la forma gráfica uno de los más rápidos y eficientes, aunque también uno de los que más pueden ser manipulados o ser malinterpretados si no se tienen algunas precauciones básicas al realizar las gráficas. Existen también varios tipos de gráficas, o representaciones gráficas, utilizándose cada uno de ellos de acuerdo al tipo de información que se está usando y los objetivos que se persiguen al presentar la información.

Entonces, mencionaremos algunas consideraciones que conviene tomar en cuenta al momento de realizar cualquier gráfica a fin de que la información sea transmitida de la manera más eficaz posible y sin distorsiones:

1. El eje que represente a las frecuencias de las observaciones (comúnmente el vertical o de las ordenadas) debe comenzar en cero (0), de otra manera podría dar impresiones erróneas al comparar la altura, longitud o posición de las columnas, barras o líneas que representan las frecuencias.
2. La longitud de los espacios que representan a cada dato o intervalo (clase) en la gráfica deben ser iguales.
3. El tipo de gráfico debe coincidir por sus características con el tipo de información o el objetivo que se persigue al representarla, de otra manera la representación gráfica se convierte en un instrumento ineficaz, que produce más confusión que otra cosa, innecesario o productor de malinterpretaciones. Por ejemplo, si se desea representar la proporción de población masculina en un país conviene más usar una gráfica de pastel o circular que una gráfica de barras al compararla contra la población femenina; por un lado se puede apreciar dicha proporción, por el otro se aprecia cuál de las dos poblaciones es mayor.

Hay un punto que conviene remarcar: existe software que permite la construcción rápida y eficiente de gráficas a partir de bases de datos o hojas de cálculos, pero no importa cuán bonita, bien delineada, bien coloreada o bien presentada esté una gráfica, si no se han tomado en cuenta consideraciones de este tipo que tienen que ver más sobre el objetivo de estas herramientas y la Estadística: la transmisión eficiente de la información.

1.6.1 Gráfica circular
Cuando lo que se desea es resaltar las proporciones que representan algunos subconjuntos con respecto al total, es decir, cuando se está usando una escala categórica, conviene utilizar una gráfica llamada de pastel o circular.

Por ejemplo, para ilustrar la matrícula en licenciatura (en México) por áreas de conocimiento en el año de 1992 se puede usar algo así como sigue

1.6.2 Diagrama de puntos
Consideran una variable y una cantidad asociada a cada valor de la misma. Un tipo de diagrama de puntos se construye colocando en el eje horizontal los valores de la variable, y en el vertical las cantidades asociadas a éstos; para cada valor de la variable se dibuja un punto cuya altura corresponde a la magnitud de dicha cantidad.

1.6.3 Histograma y polígono de frecuencias
Para las distribuciones de frecuencias la representación gráfica más común es el histograma. Un ejemplo es el que se presenta a continuación y que representa el número de "visitas" que ha tenido este hipertexto de acuerdo a la hora de la visita.

Otra forma de representación de un uso menos común, y muy parecida a las gráficas de líneas, es el polígono de frecuencias. La diferencia fundamental entre ambas es que en el polígono de frecuencias se añaden dos clases con frecuencias cero: una antes de la primera clase con datos y otra después de la última. El resultado es que se "sujeta" la línea por ambos extremos al eje horizontal y lo que podría ser una línea separada del eje se convierte, junto con éste, en un polígono.

El siguiente ejemplo corresponde al porcentaje del PIB gastado en docencia e investigación durante el año de 1990 en cinco países

martes, 14 de octubre de 2008

VIDEOS UNIDAD 2

VIDEO 1

VIDEO2

VIDEO 3

VIDEO 4

VIDEO 5

UNIDAD 2 PROBABILIDAD

Si el único propósito del investigador es describir los resultados de un experimento concreto, los métodos analizados en los capítulos anteriores pueden considerarse suficientes. No obstante, si lo que se pretende es utilizar la información obtenida para extraer conclusiones generales sobre todos aquellos objetos del tipo de los que han sido estudiados, entonces estos métodos constituyen sólo el principio del análisis, y debe recurrirse a métodos de inferencia estadística, los cuales implican el uso inteligente de la teoría de la probabilidad.

Comenzamos este bloque interpretando la noción de probabilidad y la terminología subyacente a esta área de las matemáticas, ya que la probabilidad constituye por sí misma un concepto básico que refleja su relación con la faceta del mundo exterior que pretende estudiar: los fenómenos aleatorios, los cuales obedecen unas ciertas reglas de comportamiento. De alguna manera, el concepto de probabilidad, se relaciona o nos recuerda las propiedades de la frecuencia relativa.

A partir de ella, y junto con las definiciones de probabilidad condicionada y la de sucesos independientes, se deducen los teoremas fundamentales del Cálculo de Probabilidades.

Nos centraremos posteriormente en el eslabón que une la teoría de la probabilidad y la estadística aplicada: la noción de variable aleatoria, mostrando de esta manera, como puede emplearse la teoría de la probabilidad para sacar conclusiones precisas acerca de una población en base a una muestra extraída de ella, y que muchos de los estudios estadísticos son de hecho, estudio de las propiedades de una o más variables aleatorias.

Tal como hemos citado anteriormente, en las aplicaciones prácticas es importante poder describir los rasgos principales de una distribución, es decir, caracterizar los resultados del experimento aleatorio mediante unos parámetros. Llegamos así al estudio de las características asociadas a una variable aleatoria introduciendo los conceptos de esperanza y varianza matemática, relacionándolos con los conceptos de media y varianza de una variable estadística.

El cálculo de probabilidades nos suministra las reglas para el estudio de los experimentos aleatorios o de azar, constituyendo la base para la estadística inductiva o inferencial.

Para trabajar con el cálculo de probabilidades es necesario fijar previamente cierta terminología. Vamos a introducir parte de ella en las próximas líneas.

Experimentos y sucesos aleatorios

Diremos que un experimento es aleatorio si se verifican las siguientes condiciones:

1.

Se puede repetir indefinidamente, siempre en las mismas condiciones;

2.

Antes de realizarlo, no se puede predecir el resultado que se va a obtener;

3.

El resultado que se obtenga, e, pertenece a un conjunto conocido previamente de resultados posibles. A este conjunto, de resultados posibles, lo denominaremos espacio muestral y lo denotaremos normalmente mediante la letra E. Los elementos del espacio muestral se denominan sucesos elementales.

$\begin{displaymath}e_1,e_2\in E \qquad\Longrightarrow \qquad e_1,e_2 \mbox{ son sucesos elementales.} \end{displaymath}$

Cualquier subconjunto de E será denominado suceso aleatorio, y se denotará normalmente con las letras A, B,...

$\begin{displaymath}A,B\subset E \qquad\Longrightarrow \qquad A,B \mbox{ son sucesos aleatorios.} \end{displaymath}$

Obsérvese que los sucesos elementales son sucesos aleatorios compuestos por un sólo elemento. Por supuesto los sucesos aleatorios son más generales que los elementales, ya que son conjuntos que pueden contener no a uno sólo, sino a una infinidad de sucesos elementales --y también no contener ninguno.-- Sucesos aleatorios que aparecen con gran frecuencia en el cálculo de probabilidades son los siguientes:

4.4.0.0.0.1 Suceso seguro:

Es aquel que siempre se verifica después del experimento aleatorio, es decir, el mismo E

$\begin{displaymath}E\subset E \qquad\Longrightarrow \qquad E \mbox{ es el suceso seguro.} \end{displaymath}$

4.4.0.0.0.2 Suceso imposible:

Es aquel que nunca se verifica como resultado del experimento aleatorio. Como debe ser un subconjunto de E, la única posibilidad es que el suceso imposible sea el conjunto vacío

$\begin{displaymath}\emptyset \subset E \qquad\Longrightarrow \qquad \emptyset \mbox{ es el suceso imposible.} \end{displaymath}$

4.4.0.0.0.3 Suceso contrario a un suceso A:

También se denomina complementario de A y es el suceso que se verifica si, como resultado del experimento aleatorio, no se verifica A. Se acostumbra a denotar con el símbolo $\overline{A}$

$\begin{displaymath}A \subset E \qquad\Longrightarrow \qquad \underbrace{\overline{A}=\{e\in E\;:\; e\notin A\} }_{\mbox{suceso contrario de } A} \end{displaymath}$

**Figura:** Representación gráfica de un suceso aleatorio $A\subset E$ , y de su suceso contrario
$\includegraphics[angle=0, width=1\textwidth]{fig04-01.eps}$

4.4.0.1 Ejemplo

Si realizamos el experimento aleatorio de lanzar un dado al aire, tenemos:

$\begin{eqnarray}\html{eqn0}\mbox{Sucesos elementales } &\rightarrow& 1,2,3,4,5,6... ...= \overline{\{1,2,3\}} \\ \; \dots \end{array}\right. \nonumber \end{eqnarray}$

Operaciones básicas con sucesos aleatorios

Al ser los sucesos aleatorios nada más que subconjuntos de un conjunto E --espacio muestral--, podemos aplicarles las conocidas operaciones con conjuntos, como son la unión, intersección y diferencia:

4.6.0.0.0.1 Unión:

Dados dos sucesos aleatorios $A,B\subset E$ , se denomina suceso unión de A y B al conjunto formado por todos los sucesos elementales que pertenecen a A o bien que pertenecen a B (incluyendo los que están en ambos simultáneamente), es decir

$\begin{displaymath}A{\cup}B =\{e\in E\;:\; e\in A \;\mbox{ ó } \; e\in B\} \end{displaymath}$

Como ejemplo, tenemos que la unión de un suceso cualquiera con su complementario es el suceso seguro:

$\begin{eqnarray}\html{eqn7}A{\cup}\overline{A} &=&\{e\in E\;:\; e\in A \;\mbox{ ... ... A \;\mbox{ ó } \; e\notin {A}\} \nonumber \\ & =& E \nonumber \end{eqnarray}$

Volviendo al ejemplo del lanzamiento de un dado, si $A=\{1,2,3\}$ y $B=\{3,4\}$ , el suceso unión de A y B es:

$\begin{displaymath}\left. \begin{array}{c} A=\{1,2,3\} \\ \\ B=\{3,4\} \... ...\right\} \quad \Longrightarrow \quad A {\cup}B = \{1,2,3,4\} \end{displaymath}$

4.6.0.0.0.2 Intersección:

Dados dos sucesos aleatorios $A,B\subset E$ , se denomina suceso intersección de A y B al conjunto formado por todos los sucesos elementales que pertenecen a A y B a la vez, es decir,

$\begin{displaymath}A{\cap}B =\{e\in E\;:\; e\in A \;\mbox{ y además } \; e\in B\} \end{displaymath}$

A veces por comodidad se omite el símbolo ${\cap}$ para denotar la intersección de conjuntos, sobre todo cuando el número de conjuntos que intervienen en la expresión es grande. En particular podremos usar la siguiente notación como equivalente a la intersección:

$\begin{displaymath}A_1{\cap}A_2{\cap}A_3{\cap}\cdots {\cap}A_{n-1}{\cap}A_n\stackrel{def}{\equiv} A_1A_2A_3\cdots A_{n-1}A_n \end{displaymath}$

Un ejemplo de intersección es la de un suceso aleatorio cualquiera, $A\subset E$ , con su complementario, $\overline{A}\subset E$ , que es el suceso imposible:

$\begin{eqnarray}\html{eqn9}A{\cap}\overline{A} &=& \{e\in E\;:\; e\in A \;\mbox... ...demás } \; e\notin {A}\} \nonumber \\ & =& \emptyset \nonumber \end{eqnarray}$

Volviendo al ejemplo del dado,

$\begin{displaymath}\left. \begin{array}{c} A=\{1,2,3\} \\ \\ B=\{3,4\} \... ...rray} \right\} \quad \Longrightarrow \quad A {\cap}B = \{3\} \end{displaymath}$

4.6.0.0.0.3 Diferencia:

Dados dos sucesos aleatorios $A,B\subset E$ , se llama suceso diferencia de A y B, y se representa mediante $A{\setminus}B$ , o bien A-B, al suceso aleatorio formado por todos los sucesos elementales que pertenecen a A, pero no a B:

$\begin{displaymath}A{\setminus}B \equiv A - B =\{e\in E\;:\; e\in A \;\mbox{ y además } \; e\notin B\} = A{\cap}\overline{B} \end{displaymath}$

$\begin{displaymath}\left. \begin{array}{c} A=\{1,2,3\} \\ \\ B=\{3,4\} \... ...egin{array}{c}A - B = \{1,2\} \\ \\ B-A=\{4\} \end{array}\end{displaymath}$

Obsérvese que el suceso contrario de un suceso A, puede escribirse como la diferencia del suceso seguro menos éste, o sea,

$\begin{eqnarray}\html{eqn11}\overline{A}&=& \{e\in E\;:\; e\notin A\} \nonumber \\ &=& E {\setminus}A \nonumber \end{eqnarray}$

4.6.0.0.0.4 Diferencia simétrica:

Si $A,B\subset E$ , se denomina suceso diferencia simétrica de A y B, y se representa mediante $A\triangle B$ , al suceso aleatorio formado por todos los sucesos elementales que pertenecen a A y no a B, y los que están en By no en A:

$\begin{displaymath}A\triangle B = (A{\setminus}B){\cup}(B{\setminus}A) = (A{\cup}B){\setminus}(A{\cap}B) \end{displaymath}$

Así:

$\begin{displaymath}\left. \begin{array}{c} A=\{1,2,3\} \\ \\ B=\{3,4\} \... ...Longrightarrow \quad A \triangle B = \{1,2,4\} = B\triangle A \end{displaymath}$

**Figura:** Dados dos sucesos aleatorios $A,B\subset E$ se representa: en (a) $A {\cup }B$ ; en (b) $A{\cap }B$ ; en (c) A-B; en (d) $A\triangle B$ .
$\includegraphics[angle=0, width=0.8\textwidth]{fig04-02.eps}$

Hay ciertas propiedades que relacionan la unión, intersección y suceso contrario, que son conocidas bajo el nombre de Leyes de Morgan:

$\begin{displaymath}{ \mbox{\fbox{$\displaystyle \mbox{Leyes de Morgan} \quad \r... ...{A{\cap}B} = \overline{A}{\cup}\overline{B} \end{array}$ } } } \end{displaymath}$

Experimentos aleatorios y probabilidad

Se denominan experimentos deterministas aquellos que realizados de una misma forma y con las mismas condiciones iniciales, ofrecen siempre el mismo resultado. Como ejemplo, tenemos que un objeto de cualquier masa partiendo de un estado inicial de reposo, y dejado caer al vacío desde una torre, llega siempre al suelo con la misma velocidad: $v=\sqrt{2\,g\,h}$ ^4.1

Cuando en un experimento no se puede predecir el resultado final, hablamos de experimento aleatorio. Este es el caso cuando lanzamos un dado y observamos su resultado.

En los experimentos aleatorios se observa que cuando el número de experimentos aumenta, las frecuencias relativas con las que ocurre cierto suceso e, f_n(e),

$\begin{displaymath}f_n(e) = \frac{\mbox{número de ocurrencias de }e}{n} \end{displaymath}$

tiende a converger hacia cierta cantidad que denominamos probabilidad de e.

$\begin{displaymath}{{\cal P}_{rob}}[e] = \lim_{n\rightarrow \infty} f_n(e) \end{displaymath}$

4.8.0.1 Ejemplo

En la Figura 4.3 se presenta la evolución de la frecuencia relativa del número de caras obtenido en el lanzamiento de una moneda en 100 ocasiones (simulado por un ordenador). En principio la evolución de las frecuencias relativas es errática, pero a medida que el número de tiradas aumenta, tiende a lo que entendemos por probabilidad de cara.

**Figura:** Convergencia a 1/2 de la frecuencia relativa del número de caras obtenido en lanzamientos sucesivos de una moneda (simulación en ordenador).
$\includegraphics[angle=0, width=1\textwidth]{fig04-03.eps}$

Esta es la noción frecuentista de probabilidad. Sin embargo esta definición no se puede utilizar en la práctica pues:

se requiere realizar un número infinito de veces un experimento para calcular una probabilidad. Por ejemplo, lanzar infinitas veces un dado para ver que las frecuencias relativas de la aparición de cada cara convergen a 1/6. Esto puede suplirse en la práctica realizando el experimento un número suficientemente elevado de veces, hasta que tengamos la precisión que requieran nuestros cálculos. Sin embargo,
los experimentos aleatorios a veces no pueden ser realizados, como es el caso de calcular la probabilidad de morir jugando a la ruleta rusa con un revolver: no es posible (o no se debe) calcular esta probabilidad repitiendo el experimento un número indefinidamente alto de veces para aproximarla mediante la frecuencia relativa). Para ello existen métodos mucho más seguros, como los que mencionaremos a continuación.

Probabilidad de Laplace

Si un experimento cualquiera puede dar lugar a un número finito de resultados posibles, y no existe ninguna razón que privilegie unos resultados en contra de otros, se calcula la probabilidad de un suceso aleatorio A, según la regla de Laplace como el cociente entre el número de casos favorables a A, y el de todos los posibles resultados del experimento:

$\begin{displaymath}{{\cal P}}[A] = \frac{\mbox{número de casos favorables a $A$ }}{ \mbox{número de casos posibles}} \end{displaymath}$

4.8.2.1 Ejemplo

Calcular la probabilidad de que al lanzar un dado se obtenga un número impar.

Solución:

El espacio muestral es $E=\{1,2,3,4,5,6\}$ . Vamos a llamar A, al suceso consistente en que el resultado es impar, $A=\{1,3,5\}$ . Como no suponemos que ninguna de las caras ofrece una probabilidad de ocurrencia diferente a las demás, podemos aplicar la regla de Laplace para obtener que

$\begin{eqnarray}\html{eqn15}{{\cal P}}[A]&=&\frac{\mbox{número de casos favorabl... ...r \\ & & \nonumber \\ &=& \frac{3}{6} = \frac{1}{2} \nonumber \end{eqnarray}$

Definición axiomática de probabilidad

Para hacer una definición rigurosa de la probabilidad, necesitamos precisar ciertas leyes o axiomas que deba cumplir una función de probabilidad. Intuitivamente estos axiomas deberían implicar, entre otras, las siguientes cuestiones, que nos parecen lógicas en términos de lo que se puede esperar de una función de probabilidad:

La probabilidad sólo puede tomar valores comprendidos entre 0 y 1(no puede haber sucesos cuya probabilidad de ocurrir sea del $200\%$ ni del $-5\%$ ;
La probabilidad del suceso seguro es 1, es decir, el $100\%$ ;
La probabilidad del suceso imposible debe ser 0.
La probabilidad de la intersección de dos sucesos debe ser menor o igual que la probabilidad de cada uno de los sucesos por separado, es decir,

$\begin{displaymath}{{\cal P}_{rob}}[A{\cap}B]\leq {{\cal P}_{rob}}[A] \end{displaymath}$

$\begin{displaymath}{{\cal P}_{rob}}[A{\cap}B]\leq {{\cal P}_{rob}}[B] \end{displaymath}$
La probabilidad de la unión de sucesos debe ser mayor que la de cada uno de los sucesos por separado:

$\begin{displaymath}{{\cal P}_{rob}}[A{\cup}B]\geq {{\cal P}_{rob}}[A] \end{displaymath}$

$\begin{displaymath}{{\cal P}_{rob}}[A{\cup}B]\geq {{\cal P}_{rob}}[B] \end{displaymath}$

Más aún, si los sucesos son disjuntos (incompatibles) debe ocurrir que

$\begin{displaymath}A{\cap}B=\emptyset \qquad\Longrightarrow\qquad {{\cal P}_{rob}}[A{\cup}B] ={{\cal P}_{rob}}[A]+{{\cal P}_{rob}}[B] \end{displaymath}$
La probabilidad del suceso contrario de A, debe valer ${{\cal P}_{rob}}[\overline{A}]=1-{{\cal P}_{rob}}[A]$ . Esto en realidad puede deducirse del siguiente razonamiento:

$\begin{displaymath}A{\cap}\overline{A} = \emptyset \;\Rightarrow\; 1={{\cal P}_... ...tarrow \; {{\cal P}_{rob}}[\overline{A}]=1-{{\cal P}_{rob}}[A] \end{displaymath}$

En las últimas líneas hemos esbozado ciertas propiedades que debería cumplir una función que queramos llamar probabilidad. Hemos de tener en cuenta entonces que siguiendo esos puntos:

1.: La función de probabilidad debe calcularse sobre subconjuntos de E. No es estrictamente necesario que sean todos, pero si es necesario que si se puede calcular sobre un conjunto, lo pueda ser también sobre su complementario, y que si se puede calcular sobre dos conjuntos A y B, que también se pueda calcular sobre su unión y su intersección. Para ello introduciremos el concepto de $\sigma$ -álgebra de sucesos, que será una clase de subconjuntos de Esobre los que podamos aplicar las reglas de la probabilidad.
2.: Entre las leyes que debe cumplir una función de probabilidad y que hemos escrito antes, hemos observado que algunas son redundantes, ya que se pueden deducir de las demás. Con la definición axiomática de la probabilidad pretendemos dar el menor conjunto posible de estas reglas, para que las demás se deduzcan como una simple consecuencia de ellas.

Precisemos entonces los conceptos de $\sigma$ -álgebra de sucesos y de probabilidad.

4.8.4.1 Concepto de $\sigma$ -álgebra de sucesos

Sea $\cal A$ una clase no vacía formada por ciertos subconjuntos del espacio muestral E. Diremos que esta clase es un $\sigma$ -álgebra de sucesos si los sucesos complementarios de aquellos que están en $\cal A$ también están en $\cal A$ , así como sus uniones numerables (sean finitas o infinitas). Esto se puede enunciar como:

4.8.4.2 Concepto axiomático de probabilidad

Dado un espacio muestral E, y un $\sigma$ -álgebra de sucesos $\cal A$ sobre él, diremos que ${{\cal P}}$ es una probabilidad sobre $\cal A$ si las siguientes propiedades (axiomas) son verificadas:

Ax-1.

La probabilidad es una función definida sobre $\cal A$ y que sólo toma valores positivos comprendidos entre 0 y 1

$\begin{displaymath}\begin{array}{rcl} {{\cal P}}\;:\;{\cal A} & \longrightarrow ... ...n {\cal A} & \longmapsto & 0\leq{{\cal P}}[A]\leq 1 \end{array}\end{displaymath}$

Ax-2.

La probabilidad del suceso seguro es 1

$\begin{displaymath}{{\cal P}}[E]=1 \end{displaymath}$

Ax-3.

La probabilidad de la unión numerable de sucesos disjuntos es la suma de sus probabilidades (figura 4.4):

$\begin{displaymath}A_1,A_2,\dots, A_n,\dots\: \in {\cal A} \Longrightarrow {{\c... ...i=1}^{\infty} A_i\right] = \sum_{i=1}^{\infty} {{\cal P}}[A_i] \end{displaymath}$

**Figura:** El tercer axioma de probabilidad indica que si $A=A_1{\cup}A_2{\cup}\cdots$ con $A_i{\cap }A_j=\emptyset$ , entonces ${{\cal P}}[A]={{\cal P}}[A_1]+{{\cal P}}[A_2]+\cdots$
$\includegraphics[angle=0, width=0.5\textwidth]{fig04-04.eps}$

4.8.4.3 Observación

La introducción de la definición de $\sigma$ -álgebra puede parecer innecesaria a primera vista, ya que es una clase formada por subconjuntos de Eque verifican ciertas propiedades relativas a la complementariedad y a las uniones finitas que ya verifica de antemano el conjunto denominado partes de E, P(E), formado por todos los subconjuntos de E. Cuando el conjunto E de los posibles resultados de un experimento aleatorio sea finito, normalmente consideraremos como $\sigma$ -álgebra de sucesos al conjunto P(E). Esto ocurre cuando por ejemplo realizamos el experimento aleatorio de lanzar un dado:

$\begin{displaymath}E=\{1,2,3,4,5,6\} \end{displaymath}$

$\begin{displaymath}{\cal A} = {P}(E) = \{ \emptyset, E, \{1\}, \{2\},\dots, \{1,2\}, \{1,3\},\dots,\{1,2,3\},\dots\} \end{displaymath}$

Cuando E es infinito no numerable, la estructura del conjunto P(E) puede presentar propiedades extremadamente engorrosas. Entonces es más conveniente utilizar como $\sigma$ -álgebra un subconjunto más pequeño suyo, pero no tanto que no nos permita realizar las operaciones de complementariedad o de uniones finitas que se precisan en la definición de un $\sigma$ -álgebra. Por ejemplo, si realizamos el experimento aleatorio de esperar el tiempo que hace falta para que un átomo de carbono catorce, C¹⁴, se desintegre de modo natural, se tiene que

$\begin{displaymath}E=I\!\!R^+, \end{displaymath}$

sin embargo, el $\sigma$ -álgebra de sucesos que consideramos no es $P(I\!\!R^+)$ , que es una clase demasiado compleja para definir sobre sus elementos una medida de probabilidad. En su lugar consideramos el $\sigma$ -álgebra formada por todos los intervalos, abiertos o cerrados, y sus uniones finitas

$\begin{displaymath}{\cal A} = \{ \emptyset,I\!\!R^+,\,(2,3)\, ,\, (4,5]{\cup}[8,+\infty)\,,\dots\} \end{displaymath}$

lo que por supuesto incluye a los puntos de $I\!\!R^+$ , ya que por ejemplo

$\begin{displaymath}\{2\}=[2,2]. \end{displaymath}$

Este tipo de conjuntos (los intervalos) son los que nos interesan en la práctica, v.g. calcular la probabilidad de que el peso en kilogramos de un niño al nacer esté en el intervalo [2,4]. De esto modo vamos a realizar el siguiente convenio a lo largo del libro:

No haremos en general referencia al $\sigma$ -álgebra de sucesos más que cuando sea estrictamente necesario. De este modo cuando a partir de ahora se diga `` $A\subset E$ '', nos referiremos implícitamente a que $A\in {\cal{A}}$ , donde $\cal A$ es un $\sigma$ -álgebra de sucesos asociado a E y sobre el que se ha definido la función de probabilidad.
Si el espacio muestral es finito o infinito numerable, entenderemos que el $\sigma$ -álgebra de sucesos es por defecto P(E).
Si E es un conjunto infinito no numerable como $I\!\!R$ , $I\!\!R^+$ , o subconjuntos suyos en forma de intervalos, entenderemos que el $\sigma$ -álgebra asociada es la mencionada en el ejemplo anterior, es decir, la formada por todos los intervalos abiertos, cerrados o semi-abiertos (lo que incluye en particular a los puntos), y sus uniones finitas. De este modo podremos calcular probabilidades como las siguientes:

$\begin{displaymath}{{\cal P}}[(2,3)]\;,\; {{\cal P}}[(2,5]{\cup}[4,7)]\;,\;{{\cal P}}[\{3\}]\;,\dots \end{displaymath}$
Probabilidad condicionada e independencia de sucesos

Sea $B\subset E$ un suceso aleatorio de probabilidad no nula, 0$" align="middle" border="0" width="67" height="31">. Para cualquier otro suceso $A\subset E$ , llamamos probabilidad condicionada de A a B a la cantidad que representamos mediante ${{\cal P}}[A_{\mid B}]$ o bien ${{\cal P}}_B[A]$ y que se calcula como:

$\begin{displaymath}{ \mbox{\fbox{$\displaystyle {{\cal P}}[A_{\mid B}] = \frac{{{\cal P}}[A{\cap}B]}{{{\cal P}}[B]} $ } } } \end{displaymath}$

4.10.0.1 Ejemplo
Se lanza un dado al aire ¿Cuál es la probabilidad de que salga el número 4? Si sabemos que el resultado ha sido un número par, ¿se ha modificado esta probabilidad?

Solución:
El espacio muestral que corresponde a este experimento es

$\begin{displaymath}E=\{1,2,3,4,5,6\} \end{displaymath}$

y se ha de calcular la probabilidad del suceso $A=\{4\}$ . Si el dado no está trucado, todos los números tienen la misma probabilidad de salir, y siguiendo la definición de probabilidad de Laplace,

$\begin{eqnarray}\html{eqn15}{{\cal P}}[A]&=&\frac{\mbox{ casos favorables }}{\mb... ...de elementos en } \{1,2,3,4,5,6\} } \nonumber \\ &=& \frac{1}{6} \end{eqnarray}$

Obsérvese que para calcular la probabilidad de A según la definición de Laplace hemos tenido que suponer previamente que todos los elementos del espacio muestral tienen la misma probabilidad de salir, es decir:

$\begin{displaymath}{{\cal P}}[1]={{\cal P}}[2]={{\cal P}}[3]={{\cal P}}[4]={{\cal P}}[5]={{\cal P}}[6] \end{displaymath}$

Por otro lado, si ha salido un número par, de nuevo por la definición de probabilidad de Laplace tendríamos

$\begin{eqnarray}\html{eqn16}{{\cal P}}_{\mbox{par}}[4] &=&\frac{\mbox{ casos fav... ...elementos en }\{2,4,6\} } \nonumber \\ &=& \frac{1}{3} \nonumber \end{eqnarray}$

Esta misma probabilidad se podría haber calculado siguiendo la definición de la probabilidad condicionada, ya que si escribimos

$\begin{eqnarray}\html{eqn16}A=\{4\} \qquad&\Rightarrow&\qquad {{\cal P}}[A]=\fra... ...4\} \qquad&\Rightarrow&\qquad {{\cal P}}[A{\cap}B] = \frac{1}{6} \end{eqnarray}$

y entonces

$\begin{displaymath}{{\cal P}}_{\mbox{par}}[4] = {{\cal P}}_B[A] = {{\cal P}}[A_{... ...al P}}[A{\cap}B]}{{{\cal P}}[B]} =\frac{1/6}{1/2}= \frac{1}{3} \end{displaymath}$

que por supuesto coincide con el mismo valor que calculamos usando la definición de probabilidad de Laplace.

4.10.0.2 Observación
Obsérvese que según la definición de probabilidad condicionada, se puede escribir la probabilidad de la intersección de dos sucesos de probabilidad no nula como

$\begin{displaymath}{{\cal P}}[A{\cap}B] = \left\{ \begin{array}{l} {{\cal P}}[A... ... {{\cal P}}[B]\cdot {{\cal P}}[A_{\mid B}] \end{array}\right. \end{displaymath}$

O sea, la probabilidad de la intersección de dos sucesos, es la probabilidad de uno cualquiera de ellos, multiplicada por la probabilidad del segundo sabiendo que ha ocurrido el primero.
Si entre dos sucesos no existe ninguna relación cabe esperar que la expresión ``sabiendo que'' no aporte ninguna información. De este modo introducimos el concepto de independencia de dos sucesos A y B como:

$\begin{displaymath}{ \mbox{\fbox{$\displaystyle A \mbox { es independiente de B... ...{\cal P}}[A{\cap}B] = {{\cal P}}[A]\cdot {{\cal P}}[B] $ } } } \end{displaymath}$

Esta relación puede ser escrita de modo equivalente, cuando dos sucesos son de probabilidad no nula como

$\begin{displaymath}{ \mbox{\fbox{$\displaystyle A \mbox { es independiente de B... ...cal P}}[B] = {{\cal P}}[B_{\mid A}] \end{array}\right. $ } } } \end{displaymath}$

Ciertos teoremas fundamentales del cálculo de probabilidades

Hay algunos resultados importantes del cálculo de probabilidades que son conocidos bajo los nombres de teorema de la probabilidad compuesta, teorema de la probabilidad total y teorema de Bayes. Veamos cuales son estos teoremas, pero previamente vamos a enunciar a modo de recopilación, una serie de resultados elementales cuya demostración se deja como ejercicio para el lector (algunos ya han sido demostrados anteriormente):

4.12.0.1 Proposición
Sean $A,B\subset E$ no necesariamente disjuntos. Se verifican entonces las siguientes propiedades:

1.
Probabilidad de la unión de sucesos:
$\begin{displaymath}{ \mbox{\fbox{$\displaystyle {{\cal P}}[A{\cup}B] = {{\cal P}}[A] +{{\cal P}}[B] -{{\cal P}}[A{\cap}B] $ } } } \end{displaymath}$

2.
Probabilidad de la intersección de sucesos:
$\begin{displaymath}{ \mbox{\fbox{$\displaystyle {{\cal P}}[A{\cap}B] = \left\{... ... P}}[B]\cdot {{\cal P}}[A_{\mid B}] \end{array}\right. $ } } } \end{displaymath}$

3.
Probabilidad del suceso contrario:
$\begin{displaymath}{ \mbox{\fbox{$\displaystyle {{\cal P}}[\overline{A}] = 1-{{\cal P}}[A] $ } } } \end{displaymath}$

4.
Probabilidad condicionada del suceso contrario:
$\begin{displaymath}{ \mbox{\fbox{$\displaystyle {{\cal P}}[\overline{A}_{\mid B}] = 1-{{\cal P}}[A_{\mid B}] $ } } } \end{displaymath}$

4.12.0.2 Ejemplo

En una universidad el 50% de los alumnos habla inglés, el 20% francés y el 5% los dos idiomas ¿Cuál es la probabilidad de encontrar alumnos que hablen alguna lengua extranjera?

Solución:
Sea A el suceso hablar inglés: ${{\cal P}}[A]=0,5$ .
Sea B el suceso hablar francés: ${{\cal P}}[B]=0,2$ .
El suceso hablar francés e inglés es $A{\cap }B$ : ${{\cal P}}[A{\cap}B] =0,05$ .
Así:

$\begin{displaymath}{{\cal P}}[A{\cup}B] = {{\cal P}}[A] + {{\cal P}}[B] - {{\cal P}}[A{\cap}B] = 0,5 + 0,2 - 0,05 = 0,65 \end{displaymath}$

4.12.0.3 Ejemplo
En una estación de esquí, para navidad-es, la experiencia indica que hay un tiempo soleado sólo el $15\%$ de los días. Por otro lado, se ha calculado que cuando un día es soleado, hay una probabilidad del 20% de que el día posterior también lo sea. Calcular la probabilidad de que, en navidades, un fin de semana completo sea soleado.

Solución: Llamemos S al suceso sábado soleado y D al suceso domingo soleado. La única manera en que un fin de semana completo sea soleado es que lo sea en primer lugar el sábado, y que el domingo posterior también. Es decir:

$\begin{displaymath}{{\cal P}}[S{\cap}D] = {{\cal P}}[S]\cdot {{\cal P}}[D_{\mid S}] = 0,15\times 0,2 = 0,03 \end{displaymath}$

Luego sólo el $3\%$ de los fines de semana son soleados.

El primero de los teoremas que vamos a enunciar es una generalización de la probabilidad de la intersección de dos sucesos, a la de un número cualquiera pero finito de ellos:

4.12.0.4 Teorema (Probabilidad compuesta)
Sea $A_1,A_2,\dots,A_n\subset E$ una colección de sucesos aleatorios. Entonces:

$\begin{displaymath}{{\cal P}}[A_1 A_2 \cdots A_n] = {{\cal P}}[A_1]\cdot {{\cal... ... A_1 A_2}]\cdots {{\cal P}}[{A_n}{\mid A_1 A_2\cdots A_{n-1}}] \end{displaymath}$

Demostración

$\begin{eqnarray}\html{eqn25}{{\cal P}}[A_1 A_2 \cdots A_n] &=& {{\cal P}}[ (A_1A... ...}]\cdots {{\cal P}}[{A_n}{\mid A_1 A_2\cdots A_{n-1}}] \nonumber \end{eqnarray}$

Los teoremas que restan nos dicen como calcular las probabilidades de sucesos cuando tenemos que el suceso seguro está descompuesto en una serie de sucesos incompatibles de los que conocemos su probabilidad. Para ello necesitamos introducir un nuevo concepto: Se dice que la colección $A_1,A_2,\dots,A_n\subset E$ es un sistema exhaustivo y excluyente de sucesos si se verifican las relaciones (véase la figura 4.5):

Figura: A₁,A₂,A₃,A₄ forman un sistema exhaustivo y excluyente se sucesos.

$\includegraphics[angle=-90, width=0.5\textwidth]{fig04-05.eps}$

$\begin{displaymath}\bigcup_{i=1}^n \, A_i = E \end{displaymath}$

$\begin{displaymath}A_i {\cap}A_j= \emptyset \qquad \forall\, i\neq j \end{displaymath}$

4.12.0.5 Teorema (Probabilidad total)
Sea $A_1,A_2,\dots,A_n\subset E$ un sistema exhaustivo y excluyente de sucesos. Entonces
$\begin{displaymath}{ \mbox{\fbox{$\displaystyle \forall \, B\subset E,\;\Righta... ...{i=1}^n \,{{\cal P}}[B_{\mid A_i}]\cdot{{\cal P}}[A_i] $ } } } \end{displaymath}$

Demostración

Obsérvese la Figura 4.6. De ahí realizamos las siguientes operaciones:

Figura: Si A₁,A₂,A₃,A₄ forma un sistema exhaustivo y excluyente se sucesos, podemos calcular la probabilidad de B a partir de las cantidades ${{\cal P}}[B{\cap }A_i]$ , o lo que es lo mismo, ${{\cal P}}[B_{\mid A_i}]\cdot {{\cal P}}[A_i]$

$\includegraphics[angle=0, width=0.5\textwidth]{fig04-06.eps}$

$\begin{eqnarray}\html{eqn27}{{\cal P}}[B] &=& {{\cal P}}[B{\cap}E] \nonumber \\ ... ...{i=1}^n \,{{\cal P}}[B_{\mid A_i}]\cdot{{\cal P}}[A_i] \nonumber \end{eqnarray}$

4.12.0.6 Ejemplo
Se tienen dos urnas, y cada una de ellas contiene un número diferente de bolas blancas y rojas:

Primera urna, U₁: 3 bolas blancas y 2 rojas;

Segunda urna, U₂: 4 bolas blancas y 2 rojas.

Se realiza el siguiente experimento aleatorio:

Se tira una moneda al aire y si sale cara se elige una bola de la primera urna, y si sale cruz de la segunda.

¿Cuál es la probabilidad de que salga una bola blanca?

Solución: La situación que tenemos puede ser esquematizada como

$3 \; B$

$2\; R$

U₁

${{\cal P}}[U_1] = 1/2$

${{\cal P}}[B_{\mid U_1}] = 3/5$

$4 \; B$

$2\; R$

U₂

${{\cal P}}[U_2] = 1/2$

${{\cal P}}[B_{\mid U_2}] = 4/6$

Como U₁ y U₂ forman un sistema incompatible y excluyente de sucesos (la bola resultado debe provenir de una de esas dos urnas y de una sólo de ellas), el teorema de la probabilidad total nos permite afirmar entonces que

$\begin{displaymath}{{\cal P}}[B]= {{\cal P}}[B_{\mid U_1}]\cdot {{\cal P}}[U_1] ... ...ot \frac{1}{2} + \frac{4}{6}\cdot\frac {1}{2} = \frac{19}{30} \end{displaymath}$

4.12.0.7 Teorema (Bayes)
Sea $A_1,A_2,\dots,A_n\subset E$ un sistema exhaustivo y excluyente de sucesos. Sea $B\subset E$ un suceso del que conocemos todas las cantidades ${{\cal P}}[B_{\mid A_i}]$ , $i=1, \dots,n$ , a las que denominamos verosimilitudes. entonces se verifica:
$\begin{displaymath}{ \mbox{\fbox{$\displaystyle \forall\, j=1,\dots,n,\qquad {{... ...i=1}^n {{\cal P}}[B_{\mid A_i}]\cdot {{\cal P}}[A_i] } $ } } } \end{displaymath}$

Demostración
Es una consecuencia de la definición de probabilidad condicionada en términos de la intersección, y del teorema de la probabilidad total:
$\begin{eqnarray}\html{eqn29}{{\cal P}}[{A_j}_{\mid B}] &=& \frac{{{\cal P}}[A_j ... ...i=1}^n {{\cal P}}[B_{\mid A_i}]\cdot {{\cal P}}[A_i] } \nonumber \end{eqnarray}$

4.12.0.8 Ejemplo
Se tienen tres urnas. Cada una de ellas contiene un número diferente de bolas blancas y rojas:
Primera urna, U₁: 3 bolas blancas y 2 rojas;
Segunda urna, U₂: 4 bolas blancas y 2 rojas;
Tercera urna, U₃: 3 bolas rojas.
Se realiza el siguiente experimento aleatorio:

Alguien elije al azar y con la misma probabilidad una de las tres urnas, y saca una bola.

Si el resultado del experimento es que ha salido una bola blanca, ¿cuál es la probabilidad de que provenga de la primera urna? Calcular lo mismo para las otras dos urnas.

Solución:
Vamos a representar en un esquema los datos de que disponemos:

$3 \; B$

$2\; R$

U₁

${{\cal P}}[U_1] = 1/3$

${{\cal P}}[B_{\mid U_1}] = 3/5$

$4 \; B$

$2\; R$

U₂

${{\cal P}}[U_2] = 1/3$

${{\cal P}}[B_{\mid U_2}] = 4/6$

$0 \; B$

$3\; R$

U₃

${{\cal P}}[U_3] = 1/3$

${{\cal P}}[B_{\mid U_3}] = 0$

En este caso U₁, U₂ y U₃ forman un sistema incompatible y excluyente de sucesos (la bola resultado debe provenir de una de esas tres urnas y de una sólo de ellas), por tanto es posible aplicar el teorema de Bayes:
$\begin{eqnarray}\html{eqn29}{{\cal P}}[{U_1}_{\mid B}] &=& \frac{ \displaystyle ... ...}{3}} \nonumber \\ & & \nonumber \\ &=& \frac{9}{19} \nonumber \end{eqnarray}$

Con respecto a las demás urnas hacemos lo mismo:
$\begin{eqnarray}\html{eqn29}{{\cal P}}[{U_2}_{\mid B}] &=& \frac{ \displaystyle ... ...{3}} \nonumber \\ & & \nonumber \\ &=& \frac{10}{19} \nonumber \end{eqnarray}$

$\begin{eqnarray}\html{eqn29}{{\cal P}}[{U_3}_{\mid B}] &=& \frac{ \displaystyle ... ...dot \frac{1}{3}} \nonumber \\ & & \nonumber \\ &=& 0 \nonumber \end{eqnarray}$

4.12.0.9 Observación
Obsérvese que en el ejemplo anterior, antes de realizar el experimento aleatorio de extraer una bola para ver su resultado, teníamos que la probabilidad de elegir una urna i cualquiera es ${{\cal P}}[U_i]$ . Estas probabilidades se denominan probabilidades a priori. Sin embargo, después de realizar el experimento, y observar que el resultado del mismo ha sido la extracción de una bola blanca, las probabilidades de cada urna han cambiado a ${{\cal P}}[{U_i}_{\mid B}]$ . Estas cantidades se denominan probabilidades a posteriori. Vamos a representar en una tabla la diferencia entre ambas:

a priori a posteriori

${{\cal P}}[U_1] = 1/3$ ${{\cal P}}[{U_1}_{\mid B}]=9/19$

${{\cal P}}[U_2] = 1/3$ ${{\cal P}}[{U_2}_{\mid B}]=10/19$

${{\cal P}}[U_3] = 1/3$ ${{\cal P}}[{U_3}_{\mid B}]=0$

1 1

$\;\; \Longrightarrow \;\;$

Las probabilidades a priori cambian de tal modo de las a posteriori que una vez observado el resultado del experimento aleatorio, se puede afirmar con certeza que no fue elegida la tercera urna.

Esta fenómeno tiene aplicaciones fundamentales en Ciencia: Cuando se tienen dos teorías científicas diferentes, T₁ y T₂, que pretenden explicar cierto fenómeno, y a las que asociamos unas probabilidades a priori de ser ciertas,

$\begin{displaymath}{{\cal P}}[T_1]\;,\;{{\cal P}}[T_2] \end{displaymath}$

podemos llevar a cabo la experimentación que se considere más conveniente, para una vez obtenido el cuerpo de evidencia, B, calcular como se modifican las probabilidades de verosimilitud de cada teoría mediante el teorema de Bayes:

$\begin{displaymath}{{\cal P}}[{T_1}_{\mid B}]\;,\;{{\cal P}}[{T_2}_{\mid B}] \end{displaymath}$

Así la experimentación puede hacer que una teoría sea descartada si ${{\cal P}}[{T_i}_{\mid B}]\approx 0$ o reforzada si ${{\cal P}}[{T_i}_{\mid B}]\approx 1$ . Una aplicación básica de esta técnica la tenemos en Medicina para decidir si un paciente padece cierta enfermedad o no, en función de los resultados de un test diagnóstico.

a priori	a posteriori
${{\cal P}}[U_1] = 1/3$	${{\cal P}}[{U_1}_{\mid B}]=9/19$
${{\cal P}}[U_2] = 1/3$	${{\cal P}}[{U_2}_{\mid B}]=10/19$
${{\cal P}}[U_3] = 1/3$	${{\cal P}}[{U_3}_{\mid B}]=0$
1	1