domingo, 7 de diciembre de 2008

jueves, 4 de diciembre de 2008

unidad IV

4. Estadística inferencial
4.1 Inferencia estadística
Se basa en las conclusiones a la que se llega por la ciencia experimental basándose en información incompleta (de una parte de la población). La inferencia estadística es una parte de la Estadística que permite generar modelos probabilísticos a partir de un conjunto de observaciones. Del conjunto se observaciones que van a ser analizadas, se eligen aleatoriamente sólo unas cuantas, que es lo que se denomina muestra, y a partir de dicha muestra se estiman los parámetros del modelo, y se contrastan las hipótesis establecidas, con el objeto de determinar si el modelo probabilístico es el adecuado al problema real que se ha planteado. La utilidad de la inferencia estadística, consiste en que si el modelo se considera adecuado, puede usarse para la toma de decisiones o para la realización de las previsiones convenientes. En el desarrollo del tema se utilizarán variables aleatorias, que son variables determinadas por el azar. La inferencia estadística parte de un conjunto de observaciones de una variable, y a partir de estos datos “infiere” o genera un modelo probabilístico; por tanto es la consecuencia de la investigación empírica, caundo se está llevando a cabo, y como consecuencia de la ciencia teórica, cuando se están generando estimadores, o métodos, con tal o cual característica para casos particulares. La inferencia estadística es, en consecuencia, un planteamiento inductivo………………. •Es la parte de la estadística matemática que se encarga del estudio de los métodos para la obtención del modelo de probabilidad que sigue una variable aleatoria de una determinada población, a través de una muestra obtenida de la misma…………… •proceso de análisis que consiste en inferir las propiedades de una población con base en la caracterización de la muestra.

4.4 Estimación puntual
El material sobre teoría de la probabilidad constituye la base de la inferencia estadística, rama de la estadística que tiene que ver con el uso de los conceptos de la probabilidad para tratar con la toma de decisiones en condiciones de incertidumbre. La inferencia estadística está basada en la estimación y en la prueba de hipótesis.

Tipos de estimación.

Podemos hacer dos tipos de estimaciones concernientes a una población:

* Una estimación puntual: es sólo u número que se utiliza para estimar un parámetro de población desconocido. Una estimación puntual a menudo resulta insuficiente, debido a que sólo tiene dos opciones: es correcta o está equivocada. Una estimación puntual es mucho más útil si viene acompañada por una estimación del error que podría estar implicado.

* Una estimación de intervalo: es un intervalo de valores que se utiliza para estimar un parámetro de población. Esta estimación indica el error de dos maneras: por la extensión del intervalo y por la probabilidad de obtener el verdadero parámetro de la población que se encuentra dentro del intervalo.

Estimador y estimaciones.

Un estimador es una estadística de muestra utilizada para estimar un parámetro de población. La media de la muestra puede ser un estimador de la media de la población, y la porción de la muestra se puede utilizar como estimador de la porción de la población. También podemos utilizar el alcance de la muestra como un estimador del alcance de la población.

Cuando hemos observado un valor numérico específico de nuestro estimador, nos referimos a ese valor como una estimación. Una estimación es un valor específico observado de una estadística. Hacemos una estimación si tomamos una muestra y calculamos el valor que toma nuestro estimador en esa muestra.

Criterios para seleccionar un buen estimador.

1. Imparcialidad. Se refiere al hecho de que una media de muestra es un estimador no sesgado de una media de población, porque la media de distribución de muestreo de las medias de muestras tomadas de la misma población es igual a la media de la población misma. Podemos decir que una estadística es un estimador imparcial (o no sesgado) si, en promedio, tiende a tomar valores que están por encima del parámetro de la población y la misma extensión con la que tiende a asumir valores por debajo del parámetro de población que se está estimando.

2. Eficiencia. Se refiere al tamaño del error estándar de la estadística. Si comparamos dos estadísticas de una muestra del mismo tamaño y tratamos de decidir cuál de ellas es un estimador más eficiente, escogeríamos la estadística que tuviera el menor error estándar o la menor desviación estándar de la distribución de muestreo. Tiene sentido pensar que un estimador con un error estándar menor (con menos desviación) tendrá una mayor oportunidad de producir una estimación más cercana al parámetro de población que se está considerando.

3. Coherencia. Una estadística es un estimador coherente de un parámetro de población si al aumentar el tamaño de la muestra, se tiene casi la certeza de que el valor de la estadística se aproxima bastante al valor del parámetro de la población. Si un estimador es coherente, se vuelve más confiable si tenemos tamaños de muestras más grandes.

4. Suficiencia. Un estimador es suficiente si utiliza una cantidad de la información contenida en la muestra que ningún otro estimador podría extraer información adicional de la muestra sobre el parámetro de la población.

Una estadística de muestra dada no siempre es el mejor estimador de su parámetro de población correspondiente. Considere una población distribuida simétricamente, en la que los valores de la mediana y de la media coinciden. En este caso, la media de la muestra sería un estimador imparcial de la mediana de la población debido a que asumiría valores que en promedio serían iguales a la mediana de la población. También, la media de la muestra sería un estimador consistente de la mediana de la población, puesto que, conforme aumenta el tamaño de la muestra, el valor de la media de la muestra tenderá a acercarse bastante a la mediana de la población. Y la media de la muestra sería un estimador más eficiente de la mediana de la población que la mediana misma, ya que en muestras grandes, la media de la muestra tiene una desviación estándar menor que la mediana de la muestra.

Al mismo tiempo, la mediana de la muestra de una distribución distribuida simétricamente sería un estimador imparcial y consistente de la media de la población, pero no el más eficiente estimador, porque en muestras grandes su error estándar es mayor que el de la media de la muestra.

Estimaciones puntuales.

La media de la muestra es el mejor estimador de la media de la población. Es imparcial, coherente, el estimador más eficiente y, siempre y cuando la muestra sea la suficientemente grande, su distribución de muestreo puede ser aproximada por la distribución normal.

Si conocemos la distribución de muestreo de la media, podemos llegar a conclusiones con respecto a cualquier estimación que podamos hacer a partir de la información de muestreo.

Estimación puntual de la varianza y de la desviación estándar de la población.

El estimador utilizado con más frecuencia para hacer la estimación de la desviación estándar de la población, es la desviación estándar de la muestra:

s2 =  (x - x)2 / (n - 1)

Al utilizar un divisor n - 1, nos da un estimador imparcial de  2.

Estimación puntual de la porción de la población.

La porción de unidades de una población dada que posee una característica particular se representa mediante el símbolo p. Si conocemos la porción de unidades de una muestra que tiene la misma característica, podemos utilizar esa p como estimador de p. Se puede mostrar que p tiene todas las características deseables: es imparcial (no sesgado), coherente, eficiente y suficiente.

SUGERENCIA:

Incluso cuando estamos utilizando el mejor estimador de un parámetro de población, aceptamos que puede estar implicado algo de error. Afirmamos que la estimación puntual y la medida de la varianza proporcionan información útil para las decisiones.

Estimaciones de intervalo.

El propósito de tomar muestras es para conocer más acerca de una población. Podemos calcular esa información a partir de las muestras como estimaciones puntuales, o como estimaciones de intervalo. Una estimación de intervalo describe un intervalo de valores dentro del cual es posible que esté un parámetro de población.

Si seleccionamos y representamos gráficamente un gran número de medias de muestras de una población, la distribución de tales medias se aproximará a la curva normal. Además, la media de las medias de muestra será la misma media de la población.

Probabilidad de que el verdadero parámetro de la población esté dentro de la estimación de intervalo.

En lo que concierne a cualquier intervalo particular, éste contiene a la media de la población o no la contiene, pues la media de la población es un parámetro fijo, y no varía.

Cuando las organizaciones informan la precisión de encuestas de opinión como "estos resultados son precisos en más menos tres puntos", por lo general no establecen el nivel de confianza que están utilizando para hacer la estimación de intervalo. Una afirmación más completa tendría la forma. "existe un 95% de probabilidad de que la verdadera opinión de la población caiga dentro del intervalo comprendido entre ..... y ........"

Estimaciones de intervalo e intervalos de confianza.

La probabilidad que asociamos con una estimación de intervalo se conoce como nivel de confianza. Esta probabilidad indica qué tanta confianza tenemos de que la estimación de intervalo incluya al parámetro de población. Una probabilidad más alta indica más confianza.

El intervalo de confianza es el alcance de la estimación que estamos haciendo. Expresaremos el intervalo de confianza en términos de errores estándar, más que con valores numéricos. Los límites de confianza son los límites superior e inferior del intervalo de confianza

Relación entre el nivel de confianza e intervalo de confianza.

Podría pensarse que deberíamos utilizar un nivel alto de confianza en todos los problemas sobre estimaciones. En la práctica, sin embargo, altos niveles de confianza producen intervalos de confianza grandes, y éstos no son precisos, dan estimaciones bastante imprecisas.

Uso del muestreo y de la estimación de intervalos de confianza.

A menudo resulta difícil o caro tomar más de una muestra de una población. Basados en solamente una muestra estimamos el parámetro de población.

El intervalo de confianza quiere decir que si seleccionamos muchas muestras aleatorias del mismo tamaño y si calculamos un intervalo de confianza para cada una de las muestras, tendremos un porcentaje de confianza determino de que en todos los casos la media de la población caerá dentro del intervalo.

Por otro lado, existe un cierto equilibrio entre la certidumbre de la estimación y el ancho de un intervalo de confianza.

SUGERENCIA:

Cuando tenemos muestras grandes, utilizamos el Teorema del Límite Central, nuestro conocimiento de la curva normal y nuestra habilidad para hacer correcciones para poblaciones finitas.

Determinación del tamaño de la muestra.

Siempre que tomamos una muestra, perdemos algo de información útil con respecto a la población. El error de muestre se puede controlar si seleccionamos una muestra cuyo tamaño sea el adecuado. En general, cuanta más precisión se quiera, más grande será el tamaño de la muestra necesaria.

Para calcular el tamaño de muestra, podemos utilizar la fórmula del error estándar de la media:

 x =  / n

Si no conocemos la desviación estándar de la población, podemos utilizar el alcance de la población para obtener una estimación burda pero manejable de la desviación estándar. Sabemos que más menos tres desviaciones estándar incluyen 99,7% del área total bajo la curva normal, esto es, más tres desviaciones estándar y menos tres desviaciones estándar de la media incluyen casi toda el área de la distribución.

SUGERENCIAS:

* Un estimador es una variable aleatoria, y por lo tanto es posible asociarle probabilidades, lo que resulta de suma utilidad como herramienta auxiliar para la toma de decisiones bajo condiciones de incertidumbre.

* Una estimación, en cambio, es un valor particular del estimador, calculado en base a una muestra dada. Por tanto, constituye un valor fijo (no aleatorio) que caracteriza a esa muestra en particular, pero que se usa para inferir el valor de un parámetro desconocido.

* Entre un estimador puntual y uno por intervalos, es preferible usar este último porque tiene asociado una probabilidad que contempla el error que se puede cometer en la aproximación.

Conceptos.

* Estimación: valor específico de un estimador, calculado en base a una muestra dada.

* Estimación de intervalo: intervalo de valores utilizado para estimar un parámetro de población desconocido.

* Estimación de parámetros: Aproximación del valor de parámetros poblacionales desconocidos mediante el empleo de estadísticos muestrales.

* Estimación puntual: un solo número que se utiliza para estimar un parámetro de población desconocido.

* Estimador: estadística de muestra utilizada para estimar un parámetro de población. Conceptualmente es una variable aleatoria.

* Estimador coherente: estimador que produce valores que se acercan más al parámetro de la población conforme aumenta el tamaño de la muestra.

* Estimador eficiente: estimador con un menor error estándar que algún otro estimador del parámetro de la población, esto es, cuanto más pequeño sea el error estándar de un estimador, más eficiente será ese estimador.

* Estimador imparcial: estimador de un parámetro de población que, en promedio, asume valores por encima del parámetro de la población con la misma frecuencia, y al mismo grado, con que tiende a tomarlos por debajo del parámetro de la población.

* Estimador suficiente: estimador que utiliza toda la información disponible en los datos correspondientes a un parámetro.

* Intervalo de confianza: intervalo de valores que tiene designada una probabilidad de que incluya el valor real del parámetro de la población.

* Límites de confianza: límites inferior y superior de un intervalo de confianza.

* Nivel de confianza: probabilidad que los estadísticos asocian con una estimación de intervalo de un parámetro de población, ésta indica qué tan seguros están de que la estimación de intervalo incluirá el parámetro de la población. Probabilidad, designada de antemano, de que un intervalo de confianza incluya al valor del parámetro desconocido.

* Propiedades de un buen estimador: características deseables de un estimador, para lograr la mejor aproximación posible de un parámetro poblacional.
4.7 Contraste de hipótesis unilateral y bilateral
PRUEBAS DE HIPÓTESIS.

Una hipótesis es una afirmación acerca de algo. En estadística, puede ser una suposición acerca del valor de un parámetro desconocido.

Pasos en la prueba de hipótesis:

1. Definir la hipótesis nula: suponer una hipótesis acerca de una población.

2. Formular una hipótesis alternativa: es una contra-hipótesis.

3. Definir un criterio de decisión para rechazar o no la hipótesis nula.

4. Recabar datos de la muestra.

5. Calcular una estadística de muestra.

6. Utilizar la estadística de muestra para evaluar la hipótesis.

Generalmente, se habla de "no rechazar" una hipótesis en lugar de "aceptar", ya que las pruebas no son concluyentes.

Introducción.

La prueba de hipótesis comienza con una suposición, llamada hipótesis, que hacemos con respecto a un parámetro de población. Después recolectamos datos de muestra, producimos estadísticas de muestra y usamos esta información para decidir qué tan probable es que sea correcto nuestro parámetro de población acerca del cual hicimos la hipótesis.

Debemos establecer el valor supuesto o hipotetizado del parámetro de población antes de comenzar a tomar la muestra. La suposición que deseamos probar se conoce como hipótesis nula, y se simboliza H0.

Siempre que rechazamos la hipótesis, la conclusión que sí aceptamos se llama hipótesis alternativa y se simboliza H1.

Interpretación del nivel de significancia.

El propósito de la prueba de hipótesis no es cuestionar el valor calculado de la estadística de muestra, sino hacer un juicio respecto a la diferencia entre esa estadística de muestra y un parámetro de población hipotetizado. El siguiente paso después de establecer la hipótesis nula alternativa consiste en decidir qué criterio utilizar para decidir si aceptar o rechazar la hipótesis nula.

Si suponemos que la hipótesis es correcta, entonces el nivel de significancia indicará el porcentaje de medias de muestra que está fuera de ciertos límites.

Siempre que afirmemos que aceptamos la hipótesis nula, en realidad lo que queremos decir es que no hay suficiente evidencia estadística para rechazarla. El empleo del término aceptar, en lugar de rechazar, se ha vuelto de uso común. Significa simplemente que cuando los datos de la muestra n hacen que rechacemos una hipótesis nula, nos comportamos como si fuera cierta.

Selección del nivel de significancia.

Nuestra elección del estándar mínimo para una probabilidad aceptable, o el nivel de significancia, es también el riesgo que asumimos al rechazar una hipótesis nula cuando es cierta. Mientras más alto sea el nivel de significancia que utilizamos para probar una hipótesis, mayor será la probabilidad de rechazar una hipótesis nula cuando es cierta.

Errores tipo I y tipo II.

El rechazo de una hipótesis nula cuando es cierta se denomina error de tipo I, y su probabilidad (que es también el nivel de significancia) se simboliza como  . El hecho de aceptar una hipótesis nula cuando es falsa se denomina error de tipo II, y su probabilidad se simboliza como  . La probabilidad de cometer un tipo de error puede reducirse sólo si deseamos incrementar la probabilidad de cometer el otro tipo de error. Con el propósito de obtener una  baja, tendremos que tolerar una  alta. Los responsables de la toma de decisiones deciden el nivel de significancia adecuado, al examinar los costos o desventajas vinculadas con ambos tipos de errores.

Pruebas de hipótesis de dos extremos y de un extremo.

Una prueba de dos extremos de una hipótesis, rechazará la hipótesis nula si la media de muestra es significativamente mayor o menor que la media de la población hipotetizada. Existen dos regiones de rechazo.

Hay situaciones en las que no es apropiada una prueba de dos extremos, por lo que debemos usar una prueba de un extremo, que pueden ser de extremo izquierdo (o inferior) o extremo derecho (o superior).

La única forma de probar una hipótesis nula es conociendo el parámetro de población, y eso no es posible al tomar una muestra. Por consiguiente, aceptamos la hipótesis nula y nos comportamos como si fuera cierta, simplemente porque no podemos encontrar evidencia para rechazarla.

Medición de la potencia de una prueba de hipótesis.

Idealmente, tanto  como  (las probabilidades de los errores tipo I y II deben ser pequeñas. Una vez que decidimos el nivel de significancia, no hay nada que podamos hacer con respecto a  .

Cuando la hipótesis nula es falsa,  (la media de la población cierta) no es igual a la media hipotetizada.

Puesto que rechazar una hipótesis nula cuando es falsa es exactamente lo que debe hacer una buena prueba, un valor alto de 1 -  significa que la prueba está trabajando bastante bien (está rechazando la hipótesis nula cuando es falsa. Puesto que 1 -  es la medida de qué tan bien trabaja la prueba, se la conoce como la potencia de la prueba. Si representamos gráficamente los valores 1 -  por cada valor de  para el que la hipótesis alternativa es cierta, la curva resultante se conoce como curva de potencia.

SUGERENCIAS:

* Conviene plantear la hipótesis nula siempre por la igualdad. Adapte la contrahipótesis de acuerdo con el objetivo del problema.

* Formule la hipótesis en base a los objetivos del estudio, pero siempre antes de extraer la muestra y calcular el estimador puntual del parámetro desconocido, para no verse influenciado por este resultado.

* Tenga en cuenta que si bien la hipótesis nula es la que se pone bajo prueba, eso no significa que deba ser siempre la suposición que el experimentador desea que se compruebe.

* Como en todo proceso de inferencia, existe algún grado de subjetividad en la realización de una prueba, particularmente en la elección del nivel de significancia y del tamaño de la muestra. Trate de que la elección de estos valores responda a un análisis cuidadoso del problema en cuestión.

* Una vez fijadas las condiciones de la prueba, el resultado de la misma es totalmente objetivo.

* Para fijar el nivel de significancia de la prueba, hay que tener en cuenta que cuando la probabilidad del error tipo I aumenta, la del error tipo II disminuye. La forma de minimizar el error tipo II independientemente del nivel de significancia, es aumentando el tamaño de la muestra.

* Como las probabilidades de los errores tipo I y II están relacionadas entre ´si, pero el experimentador puede fijar la primera, antes de elegir el nivel de significancia hay que ver cuál de los dos tipos de errores resulta más crítico.

Conceptos:

* Alfa: probabilidad de cometer un error de tipo I.

* Beta: probabilidad de cometer un error de tipo II.

* Curva de potencia: gráfica de los valores de la potencia de una prueba por cada valor de  , u otro parámetro de población, para el que la hipótesis alternativa es cierta.

* Error de tipo I: rechazo de una hipótesis nula cuando es cierta.

* Error de tipo II: aceptación de una hipótesis nula cuando es falsa.

* Escala estandarizada: medición en desviaciones estándar a partir de la media de la variable.

* Escala sin procesar: medición en las unidades originales de la variable.

* Hipótesis: suposición o especulación que hacemos con respecto a un parámetro de población.

* Hipótesis alternativa: conclusión que aceptamos cuando los datos no respaldan la hipótesis nula.

* Hipótesis estadística: afirmación acerca del valor de un parámetro desconocido, o sobre la distribución de una variable.

* Hipótesis nula: hipótesis o suposición con respecto a un parámetro de población que deseamos probar.

* Nivel de significancia: valor que indica el porcentaje de valores de muestra que están fuera de ciertos límites, suponiendo que la hipótesis nula es correcta, es decir, se trata de la probabilidad de rechazar la hipótesis nula cuando es cierta.

* Potencia de prueba de hipótesis: probabilidad de rechazar la hipótesis nula cuando es falsa, es decir, una medida de qué tan bien funciona la prueba de hipótesis.

* Prueba de hipótesis: experimento que pone bajo prueba una hipótesis estadística, para decidir si es verdadera o falsa.

* Prueba de dos extremos: prueba de hipótesis en la que la hipótesis nula se rechaza si el valor de muestra es significativamente menor o mayor que el valor hipotetizado del parámetro de población, prueba que involucra dos regiones de rechazo.

* Prueba de extremo inferior: prueba de hipótesis de un extremo en la que un valor de la muestra que se encuentra significativamente por debajo del valor de la población hipotetizada, nos llevará a rechazar la hipótesis nula.

* Prueba de extremo superior: prueba de hipótesis de un extremo en la que un valor de muestra significativamente superior al valor de población hipotetizado nos llevará a rechazar la hipótesis nula.

* Prueba de un extremo: prueba de hipótesis en la que sólo hay una región de rechazo, es decir, sólo nos interesa si el valor observado se desvía del valor hipotetizado en una dirección.

* Valor crítico: valor de la estadística estándar (z) más allá del cual rechazamos la hipótesis nula; el límite entre las regiones de aceptación y rechazo.

unidad III

3. Funciones de Distribución de Variables.
3.1 Variables aleatorias y su clasificación


Si en un experimento aleatorio a cada suceso aleatorio elemental le asignamos un valor numérico obtenemos una variable aleatoria. Es decir, una variable que lleva asociada una probabilidad. La probabilidad de un valor concreto de la variable es la probabilidad que corresponde a los sucesos aleatorios elementales a los que hemos asignado ese valor numérico.

Por ejemplo : En el experimento aleatorio "lanzar un dado" asignamos a cada cara del dado su valor numérico (esta asignación aparece de forma natural). Así generamos una variable aleatoria que toma seis valores, del 1 al 6 con igual probabilidad (1/6) cada uno de ellos. Pero, con este mismo experimento, podemos generar otras variables aleatorias (no tan naturales) como puede ser : asignar el valor 1 a las caras que son múltiplos de tres y el valor 0 a las que no lo son, apareciendo una variable aleatoria que tiene dos valores, el 1 con probabilidad 1/3 y el 0 con probabilidad 2/3.

Crear una variable aleatoria no tiene mucho sentido sino la vamos a utilizar en un determinado contexto, por ejemplo, podemos utilizar la segunda variable aleatoria que hemos creado para apostar si sale o no múltiplo de tres.

Resumiendo, una variable aleatoria se construye al atribuir un número (positivo, negativo o cero) a cada uno de los sucesos aleatorios que forman el espacio muestral de un experimento aleatorio. La probabilidad de cada valor de la variable es la probabilidad conjunta de los sucesos que dan lugar a ese valor. Es decir, definimos una variable aleatoria como una aplicación del espacio muestral W sobre el conjunto de los números reales R.

Según la amplitud del campo de variación de la función podemos distinguir : variables aleatorias discretas y variables aleatorias continuas. De la misma forma que en estadística descriptiva, una variable aleatoria es discreta si toma valores en un conjunto finito o infinito numerable. Y una variable aleatoria es continua si puede tomar valores en un conjunto infinito no numerable. Como ejemplo típico de variable aleatoria discreta tenemos la distribución binomial, y como ejemplo típico de variable aleatoria continua vamos a ver ahora la distribución normal.

Como hemos visto hay variables aleatorias que pueden tomar cualquier valor de un intervalo real de la forma (a, b), (a, +¥), (-¥, b), (-¥, +¥) o uniones de ellos. A las variables de este tipo se las denomina variables aleatorias continuas.

Por ejemplo : Supongamos que vamos a realizar un experimento aleatorio que consiste en seleccionar una persona y apuntar su peso. Podemos crear una variable aleatoria cuyos valores sean el número de kilogramos que pesa la persona observada. En este caso, el rango de valores posibles se extiende entre los límites naturales, pero la continuidad de esta variable aleatoria radica en el carácter continuo de lo que medimos, el peso, es decir, en el hecho de que entre dos valores posibles se podrían obtener infinitos valores intermedios, también posibles si utilizáramos aparatos con suficiente precisión. Estos "infinitos" en el interior del rango de la variable es lo que diferencia a las variables continuas de las discretas.

Sin entrar en profundidades, consideramos que una distribución de probabilidad es cualquier mecanismo que nos ayuda a obtener las probabilidades de los valores de una variable si es discreta, o las probabilidades de intervalos de la variable si es continua. Si la variable aleatoria es discreta es posible asignar probabilidades a cada uno de los valores puntuales de la variable. En contra, cuando es continua cada uno de los infinitos valores posibles tendrá probabilidad cero y sólo podremos hablar de probabilidad dentro de intervalos.

3.2 Distribuciones de probabilidad discretas

3.2.2 Distribución Binomial
Supongamos que un experimento aleatorio tiene las siguientes características:

* En cada prueba del experimento sólo son posibles dos resultados: el suceso A (éxito) y su contrario`A (fracaso).
* El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente.
* La probabilidad del suceso A es constante, la representamos por p, y no varía de una prueba a otra. La probabilidad de `A es 1- p y la representamos por q .
* El experimento consta de un número n de pruebas.

Todo experimento que tenga estas características diremos que sigue el modelo de la distribución Binomial. A la variable X que expresa el número de éxitos obtenidos en cada prueba del experimento, la llamaremos variable aleatoria binomial.

La variable binomial es una variable aleatoria discreta, sólo puede tomar los valores 0, 1, 2, 3, 4, ..., n suponiendo que se han realizado n pruebas. Como hay que considerar todas las maneras posibles de obtener k-éxitos y (n-k) fracasos debemos calcular éstas por combinaciones (número combinatorio n sobre k).

La distribución Binomial se suele representar por B(n,p) siendo n y p los parámetros de dicha distribución.

Función de Probabilidad de la v.a. Binomial

Función de probabilidad de la distribución Binomial o también denominada función de la distribución de Bernoulli (para n=1). Verificándose: 0 £ p £ 1

Como el cálculo de estas probabilidades puede resultar algo tedioso se han construido tablas para algunos valores de n y p que nos facilitan el trabajo.

Parámetros de la Distribución Binomial

Función de Distribución de la v.a. Binomial

siendo k el mayor número entero menor o igual a xi.

Esta función de distribución proporciona, para cada número real xi, la probabilidad de que la variable X tome valores menores o iguales que xi.

3.3 Esperanza matemática
En estadística la esperanza matemática (o simplemente esperanza) o valor esperado de una variable aleatoria es la suma del producto de la probabilidad de cada suceso por el valor de dicho suceso. Por ejemplo, en un juego de azar el valor esperado es el beneficio medio.

Si todos los sucesos son de igual probabilidad la esperanza es la media aritmética.
Para una variable aleatoria discreta con valores posibles x_1, x_2 \ldots x_n \,\! y sus probabilidades representadas por la función de masa p(xi) la esperanza se calcula como:

Para una variable aleatoria continua la esperanza se calcula mediante la integral de todos los valores y la función de densidad f(x) \,\!:


La esperanza también se suele simbolizar con \mu = E[X] \,\!

Las esperanzas E[X^k] para k=0,1,2... se llaman momentos de orden k . Más importantes son los momentos centrados E[(X-E[X])^k] .

No todas las variables aleatorias tienen un valor esperado. Por ejemplo, la distribución de Cauchy no lo tiene.

Propiedades
La esperanza es un operador lineal, ya que:


3.5 Distribución t
Se sabe que se distribuye normalmente con una media m y una varianza s²/n, o la variable se distribuye normalmente con media cero y varianza unitaria. Sin embargo, para calcular Z se requiere que s sea conocido. Por lo tanto, se requiere una distribución para el caso en que s sea desconocido y se pueda reemplazar por un estimativo, tal como S. Tal distribución es la distribución t.

Teorema. Sean Y y Z dos variables aleatorias independientes, Y con una distribución Chi cuadrado con n grados de libertad, y Z con una distribución normal estándar (0,1), entonces la distribución de la variable


está dado por:

y se denomina "distribución t ó distribución de Student, con n grados de libertad.

Origen: WS Gosset publicó inicialmente la distribución bajo el seudónimo de "Student".

Propiedades generales

a) El valor esperado es cero Þ E(T)= 0
b) Distribución simétrica con respecto a cero.
c) La varianza de T está dada por
d) La varianza de T es ligeramente mayor de 1.0, es decir, es ligeramente mayor que la de la distribución normal estandarizada.
e) Para n ³ 30 la distribución t tiende hacia la distribución normal.

Tabulación. La función de distribución no puede calcularse en forma analítica; sin embargo, ha sido tabulada para diferentes valores de la probabilidad acumulada, y para varios grados de libertad. Como la distribución es simétrica, solamente se presentan probabilidades acumuladas para valores positivos de t (t³0). Los valores que se presentan en los encabezamientos de las columnas de la tabla corresponden a las probabilidades de exceder los respectivos valores de t, es decir, presentan las colas a la derecha de los valores respectivos de t. Para encontrar probabilidades correspondientes a valores negativos de t hay que hacer uso de la propiedad de simetría de la distribución t que nos dice que F(-t) = 1 - F(t).

Notación. Usaremos la notación para denotar el valor de la distribución t con n grados de libertad y una probabilidad acumulada de P hacia la derecha (o una probabilidad de 1-P hacia la izquierda).

La aplicación fundamental para la cual se usa esta distribución se presenta en el siguiente teorema.

Teorema. Si y S² son la media y la varianza de una muestra aleatoria de tamaño n tomada de una población normal con media m y varianza s², entonces la variabletiene la distribución t con n-1 grados de libertad.

3.6 Distribución Chi-cuadrada
En estadística, la distribución ji-cuadrado, también denominada ji-cuadrado de Pearson, es una distribución de probabilidad continua con un parámetro k que representa los grados de libertad de la variable aleatoria:

donde Zi son variables de distribución normal, de media cero y varianza uno.

Esta distribución se expresa habitualmente c X\sim\chi^2_k

Donde el subíndice k de \chi^2_k , es le número de sumandos, se denomina grados de libertad de la distribución.

Se suele usar la denominada prueba ji-cuadrado como test de independencia y como test de bondad de ajuste.

Distribución χ² (ji-cuadrado)
Función de densidad de probabilidad



3.7 Distribución F
Usada en teoría de probabilidad y estadística, la distribución F es una distribución de probabilidad continua. También se la conoce como distribución F de Snedecor o como distribución F de Fisher-Snedecor.

Una variable aleatoria de distribución F se construye como el siguiente cociente:

donde

* U1 y U2 siguen una distribución ji-cuadrada con d1 y d2 grados de libertad respectivamente, y

* U1 y U2 son estadísticamente independientes.

La distribución F aparece frecuentemente como la distribución nula de una prueba estadística, especialmente en el análisis de varianza. Véase el test F.

La función de densidad de una F(d1, d2) viene dada por
donde

* U1 y U2 siguen una distribución ji-cuadrada con d1 y d2 grados de libertad respectivamente, y

* U1 y U2 son estadísticamente independientes.

La distribución F aparece frecuentemente como la distribución nula de una prueba estadística, especialmente en el análisis de varianza. Véase el test F.

La función de densidad de una F(d1, d2) viene dada por

para todo número real x ≥ 0, donde d1 y d2 son enteros positivos, y B es la distribución beta.

La función de distribución es

donde I es la función beta incompleta regularizada.

unidad I

1.-Estadística Descriptiva

Introducción.-Una de las ramas de la Estadística más accesible a la mayoría de la población es la Descriptiva. Esta parte se dedica única y exclusivamente al ordenamiento y tratamiento mecánico de la información para su presentación por medio de tablas y de representaciones gráficas, así como de la obtención de algunos parámetros útiles para la explicación de la información.

La Estadística Descriptiva es la parte que conocemos desde los cursos de educación primaria, que se enseña en los siguientes niveles y que, por lo general, no pasa a ser un análisis más profundo de la información. Es un primer acercamiento a la información y, por esa misma razón, es la manera de presentar la información ante cualquier lector, ya sea especialista o no. Sin embargo, lo anterior no quiere decir que carezca de metodología o algo similar, sino que, al contrario, por ser un medio accesible a la mayoría de la población humana, resulta de suma importancia considerar para así evitar malentendidos, tergiversaciones o errores.

1.2 Población y muestra aleatoria.
Algo importante que hay que mencionar es que no siempre se trabaja con todos los datos. Ésto por diversas razones, que pueden ser desde prácticas hasta por economía.Por ejemplo, resultaría muy costoso obtener los datos de todos los seres humanos, o impráctico (y a la vez destructivo) obtener como datos el tiempo en el que se funden las bombillas producidas por una cierta marca realizando la medición de toda la producción. El estudio conduciría a la empresa a la ruina, pues la producción entera desaparecería.

Por esta razón se considera un subconjunto del total de los casos, sujetos u objetos que se estudian y que se les obtienen los datos. La población, entonces, es el total hipotético de los datos que se estudian o recopilan. Ante la imposibilidad ocasional de conseguir a la población, entonces se recurre a la muestra, que viene siendo un subconjunto de los datos de la población, pero tal subconjunto tiene que contener datos que pueden servir para posteriores generalizaciones de las conclusiones. Un estudio más detallado de las características de las muestras para permitir tales generalizaciones se realizará más adelante.
1.4 Datos no agrupados
1.4.1 Medidas de tendencia central
1.-La media aritmética de una variable estadística es la suma de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores de una variable X es
la media es el valor que podemos escribir de las siguientes formas equivalentes

Si los datos no están ordenados en una tabla, entonces

2.-La mediana
Consideramos una variable discreta X cuyas observaciones en una tabla estadística han sido ordenadas de menor a mayor. Llamaremos mediana, Medal primer valor de la variable que deja por debajo de sí al 50 % de las observaciones. Por tanto, si n es el número de observaciones, la mediana corresponderá a la observación [n/2]+1, donde representamos por [ - ] la parte entera de un número


En el caso de variables continuas, las clases vienen dadas por intervalos, y aquí la fórmula de la mediana se complica un poco más (pero no demasiado): Sea (li-1,li] el intervalo donde hemos encontrado que por debajo están el 50% de las observaciones. Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas,
3.-La moda
Llamaremos moda a cualquier máximo relativo de la distribución de frecuencias, es decir, cualquier valor de la variable que posea una frecuencia mayor que su anterior y su posterior.


1.4.2 Medidas de dispersión
El grado con el cual los datos numericos tienden a separarse del promedio.


Los mas utilizados son
Rango
Desviación media
Rango semi-intercuartil
Percentil 10-90
Desviación Estándar
1.-Rango
El rango de un conjunto de números es la diferencia entre la mayor y el menor.
2.-Desviación de un dato xi respecto a la media x ¯ es la diferencia entre ambos, xi - x ¯ . La desviación media (DM) de un conjunto de datos es la media aritmética de los valores absolutos de las desviaciones de cada dato respecto a la media.
3.-Varianza (σ2) es la media aritmética de los cuadrados de las desviaciones respecto de la media. Su raíz cuadrada positiva se denomina desviación típica (σ).

1.5 Datos agrupados
Datos agrupados en intervalos

Si los datos vienen agrupados en intervalos con sus frecuencias, se multiplica la marca de clase del intervalo por su frecuencia, se suman los resultados obtenidos y este total se divide por el número de datos.
1.5.1 Tabla de distribución de frecuencias
En este tipo de tablas, se divide la amplitud de los valores numéricos de los datos en un cierto número de intervalos ó clases, y se cuenta el número de observaciones que pertenecen a cada una de ellas; a esta cantidad se le denomina frecuencia. Veamos su construcción paso a paso.
1. Determinación del número de clases. Para construir este tipo de tablas, primeramente se establece el número de clases en que se dividirán los datos. Este número es arbitrario, y depende de la amplitud de los datos (diferencia entre el valor mayor y el valor menor) y del nivel de detalle que se precisa; normalmente se utilizan de 5 a 20 clases.

2. Determinación del Intervalo de clase. Una vez definido el número de clases, se determina la "anchura" de cada una de ellas, que se denomina Intervalo de clase. Para determinarlo se obtiene la diferencia entre el valor mayor y el menor (amplitud ó rango), y se divide entre el número de clases. Los puntos que limitan cada clase se denominan límites de clase.Supongamos que queremos organizar nuestros datos en una tabla de distribución de frecuencias con cinco clases. La amplitud se obtiene calculando la diferencia entre las observaciones de mayor y menor valor numérico.
Nº Obs Peso Nº Obs Peso Nº Obs Peso Nº Obs Peso Nº Obs Peso
1 208 6 301 11 322 16 329 21 358
2 252 7 307 12 323 17 332 22 369
3 256 8 309 13 323 18 340 23 374
4 277 9 309 14 327 19 342 24 379
5 288 10 319 15 329 20 345 25 403
Amplitud = Valor mayor - Valor menor= 403-208= 195

Ahora bien, dado que deseamos establecer cinco clases, dividimos la amplitud por el número de clases para obtener el intervalo de clase (I)

I = Amplitud / Nº de clases = 195/5 = 39 » 40

Por razones que se verán más adelante, es conveniente elegir un número algo mayor que el obtenido con la fórmula anterior; para este ejemplo fijaremos el intervalo de clase en 40 unidades.

3. Determinación de los límites de clase: Cada clase posee un límite inferior y un límite superior; un dato pertenece a una clase si es mayor que el límite inferior y menor ó igual al límite superior. Para iniciar, se toma un número ligeramente inferior al valor menor como límite inferior de la primera clase; a éste le sumamos el intervalo de clase para obtener el límite superior de la primera clase, que será a su vez el límite inferior de la segunda clase, y así sucesivamente, hasta completar el número de clases deseado
Límite inferior Límite superior Comentarios
(207 247] Dado que el menor valor observado es 208, seleccionamos 207 como límite inferior de la primera clase. El límite superior se obtiene sumando el intervalo de clase al límite inferior: 207 + 40 = 247
(247 287] El límite inferior de la segunda clase es igual al límite superior de la primera clase, y así sucesivamente
(287 327]
(327 367]
(367 407]
4. Cálculo del valor medio de clase (vi). Es el promedio aritmético entre los límites superior e inferior de cada clase.
Clase

Valor medio de clase (vi)
(207 - 247] (207+247)/2 = 227
(247 - 287] (247+287)/2=267
(287 - 327] 307
(327 - 367] 347
(367 - 407] 387
5. Determinación de la frecuencia absoluta de clase (fi): Es el número de observaciones que pertenecen a cada clase; un dato pertenece a una clase si es mayor que el límite inferior y menor ó igual al límite superior.
Clase Valor medio de clase (vi) Frecuencia Absoluta (fi) Comentarios
(207 - 247] 227 1

Sólo la observación 1 es mayor que 207 y menor que 247
(247 - 287] 267 3 Son las observaciones 2, 3 y 4
(287 - 327] 307 10 Observaciones 5 a 14, inclusive
(327 - 367] 347 7 Observaciones 15 a 21
(367 - 407] 387 4 Observaciones 22 a 25
6. A partir de las frecuencias absolutas pueden calcularse las Frecuencias Relativas de clase (pi), que representan la proporción del total de observaciones que pertenecen a cada clase; pueden calcularse también las frecuencias acumuladas, que indican cuanto datos existen cuyo valor numérico es menor o igual al límite superior de una determinada clase.
Clase Valor medio de clase (vi) Frecuencia Absoluta (fi) Frecuencia Relativa Frecuencia Absoluta Acumulada Frecuencia Relativa Acumulada
(207 - 247] 227 1 1/25 1 1/25
(247 - 287] 267 3 3/25 4 4/25
(287 - 327] 307 10 10/25 14 14/25
(327 - 367] 347 7 7/25 21 21/25
(367 - 407] 387 4 4/25 25 25/25

1.6 Gráficos
Gran parte de la utilidad que tiene la Estadística Descriptiva es la de proporcionar un medio para informar basado en los datos recopilados. La eficacia con que se pueda realizar tal proceso de información dependerá de la presentación de los datos, siendo la forma gráfica uno de los más rápidos y eficientes, aunque también uno de los que más pueden ser manipulados o ser malinterpretados si no se tienen algunas precauciones básicas al realizar las gráficas. Existen también varios tipos de gráficas, o representaciones gráficas, utilizándose cada uno de ellos de acuerdo al tipo de información que se está usando y los objetivos que se persiguen al presentar la información.

Entonces, mencionaremos algunas consideraciones que conviene tomar en cuenta al momento de realizar cualquier gráfica a fin de que la información sea transmitida de la manera más eficaz posible y sin distorsiones:

1. El eje que represente a las frecuencias de las observaciones (comúnmente el vertical o de las ordenadas) debe comenzar en cero (0), de otra manera podría dar impresiones erróneas al comparar la altura, longitud o posición de las columnas, barras o líneas que representan las frecuencias.
2. La longitud de los espacios que representan a cada dato o intervalo (clase) en la gráfica deben ser iguales.
3. El tipo de gráfico debe coincidir por sus características con el tipo de información o el objetivo que se persigue al representarla, de otra manera la representación gráfica se convierte en un instrumento ineficaz, que produce más confusión que otra cosa, innecesario o productor de malinterpretaciones. Por ejemplo, si se desea representar la proporción de población masculina en un país conviene más usar una gráfica de pastel o circular que una gráfica de barras al compararla contra la población femenina; por un lado se puede apreciar dicha proporción, por el otro se aprecia cuál de las dos poblaciones es mayor.

Hay un punto que conviene remarcar: existe software que permite la construcción rápida y eficiente de gráficas a partir de bases de datos o hojas de cálculos, pero no importa cuán bonita, bien delineada, bien coloreada o bien presentada esté una gráfica, si no se han tomado en cuenta consideraciones de este tipo que tienen que ver más sobre el objetivo de estas herramientas y la Estadística: la transmisión eficiente de la información.

1.6.1 Gráfica circular
Cuando lo que se desea es resaltar las proporciones que representan algunos subconjuntos con respecto al total, es decir, cuando se está usando una escala categórica, conviene utilizar una gráfica llamada de pastel o circular.

Por ejemplo, para ilustrar la matrícula en licenciatura (en México) por áreas de conocimiento en el año de 1992 se puede usar algo así como sigue

1.6.2 Diagrama de puntos
Consideran una variable y una cantidad asociada a cada valor de la misma. Un tipo de diagrama de puntos se construye colocando en el eje horizontal los valores de la variable, y en el vertical las cantidades asociadas a éstos; para cada valor de la variable se dibuja un punto cuya altura corresponde a la magnitud de dicha cantidad.


1.6.3 Histograma y polígono de frecuencias
Para las distribuciones de frecuencias la representación gráfica más común es el histograma. Un ejemplo es el que se presenta a continuación y que representa el número de "visitas" que ha tenido este hipertexto de acuerdo a la hora de la visita.

Otra forma de representación de un uso menos común, y muy parecida a las gráficas de líneas, es el polígono de frecuencias. La diferencia fundamental entre ambas es que en el polígono de frecuencias se añaden dos clases con frecuencias cero: una antes de la primera clase con datos y otra después de la última. El resultado es que se "sujeta" la línea por ambos extremos al eje horizontal y lo que podría ser una línea separada del eje se convierte, junto con éste, en un polígono.

El siguiente ejemplo corresponde al porcentaje del PIB gastado en docencia e investigación durante el año de 1990 en cinco países