4. Estadística inferencial
4.1 Inferencia estadística
Se basa en las conclusiones a la que se llega por la ciencia experimental basándose en información incompleta (de una parte de la población). La inferencia estadística es una parte de la Estadística que permite generar modelos probabilísticos a partir de un conjunto de observaciones. Del conjunto se observaciones que van a ser analizadas, se eligen aleatoriamente sólo unas cuantas, que es lo que se denomina muestra, y a partir de dicha muestra se estiman los parámetros del modelo, y se contrastan las hipótesis establecidas, con el objeto de determinar si el modelo probabilístico es el adecuado al problema real que se ha planteado. La utilidad de la inferencia estadística, consiste en que si el modelo se considera adecuado, puede usarse para la toma de decisiones o para la realización de las previsiones convenientes. En el desarrollo del tema se utilizarán variables aleatorias, que son variables determinadas por el azar. La inferencia estadística parte de un conjunto de observaciones de una variable, y a partir de estos datos “infiere” o genera un modelo probabilístico; por tanto es la consecuencia de la investigación empírica, caundo se está llevando a cabo, y como consecuencia de la ciencia teórica, cuando se están generando estimadores, o métodos, con tal o cual característica para casos particulares. La inferencia estadística es, en consecuencia, un planteamiento inductivo………………. •Es la parte de la estadística matemática que se encarga del estudio de los métodos para la obtención del modelo de probabilidad que sigue una variable aleatoria de una determinada población, a través de una muestra obtenida de la misma…………… •proceso de análisis que consiste en inferir las propiedades de una población con base en la caracterización de la muestra.
4.4 Estimación puntual
El material sobre teoría de la probabilidad constituye la base de la inferencia estadística, rama de la estadística que tiene que ver con el uso de los conceptos de la probabilidad para tratar con la toma de decisiones en condiciones de incertidumbre. La inferencia estadística está basada en la estimación y en la prueba de hipótesis.
Tipos de estimación.
Podemos hacer dos tipos de estimaciones concernientes a una población:
* Una estimación puntual: es sólo u número que se utiliza para estimar un parámetro de población desconocido. Una estimación puntual a menudo resulta insuficiente, debido a que sólo tiene dos opciones: es correcta o está equivocada. Una estimación puntual es mucho más útil si viene acompañada por una estimación del error que podría estar implicado.
* Una estimación de intervalo: es un intervalo de valores que se utiliza para estimar un parámetro de población. Esta estimación indica el error de dos maneras: por la extensión del intervalo y por la probabilidad de obtener el verdadero parámetro de la población que se encuentra dentro del intervalo.
Estimador y estimaciones.
Un estimador es una estadística de muestra utilizada para estimar un parámetro de población. La media de la muestra puede ser un estimador de la media de la población, y la porción de la muestra se puede utilizar como estimador de la porción de la población. También podemos utilizar el alcance de la muestra como un estimador del alcance de la población.
Cuando hemos observado un valor numérico específico de nuestro estimador, nos referimos a ese valor como una estimación. Una estimación es un valor específico observado de una estadística. Hacemos una estimación si tomamos una muestra y calculamos el valor que toma nuestro estimador en esa muestra.
Criterios para seleccionar un buen estimador.
1. Imparcialidad. Se refiere al hecho de que una media de muestra es un estimador no sesgado de una media de población, porque la media de distribución de muestreo de las medias de muestras tomadas de la misma población es igual a la media de la población misma. Podemos decir que una estadística es un estimador imparcial (o no sesgado) si, en promedio, tiende a tomar valores que están por encima del parámetro de la población y la misma extensión con la que tiende a asumir valores por debajo del parámetro de población que se está estimando.
2. Eficiencia. Se refiere al tamaño del error estándar de la estadística. Si comparamos dos estadísticas de una muestra del mismo tamaño y tratamos de decidir cuál de ellas es un estimador más eficiente, escogeríamos la estadística que tuviera el menor error estándar o la menor desviación estándar de la distribución de muestreo. Tiene sentido pensar que un estimador con un error estándar menor (con menos desviación) tendrá una mayor oportunidad de producir una estimación más cercana al parámetro de población que se está considerando.
3. Coherencia. Una estadística es un estimador coherente de un parámetro de población si al aumentar el tamaño de la muestra, se tiene casi la certeza de que el valor de la estadística se aproxima bastante al valor del parámetro de la población. Si un estimador es coherente, se vuelve más confiable si tenemos tamaños de muestras más grandes.
4. Suficiencia. Un estimador es suficiente si utiliza una cantidad de la información contenida en la muestra que ningún otro estimador podría extraer información adicional de la muestra sobre el parámetro de la población.
Una estadística de muestra dada no siempre es el mejor estimador de su parámetro de población correspondiente. Considere una población distribuida simétricamente, en la que los valores de la mediana y de la media coinciden. En este caso, la media de la muestra sería un estimador imparcial de la mediana de la población debido a que asumiría valores que en promedio serían iguales a la mediana de la población. También, la media de la muestra sería un estimador consistente de la mediana de la población, puesto que, conforme aumenta el tamaño de la muestra, el valor de la media de la muestra tenderá a acercarse bastante a la mediana de la población. Y la media de la muestra sería un estimador más eficiente de la mediana de la población que la mediana misma, ya que en muestras grandes, la media de la muestra tiene una desviación estándar menor que la mediana de la muestra.
Al mismo tiempo, la mediana de la muestra de una distribución distribuida simétricamente sería un estimador imparcial y consistente de la media de la población, pero no el más eficiente estimador, porque en muestras grandes su error estándar es mayor que el de la media de la muestra.
Estimaciones puntuales.
La media de la muestra es el mejor estimador de la media de la población. Es imparcial, coherente, el estimador más eficiente y, siempre y cuando la muestra sea la suficientemente grande, su distribución de muestreo puede ser aproximada por la distribución normal.
Si conocemos la distribución de muestreo de la media, podemos llegar a conclusiones con respecto a cualquier estimación que podamos hacer a partir de la información de muestreo.
Estimación puntual de la varianza y de la desviación estándar de la población.
El estimador utilizado con más frecuencia para hacer la estimación de la desviación estándar de la población, es la desviación estándar de la muestra:
s2 = (x - x)2 / (n - 1)
Al utilizar un divisor n - 1, nos da un estimador imparcial de 2.
Estimación puntual de la porción de la población.
La porción de unidades de una población dada que posee una característica particular se representa mediante el símbolo p. Si conocemos la porción de unidades de una muestra que tiene la misma característica, podemos utilizar esa p como estimador de p. Se puede mostrar que p tiene todas las características deseables: es imparcial (no sesgado), coherente, eficiente y suficiente.
SUGERENCIA:
Incluso cuando estamos utilizando el mejor estimador de un parámetro de población, aceptamos que puede estar implicado algo de error. Afirmamos que la estimación puntual y la medida de la varianza proporcionan información útil para las decisiones.
Estimaciones de intervalo.
El propósito de tomar muestras es para conocer más acerca de una población. Podemos calcular esa información a partir de las muestras como estimaciones puntuales, o como estimaciones de intervalo. Una estimación de intervalo describe un intervalo de valores dentro del cual es posible que esté un parámetro de población.
Si seleccionamos y representamos gráficamente un gran número de medias de muestras de una población, la distribución de tales medias se aproximará a la curva normal. Además, la media de las medias de muestra será la misma media de la población.
Probabilidad de que el verdadero parámetro de la población esté dentro de la estimación de intervalo.
En lo que concierne a cualquier intervalo particular, éste contiene a la media de la población o no la contiene, pues la media de la población es un parámetro fijo, y no varía.
Cuando las organizaciones informan la precisión de encuestas de opinión como "estos resultados son precisos en más menos tres puntos", por lo general no establecen el nivel de confianza que están utilizando para hacer la estimación de intervalo. Una afirmación más completa tendría la forma. "existe un 95% de probabilidad de que la verdadera opinión de la población caiga dentro del intervalo comprendido entre ..... y ........"
Estimaciones de intervalo e intervalos de confianza.
La probabilidad que asociamos con una estimación de intervalo se conoce como nivel de confianza. Esta probabilidad indica qué tanta confianza tenemos de que la estimación de intervalo incluya al parámetro de población. Una probabilidad más alta indica más confianza.
El intervalo de confianza es el alcance de la estimación que estamos haciendo. Expresaremos el intervalo de confianza en términos de errores estándar, más que con valores numéricos. Los límites de confianza son los límites superior e inferior del intervalo de confianza
Relación entre el nivel de confianza e intervalo de confianza.
Podría pensarse que deberíamos utilizar un nivel alto de confianza en todos los problemas sobre estimaciones. En la práctica, sin embargo, altos niveles de confianza producen intervalos de confianza grandes, y éstos no son precisos, dan estimaciones bastante imprecisas.
Uso del muestreo y de la estimación de intervalos de confianza.
A menudo resulta difícil o caro tomar más de una muestra de una población. Basados en solamente una muestra estimamos el parámetro de población.
El intervalo de confianza quiere decir que si seleccionamos muchas muestras aleatorias del mismo tamaño y si calculamos un intervalo de confianza para cada una de las muestras, tendremos un porcentaje de confianza determino de que en todos los casos la media de la población caerá dentro del intervalo.
Por otro lado, existe un cierto equilibrio entre la certidumbre de la estimación y el ancho de un intervalo de confianza.
SUGERENCIA:
Cuando tenemos muestras grandes, utilizamos el Teorema del Límite Central, nuestro conocimiento de la curva normal y nuestra habilidad para hacer correcciones para poblaciones finitas.
Determinación del tamaño de la muestra.
Siempre que tomamos una muestra, perdemos algo de información útil con respecto a la población. El error de muestre se puede controlar si seleccionamos una muestra cuyo tamaño sea el adecuado. En general, cuanta más precisión se quiera, más grande será el tamaño de la muestra necesaria.
Para calcular el tamaño de muestra, podemos utilizar la fórmula del error estándar de la media:
x = / n
Si no conocemos la desviación estándar de la población, podemos utilizar el alcance de la población para obtener una estimación burda pero manejable de la desviación estándar. Sabemos que más menos tres desviaciones estándar incluyen 99,7% del área total bajo la curva normal, esto es, más tres desviaciones estándar y menos tres desviaciones estándar de la media incluyen casi toda el área de la distribución.
SUGERENCIAS:
* Un estimador es una variable aleatoria, y por lo tanto es posible asociarle probabilidades, lo que resulta de suma utilidad como herramienta auxiliar para la toma de decisiones bajo condiciones de incertidumbre.
* Una estimación, en cambio, es un valor particular del estimador, calculado en base a una muestra dada. Por tanto, constituye un valor fijo (no aleatorio) que caracteriza a esa muestra en particular, pero que se usa para inferir el valor de un parámetro desconocido.
* Entre un estimador puntual y uno por intervalos, es preferible usar este último porque tiene asociado una probabilidad que contempla el error que se puede cometer en la aproximación.
Conceptos.
* Estimación: valor específico de un estimador, calculado en base a una muestra dada.
* Estimación de intervalo: intervalo de valores utilizado para estimar un parámetro de población desconocido.
* Estimación de parámetros: Aproximación del valor de parámetros poblacionales desconocidos mediante el empleo de estadísticos muestrales.
* Estimación puntual: un solo número que se utiliza para estimar un parámetro de población desconocido.
* Estimador: estadística de muestra utilizada para estimar un parámetro de población. Conceptualmente es una variable aleatoria.
* Estimador coherente: estimador que produce valores que se acercan más al parámetro de la población conforme aumenta el tamaño de la muestra.
* Estimador eficiente: estimador con un menor error estándar que algún otro estimador del parámetro de la población, esto es, cuanto más pequeño sea el error estándar de un estimador, más eficiente será ese estimador.
* Estimador imparcial: estimador de un parámetro de población que, en promedio, asume valores por encima del parámetro de la población con la misma frecuencia, y al mismo grado, con que tiende a tomarlos por debajo del parámetro de la población.
* Estimador suficiente: estimador que utiliza toda la información disponible en los datos correspondientes a un parámetro.
* Intervalo de confianza: intervalo de valores que tiene designada una probabilidad de que incluya el valor real del parámetro de la población.
* Límites de confianza: límites inferior y superior de un intervalo de confianza.
* Nivel de confianza: probabilidad que los estadísticos asocian con una estimación de intervalo de un parámetro de población, ésta indica qué tan seguros están de que la estimación de intervalo incluirá el parámetro de la población. Probabilidad, designada de antemano, de que un intervalo de confianza incluya al valor del parámetro desconocido.
* Propiedades de un buen estimador: características deseables de un estimador, para lograr la mejor aproximación posible de un parámetro poblacional.
4.7 Contraste de hipótesis unilateral y bilateral
PRUEBAS DE HIPÓTESIS.
Una hipótesis es una afirmación acerca de algo. En estadística, puede ser una suposición acerca del valor de un parámetro desconocido.
Pasos en la prueba de hipótesis:
1. Definir la hipótesis nula: suponer una hipótesis acerca de una población.
2. Formular una hipótesis alternativa: es una contra-hipótesis.
3. Definir un criterio de decisión para rechazar o no la hipótesis nula.
4. Recabar datos de la muestra.
5. Calcular una estadística de muestra.
6. Utilizar la estadística de muestra para evaluar la hipótesis.
Generalmente, se habla de "no rechazar" una hipótesis en lugar de "aceptar", ya que las pruebas no son concluyentes.
Introducción.
La prueba de hipótesis comienza con una suposición, llamada hipótesis, que hacemos con respecto a un parámetro de población. Después recolectamos datos de muestra, producimos estadísticas de muestra y usamos esta información para decidir qué tan probable es que sea correcto nuestro parámetro de población acerca del cual hicimos la hipótesis.
Debemos establecer el valor supuesto o hipotetizado del parámetro de población antes de comenzar a tomar la muestra. La suposición que deseamos probar se conoce como hipótesis nula, y se simboliza H0.
Siempre que rechazamos la hipótesis, la conclusión que sí aceptamos se llama hipótesis alternativa y se simboliza H1.
Interpretación del nivel de significancia.
El propósito de la prueba de hipótesis no es cuestionar el valor calculado de la estadística de muestra, sino hacer un juicio respecto a la diferencia entre esa estadística de muestra y un parámetro de población hipotetizado. El siguiente paso después de establecer la hipótesis nula alternativa consiste en decidir qué criterio utilizar para decidir si aceptar o rechazar la hipótesis nula.
Si suponemos que la hipótesis es correcta, entonces el nivel de significancia indicará el porcentaje de medias de muestra que está fuera de ciertos límites.
Siempre que afirmemos que aceptamos la hipótesis nula, en realidad lo que queremos decir es que no hay suficiente evidencia estadística para rechazarla. El empleo del término aceptar, en lugar de rechazar, se ha vuelto de uso común. Significa simplemente que cuando los datos de la muestra n hacen que rechacemos una hipótesis nula, nos comportamos como si fuera cierta.
Selección del nivel de significancia.
Nuestra elección del estándar mínimo para una probabilidad aceptable, o el nivel de significancia, es también el riesgo que asumimos al rechazar una hipótesis nula cuando es cierta. Mientras más alto sea el nivel de significancia que utilizamos para probar una hipótesis, mayor será la probabilidad de rechazar una hipótesis nula cuando es cierta.
Errores tipo I y tipo II.
El rechazo de una hipótesis nula cuando es cierta se denomina error de tipo I, y su probabilidad (que es también el nivel de significancia) se simboliza como . El hecho de aceptar una hipótesis nula cuando es falsa se denomina error de tipo II, y su probabilidad se simboliza como . La probabilidad de cometer un tipo de error puede reducirse sólo si deseamos incrementar la probabilidad de cometer el otro tipo de error. Con el propósito de obtener una baja, tendremos que tolerar una alta. Los responsables de la toma de decisiones deciden el nivel de significancia adecuado, al examinar los costos o desventajas vinculadas con ambos tipos de errores.
Pruebas de hipótesis de dos extremos y de un extremo.
Una prueba de dos extremos de una hipótesis, rechazará la hipótesis nula si la media de muestra es significativamente mayor o menor que la media de la población hipotetizada. Existen dos regiones de rechazo.
Hay situaciones en las que no es apropiada una prueba de dos extremos, por lo que debemos usar una prueba de un extremo, que pueden ser de extremo izquierdo (o inferior) o extremo derecho (o superior).
La única forma de probar una hipótesis nula es conociendo el parámetro de población, y eso no es posible al tomar una muestra. Por consiguiente, aceptamos la hipótesis nula y nos comportamos como si fuera cierta, simplemente porque no podemos encontrar evidencia para rechazarla.
Medición de la potencia de una prueba de hipótesis.
Idealmente, tanto como (las probabilidades de los errores tipo I y II deben ser pequeñas. Una vez que decidimos el nivel de significancia, no hay nada que podamos hacer con respecto a .
Cuando la hipótesis nula es falsa, (la media de la población cierta) no es igual a la media hipotetizada.
Puesto que rechazar una hipótesis nula cuando es falsa es exactamente lo que debe hacer una buena prueba, un valor alto de 1 - significa que la prueba está trabajando bastante bien (está rechazando la hipótesis nula cuando es falsa. Puesto que 1 - es la medida de qué tan bien trabaja la prueba, se la conoce como la potencia de la prueba. Si representamos gráficamente los valores 1 - por cada valor de para el que la hipótesis alternativa es cierta, la curva resultante se conoce como curva de potencia.
SUGERENCIAS:
* Conviene plantear la hipótesis nula siempre por la igualdad. Adapte la contrahipótesis de acuerdo con el objetivo del problema.
* Formule la hipótesis en base a los objetivos del estudio, pero siempre antes de extraer la muestra y calcular el estimador puntual del parámetro desconocido, para no verse influenciado por este resultado.
* Tenga en cuenta que si bien la hipótesis nula es la que se pone bajo prueba, eso no significa que deba ser siempre la suposición que el experimentador desea que se compruebe.
* Como en todo proceso de inferencia, existe algún grado de subjetividad en la realización de una prueba, particularmente en la elección del nivel de significancia y del tamaño de la muestra. Trate de que la elección de estos valores responda a un análisis cuidadoso del problema en cuestión.
* Una vez fijadas las condiciones de la prueba, el resultado de la misma es totalmente objetivo.
* Para fijar el nivel de significancia de la prueba, hay que tener en cuenta que cuando la probabilidad del error tipo I aumenta, la del error tipo II disminuye. La forma de minimizar el error tipo II independientemente del nivel de significancia, es aumentando el tamaño de la muestra.
* Como las probabilidades de los errores tipo I y II están relacionadas entre ´si, pero el experimentador puede fijar la primera, antes de elegir el nivel de significancia hay que ver cuál de los dos tipos de errores resulta más crítico.
Conceptos:
* Alfa: probabilidad de cometer un error de tipo I.
* Beta: probabilidad de cometer un error de tipo II.
* Curva de potencia: gráfica de los valores de la potencia de una prueba por cada valor de , u otro parámetro de población, para el que la hipótesis alternativa es cierta.
* Error de tipo I: rechazo de una hipótesis nula cuando es cierta.
* Error de tipo II: aceptación de una hipótesis nula cuando es falsa.
* Escala estandarizada: medición en desviaciones estándar a partir de la media de la variable.
* Escala sin procesar: medición en las unidades originales de la variable.
* Hipótesis: suposición o especulación que hacemos con respecto a un parámetro de población.
* Hipótesis alternativa: conclusión que aceptamos cuando los datos no respaldan la hipótesis nula.
* Hipótesis estadística: afirmación acerca del valor de un parámetro desconocido, o sobre la distribución de una variable.
* Hipótesis nula: hipótesis o suposición con respecto a un parámetro de población que deseamos probar.
* Nivel de significancia: valor que indica el porcentaje de valores de muestra que están fuera de ciertos límites, suponiendo que la hipótesis nula es correcta, es decir, se trata de la probabilidad de rechazar la hipótesis nula cuando es cierta.
* Potencia de prueba de hipótesis: probabilidad de rechazar la hipótesis nula cuando es falsa, es decir, una medida de qué tan bien funciona la prueba de hipótesis.
* Prueba de hipótesis: experimento que pone bajo prueba una hipótesis estadística, para decidir si es verdadera o falsa.
* Prueba de dos extremos: prueba de hipótesis en la que la hipótesis nula se rechaza si el valor de muestra es significativamente menor o mayor que el valor hipotetizado del parámetro de población, prueba que involucra dos regiones de rechazo.
* Prueba de extremo inferior: prueba de hipótesis de un extremo en la que un valor de la muestra que se encuentra significativamente por debajo del valor de la población hipotetizada, nos llevará a rechazar la hipótesis nula.
* Prueba de extremo superior: prueba de hipótesis de un extremo en la que un valor de muestra significativamente superior al valor de población hipotetizado nos llevará a rechazar la hipótesis nula.
* Prueba de un extremo: prueba de hipótesis en la que sólo hay una región de rechazo, es decir, sólo nos interesa si el valor observado se desvía del valor hipotetizado en una dirección.
* Valor crítico: valor de la estadística estándar (z) más allá del cual rechazamos la hipótesis nula; el límite entre las regiones de aceptación y rechazo.