probabilidad y estadistica: unidad I

1.-Estadística Descriptiva

Introducción.-Una de las ramas de la Estadística más accesible a la mayoría de la población es la Descriptiva. Esta parte se dedica única y exclusivamente al ordenamiento y tratamiento mecánico de la información para su presentación por medio de tablas y de representaciones gráficas, así como de la obtención de algunos parámetros útiles para la explicación de la información.

La Estadística Descriptiva es la parte que conocemos desde los cursos de educación primaria, que se enseña en los siguientes niveles y que, por lo general, no pasa a ser un análisis más profundo de la información. Es un primer acercamiento a la información y, por esa misma razón, es la manera de presentar la información ante cualquier lector, ya sea especialista o no. Sin embargo, lo anterior no quiere decir que carezca de metodología o algo similar, sino que, al contrario, por ser un medio accesible a la mayoría de la población humana, resulta de suma importancia considerar para así evitar malentendidos, tergiversaciones o errores.

1.2 Población y muestra aleatoria.
Algo importante que hay que mencionar es que no siempre se trabaja con todos los datos. Ésto por diversas razones, que pueden ser desde prácticas hasta por economía.Por ejemplo, resultaría muy costoso obtener los datos de todos los seres humanos, o impráctico (y a la vez destructivo) obtener como datos el tiempo en el que se funden las bombillas producidas por una cierta marca realizando la medición de toda la producción. El estudio conduciría a la empresa a la ruina, pues la producción entera desaparecería.

Por esta razón se considera un subconjunto del total de los casos, sujetos u objetos que se estudian y que se les obtienen los datos. La población, entonces, es el total hipotético de los datos que se estudian o recopilan. Ante la imposibilidad ocasional de conseguir a la población, entonces se recurre a la muestra, que viene siendo un subconjunto de los datos de la población, pero tal subconjunto tiene que contener datos que pueden servir para posteriores generalizaciones de las conclusiones. Un estudio más detallado de las características de las muestras para permitir tales generalizaciones se realizará más adelante.
1.4 Datos no agrupados
1.4.1 Medidas de tendencia central
1.-La media aritmética de una variable estadística es la suma de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores de una variable X es
la media es el valor que podemos escribir de las siguientes formas equivalentes

Si los datos no están ordenados en una tabla, entonces

2.-La mediana
Consideramos una variable discreta X cuyas observaciones en una tabla estadística han sido ordenadas de menor a mayor. Llamaremos mediana, Medal primer valor de la variable que deja por debajo de sí al 50 % de las observaciones. Por tanto, si n es el número de observaciones, la mediana corresponderá a la observación [n/2]+1, donde representamos por [ - ] la parte entera de un número

En el caso de variables continuas, las clases vienen dadas por intervalos, y aquí la fórmula de la mediana se complica un poco más (pero no demasiado): Sea (li-1,li] el intervalo donde hemos encontrado que por debajo están el 50% de las observaciones. Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas,
3.-La moda
Llamaremos moda a cualquier máximo relativo de la distribución de frecuencias, es decir, cualquier valor de la variable que posea una frecuencia mayor que su anterior y su posterior.

1.4.2 Medidas de dispersión
El grado con el cual los datos numericos tienden a separarse del promedio.

Los mas utilizados son
Rango
Desviación media
Rango semi-intercuartil
Percentil 10-90
Desviación Estándar
1.-Rango
El rango de un conjunto de números es la diferencia entre la mayor y el menor.
2.-Desviación de un dato xi respecto a la media x ¯ es la diferencia entre ambos, xi - x ¯ . La desviación media (DM) de un conjunto de datos es la media aritmética de los valores absolutos de las desviaciones de cada dato respecto a la media.
3.-Varianza (σ2) es la media aritmética de los cuadrados de las desviaciones respecto de la media. Su raíz cuadrada positiva se denomina desviación típica (σ).

1.5 Datos agrupados
Datos agrupados en intervalos

Si los datos vienen agrupados en intervalos con sus frecuencias, se multiplica la marca de clase del intervalo por su frecuencia, se suman los resultados obtenidos y este total se divide por el número de datos.
1.5.1 Tabla de distribución de frecuencias
En este tipo de tablas, se divide la amplitud de los valores numéricos de los datos en un cierto número de intervalos ó clases, y se cuenta el número de observaciones que pertenecen a cada una de ellas; a esta cantidad se le denomina frecuencia. Veamos su construcción paso a paso.
1. Determinación del número de clases. Para construir este tipo de tablas, primeramente se establece el número de clases en que se dividirán los datos. Este número es arbitrario, y depende de la amplitud de los datos (diferencia entre el valor mayor y el valor menor) y del nivel de detalle que se precisa; normalmente se utilizan de 5 a 20 clases.

2. Determinación del Intervalo de clase. Una vez definido el número de clases, se determina la "anchura" de cada una de ellas, que se denomina Intervalo de clase. Para determinarlo se obtiene la diferencia entre el valor mayor y el menor (amplitud ó rango), y se divide entre el número de clases. Los puntos que limitan cada clase se denominan límites de clase.Supongamos que queremos organizar nuestros datos en una tabla de distribución de frecuencias con cinco clases. La amplitud se obtiene calculando la diferencia entre las observaciones de mayor y menor valor numérico.
Nº Obs Peso Nº Obs Peso Nº Obs Peso Nº Obs Peso Nº Obs Peso
1 208 6 301 11 322 16 329 21 358
2 252 7 307 12 323 17 332 22 369
3 256 8 309 13 323 18 340 23 374
4 277 9 309 14 327 19 342 24 379
5 288 10 319 15 329 20 345 25 403
Amplitud = Valor mayor - Valor menor= 403-208= 195

Ahora bien, dado que deseamos establecer cinco clases, dividimos la amplitud por el número de clases para obtener el intervalo de clase (I)

I = Amplitud / Nº de clases = 195/5 = 39 » 40

Por razones que se verán más adelante, es conveniente elegir un número algo mayor que el obtenido con la fórmula anterior; para este ejemplo fijaremos el intervalo de clase en 40 unidades.

3. Determinación de los límites de clase: Cada clase posee un límite inferior y un límite superior; un dato pertenece a una clase si es mayor que el límite inferior y menor ó igual al límite superior. Para iniciar, se toma un número ligeramente inferior al valor menor como límite inferior de la primera clase; a éste le sumamos el intervalo de clase para obtener el límite superior de la primera clase, que será a su vez el límite inferior de la segunda clase, y así sucesivamente, hasta completar el número de clases deseado
Límite inferior Límite superior Comentarios
(207 247] Dado que el menor valor observado es 208, seleccionamos 207 como límite inferior de la primera clase. El límite superior se obtiene sumando el intervalo de clase al límite inferior: 207 + 40 = 247
(247 287] El límite inferior de la segunda clase es igual al límite superior de la primera clase, y así sucesivamente
(287 327]
(327 367]
(367 407]
4. Cálculo del valor medio de clase (vi). Es el promedio aritmético entre los límites superior e inferior de cada clase.
Clase

Valor medio de clase (vi)
(207 - 247] (207+247)/2 = 227
(247 - 287] (247+287)/2=267
(287 - 327] 307
(327 - 367] 347
(367 - 407] 387
5. Determinación de la frecuencia absoluta de clase (fi): Es el número de observaciones que pertenecen a cada clase; un dato pertenece a una clase si es mayor que el límite inferior y menor ó igual al límite superior.
Clase Valor medio de clase (vi) Frecuencia Absoluta (fi) Comentarios
(207 - 247] 227 1

Sólo la observación 1 es mayor que 207 y menor que 247
(247 - 287] 267 3 Son las observaciones 2, 3 y 4
(287 - 327] 307 10 Observaciones 5 a 14, inclusive
(327 - 367] 347 7 Observaciones 15 a 21
(367 - 407] 387 4 Observaciones 22 a 25
6. A partir de las frecuencias absolutas pueden calcularse las Frecuencias Relativas de clase (pi), que representan la proporción del total de observaciones que pertenecen a cada clase; pueden calcularse también las frecuencias acumuladas, que indican cuanto datos existen cuyo valor numérico es menor o igual al límite superior de una determinada clase.
Clase Valor medio de clase (vi) Frecuencia Absoluta (fi) Frecuencia Relativa Frecuencia Absoluta Acumulada Frecuencia Relativa Acumulada
(207 - 247] 227 1 1/25 1 1/25
(247 - 287] 267 3 3/25 4 4/25
(287 - 327] 307 10 10/25 14 14/25
(327 - 367] 347 7 7/25 21 21/25
(367 - 407] 387 4 4/25 25 25/25

1.6 Gráficos
Gran parte de la utilidad que tiene la Estadística Descriptiva es la de proporcionar un medio para informar basado en los datos recopilados. La eficacia con que se pueda realizar tal proceso de información dependerá de la presentación de los datos, siendo la forma gráfica uno de los más rápidos y eficientes, aunque también uno de los que más pueden ser manipulados o ser malinterpretados si no se tienen algunas precauciones básicas al realizar las gráficas. Existen también varios tipos de gráficas, o representaciones gráficas, utilizándose cada uno de ellos de acuerdo al tipo de información que se está usando y los objetivos que se persiguen al presentar la información.

Entonces, mencionaremos algunas consideraciones que conviene tomar en cuenta al momento de realizar cualquier gráfica a fin de que la información sea transmitida de la manera más eficaz posible y sin distorsiones:

1. El eje que represente a las frecuencias de las observaciones (comúnmente el vertical o de las ordenadas) debe comenzar en cero (0), de otra manera podría dar impresiones erróneas al comparar la altura, longitud o posición de las columnas, barras o líneas que representan las frecuencias.
2. La longitud de los espacios que representan a cada dato o intervalo (clase) en la gráfica deben ser iguales.
3. El tipo de gráfico debe coincidir por sus características con el tipo de información o el objetivo que se persigue al representarla, de otra manera la representación gráfica se convierte en un instrumento ineficaz, que produce más confusión que otra cosa, innecesario o productor de malinterpretaciones. Por ejemplo, si se desea representar la proporción de población masculina en un país conviene más usar una gráfica de pastel o circular que una gráfica de barras al compararla contra la población femenina; por un lado se puede apreciar dicha proporción, por el otro se aprecia cuál de las dos poblaciones es mayor.

Hay un punto que conviene remarcar: existe software que permite la construcción rápida y eficiente de gráficas a partir de bases de datos o hojas de cálculos, pero no importa cuán bonita, bien delineada, bien coloreada o bien presentada esté una gráfica, si no se han tomado en cuenta consideraciones de este tipo que tienen que ver más sobre el objetivo de estas herramientas y la Estadística: la transmisión eficiente de la información.

1.6.1 Gráfica circular
Cuando lo que se desea es resaltar las proporciones que representan algunos subconjuntos con respecto al total, es decir, cuando se está usando una escala categórica, conviene utilizar una gráfica llamada de pastel o circular.

Por ejemplo, para ilustrar la matrícula en licenciatura (en México) por áreas de conocimiento en el año de 1992 se puede usar algo así como sigue

1.6.2 Diagrama de puntos
Consideran una variable y una cantidad asociada a cada valor de la misma. Un tipo de diagrama de puntos se construye colocando en el eje horizontal los valores de la variable, y en el vertical las cantidades asociadas a éstos; para cada valor de la variable se dibuja un punto cuya altura corresponde a la magnitud de dicha cantidad.

1.6.3 Histograma y polígono de frecuencias
Para las distribuciones de frecuencias la representación gráfica más común es el histograma. Un ejemplo es el que se presenta a continuación y que representa el número de "visitas" que ha tenido este hipertexto de acuerdo a la hora de la visita.

Otra forma de representación de un uso menos común, y muy parecida a las gráficas de líneas, es el polígono de frecuencias. La diferencia fundamental entre ambas es que en el polígono de frecuencias se añaden dos clases con frecuencias cero: una antes de la primera clase con datos y otra después de la última. El resultado es que se "sujeta" la línea por ambos extremos al eje horizontal y lo que podría ser una línea separada del eje se convierte, junto con éste, en un polígono.

El siguiente ejemplo corresponde al porcentaje del PIB gastado en docencia e investigación durante el año de 1990 en cinco países

probabilidad y estadistica

jueves, 4 de diciembre de 2008

unidad I

No hay comentarios:

Archivo del blog

Datos personales