viernes, 27 de marzo de 2020

Medidas para variables cuantitativas.





RESUMEN NUMÉRICO DE UNA SERIE ESTADÍSTICA.

Podemos resumir una serie de observaciones mediante "estadístico".
Encontramos tres tipos de medidas estadística:

  • Medias de tendencia central: las medidas o parámetros de centralización nos indican en torno a qué valor se distribuyen los datos, y son:
- Mediana.
- Media.
- Moda.

  • Medidas de posición: dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos.
- Cuartiles.
- Deciles.
- Percentiles.

  • Medidas de dispersión o variabilidad: dan información acerca de la heterogeneidad de nuestras observaciones.
- Rango.
- Desviación media.
- Varianza.
- Desviación típica.
- Coeficiente de variación.

Medidas de tendencia central.

Media aritmética o media, (x).
Se calcula para las variables cuantitativas. Es la suma de todos los valores de la variable observada entre el total de observaciones.
Es la medida más calculada y utilizada en estadística descriptiva.

Propiedades de la media:
  • La suma de las desviaciones respecto a la media es igual a 0.
  • La media no se altera por una transformación  lineal de escala:
- Si un conjunto de datos cuya media es X, se le suma a cada datos una constante K, la media aumenta en K unidades.
- Si un conjunto de datos cuyo media es X, se multiplica cada dato por una constante K, la media queda multiplicada por K.
  • Es muy sensible a las puntuaciones extrema.

Otras medias:
  • Media geométrica (G): raíz N-ésima del producto de los N valores observados.
  • Media armónica (H): inverso de la media aritmética de los inversos de los valores de la variable.
  • Media aritmética ponderada (x): media aritmética de la suma del producto de cada valor por el peso o relevancia asignada al mismo.

Mediana.
La mediana es la puntuación que ocupa la posición central de la distribución.
Para poder hallarla necesitamos que nuestros datos estén ordenados, de forma creciente o decreciente.
Es el valor de la observación tal que un 50% de los datos es menos y otro 50% es mayor.
Si la media y la mediana son iguales, la distribución de la variable es simétrica.
A diferencia de la media de la media aritmética, la mediana es más robusta y menos sensible a los valores extremos.
Cuando la muestra posee muy pocos daros, o existen valores extremos o datos censurados-truncados, debemos calcular siempre la mediana.
Si el número de observaciones es impar, el valor que se tomará sera el que ocupa la posición: (n+1)/2.

Moda.
Es el valor que más se repite.
Las distribuciones que contienen una sola moda se llaman unimodales. Si hay más de una se dice que la muestra es bimodal, si son dos modas, o multimodal, si es más de dos.
Se puede calcular para cualquier variable, aunque es la medida de tendencia central menos empleada.
Podemos decir que es una distribución unimodal simétrica cuando los valores de la media aritmética, mediana y moda coinciden.
Si los datos están agrupados, se habla de clase modal y corresponde al intervalo en el que el cociente entre la frecuencia relativa y amplitud es mayor (hi/ci).





Medidas de posición.
Se calcula para variables cuantitativas. Sólo se tiene en cuenta la posición de los valores en la muestra, como la mediana.
Se define el cuantil de orden "n" como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada, n.
Los cuantiles más usuales son los percentiles, los deciles y los cuartiles, según se divida la muestra ordenada en 100, 10 ó 4.





Percentiles.
Dividen la muestra ordenada en 100 partes,los percentiles serían los 99 puntos o valores que dividen la distribución en cien partes iguales. P(n).
El percentil "i" P(i): valor donde las observaciones ordenados en forma creciente el i% de ellas son menores que él. Asimismo, el (100-i)% restante son mayores.
Para buscar la posición de un percentil en una serie de datos agrupados, buscamos el intervalo en el que la frecuencia relativa acumulada (Hi) sea superior al valor del percentil.

Deciles.
Dividen la muestra ordenada en 10 partes. Los deciles son los nueve valores que dividen a la distribución en diez partes iguales.
Cada parte el 10% de los valores de la distribución. Se representan por la letra D.
El decil "i" D(i): valor donde las observaciones ordenados en forma creciente el i/10% de ellas son menores que él. Asimismo, el (100-i)% restante son mayores.
El valor del D5 corresponde al valor de la mediana y, por tanto, al de P50.

Quartiles.
Dividen la muestra ordenada en 4 partes. Son los valores que dividen la distribución en cuatro partes iguales, cada parte incluye un 25% de los valores de esta variable. Se representan por Q1, Q2, Q3.
- El Q1, primer cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 25% de las observaciones son menores y que el 75% son mayores.
- El Q2, es el segundo cuartil, indica el valor que ocupa una posición en la serie numérica de forma que el 50% de las observaciones son mayores y el 50% son mayores. Por tanto, el Q2 coincide con el valor del D5, con el valor de la mediana P50.
- El Q3, tercer cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 75% de las observaciones son menores y un 25% mayores.
- El Q4, cuarto cuartil que indica que es el mayor de la serie numérica.

Medidas de dispersión.
La información aportada por las medidas de tendencia central es limitada.

Rango o recorrido: (R).
Es la medida de dispersión más simple y consiste en tomar la puntuación mayor y restarle la puntuación menor.
La principal limitación del rango es que al tener en cuenta solamente los valores más altos y bajos, se ve muy afectado por los valores extremos. 


Recorrido intercuartílico: (RI)
Diferencia entre el tercer y el primer cuartil.



Rango Semiintercuartil:
Conocido también como desviación cuartil, o espectro semicuartil. En su cálculo utiliza los valores intermedios y no los extremos, lo que confiere una mayor estabilidad al rango.



Desviación media: (DM).
Es la media aritmética de las distancias de cada observación con respecto a la media de la muestra.



Varianza: (S2).
Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución.
Siempre tiene un valor positivo.
Se mide en unidades de la variable estudiada (al cuadreado).
Cuanto menor sea la varianza mayor será la homogeneidad y menor dispersión.

Denominador de la varianza:
  • n para la muestra (s2).
  • n-1 para la población: varianza insesgada o cuasivarianza.

Desviación típica o estándar: (S).
Expresa la dispersión de la distribución mediante un valor que siempre es positivo y en las mismas unidades de medida de la variable, siendo la medida de dispersión más utilizada en estadística descriptiva.
Cuando los datos están muy alejados de la media, el numerador será grande y la varianza y la desviación típica también lo serán.
Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica.

Propiedades:
  • La desviación típica será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.
  • Si a todos los valores de la variable se les suma un número la desviación típica no varía.
  • Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número.
Observaciones:
  • La desviación típica, al igual que la media y la varianza, es un índice muy sensible a las puntuaciones extremas.
  • En los casos que no se pueda hallar media, tampoco será posible hallar la desviación típica.
  • Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media.

Coeficiente de variación: (CV).
También recibe el nombre de variabilidad relativa, puesto que es una medida de dispersión relativa de los datos.
Se calcula dividiendo la desviación típica entre la media de la muestra, y expresado en el porcentaje.
El CV es una medida adimensional y nos permite comparar la dispersión o variabilidad de dos o más grupos. Sin embargo, no debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente.


Distribuciones normales.
En estadística se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales.
La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto a los valores de posición central (media, mediana y moda, que coinciden en estas distribuciones).
Esta curva se conoce como campana de Gauss.


Medidas de forma.

Asimetrías y Curtosis.
Las medidas de forma indican si la distribución es simétrica y el grado de apuntamiento, tomando siempre como referencia la curva normal.



Asimetrías.
Coeficiente de asimetría de una variable: grado de simetría de la distribución de sus datos en torno a su media.
Las distribuciones asimétricas, también llamadas sesgadas, se caracterizan porque el pico de la misma se encuentra descentrado (no simétrica), apareciendo una cola más larga que la otra.
Es asimensional y adopta valores entre -1 y +1.

Interpretación del coeficiente de asimetría:
  • g1= 0. Distribución simétrica.
  • g1> 0. DIstribución simétrica asimétrica positiva, la cola de distribución es más larga hacia la derecha y los valores más elevados están en la izquierda.
  • g<0. DIstribución asimétrica negativa, la cola más larga queda hacia la izquierda, y los valores más elevados a la derecha.
Curtosis o apuntamiento.
Coeficiente de apuntamiento o curtosis de una variable, sirve para medir el grado de concentración de los valores que toma en torno a su media.
Se elige como referencia una variable con distribución normal, donde el coeficiente de curtosis es 0.
Adopta también valores entre -1 y 1.Es una medida adimensional.

Interpretación:
  • g2= 0. Distribución mesocúrtica. Presenta un grado de concentración medio alrededor de los valores centrales de la variable.
  • g2> 0. Distribución leptocúrtica. Presenta un elevado grado de concentración alrededor de los valores centrales de la variable.
  • g2<0. Distribución platicúrtica. Presenta un reducido grado de concentración alrededor de los valores centrales de la variable.


No hay comentarios:

Publicar un comentario

Reflexión

La estadística va de "riesgo, de recompensas, de azar". Básicamente,  la estadística va de entender datos . Y los datos son hoy má...