viernes, 20 de marzo de 2020

Introducción a la estadística descriptiva: Medidas resumen variables cualitativas. Medidas de frecuencia. Proporciones, razones y tasas. Construcción de tablas de frecuencia.

Estadística descriptiva y estadística inferencial.
La estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones.

- Estadística descriptiva.
Los procedimientos están dirigidos a la organización y descripción de un conjunto de datos. 
Organiza de manera clara y fácil de analizar, resume los datos, explora la relación entre variables y es preliminar antes de la inferencia. Ademas, es el tipo de estadística que normalmente vemos en los medios de difusión.

-Estadística inferencial.
Los procedimientos se orientan a realizar inferencias, es decir, extraer conclusiones a partir de hechos, sobre una población a partir de las características conocidas para una muestra extraída de ella.
Utiliza muestras de datos para sacar conclusiones sobre poblaciones más grandes. Este tipo de método se encuentra más frecuentemente en artículos publicados sobre investigación científica.
A partir del cálculo de probabilidad y a partir de datos de las muestras, concluye:
- Estimaciones.
- Decisiones.
- Predicciones.
- Generalizaciones sobre un conjunto mayor de datos.

Variables.
Las variables es cada una de las características o cualidades que poseen los individuos de una población.

Encontramos dos tipos de variables estadísticas:
- Variables cualitativas: aquellas características o cualidades que no pueden ser medidas con números.
- Variables cuantitativas: aquellas que se expresan mediante un número, se pueden realizar operaciones aritméticas con ellas.

Como mencioné en la entrada anterior, dentro de las variables cualitativas y cuantitativas encontramos:

Presentación de datos.
Las tablas de frecuencia y las representaciones gráficas son dos maneras equivalentes de presentar la información.
- Tabla de frecuencia: es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente. Muestran FRECUENCIAS en columnas y las CATEGORÍAS de las variables en las filas.

Requisitos:
Son autoexplicativas.
Son sencillas y de fácil compresión.
Tienen título, breve y claro.
Indican lugar, fecha  y fuente de información.
Incluye las unidades de medida en cada cabecera-.
Indicas frecuencias absolutas y relativas.

Variables continuas.
Tablas de frecuencias de datos agrupados.
La manera de hacerlo sería la siguiente: 
  1. Calculamos el recorrido (rango), diferencia entre el mayor y el menor de los datos de una distribución estadística. Re= xsub(n)-xsub(1)= 6.1 - 3.3= 2.8
  2. Cuando no nos dice nada del nº de intervalos, se obtiene calculando la raíz cuadrada del nº de datos observados. Veremos que la raíz cuadrada de 40 es igual a 6,32, por lo tanto tomaremos 6 intervalos.
  3. Como el recorrido es 2.8, si lo dividimos por el nº de intervalos tendremos la amplitud de cada uno de ellos y así: 2.8/6 = 0,46.
- Definición de intervalos.
- Definición de extremos de los intervalos.
- Definición de amplitud o distancia entre los extremos.
Cálculo de la marca de clase de cada intervalo.



- Frecuencia absoluta: es el número de veces que aparece un determinado valor. Se representa por f¡. La suma de las frecuencias absolutas es igual al número total de datos, se representa por N.
- Frecuencia relativa: es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. Se puede expresar tantos por cientos y se representa por h¡.
- Frecuencias acumuladas: La frecuencia acumulada es el resultado que se obtiene de la suma sucesiva de las frecuencias absolutas o relativas, cuando se realiza de menor a mayor según sus valores. En otras palabras, se entiende como la cantidad de veces que un determinado evento se repite en una muestra o algún experimento. (Σf¡ ó Σh¡). Σ= sigma, suma o sumatoria.


Indicadores/ Concepto de indicador:
 En el análisis descriptivo se usan en gran medida los números relativos, que son la expresión de la relación de dos o más cantidades.
La frecuencia absoluta no puede ser un indicador, pues le falta un denominador que la relacione con el tamaño de la muestra o población, y/o el período en el que se presentaron los eventos.
Existen muchos indicadores elaborados en:
- Instituto Nacional de Estadística (INE).
- Instituto de Estadística de Andalucía (IEA).
- Centro de Investigaciones Sociológicas (CIS).

Se define como indicador como la medida de la frecuencia de un determinado suceso en una población, expresado como un número que puede ser:
- Proporción.
- Tasa.
- Razón.
- Odds.

Los indicadores siempre están formados por un numerador y un denominador, es decir, es el resultado del cociente entre dos magnitudes.

Proporciones.
Se define como una medida resumen para variables cualitativas, que consiste en la comparación, a través de un cociente (división) entre un subconjunto y el conjunto al que pertenece.

Características a tener en cuenta:
  1. El numerador siempre está incluido en el denominador.
  2. Adopta valores reales entre 0 y 1, expresando la frecuencia relativa del suceso que medimos.
  3. Se suele multiplicador por 100, para calcular una mejor compresión, expresando los porcentajes correspondientes.
  4. Si el suceso que medimos es muy poco frecuente, podemos multiplicar por 1000, por 10000, etc.
Tasas.
 Es una medida que expresa el riesgo de ocurrencia del evento estudiado.
En realidad, es una proporción pero con relación espacial y temporal. El denominador incluye una unidad de tiempo.
Consiste en la comparación, a través de una división, entre el número de veces que ocurre un cierto tipo de evento y la población en la que puede ocurrir dicho evento en un tiempo determinado.
Usualmente el resultado de tal división consiste en una cifra fraccionaria menor a 1, por lo que el resultado suele ser multiplicado por alguna constante que sea múltiplo de 10.

Incidencia.
Es el número de casos nuevos de una enfermedad que ocurren en un período específico de tiempo, en una población a riesgo de desarrollar la enfermedad.
La incidencia mide cambio: de ausencia a presencia de enfermedad, de vivo  a muerto, de no tener una característica a tenerla.
La incidencia es una medida de riesgo.

- Incidencia acumulada (proporción de incidencia): riesgo de que se produzca el suceso.
- Tasa de incidencia (densidad de incidencia): Velocidad de aparición de nuevos casos con respecto al tamaño de la población.

Incidencia acumalada (proporción de incidencia).
Se calcula utilizando nu período de tiempo durante el cual consideramos que todos los individuos de la población están a riesgo de la enfermedad.
Es la proporción de sujetos que desarrollan la enfermedad, en un período de tiempo, del total de la población a riesgo al inicio del período.
Mide el riesgo promedio de padecer la enfermedad (probabilidad de desarrollar la enfermedad).

IA= Nuevos casos en un tiempo determinado/ población a riesgo en t0 (tiempo inicial).

  1. Mide la probabilidad de tener la enfermedad (evento)
  2. No tiene unidades. Es una proporción ( se expresa como %...)
  3. Valores entre 0 y 1.
  4. No lleva implícito el período de tiempo, con lo cual debe expresarse siempre.
Condiciones:
- No puede haber pérdidas en el seguimiento.
- Se siguen a todos los sujetos durante todo el período.
- No permite inferir fuera del período de estudio.


Tasa de incidencia (o densidad de incidencia).
Con frecuencia, no todos los individuos a riesgo ( denominador), son seguidos durante el mismo período de tiempo.
Si se disponen de los diferentes tiempos de observación de los diferentes individuos, se puede calcular la densidad de incidencia o tasa de incidencia.
Es necesario especificar la unidad de tiempo a las que se refiere la tasa (personas- año; personas-mes, personas- semana, etc).

Pautas:
  1. Se mide en unidades de tiempo (-1).
  2. No son proporcionales, es una tasa instantánea.
  3. Expresa la "tasa" a la cual ocurren los eventos en sujetos de la población en riesgo en cualquier momento.
  4. Expresa la velocidad: la tasa de cambio instantáneo o la rapidez con la que se desarrolla el evento en la población.
Tasa: datos agregados.
- Densidad de incidencia: tasa obtenida de datos individuales.

Densidad de incidencia basada en datos individuales.

Densidad de incidencia= nuevos casos/ personas- tiempo a riesgo.

Personas - tiempo:
- Suma de tiempos que los individuos están a riesgo de desarrollar el evento.
- Las unidades a utilizar dependen del investigador. Los eventos poco frecuentes suelen describirse en personas- año o un múltiplo del mismo (100 o 1000 personas - año). En cambio, en los eventos más frecuentes se pueden utilizar personas- semana o personas- día.

Razones o "ratios".
Es una medida de resumen para variables cualitativas que consiste en la comparación, a través de una división entre dos conjuntos.
Los dos conjuntos son distintos, es decir, uno no incluye al otro.
El numerador del cociente, por tanto, no está incluido en el denominador, como sí sucedía en las proporciones.

Odds o ventaja.
El cociente entre la proporción o probabilidad de ocurrencia de un evento y la probabilidad (complementaria) de no ocurrencia, se denomina con el término en inglés "odds", empleado en el lenguaje de apuestas.
No hay un término exacto en español, no consenso en su traducción. El más aceptado es "ventaja" u "oportunidad".
La odds representa la frecuencia de un aspecto relativa a los sujetos que no presentan dicho aspecto, por lo que es un tipo especial de razón.
Sus valores van desde 0, que serían eventos que nunca ocurren, hasta infinito, que serían los que ocurren con mucha frecuencia.
Medidas de asociación: relaciones entre proporción, ratios y odds.
La magnitud de asociación entre dos fenómenos, puede estimarse a través de medidas que relacionen proporciones, tasas y odds.
Es lo que se llaman "medidas de asociación" y dependiendo del tipo de estudio, se usarán una u otra.
Las tres partes más importantes son:
  • Razón de prevalencias: estudios descriptivos de corte transversal. Realiza una ratio entre dos prevalencias (proporciones). Es la razón entre la proporción de enfermos expuestos y la proporción de enfermos no expuestos. Cuantifica una estimación de la asociación enre el factor de exposición y la enfermedad.
Si el valor se aproxima a 1, la enfermedad se distribuye por igual entre los expuestos y los no expuestos.

R.p.= P.e/P.ne. MAGNITUD DE LA ASOCIACIÓN.
  • Riesgo relativo o razón de riesgos: estudios de observaciones de seguimiento o estudios experimentales. Realiza un ratio entre dos incidencias acumuladas (proporciones) o dos densidades de incidencia (tasas). Es la razón entre el riesgo en los expuestos y el riesgo en los no expuestos. Cuantifica el incremento en el riesgo producido por la exposición.
Si el valor se aproxima a 1, la enfermedad o el suceso aparece de forma similar entre los expuestos y los no expuestos.

RR= I.e/ I.ne. MAGNITUD DE LA ASOCIACIÓN.
  • Odds ratio: estudios de casos y controles. Realiza una ratio entre dos medidas odds.  Es la razón entre los odds de los casos y los odds de los controles.
O.R.= ODDS Casos/ ODDS Controles

Valores posibles de 0 a 1.

























No hay comentarios:

Publicar un comentario

Reflexión

La estadística va de "riesgo, de recompensas, de azar". Básicamente,  la estadística va de entender datos . Y los datos son hoy má...