viernes, 27 de marzo de 2020

Medidas para variables cuantitativas.





RESUMEN NUMÉRICO DE UNA SERIE ESTADÍSTICA.

Podemos resumir una serie de observaciones mediante "estadístico".
Encontramos tres tipos de medidas estadística:

  • Medias de tendencia central: las medidas o parámetros de centralización nos indican en torno a qué valor se distribuyen los datos, y son:
- Mediana.
- Media.
- Moda.

  • Medidas de posición: dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos.
- Cuartiles.
- Deciles.
- Percentiles.

  • Medidas de dispersión o variabilidad: dan información acerca de la heterogeneidad de nuestras observaciones.
- Rango.
- Desviación media.
- Varianza.
- Desviación típica.
- Coeficiente de variación.

Medidas de tendencia central.

Media aritmética o media, (x).
Se calcula para las variables cuantitativas. Es la suma de todos los valores de la variable observada entre el total de observaciones.
Es la medida más calculada y utilizada en estadística descriptiva.

Propiedades de la media:
  • La suma de las desviaciones respecto a la media es igual a 0.
  • La media no se altera por una transformación  lineal de escala:
- Si un conjunto de datos cuya media es X, se le suma a cada datos una constante K, la media aumenta en K unidades.
- Si un conjunto de datos cuyo media es X, se multiplica cada dato por una constante K, la media queda multiplicada por K.
  • Es muy sensible a las puntuaciones extrema.

Otras medias:
  • Media geométrica (G): raíz N-ésima del producto de los N valores observados.
  • Media armónica (H): inverso de la media aritmética de los inversos de los valores de la variable.
  • Media aritmética ponderada (x): media aritmética de la suma del producto de cada valor por el peso o relevancia asignada al mismo.

Mediana.
La mediana es la puntuación que ocupa la posición central de la distribución.
Para poder hallarla necesitamos que nuestros datos estén ordenados, de forma creciente o decreciente.
Es el valor de la observación tal que un 50% de los datos es menos y otro 50% es mayor.
Si la media y la mediana son iguales, la distribución de la variable es simétrica.
A diferencia de la media de la media aritmética, la mediana es más robusta y menos sensible a los valores extremos.
Cuando la muestra posee muy pocos daros, o existen valores extremos o datos censurados-truncados, debemos calcular siempre la mediana.
Si el número de observaciones es impar, el valor que se tomará sera el que ocupa la posición: (n+1)/2.

Moda.
Es el valor que más se repite.
Las distribuciones que contienen una sola moda se llaman unimodales. Si hay más de una se dice que la muestra es bimodal, si son dos modas, o multimodal, si es más de dos.
Se puede calcular para cualquier variable, aunque es la medida de tendencia central menos empleada.
Podemos decir que es una distribución unimodal simétrica cuando los valores de la media aritmética, mediana y moda coinciden.
Si los datos están agrupados, se habla de clase modal y corresponde al intervalo en el que el cociente entre la frecuencia relativa y amplitud es mayor (hi/ci).





Medidas de posición.
Se calcula para variables cuantitativas. Sólo se tiene en cuenta la posición de los valores en la muestra, como la mediana.
Se define el cuantil de orden "n" como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada, n.
Los cuantiles más usuales son los percentiles, los deciles y los cuartiles, según se divida la muestra ordenada en 100, 10 ó 4.





Percentiles.
Dividen la muestra ordenada en 100 partes,los percentiles serían los 99 puntos o valores que dividen la distribución en cien partes iguales. P(n).
El percentil "i" P(i): valor donde las observaciones ordenados en forma creciente el i% de ellas son menores que él. Asimismo, el (100-i)% restante son mayores.
Para buscar la posición de un percentil en una serie de datos agrupados, buscamos el intervalo en el que la frecuencia relativa acumulada (Hi) sea superior al valor del percentil.

Deciles.
Dividen la muestra ordenada en 10 partes. Los deciles son los nueve valores que dividen a la distribución en diez partes iguales.
Cada parte el 10% de los valores de la distribución. Se representan por la letra D.
El decil "i" D(i): valor donde las observaciones ordenados en forma creciente el i/10% de ellas son menores que él. Asimismo, el (100-i)% restante son mayores.
El valor del D5 corresponde al valor de la mediana y, por tanto, al de P50.

Quartiles.
Dividen la muestra ordenada en 4 partes. Son los valores que dividen la distribución en cuatro partes iguales, cada parte incluye un 25% de los valores de esta variable. Se representan por Q1, Q2, Q3.
- El Q1, primer cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 25% de las observaciones son menores y que el 75% son mayores.
- El Q2, es el segundo cuartil, indica el valor que ocupa una posición en la serie numérica de forma que el 50% de las observaciones son mayores y el 50% son mayores. Por tanto, el Q2 coincide con el valor del D5, con el valor de la mediana P50.
- El Q3, tercer cuartil indica el valor que ocupa una posición en la serie numérica de forma que el 75% de las observaciones son menores y un 25% mayores.
- El Q4, cuarto cuartil que indica que es el mayor de la serie numérica.

Medidas de dispersión.
La información aportada por las medidas de tendencia central es limitada.

Rango o recorrido: (R).
Es la medida de dispersión más simple y consiste en tomar la puntuación mayor y restarle la puntuación menor.
La principal limitación del rango es que al tener en cuenta solamente los valores más altos y bajos, se ve muy afectado por los valores extremos. 


Recorrido intercuartílico: (RI)
Diferencia entre el tercer y el primer cuartil.



Rango Semiintercuartil:
Conocido también como desviación cuartil, o espectro semicuartil. En su cálculo utiliza los valores intermedios y no los extremos, lo que confiere una mayor estabilidad al rango.



Desviación media: (DM).
Es la media aritmética de las distancias de cada observación con respecto a la media de la muestra.



Varianza: (S2).
Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución.
Siempre tiene un valor positivo.
Se mide en unidades de la variable estudiada (al cuadreado).
Cuanto menor sea la varianza mayor será la homogeneidad y menor dispersión.

Denominador de la varianza:
  • n para la muestra (s2).
  • n-1 para la población: varianza insesgada o cuasivarianza.

Desviación típica o estándar: (S).
Expresa la dispersión de la distribución mediante un valor que siempre es positivo y en las mismas unidades de medida de la variable, siendo la medida de dispersión más utilizada en estadística descriptiva.
Cuando los datos están muy alejados de la media, el numerador será grande y la varianza y la desviación típica también lo serán.
Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica.

Propiedades:
  • La desviación típica será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.
  • Si a todos los valores de la variable se les suma un número la desviación típica no varía.
  • Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número.
Observaciones:
  • La desviación típica, al igual que la media y la varianza, es un índice muy sensible a las puntuaciones extremas.
  • En los casos que no se pueda hallar media, tampoco será posible hallar la desviación típica.
  • Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media.

Coeficiente de variación: (CV).
También recibe el nombre de variabilidad relativa, puesto que es una medida de dispersión relativa de los datos.
Se calcula dividiendo la desviación típica entre la media de la muestra, y expresado en el porcentaje.
El CV es una medida adimensional y nos permite comparar la dispersión o variabilidad de dos o más grupos. Sin embargo, no debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente.


Distribuciones normales.
En estadística se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales.
La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto a los valores de posición central (media, mediana y moda, que coinciden en estas distribuciones).
Esta curva se conoce como campana de Gauss.


Medidas de forma.

Asimetrías y Curtosis.
Las medidas de forma indican si la distribución es simétrica y el grado de apuntamiento, tomando siempre como referencia la curva normal.



Asimetrías.
Coeficiente de asimetría de una variable: grado de simetría de la distribución de sus datos en torno a su media.
Las distribuciones asimétricas, también llamadas sesgadas, se caracterizan porque el pico de la misma se encuentra descentrado (no simétrica), apareciendo una cola más larga que la otra.
Es asimensional y adopta valores entre -1 y +1.

Interpretación del coeficiente de asimetría:
  • g1= 0. Distribución simétrica.
  • g1> 0. DIstribución simétrica asimétrica positiva, la cola de distribución es más larga hacia la derecha y los valores más elevados están en la izquierda.
  • g<0. DIstribución asimétrica negativa, la cola más larga queda hacia la izquierda, y los valores más elevados a la derecha.
Curtosis o apuntamiento.
Coeficiente de apuntamiento o curtosis de una variable, sirve para medir el grado de concentración de los valores que toma en torno a su media.
Se elige como referencia una variable con distribución normal, donde el coeficiente de curtosis es 0.
Adopta también valores entre -1 y 1.Es una medida adimensional.

Interpretación:
  • g2= 0. Distribución mesocúrtica. Presenta un grado de concentración medio alrededor de los valores centrales de la variable.
  • g2> 0. Distribución leptocúrtica. Presenta un elevado grado de concentración alrededor de los valores centrales de la variable.
  • g2<0. Distribución platicúrtica. Presenta un reducido grado de concentración alrededor de los valores centrales de la variable.


viernes, 20 de marzo de 2020

Introducción a la estadística descriptiva: Medidas resumen variables cualitativas. Medidas de frecuencia. Proporciones, razones y tasas. Construcción de tablas de frecuencia.

Estadística descriptiva y estadística inferencial.
La estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones.

- Estadística descriptiva.
Los procedimientos están dirigidos a la organización y descripción de un conjunto de datos. 
Organiza de manera clara y fácil de analizar, resume los datos, explora la relación entre variables y es preliminar antes de la inferencia. Ademas, es el tipo de estadística que normalmente vemos en los medios de difusión.

-Estadística inferencial.
Los procedimientos se orientan a realizar inferencias, es decir, extraer conclusiones a partir de hechos, sobre una población a partir de las características conocidas para una muestra extraída de ella.
Utiliza muestras de datos para sacar conclusiones sobre poblaciones más grandes. Este tipo de método se encuentra más frecuentemente en artículos publicados sobre investigación científica.
A partir del cálculo de probabilidad y a partir de datos de las muestras, concluye:
- Estimaciones.
- Decisiones.
- Predicciones.
- Generalizaciones sobre un conjunto mayor de datos.

Variables.
Las variables es cada una de las características o cualidades que poseen los individuos de una población.

Encontramos dos tipos de variables estadísticas:
- Variables cualitativas: aquellas características o cualidades que no pueden ser medidas con números.
- Variables cuantitativas: aquellas que se expresan mediante un número, se pueden realizar operaciones aritméticas con ellas.

Como mencioné en la entrada anterior, dentro de las variables cualitativas y cuantitativas encontramos:

Presentación de datos.
Las tablas de frecuencia y las representaciones gráficas son dos maneras equivalentes de presentar la información.
- Tabla de frecuencia: es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente. Muestran FRECUENCIAS en columnas y las CATEGORÍAS de las variables en las filas.

Requisitos:
Son autoexplicativas.
Son sencillas y de fácil compresión.
Tienen título, breve y claro.
Indican lugar, fecha  y fuente de información.
Incluye las unidades de medida en cada cabecera-.
Indicas frecuencias absolutas y relativas.

Variables continuas.
Tablas de frecuencias de datos agrupados.
La manera de hacerlo sería la siguiente: 
  1. Calculamos el recorrido (rango), diferencia entre el mayor y el menor de los datos de una distribución estadística. Re= xsub(n)-xsub(1)= 6.1 - 3.3= 2.8
  2. Cuando no nos dice nada del nº de intervalos, se obtiene calculando la raíz cuadrada del nº de datos observados. Veremos que la raíz cuadrada de 40 es igual a 6,32, por lo tanto tomaremos 6 intervalos.
  3. Como el recorrido es 2.8, si lo dividimos por el nº de intervalos tendremos la amplitud de cada uno de ellos y así: 2.8/6 = 0,46.
- Definición de intervalos.
- Definición de extremos de los intervalos.
- Definición de amplitud o distancia entre los extremos.
Cálculo de la marca de clase de cada intervalo.



- Frecuencia absoluta: es el número de veces que aparece un determinado valor. Se representa por f¡. La suma de las frecuencias absolutas es igual al número total de datos, se representa por N.
- Frecuencia relativa: es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. Se puede expresar tantos por cientos y se representa por h¡.
- Frecuencias acumuladas: La frecuencia acumulada es el resultado que se obtiene de la suma sucesiva de las frecuencias absolutas o relativas, cuando se realiza de menor a mayor según sus valores. En otras palabras, se entiende como la cantidad de veces que un determinado evento se repite en una muestra o algún experimento. (Σf¡ ó Σh¡). Σ= sigma, suma o sumatoria.


Indicadores/ Concepto de indicador:
 En el análisis descriptivo se usan en gran medida los números relativos, que son la expresión de la relación de dos o más cantidades.
La frecuencia absoluta no puede ser un indicador, pues le falta un denominador que la relacione con el tamaño de la muestra o población, y/o el período en el que se presentaron los eventos.
Existen muchos indicadores elaborados en:
- Instituto Nacional de Estadística (INE).
- Instituto de Estadística de Andalucía (IEA).
- Centro de Investigaciones Sociológicas (CIS).

Se define como indicador como la medida de la frecuencia de un determinado suceso en una población, expresado como un número que puede ser:
- Proporción.
- Tasa.
- Razón.
- Odds.

Los indicadores siempre están formados por un numerador y un denominador, es decir, es el resultado del cociente entre dos magnitudes.

Proporciones.
Se define como una medida resumen para variables cualitativas, que consiste en la comparación, a través de un cociente (división) entre un subconjunto y el conjunto al que pertenece.

Características a tener en cuenta:
  1. El numerador siempre está incluido en el denominador.
  2. Adopta valores reales entre 0 y 1, expresando la frecuencia relativa del suceso que medimos.
  3. Se suele multiplicador por 100, para calcular una mejor compresión, expresando los porcentajes correspondientes.
  4. Si el suceso que medimos es muy poco frecuente, podemos multiplicar por 1000, por 10000, etc.
Tasas.
 Es una medida que expresa el riesgo de ocurrencia del evento estudiado.
En realidad, es una proporción pero con relación espacial y temporal. El denominador incluye una unidad de tiempo.
Consiste en la comparación, a través de una división, entre el número de veces que ocurre un cierto tipo de evento y la población en la que puede ocurrir dicho evento en un tiempo determinado.
Usualmente el resultado de tal división consiste en una cifra fraccionaria menor a 1, por lo que el resultado suele ser multiplicado por alguna constante que sea múltiplo de 10.

Incidencia.
Es el número de casos nuevos de una enfermedad que ocurren en un período específico de tiempo, en una población a riesgo de desarrollar la enfermedad.
La incidencia mide cambio: de ausencia a presencia de enfermedad, de vivo  a muerto, de no tener una característica a tenerla.
La incidencia es una medida de riesgo.

- Incidencia acumulada (proporción de incidencia): riesgo de que se produzca el suceso.
- Tasa de incidencia (densidad de incidencia): Velocidad de aparición de nuevos casos con respecto al tamaño de la población.

Incidencia acumalada (proporción de incidencia).
Se calcula utilizando nu período de tiempo durante el cual consideramos que todos los individuos de la población están a riesgo de la enfermedad.
Es la proporción de sujetos que desarrollan la enfermedad, en un período de tiempo, del total de la población a riesgo al inicio del período.
Mide el riesgo promedio de padecer la enfermedad (probabilidad de desarrollar la enfermedad).

IA= Nuevos casos en un tiempo determinado/ población a riesgo en t0 (tiempo inicial).

  1. Mide la probabilidad de tener la enfermedad (evento)
  2. No tiene unidades. Es una proporción ( se expresa como %...)
  3. Valores entre 0 y 1.
  4. No lleva implícito el período de tiempo, con lo cual debe expresarse siempre.
Condiciones:
- No puede haber pérdidas en el seguimiento.
- Se siguen a todos los sujetos durante todo el período.
- No permite inferir fuera del período de estudio.


Tasa de incidencia (o densidad de incidencia).
Con frecuencia, no todos los individuos a riesgo ( denominador), son seguidos durante el mismo período de tiempo.
Si se disponen de los diferentes tiempos de observación de los diferentes individuos, se puede calcular la densidad de incidencia o tasa de incidencia.
Es necesario especificar la unidad de tiempo a las que se refiere la tasa (personas- año; personas-mes, personas- semana, etc).

Pautas:
  1. Se mide en unidades de tiempo (-1).
  2. No son proporcionales, es una tasa instantánea.
  3. Expresa la "tasa" a la cual ocurren los eventos en sujetos de la población en riesgo en cualquier momento.
  4. Expresa la velocidad: la tasa de cambio instantáneo o la rapidez con la que se desarrolla el evento en la población.
Tasa: datos agregados.
- Densidad de incidencia: tasa obtenida de datos individuales.

Densidad de incidencia basada en datos individuales.

Densidad de incidencia= nuevos casos/ personas- tiempo a riesgo.

Personas - tiempo:
- Suma de tiempos que los individuos están a riesgo de desarrollar el evento.
- Las unidades a utilizar dependen del investigador. Los eventos poco frecuentes suelen describirse en personas- año o un múltiplo del mismo (100 o 1000 personas - año). En cambio, en los eventos más frecuentes se pueden utilizar personas- semana o personas- día.

Razones o "ratios".
Es una medida de resumen para variables cualitativas que consiste en la comparación, a través de una división entre dos conjuntos.
Los dos conjuntos son distintos, es decir, uno no incluye al otro.
El numerador del cociente, por tanto, no está incluido en el denominador, como sí sucedía en las proporciones.

Odds o ventaja.
El cociente entre la proporción o probabilidad de ocurrencia de un evento y la probabilidad (complementaria) de no ocurrencia, se denomina con el término en inglés "odds", empleado en el lenguaje de apuestas.
No hay un término exacto en español, no consenso en su traducción. El más aceptado es "ventaja" u "oportunidad".
La odds representa la frecuencia de un aspecto relativa a los sujetos que no presentan dicho aspecto, por lo que es un tipo especial de razón.
Sus valores van desde 0, que serían eventos que nunca ocurren, hasta infinito, que serían los que ocurren con mucha frecuencia.
Medidas de asociación: relaciones entre proporción, ratios y odds.
La magnitud de asociación entre dos fenómenos, puede estimarse a través de medidas que relacionen proporciones, tasas y odds.
Es lo que se llaman "medidas de asociación" y dependiendo del tipo de estudio, se usarán una u otra.
Las tres partes más importantes son:
  • Razón de prevalencias: estudios descriptivos de corte transversal. Realiza una ratio entre dos prevalencias (proporciones). Es la razón entre la proporción de enfermos expuestos y la proporción de enfermos no expuestos. Cuantifica una estimación de la asociación enre el factor de exposición y la enfermedad.
Si el valor se aproxima a 1, la enfermedad se distribuye por igual entre los expuestos y los no expuestos.

R.p.= P.e/P.ne. MAGNITUD DE LA ASOCIACIÓN.
  • Riesgo relativo o razón de riesgos: estudios de observaciones de seguimiento o estudios experimentales. Realiza un ratio entre dos incidencias acumuladas (proporciones) o dos densidades de incidencia (tasas). Es la razón entre el riesgo en los expuestos y el riesgo en los no expuestos. Cuantifica el incremento en el riesgo producido por la exposición.
Si el valor se aproxima a 1, la enfermedad o el suceso aparece de forma similar entre los expuestos y los no expuestos.

RR= I.e/ I.ne. MAGNITUD DE LA ASOCIACIÓN.
  • Odds ratio: estudios de casos y controles. Realiza una ratio entre dos medidas odds.  Es la razón entre los odds de los casos y los odds de los controles.
O.R.= ODDS Casos/ ODDS Controles

Valores posibles de 0 a 1.

























jueves, 19 de marzo de 2020

De los conceptos a las variables: población, muestra, parámetros y estadísticos. Variables y escalas de medida.

Concepto de estadística y bioestadística.
- Estadística. ciencia cuyo objeto es dar métodos para el tratamiento de datos provenientes de observaciones, donde intervienen un gran número de factores de variación.

- Bioestadística: aplicación de la estadística en la interpretación de los fenómenos de la vida, donde la variabilidad supone el carácter esencial (Carrasco, 1995).

Clasificación de la estadística.
  • Bioestadística descriptiva o deductiva: se ocupa del tratamiento, resumen y presentación de los datos observados de una manera gráfica y científica.
  • Bioestadística inferencial o analítica: su objetivo es establecer conclusisones sobre una población a partir de los resultados obtenidos de una muestra, todo ello, con un determinado nivel de seguridad o intervalo de confianza.
Investigación cuantitativa y cualitativa.
Serie ordenada de procedimientos o etapas, regido por principios o reglas, y cuyo objetivo es obtener explicaciones válidas de los fenómenos observados.
  • Mayor objetividad.
  • Mayor capacidad de predicción.
  • Mayor control.
  • Mayor generalización.
  • Combina el razonamiento inductivo, el razonamiento deductivo y la evidencia empírica o práctica.
El razonamiento inductivo consiste en establecer generalizaciones a partir de observaciones particulares. 
Por otra parte,el razonamiento deductivo, supone realizar predicciones particulares a partir del conocimiento de resultados generales.
La evidencia empírica hace referencia a la realidad objetiva y reunida, ya sea de forma directa o indirecta, a través de los sentidos.

Tipos de investigación biosanitaria.
  1. Investigación cuantitativa: basada en la recogida sistemática de información numérica y en el análisis estadístico. Descansa en el razonamiento deductivo y en las reglas de la lógica y ancla sus raíces en el positivismo lógico.
  2. Investigación cualitativa: subraya los aspectos dinámicos, holísticos e individuales de la experiencia humana y trata de captar cada uno de estos aspectos en su totalidad y dentro del contexto de quienes lo viven.  Esta técnica de investigación evita la cuantificación y su método descansa en la recogida de información subjetiva a través de instrumentos como las entrevistas no estructuradas, la observación de participantes, los registros narrativos, entre otros.

Encontramos una serie de diferencias entre la investigación cuantitativa y cualitativa:



¿Qué es un procedimiento muestral?
El muestreo es el proceso de seleccionar un conjunto de individuos de una población con el fin de estudiarlos y poder caracterizar el total de la población.


¿Y el proceso de la inferencia estadística?
La inferencia estadística es el conjunto de métodos y técnicas que permiten inducir, a partir de la información empírica proporcionada por una muestra, cual es el comportamiento de una determinada población con un riesgo de error medible en términos de probabilidad.
Parámetros y estadísticos.
- Parámetro: es una cantidad numérica calculada sobre una población o universo cuyo tamaño se explosa con N.
La idea es resumir toda la información que hay en la población en unos pocos número (parámetros). Los parámetros se expresan con letras griegas.     

- Estadístico: es una cantidad numérica calculada sobre una muestra extraída de la población o universo, cuyo tamaño se expresa con n.
La idea es resumir toda la información que hay en la población en unos pocos números (estimadores). Los parámetros se expresan con letras latinas en minúscula: s (desviación típica), p (proporción), x (media)...

Población de estudio.
Conjunto de “individuos” al que se refiere nuestra pregunta de estudio o respecto al cual se pretende concluir algo. 

Niveles de población.
- Población diana: conjunto de individuos que presenta las características a estudiar.
- Población de estudio: subconjunto de individuos  que cumplen los criterios de inclusión en la investigación.
- Muestra: parte de la población de estudio con la que se trabaja o investiga.
- Participantes: los individuos reales que han participado, ya que de la muestra hay perdidas.

Representatividad de la población.
Tamaño: debe de ser lo suficientemente grande para ser representativa y evitar errores, y pequeña para facilitar el análisis de datos.

Tipo de muestreo.

Encontramos dos tipos de muestreo:
  • Muestreo probabilístico: todas las unidades que componen la población tienen una probabilidad de ser elegidas y se puede calcular de antemano. Puede ser: aleatorio, estratificado y conglomerados.

- Muestreo aleatorio, pudiendo ser a su vez simple o sistemático:


Simple: selección al azar de la muestra. Se usa en poblaciones pequeñas y es el más representativo.
Algunas desventajas son que se necesita un listado de todas las unidades, conlleva costos por dispersión de la población y los grupos minoritarios no son representados.
Sistemático: en este caso se selecciona a los individuos según unas reglas o procesos.
Tiene una fórmula:
K= N/n ; donde k es la división de la población candidata y la muestra.
Una ventaja de este tipo aleatorio es que no es necesaria la lista completa de todas las unidades.

- Muestreo estratificado: se utiliza cuando las características del objeto de estudio no se atribuye de manera homogénea a una población, pero en esta hay un grupo o estrato donde si hay una representación homogénea. Estos grupos tienen características en común pero son mutuamente excluyentes.
La ventaja es que se puede conocer como se comporta una variable en cada subgrupo de la población con precisión.
La desventaja de esto es que se necesita más cantidad de información y un listado de cada individuo de la población.

 - Muestreo conglomerado: se obtiene de grupos o conglomerados ya establecidos cuando no hay listado de población.
Se usa en poblaciones muy dispersas o cuando no hay un listado completo de individuos pero si de grupos, por ejemplo en las unidades en un hospital.
La desventaja de este tipo de muestreo es que no se puede conocer de antemano el tamaño de la muestra que se va a obtener, ya que el tamaño depende de los grupos seleccionados. Asimismo, necesita un mayor tamaño de la muestra para ser preciso.

  • Muestreo no probabilístico: las unidades que componen la población tienen diferente probabilidad de ser elegidas, ya que no solo interviene el azar sino también otras condiciones. No se puede calcular la probabilidad de antemano y no todos los elementos tienen alguna posibilidad de ser incluidos. Puede ser: consecutivo, de convivencia, a criterio o intencional, "bola de nieve", teórico.

- Muestreo consecutivo: es el más utilizado. Se recluta a todos los individuos de una población accesibles y que cumplen todos los criterios de inclusión durante un período de reclutamiento fijado.
La desventaja de este muestreo es que no se haga de forma consecutiva y pueda haber interrupciones. Además, el tiempo de reclutamiento debe ser corto o que haya fluctuaciones.

- Muestreo de convivencia: se recluta a los individuos que son más accesibles para el equipo investigador o que se presentan voluntariamente. Se usa con frecuencia porque es económico y fácil.
La desventaja de este es que es poco sólido, ya que requiere una gran homogeneidad de la variable estudiada en la población, con lo cual genera sesgos muy relevantes.

- Muestreo intencional: el propio investigador es quien selecciona a los individuos porque los considera más apropiados. Se usa cuando se quiere contar con una muestra de expertos o en estudios cualitativos.
La desventaja es que puede no contar con un método externo, es decir ser aplicable a otras poblaciones y necesita mucha objetividad para valorar la idoneidad de los sujetos.

- Muestreo bola de nieve:el propio investigador elige a un participante que cumpla los criterios necesarios para incluirlos en su investigación y, al mismo tiempo, se le pide que identifique a otros individuos con sus mismas características para invitarles a participar y así sucesivamente hasta que se tenga recogida la muestra completa. Se utiliza mucho en estudios cualitativos.
Una ventaja muy importante es que se puede acceder a población con difícil acceso o difíciles de identificar, como pueden ser poblaciones marginadas.
La desventaja es que la muestra puede ser reducida debido a la reducida red de contactos, pudiendo así favorecer al sesgo de la investigación. También se debe de tener en cuenta la calidad de los participantes y la confianza que tienen en el investigador.

- Muestreo teórico: la selección de la muestra se hace de forma gradual debido a que el propósito del estudio es la generación de una teoría. 
Los participantes deben cubrir todas las características, perfiles y patrones que puedan influir en el fenómeno estudiado.
Las ventajas y desventajas se semejan con las del muestreo bola de nieve.

Cálculo del tamaño muestral.
Determinar el número aproximado de sujetos, que es necesario incluir en la muestra para que sea representativa.
Si no hacemos un cálculo correcto:
- Nos pueden faltar sujetos de estudio, con la consiguiente de que nos faltaría precisión para estimar los parámetros de estudio y no encontraríamos las diferencias significativas aún habiéndolas. (Error tipo II).
- Al igual que nos pueden faltar sujetos, podemos estudiar a más de la cuenta, gastando así más tiempo y recursos.

¿De qué puede depender el tamaño de la muestra?
  1. Variabilidad del parámetro que se quiere estudiar o medir. 
  2. La precisión con la que queremos dar los datos, teniendo en cuenta que una mayor precisión requiere un menos intervalo de confianza. (Error estándar).
  3. Nivel de confianza o significación estadística. En ciencias de la salud debe ser de un 95%.
  4. Poder estático o potencia de estudio. Capacidad de encontrar diferencias si las hay.
  5. Efecto esperado. Dependerá de la intervención que se lleve a cabo en los ensayos clínicos. Nos basamos en las bibliografías previas. A mayor efecto esperado, menos será la muestra.

Mediciones directas e indirectas.
Las mediciones se pueden clasificar en directas e indirectas.

- Directa: se da cuando el parámetro buscado es idéntico al parámetro que se mide. Se le realiza a elementos concretos.
Ejemplos: altura, temperatura, ritmo cardíaco, peso, respiración, glucemia, edad, género, origen étnico, estado civil, nivel de ingresos, nivel educativo.

- Indirecta: el parámetro buscado no está indicado por un instrumento sino que en función de otras magnitudes que se miden directamente.
Ejemplos: estrés, cuidado, ansiedad, dolor, afrontamiento (indicadores de afrontamiento: frecuencia o exactitud de la identificación del problema, tiempo o eficacia en la resolución del problema, nivel de optimismo, los tipos de comportamiento de auto-actualización)
Raramente una estrategia de medición puede medir todos los aspectos de un concepto abstracto.

Medición de signos y síntomas.
Tienen diferentes variables y diferentes métodos de medición. Para medir las variables se utilizan diferentes escalas de medición.

Escalas de medición de variables.
  • Escalas nominales o clasificatorias: nivel más bajo de medición. Los datos se ajuntan a por categorías que no tienen una relación de orden entre sí (color de ojos, profesión, género...)
  • Escalas ordinales o de rango: aporta información referente a la equivalencia y existe un cierto orden o jerarquía entre las categorías (grado de disnea, de hipertensión arterial, estadio del tumor...)
  • Escala de intervalo: los datos tienen que ser numéricos y poseen las propiedades de la escala ordinal. Los intervalos entre observaciones se expresan en términos de una unidad fija. Como la temperatura.
  • Escala de proporción o racional: supone el nivel más alto de medición. Se utiliza cuando una escala tiene todas las características de una escala de intervalo, y además tiene un punto cero real en su origen. Por ejemplo, el peso en gramos.

Variable.

Son características que puede ser medida en la muestra o población y puede variar de un sujeto a otro, o bien, de un evento a otro.

- Datos: cada uno de los valores que puede tomar la variable.

Tipos de variables.
  • Variables cualitativas: también llamadas atributos, factores, variables, categóricas, variables nominales, entre otros. Toman valores no numéricos y, por tanto, no son susceptibles de cuantificarse. Sirven para medir cualidades: color de ojos, de pelo, estado civil, profesión nivel de estudios.
Podemos dividirla en dos:
- Dicotómicas o binaria: solo puede tomar dos valores opuestos y, además, excluyentes.
Ejemplos: hombre/ mujer, enfermo/sano.
- Policotómicas: puede tomar más de dos valores o atributos. Pueden ser ordinales o nominales.
Cualipolicotómicas ordinales: nivel de estudio.
Cualipolicotómicas nominales: estado civil, servicios de ingreso hospitalario, antecedentes laborales.

  • Variables cuantitativas: pueden tomar un valor numérico: Ejemplo: talla, nivel de colesterol, número de hijos, peso.
A su vez se puede dividir en:
- Discretas: sólo pueden tomar un número finito de valores dentro de un intervalo y se pueden asimilar a los números enteros. Por ejemplo, el número de hijos.
- Continuas: aquellas que pueden tomar infinitos valores dentro del intervalo, incluyendo decimales. Ejemplo: peso, talla, glucemia basal.

Operacionalización de las variables.
Es el proceso que transforma una variable subjetiva o abstracta en otras variables indirectas que tengan el mismo significado y que sean susceptibles de medición. Consiste en:
Las variables principales se descomponen en otras más específicas llamadas dimensiones. A su vez, es necesario que permitan la observación directa.
















Reflexión

La estadística va de "riesgo, de recompensas, de azar". Básicamente,  la estadística va de entender datos . Y los datos son hoy má...