domingo, 26 de abril de 2020

Teoría del muestreo


El muestreo no es más que un proceso a seguir a la hora de seleccionar un conjunto de individuos pertenecientes a una determinada población con el objetivo de estudiarlos para posteriormente caracterizar el total de dicha población.

Las razones para efectuar un muestreo a una población, en lugar de estudiarla completa, pueden ser: . El tamaño de la población es infinito.

. El muestreo es de tipo destructivo.
. La población es finita, pero demasiado grande.
. Sería muy caro estudiar a toda la población y basta con deducciones aproximadas. . Tomaría demasiado tiempo analizar la población total.


1. ESTIMACIÓN E INFERENCIA ESTADÍSTICA.
Para elegir muestras que reflejen las características de la población utilizamos técnicas de

muestreo.
Si trabajamos con muestras, tenemos que tener encuesta que siempre hay que asumir un cierto error. Si la muestra se elige de manera aleatoria, se puede evaluar el error. La técnica de muestreo utilizada en este caso se denomina muestreo probabilístico o
aleatorio, y el error asociado a esta técnica se llama error
aleatorio.
En los muestreos no probabilísticos no es posible evaluar el
error.




2. TIPO DE MUESTREO.
Podemos diferenciar dos grandes grupos de muestreo:

  • -  Muestro probabilístico o aleatorio: muestreo científico muy riguroso. Todas las unidades que componen la población tienen una probabilidad deseo elegidas y se puede calcular antes.
  • -  Muestreo no probabilístico o no aleatorio: es menos riguroso. Las unidades que componen la población tienen diferente probabilidad de ser elegidas, porque no interviene sólo el azar, también intervienen otras condiciones. No se puede calculas la probabilidad de antemano y no todos los elementos tienen posibilidad de ser incluidos.



    2. 1. MUESTREO PROBABILÍSTICO.
1. Muestreo aleatorio: la selección de los individuos es de manera aleatoria.
Lo podemos subdividir en:
Simple: seleccionar al azar la muestra utilizando poblaciones pequeñas, es el más representativo.
Se emplea cuando se desea efectuar análisis de multivariantes. Desventajas: Necesitamos la lista
de todos los individuos, costo por dispersión de la población y encontramos grupos minoritarios no representados.
Sistemático: seleccionamos a los individuos siguiendo unos procesos o reglas.



Por ejemplo:
N= 400 (población completa)
n= 100 (muestra). 
K= 400/100 K= 4.

2. Muestreo estratificado: se utiliza cuando la característica de los individuos que se quieren estudiar no se encuentra de manera homogénea en toda la población, afectando esto a los resultados. Para hacer un correcto estudio tenemos que estudiar grupos o estratos donde si se presenta de manera homogénea la característica que se quiere estudiar. Estos grupos tienen características en común pero son mutuamente excluyentes.
La ventaja de esto es que podemos conocer cómo se comporta la variable en cada subgrupo de la población con precisión.
La desventaja es que se requiere más información y un listado de cada uno de los individuos que componen la población.




3. Muestreo de conglomerados: se obtiene a partir de grupos o conglomerados ya establecidos, se aplica cuando no tenemos un listado de la población. En este tipo de muestreo encontramos una población muy dispersas o no hay un listado completo de individuos pero sí de grupos (unidades de un hospital).
La desventaja de esto es que no podemos conocer de antemano el tamaño de la muestra que se va a obtener, ya que esto va a depender de los grupos seleccionados. Necesita un mayor tamaño de muestra conglomeradas y no son tan fiables debido a que no son realmente homogéneas.

2.2 MUESTREO NO PROBABILÍSTICO.
1. Muestreo consecutivo: es el más utilizado. Se recluta a todos los individuos de una población

que son accesibles y que cumplen los criterios que deben para formar parte de la muestra.
La desventaja que encontramos es que si se hace de manera interrumpida y no de manera continua, puede llevar a error. El período de reclutamiento debe ser corto.


2. Muestreo de convivencia o accidental: se recluta a los individuos más accesibles para el quipo investigador y que se presentan de manera voluntaria. Se usa con frecuenta porque es económico y fácil.
La desventaja es que es poco riguroso, ya que requiere de una gran homogeneidad de la variable estudiada. Genera sesgos importantes.

Un ejemplo de esto puede ser algunas de las entrevistas que estamos haciendo para el proyecto final de ETIC.

3. Muestreo intencional o a criterio: el propio investigador es quien selecciona a los individuos al considerar que son los más apropiados. Se usa para estudios cualitativos o cuando queremos contar con una muestra de expertos.
La desventaja es que este método no cuenta con un método objetivo para valorar la idoneidad de los sujetos. Ejemplo: método Delphi.


4. Muestreo bola de nieve, de avalancha o en cadena: el investigador elige a un participante que cumpla los criterios necesarios y al mismo tiempo se le pide que identifique a otros individuos con sus mismas características para invitarles a participar y así, sucesivamente, hasta que se tenga recogida la muestra completa. Es un tipo de muestreo muy empleado en estudios cualitativos.
Una ventaja es que se puede acceder a parte de la población de difícil acceso o que son difíciles de identificar. Por ejemplo, poblaciones marginadas.
La desventaja es que la muestra puede ser reducida por una red de contactos pobre, además, la calidad de los participantes está condicionada por la invitación de otros.


5. Muestreo teórico: la selección de la muestra se hace de forma gradual debido a que el propósito del estudio es la generación de una teoría o porque la integración de la muestra se va diciendo sobre la marcha.
Los participantes deben cubrir todas las características, perfiles y patrones que puedan influir en el fenómeno estudiado.


3. TAMAÑO DE LA MUESTRA.
Determinar el tamaño de la muestra que se va a seleccionar es un paso importante en cualquier estudio de investigación de mercados, se debe justificar convenientemente de acuerdo al planteamiento del problema, la población, los objetivos y el propósito de la investigación.
El tamaño muestral dependerá de decisiones estadísticas y no estadísticas, pueden incluir por ejemplo la disponibilidad de los recursos, el presupuesto o el equipo que estará en campo. Antes de calcular el tamaño de la muestra necesitamos determinar varias cosas:


    1. Tamaño de la población. Una población es una colección bien definida de objetos o individuos que tienen características similares. Hablamos de dos tipos: población objetivo, que suele tiene diversas características y también es conocida como la población teórica. La población accesible es la población sobre la que los investigadores aplicaran sus conclusiones.
  1. Margen de error (intervalo de confianza). El margen de error es una estadística que expresa la cantidad de error de muestreo aleatorio en los resultados de una encuesta, es decir, es la medida estadística del número de veces de cada 100 que se espera que los resultados se encuentren dentro de un rango específico.
  2. Nivel de confianza. Son intervalos aleatorios que se usan para acotar un valor con una determinada probabilidad alta. Por ejemplo, un intervalo de confianza de 95% significa que los resultados de una acción probablemente cubrirán las expectativas el 95% de las veces.
  3. La desviación estándar. Es un índice numérico de la dispersión de un conjunto de datos (o población). Mientras mayor es la desviación estándar, mayor es la dispersión de la población.
page4image41230400 page4image41230784 page4image41230592

martes, 21 de abril de 2020

Teoría de la probabilidad


1. Introducción.
En la vida cotidiana aparecen muchas situaciones en las que los resultados observados son diferentes aunque las condiciones iniciales en las que se produce la experiencia sean las mismas. Por ejemplo, al lanzar una moneda unas veces resultará cara y otras cruz. Estos fenómenos, denominados aleatorios, se ven afectados por la incertidumbre.
En el lenguaje habitual, frases como "probablemente...", "es poco probable que...", "hay muchas posibilidades de que..." hacen referencia a esta incertidumbre.
La teoría de la probabilidad pretende ser una herramienta para modelizar y tratar con situaciones de este tipo. Por otra parte, cuando aplicamos las técnicas estadísticas a la recogida, análisis e interpretación de los datos, la teoría de la probabilidad proporciona una base para evaluar la fiabilidad de las conclusiones alcanzadas y las inferencias realizadas.
El objetivo del Cálculo de Probabilidades es el estudio de métodos de análisis del comportamiento de fenómenos aleatorios.
Aunque desde sus orígenes siempre han estado ligadas, es cierto que existe un cierto paralelismo entre la estadística descriptiva y el cálculo de probabilidades, como se puede apreciar en la siguiente tabla:

ESTADÍSTICA
PROBABILIDAD
Fi Fi
Probabilidad
Variable Unidimensional
Variable aleatoria
Variable Bidimensional
Vectores aleatorios
Distribución de frecuencias
Distribución de Probabilidad (Función de distribución)
Medías, Momentos
Esperanza, momentos
Independencia Estadística
Independencia estocástica
Series Temporales
Procesos escolásticos

En la vida diaria nos encontramos muchos fenómenos que se puede repetir un gran número de veces, en condiciones similares dando un conjunto de datos. 
Estos fenómenos pueden ser determinísticos o aleatorios.

2. PROBABILIDAD CLÁSICA O “A PRIORI”
- Definición: Si un evento puede ocurrir de N formas, las cuales se excluyen mutuamente y son igualmente probables, y si m de esos eventos poseen una característica E, la probabilidad de ocurrencia de E es igual a m/N.

3. PROBABILIDAD RELATIVA O “A POSTERIORI”
- DEFINICIÓN: Si un suceso es repetido un GRAN número de veces, y si algún evento resultante, con la característica E, ocurre m veces, la frecuencia relativa de la ocurrencia E, m/n, es aproximadamente igual a la probabilidad de ocurrencia de E. 


4. Conceptos básicos.
  • Fenómeno determinístico: al repetir un fenómenos bajo idénticas condiciones iniciales se obtiene siempre los mismos datos.
  • Fenómeno aleatorio: al repetir el fenómeno bajo las mismas condiciones no obtenemos los mismos resultados. Por ejemplo: al lanzar una moneda al aire, puede dar cara o cruz.
  • Experimento aleatorio: es una acción que repetimos bajo idénticas condiciones iniciales y no se obtienen siempre los mismos resultados. Por ejemplo, al lanzar un dado, tenemos una sucesión de números que pueden salir.
  • Suceso elemental: es cada uno de las posibilidades de un experimento aleatorio. 
  • Espacio muestral: conjunto de todos los sucesos elementales del experimento aleatorio y lo llamaremos (E). En el caso del dado sería: 1, 2, 3, 4, 5, 6.
  • Suceso: está formado por uno o más sucesos, es decir, un subconjunto de resultados elementales del experimento aleatorio. En el caso del dado, nos interesa saber si es par o impar el número dado.
  • Dos sucesos serán iguales, cuando todo el suceso elemental de uno está en el otro, y viceversa.
  • Suceso imposible: no tiene ningún elemento espacial (E). Por tanto, no ocurrirá nunca se representa como . Por ejemplo, en el lanzamiento del dado no puede darse 8.

INTRODUCCIÓN AL CÁLCULO DE PROBABILIDADES.
—> Suceso complementario a un suceso A: Es el suceso que verifica si, como el resultado del experimento aleatorio, no se verifica A. Se denota con el símbolo Ā.
—> Sucesos incompatibles: Los sucesos A y B son incompatibles o mutuamente excluyentes si no pueden ocurrir simultaneamente.


  


Si tenemos dos sucesos cualesquiera, A,B: A está contenido en B y B no está contenido en A,
AB BA
Si tenemos dos sucesos cualesquiera A, B: donde A está contenido en B y B está
contenido en A, entonces A = B.
A,B/AB BAA=B
—> Unión de sucesos: es el suceso formado por todos los complementos de A y de B. 
AB.   

—> Diferencia de sucesos: dados dos sucesos aleatorios A, B E , se llama suceso
diferencia de A y B y se representa mediante A/B, o bien, A-B al suceso aleatorio formado por todos los sucesos elementales que pertenecen a A, pero no a B. 


—> Intersección de sucesos: Dados dos sucesos A y B, se llama suceso intersección de A y B, y se representa por A ∩ B, al suceso que se realiza si y sólo si se realizan simultáneamente A y B. 


5. Reglas básicas: Teoría de la Probabilidad.
  • Las probabilidades de un evento o suceso siempre oscilan entre 0 y 1.
  • La probabilidad de que un evento o suceso sea seguro es igual a 1.
  • La probabilidad de un suceso o evento imposible es igual a 0.
  • La unión de A y B es:
P(AUB)=P(A)+P(B)-P(A П B)
  • La probabilidad de un suceso contrario o del complemento es igual a 1, menos probabilidad del suceso.
P (A ́)= 1-P(A)
  • La probabilidad de que ocurra el suceso A si ha ocurrido el suceso  B se denomina probabilidad condicionada y se define como:
P(A/B)=P(AI B) / P(B)
SiP(B) no es igual a 0.

6. Probabilidad Condicionada.
Hasta ahora hemos visto el concepto de probabilidad partiendo de que la única información que tenemos sobre el experimento es el espacio muestral. Sin embargo, en ocasiones se conoce que un determinado suceso ha ocurrido. ¿Modificará esta información adicional la probabilidad de que ocurra otro suceso?. Veremos que generalmente sí. A partir de esta idea surge la idea de probabilidad condicionada, que se
define:
Sea un espacio probabilístico y un suceso B perteneciente al Algebra de Boole, tal que P(B) ≠ 0, entonces se define la probabilidad de que ocurra A si antes ha ocurrido B, como:
P(B/A)= P(A ∩ B)/ P(A)  si P(B) ≠ O.
 Análogamente podemos definir P(A/B) como: 
P(A/B)= P(A ∩ B)/ P(B) si P(A) ≠ O.
7. Teorema de Bayes.
Expresa la probabilidad condicional de un evento aleatorio A dado B en términos de la distribución de probabilidad condicional del evento B dado A y la distribución de probabilidad marginal de sólo A.
En términos más generales el teorema de Bayes que vincula la probabilidad de A dado B con la probabilidad de B dado A. 


8. Distribución de probabilidad en variables directas: Binomial y Poisson.
8.1. Distribución binomial.
La distribución binomial es un modelo matemático de distribución teórica de (la normal es con variables continuas) variables discretas
– Cuando se producen situaciones en las que sólo existen dos posibilidades (cara/cruz; sano/enfermo...)
– El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente.
– La probabilidad del suceso A es constante, la representamos por p, y no varía de una prueba a otra. La probabilidad de `A es 1- p y la representamos por q .
– El experimento consta de un número n de pruebas.
Mediante esta distribución se resuelven los problemas que plantean:
– Si al hacer un experimento hay una probabilidad p de que ocurra un suceso ¿Cuál es la probabilidad de que en N experimentos el suceso ocurra X veces?
• P: probabilidad de ocurrencia; q de no ocurrencia
• X: numero sucesos favorables
• N: numero total de ensayos 



8.2. Distribución de Poisson.
Poisson: médico miliar francés que estudia en el s.XIX la probabilidad de que un soldado muera en el campo de batalla por golpes de un caballo
– También se llama la distribución de probabilidad de casos raros.
La distribución de Poisson se utiliza en situaciones donde los sucesos son impredecibles o de ocurrencia aleatoria, es decir, no se sabe el total de posibles resultados.
Permite determinar la probabilidad de ocurrencia de un suceso con resultado directo.
Es muy útil cuando la muestra o segmento es grande y la posibilidad de éxitos  p es pequeña. También, es útil cuando la probabilidad del evento que nos interesa se distribuye dentro de un segmento  n dado como, por ejemplo, distancia, área, volumen o tiempo definido. 



9. Tipificación de valores.
Como cualquier otra variable, las variables con distribución normal también pueden tipificarse
􏰀 El resultado es una variable que tiene la distribución normal tipificada o estándar
􏰀 Es una distribución con media 0 y desviación típica 1
􏰀 Suele representarse con la letra z
􏰀 Una vez tipificadas, todas las variables con distribución normal tienen exactamente la misma distribución.
Esto quiere decir que para toda variable con distribución normal, una vez tipificada, para cada valor o conjunto de valores de z, sabemos exactamente su frecuencia relativa o su probabilidad.
Pero el valor tipificado z no tiene por qué ser un número
entero
􏰀 Podemos calcular la probabilidad de cualquier valor de z, aunque no sea entero
􏰀 Hoy día lo hacemos con ordenadores
􏰀 También se puede hacer (antes siempre así) con tablas publicadas en muchos lugares con la frecuencia relativa o probabilidad de diferentes valores de z en la distribución normal estándar
􏰀 Muchos tablas ligeramente diferentes: todas la misma información.


Cómo interpretar la tabla:
Columna de la izquierda (permite elegir fila): valor de z con un decimal.
Columnas sucesivas (permite elegir columna): valor del segundo decimal de z.

martes, 7 de abril de 2020

Representación de variables.

REPRESENTACIONES GRÁFICAS.

Las representaciones gráficas de las variables es una manera rápida de comunicar información numérica, se puede decir que son la imagen de las ideas.

Completan el análisis estadístico, aumentando la información y ofreciendo una orientación visual.
No reemplaza a los cálculos que debemos hacer para las medidas estadísticas.

Encontramos una serie de normas básicas:

- Visualmente claros.
- Claramente descritos en pie de figura y en texto.
- Representa gráficamente las conclusiones del estudio.
- Hay que evitar gráficos confusos y no sobrecargarlos.

REPRESENTACIONES GRÁFICAS MÁS EMPLEADAS.



  • Variables cualitativas: 
- Gráfico de sectores.
- Gráfico de barras.
- Pictogramas.
  • Variables cuantitativas:
- Gráfico de barras.
- Histogramas.
- Polígonos de frecuencia.
- Gráficos de tronco y hojas.
  • Datos bidimensionales y multidimensionales.
- Tendencias temporales.
- Nubes de puntos (scatter plot)
- Otros gráficos multidimensionales.

VARIABLES CUALITATIVAS.
Podemos representarlas mediante gráfico de sectores, gráfico de barras y pictogramas.

GRÁFICO DE SECTORES.
El área de cada sector circular es proporcional a la frecuencia (absoluta o relativa)de las categorías de la variable.
No usar con variables ordinales y no es recomendable para más de 3 o 4 categorías.
Sólo muestra una variable a la vez, si se quiere hacer comparaciones se tienen que hacer dos diagramas de sectores.

Los errores son: utilizar para variables policotómicas u ordinales y utilizar para representar muchas categorías.



DIAGRAMAS DE BARRAS.
Se usa también en variables cualitativas, con este tipo evitamos que se pierdan los atributos de orden o jerarquía.
Las frecuencias absolutas o relativas de todas las categorías de una variable se muestran fácilmente con este tipo de gráfico. Cada barra representa una categoría y la altura de esta, la frecuencia.
Las barras deben estar separadas y es importante que el eje Y empiece en la frecuencia 0.

Un error en estos gráficos es comparar las frecuencias absolutas y no son comparables.
En una variable cuantitativa es preferible un histograma, antes que este tipo de representación.

PICTOGRAMAS
Es un tipo gráfico similar al diagrama de barras, pero utiliza figuras proporcionales a la frecuencia en lugar de barras.
Generalmente se emplea para representar variables cualitativas.
Este tipo de gráfico no permite buenas comparaciones, para realizar su gráfica primero se deben escoger las figuras que sean alusivas al tema y se les asigna un valor.


VARIABLES CUANTITATIVAS.
Las representaciones más usadas en estas variables son los histogramas y los polígonos de frecuencia.

HISTOGRAMA.
Es el más usado, ya que es el más sencillo de interpretar.
Es una sucesión de rectángulos contiguos construidos sobre una recta.
Representa a una variable continua con sus datos agrupados en intervalos.
La base de cada rectángulo representa la amplitud de cada intervalo y la altura está determinada por la frecuencia. Cada intervalo representado en el histograma ocupa un rectángulo.

POLÍGONOS DE FRECUENCIA.
Une los puntos medios de las bases superiores de los rectángulos.
Se acostumbra a prolongar el polígono hasta puntos de frecuencia cero.
Un polígono de frecuencia permite ver con gran claridad las variaciones de la frecuencia de una clase a otra.
Son muy útiles cuando se pretende comparar dos o más distribuciones.
La suma de las áreas de los rectángulos de un histograma es igual al área limitada por el polígono de frecuencia y el eje X.
El polígono de frecuencia resume, en una sola línea, el resultado del histograma correspondiente.

GRÁFICOS DE TRONCO Y HOJAS.
Representa las variables cuantitativas continuas.
Cada dato de la serie se divide en dos partes:
- En la primera columna se representa los tallos.
- En la segunda columna las hojas.

Es un diagrama híbrido entre una tabla y una gráfica.
Tiene la ventaja de no perder información individual, identifica la distribución de los datos y si existen clases faltantes.
Esto hace que para muchos autores sea la representación gráfica de elección.

GRÁFICOS PARA DATOS BIDIMENSIONALES.
Encontramos tendencias temporales, diagramas de dispersión (nube de puntos o "scatter plot") y diagrama de estrellas.

DIAGRAMAS DE DISPERSIÓN.
Representan el comportamiento de dos variables continuas en un grupo de individuos.
En el eje x: se representa la variable independiente.
En el eje y: la variable dependiente.
La imagen del diagrama nos da una idea de la correlación de las variables.

DIAGRAMA DE ESTRELLAS.
Representar un conjunto de variables cuantitativas y comparar entre diferentes unidades de análisis (individuos/ conglomerados).
Cada variable representa un vértice del diagrama de estrella. Da una idea del comportamiento del conjunto de variables
Permite comparativas con "Gold Standard".

TENDENCIAS TEMPORALES.
Una serie temporal se define como una colección de observaciones de una variable recogidas secuencialmente en el tiempo. Estas observaciones se suelen recoger en instan- tes de tiempo equiespaciados. Si los datos se recogen en instantes temporales de forma continua, se debe o bien digitalizar la serie, es decir, recoger sólo los valores en instantes de tiempo equiespaciados, o bien acumular los valores sobre intervalos de tiempo.













Reflexión

La estadística va de "riesgo, de recompensas, de azar". Básicamente,  la estadística va de entender datos . Y los datos son hoy má...