La prueba de bondad de ajuste se suele aplicar en diseños de investigación en los que se estudia a un único grupo. Compara la distribución de frecuencias observadas (Fo) de una variable cualitativa con la distribución de frecuencias esperadas (Fe) de esa misma variable. Se puede utilizar la distribución Chi-cuadrado para calcular la bondad de ajuste sobre una distribución predeterminada.
El propósito de la prueba es averiguar si existen diferencias estadísticamente significativas entre la distribución de frecuencias observadas (Fo) y la distribución de frecuencias esperadas (Fe). Así, se plantean las siguientes hipótesis estadísticas:
- Hipótesis nula: Ho: Fo = Fe
- Hipótesis alterna: Ha: Fo ≠ Fe
Si se acepta la hipótesis nula (p>0.05) significa que ambas distribuciones se ajustan bien (bondad de ajuste).
La función requerida en R para realizar una prueba de bondad de ajuste es chisq.test(). En este caso tendremos una lista de observaciones y una lista de ratios esperados, proporciones o valores (frecuencias esperadas).
EJEMPLOS
1.- La proporción varones/mujeres en la franja de edad 15-64 años en España es 0.53 (https://www.cia.gov/library/publications/the-world-factbook/fields/2018.html). Sin embargo, en un muestreo de población en Villaliebres del Sobrarbe se obtuvo una cifra de 25 hombres y 34 mujeres en la franja de edad señalada. ¿Se diferencia esta proporción de sexos de la española?
EXPLICACIÓN DE LAS ÓRDENES (negro), EJECUCIÓN (rojo) Y RESULTADOS (azul)
Las líneas tras ”>” que a continuación se incluyen se pueden utilizar directamente en R o Rcmdr. Todo lo que aparece a partir de # son comentarios de explicación.
> obs<-c(25,34) # Asignamos las frecuencias observadas a una variable (obs)> esp<-c(0.53,0.47) # Asignamos las frecuencias esperadas a una variable (esp)> tba=chisq.test(obs, p=esp, rescale.p=T) # Se hace el test de bondad de ajuste, indicándole la variable de frecuencias observadas (obs) y las frecuencias esperadas (p=esp). El parámetro rescale.p=T le dice a R que reconvierta los valores esperados para que sumen 1. Es una buena práctica añadir este parámetro ya que así no importa que formato tengan nuestros datos (frecuencias, porcentajes); R los convertirá en proporciones. Además asignamos el test a una variable que denominamos, por ejemplo, tba (de test de bondad de ajuste).> tba # Pedimos los resultados de la variableChi-squared test for given probabilitiesdata: obsX-squared = 2.6749, df = 1, p-value = 0.1019> tba$obs # Pedimos los datos de las frecuencias observadas (simplemente por comprobar)[1] 25 34> tba$exp # Pedimos los datos de las frecuencias esperadas (simplemente por comprobar)[1] 31.27 27.73
Así, la proporción de sexos de Villaliebres del Sobrarbe en el rango de edad 15-64 años no difiere estadísticamente de la española (p=0.1019, aceptamos la hipótesis nula).
2.- El fin de semana pasé por el casino de Liendreclara y jugué a los dados. Me llevé uno que me tenía un poco mosca, ¿estaría desequilibrado? Ya en casa lo tiré 600 veces, anotando los resultados (1: 103; 2: 77; 3: 89; 4: 108; 5: 99; 6: 124).
EXPLICACIÓN DE LAS ÓRDENES (negro), EJECUCIÓN (rojo) Y RESULTADOS (azul)
Las líneas tras ”>” que a continuación se incluyen se pueden utilizar directamente en R o Rcmdr. Todo lo que aparece a partir de # son comentarios de explicación.
> obs<-c(103,77,89,108,99,124) # Asignamos las frecuencias observadas a una variable (obs)> esp<-c(100,100,100,100,100,100) # Asignamos las frecuencias esperadas a una variable (esp)> tba=chisq.test(obs, p=esp, rescale.p=T) # Se hace el test de bondad de ajuste, indicándole la variable de frecuencias observadas (obs) y las frecuencias esperadas (p=esp). El parámetro rescale.p=T le dice a R que reconvierta los valores esperados para que sumen 1. Es una buena práctica añadir este parámetro ya que así no importa que formato tengan nuestros datos (frecuencias, porcentajes); R los convertirá en proporciones. Además asignamos el test a una variable que denominamos, por ejemplo, tba (de test de bondad de ajuste).> tba # Pedimos los resultados de la variableChi-squared test for given probabilitiesdata: obsX-squared = 13, df = 5, p-value = 0.02338> tba$obs # Pedimos los datos de las frecuencias observadas (simplemente por comprobar)[1] 103 77 89 108 99 124> tba$exp # Pedimos los datos de las frecuencias esperadas (simplemente por comprobar)[1] 100 100 100 100 100 100> tba$res # Pedimos los datos de los residuos de Pearson[1] 0.3 -2.3 -1.1 0.8 -0.1 2.4
Aceptamos la hipótesis alternativa con un nivel de significación p<0.05 (p = 0.02338). ¡El maldito dado estaba cargado al 6!
No hay comentarios:
Publicar un comentario
Puedes hacer tu comentario, pero has de saber que los comentarios pueden ser moderados, según el criterio del administrador.