Las pruebas de asociación (o independencia) sirven para determinar si existe una relación entre dos (o más variables). Existen numerosas pruebas estadísticas de asociación (por ejemplo: Chi-cuadrado de Pearson, Chi-cuadrado de Yates, Chi-cuadrado de la razón de verosimilitud, prueba exacta de Fisher, r de Pearson, rho de Spearman, etc.), aunque por ahora nos centraremos en las pruebas Chi-cuadrado y la asociación entre variables categóricas.
Para evaluar si dos variables categóricas están asociadas (relacionadas) es necesario comprobar si la distribución de los valores de una variable difiere en función de los valores de la otra. Para ello, debemos partir de las siguientes hipótesis estadísticas:
- Hipótesis nula, Ho: No existe relación entre las variables (los resultados de las categorías de una variable no se ven afectados o influenciados por las categorías de la segunda variable).
- Hipótesis alterna, Ha: Existe asociación o relación entre las variables.
Si se acepta la hipótesis nula (p>0.05) significa que ambas distribuciones se encuentran no asociadas (son independientes).
La función requerida en R para realizar una prueba de asociación es chisq.test(). En este caso, aprovecharemos la interfaz de Rcmdr para introducir nuestros datos de forma sencilla y obtener los resultados.
EJEMPLOS
1.- Vamos analizar una muestra de 200 ornitólogos aficionados (menos de dos años de experiencia en la observación de aves). De ellos, 100 participaron en un curso de identificación sobre aves rapaces en el último año. Sometidos a una prueba de identificación de aves conjunta, se consideraron “aprobados” aquellos que identificaron específicamente más de la mitad de los individuos (sobre un total de 14 individuos observados mediante diapositivas, cada uno durante 3 segundos). ¿Hay relación entre la participación en el curso y la mejora en sus destrezas ornitológicas? Los resultados obtenidos se reflejan en la siguiente tabla:
APROBADOS | SUSPENDIDOS | |
CON CURSO | 77 | 33 |
SIN CURSO | 50 | 50 |
EXPLICACIÓN DE LAS ÓRDENES (negro), EJECUCIÓN (rojo) Y RESULTADOS (azul)
En R Commander nos dirigiremos directamente al menú: Estadísticos->Tablas de contingencia->Introducir y analizar una tabla de doble entrada
Indicamos el número de filas y columnas (en nuestro caso 2x2) e introducimos las etiquetas y frecuencias. Pedimos porcentajes (si es que nos interesa) y seleccionamos Test de independencia Chi-cuadrado, Componentes del estadístico Chi-cuadrado e Imprimir las frecuencias esperadas. Finalmente aplicamos.
Las líneas tras ”>” que a continuación se incluyen se pueden utilizar directamente en R o Rcmdr (quitando el símbolo >). Todo lo que aparece a partir de # son comentarios de explicación.
> .Table <- matrix(c(77,33,50,50), 2, 2, byrow=TRUE) # Los datos introducidos en la tabla.
> rownames(.Table) <- c('CON.CURSO', 'SIN.CURSO') # Las etiquetas dadas a la fila.
> colnames(.Table) <- c('APROBADOS', 'SUSPENDIDOS') # Las etiquetas dadas a la columna.
> .Table # Se piden los datos tabulados.
APROBADOS SUSPENDIDOS
CON.CURSO 77 33
SIN.CURSO 50 50
> colPercents(.Table) # Los porcentajes por columnas.
APROBADOS SUSPENDIDOS
CON.CURSO 60.6 39.8
SIN.CURSO 39.4 60.2
Total 100.0 100.0
Count 127.0 83.0
> .Test <- chisq.test(.Table, correct=FALSE) # Se hace el test chi-cuadrado y se asigna a la variable .Test (correct=FALSE indica que no se aplique la corrección de Yates).
> .Test # Pedimos los resultados del análisis.
Pearson's Chi-squared test
data: .Table
X-squared = 8.7658, df = 1, p-value = 0.003069
> .Test$expected # Pedimos los datos de las frecuencias esperadas.
APROBADOS SUSPENDIDOS
CON.CURSO 66.52381 43.47619
SIN.CURSO 60.47619 39.52381
> round(.Test$residuals^2, 2) # Pedimos los componentes del Chi-cuadrado.
APROBADOS SUSPENDIDOS
CON.CURSO 1.65 2.52
SIN.CURSO 1.81 2.78
Aceptamos la hipótesis alternativa con un nivel de significación p<0.01 (p = 0.003069). Existe una relación altamente significativa entre la asistencia al curso y el resultado en la prueba, por lo que habría que considerar que se ha mejorado, al menos, en la identificación de rapaces.
Como determinas que valor de alfa usar? para decidir si el p-value es mayor o menor y por lo tanto si se rechaza o no? Es decir aqui usas 0.01, como determinas que ese es el numero de debes usar
ResponderEliminarHola, gracias por tu comentario y pregunta. Intentaré hacerme entender fácilmente (¡no siempre lo consigo!).
EliminarUn error de tipo I se produce cuando la hipótesis nula es verdadera, pero se rechaza (rechazo incorrecto). La probabilidad de cometer Error de tipo I es el nivel de significación α.
Un error de tipo II se produce cuando la hipótesis nula es falsa, pero se acepta (aceptación incorrecta). La probabilidad de cometer Error de tipo II depende del verdadero valor del parámetro. Se hace tanto menor cuanto mayor sea n.
¿Qué hacemos para evitar el error de tipo I? Aumentar el nivel de significación estadística y, por tanto, aumentar la probabilidad de cometer un error de tipo II.
Hablando coloquialmente, si se tratara de un juicio, un error de tipo I sería "condenar a un inocente" y consideraríamos un error tipo II "dejar a un culpable en libertad".
Sin embargo, minimizar los errores de decisión no es un tema sencillo, dado que para cualquier tamaño de muestra el esfuerzo para reducir un tipo de error resulta en el aumento del otro tipo de error. La única manera de minimizar ambos tipos de error, sin apenas mejora de la prueba, es aumentar el tamaño de la muestra (esto a veces no es posible).
Con base en las consecuencias que puedan tenerse puede ser mejor la probabilidad de cometer un error de tipo I o un error de tipo II y, por tanto, deberás ser TÚ quien decida por qué error te decantas.
En concreto, y sobre el ejemplo que me preguntas, ¡¡¡y considerándolo siempre antes de realizar el test!!! ¿qué opción prefieres?:
Error tipo I: No hay relación entre el curso y la mejora de las destrezas ornitológicas, pero yo, sin embargo digo que esa relación sí existe (estoy dando por bueno un curso que “no es tan bueno”).
Error de tipo II: El curso mejora las destrezas ornitológicas pero yo, sin embargo, digo que no las mejora (rechazo un curso “bueno”, lo probable será que me replantee el curso y lo mejore).
En este caso, yo prefiero claramente la segunda opción.
Salu2
Este comentario ha sido eliminado por el autor.
ResponderEliminarWow! Excelente página, muchas gracias!
ResponderEliminar