EN EL CUETO: TEST DE ASOCIACIÓN O INDEPENDENCIA (Chi-cuadrado)

Las pruebas de asociación (o independencia) sirven para determinar si existe una relación entre dos (o más variables). Existen numerosas pruebas estadísticas de asociación (por ejemplo: Chi-cuadrado de Pearson, Chi-cuadrado de Yates, Chi-cuadrado de la razón de verosimilitud, prueba exacta de Fisher, r de Pearson, rho de Spearman, etc.), aunque por ahora nos centraremos en las pruebas Chi-cuadrado y la asociación entre variables categóricas.

Para evaluar si dos variables categóricas están asociadas (relacionadas) es necesario comprobar si la distribución de los valores de una variable difiere en función de los valores de la otra. Para ello, debemos partir de las siguientes hipótesis estadísticas:

Hipótesis nula, Ho: No existe relación entre las variables (los resultados de las categorías de una variable no se ven afectados o influenciados por las categorías de la segunda variable).
Hipótesis alterna, Ha: Existe asociación o relación entre las variables.

Si se acepta la hipótesis nula (p>0.05) significa que ambas distribuciones se encuentran no asociadas (son independientes).

EN R

La función requerida en R para realizar una prueba de asociación es chisq.test(). En este caso, aprovecharemos la interfaz de Rcmdr para introducir nuestros datos de forma sencilla y obtener los resultados.

EJEMPLOS

1.- Vamos analizar una muestra de 200 ornitólogos aficionados (menos de dos años de experiencia en la observación de aves). De ellos, 100 participaron en un curso de identificación sobre aves rapaces en el último año. Sometidos a una prueba de identificación de aves conjunta, se consideraron “aprobados” aquellos que identificaron específicamente más de la mitad de los individuos (sobre un total de 14 individuos observados mediante diapositivas, cada uno durante 3 segundos). ¿Hay relación entre la participación en el curso y la mejora en sus destrezas ornitológicas? Los resultados obtenidos se reflejan en la siguiente tabla:

	APROBADOS	SUSPENDIDOS
CON CURSO	77	33
SIN CURSO	50	50

EXPLICACIÓN DE LAS ÓRDENES (negro), EJECUCIÓN (rojo) Y RESULTADOS (azul)

En R Commander nos dirigiremos directamente al menú: Estadísticos->Tablas de contingencia->Introducir y analizar una tabla de doble entrada

Indicamos el número de filas y columnas (en nuestro caso 2x2) e introducimos las etiquetas y frecuencias. Pedimos porcentajes (si es que nos interesa) y seleccionamos Test de independencia Chi-cuadrado, Componentes del estadístico Chi-cuadrado e Imprimir las frecuencias esperadas. Finalmente aplicamos.

Las líneas tras ”>” que a continuación se incluyen se pueden utilizar directamente en R o Rcmdr (quitando el símbolo >). Todo lo que aparece a partir de # son comentarios de explicación.

> .Table <- matrix(c(77,33,50,50), 2, 2, byrow=TRUE) # Los datos introducidos en la tabla.
> rownames(.Table) <- c('CON.CURSO', 'SIN.CURSO') # Las etiquetas dadas a la fila.
> colnames(.Table) <- c('APROBADOS', 'SUSPENDIDOS') # Las etiquetas dadas a la columna.
> .Table # Se piden los datos tabulados.

          APROBADOS SUSPENDIDOS
CON.CURSO        77          33
SIN.CURSO        50          50

> colPercents(.Table) # Los porcentajes por columnas.

          APROBADOS SUSPENDIDOS
CON.CURSO      60.6        39.8
SIN.CURSO      39.4        60.2
Total         100.0       100.0
Count         127.0        83.0

> .Test <- chisq.test(.Table, correct=FALSE) # Se hace el test chi-cuadrado y se asigna a la variable .Test (correct=FALSE indica que no se aplique la corrección de Yates).
> .Test # Pedimos los resultados del análisis.

Pearson's Chi-squared test

data: .Table
X-squared = 8.7658, df = 1, p-value = 0.003069

> .Test$expected # Pedimos los datos de las frecuencias esperadas.

        APROBADOS SUSPENDIDOS
CON.CURSO 66.52381    43.47619
SIN.CURSO 60.47619    39.52381

> round(.Test$residuals^2, 2) # Pedimos los componentes del Chi-cuadrado.
         APROBADOS SUSPENDIDOS
CON.CURSO      1.65        2.52
SIN.CURSO      1.81        2.78

Aceptamos la hipótesis alternativa con un nivel de significación p<0.01 (p = 0.003069). Existe una relación altamente significativa entre la asistencia al curso y el resultado en la prueba, por lo que habría que considerar que se ha mejorado, al menos, en la identificación de rapaces.

4 comentarios:

Anónimo29 de noviembre de 2014 a las 23:50
Como determinas que valor de alfa usar? para decidir si el p-value es mayor o menor y por lo tanto si se rechaza o no? Es decir aqui usas 0.01, como determinas que ese es el numero de debes usar
ResponderEliminar
Respuestas
Unknown30 de noviembre de 2014 a las 14:46
Este comentario ha sido eliminado por el autor.
ResponderEliminar
Respuestas
Anónimo30 de noviembre de 2014 a las 20:15
Wow! Excelente página, muchas gracias!
ResponderEliminar
Respuestas