FRASE DE INTRODUCCIÓN

Esta es la colina cónica, aislada y peñascosa (cueto) desde la que os presento mis ideas, opiniones, vivencias... Este blog nace siendo de todo y de nada, ¡ya hará su camino!

Como podrás observar, este blog se encuentra en una etapa inicial de desarrollo. Así que, ¡todavía no critiques su diseño! ¡un poquito de por favor!

miércoles, 10 de abril de 2013

TEST DE ASOCIACIÓN O INDEPENDENCIA (Chi-cuadrado)

Las pruebas de asociación (o independencia) sirven para determinar si existe una relación entre dos (o más variables). Existen numerosas pruebas estadísticas de asociación (por ejemplo: Chi-cuadrado de Pearson, Chi-cuadrado de Yates, Chi-cuadrado de la razón de verosimilitud, prueba exacta de Fisher, r de Pearson, rho de Spearman, etc.), aunque por ahora nos centraremos en las pruebas Chi-cuadrado y la asociación entre variables categóricas.

Para evaluar si dos variables categóricas están asociadas (relacionadas) es necesario comprobar si la distribución de los valores de una variable difiere en función de los valores de la otra. Para ello, debemos partir de las siguientes hipótesis estadísticas:

  • Hipótesis nula, Ho: No existe relación entre las variables (los resultados de las categorías de una variable no se ven afectados o influenciados por las categorías de la segunda variable).
  • Hipótesis alterna, Ha: Existe asociación o relación entre las variables.

Si se acepta la hipótesis nula (p>0.05) significa que ambas distribuciones se encuentran no asociadas (son independientes).

EN R

La función requerida en R para realizar una prueba de asociación es chisq.test(). En este caso, aprovecharemos la interfaz de Rcmdr para introducir nuestros datos de forma sencilla y obtener los resultados.

EJEMPLOS

1.- Vamos analizar una muestra de 200 ornitólogos aficionados (menos de dos años de experiencia en la observación de aves). De ellos, 100 participaron en un curso de identificación sobre aves rapaces en el último año. Sometidos a una prueba de identificación de aves conjunta, se consideraron “aprobados” aquellos que identificaron específicamente más de la mitad de los individuos (sobre un total de 14 individuos observados mediante diapositivas, cada uno durante 3 segundos). ¿Hay relación entre la participación en el curso y la mejora en sus destrezas ornitológicas? Los resultados obtenidos se reflejan en la siguiente tabla:

  APROBADOS SUSPENDIDOS
CON CURSO 77 33
SIN CURSO 50 50
 

EXPLICACIÓN DE LAS ÓRDENES (negro), EJECUCIÓN (rojo) Y RESULTADOS (azul)

En R Commander nos dirigiremos directamente al menú: Estadísticos->Tablas de contingencia->Introducir y analizar una tabla de doble entrada 

Indicamos el número de filas y columnas (en nuestro caso 2x2) e introducimos las etiquetas y frecuencias. Pedimos porcentajes (si es que nos interesa) y seleccionamos Test de independencia Chi-cuadrado, Componentes del estadístico Chi-cuadrado e Imprimir las frecuencias esperadas. Finalmente aplicamos.

Las líneas tras ”>” que a continuación se incluyen se pueden utilizar directamente en R o Rcmdr (quitando el símbolo >). Todo lo que aparece a partir de # son comentarios de explicación.

> .Table <- matrix(c(77,33,50,50), 2, 2, byrow=TRUE) # Los datos introducidos en la tabla.
> rownames(.Table) <- c('CON.CURSO', 'SIN.CURSO') # Las etiquetas dadas a la fila.
> colnames(.Table) <- c('APROBADOS', 'SUSPENDIDOS') # Las etiquetas dadas a la columna.
> .Table  # Se piden los datos tabulados.

          APROBADOS SUSPENDIDOS
CON.CURSO        77          33
SIN.CURSO        50          50

> colPercents(.Table) # Los porcentajes por columnas.

          APROBADOS SUSPENDIDOS
CON.CURSO      60.6        39.8
SIN.CURSO      39.4        60.2
Total         100.0       100.0
Count         127.0        83.0

> .Test <- chisq.test(.Table, correct=FALSE) # Se hace el test chi-cuadrado y se asigna a la variable .Test (correct=FALSE indica que no se aplique la corrección de Yates).
> .Test # Pedimos los resultados del análisis.

   Pearson's Chi-squared test

data:  .Table
X-squared = 8.7658, df = 1, p-value = 0.003069

> .Test$expected # Pedimos los datos de las frecuencias esperadas.

          APROBADOS SUSPENDIDOS
CON.CURSO  66.52381    43.47619
SIN.CURSO  60.47619    39.52381

> round(.Test$residuals^2, 2) # Pedimos los componentes del Chi-cuadrado.
         APROBADOS SUSPENDIDOS
CON.CURSO      1.65        2.52
SIN.CURSO      1.81        2.78

Aceptamos la hipótesis alternativa con un nivel de significación p<0.01 (p = 0.003069). Existe una relación altamente significativa entre la asistencia al curso y el resultado en la prueba, por lo que habría que considerar que se ha mejorado, al menos, en la identificación de rapaces.

4 comentarios:

  1. Como determinas que valor de alfa usar? para decidir si el p-value es mayor o menor y por lo tanto si se rechaza o no? Es decir aqui usas 0.01, como determinas que ese es el numero de debes usar

    ResponderEliminar
    Respuestas
    1. Hola, gracias por tu comentario y pregunta. Intentaré hacerme entender fácilmente (¡no siempre lo consigo!).
      Un error de tipo I se produce cuando la hipótesis nula es verdadera, pero se rechaza (rechazo incorrecto). La probabilidad de cometer Error de tipo I es el nivel de significación α.
      Un error de tipo II se produce cuando la hipótesis nula es falsa, pero se acepta (aceptación incorrecta). La probabilidad de cometer Error de tipo II depende del verdadero valor del parámetro. Se hace tanto menor cuanto mayor sea n.
      ¿Qué hacemos para evitar el error de tipo I? Aumentar el nivel de significación estadística y, por tanto, aumentar la probabilidad de cometer un error de tipo II.
      Hablando coloquialmente, si se tratara de un juicio, un error de tipo I sería "condenar a un inocente" y consideraríamos un error tipo II "dejar a un culpable en libertad".
      Sin embargo, minimizar los errores de decisión no es un tema sencillo, dado que para cualquier tamaño de muestra el esfuerzo para reducir un tipo de error resulta en el aumento del otro tipo de error. La única manera de minimizar ambos tipos de error, sin apenas mejora de la prueba, es aumentar el tamaño de la muestra (esto a veces no es posible).
      Con base en las consecuencias que puedan tenerse puede ser mejor la probabilidad de cometer un error de tipo I o un error de tipo II y, por tanto, deberás ser TÚ quien decida por qué error te decantas.
      En concreto, y sobre el ejemplo que me preguntas, ¡¡¡y considerándolo siempre antes de realizar el test!!! ¿qué opción prefieres?:
      Error tipo I: No hay relación entre el curso y la mejora de las destrezas ornitológicas, pero yo, sin embargo digo que esa relación sí existe (estoy dando por bueno un curso que “no es tan bueno”).
      Error de tipo II: El curso mejora las destrezas ornitológicas pero yo, sin embargo, digo que no las mejora (rechazo un curso “bueno”, lo probable será que me replantee el curso y lo mejore).
      En este caso, yo prefiero claramente la segunda opción.
      Salu2

      Eliminar
  2. Este comentario ha sido eliminado por el autor.

    ResponderEliminar
  3. Wow! Excelente página, muchas gracias!

    ResponderEliminar

Puedes hacer tu comentario, pero has de saber que los comentarios pueden ser moderados, según el criterio del administrador.