FRASE DE INTRODUCCIÓN

Esta es la colina cónica, aislada y peñascosa (cueto) desde la que os presento mis ideas, opiniones, vivencias... Este blog nace siendo de todo y de nada, ¡ya hará su camino!

Como podrás observar, este blog se encuentra en una etapa inicial de desarrollo. Así que, ¡todavía no critiques su diseño! ¡un poquito de por favor!

jueves, 23 de mayo de 2013

TEST DE ASOCIACIÓN O INDEPENDENCIA (Chi-cuadrado, la corrección de Yates)

La distribución Chi-cuadrado es continua, pero nosotros estamos aplicando sus resultados a datos discretos (frecuencias de las celdas de nuestras tablas de contingencia). En general, se aplica la corrección por continuidad de Yates (una corrección conservadora) cuando aproximamos una variable discreta a una distribución continua. La distribución continua de Chi-cuadrado es una buena aproximación del estadístico Chi-cuadrado cuando el número de grados de libertad es mayor que 1. Si el número de grados de libertad es igual a 1 (sólo hay dos categorías en la distribución), el valor del estadístico está sobreestimado.

¿Cuándo utilizar la corrección de Yates?

  • Cuando el número de grados de libertad es 1 (cuando la muestra es grande, los resultados son prácticamente iguales con o sin corrección de Yates).
  • Cuando el valor de una frecuencia observada es menor que 5 (si es posible, podemos agrupar clases contiguas para evitarlo). En el caso de que el valor de una frecuencia esperada sea menor que 5 es mejor recurrir al test de Probabilidad Exacta de Fisher.

EN R

La función requerida en R para realizar una prueba de asociación es chisq.test(). Reharemos un ejemplo tratado con anterioridad (http://enelcueto.blogspot.com.es/2013/04/test-de-asociacionindependencia-o-de.html) y veremos uno nuevo introduciendo, mediante el parámetro correct=TRUE, la orden para que se aplique la corrección de Yates.

EJEMPLOS

1.- Vamos analizar una muestra de 200 ornitólogos aficionados (menos de dos años de experiencia en la observación de aves). De ellos, 100 participaron en un curso de identificación sobre aves rapaces en el último año. Sometidos a una prueba de identificación de aves conjunta, se consideraron “aprobados” aquellos que identificaron específicamente más de la mitad de los individuos (sobre un total de 14 individuos observados mediante diapositivas, cada uno durante 3 segundos). ¿Hay relación entre la participación en el curso y la mejora en sus destrezas ornitológicas? Los resultados obtenidos se reflejan en la siguiente tabla:

APROBADOS

SUSPENDIDOS

CON CURSO

77

33

SIN CURSO

50

50

EXPLICACIÓN DE LAS ÓRDENES (negro), EJECUCIÓN (rojo) Y RESULTADOS (azul)

Las líneas tras ”>” que a continuación se incluyen se pueden utilizar directamente en R o Rcmdr (quitando el símbolo >). Todo lo que aparece a partir de # son comentarios de explicación.

> .Table <- matrix(c(77,33,50,50), 2, 2, byrow=TRUE) # Los datos introducidos en la tabla.
> rownames(.Table) <- c('CON.CURSO', 'SIN.CURSO') # Las etiquetas dadas a la fila.
> colnames(.Table) <- c('APROBADOS', 'SUSPENDIDOS') # Las etiquetas dadas a la columna.
> .Table  # Se piden los datos tabulados.

          APROBADOS SUSPENDIDOS
CON.CURSO        77          33
SIN.CURSO        50          50

> colPercents(.Table) # Los porcentajes por columnas.

          APROBADOS SUSPENDIDOS
CON.CURSO      60.6        39.8
SIN.CURSO      39.4        60.2
Total         100.0       100.0
Count         127.0        83.0

> .Test <- chisq.test(.Table, correct=TRUE) # Se hace el test chi-cuadrado y se asigna a la variable .Test (correct=TRUE indica que se aplique la corrección de Yates).
> .Test # Pedimos los resultados del análisis.

    Pearson's Chi-squared test with Yates' continuity correction

data:  .Table
X-squared = 7.949, df = 1, p-value = 0.004811


> .Test$expected # Pedimos los datos de las frecuencias esperadas.

          APROBADOS SUSPENDIDOS
CON.CURSO  66.52381    43.47619
SIN.CURSO  60.47619    39.52381


> round(.Test$residuals^2, 2) # Pedimos los componentes del Chi-cuadrado.

          APROBADOS SUSPENDIDOS
CON.CURSO      1.65        2.52
SIN.CURSO      1.81        2.78

El resultado es el mismo que el explicado en http://enelcueto.blogspot.com.es/2013/04/test-de-asociacionindependencia-o-de.html  y el valor de probabilidad similar.

2. Un ornitólogo tiene asignadas dos cuadrículas del Programa SACRE, una de ellas situada en un bosque de coníferas y la otra en un bosque caducifolio. En la tabla se presenta el número de territorios de Carbonero Garrapinos (Periparus ater) y de Herrerillo Común (Cyanistes caeruleus). ¿Existe algún tipo de asociación entre las especies y el tipo de bosque? Extraído de Fowler, J. & Cohen, L. 1999. Estadística básica en Ornitología. SEO/BirdLife. Madrid.

 

Herrerillo Común

Carbonero Garrapinos

Bosque caducifolio

14

6

Bosque de coníferas

22

46

EXPLICACIÓN DE LAS ÓRDENES (negro), EJECUCIÓN (rojo) Y RESULTADOS (azul)

Las líneas tras ”>” que a continuación se incluyen se pueden utilizar directamente en R o Rcmdr (quitando el símbolo >). Todo lo que aparece a partir de # son comentarios de explicación.

.Table <- matrix(c(14,6,22,46), 2, 2, byrow=TRUE) # Los datos introducidos en la tabla.
rownames(.Table) <- c('CADUCIFOLIO', 'CONIFERAS') # Las etiquetas dadas a la fila.
colnames(.Table) <- c('HERRERILLO', 'CARBONERO') # Las etiquetas dadas a la columna.
.Table  # Se piden los datos tabulados.

HERRERILLO CARBONERO
CADUCIFOLIO         14         6
CONIFERAS           22        46

colPercents(.Table) # Los porcentajes por columnas.

HERRERILLO CARBONERO
CADUCIFOLIO       38.9      11.5
CONIFERAS         61.1      88.5
Total            100.0     100.0
Count             36.0      52.0

.Test <- chisq.test(.Table, correct=TRUE) # Se hace el test chi-cuadrado y se asigna a la variable .Test (correct=TRUE indica que se aplique la corrección de Yates).
.Test # Pedimos los resultados del análisis.

Pearson's Chi-squared test with Yates' continuity correction

data: .Table
X-squared = 7.5706, df = 1, p-value = 0.005933

.Test$expected # Pedimos los datos de las frecuencias esperadas.

HERRERILLO CARBONERO
CADUCIFOLIO   8.181818  11.81818
CONIFERAS    27.818182  40.18182

round(.Test$residuals^2, 2) # Pedimos los componentes del Chi-cuadrado.

HERRERILLO CARBONERO
CADUCIFOLIO       4.14      2.86
CONIFERAS         1.22      0.84

A la vista de los resultados, existe una asociación altamente significativa entra las especies y el tipo de bosque. Los Herrerillos Comunes están asociados con los bosques caducifolios y los Carboneros Garrapinos con los bosques de coníferas.

No hay comentarios:

Publicar un comentario

Puedes hacer tu comentario, pero has de saber que los comentarios pueden ser moderados, según el criterio del administrador.