La distribución Chi-cuadrado es continua, pero nosotros estamos aplicando sus resultados a datos discretos (frecuencias de las celdas de nuestras tablas de contingencia). En general, se aplica la corrección por continuidad de Yates (una corrección conservadora) cuando aproximamos una variable discreta a una distribución continua. La distribución continua de Chi-cuadrado es una buena aproximación del estadístico Chi-cuadrado cuando el número de grados de libertad es mayor que 1. Si el número de grados de libertad es igual a 1 (sólo hay dos categorías en la distribución), el valor del estadístico está sobreestimado.
¿Cuándo utilizar la corrección de Yates?
- Cuando el número de grados de libertad es 1 (cuando la muestra es grande, los resultados son prácticamente iguales con o sin corrección de Yates).
- Cuando el valor de una frecuencia observada es menor que 5 (si es posible, podemos agrupar clases contiguas para evitarlo). En el caso de que el valor de una frecuencia esperada sea menor que 5 es mejor recurrir al test de Probabilidad Exacta de Fisher.
EN R
La función requerida en R para realizar una prueba de asociación es chisq.test(). Reharemos un ejemplo tratado con anterioridad (http://enelcueto.blogspot.com.es/2013/04/test-de-asociacionindependencia-o-de.html) y veremos uno nuevo introduciendo, mediante el parámetro correct=TRUE, la orden para que se aplique la corrección de Yates.
EJEMPLOS
1.- Vamos analizar una muestra de 200 ornitólogos aficionados (menos de dos años de experiencia en la observación de aves). De ellos, 100 participaron en un curso de identificación sobre aves rapaces en el último año. Sometidos a una prueba de identificación de aves conjunta, se consideraron “aprobados” aquellos que identificaron específicamente más de la mitad de los individuos (sobre un total de 14 individuos observados mediante diapositivas, cada uno durante 3 segundos). ¿Hay relación entre la participación en el curso y la mejora en sus destrezas ornitológicas? Los resultados obtenidos se reflejan en la siguiente tabla:
APROBADOS | SUSPENDIDOS | |
CON CURSO | 77 | 33 |
SIN CURSO | 50 | 50 |
EXPLICACIÓN DE LAS ÓRDENES (negro), EJECUCIÓN (rojo) Y RESULTADOS (azul)
Las líneas tras ”>” que a continuación se incluyen se pueden utilizar directamente en R o Rcmdr (quitando el símbolo >). Todo lo que aparece a partir de # son comentarios de explicación.
> .Table <- matrix(c(77,33,50,50), 2, 2, byrow=TRUE) # Los datos introducidos en la tabla.
> rownames(.Table) <- c('CON.CURSO', 'SIN.CURSO') # Las etiquetas dadas a la fila.
> colnames(.Table) <- c('APROBADOS', 'SUSPENDIDOS') # Las etiquetas dadas a la columna.
> .Table # Se piden los datos tabulados.
APROBADOS SUSPENDIDOS
CON.CURSO 77 33
SIN.CURSO 50 50
> colPercents(.Table) # Los porcentajes por columnas.
APROBADOS SUSPENDIDOS
CON.CURSO 60.6 39.8
SIN.CURSO 39.4 60.2
Total 100.0 100.0
Count 127.0 83.0
> .Test <- chisq.test(.Table, correct=TRUE) # Se hace el test chi-cuadrado y se asigna a la variable .Test (correct=TRUE indica que se aplique la corrección de Yates).
> .Test # Pedimos los resultados del análisis.
Pearson's Chi-squared test with Yates' continuity correction
data: .Table
X-squared = 7.949, df = 1, p-value = 0.004811
> .Test$expected # Pedimos los datos de las frecuencias esperadas.
APROBADOS SUSPENDIDOS
CON.CURSO 66.52381 43.47619
SIN.CURSO 60.47619 39.52381
> round(.Test$residuals^2, 2) # Pedimos los componentes del Chi-cuadrado.
APROBADOS SUSPENDIDOS
CON.CURSO 1.65 2.52
SIN.CURSO 1.81 2.78
El resultado es el mismo que el explicado en http://enelcueto.blogspot.com.es/2013/04/test-de-asociacionindependencia-o-de.html y el valor de probabilidad similar.
2. Un ornitólogo tiene asignadas dos cuadrículas del Programa SACRE, una de ellas situada en un bosque de coníferas y la otra en un bosque caducifolio. En la tabla se presenta el número de territorios de Carbonero Garrapinos (Periparus ater) y de Herrerillo Común (Cyanistes caeruleus). ¿Existe algún tipo de asociación entre las especies y el tipo de bosque? Extraído de Fowler, J. & Cohen, L. 1999. Estadística básica en Ornitología. SEO/BirdLife. Madrid.
Herrerillo Común | Carbonero Garrapinos | |
Bosque caducifolio | 14 | 6 |
Bosque de coníferas | 22 | 46 |
EXPLICACIÓN DE LAS ÓRDENES (negro), EJECUCIÓN (rojo) Y RESULTADOS (azul)
Las líneas tras ”>” que a continuación se incluyen se pueden utilizar directamente en R o Rcmdr (quitando el símbolo >). Todo lo que aparece a partir de # son comentarios de explicación.
rownames(.Table) <- c('CADUCIFOLIO', 'CONIFERAS') # Las etiquetas dadas a la fila.
colnames(.Table) <- c('HERRERILLO', 'CARBONERO') # Las etiquetas dadas a la columna.
.Table # Se piden los datos tabulados.
HERRERILLO CARBONERO
CADUCIFOLIO 14 6
CONIFERAS 22 46
colPercents(.Table) # Los porcentajes por columnas.
HERRERILLO CARBONERO
CADUCIFOLIO 38.9 11.5
CONIFERAS 61.1 88.5
Total 100.0 100.0
Count 36.0 52.0
.Test <- chisq.test(.Table, correct=TRUE) # Se hace el test chi-cuadrado y se asigna a la variable .Test (correct=TRUE indica que se aplique la corrección de Yates).
.Test # Pedimos los resultados del análisis.
Pearson's Chi-squared test with Yates' continuity correction
data: .Table
X-squared = 7.5706, df = 1, p-value = 0.005933
.Test$expected # Pedimos los datos de las frecuencias esperadas.
HERRERILLO CARBONERO
CADUCIFOLIO 8.181818 11.81818
CONIFERAS 27.818182 40.18182
round(.Test$residuals^2, 2) # Pedimos los componentes del Chi-cuadrado.
HERRERILLO CARBONERO
CADUCIFOLIO 4.14 2.86
CONIFERAS 1.22 0.84
A la vista de los resultados, existe una asociación altamente significativa entra las especies y el tipo de bosque. Los Herrerillos Comunes están asociados con los bosques caducifolios y los Carboneros Garrapinos con los bosques de coníferas.
No hay comentarios:
Publicar un comentario
Puedes hacer tu comentario, pero has de saber que los comentarios pueden ser moderados, según el criterio del administrador.