- Educación
- Matemáticas
- Estadísticas
- Cómo calcular una correlación
Libro Relacionado
Por Deborah J. Rumsey
¿Puede una estadística medir tanto la fuerza como la dirección de una relación lineal entre dos variables? ¡Claro que sí! Los estadísticos utilizan el coeficiente de correlación para medir la fuerza y la dirección de la relación lineal entre dos variables numéricas X e Y. El coeficiente de correlación para una muestra de datos se indica con r.
Aunque la definición de correlación de calle se aplica a dos ítems cualesquiera que estén relacionados (tales como género y afiliación política), los estadísticos usan este término sólo en el contexto de dos variables numéricas. El término formal para la correlación es el coeficiente de correlación. Se han creado muchas medidas de correlación diferentes; la que se utiliza en este caso se llama coeficiente de correlación de Pearson.
La fórmula para la correlación (r) es
donde n es el número de pares de datos;
son las medias de la muestra de todos los valores de x y de todos los valores de y, respectivamente; y sx y sy son las desviaciones estándar de la muestra de todos los valores de x e y, respectivamente.
Puede utilizar los pasos siguientes para calcular la correlación, r, a partir de un conjunto de datos:
- Encuentra la media de todos los valores de x
- Encuentra la desviación estándar de todos los valores de x (llámalo sx) y la desviación estándar de todos los valores de y (llámalo sy). Por ejemplo, para encontrar sx, usarías la siguiente ecuación:
- Para cada uno de los n pares (x, y) del conjunto de datos, tome
- Sume los n resultados del Paso 3.
- Divida la suma por sx ∗ sy.
- Divida el resultado por n – 1, donde n es el número de pares (x, y). (Es lo mismo que multiplicar por 1 sobre n – 1.) Esto te da la correlación, r.
Por ejemplo, suponga que tiene el conjunto de datos (3, 2), (3, 3) y (6, 4). El coeficiente de correlación r se calcula mediante los pasos siguientes. (Tenga en cuenta que para estos datos los valores de x son 3, 3, 6, y los valores de y son 2, 3, 4.)
- Calculando la media de los valores x e y, se obtiene
- Las desviaciones estándar son sx = 1,73 y sy = 1,00.
- Las n = 3 diferencias encontradas en el Paso 2 multiplicadas juntas son: (3 – 4)(2 – 3) = (– 1)( – 1) = +1; (3 – 4)(3 – 3) = (– 1)(0) = 0; (6 – 4)(4 – 3) = (2)(1) = +2.
- Sumando los resultados de n = 3 Paso 3, obtienes 1 + 0 + 2 = 3.
- Dividir por sx ∗ sy te da 3 / (1.73 ∗ 1.00) = 3 / 1.73 = 1.73. (Es sólo una coincidencia que el resultado del Paso 5 también sea 1.73.)
- Ahora divide el resultado del Paso 5 por 3 – 1 (que es 2), y obtendrás la correlación r = 0.87.