Что это и что показывает
Коэффициент корреляции Пирсона r измеряет силу и направление линейной связи между двумя количественными переменными. Он отвечает на вопрос: когда одна величина растёт, склонна ли другая расти (положительная связь), убывать (отрицательная) или не реагировать? Значение r всегда лежит в диапазоне от −1 до +1.
Формула и откуда она
r = Σ(x − x̄)(y − ȳ) / √(Σ(x − x̄)² · Σ(y − ȳ)²)
В числителе — сумма произведений отклонений (ковариация без деления). Если x и y отклоняются от своих средних в одну сторону, произведение положительно; в разные — отрицательно. Знаменатель нормирует величину на разброс каждой переменной, поэтому r безразмерен и ограничен отрезком [−1, 1]. Значения: r = 1 — идеальная прямая линия с положительным наклоном, r = −1 — с отрицательным, r = 0 — линейной связи нет. Величина r² (коэффициент детерминации) показывает долю изменчивости одной переменной, объяснённую линейной связью с другой.
Как посчитать вручную (по шагам)
- Найдите средние
x̄иȳ. - Для каждой пары вычислите отклонения
x − x̄иy − ȳ. - Перемножьте отклонения по парам и сложите — получите числитель.
- Сложите квадраты отклонений отдельно по x и по y.
- Перемножьте две суммы квадратов, извлеките корень — это знаменатель.
- Поделите числитель на знаменатель — получите r; возведите в квадрат для r².
Разбор примера
Данные: x = (1, 2, 3, 4, 5), y = (2, 4, 5, 4, 5).
Средние: x̄ = 15/5 = 3, ȳ = 20/5 = 4.
Отклонения x: −2, −1, 0, 1, 2. Отклонения y: −2, 0, 1, 0, 1.
Произведения: (−2)(−2)=4; (−1)(0)=0; (0)(1)=0; (1)(0)=0; (2)(1)=2. Сумма = 6.
Σ(x−x̄)²: 4 + 1 + 0 + 1 + 4 = 10. Σ(y−ȳ)²: 4 + 0 + 1 + 0 + 1 = 6.
Знаменатель: √(10 · 6) = √60 ≈ 7.746.
Коэффициент: r = 6 / 7.746 ≈ 0.775. Связь сильная положительная.
r²: ≈ 0.6 — около 60% изменчивости y объясняется линейной связью с x.
Где применяется / интерпретация
Корреляция используется в экономике, медицине, психологии, машинном обучении (отбор признаков). Ориентиры по модулю r: до 0.3 — слабая связь, 0.3–0.7 — умеренная, выше 0.7 — сильная. Главное правило: корреляция не означает причинность. Высокое r может быть следствием третьего, скрытого фактора (мороженое и утопления оба растут летом — связаны, но не причина друг друга). Пирсон ловит только линейную связь: для параболической зависимости r может быть около 0 при очевидной связи.
Частые ошибки
- Делают вывод о причине из корреляции — нужен эксперимент или контроль конфаундеров.
- Применяют Пирсона к явно нелинейной связи и заключают «связи нет».
- Не замечают, что один выброс способен резко исказить r.
- Путают r и r²: r² — доля объяснённой дисперсии, всегда неотрицательна.
- Интерпретируют r = 0 как «независимость» — это лишь отсутствие линейной связи.