калькуляторы на все случаи жизни

Корреляция Пирсона

Pearson Correlation

Коэффициент r между двумя рядами.

Введите оба ряда (≥2 чисел).

Как это работает

Коэффициент Пирсона r ∈ [−1, 1] измеряет линейную связь. r²— доля дисперсии Y, объяснённая X. Корреляция ≠ причинность.

Что это и что показывает

Коэффициент корреляции Пирсона r измеряет силу и направление линейной связи между двумя количественными переменными. Он отвечает на вопрос: когда одна величина растёт, склонна ли другая расти (положительная связь), убывать (отрицательная) или не реагировать? Значение r всегда лежит в диапазоне от −1 до +1.

Формула и откуда она

r = Σ(x − x̄)(y − ȳ) / √(Σ(x − x̄)² · Σ(y − ȳ)²)

В числителе — сумма произведений отклонений (ковариация без деления). Если x и y отклоняются от своих средних в одну сторону, произведение положительно; в разные — отрицательно. Знаменатель нормирует величину на разброс каждой переменной, поэтому r безразмерен и ограничен отрезком [−1, 1]. Значения: r = 1 — идеальная прямая линия с положительным наклоном, r = −1 — с отрицательным, r = 0 — линейной связи нет. Величина (коэффициент детерминации) показывает долю изменчивости одной переменной, объяснённую линейной связью с другой.

Как посчитать вручную (по шагам)

  1. Найдите средние и ȳ.
  2. Для каждой пары вычислите отклонения x − x̄ и y − ȳ.
  3. Перемножьте отклонения по парам и сложите — получите числитель.
  4. Сложите квадраты отклонений отдельно по x и по y.
  5. Перемножьте две суммы квадратов, извлеките корень — это знаменатель.
  6. Поделите числитель на знаменатель — получите r; возведите в квадрат для r².

Разбор примера

Данные: x = (1, 2, 3, 4, 5), y = (2, 4, 5, 4, 5).

Средние: x̄ = 15/5 = 3, ȳ = 20/5 = 4.

Отклонения x: −2, −1, 0, 1, 2. Отклонения y: −2, 0, 1, 0, 1.

Произведения: (−2)(−2)=4; (−1)(0)=0; (0)(1)=0; (1)(0)=0; (2)(1)=2. Сумма = 6.

Σ(x−x̄)²: 4 + 1 + 0 + 1 + 4 = 10. Σ(y−ȳ)²: 4 + 0 + 1 + 0 + 1 = 6.

Знаменатель: √(10 · 6) = √60 ≈ 7.746.

Коэффициент: r = 6 / 7.746 ≈ 0.775. Связь сильная положительная.

r²: ≈ 0.6 — около 60% изменчивости y объясняется линейной связью с x.

Где применяется / интерпретация

Корреляция используется в экономике, медицине, психологии, машинном обучении (отбор признаков). Ориентиры по модулю r: до 0.3 — слабая связь, 0.3–0.7 — умеренная, выше 0.7 — сильная. Главное правило: корреляция не означает причинность. Высокое r может быть следствием третьего, скрытого фактора (мороженое и утопления оба растут летом — связаны, но не причина друг друга). Пирсон ловит только линейную связь: для параболической зависимости r может быть около 0 при очевидной связи.

Частые ошибки

  • Делают вывод о причине из корреляции — нужен эксперимент или контроль конфаундеров.
  • Применяют Пирсона к явно нелинейной связи и заключают «связи нет».
  • Не замечают, что один выброс способен резко исказить r.
  • Путают r и r²: r² — доля объяснённой дисперсии, всегда неотрицательна.
  • Интерпретируют r = 0 как «независимость» — это лишь отсутствие линейной связи.

Застряли в статистика?

Я — Владимир, преподаю физику и математику 20+ лет (МГУ, IB/AP/SAT, Praxis 200/200). Разберём вашу задачу на бесплатной 20-минутной консультации.