калькуляторы на все случаи жизни

Линейная регрессия (МНК)

Linear Regression

Прямая y = a·x + b методом наименьших квадратов.

Введите оба ряда.

Как это работает

Метод наименьших квадратов подбирает прямую, минимизирующую сумму квадратов отклонений. — качество подгонки (1 = идеально). Можно сразу спрогнозировать y для нового x.

Что это и что показывает

Линейная регрессия строит прямую, наилучшим образом описывающую связь между независимой переменной x и зависимой y. В отличие от корреляции (которая лишь измеряет силу связи), регрессия даёт уравнение y = a·x + b, позволяющее предсказывать y по x. Метод наименьших квадратов (МНК) подбирает такую прямую, чтобы сумма квадратов вертикальных отклонений точек от линии была минимальной.

Формула и откуда она

Наклон (коэффициент при x):

a = Σ(x − x̄)(y − ȳ) / Σ(x − x̄)²

Свободный член (пересечение с осью y):

b = ȳ − a·x̄

Числитель наклона — та же сумма произведений отклонений, что в корреляции (ковариация без деления); знаменатель — разброс x. Формула для b гарантирует, что прямая проходит через «центр тяжести» данных — точку (x̄, ȳ). Качество подгонки оценивают коэффициентом детерминации — долей дисперсии y, объяснённой моделью; для простой линейной регрессии R² = r² (квадрат корреляции Пирсона).

Как посчитать вручную (по шагам)

  1. Вычислите средние и ȳ.
  2. Найдите отклонения и их произведения; сложите — это числитель наклона.
  3. Сложите квадраты отклонений x — это знаменатель наклона.
  4. Поделите: a = числитель / знаменатель.
  5. Вычислите b = ȳ − a·x̄.
  6. Запишите уравнение y = a·x + b; при необходимости найдите R² = r².

Разбор примера

Данные: x = (1, 2, 3, 4, 5), y = (2, 4, 5, 4, 5).

Средние: x̄ = 3, ȳ = 4.

Числитель наклона Σ(x−x̄)(y−ȳ): 4 + 0 + 0 + 0 + 2 = 6 (как в примере с корреляцией).

Знаменатель Σ(x−x̄)²: 4 + 1 + 0 + 1 + 4 = 10.

Наклон: a = 6 / 10 = 0.6.

Пересечение: b = 4 − 0.6 · 3 = 4 − 1.8 = 2.2.

Уравнение: y = 0.6·x + 2.2. Прогноз при x = 6: y = 0.6·6 + 2.2 = 5.8.

R²: поскольку r ≈ 0.775, R² = r² ≈ 0.6 — модель объясняет около 60% разброса y.

Где применяется / интерпретация

Регрессия — рабочая лошадка прогнозирования: цены жилья по площади, продажи по рекламному бюджету, расход по температуре. Наклон a читается как «на сколько меняется y при росте x на единицу», а b — значение y при x = 0 (имеет смысл, только если x = 0 реалистично). R² близко к 1 — прямая хорошо описывает данные; близко к 0 — линия почти бесполезна. Экстраполяция далеко за пределы наблюдённого диапазона x опасна: связь там может быть совсем иной.

Частые ошибки

  • Подгоняют прямую к явно нелинейным данным и доверяют прогнозу.
  • Экстраполируют далеко за пределы данных, где модель не проверена.
  • Толкуют наклон как причинность, а не как статистическую связь.
  • Меняют местами x и y: регрессия y на x и x на y дают разные прямые.
  • Игнорируют выбросы, которые из-за квадратов отклонений сильно тянут линию.

Застряли в статистика?

Я — Владимир, преподаю физику и математику 20+ лет (МГУ, IB/AP/SAT, Praxis 200/200). Разберём вашу задачу на бесплатной 20-минутной консультации.