Что это и что показывает

Линейная регрессия строит прямую, наилучшим образом описывающую связь между независимой переменной x и зависимой y. В отличие от корреляции (которая лишь измеряет силу связи), регрессия даёт уравнение y = a·x + b, позволяющее предсказывать y по x. Метод наименьших квадратов (МНК) подбирает такую прямую, чтобы сумма квадратов вертикальных отклонений точек от линии была минимальной.

Формула и откуда она

Наклон (коэффициент при x):

a = Σ(x − x̄)(y − ȳ) / Σ(x − x̄)²

Свободный член (пересечение с осью y):

b = ȳ − a·x̄

Числитель наклона — та же сумма произведений отклонений, что в корреляции (ковариация без деления); знаменатель — разброс x. Формула для b гарантирует, что прямая проходит через «центр тяжести» данных — точку (x̄, ȳ). Качество подгонки оценивают коэффициентом детерминации R² — долей дисперсии y, объяснённой моделью; для простой линейной регрессии R² = r² (квадрат корреляции Пирсона).

Как посчитать вручную (по шагам)

Вычислите средние x̄ и ȳ.
Найдите отклонения и их произведения; сложите — это числитель наклона.
Сложите квадраты отклонений x — это знаменатель наклона.
Поделите: a = числитель / знаменатель.
Вычислите b = ȳ − a·x̄.
Запишите уравнение y = a·x + b; при необходимости найдите R² = r².

Разбор примера

Данные: x = (1, 2, 3, 4, 5), y = (2, 4, 5, 4, 5).

Средние: x̄ = 3, ȳ = 4.

Числитель наклона Σ(x−x̄)(y−ȳ): 4 + 0 + 0 + 0 + 2 = 6 (как в примере с корреляцией).

Знаменатель Σ(x−x̄)²: 4 + 1 + 0 + 1 + 4 = 10.

Наклон: a = 6 / 10 = 0.6.

Пересечение: b = 4 − 0.6 · 3 = 4 − 1.8 = 2.2.

Уравнение: y = 0.6·x + 2.2. Прогноз при x = 6: y = 0.6·6 + 2.2 = 5.8.

R²: поскольку r ≈ 0.775, R² = r² ≈ 0.6 — модель объясняет около 60% разброса y.

Где применяется / интерпретация

Регрессия — рабочая лошадка прогнозирования: цены жилья по площади, продажи по рекламному бюджету, расход по температуре. Наклон a читается как «на сколько меняется y при росте x на единицу», а b — значение y при x = 0 (имеет смысл, только если x = 0 реалистично). R² близко к 1 — прямая хорошо описывает данные; близко к 0 — линия почти бесполезна. Экстраполяция далеко за пределы наблюдённого диапазона x опасна: связь там может быть совсем иной.

Частые ошибки

Подгоняют прямую к явно нелинейным данным и доверяют прогнозу.
Экстраполируют далеко за пределы данных, где модель не проверена.
Толкуют наклон как причинность, а не как статистическую связь.
Меняют местами x и y: регрессия y на x и x на y дают разные прямые.
Игнорируют выбросы, которые из-за квадратов отклонений сильно тянут линию.

Линейная регрессия (МНК)

Как это работает

Что это и что показывает

Формула и откуда она

Как посчитать вручную (по шагам)

Разбор примера

Где применяется / интерпретация

Частые ошибки

Застряли в статистика?

Как это работает

Что это и что показывает

Формула и откуда она

Как посчитать вручную (по шагам)

Разбор примера

Где применяется / интерпретация

Частые ошибки

Застряли в статистика?

Похожие калькуляторы

Описательная статистика

Z-оценка (стандартизация)

Вероятность по нормальному распределению

Доверительный интервал для среднего

Корреляция Пирсона

Биномиальная вероятность