АНАЛИЗ РЕГРЕССИОННЫЙ метод многомерной статистики, что дает возможность описать и проанализировать связь между зависимой переменной Y и несколькими независимыми переменными (другое название - факторы, предикторы) X1,..., Хк.
В случае, если к = 1, то говорят о парную регрессию, если к > 1, то говорят о множественной регрессии. Целью А. г. является определение формы связи между зависимой переменной и факторами, построение и оценивание параметров уравнения регрессии, оценка качества построенного уравнения и его содержательная интерпретация. Построенное уравнение регрессии применяется как для объяснения, так и для прогнозирования поведения зависимой переменной. А. г. эмпирических данных широко используется в социологии, психологии, экономике и др. областях знания.
Все переменные, используемые при построении уравнения регрессии, должны быть метрическими. Как исключение можно использовать дихотомічні переменные, закодированные значениями 0 и 1. Такие дихотомічні переменные интерпретируются как вероятности объектов принадлежать к определенной категории. Напр., если признак "пол" закодировано 0 - "мужчина", 1 - "женщина", то значение соответствующей дихотомічної переменной может интерпретироваться как вероятность того, что респондент является женщиной. Кроме шкалы измерения при отборе факторов в уравнение регрессии необходимо учитывать, что факторы должны хорошо коррелировать с зависимым признаком и в то же время по мере возможности слабо коррелировать между собой.
В общ. виде уравнение регрессии имеет вид: Y = F (Х1,... Хк), где Y является оценка значения на основе значений Х1,.., Хк, а вид функции Е определяет форму связи между зависимой переменной и факторами. Учитывая матем. простоту и, что не менее важно, простоту интерпретации, часто рассматривают линейную форму связи (хотя нужно заметить, что есть развитые методы нелинейного А. г. В таком случае уравнение регрессии принимает следующий вид: Y = Ао+А1Х1 + ... + АkХk. Построение уравнения регрессии осуществляется так, чтобы минимизировать сумму квадратов отклонений реальных значений переменной У от оценок, вычисленных по уравнению (т. н. метод наименьших квадратов). Коэффициенты А1..., Ак наз. коэффициентами регрессии и имеют достаточно простую и четкую интерпретацию: А. демонстрирует, насколько изменится значение зависимой переменной У при изменении фактора Xj на одну единицу и фиксированных на среднем уровне значений других факторов. Другими словами, каждый коэффициент регрессии оценивает влияние соответствующего фактора на зависимую переменную с удалением влияния всех других факторов, участвующих в уравнении регрессии. Константа А (свободный член уравнения) четкой содержательной интерпретации не имеет. Так напр., если Хj - стаж рабочего (измеренный в годах), Х2 - квалификационный разряд рабочего и В-заработная плата (измеренная в сотнях грн.), то уравнение Y = 0,2 Х1 + 1,1 Х2 + 3,8 показывает, что увеличение разряда на единицу приведет для рабочего со средним для данного предприятия стажем до увеличения заработной платы в среднем на 10,1 грн. В то же время увеличение стажа на один год для работника со средней для данного предприятия квалификацией приведет к увеличению зарплаты в среднем на 20 грн.
Для того чтобы иметь возможность сравнивать влияние различных факторов на поведение зависимого признака, все переменные стандартизируют (и таким образом делают их безразмерными), а уже затем строят уравнение регрессии - т. н. уравнения регрессии в стандартных координатах. Его особенностью является отсутствие свободного члена. Так, напр., если после стандартизации переменных приведенное выше уравнение регрессии будет иметь вид: Y = 0,12 Х1 + 0,48 Х2, то можно сказать , что на данном предприятии квалификация влечет в 4 раза больший по сравнению со стажем влияние на заработную плату рабочего.
Качество уравнения регрессии (иначе говоря, насколько действительно хорошо построено уравнение отражает поведение зависимой переменной) оценивают путем анализа остатков (разностей между реальными и вычисленными значениями зависимой переменной), или на основе доли дисперсии зависимой признаки, поясненої (представленной) построенным уравнением. Квадрат коэффициента совокупной корреляции между зависимой переменной и факторами наз. коэффициентом детерминации. Значение коэффициента детерминации равен доле дисперсии зависимой признаки, что объясняется построенным уравнением. Так напр., если для приведенного выше уравнения коэффициент детерминации равен 0,86, то это означает, что на данном предприятии вариация заработной платы рабочего на 86% зависит от квалификации то стажа работника, а на 14% - от других факторов (которые не вошли построенного уравнения).
Наряду с методами нелинейной регрессии для метрических признаков есть и специальные регрессионные методы, которые дают возможность также анализировать и качественные признаки (напр., логит-регрессия). Построение уравнений регрессии для реальных данных требует наличия вычислительной техники и соответствующего программного обеспечения.