close

Вход

Забыли?

вход по аккаунту

Штат;docx

код для вставкиСкачать
ВВЕДЕНИЕ
П
рикладная статистика рассматривает методы обработки наблюдаемых
статистических данных, а также включает соответствующее математическое и программное обеспечение.
Под статистическими данными понимают числовые или нечисловые
значения контролируемых параметров (признаков) исследуемых объектов,
которые получены в результате наблюдений (измерений, испытаний, опытов
и т. д.) определенного числа признаков, у каждой единицы, вошедшей в исследование.
Статистические данные делятся на два типа: количественные и категориальные. Последние в свою очередь делят на номинальные и порядковые.
Тип данных определяет шкала, в которой проведено измерение.
Количественные данные, являясь непрерывными по природе, могут быть
измерены с помощью интервальной шкалы или шкалы отношений.
Интервальная шкала позволяет классифицировать и упорядочивать
объек­ты, а также количественно описать различия между свойствами объектов. Характерной особенностью интервальной шкалы является ее относительность, т. е. отсутствие абсолютного нуля, начала координат. Для задания
такой шкалы устанавливают единицу измерения и произвольную точку отсчета. В интервальной шкале можно определить на сколько одно измерение
превосходит другое. По шкале интервалов измеряют календарное время,
температуру по Цельсию, координату точки,
Шкала отношений отличается от интервальной только наличием естественного начала отсчета — абсолютного нуля. Нуль шкалы соответствует
нулевому значению переменной, характеристики объекта исследования. По
шкале отношений измерено большинство физических величин: вес тела
в граммах (абсолютное начало 0), длина, заряд, температура по Кельвину,
а также цены в экономике, доход. В шкале отношений имеет смысл определять не только на сколько, но и во сколько одно измерение отличается от
другого.
В большинстве статистических процедур не делается различия между
свойствами интервальных шкал и шкал отношения. На обработку количественных переменных ориентировано подавляющее большинство статистических методов.
Значения номинальных переменных (например: пол, национальность,
цвет) являются нечисловыми, они означают принадлежность к некоторым
классам и не могут быть упорядочены или непосредственно использованы
в вычислениях. В номинальной шкале используются также и числа, но только в качестве меток для различения объектов (например, номера телефонов,
коды товаров). Для анализа номинальных переменных специально предназначены лишь избранные разделы математической статистики, например,
категориальный анализ. Однако в ряде случаев для этой цели могут быть
использованы и некоторые количественные методы, если номинальные значения предварительно заменить на числа, обозначающие их условные коды.
В порядковой шкале числа используются не только для различения объектов, но и для установления порядка между объектами. Например, оценки
знаний учащихся: неудовлетворительно, удовлетворительно, хорошо, отлично обозначаются баллами соответственно 2, 3, 4, 5; итоговые места спортивной команды в чемпионате; нумерация объектов. Эти значения можно сравнивать между собой, но производить какие-либо арифметические операции
не имеет смысла.
Методы обработки данных должны быть согласованы со шкалами, в которых измерены рассматриваемые признаки.
Данные для анализа представляют выборочную совокупность или выборку — множество случаев (испытуемых, объектов, событий, образцов),
выбранных из генеральной совокупности для участия в исследовании.
Как показывает опыт, как число объектов, так и число характеризующих
их признаков, изменение которых носит случайный характер, может быть
большим. Непосредственный (визуальный) анализ данных при этом практически малоэффективен. При этом возникают задачи укрупнения, концентрации исходных данных, т. е. построения обобщенных характеристик множества признаков и множества объектов. Решение этих задач может осуществляться с помощью современных методов многомерного статистического
анализа. Потребность в статистических методах возникает в связи с необходимостью минимизации изменчивости явлений.
4
В пособии рассматриваются различные методы многомерного анализа
статистических совокупностей. Основными методами многомерного анализа, применяемого для исследования социально-экономических процессов,
описываемых рядом признаков, являются: регрессивный, дисперсионный
и факторный виды анализа, дискриминантный, кластерный и др. Эти методы позволяют: установить зависимость изучаемых явлений от случайных
факторов как качественную (дисперсионный анализ), так и количественную
(корреляционный анализ); исследовать связи между случайными и неслучайными величинами (регрессивный анализ); выявить роль отдельных факторов в изменении анализируемого параметра (факторный анализ) и т. д.
В многомерном статистическом анализе каждый объект описывается
вектором, размерность которого произвольна (но одна и та же для всех объектов). Компоненты вектора — это значения рассматриваемых признаков.
Наглядное графическое восприятие данных в виде точек возможно на плоскости (т. е. в двумерном пространстве), но это случай лишь двух анализируемых признаков. В многомерном статистическом анализе выборка состоит
из элементов многомерного пространства. Отсюда и название этого раздела
прикладной статистики. Его применяют при решении следующих задач:
yy исследование зависимости между признаками;
yy классификация объектов, заданных количественными и возможно качественными признаками;
yy снижение размерности пространства признаков.
Целями исследования зависимости между признаками являются доказательство наличия связи между признаками и изучение этой связи. Для доказательства наличия связи между двумя случайными величинами Х и Y применяют корреляционный анализ. Если совместное распределение Х и Y является нормальным, то статистические выводы основывают на выборочном
коэффициенте линейной корреляции, в остальных случаях используют коэффициенты ранговой корреляции Кендалла и Спирмена.
С помощью корреляционного анализа решается задача установления
существенной связи между случайными величинами. Для примера в маркетинге нужно оценить зависимость цены товара от его технических и эксплуатационных характеристик. В случае существенного влияния какой-то характеристики на цену она признается ценообразующим фактором и принимается к дальнейшему рассмотрению, в противном случае — отбрасывается как
второстепенная. На этапах корреляционного анализа отбираются основные
влияющие факторы. Далее подключаются приемы регрессионного анализа,
с помощью которого выбирается вид регрессионной модели, рассчитываются ее параметры и оцениваются параметры ее адекватности.
5
Возможные примеры задач, решаемых с помощью корреляционного анализа, следующие:
yy определение тесноты связи между расходами на рекламу и получаемыми доходами;
yy определение взаимосвязи между спросом и предложением на какой-либо
товар.
Регрессионный анализ применяют для анализа взаимодействия переменных, для изучения функциональной зависимости количественного признака Y от количественных признаков X1,X2, ..., Xn. Эту зависимость называют регрессионной или, кратко, регрессией. В отличие от корреляционного
анализа, который только отвечает на вопрос, существует ли связь между анализируемыми признаками, регрессионный анализ дает и её формализованное выражение. Это выражение позволяет прогнозировать влияние факторов
на зависимую переменную.
В ходе регрессионного анализа решаются две основные задачи:
yy построение уравнения регрессии;
yy оценка значимости полученного уравнения, т. е. определение того, насколько выбранные признаки Xi объясняют вариацию признака Y.
Возможные примеры задач, решаемых с помощью регрессионного анализа, следующие:
yy установление связи между ценой и потребительскими характеристиками
товара;
yy существует ли взаимосвязь между объемом сбыта и ценой товара, объемом рекламных мероприятий;
yy прогнозирование издержек производства или цены на товар в следующем году;
yy как изменится объем сбыта, при увеличении затрат на рекламу на 20%?
yy как объем сбыта меняется во времени?
Дисперсионный анализ – статистический метод, применяемый для выявления влияния отдельных факторов (номинальных переменных) на изучаемый количественный признак и оценку степени этого влияния. Этот метод
дает количественную оценку степени влияния конкретного фактора, оценивает его достоверность и позволяет в процентном отношении судить о правильности выбора важнейших факторов в пределах заданных условий эксперимента. Изучается влияние одного или нескольких факторов на среднее,
при этом устанавливается значимо ли различаются средние значения для
нескольких выборок с различными категориями фактора. Если не значимо,
то фактор не влияет на количественный признак и его можно исключить.
Понижение размерности способствует повышению наглядности, экономии
6
ресурсов при сборе первичной информации, уменьшению статистической
погрешности в оценках параметров.
Возможные примеры задач, решаемых с помощью дисперсионного анализа, следующие:
yy зависит ли сбыт товара от его размещения на тех или иных полках магазина, от вида упаковки;
yy определение влияния выбора каналов сбыта на величину продаж;
yy растет ли зрительская аудитория при передаче Информационных Новостей по тому или иному TV каналу?
yy влияет ли количественный показатель качества единиц продукции от номера станка, на котором эта продукция изготовлена?
Дискриминантный анализ используется для изучения влияния количественных переменных на категориальные переменные, т. е. данные, измеренные в порядковой или номинальной шкале.
Задача дискриминантного анализа состоит в нахождении правила отнесения наблюдаемого объекта к одному из ранее описанных классов. При этом
объекты описывают с помощью векторов, координаты которых — результаты наблюдения ряда признаков у каждого объекта. Классы описывают либо
непосредственно в математических терминах, либо с помощью обучающих
выборок. Обучающая выборка — это выборка, для каждого элемента которой
указано, к какому классу он относится.
Дискриминантный анализ относится к задачам классификации. Синонимами понятия «дискриминация» являются: диагностика, распознавание
образов с учителем, автоматическая классификация с учителем, статистическая классификация и т. д.
Дискриминантный анализ представляет собой альтернативу множественного регрессионного анализа (МРА) для случая, когда зависимая переменная представляет собой не количественную, а категориальную переменную.
И задача, которую решает дискриминантный анализ, аналогична цели МРА.
Если в МРА по заданным данным оценивается регрессия и по полученному
уравнению предсказывается значение «зависимой» переменной, в дискриминантном анализе по данным об «известных» объектах выявляется правило,
позволяющее по значениям переменных еще не классифицированных объектов отнести их с известной вероятностью к одному из заданных классов.
Дискриминантный анализ рекомендуется применять при исследовании
зависимой переменной с малым количеством категорий, в противном случае
это может привести к уменьшению точности классификации.
Возможные примеры задач, решаемых с помощью дискриминантного
анализа, следующие:
7
yy определение существенных характеристик работников при делении на
преуспевающих и посредственных;
yy разработка классификации кредитоспособности клиентов на основании
их социально-демографических признаков (образование, доход, возраст,
пол и др.);
yy принятие решений в технической диагностике, когда по результатам измерений ряда параметров продукции нужно установить наличие или отсутствие дефектов.
Стохастический факторный анализ (ФА) применяется при исследовании взаимосвязей между переменными с целью сокращения числа влияющих
факторов до наиболее существенных с условием минимальной потери информации об исследуемом объекте. ФА выделяет обобщенные критерии (факторы), каждый из которых содержит в себе свойства сразу нескольких переменных. В один фактор объединяются несколько переменных, тесно коррелирующих между собой и не (или слабо) коррелирующих с другими переменными,
представляющими другие факторы. Факторы определяются наблюдаемыми
переменными и могут быть оценены как их линейная комбинация.
Помимо сжатия исходной информации (сокращения количества признаков, характеризующих наблюдение) ФА позволяет также исследовать структуру взаимосвязей переменных. В ФА не выделяется зависимая переменная,
а все признаки рассматриваются как независимые переменные, измеренные
в различных шкалах, кроме номинальной.
Возможные примеры задач, решаемых с помощью факторного анализа,
следующие:
yy при сегментации рынка поиск не наблюдаемых непосредственно факторов с целью группировки покупателей потенциальных потребителей по
категориям;
yy при разработке стратегии ценообразования: выявление характеристик
потребителей, чувствительных к цене;
yy при разработке товарной стратегии, основанной на определении характеристик товара, влияющих на спрос;
yy При разработке рекламной компании выясняется, какому типу рекламы
отдают предпочтение возможные покупатели.
Сокращение большого количества переменных до некоторого основного
набора составных переменных (факторов) может предшествовать сегментированию на основе кластерного анализа, результаты которого проще интерпретировать, рассматривая 4–6 факторов, чем десяток и более переменных.
Кластерный анализ ставит задачу разбиения объектов на классы, выясняет по эмпирическим данным насколько элементы выборки группируют8
ся или распадаются на изолированные «скопления», «кластеры». Согласно
условиям группировки два объекта из одной и той же группы должны быть
«близкими» по совокупности значений измеренных у них признаков, а два
объекта из разных групп должны быть «далекими» в том же смысле. При
кажущейся простоте идеи метода, реализация его связана с определенными
проблемами. В первую очередь — выбор множества признаков объекта, по
которым будет производиться кластеризация; следующая проблема — выбор
критерия (меры близости), в соответствии с которым наблюдения будут отнесены к тому или иному кластеру. При различном определении множества
и критерия получаются различные варианты кластеров. Поэтому, для повышения точности результата необходимо просчитывать несколько вариантов.
Синонимами понятия «кластеризация» являются: построение классификации, распознавание образов без учителя, автоматическая классификация
без учителя, типология, таксономия и др.
Возможные примеры задач, решаемых с помощью кластерного анализа,
следующие:
yy выяснить — какое количество сегментов присутствует на рынке легковых автомобилей;
yy классификация магазинов по признакам: площадь торгового зала, товарооборот на одного продавца, уровень рентабельности и др.
Многие методы прикладной статистики требуют проведения трудоемких
расчетов, поэтому для их реализации необходимо использовать компьютеры.
В учебном пособии без излишней математической строгости раскрывается сущность методов многомерного статистического анализа, подробно
описаны процедуры проведения исследования, даны инструкции. В учебных целях пошагово с применением Excel выполнены необходимые вычисления на простых конкретных примерах. Для уменьшения объема работы
по обработке первичной информации рассматривается использование наиболее популярных специализированных пакетов статистических программ:
SPSS,версия 11.5 и Statistika,версия 8. Как и любой программный продукт
каждый из этих пакетов предлагает свой индивидуальный сервис и соответственно набор алгоритмов. После введения данных и выбора требуемых вычислений программы формируют соответствующий отчет. Описана работа
с этими пакетами в рамках рассматриваемых задач.
Изложенный материал будет полезен студентам, изучающим курсы «Математическая статистика», «Эконометрика», аспирантам и всем, интересующимся методами прикладной статистики.
1. КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ
Б
ольшинство явлений и процессов в экономике находятся во взаимной
связи. Для исследования интенсивности, вида и формы зависимостей
широко применяется корреляционно-регрессионный анализ, который является методическим инструментарием при решении задач прогнозирования,
планирования и анализа хозяйственной деятельности предприятий.
Среди взаимосвязанных явлений одни можно рассматривать как определенные факторы, влияющие на изменение других, а другие — как следствие
влияния первых. Принято называть первые факторными признаками или
просто факторами, а вторые — результативными признаками.
Различают два вида зависимостей между этими признаками: функциональную и стохастическую (вероятностную, статистическую). В случае
функциональной зависимости имеется однозначное соответствие между
причиной Х и следствием Y. Аналитическое выражение, устанавливающее
эту связь, для каждого значения фактора дает вполне определенное значение
результативного признака. В стохастической зависимости каждому фиксированному значению Х соответствует не одно, а множество значений Y, причем
сказать заранее, какое именно значение примет величина Y, нельзя. Преобладание такой зависимости на практике объясняется действием на результирующую переменную Y не только контролируемого фактора X, но и других
возможно неучтенных или неконтролируемых случайных факторов, комбинация которых приводит к вариации значений результативного признака при
одинаковом значении факторного признака. В этой ситуации переменная
Y является случайной величиной.
В экономике чаще всего приходится иметь дело с явлениями или процессами, имеющими вероятностный характер. Например, к числу случайных
10
величин можно отнести стоимость продукции, доходы предприятия, межремонтный пробег автомобилей, время ремонта оборудования и т. д.
Вероятностная зависимость проявляется только в массовом процессе,
при большом числе единиц совокупности. При наличии стохастической связи можно установить лишь тенденцию изменения результативного признака
при изменении величины фактора.
Корреляция (соотношение, соответствие) — связь переменных, при которой каждому конкретному значению одного признака (фактора) соответствует несколько значений другого признака, отклоняющегося в ту или иную
сторону от своего среднего значения. Для этих значений можно определить
среднюю величину, соответствующую этому конкретному фактору. Если при
изменении одной из величин изменяется среднее значение другой, то стохастическая зависимость называется корреляционной.
Исследование корреляционных связей называют корреляционным анализом, а исследование односторонних стохастических зависимостей — регрессионным анализом.
Связь между признаками оценивается по степени тесноты связи, выражаемой некоторым расчетным коэффициентом, а стохастическая зависимость анализируется подбором математической модели в виде некоторой
функции (регрессии), параметры которой рассчитываются.
1.1. Парная регрессия
Простейшим способом установления факта наличия корреляционной
связи является построение диаграммы рассеяния или корреляционного
поля.
Каждому наблюдению на диаграмме соответствует точка с координатами, равными значениям фактора xi и соответствующего ему yi.
Например, пусть рассматриваются два явления площадь помещения
и его стоимость (в условных единицах). Совокупность всех наблюдений образует россыпь точек (рис.1.1).
Если точки на диаграмме расположены беспорядочно (нет какой-либо
закономерности), то можно считать, что взаимосвязь признаков отсутствует.
Если в диаграмме рассеяния точки группируются вокруг некоторой линии,
то это свидетельствует о наличии зависимости между признаками. Эта определенная линия выражает форму связи, как говорят, регрессию Y на X.
При рассмотрении лишь пары признаков (результирующего Y и одного фактора Х) говорят о парной регрессии. Во многих случаях зависимость
между признаками близка к линейной (как в рассмотренном примере), при
11
Рис. 1.1. Диаграмма рассеяния
Рис. 1.2. Диаграмма рассеяния и (соответствующая ей) линейная регрессия
этом точки на диаграмме образуют вытянутое облако, располагаясь выше
и ниже некоторой прямой линии (рис.1.2).
Заметим, что линейная регрессия — частный случай полиномиальной регрессии.
Полиномиальная регрессия означает приближение данных (xi,yi) полиномом p–й степени ŷ(x) = a0 + a1x + a2x2 + a3x3 + … + apxp.
Ниже в табл.1.1 представлены линейная и некоторые другие виды регрессии с соответствующими им линиями связи (рис 1.3).
Увеличение числа изгибов в кривой приводит к возрастанию порядка
описывающего ее полинома, как это видно из рис. 1.3.
Уравнения регрессии представляют модели данных наблюдения. Для
оценки параметров модели используется метод наименьших квадратов
(МНК). В соответствии с этим методом минимизируется сумма квадратов
12
а
б
в
г
д
е
Рис. 1.3. Основные типы линий связи
13
Таблиц а 1.1
Основные виды парной регрессии
Парная регрессия
Вид парной регрессии
а. Линейная (p = 1)
Прямая ŷ = a0 + a1 * x
б. Гиперболическая
ŷ = a0 + a1 / x
в. Степенная
ŷ = a0 * x a1
г. Показательная
ŷ = a0 * a1x
д. Полиномиальная (p = 2)
Парабола ŷ = a0 + a1 * x + а2 * x2
е. Полиномиальная (p = 3)
Кубическая парабола ŷ = a0 + a1 * x + а2 * x2 + а3 * x3
остатков εi = yi – ŷi , где yi — наблюденное значение результативного признака, а ŷi — расчетное значение признака в выбранной модели для фактора х
n
∑ε
i =1
i
2
n
= ∑ (yi – ŷi) → min.
i =1
Необходимым условием ее минимума является равенство нулю всех
ее частных производных по всем определяемым параметрам модели а0, а1,
а2,…
В важном частном случае парной линейной регрессии (линия связи —
прямая, рис. 1.3, а) коэффициенты a1 и а0 определяются формулами
n
a1 =
∑ [( x
i
i =1
− x )( yi − y ) ]
n
∑ ( xi − x )2
и a0 = y − a1 x ,
(1.1)
i =1
где x и y — оценки средних значений для х и y
n
x=
n
∑x ∑y
i =1
n
i
,
i =1
n
i
; n — объем выборки.
(1.1а)
Параметр a0 на графике в координатах ХОY определяет смещение прямой ŷ = a0 + a1*x, по оси OY, а параметр a1 определяет угол наклона этой
прямой к оси ОХ.
14
Параметр a1, называемый коэффициентом регрессии, определяет силу
связи между переменными х и у, поскольку он показывает, на сколько единиц
в среднем изменяется значение результативного признака при изменении
факторного на единицу.
Регрессии, нелинейные по оцениваемым параметрам (рис. 1.3, в и г),
можно свести к линейной модели введением новых переменных. Для этого
осуществим логарифмирование обеих частей соответствующего уравнения.
В степенной модели (рис. 1.3, в) ŷ = a0* x a1 после логарифмирования получим линейное уравнение регрессии
Y = A + a1*X, (1.2)
где Y = lg ŷ, X = lg x, A = lg a0.
Параметры A и а1 находятся по формулам для линейной модели, только
вместо значений x, y подставляются их логарифмы, а вместо x и y средние
значения соответствующих логарифмов. Далее переходим к исходным переменным x и y, выполнив потенцирование линейного уравнения. В результате
получим искомое уравнение степенной модели регрессии:
a
ŷ = 10A x 1 .
(1.2а)
a1
Широкое использование степенной функции ŷ = a0* x связано это с тем,
что параметр a1 в ней имеет четкое экономическое истолкование, а именно
он является коэффициентом эластичности. Коэффициент ai показывает, на
сколько процентов изменится в среднем результат, если фактор изменится
на 1 %.
Аналогично для регрессии с показательной функцией (рис. 1.3, г) после
логарифмирования обеих частей уравнения ŷ = a0 * a1x получим линейное
уравнение
Y = A + A1*х, где Y = lg ŷ, A = lg a0. A1 = lg a1.
(1.3)
Далее опять таки используем формулы линейной модели для расчета параметров А и А1, сочетая натуральную шкалу для фактора х и логарифмическую для результативного признака y. Получим
n
A1 =
∑ (x
i =1
i
− x )(Yi − Y )
n
∑ (x
i =1
i
− x)
, A = Y − A1 x . (1.3а)
2
15
После вычисления А и А1 переходим к исходным переменным х и y, выполняя потенцирование найденного линейного уравнения
ŷ = 10А * 10
A1 * x
.
(1.3б)
Для регрессии, нелинейной по переменной (рис. 1.3, б — гипербола) линеаризация проводится путем замены переменной Х = 1 / х. При этом получаем линейное уравнение
ŷ = a0 + a1*X.
(1.4)
Параметры в этом случае определяются по формулам
n
a1 =
∑ (X
i =1
i
− X )( yi − y )
n
∑ ( X i − X )2
и a0 = y − a1 X . (1.4а)
i =1
Искомое уравнение гиперболической модели использует рассчитанные
параметры и старую переменную х ŷ = a0 + a1 / x.
(1.4б)
Понятия «корреляция» и «регрессия» тесно связаны между собой. В корреляционном анализе оценивается сила (теснота) связи, а в регрессионном
анализе при наличии связи исследуется ее вид. Наличие линейной связи (или
ее отсутствие) между двумя количественными признаками, являющимися
случайными величинами, оценивается по значению линейного коэффициента корреляции Пирсона r:
rxy =
cov( x, y )
,
σxσ y
(1.5)
где оценки ковариации и дисперсий признаков определяются по их наблюденным значениям
16
cov( x, y ) =
σ x2 = x2 − ( x ) =
2
n
1 n
[( xi − x )( yi − y )] = ∑ ( xi yi ) − x ⋅ y . ∑
n i =1
i =1
(1.6)
1 n
1 n
2
( xi − x ) 2 , σ y 2 = y 2 − ( y ) = ∑ ( yi − y ) 2 . (1.7)
∑
n i =1
n i =1
В случае линейной связи справедлива и другая формула для коэффициента корреляции
σ
rxy = a1 x ,
(1.8)
σy
где а1 — угловой коэффициент прямой
Таблиц а 1.2
линии связи.
Значения линейного
Коэффициент корреляции r изкоэффициента
Характер связи
корреляции
меняется в пределах –1 ≤ r ≤ +1. Для
функциональная
r = –1
характеристики силы связи можно исобратная сильная
–1< r ≤ –0,7
пользовать шкалу Чеддока, представобратная заметная
–0,7 ≤ r < –0,5
ленную в табл.1.2:
обратная умеренная
–0,5 ≤ r ≤ –0,3
Чем ближе по модулю величина r к
обратная слабая
–0,3 ≤ r ≤ 0
1, тем ближе связь между анализируеотсутствует
r = 0
мыми признаками к линейной. При отпрямая слабая
0 < r ≤ 0,3
рицательных значениях коэффициента
прямая умеренная
0,3 ≤ r ≤ 0,5
корреляции связь обратная. С возраспрямая заметная
0,5 ≤ r ≤ 0,7
танием признака Х, признак Y убывает,
прямая сильная
0,7 ≤ r ≤ 1
и наоборот, при убывании Х — Y возфункциональная
r = +1
растает.
Значимость линейного коэффициента корреляции проверяется на основе
t-критерия Стьюдента: проверяется нулевая гипотеза H0 об отсутствии связи
между факторным и результативным признаками (H0 : r = 0). Для проверки H0
рассчитывают t-статистику — tрасч по формуле
tрасч =
r
n−2
1− r2
(1.9)
и сравнивают ее с табличным значением tтабл, определяемым по таблице
распределения t-критерия Стьюдента (см. Приложение П. II) с заданными
уровнем значимости α и числом степеней свободы ν (ν = n – 2). Если tрасч > tтабл,
то гипотеза H0 отвергается с вероятностью ошибки меньше чем α·100%. Это
свидетельствует о значимости линейного коэффициента корреляции и реальной связи между факторным и результативным признаками.
Для оценки качества модели вычисляют также квадрат коэффициента
корреляции r2, который называют коэффициентом детерминации.
Коэффициент детерминации можно интерпретировать как долю дисперсии результативного признака Y, объясняемую регрессией (учтенным в модели фактором Х), в общей дисперсии результативного признака.
17
n
r2 =
σ
2
y объясн
σ 2 y общ
=
∑ ( yŷ − y )
2
∑(y
2
i =1
n
i =1
i
i
− y)
.
(1.10)
В числителе дроби — разброс, объясненный регрессией, в знаменателе — общий разброс зависимой переменной Y.
Смысл разбиения общей вариации на объясненную и необъясненную
составляющие можно пояснить, рассматривая отклонение yi от y , которое можно представить в виде
yi = (yi – ŷi) + (ŷi – y ).
Разность ŷi – y — это вариация результативного признака зависит от разности xi – x , т. е. обуславливается фактором х. Другая составляющая разности yi – ŷi есть разность между yi и его оценкой, ŷi. Эта разность есть ошибка
модели, в нее входит влияние неучтенных факторов. На графике (рис.1.4)
для наблюдения xi, yi показаны его отклонения от среднего значения x , y
и рассчитанного значения модели.
Чем ближе r2 к единице, тем выше качество модели.
При использовании любой формы нелинейной регрессии теснота связи между признаками может быть измерена с помощью индекса корреляции, который определяется аналогично линейному коэффициенту корреляции.
Рассмотрим примеры корреляционно-регрессионного анализа. По мере
необходимости при решении задач будут даны соответствующие определения.
Пример 1.1. Маркетинговые исследования сети из 12 предприятий сбыта показали затраты на рекламу Х и объем сбыта Y (см. табл. 1.3).
Рис 1.4 Разбиение общей
вариации на объясненную
и необъясненную
составляющие
18
Таблиц а 1.3
Требуется :
Х,
Y,
yy Найти параметры для модели парной линейной
№ тыс.руб.
тыс.руб.
регрессии;
1
48
545
yy Оценить тесноту связи с помощью коэффициен2
67
710
тов корреляции и детерминации;
3
83
1050
yy Дать оценку тесноты связи результата с фактором
с помощью среднего коэффициента эластично4
118
1250
сти;
5
124
1040
yy Оценить качество уравнения с помощью средней
6
150
1100
ошибки аппроксимации.
7
171
1190
yy Проверить значимость модели.
yy Спрогнозировать объем сбыта при затратах на
8
185
1375
рекламу в сумме 300 тыс. руб.
9
200
1580
Для уяснения процедуры анализа проведем ее по10
220
1475
следовательно по операциям. В примере n = 12.
11
242
1537
Вначале найдем уравнение линейной регрессии,
обратившись непосредственно к формулам для ее
12
265
1615
параметров а0 и а1. Это требует предварительного
расчета по исходным данным нескольких сумм Σx,
Σy, Σ[(x – x )(y – y )], Σ(x – x )2. Выполним это в Excel, используя табл. 1.4,
в клетках которой по введенным формулам в вертикалях выполняются однотипные предварительные расчеты, а в нижней строке подсчитываются требуемые суммы.
Находим по формулам (1.1) параметры а1 = 242 576,417 / 53 792,917 = 4,509
и а0 = 1205,583 – 4,509*156,083 = 501,8 тыс.руб.
Таким образом, простая (с одним фактором) линейная регрессия имеет
вид Ŷx = 501,8 + 4,509*х. Поясним смысл коэффициентов а0 и а1. Координата
точки пересечения прямой с осью Y а0 = 501,8 тыс.руб. — это затраты, которые связаны не с расходами на рекламу, а обусловлены другими факторами,
которые не учтены в модели. Увеличение на единицу затрат (одна тыс.руб.) на
рекламу увеличивает объем сбыта в среднем на а1 = 4,51 единицы (тыс.руб.).
∆y
Для удобства интерпретации параметра a1 =
пользуются средним коэф∆x
Э
фициентом эластичности :
Э = a1
x ∆y x ∆y
=
⋅ =
y
y ∆x y
∆x
x
(1.11)
который показывает среднее изменение (в долях или %) зависимой переменной y при изменении фактора х:
19
20
Y
Х
48
67
83
№
1
2
3
156,083
242
11
Среднее
1615
220
10
265
200
9
1873
185
8
12
171
7
Сумма
1537
150
6
1205,583
14467
1475
1580
1375
1190
1100
1040
5
1250
118
124
4
1050
710
545
3
2
1
108,917
85,917
63,917
43,917
28,917
14,917
–6,083
–32,083
–38,083
–73,083
–89,083
–108,083
X−x
4
409,417
331,417
269,417
374,417
169,417
–15,583
–105,583
–165,583
44,417
–155,583
–495,583
–660,583
Y −Y
5
242576,417
44592,299
28474,215
17220,215
16443,132
4898,965
–232,451
642,299
5312,465
–1691,535
11370,549
44148,215
71398,049
( X − x )(Y − Y )
6
Расчетная таблица для примера 1.1 (Начало)
2
53792,917
11862,840
7381,674
4085,340
1928,674
836,174
222,507
37,007
1029,340
1450,340
5341,174
7935,840
11682,007
( X − x)
7
2
1265894,917
167622,007
109837,007
72585,340
140187,840
28702,007
242,840
11147,840
27417,840
1972,840
24206,174
245602,840
436370,340
(Y − Y )
8
1696,737
1593,020
1493,812
1403,623
1335,982
1272,849
1178,151
1060,905
1033,848
876,018
803,867
718,187
Ŷx
9
Табл иц а 1 . 4
∆y
∆x
= Э⋅
.
y
x
Имеем Э = 4,509*156,083 / 1205,583 = 0,583. Это означает, что при
росте расходов на рекламу на 1%, средний объем сбыта возрастет на
0,58%. В столбце 9 табл.1.4 подсчитываются значения результативного
признака Ŷx (средний объем сбыта) в модели для исходных значений х,
а в столбце 10 табл. 1.5 — погрешности ε, характеризующие отклонения
наблюдаемого значения этого признака от теоретического, найденного
по уравнению регрессии. ε — случайная величина, ее среднее значение
равно 0.
Среднеквадратические отклонения для переменных х и y:
σx =
σy =
(x − x )2
= 53792, 917 / 11 = 69,93 тыс.руб.;
n −1
( y − y )2
= 1265894, 917 / 11 = 339,236 тыс.руб.
n −1
Коэффициент корреляции r = 4,509*66,953 / 324,794 = 0,929. Это значение
показывает, что связь между явлениями прямая сильная. Коэффициент детерминации r2 = 0,864. Таким образом, линейная модель объясняет 86,4%
вариации объема сбыта. Не объясняется 13,6 % вариации объема сбыта, которые вызываются другими возможными факторами.
Ошибка аппроксимации А вычисляется, как относительная величина,
равная |y – ŷ| / y. Средняя ошибка аппроксимации Ā = ΣAk / n = 1,189 / 12 ≈ 0,099.
Это означает, что в среднем расчетные значения (определяемые линейной
регрессией) отклоняются от фактических на 9,9%. С этой точки зрения качество модели считается хорошим, так как Ā меньше 10%.
Проверку значимости уравнения регрессии выполним на основе
F-критерия Фишера. Непосредственному расчету этого критерия предшествует анализ дисперсии результативного признака Y. Центральное место
в нем занимает разложение общей суммы квадратов отклонений переменной у от среднего значения — на две части – «объясненную» регрессией
и «остаточную» («необъясненную»). В табл. 1.5 в столбцах 12–14 рассчитаны общая сумма квадратов отклонений (SST), сумма квадратов отклонений, объясненная регрессией (SSR), и остаточная сумма квадратов отклонений (SSE). Нужные формулы для расчета этих показателей сведены
в табл.1.6.
21
22
1205,583
14467
Сумма
1593,020
1493,812
1403,623
1335,982
1272,849
1178,151
1060,905
1033,848
876,018
Среднее
265
12
1537
718,187
803,867
1696,737
242
11
1475
1580
1375
1190
1100
1040
1250
1050
710
Ŷx
9
1615
200
220
9
185
8
10
171
7
118
4
124
83
3
150
67
6
48
1
2
5
Y
Х
№
545
3
2
1
0,000
0,000
–81,737
–56,020
–18,812
176,377
39,018
–82,849
–78,151
–20,905
216,152
173,982
–93,867
–173,187
ε = Y – Ŷx
10
0,099
1,189
0,051
0,036
0,013
0,112
0,028
0,070
0,071
0,020
0,173
0,166
0,132
0,318
A = |ε| / Y
11
12
2
SSR
1093885,990
172008,926
SSE
241232,407
150107,298
83075,928
39219,830
17003,700
4524,708
752,541
20931,769
29492,859
108613,463
161376,349
237555,138
(Ŷx – Y )2
13
6681,018
3138,259
353,902
31108,739
1522,438
6864,003
6107,556
437,026
46721,479
30269,818
8810,935
29993,754
ε = (Y – Ŷx)
2
Расчетная таблица для примера 1.1 (Продолжение)
SST
1265894,92
167622,007
109837,01
72585,34
140187,84
28702,01
242,84
11147,84
27417,84
1972,84
24206,17
245602,84
436370,34
(Y – Y )2
14
Табл иц а 1 . 5
Таблиц а 1.6
Дисперсионный анализ результатов регрессии
Источники
вариации
Число
степеней
свободы
Сумма
квадратов
отклонений
Дисперсия на одну
степень свободы
1
∑(y
i
− y )2
MSR =

∑ ( y − y )2
Остаточная
n – 2
∑(y
i

− yi ) 2
MSE =
∑ ( y − y)
Общая
n – 1
∑(y
Объясненная

i
i
i
i
1

n−2
2
F - отношение
фактическое
Fфакт =
табличное
MSR
MSE
Fтабл = F(α;1;n–2)
− y )2
Общая сумма квадратов отклонений
SST = SSR + SSE.
(1.12)
Аналогичное разложение имеет место и для степеней свободы (degree
of freedom):
dfT = dfR + dfE,
(1.13)
где dfT = n – 1 — общее число степеней свободы (в нашем примере
dfT = 12 – 1 = 11);
dfR = p — число степеней свободы, соответствующее регрессии (p — число
независимых переменных в уравнении регрессии, dfR = 1);
dfE = n – p – 1 — число степеней свободы, соответствующее остаткам
(dfE = 12 – 1 – 1 = 10).
Разделив суммы квадратов на соответствующее число степеней свободы, получим суммы квадратов на одну степень свободы или средние квадраты, которые являются оценками дисперсии зависимой переменной Y и
остатков ε.
Дисперсия регрессии (или факторная дисперсия)
MSR = SSR / dfR.
(1.14)
MSE = SSE / dfE.
(1.15)
Дисперсия остатков
Если верна нулевая гипотеза (коэффициент регрессии а1 равен 0), то
статистика F, полученная как отношение факторной дисперсии и дисперсии
остатков F = MSR / MSE, распределена по закону Фишера с числом степеней
свободы (dfR, dfE).
23
Рассчитываем F-критерий.
Fфакт = MSR : MSE = 1093885,99 172008,926
:
= 63,5.
1
10
Для расчёта коэффициента детерминации можно также использовать
формулу с коэффициентом детерминации:
Fфакт = r2(n–2) / (1-r2).
(1.16)
Получим то же значение Fфакт = 0,864 * 10 / (1–0,864) = 63,5.
Вычисленное значение Fфакт сравнивается с критическим (табличным)
Fтабл при заданном уровне значимости α.
При доверительной вероятности 0,95 (или уровне значимости α = 0,05)
и числе степеней свободы 1 и 10 табличное значение критерия Фишера
F(0,05; 1; 10) = 4,96 (См. Приложение П.I.)
Так как Fфакт > Fтабл, то с надежностью 95% гипотеза Н0 : a1 = 0 отвергается, признаётся статистическая значимость уравнения регрессии, т. е. связь
между рассматриваемыми признаками есть, и результаты наблюдений не
противоречат предположению о её линейности.
Прогноз объема сбыта при затратах на рекламу в размере 300 тыс. руб.
составит
Ŷ = 501,8 + 4,509 * 300 ≈ 1855 тыс.руб.
Рассмотренное решение имело главным образом методический характер.
Результаты можно получить гораздо проще, пользуясь встроенными
в Excel статистическими функциями.
Для этого нужно нажать на кнопку fx, расположенную слева от командной строки, в появившемся окне Insert Function выбрать категорию Statistical
(Статистические). Функция SLOPE (Наклон) определяет угловой коэффициент а1, а функция INTERCEPT (Отрезок) — коэффициент а0. На панелях этих
функций нужно ввести адреса ячеек с данными для X и Y.
Используя функцию LINEST (Линейн) в категории Statistical, получим
кроме коэффициентов и другую статистику модели. Выделим область пустых ячеек размером 5×2, в которую будут выведены результаты анализа,
В окне (рис.1.5) в строчке Known_y’s (Известные значения_y) ввести диапазон клеток, содержащих значения результативного признака, в строчке Known_х’s — диапазон клеток со значениями фактора. В строчке Const
(Константа) ввести 1, что означает присутствие в модели свободного члена.
В строчке Stats (Статистика) также ввести 1, что приводит к выводу дополнительной информации, а не только параметров регрессии.
24
Рис. 1.5. Диалоговое окно
Function Arguments в Excel
В левой верхней ячейке выделенной области появится первый элемент таблицы анализа. Для раскрытия всей таблицы следует нажать
на функциональную клавишу <F2> , а затем на комбинацию клавиш
<CTRL> + <SHIFT> + <ENTER>. Excel формирует отчет, показанный на рис
1.6 (левая таблица). Соответствующие клетки правой таблицы на рис.1.6 поясняют какие характеристики найдены.
Как видим расчетные значения, полученные выше, подтвердились.
S – стандартная ошибка оценивания (равная квадратному корню из суммы
квадратов ошибки модели, приходящейся на одну степень свободы MSE).
В последней строке таблицы указаны сумма квадратов отклонений, «объясненная» регрессией (SSR) (ŷ – y )2 и остаточная «необъясненная» сумма (SSE)
ε2 = (y – ŷ)2.
4,50945
501,733
0,56547
96,0387
а1
σ a1 =
а0
S
Σ( xi − x ) 2
σ a0 =
S
∑x
2
i
nΣ( xi − x ) 2
Средн. квадратич. отклонение
0,86412
131,152
63,5947
10
1093886 172009
Коэффициент
детерминации r2
регрессии s =
εi 2
∑n−2
F-статистика F = MSR
MSE
Число степеней свободы n–1–1
Регрессионная сумма (SSR)
Сумма остатков ε2
(SSE)
Рис. 1.6. Результаты расчета линейной регрессии в Excel
25
Рис. 1.7. Графическая
иллюстрация данных и линия
регрессии
Имеется возможность в Excel представить модель данных не только в виде парной линейной регрессии, но и некоторых других регрессиях,
в частности, экспоненциальной, логарифмической, полиномиальной (с порядком до 6) с вычисленными для них параметрами.
Построим график по имеющимся данным. Чтобы ось Х отражала фактические данные, выделим область данных X и Y, во вкладке Insert выберем
точечный тип диаграммы Scatter. Установим опцию Add TrendLine (Добавить
линию тренда). В панели Format Trendline выберем тип функции (по умолчанию линейная). Установим флажки Display Equation on chart (Показывать
уравнение на диаграмме) и Display R-squared value on chart (Показывать значение R2 на диаграмме). В результате на диаграмме (рис.1.7) кроме исходных
данных (отмечены ромбиками) появится линия связи (тренда), ее параметры
и коэффициент детерминации.
1.2. Множественная регрессия
Регрессия различается по характеру (положительная, отрицательная), форме связи (линейная, нелинейная), типу связи явлений (непосредственная, косвенная, ложная), числу включенных в нее факторов. Корреляция, как и регрессия, может быть положительной или отрицательной, простой и множественной. Эта классификация понятна из материала, приведенного выше, однако
остановимся подробно на последнем ее виде, поскольку анализ результатов для
модели с несколькими факторами позволяет судить о их значимости.
В ряде случаев возникает необходимость выразить значение зависимой переменной Y через значения нескольких независимых переменных
26
Х1, Х2, ..., Хр. Это объясняется тем, что результирующий признак y определяется не одним доминирующим фактором, а несколькими одновременно
и совокупно действующими факторами. Например, при построении модели объема сбыта автомобилей одинакового класса можно предположить
его зависимость от цены, затрат на рекламу, имиджа фирмы. Модель для
переменной y от нескольких факторов называется множественной регрессией. Факторы, включаемые в модель, должны удовлетворять нескольким
условиям:
yy Количественная измеримость. При необходимости включения в модель
качественного фактора, последнему придается количественная определенность (в виде баллов, ранга);
yy Отсутствие коррелированности и тем более функциональной связи между собой.
Постановка задачи множественной регрессии: по имеющимся n данным
из совместных наблюдений результативного признака y и p факторов xj ((yi,
xij ; i = 1, 2, ..., n; j = 1, 2, ..., p) необходимо определить аналитическую зависимость ŷ = f(x1,x2,...,xp), наилучшим образом описывающую данные наблюдений.
Наиболее простой для анализа и интерпретации является многофакторная линейная модель, которая содержит независимые переменные только
в первой степени
ŷi = a0 + a1xi1 + a2xi2 + a3xi3 + … + apxip . i = 1,…,n.
(1.17)
Коэффициенты уравнения множественной регрессии оцениваются, как
и в парной регрессии, с помощью МНК, т. е. подбором их значений на основе
критерия — минимума суммы квадратов отклонений модельных значений ŷi
от наблюдаемых значений yi.
n
∑ε
i =1
i
2
n
= ∑ [ yi − (a0 +a1x i1 +a2 x i2 +…+ap x i p )
i =1
]2 → min
Для нахождения экстремума функции многих переменных
n
∑ε
i =1
i
2
нуж-
но приравнять к нулю частные производные по этим переменным (aj.).
В результате приходим к системе нормальных уравнений, решение которой и позволяет получить коэффициенты аj. В матричной форме решение
имеет вид
а = (XTX)–1XTY,
(1.18)
27
где а — вектор неизвестных коэффициентов регрессии; X — матрица значений фактора (объясняющей переменной); XT — матрица, транспонированная к X; Y — вектор результирующего фактора (зависимой переменной).
 1 x11
1 x
21
X = 
... ...

 1 xn1
x12
x22
...
xB 2
... x1 p 
... x2 p 
, Y =
... ... 

... xnp 
 y1 
y 
 2  , a =
 ... 
 
 yn 
 a0 
a 
 1  .
 ... 
 
 a p 
(1.18а)
Обратим внимание на то, что в матрицу X кроме данных дополнительно
введен столбец, все элементы которого равны 1. Заметим также, что матричные вычисления проще всего производить в математических пакетах, например, в MathCad.
Достоверность каждого из p + 1 параметров модели оценивается при помощи t-критерия Стьюдента. Для любого из параметров модели аj находится
расчетное значение t-критерия
tрасч =
aj
S ε b jj
.
Здесь Sε — среднеквадратическое отклонение уравнения регрессии,
определяемое по формуле
Sε =
( yi − yˆ i )2
,
∑
i =1 n − p − 1
n
bjj — диагональные элементы матрицы (XTX) –1 . Коэффициент регрессии аj
считается надежным (значимым), если расчетное значение tрасч превышает
теоретическое (табличное) значение tтабл для заданных уровня значимости
α и ν (ν = n – p – 1) степеней свободы. Если же значимость не подтверждается,
то делается вывод о несущественности в модели фактора xj , и этот фактор
следует устранить из модели либо заменить на новый. В любом из этих случаев требуется перерасчет модели.
Независимые переменные xj могут иметь различный экономический
смысл, разные единицы измерения и масштаб. Если нужно определить степень относительного влияния отдельных факторов xj на изменение результативной переменной y, то переменные xj следует привести к сопоставимому
виду. Это можно осуществить переходом от переменных xj, y к стандартизи28
x ji − x j
y −y
рованным переменным x oj и yº, так что значения x oji =
и yio = i
σxj
σy
(i = 1,…,n; j = 1,…,p).
При переходе к этим переменным уравнение множественной регрессии
имеет вид
yºi = β1хºi1 + β2 хºi2 + β3 хºi3 + … + βp хºip .
(1.19)
Параметры уравнения множественной регрессии для данных в стандартизированных единицах связаны с параметрами регрессии для данных в натуральном масштабе зависимостью
βj =
σx
j
σy
aj (1.20)
Обычно на первом этапе перед расчетом параметров регрессии вычисляют матрицу R парных линейных коэффициентов корреляции, измеряющих
тесноту связи каждого фактора с результативным признаком y и с каждым
из остальных факторов. Это желательно для отбора факторов в процессе построения различных вариантов модели. Может случиться, что выбранные
факторы xl и xj находятся в тесной корреляционной связи (коэффициент парной регрессии rlj > 0,7). Это означает, что факторы модели коллинеарны, между
ними существует линейная зависимость. Таким образом, в рамках линейного
уравнения регрессии существует и другая линейная зависимость. Поэтому
подобное явление называют мультиколлинеарностью. Обнаружение мультиколлинеарности свидетельствует о непригодности выбранной модели, т. к.
оценить воздействие каждого фактора в отдельности на результативный признак нельзя, а, следовательно, нельзя и интерпретировать параметры уравнения регрессии.
Коллинеарность факторов приводит к ненадежности оценок коэффициентов регрессии и с вычислительной стороны из-за значения определителя
матрицы межфакторной корреляции XTX, близкого к нулю.
Устранить мультиколлинеарность возможно посредством исключения
из регрессии одного из двух линейно связанных факторов. Из этой пары в
наибольшей степени ответственным за мультиколлинеарность будет тот
признак, который теснее связан с другими факторами модели (имеет более
высокие по модулю значения коэффициентов парной линейной корреляции). Другими словами при отборе факторов предпочтение отдается не
фактору, более сильно связанному с результатом, а фактору, который при
сильной связи с результатом имеет наименьшую тесноту связи с другими
факторами.
29
Пример 1.2. Провести отбор факторов в модели множественной регрессии на основе данных взятых из [12] и представленных в табл.1.7:
Таблиц а 1.7
Организация
№
Цена единицы
продукции, руб Х1
Расходы на
рекламу, тыс.
руб. Х2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
140
141
136
149
154
143
155
155
151
154
147
151
144
156
152
141
148
141
139
147
138
134
116
137
127
125
116
134
145
135
164
109
145
144
132
122
163
139
134
136
Наличие отдела
маркетинга (
1-да,0-нет). Х3
Объем реализации
продукции, млн руб. Y
1
1
0
1
0
0
1
1
1
1
0
0
0
1
0
0
1
1
0
1
1,27
1,34
1,25
1,28
1,43
1,25
1,53
1,57
1,27
1,46
1,28
1,55
1,35
1,49
1,46
1,25
1,29
1,28
1,33
1,51
Переменные Х1 и Х2 принадлежат к интервальной шкале, а переменная
Х3 относится к номинальной шкале, но в то же время является дихотомической, так что они могут быть подвергнуты регрессионному анализу.
Из-за трудоемкости однородных вычислений регрессионный анализ
проведем в пакете Statistica.
Работаем в модуле Multiple Regression (множественная регрессия). Нажать кнопку Variables:, отобрать в открывшемся окне на рис.1.8 зависимую (Dependent) переменную Y и независимые (Independents) переменные
Х1,Х2,Х3 – OK.
Нажимаем OK. При помощи кнопок диалогового окна Multiple Regression
Results (вкладка Advanced) получим результаты регрессионного анализа
(рис.1.9).
Нажатие кнопки Summary Regression results открывает таблицу основных результатов.
30
В таблице на рис.1.10
приведены: коэффициент детерминации R-квадрат; многомерный коэффициент корреляции R, характеризующий
корреляцию между зависимой
переменной и оценкой, полученной по модели; коэффициенты регрессии В; St.Err.
of B — стандартные ошибки
оценки коэффициентов; t —
Рис. 1.8
значение статистики Стьюдента для проверки гипотезы о нулевом значении коэффициента; p — level — уровень
значимости отклонения этой гипотезы.
Итак, с учетом рассчитанных коэффициентов В имеем регрессию:
Y = –0,2 + 0,013*X1 – 0,003*X2 + 0,015*X3.
Коэффициенты регрессии Beta — это коэффициенты, которые получим, приведя все переменные к среднему 0 и стандартному отклонению
1. Величина этих коэффициентов позволяет сравнивать относительный
Рис. 1.9
Рис. 1.10
31
вклад каждой независимой переменной в зависимую переменную (Betaкоэффициент показывает на сколько единиц стандартного отклонения изменится зависимая переменная при изменении на одно стандартное отклонение независимой переменной при условии постоянства остальных
независимых переменных). Как видно из таблицы на рис. 1.10 основными
факторами, определяющими объем реализации, являются цена и затраты
на рекламу.
Значение коэффициента детерминации R2 = 0,651 указывает, насколько
изменения зависимого признака объясняются изменениями совокупности
всех включенных в модель факторов. То есть, это доля дисперсии зависимого признака, объясняемая влиянием независимых признаков.
Чтобы оценить значимость коэффициентов регрессии, воспользуемся
t-критерием Стьюдента. При доверительной вероятности 0,95 (уровень
значимости α = 0,05) и числе степеней свободы γ = n – k – 1 = 20–3–1 = 16
(k — число факторов) табличное значение t-критерия tтабл(0,05,16) равно
2,12 (См. Приложение П.II.). Сопоставляя расчетные значения критерия
Стьюдента (в таблице столбец t(16)) с табличным значением, убедимся,
что для факторов ‘Цена’, ‘Реклама’ коэффициенты регрессии значимы,
так как для них |t(16)| > tтабл, тогда как для фактора ‘Маркетинг’ t(16)< tтабл,
и значит коэффициент регрессии незначим, и фактором Х3 можно пренебречь.
Рассматривая значения p-le­vel,
можно также убедиться, что гипотезы
о нулевых значениях коэффициентов
отклоняются лишь для факторов Х2
и Х3, поскольку их значения меньше
0,05.
Исключим из рассмотрения фактор Х3. В этом случае данные могут быть представлены графически
(рис.1.11), а результаты расчета линейной регрессии для двух факторов
(Х1 и Х2) показаны на рис.1.12:
И уравнение регрессии имеет
Рис. 1.11
вид
Y = –0,264 + 0,014*X1 – 0,003*X2.
В полученном уравнении коэффициент регрессии 0,014 означает, что
увеличение цены на 1 руб. в среднем приводит к повышению объема реали32
Рис. 1.12
зации продукции на 14 000 тыс.руб. при условии, что затраты на рекламу не
изменяются.
Значения R и R-квадрат по сравнению с моделью с тремя факторами изменились незначительно. Коэффициенты значимы.
Так как расчетное значение F-критерия Фишера F (2,17), равное 15,562,
при доверительной вероятности 0,95 и числе степеней свободы больше его
табличного значения F(0,05,γ1,γ2) = F(0,05,2,17) = 3,59 (Приложение П.I.), то
уравнение регрессии является значимым (γ1 = k = 2,γ2 = n – k – 1 = 20 – 2 – 1 =
= 17, k — число факторов).
Продолжим описание возможностей окна Multiple Regression Results.
Кнопка ANOVA (анализ вариаций) позволяет ознакомиться с результатами
дисперсионного анализа уравнения регрессии (рис.1.13). В строках таблицы
источники вариации: Regress. — обусловленная регрессией, Residual — остаточная, Total — общая. В столбцах таблицы: Sums of Squares — сумма квадратов, df — число степеней свободы, Mean Squares — средний квадрат, F — значение F-критерия, p-level — вероятность нулевой гипотезы для F-критерия
на 5% уровне значимости. Вероятность нулевой гипотезы о незначимости
регрессии (p-level) значительно меньше 0,05, что говорит об общей значимости уравнения регрессии
Кнопка Partial correlations — позволяет просмотреть частные коэффициенты корреляции (Partial Cor.) между переменными (рис.1.14). Частные
коэффициенты корреляции характеризуют тесноту связи между результатом и фактором при устранении влияния другого фактора (или факторов),
Рис. 1.13
33
к­ оторые включены в уравнение регрессии. Частные коэффициенты корреляции, как и парные, могут принимать значения от –1 до + 1.
Связь объема реализации с ценой положительная, тесная (ryx1 = 0,781), а с
рекламой — отрицательная умеренная (ryx2 = –0,5).
Опишем возможности вкладки Residals \ assumptions \ prediction (рис.1.9)
диалогового окна Multiple Regression Results (рис.1.15).
Вкладка Predict dependent variable позволяет рассчитать по полученному
регрессионному уравнению значение зависимой переменной по значениям
независимых переменных. Пусть для примера Х1 = 150 руб, Х2 = 150 тыс.руб.
На рис.1.16 показаны окно ввода данных и таблица с рассчитанным значением объема реализации и его доверительными границами.
Как видим, предсказанный объем реализации составил 1,42 млн руб.
Вкладка Descriptive statistics (Описательная статистика) при выборе соответствующих кнопок предлагает просмотр описательной статистики (средние значения и стандартные отклонения переменных) и матрицу с парными
коэффициентами корреляции (рис.1.17):
Вкладка Perform residual analysis предлагает анализ остатков или разностей между наблюденными данными и значениями зависимой переменной (в
примере объем реализации) в построенной модели. Для адекватной модели
остатки должны быть нормально распределены со средним значением, равным 0. Нажимаем кнопку Normal plot residuals.
На полученном графике (рис.1.18) на вертикальной оси — ожидаемое
нормальное значение, на горизонтальной оси — значения остатков. Как ви-
Рис. 1.14
Рис. 1.15
34
Рис. 1.16
Рис. 1.17
дим распределение остатков близко к нормальному, т. к. их значения хорошо
ложатся на прямую, проведенную под углом 45° к горизонтальной оси.
Для этого же примера проведем анализ в пакете SPSS. Эта статистическая
программа предлагает набор пошаговых процедур, реализующих различные
методы отбора независимых переменных (факторов) в модель регрессии.
После запуска программы SPSS появится основное окно, представленное на рис.1.19.
Внизу окна размещены два ярлыка. В окне Data View (Панель данных)
вносим значения исследуемых переменных. При выборе Variable View (Вид
35
Рис. 1.18
переменных) в открывшемся окне (рис. 1.20) опишем все обрабатываемые
переменные.
Описание переменных в количественной шкале (х1 с именем ‘цена‘,
х2 – ‘реклама‘, y – ‘реализац‘) очевидно. Параметр Values (Значения переменной) полезен для номинальных переменных, значения которых представляются в количественной шкале в виде кодов. В SPSS коду можно поставить
в соответствие его номинальное значение.
В столбце Values указываются возможные значения. В примере для
номинальной переменной ‘Отдел‘ со значениями ‘нет отдела рекламы‘
и ‘есть отдел‘ выбраны соответственно коды значения 0 и 1 .Чтобы ввести
номинальные значения, нужно нажать на кнопку с тремя точками (выделена
цветом на рис. 1.20). В появившемся диалоговом окне Value Labels (Метки
значений) на рис. 1.21 в строчке для Value ввести 1, а в строчке для Value
Label — есть. Нажать Add, затем Ok. Далее повторим аналогичную процедуру с значением 0 и его меткой – Нет. При нажатии в окне
на рис. 1.19 кнопки
вместо кода в графе‘ отдел’ появится его значение.
Ниже на рис. 1.22 показан
фрагмент окна Data View c таблицей внесенных данных до
и после описания переменных
Рис. 1.19. Окно ввода данных в SPSS
36
Рис. 1.20.
Описание
параметров
переменных
в SPSS
Рис. 1.21.
Окно Value Labels
Переменная ‘отдел‘ в целом будет иметь такие параметры:
yy Name (Имя) — отдел
yy Type (Тип) – Numeric (числовой)
yy Width (Ширина) – 1
yy Decimals (Десятичные знаки) – 0
yy Label (Надпись) — отдел рекламы
yy Values (Значения) : 0 – ‘нет,’ 1 – ‘есть’
yy Measure (Измерение) – Nominal (номинальная).
У трех остальных переменных в столбце Measure – Scale (количественная).
Выбираем в меню Analyze... (Анализ)\ Regression...(Регрессия) |Linear...
(Линейная). В появившемся окне Linear
Regression (рис. 1.23) помещаем переменную
‘реализ’ в поле для зависимых переменных, объявляем переменные: ‘цена’,’реклама’,’отдел’ независимыми.
Выбираем Backward (Обратный метод, метод обратного исключения).
При обратном методе начинают с модели, содержащей все независимые переменные и затем
исключают независимые переменные с наименьшими частичными корреляционными коэффициентами, пока соответствующий регрессионный
коэффициент не оказывается незначимым (в данном случае уровень значимости равен 0,1).
Нажимаем Statistics… В окне Linear RegresРис. 1.22. Данные примера
sion Statistics (рис. 1.24) устанавливаем флажки
1.2 в SPSS
37
Рис. 1.23. Окно Linear Regression в SPSS
Рис. 1.24. Окно Linear Regression Statistics в SPSS
Estimates, Covariance matrix,
Part and partial correlations; нажимая кнопку Continue, возвращаемся в окно Linear Regression
Statistics, Ok.
SPSS формирует отчет с несколькими таблицами, представленными на рис.1.25–1.30. Приводятся результаты для каждого
шага (Model 1 и Model 2)
Согласно таблицам на рис
1.25, 1.26 переменная ‘отдел’
на шаге 2 исключена, так как
переменная ‘реализация’ зависит слабо от нее: величина
Sig. равна 0,678, т. е. превышает
принятый допустимый уровень
значимости 0,1.
Результаты дисперсионного анализа уравнения регрессии показывают, что гипотеза
равенства всех коэффициентов
регрессии нулю должна быть
отклонена: значение Sig. меньше 0,05.
Variables Entered / Removed(b)
Model
1
Variables
Entered
Variables
Removed
отдел
маркетинга,
затраты на
рекламу,
цена(a)
Method
.
Enter
отдел
маркетинга
Backward
(criterion:
Probability
of F-toremove > =
,100).
2
.
a All requested variables entered.
b Dependent Variable: объем реализации
Рис. 1.25
38
Excluded Variables(b) (Исключенная переменная)
Model
Beta In
t
Sig.
Partial
Correlation
Collinearity
Statistics
Tolerance
отдел
маркетинга
2
,068(a)
,423
,678
,105
,839
a Predictors in the Model: (Constant), затраты на рекламу, цена
b Dependent Variable: объем реализации
Рис. 1.26
ANOVA(c) (Дисперсионный анализ)
Model
Sum of
Squares
1
Regression
Residual
Total
Regression
Residual
Total
2
,162
,087
,249
,161
,088
,249
df
Mean Square
3
16
19
2
17
19
F
Sig.
,054
,005
9,934
,001(a)
,080
,005
15,562
,000(b)
a Predictors: (Constant), отдел маркетинга, затраты на рекламу, цена
b Predictors: (Constant), затраты на рекламу, цена
c Dependent Variable: объем реализации
Рис. 1.27
Model Summary (Суммарная информация по модели)
Model
R
R Square
Adjusted
R Square
Std. Error of
the Estimate
1
,807(a)
,651
,585
,07366
2
,804(b)
,647
,605
,07186
a Predictors: (Constant), отдел маркетинга, затраты на рекламу, цена
b Predictors: (Constant), затраты на рекламу, цена
Рис. 1.28
В таблице на рис. 1.29 представлены регрессионные коэффициенты.
В соответствии с ними, уравнение регрессии имеет вид
Объем реализации = –0,264 + 0,014*Цена – 0,03*Реклама.
Таблица свидетельствует о значимости коэффициентов регрессии в модели 2 (Sig.<0,05). Также по значениям стандартизированных ­коэффициентов
39
β заключаем, что фактор ‘цена’ в большей степени влияет на переменную ‘реализация’, чем фактор ‘реклама’ (значения 0,745 и –0,343 соответственно).
Между факторами отсутствует корреляция, они являются независи­
мыми.
Coefficients(a) (Коэффициенты)
Model
Unstandardized
Coefficients
Standar­
dized
Coeffi­
cients
Std.
Error
Beta (β)
B
1
(Constant)
цена
2
затраты на
рекламу
отдел маркетинга
(Constant)
цена
затраты на
рекламу
–,200
,451
,013
,003
–,003
,001
,015
,036
–,264
,415
,014
,003
–,003
,001
t
Sig.
Correlations
Zeroorder
Partial
Part
–,443
,664
4,691
,000
,727
,761
,693
–,362 –2,346
,032
–,305
–,506
–,347
,423
,678
,179
,105
,063
–,637
,533
5,162
,000
,727
,781
,744
–,343 –2,380
,029
–,305
–,500
–,343
,726
,068
,745
a Dependent Variable: объем реализации
Рис. 1.29
Coefficient Correlations(a)
отдел
маркетинга
Model
1
Correlations
Covariances
2
Correlations
Covariances
затраты на
рекламу
цена
отдел маркетинга
1,000
-,285
-,293
затраты на рекламу
-,285
1,000
,036
цена
-,293
,036
1,000
отдел маркетинга
,001
–1,307E–05
–3,013E–05
затраты на рекламу
–1,307E–05
1,610E–06
1,304E–07
цена
–3,013E–05
1,304E–07
8,095E–06
затраты на рекламу
цена
затраты на рекламу
цена
a Dependent Variable: объем реализации
Рис. 1.30
1,000
-,052
-,052
1,000
1,408E–06
–1,628E–07
–1,628E–07
7,043E–06
2. ДИСПЕРСИОННЫЙ АНАЛИЗ
(ANOVA – ANALYSIS OF VARIANCE)
П
рикладной целью дисперсионного анализа является исследование влияния независимых переменных, называемых факторами и представленных в номинальной или порядковой шкале, на зависимую величину, являющуюся количественной переменной.
По количеству выявляемых регулируемых факторов дисперсионный
анализ может быть однофакторным (при этом изучается влияние одного фактора на результаты эксперимента), двухфакторным (при изучении влияния
двух факторов) и многофакторным (позволяет оценить не только влияние
каждого из факторов в отдельности, но и их взаимодействие).
С помощью дисперсионного анализа исследуется вопрос о том, что является основной причиной вариации количественной переменной. Дисперсионный анализ построен на выяснении значимо ли различаются рассчитанные средние в нескольких группах данных или иначе является ли различие
в средних случайным или нет.
Исследование значимости различия между средними проводится с помощью сравнения (анализа) дисперсий. Идея дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на независимые случайные слагаемые, каждое из которых характеризует влияние того
или иного фактора или их взаимодействия. Последующее сравнение этих
дисперсий позволяет оценить существенность влияния фактора на исследуемую величину. Таким образом, задача дисперсионного анализа состоит
в том, чтобы выявить ту часть общей изменчивости признака, которая обусловлена воздействием учитываемых факторов, и оценить достоверность
делаемого вывода. Пусть, например, А — исследуемая величина, Ā — ее
41
среднее значение, учитываемые факторы мы обозначим буквой х, неучитываемые — z. Неучитываемые факторы составляют «шум» — помехи, мешающие выделить степень влияния учитываемых факторов. Отклонение А от
Ā при действии факторов х и z можно представить в виде суммы
(А – Ā) = Х + Z,
где Х — отклонение, вызываемое фактором х, Z — отклонение, вызываемое
фактором z. Кроме того, предположим, что Х, Z — являются независимыми
случайными величинами, обозначим дисперсии этих составляющих через σ 2X , σ 2Z , σ 2A . Тогда имеет место равенство
σ 2A = σ 2X + σ 2Z .
(2.1)
Сравнивая дисперсии, можно установить степень влияния факторов х и
z на величину А, т. е. степень влияния учтенных и неучтенных факторов.
Получаем ответ на вопрос, насколько учитываемый фактор ответственен за
изменчивость изучаемого признака и сколько процентов падает на долю неучтенных факторов.
2.1. Однофакторный дисперсионный анализ
При однофакторном дисперсионном анализе выдвигаются две гипотезы. Нулевая гипотеза H0 для F-критерия утверждает, что рассматриваемые
выборочные совокупности взяты из генеральных совокупностей с равными
средними значениями. Альтернативная гипотеза H1 полагает, что средние не
все равны.
Для проверки по F-критерию рассчитывают F-статистику Фишера,
представляющую собой отношение двух дисперсий — факториальной (межгрупповой) и остаточной (внутригрупповой) — F = δ 2 / σ 2 , и сравнивают ее
с табличным критическим значением, зависящим от числа степеней свободы
γ1 = m – 1 (рассматривается один фактор) и γ2 = N – m (N — общее количество
данных, m — число групп, на которые эти данные разбиты). F-статистика
показывает во сколько раз выборочные средние более изменчивы по сравнению с тем, что следовало ожидать, если бы расхождение было случайным.
Если различие в средних значительно, межгрупповая дисперсия будет гораздо больше, чем внутригрупповая. Значение F-критерия будет значительно
больше 1, и нулевая гипотеза будет отвергнута. Для того чтобы отвергнуть
нулевую гипотезу о отсутствии взаимосвязи признаков, т. е. об отсутствии
влияния группировочного признака на количественную переменную, необходимо, чтобы полученное значение критерия было больше табличного.
42
Сравнивая компоненты дисперсии друг с другом посредством F-критерия
Фишера, можно определить, какая доля общей вариативности (изменчивости)
результативного признака обусловлена действием регулируемых факторов.
Рассмотрим методику дисперсионного анализа на различных примерах.
Пример 2.1 (условие задачи заимствовано в [6]).
Взяты выборки из трех генеральных совокупностей (Табл.2.1).
Проанализировать, зависит ли возраст от категории персонала?
Сначала для анализа используем пакет Excel.
Исследуется только один приТаблиц а 2.1
знак или переменная: возраст сообслуживающий
трудников.
учителя, лет администрация,
лет
персонал, лет
Рассматривается только один
I группа, x1
II группа, x2
III группа, x3
фактор: категория персонала.
24
59
34
Имеем три группы (m = 3), ко27
35
29
торые соответствуют трем уровням фактора: учителя, админи26
29
35
страция, обслуживающий персо50
40
31
нал.
48
39
40
Проводя элементарные рас40
54
45
четы, найдем статистические показатели, представленные в табл.
56
2.2:
Таблиц а 2.2
Объем группы,n
Среднее в группе, xi ,лет
Общий объем, N
6
7
6
35,83
44,57
35,67
19
Среднее по всем данным,
x
, лет
39,00
Здесь j = 1, 2, 3.
Далее подсчитываем среднеквадратические отклонения от среднего
в каждой группе. Для наглядности изложения приведем промежуточные вычисления в табл.2.3.
Общая сумма квадратов отклонений (изменчивости) внутри групп, следовательно, составит
S2 внутри гр. = 680,83 + 813,71 + 175,33 = 1669,88 лет2.
43
Таблиц а 2.3
S 22 = ( x2 i − x2 )2 , лет2
S12 = ( x1i − x1 )2 , лет2
140,03
78,03
96,69
200,69
148,03
17,36
680,83
Σ
S 32 = ( x3 i − x3 )2 , лет2
208,18
91,61
242,47
20,9
31,04
88,9
130,61
813,71
2,78
44,44
0,44
21,78
18,78
87,11
175,33
Находим внутригрупповую дисперсию, как отношение
σ 2 = S2внутри гр / (N – m).
2
(2.2)
Имеем σ = 1669,88 / (19–3) = 104,37 лет .
Факториальную дисперсию получим как отношение суммы квадратов
отклонений между группами к величине (m – 1)
2
δ2 = S2меж.гр. / (m–1).
(2.3)
Величину S2меж.гр находим, используя вычисления в табл. 2.4,
Таблиц а 2.4
nj
x j , лет
( x j − x )2 , лет
Итого
6
7
6
19
35,83
44,57
35,67
10,05
31,02
11,09
2
n ⋅ ( x j − x )2 , лет
2
60,29
217,17
65,53
344,00
S2меж.гр = 344 лет2. Следовательно, δ2 = 344,00 / (3–1) = 172,00 лет2.
Находим статистику F (расчетное значение):
2
Fрасч = δ2 / σ = 172,00 / 104,37 = 1,65.
Найдем критическое значение с уровнем значимости α = 0,05 (с надежностью 95%) для γ1 = 2 и γ2 = 16. Из таблицы (см. Приложение П.II) найдем
(теоретическое значение) F0,05;2;16 = 3,633.
Так как Fрасч < Fкрит (1,65 < 3,633), то средний возраст рассматриваемых
категорий персонала не различается значимо. И, следовательно, разница
в среднем возрасте в различных группах объясняется не категорией персонала, а какими-то другими неучтенными факторами.
44
Рис. 2.1
На данном примере опишем также процедуру анализа
в пакете SPSS.
Открываем SPSS. В появившемся окне отмечаем Type
in data, нажимаем Ok и переходим в основное окно SPSS
Data Editor (Редактор данных).
Выбирая Variable View, присваиваем нужные имена переменным и указываем их тип, количество знаков (Рис. 2.1).
Переходим в Data View, вводим данные. Таблица
с данными примера о возрасте персонала показана на
рис.2.2:
Выполняем команду Analyze\Compare Means\One-Way
ANOVA и в появившемся диалоговом окне, показанном на
рис. 2.3, указываем переменную age в качестве зависимой
переменной (в окне Dependent List), а переменную type как
влияющий фактор (в окне Factor).
Нажимаем кнопку Ok, в окне отчетов появится представленная ниже
на рис.2.4. таблица с результатами
дисперсионного анализа
Программа SPSS в числе рассчитанных показателей показывает не
только статистику F, но и величину
Рис. 2.3
Sig — значимость полученного ре-
Рис. 2.2
ANOVA
AGE
Sum of
Squares
df
Mean Square
F
Sig.
Between Groups
344,119
2
172,060
1,649
,223
Within Groups
1669,881
16
104,368
Total
2014,000
18
Рис. 2.4.
45
зультата. Если величина Sig меньше величины 0,05, то делается вывод о том, что
различия в средних значениях для разных групп не случайны. В рассмотренном
примере Sig равно 0,223, что указывает на случайность расхождений среднего
возраста для разных категорий персонала.
Пример 2.2. Для анализа спроса на определенный вид упаковки молока
некоторого производителя были собраны данные по продажам по каждому
виду упаковки за 10 дней. Выкладка на полках идентична (уровень полки,
окружение другими товарами). Конкурентное предложение (количество торговых марок, представляющих молоко; стоимость) одинаково по всем видам
упаковки. Емкость: 1 литр.
Данные представлены в табл.2.5. Требуется выяснить, влияет ли на сбыт
молока вид упаковки.
Результаты анализа, полученные в пакете SPSS показаны на рис. 2.5.
Таблиц а 2.5
Тип упаковки
День 1
День 2
День 3
День 4
День 5
День 6
День 7
День 8
День 9
День 10
Продажа молока в литрах за 10 дней
Tetra Pak
Пластиковая бутыль
Полиэтилено- вый пакет
48
53
64
46
51
61
45
47
55
42
48
53
39
46
57
40
50
62
37
52
69
36
48
66
39
45
59
38
43
60
Means (средние показатели)
Report
ПРОДАНО
ГРУППА
1
2
3
Total
Mean
41,00
48,30
60,60
49,97
N
10
10
Std. Deviation
4,082
3,199
10
30
4,926
9,141
ANOVA
Sum of Squares
Mean
Square
df
Between Groups (межгрупп)
1962,467
2
981,233
Within Groups(внутригрупп)
460,500
27
17,056
2422,967
29
Total
46
F
57,532
Sig.
,000
Рис. 2.5. Отчет,
сформированный в пакете SPSS,
для данных примера 2.2.
Результаты
анализа
данных примера 2.2, полученные в пакете Statistica,
представлены на рис.2.6.
Из таблицы (см. ПриРис. 2.6
ложение
П.1)
F0,05;2;27 =
= 3,35. Расчетное значение F = 57,53 больше, и значимость результата (в пакете Statistica значимость обозначается символом p в отличии от обозначения Sig в SPSS) p = 0. Это означает, что различия в средних для разных групп
не случайны, и, следовательно, упаковка влияет на количество продаж. Отметим, что красным цветом выделяется фактор, который оказывает существенное влияние.
2.2. Двухфакторный дисперсионный анализ
Пример 2.3. Данные о приросте удоев молока (в литрах) в зависимости
от вида добавок в рацион кормления для различных пород коров представлены в табл.2.6. Исследовать влияние на количественную переменную качественных показателей
Расчеты проведем с использованием пакета Statistica.
Вводим данные (рис. 2.7).
Последовательно
выполняем: Statistics\Anova|Main effects
Anova – Ok – Variables:
Dependent — прирост удоев, Categorical hredictors(factors) — коровы,
Та бли ц а 2.6
Порода
коров
1
1
2
3
4
10
25
40
33
Виды добавок
2
3
4
12
30
43
40
11
27
47
45
15
18
42
37
5
18
35
41
36
Рис. 2.7
47
добавки – Ok – All effects. На экране появятся результаты общего дисперсионного
анализа (рис.2.8)
SS
Degr. of
MS
F
p
Intercept
18301,25
1
18301,25
1067,128
0,000000
Порода коров (А)
2584,95
3
861,65
50,242
0,000000
Вид добавки (В)
107,00
4
26,75
1,560
0,247581
Error
205,80
12
17,15
Рис. 2.8. Результаты дисперсионного анализа данных примера 2.3 в
Statistica
Полученная таблица равносильна следующей:
Таблиц а 2.7
Источник
изменчивости
Фактор
А (порода коров)
Фактор В (вид
добавки)
Случайная
составляющая
Сумма
квадратов
отклонений
Число
степеней
свободы
Дисперсия
F-критерий
Критические
значения критерия
(α = 0,01)
2584,95
3
861,65
50,242
5,95
107,00
4
26,75
1,560
3,26
205,80
12
17,15
Таким образом, можно проверить нулевую гипотезу о равенстве средних
групповых значений количественного показателя (прироста удоев в литрах).
Так как для фактора А Fнабл > Fкр, то этот фактор оказывает влияние на количественный признак. Для фактора В Fнабл < Fкр, поэтому он не оказывает
существенного влияния на количественный признак. Поэтому можно прийти
к выводу, что удои молока в значительной мере зависят от породы коров, но
не зависят от вида добавок в рацион кормления.
3. ДИСКРИМИНАНТНЫЙ АНАЛИЗ
Д
искриминантный анализ — статистический метод анализа данных, позволяющий распределить (дискриминировать) исследуемые объекты
по заранее заданным классам (полностью или частично, с помощью обучающих выборок). Метод позволяет проверить правильность распределения
объектов в уже существующих классах, а также определить к какому этих
классов отнести вновь поступающий объект.
В основе анализа изучение влияния переменных, называемых признаками (факторами) и измеренных в количественной шкале, на переменные,
измеренные в номинальной или порядковой шкале.
Метод дискриминантного анализа одним из первых был применен в сфере банковской деятельности, а именно — в кредитном анализе. Здесь ясно
прослеживается основной подход метода, подразумевающий привлечение
прошлого опыта: необходимо определить, чем отличаются заемщики, вернувшие в срок кредит, от тех, кто этого не сделал. Полученная информация
должна быть использована при решении судьбы новых заемщиков. Иначе
говоря, применение метода имеет цель: построение модели, предсказывающей, к какому из классов относятся данные клиенты.
В частности, проблема проверки кредитоспособности клиентов может
решена банком с помощью группировки их по степени риска — высокой или
низкой — на основании таких количественных признаков, как возраст клиента, его годовой доход, количество кредитов и других. Зависимой переменной в этом случае является степень риска. Количество групп не должно быть
больше количества признаков.
В линейном дискриминантном анализе Фишера правило принятия решений основано на построении дискриминантной функции d(x) — линейной
49
комбинации исходных показателей для объекта (заданный набор признаков),
с коэффициентами, которые подбираются из условия наибольших различий
между объектами в существующих классах.
Рассмотрим для простоты случай двух классов. Правило принятия решений определяется константой d0 — при d(x)>d0 распознаваемый объект
относится к первому классу, при d(x)<d0 — ко второму.
Легко понять идею дискриминантного анализа, заключающуюся в построении дискриминантной функции, с помощью геометрической интерпретации для случая двух групп с двумя признаками (рис.3.1) Каждый объект
представлен точкой с координатами х1 и х2. Требуется построить
в плоскости границу так, чтобы как
можно больше точек одной группы
лежало по одну сторону границы,
а как можно больше точек второй — по другую сторону.
В данном примере объекты
обеих групп располагаются на плоскости х1,x2, и дискриминантной
Рис. 3.1. Пример двух групп с двумя
признаками с дискриминантной прямой
функцией является прямая линия
D = a0 + a1x1 + a2x2,
(3.1)
разделяющая их наилучшим образом Средняя точка между совокупностями
является пороговым значением. Здесь ai — коэффициенты, которые следует
оценить с помощью дискриминантного анализа.
Дискриминантная функция и пороговое значение могут быть использованы для классификации будущих наблюдений.
Таким образом, использование дискриминантного анализа для решения
задач классификации объектов по признакам предполагает наличие двух этапов:
1. Построение дискриминантных функций путем анализа объектов.
2. Классификация неизвестных объектов.
Первый этап является самым трудоемким и решающим. Если дискриминантные функции для объектов в заданных классах найдены верно,
то на втором этапе, используя входные данные новых объектов, остается
лишь вычислять их значения и по ним определять класс принадлежности
объекта.
50
1/--страниц
Пожаловаться на содержимое документа