close

Вход

Забыли?

вход по аккаунту

;ppt

код для вставкиСкачать
УДК 519.246.8
МЕТОД БАЙЕСА И МГУА В ЗАДАЧЕ КЛАССИФИКАЦИИ
С ПЕРЕМЕННЫМИ РАЗНОГО ТИПА
1
Кондрашова Н.В., 2Павлов В.А., 1Павлов А.В.
Международный научно-учебный центр информационных технологий и систем НАНУ и
МОНУ, Киев, Украина
2
Открытый международный университет развития человека «Украина» , Киев, Украина
[email protected], [email protected], [email protected]
1
Описание проблемы.
В работе рассматривается типизация на метрические и категориальные (номинальные и
порядковые) переменные (такие, которые характеризуют количественные и качественные
свойства данных) [1]. Речь идет о классификации измерительных шкал, предложенной в [2].
Шкала, в которой отображена переменная, определяет, какие из методов классификации
применимы в конкретной задаче, а какие - нет. При этом все методы, которые можно
использовать с более "слабыми" шкалами, можно использовать и с более "сильными". Так,
методы, пригодные для работы с номинальными шкалами, подходят и для порядковых
(вторая разновидность категориальных) и метрических шкал. А методы, пригодные для
порядковых, подходят и для метрических шкал. Но методы, пригодные для метрических, не
следует применять для категориальных переменных.
Наиболее известными методами классификации являются: метод опорных векторов [3],
кластерный [4], факторный и дискриминантный анализы [5], нейронные сети.
К статистическим методам, кроме нейронных сетей, относятся все вышеперечисленные
методы и метод Байеса [6]. Таблица 1 по применимости методов статистического анализа в
случае метрических и категориальных переменных является аналогом таблицы,
содержащейся в работе [1].
Таблица 1 Задание статистического анализа
Категориальная
Тип переменной
Определение
срединного
значения
Порядковая
Мода
Номинальная
Медиана
Метрическая
Среднее
арифметическое
Определение
неоднородности
распределения
Коэффициент
изменчивости
категорий
Среднее
отклонение,
стандартное
отклонение
Анализ силы
связи (коэф.
корреляции)
фи, V-Крамера,
Лямбда 1,
Гамма3,
Спирмена,
Кендалла
Пирсона
Сравнение
классов
Сравнение
выборочных2
Непараметрические критерии4
Сравнение
средних5,
дисперсионный
анализ
1
Все имеют табличный вид
Выборочные пропорции сравниваются с использованием нормального распределения выборочных статистик
3
Табличный вид
4
Критерии, основанные на сравнении рангов значений: например, Н-Краскала-Уоллеса или U-Манна-Уитни
5
Выборочные средние сравниваются с использованием распределения Стьюдента, а также нормального
распределения выборочных статистик.
2
1
Метод опорных векторов использует решение задачи линейного программирования.
Наиболее известным из методов кластерного анализа, является метод k-средних [7].
Применение факторного анализа и метода k-средних [8] также ограничивается
метрическими переменными. Поэтому задачи, оперирующие одновременно как
категориальными, так и метрическими переменными, решать методами опорных векторов,
кластерного и некоторыми методами факторного анализа не представляется возможным.
В задаче классификации с обоими типами переменных исследовано применение метода
группового учета аргументов (МГУА) и предназначенного для этого дискриминантного
анализа [9]. Структура моделей в алгоритмах МГУА определяется в результате построения
древовидной нейроподобной сети.
Как видно из таблицы 1, применение номинальных переменных в автоматизированной
диагностической системе имеет трудности в связи с тем, что для принятия решений
необходимо использовать табличные данные. Поэтому в [10] свыше десяти исходных
номинальных переменных преобразованы в порядковые (с помощью таблицы частот их
появления), и результаты оценены по критерию ранговой конкордации Кендалла-Смита и
критерия Пирсона.
В [11] исследовано применение метода самоорганизации моделей, алгоритм построения
которых использует, как категориальные, так и интервальные (метрические) переменные.
В [12] рассмотрен сравнительный анализ результатов применения ряда статистических
методов (в том числе байесовского) для задачи с категориальными переменными и МГУА – с
обоими типами данных. В [12] построен наивный байесовский классификатор, который по
формуле Байеса-Лапласа выбирал наиболее вероятный класс из четырех возможных.
В зависимости от трактования частот в исходной таблице данных: являются они
совместными или условными выборочными вероятностями признаков и классов – на
экзаменационной выборке полученная точность соответственно 27% (3 из 11) или 36% (4 из
11). В экзаменационную выборку для проверки работы байесовского классификатора
отобраны самые трудные для распознавания случаи – наблюдения с пересекающимися
группами из десяти переменных, на которых ошибался классификатор МГУА.
Примем во внимание, что в применении байесовского подхода имеется ряд
возможностей и преимуществ [13], [14].
Решение проблемы.
В данной работе рассмотрен нереализованный в [12] подход классификации – «один
против всех» (Оne-vs-All). Четыре МГУА-классификатора, построенные по такому
принципу, позволили повысить точность на обучающей выборке и экзамене по сравнению с
точностью одного МГУА-классификатора на все классы.
Сравнение точности построенных по схеме «один против всех» МГУАклассификаторов и байесовских классификаторов является более корректным. Кроме того,
для уравнивания условий сравнительного эксперимента в наивный байесовский
классификатор добавлена метрическая переменная.
Байесовские классификаторы, как и МГУА-классификаторы, использовали модели,
зависящие линейно от исходных переменных, но последние – также с их нелинейными
преобразованиями.
В таблице 2 приведены характеристики полученных наивных байесовских
классификаторов (НБ), а также классификаторов МГУА – линейных и нелинейных. Видно,
что линейные модели МГУА-классификаторов имеют худшую точность при распознавании в
2
среднем по классам и в каждом из классов, за исключением четвертого класса (в нем малое
количество наблюдений).
Оценки априорных вероятностей в классах и условных вероятностей появления
признаков в классах определяются неточно. Распределение 80-ти наблюдений по классам и
выборкам следующее:
1-й класс – обучение – 20 точек (наблюдений), экзамен – 4 точки.
2-й класс – обучение – 15 точек, экзамен – 2 точки.
3-й класс – обучение – 27 точек, экзамен – 4 точки.
4-й класс – обучение – 8 точек, экзамен – 0 точек.
Наивный байесовский классификатор предполагает взаимную независимость признаков
при расчетах формулы апостериорной вероятности класса по множеству признаков, чего в
реальных задачах нет. МГУА имеет возможность учитывать взаимную зависимость
признаков, поэтому нелинейные МГУА-классификаторы имеют более высокую точность на
обучающей выборке, и, что более важно, – на экзамене.
На всей выборке среди 9-ти ошибок, допущенных нелинейным МГУАклассификатором, имеются 3 нераспознаваемые и 6 распознаваемых ошибок. Последние
являются причиной «конфликта» диагнозов и могут быть устранены путем дополнительного
затратного тестирования. Получено три нераспознаваемых ошибки, при которых
нелинейный МГУА-классификатор отказывался от «своего» наблюдения, и одновременно
один из трех других признавал это наблюдение «своим».
Точность выражает процент правильно распознанных наблюдений, вычисленный при
исключении из всей выборки шести распознаваемых ошибок. Одна из распознаваемых
ошибок связана с наличием в выборке так называемых «двойников», т.е. наблюдений с
одинаковым набором признаков, но принадлежащим разным классам.
Оба классификатора согласовано выбрали один и тот же класс, к которому следует
отнести оба наблюдения.
Таблица 2 - Точность полученных классификаторов «один против всех»
% распознавания в классах
Выборка,
классификатор
№ класса
1
2
3
4
Среднее в %
(n из т)
Вся выборка, НБ
83,33
52,94
77,42
37,5
62,8 (50 из 80)
Вся выборка,
линейный МГУА
70,8
35,5
47,1
62,5
53,98 (43 из 80)
50
50
25
-
Экзамен. НБ
Вся выборка,
95,65
нелинейный МГУА (22 из23)
Экзамен,
нелинейный МГУА
75
(3 из 4)
100
92,59
(16 из 16) (25из 27)
100
(2 из 2)
50
(2 из 4)
40 (4 из 10)
100
(8 из 8)
97,06
(71 из 74)
-
70 (7 из 10)
3
Выводы. Наивный байесовский классификатор сам по себе имеет значительно
худшие показатели точности (62,8% на всей выборке и 40% на экзамене), чем нелинейный
МГУА-классификатор (97,06% на всей выборке и 70% на экзамене). Ни одна из
нераспознаваемых ошибок нелинейного МГУА-классификатора, допущенная им на
экзаменационной выборке, не устранена правильной работой байесовского классификатора.
Список литературы
1. Дембицкий С. Теоретико-методологические основы количественных исследований. Online
учебник по анализу данных.– 2011-2013 // Электронный ресурс: http://soc-research.info/quantitative/
2. Stevens, S. S. On the Theory of Scales of Measurement.// Science. – 1946, – 103 (2684). –
P. 677–680.
3. Cortes C., Vapnik V. Support-vector networks// Machine Learning. – 1995.– V.20, Issue 3. –
P. 273-297.
4. Tryon Robert C. Cluster Analysis: Correlation Profile and Orthometric (factor) Analysis for
the Isolation of Unities in Mind and Personality// Edwards Brothers. –1939.
5. Факторный, дискриминантный и кластерный анализ: Пер. с англ. – М.: Финансы и
статистика, – 1989. – 215 с.
6. В.Н. Вапник, А.Я. Червоненкис Теория распознавания образов. Статистические
проблемы обучения. М: Наука, 1974. — 416 с.
7. Steinhaus H. Sur la division des corps materiels en parties// Bull. Acad. Polon. Sci. – 1956, –
C1. III. – vol IV: – P. 801—804.
8. MacQueen J. Some methods for classification and analysis of multivariate observations.// In
Proc. 5th Berkeley Symp. on Math. Statistics and Probability, – 1967. – P/ 281—297.
9.Кондрашова Н.В., Павлов В.А., Павлов А.В. Решение задачи медицинской диагностики
линейным дискриминантным анализом и МГУА // УСиМ. 2013, – №2. – С.79-88.
10. Кондрашова Н.В., Томилин В.В. Решение задачи диагностики заболеваний легкой
формой коагулопатии и тромбоцитопатии на основе методов экспертных оценок. Системні
технології, Регіональний міжвузівський збірник наукових праць, вып. 6(71), –
Дніпропетровськ: 2010, С.104-114.
11. Павлов А.В., Павлов В.А., Томилин В.В. Синтез классификаторов дифференциальной
диагностики заболеваний легких форм гемостазиопатий методом группового учета
аргументов// Восточно-Европейський журнал передовых технологий. Харьков, – 2011, – №
2/2(50). – С.42-48.
12. Кондрашова Н.В. МГУА и вероятностные методы при построении классификаторов
медицинской дифференциальной диагностики // Індуктивне моделювання складних систем.
Збірник наук. праць. // К.: МННЦІТС, 2012. – Вип.4. – С.102-113.
13. Hand, DJ, & Yu, K. Idiot’s Bayes – not so stupid after all?// International Statistical Review.
– 2001, – Vol 69, – part 3. – P. 385– 99.
14. Schlesinger M.I., Vodolazskiy E.V. Nearly Optimal Statistical Recognition and Learning)//
Proc. of 4th International conference on Inductive Modelling (ICIM’2013). – Kyiv : IRTC ITS in
Kyiv, 16-20 September, – 2013, – P. 51-58.
4
1/--страниц
Пожаловаться на содержимое документа