Применение методов оценки взаимной информации для отбора

Применение методов оценки взаимной информации для отбора
признаков в задачах регрессии
Кирилл Ефимов
Московский Физико-Технический Институт,
лаборатория Премолаб
Datadvance
[email protected]
Аннотация
Фильтры основываются на общих характеристиках данных, таких как корреляция Пирсона, взаимная информация, и не используют обучающий алгоритм аппроксимации [3, 4].
Также возможно использование гибридных алгоритмов [5, 6], например, сначала часть признаков
отсеивается с помощью фильтра, а затем применяется более «тяжелый» враппер.
Во всех трех подходах возникает задача поиска
оптимального подмножества. Прямой перебор представляет собой NP-полную задачу. Тем не менее,
можно использовать, например, метод ветвей и границ [7] или генетический алгоритм [1] для получения
более быстрых приближенных результатов.
Для неполного поиска применяют несколько
подходов. Наиболее популярны прямой и обратный
ход [8, 9]. В случае прямого хода начинают с пустого множества признаков, затем к нему добавляется
по одной переменной исходя из значений некоторого
критерия информативности. В случае обратного хода все происходит наоборот: изначально множество
содержит полный набор переменных, и затем из него
удаляется по одной переменной. Эти два подхода
можно комбинировать, сочетая прямой и обратный
ход, прибавляя q и удаляя p переменных на каждом
шаге [10].
В данной работе часть алгоритмов из работы [11]
и несколько других алгоритмов экспериментально
исследованы на применимость в задачах регрессии,
и выявлено, какие алгоритмы лучше справляются
с избыточностью, а какие лучше отсеивают нерелевантные признаки. Предложена процедура, которая
справляется с обеими проблемами.
Во многих прикладных задачах машинного обучения данные имеют большую размерность, что затрудняет их обработку. Поэтому актуально решение задачи отбора наиболее релевантных и неизбыточных признаков. Цель данной работы состоит в
том, чтобы сделать обзор имеющихся методов и
провести их сравнение на искусственных и реальных данных в применении к задачам регрессии.
1. Введение
Аппроксимация данных большой размерности
безусловно важна, и решение этой задачи зачастую
затруднено из-за недостаточно большой выборки
и/или из-за наличия нерелевантных (не влияющих
на выход) и/или избыточных (дублирующих информацию) признаков. Поэтому естественным образом
возникает задача отбора признаков.
Алгоритмы отбора признаков можно разделить
на три класса: врапперы, фильтры и вложенные алгоритмы. Основное различие заключается в том,
что врапперы и вложенные алгоритмы используют обучающий алгоритм построения аппроксимации
при отборе признаков, в то время как фильтры для
отбора применяют другие методы, не связанные с
алгоритмом построения аппроксимации.
Врапперы (Kohavi [1]) для оценки информативности текущего множества отобранных признаков
используют ошибку алгоритма построения аппроксимации. Обычно используется ошибка, оцененная
с помощью кросс-валидации или тестового множества. Главный минус враппера – оценка ошибки обучения есть времязатратный процесс.
Вложенные методы используют специфику
обучающего алгоритма аппроксимации. Например,
отбор признаков можно производить с помощью метода Lasso при построении линейной регрессии, см.
[2] .
2. Теория
2.1. Основные понятия
Пусть X,Y, Z - случайные величины. Энтропия
H(X) является мерой неопределенности в данных.
363
Для оценивания θ ∗ будем использовать метод максимизации правдоподобия, т.е. будем максимизировать
(5). Первое слагаемое показывает, насколько хорошо мы можем приблизить истинное распределение
p(Y |Xθ ) нашей моделью q(Y |Xθ , τ). Если θ принимает
истинное значение θ ∗ , то первое слагаемое есть расстояние Кульбака-Лейблера K(p, q). Второе слагаемое выражает количество информации об Y , оставшееся в неотобранных переменных. Заметим, что
Энтропия неотрицательна и, если случайная величина есть константа, то энтропия равна нулю, т.е.
никакой неопределенности в данных нет. Условная
энтропия H(X|Y ) показывает, сколько неопределенности осталось в X после того, как стала известна
реализация Y . Взаимная информация I(X;Y ) определяется согласно формуле
I(X;Y ) = H(X) − H(X|Y ) =
ZZ
=
p(x, y) log
p(x, y)
dxdy,
p(x)p(y)
(1)
I(X;Y ) = I(Xθ ;Y ) + I(Xθ˜ ;Y |Xθ ),
и т.к. I(X;Y ) = const, то минимизация I(Xθ˜ ;Y |Xθ ) эквивалентна максимизации I(Xθ ;Y ).
Наконец, третье слагаемое есть неисключаемая константа, характеризующая неопределенность
в данных, которая остается даже при использовании
всех переменных.
Теперь сделаем стандартное предположение, характерное для алгоритмов фильтрации признаков:
отбор признаков происходит вне зависимости от построения модели q. Т.е. далее будем минимизировать
только второе слагаемое, забыв про первое (и про
третье, т.к. оно есть константа).
Необходимо найти подмножество переменных
наименьшей размерности, доставляющее минимум
I(Xθ˜ ;Y |Xθ )
где p(x, y) совместная плотность X и Y , p(x) и p(y)
плотности X и Y соответственно. I(X;Y ) показывает,
сколько содержится в Y информации об X. Условной
взаимной информацией I(X;Y |Z) называется величина
I(X;Y |Z) = H(X|Z) − H(X|Y, Z) =
Z
=
ZZ
p(z)
p(x, y|z) log
p(x, y|z)
dxdydz.
p(x|z)p(y|z)
(2)
Например, пусть X и Y независимые случайные величины, Z = X +Y . Тогда I(X;Y ) = 0 и I(X;Y |Z) 6= 0.
В дальнейшем нам понадобится следующее свойство
I(X,Y ; Z) = I(X; Z) + I(Y ; Z|X).
(3)
θ ∗ = arg min
{|θ 0 | : θ 0 = arg min I(Xθ˜ ;Y |Xθ )},
0
2.2. Максимизация правдоподобия
т.к. если к θ ∗ добавить нерелевантные признаки, то
такой набор также будет доставлять минимум.
Напрямую оценивать I(Xθ˜ ;Y |Xθ ) проблематично
ввиду необходимости получения оценок плотностей
размерности d + 1, где d может быть велико. Поэтому здесь применяют различные приближения критерия. Один из подходов состоит в последовательном
отборе признаков и, по сути, является жадным алгоритмом (см. [11]).
Обозначим через S множество отобранных признаков. Тогда на очередной итерации к S добавляется тот признак, который вносит самый большой
вклад в общую информацию об Y . Т.е. выбираем
тот Xk , который максимизирует J(Xk ) = I(Xk ;Y |S), где
J(Xk ) играет роль ранга Xk на итерации |S|:
Предположим, что мы приближаем истинную
плотность p некоторой моделью q, определяемой параметром τ. Логарифм правдоподобия данных имеет
вид
Xk = arg max J(Xi ) = arg max I(Xi ;Y |S).
i6∈S
N
I(Xk ;Y |S) = I(Xk ;Y ) − I(Xk ; S) + I(Xk ; S|Y ).
В работе [11] показано, что если взять матожидание функции правдоподобия, то
p(Y |Xθ )
+ I(Xθ˜ ;Y |Xθ )+
q(Y |Xθ , τ)
+ H(Y |X).
i6∈S
(8)
Верно равенство
(4)
i=1
−EL(θ , τ|D) = E log
(7)
θ
θ
Пусть мы наблюдаем n независимых реализаций D = (xi , yi )ni=1 некоторого случайного процесса
p : X → Y , где X = (X1 , . . . , Xd ) есть случайный вектор
размерности d, Y ∈ R1 . Предположим, что на Y влияет только некий подвектор X размерности меньше
d, и пусть θ ∗ есть индикатор этого подвектора. Обозначим через Xθ подвектор X, индикатором которого
является θ , через xθi – соответствующий подвектор
xi , через θ˜ индикатор подвектора X, дополняющего
Xθ до X. Элементы подвектора Xθ будем называть
релевантными признаками, соответственно, остальные признаки — нерелевантными. Ставится задача
нахождения θ ∗ .
L(θ , τ|D) = ∑ log q(yi |xθi , τ).
(6)
(9)
Первое слагаемое I(Xk ;Y ) показывает, насколько признак релевантен сам по себе. Второе слагаемое характеризует, насколько признак избыточен, т.е. сколько его информации уже содержится
в отобранном множестве. И, наконец, третье слагае-
(5)
364
Критерий
CMI
CIFE
MIFS
MIM
CONDRED
JMI
mRMR
ICAP
CMIM
Полное название
Conditional Mutual Information
Conditional Infomax Feature Extraction
Mutual Information Feature Selection
Mutual Information Maximization
Conditional Redundancy
Joint Mutual Information
Max-Relevance Min-Redundancy
Interaction Capping
Conditional Mutual Info Maximisation
Авторы
Brown et al. (2012)
Lin and Tang (2006)
Battiti (1994) [12]
Lewis (1992)[13]
Brown et al. (2012)
Yang and Moody (1999)[14]
Peng et al. (2005)[15]
Jakulin (2005)[16]
Fleuret (2004)[17]
Таблица 1. Основные критерии
мое, «условная избыточность», показывает, насколько данный признак связан с другими через Y . Таким
образом, даже если признак избыточен, то его условная избыточность может это компенсировать.
При небольших S можно оценивать это выражение напрямую. Однако, можно упростить оценку,
сделав следующее (Brown [11])
нием их авторов см. в таблице 1. В таблице 2 перечислены выражения для J().
J(Xk )
I(Xk ;Y |S)
I(Xk ;Y ) − ∑ I(X j ; Xk ) + ∑ I(X j ; Xk |Y )
MIFS
I(Xk ;Y ) − ∑ I(X j ; Xk )
Condred
I(Xk ;Y ) + ∑ I(X j ; Xk |Y )
MIM
I(Xk ;Y )
j∈S
j∈S
(10)
j∈S
JMI
p(Xθ |Xk ,Y ) = ∏ p(X j |Xk ,Y ).
(11)
JMI_x
j∈S
j∈S
− H(S) + H(S|Y ) − ∑ H(X j |Y ) + ∑ I(X j ; Xk |Y ).
CMIM
I(Xk ;Y ) − max[I(Xk ; X j ) − I(Xk ; X j |Y )]
CMIM_x
min[I(Xk ;Y |X j )]
Condred_n
(12)
I(Xk ;Y ) −
j∈S
j∈S
После отбрасывания слагаемых, не зависящих от Xk ,
J(Xk ) = I(Xk ;Y ) − ∑ I(X j ; Xk ) + ∑ I(X j ; Xk |Y ).
j∈S
ICAP
1
I(X j ; Xk )
|S| ∑
j∈S
1
I(Xk ;Y ) +
I(Xk ; X j |Y )
|S| ∑
j∈S
I(Xk ;Y ) − ∑ max[0, I(X j ; Xk ) − I(X j ; Xk |Y )]
mRMR
I(Xk ;Y |S) = I(Xk ;Y ) + ∑ H(X j ) − ∑ I(X j ; Xk |Y )−
j∈S
!
1
I(Xk ;Y ) −
I(X j ; Xk ) + ∑ I(X j ; Xk |Y )
|S| ∑
j∈S
j∈S
∑ I(Xk ;Y |X j ) = JMI
j∈S
При этом предположении верно равенство
j∈S
j∈S
j∈S
Предположение 1 Для всех неотобранных признаков Xk выполнено:
p(Xθ |Xk ) = ∏ p(X j |Xk ),
Критерий
CMI
CIFE
j∈S
j∈S
(13)
Таблица 2. Выражения для ранговой функции
j∈S
2.3. Варианты ранговой функции J()
Предположение 2 Для всех признаков выполнено: p(Xi , X j |Y ) = p(Xi |Y )p(X j |Y ).
Мы показали, что при введении предположения 1 выполнено равенство (13). Впервые такой
критерий был рассмотрен в работе Lin and Tang
[18] и получил название Conditional Infomax Feature
Extraction(CIFE). Критерий интересен тем, что следует из максимизации правдоподобия при единственном предположении 1, а также является «корневым» для других критериев, т.е. остальные критерии следуют из него при дополнительных предположениях относительно данных.
Перечислим основные подходы к определению
ранговой функции J(). Названия методов с указа-
Предположение 3 Для всех признаков выполнено: p(Xi , X j ) = p(Xi )p(X j ).
Было показано, что CMI следует из максимизации правдоподобия, а CIFE следует из CMI при выполнении предположения 1. При введении предположения 2 слагаемые ∑ I(X j ; Xk |Y ) в (13) обнуляются,
j∈S
и мы получаем критерий MIFS.
При введении же предположения 3 обнуляется
I(X
∑ j ; Xk ), и получается критерий CONDRED.
j∈S
365
Если же принять сразу оба предположения 2 и
3, то получается критерий MIM.
Критерии, использующие функцию минимума
(ICAP, CMIM), представляют собой разумные эвристики.
Из эвристических соображений представляется,
что с ростом S возрастает уверенность в предположениях 2 и 3, т.к. коэффициенты перед суммами в
(13) стремятся к нулю, а равенство нулю этих коэффициентов следует из предположений 2 и 3. Именно
поэтому в остальных методах используется нормировка 1/|S|.
Введем по аналогии пар CIFE—JMI, MIFS—
mRMR еще один метод в пару CONDRED:
CONDRED_N (CONDRED normalized). Также добавим еще два метода: JMI_X и CMIM_x, которые
аналитически эквивалентны JMI и CMIM, но в отличие от последних используют только оценки трехмерных плотностей.
Заметить, что все методы, помимо ICAP и
CMIM, представимы в виде
J(Xk ) = I(Xk ;Y ) − α ∑ I(X j ; Xk ) + β
j∈S
∑ I(X j ; Xk |Y ),
В [19] показано, что минимизация этого выражения
приблизительно сводится к минимизации (leave-oneout cross-validation критерий)
i
x −xj
2
1
+ K(0),
(17)
M(h) = 2 ∑ K ∗
n h ij
h
nh
где K ∗ (t) = K (2) (t) − 2K(t), а K (2) есть свертка ядра с
самим собой.
В случае нормально распределенных исходных
данных можно выписать точное выражения для ширины окна: h = Aσ n−1/(4+d) , где σ дисперсия, A ≈ 1.
Стоит заметить, что M(h) → −∞ при h → 0, поэтому
необходимо область поиска h ограничить снизу. Оптимальная в смысле M(h) ширина окна искалась в
окрестности σ n−1/(4+d) .
Ввиду наличия ошибок в оценке плотности взаимная информация может получиться отрицательной. Отметим, что если брать ширину окна, оцененную по плотности максимальной размерности в выражении для взаимной информации, и использовать
ее же для плотностей меньшей размерности, то оценка взаимной информации намного реже принимает
отрицательные значение (по сравнению с методом,
когда при оценке каждой плотности используется
своя ширина окна).
При размере выборки n ≥ 500 использовались гистограммы. В этом случае интеграл переходит в сумму и остается только вопрос о выборе ширины ячейки. Был выбран вариант одинаковой ширины ячейки на всей области значений, но для каждой оси эта
ширина своя. Для гистограмм можно вывести формулу для M(h), аналогичную (17) (Rudemo [20]). Для
размерности d
(14)
j∈S
где α и β могут зависеть от |S|.
3. Эксперимент
3.1. Оценка взаимной информации
При применении указанных критериев необходимо оценивать взаимную информацию. Для этого
нужно уметь оценивать одно-, дву- и трехмерные
плотности и соответствующие интегралы.
При небольших выборках (n < 500) использовались ядерные оценки, а интеграл оценивался по
равномерной сетке. Хороший обзор методов ядерного оценивания можно найти в книге Silverman [19].
Пусть K — функция ядра, h — ширина окна. Тогда
оценка плотности имеет вид
x − xi
1 n
K
.
(15)
fˆ(x) =
∑
nh i=1
h
2
−
h1 h2 . . . hd
(18)
n+1
2
ν
.
−
i1 ...id
h1 h2 . . . hd n2 (n − 1) i1∑
...id
M(h1 , h2 , . . . , hd ) =
Как и с ядерными оценками, оптимальная ширина
ячейки искалась в окрестности оптимальной ширины для нормально распределенных данных: hopt =
Cσ n−1/(2+d) , C ≈ 3.5, см. [21]. Ширина ячейки по каждой оси бралась из оценки соответствующей ширины
для максимальной по размерности гистограммы.
В отличие от выбора ширины окна, выбор функции ядра слабо влияет на качество оценки плотности, а в основном влияет на ее гладкость. Поэтому было выбрано гауссово ядро. Для оценки ошибки приближения плотности рассмотрим ошибку в L2
норме
Z
( fˆ(x) − f (x))2 dx =
−2
Z
Z
3.2. Искусственные данные
Эксперименты проводились на наборе стандартных функций для алгоритмов аппроксимации, см. http://www.it.lut.fi/ip/evo/functions/
functions.html. Поясним методику проведения эксперимента и продемонстрируем результаты на примере двух достаточно простых функций, но тем не
менее, как оказалось, сложных (экспериментальный
( fˆ(x))2 dx−
fˆ(x) f (x)dx +
Z
(16)
( f (x))2 dx.
366
Рис. 1. Диаграмма Долана-Море для задач нахождения релевантных признаков
Таким образом получается 2 ∗ 2 ∗ 8 = 32 задачи
для отсеивания нерелевантных признаков. Результат представлен в виде диаграммы Долана-Море [22]
на рисунке 1. По оси x отложено пороговое число
ошибок от 0 до 100, а по оси y отложена доля задач,
на которых число ошибок алгоритма не превышает порог. Как видно из графика, лучшим оказался
метод CONDRED, немного хуже показали себя схожий с ним CONDRED_N и MIM. Плохо сработали
методы MIFS, JMI_x и CMIM. Т.е. сработали лучше
методы, не учитывающие избыточность ∑ I(X j ; Xk ) ,
факт) с точки зрения построения оценок взаимной
информации.
Рассмотрим две функции пяти переменных
y(x) = (x1 + x2 + x3 + x4 + x5 )2 ,
y(x) = x1 · x2 · x3 · x4 · x5 ,
(19)
и добавим еще пять переменных x6 , x7 , x8 , x9 , x10 .
Целью экспериментов было понять:
1. Какой метод лучше справляется с отсевом нерелевантных признаков,
j∈S
т.к. даже если она и была, то ничего плохого в ней не
было — избыточностью обладали только релевантные признаки.
Избыточность. Для обеих функций генерировалась выборка из нормального распределения, в котором все признаки независимы, только для каждого признака из x1 , . . . , x5 есть сильно с ним коррелированный признак из x6 , . . . , x10 . Другая задача: x1 , . . . , x5 генерировались из стандартного нормального распределения, а x6 = x12 , x7 = x22 , . . . , x10 =
x52 . Эксперименты проводились такие же, как и
в случае релевантности. Т.е. опять результаты
представлены в виде диаграммы Долана-Море, см.
рис. 2. Здесь уже тяжело выявить лучший метод,
но примерно одинаково хорошо сработали MIFS,
CMIM, CIFE. Плохо сработали методы CONDRED,
CONDRED_N, MIM, ICAP. Т.е. наблюдается проти-
2. Какой метод лучше справляется с избыточностью.
Релевантность. Для обеих функций генерировалась выборка из стандартного нормального распределения и выборка из нормального
распределения с ковариационной матрицей A0 0I , где в A нет
нулевых элементов, I - единичная матрица 5 × 5. Т.е.
x1 , . . . , x5 либо независимы, либо сильно зависимы, а
остальные переменные лишние и никак не влияют
на Y . Эксперименты проводились при объемах выборки n = 50, 100, 300, 500, 1000, 2000, 5000, 10000,
с двадцатикратным повторением. Каждому критерию выставлялась оценка, равная числу признаков,
неверно зачисленных в конечное множество размера 5, и затем бралась сумма по всем 20 испытаниям.
Т.е. максимальная ошибка равняется 100.
367
Рис. 2. Диаграмма Долана-Море для задач отсеивания избыточных признаков
воположная ситуация — плохо сработали методы, не
учитывающие избыточность.
Объединяя все сказанное, предлагается следующий алгоритм: сначала с помощью CONDRED происходит отсев нерелевантных признаков, а затем на
новом подмножестве с помощью MIFS происходит
отсев избыточности. Посмотрим, как данный алгоритм работает на реальных данных.
3.3. Реальные данные
Критерием работы алгоритмов на реальных данных служит ошибка обучаемого алгоритма на отобранном множестве. В данной работе применялись
методы аппроксимации с помощью линейной регрессии и гауссовских процессов. Ошибка аппроксимации оценивалась по 10-кросс-валидации. Мы точно
не знаем, есть ли в данных «хорошее» подмножество признаков. Единственный способ это выяснить
– полный перебор, что неприменимо даже в случае
линейной регрессии. Так что критерием срабатывания предложенного метода может служить неувеличение ошибки аппроксимации на отобранном множестве по сравнению с ошибкой на полном наборе переменных. Часть данных была взята из UCIрепозитория (http://archive.ics.uci.edu/ml/).
Рассмотрим работу предложенного алгоритма
на выборке объема 108 и размерности 35, в которой
входные данные представляют собой параметры сре-
Рис. 3. Отсеивание нерелевантных признаков
ды и маневра летательного аппарата, выход есть нагрузка на правый двигатель. Метод аппроксимации
— линейная регрессия, ошибка
RMAE =
∑ni=1 |yˆi − yi |
,
∑ni=1 |y¯ − yi |
(20)
где y¯ есть среднее значение y по обучаемому множеству, yˆi – предсказание в xi . Сначала применим
CONDRED, рис. 3, по оси x отложен размер множества, по оси y — ошибка. Красным кружком помечены уровни ошибок на полном множестве и множестве, отобранном с помощью CONDRED. Наблюдаем понижение ошибки аппроксимации и снижение
368
[8]
[9]
[10]
[11]
Рис. 4. Отсеивание избыточности
[12]
размерности с 35 до 18. Затем, уже на данных размерности 18 запускаем MIFS. Понижения ошибки
не происходит, однако, размерность снижается при
этом до 13. Заметим также, что метод CIFE, который следует из теории при самых общих предположениях, находит подмножество размерности 12 с
меньшей ошибкой (зеленый кружок). Хотя до отсева нерелевантных признаков метод CIFE ничего не
продемонстрировал.
[13]
[14]
4. Выводы
[15]
В работе рассмотрено 11 критериев отбора признаков и исследовано их поведение на искусственных и реальных данных. В частности, на основе экспериментов над искусственными данными выделено
два критерия, один из которых лучше справляется с
отсевом нерелевантных признаков, а второй лучше
справляется с избыточностью. На основе этих двух
критериев построена последовательная процедура,
справляющаяся сразу с двумя проблемами, и проверена ее работа на реальных данных.
[16]
[17]
[18]
[19]
Список литературы
[1] George H. John Ron Kohavi. Wrappers for feature
subset selection. Artificial Intelligence, 97:273–324,
1997.
[2] R. Tibshirani. Regression shrinkage and selection via
the lasso. Statist. Soc. (B), 58:267–288, 1996.
[3] P. Scheuermann M. Dash, K. Choi and H. Liu. Feature
selection for clustering-a filter solution. Proc. Second
Intl Conf. Data Mining, pages 115–122, 2002.
[4] H. Liu and R. Setiono. A probabilistic approach to
feature selection-a filter solution. Proc. 13th Intl Conf.
Machine Learning, pages 319–327, 1996.
[5] S. Das. Filters, wrappers and a boosting-based hybrid
for feature selection. Proc. 18th Intl Conf. Machine
Learning, pages 74–81, 2001.
[6] M. Jordan E. Xing and R. Karp. Feature selection for
high-dimensional genomic microarray data. Proc. 15th
Intl Conf. Machine Learning, pages 601–608, 2001.
[7] P.M. Narendra and K. Fukunaga. A branch and bound
[20]
[21]
[22]
369
algorithm for feature subset selection. IEEE Trans.
Computer, 26, no. 9:917–922, Sept. 1977.
Borko D. Jovanovic. Subset selection in regression.
Statistics in Medicine, 10(7):1164–1165, 1991.
PA. Devijver and I. Kittler. Pattern recognition: A
statistical approach. Prentice-Hall, Englewood, Cliffs,
NJ, 1982.
J. Doak. An evaluation of feature selection methods
and their application to computer security. technical
report, Univ. of California at Davis, Dept. Computer
Science, 1992.
Ming-Jie Zhao Gavin Brown, Adam Pocock and Mikel
Lujan. Conditional likelihood maximisation: A unifying
framework for information theoretic feature selection.
Journal of Machine Learning Research, 13:27–66, 2012.
R. Battiti. Using mutual information for selecting
features in supervised neural net learning. IEEE
Transactions on Neural Networks, 5(4):537–550, 1994.
D. D. Lewis. Feature selection and feature extraction
for text categorization.
In Proceedings of the
workshop on Speech and Natural Language, Association
for Computational Linguistics Morristown, NJ, USA,
pages 212–217, 1992.
H. Yang and J. Moody.
Data visualization and
feature selection: New algorithms for non-gaussian
data. Advances in Neural Information Processing
Systems, 12, 1999.
F. Long H. Peng and C. Ding. Feature selection based
on mutual information: Criteria of maxdependency,
max-relevance, and min-redundancy.
IEEE
Transactions on Pattern Analysis and Machine
Intelligence, 27(8):1226–1238, 2005.
A. Jakulin. Machine learning based on attribute
interactions. PhD thesis, University of Ljubljana,
Slovenia, 2005.
F. Fleuret.
Fast binary feature selection with
conditional mutual information. Journal of Machine
Learning Research, 5:1531–1555, 2004.
D. Lin and X. Tang. Conditional infomax learning: An
integrated framework for feature extraction and fusion.
European Conference on Computer Vision, 2006.
B. Silverman. Density Estimation for Statistics and
Data Analysis. Chapman & Hall/CRC Monographs on
Statistics & Applied Probability, 1986.
M. Rudemo. Empirical choice of histograms and kernel
density estimators. Scandinavian Journal of Statistics,
9:65–78, 1982.
D. Scott. Multivariate Density Estimation. Theory,
Practice, and Visualization.
A Wiley-Interscience
Publication, 1992.
Elizabeth D. Dolan and Jorge J. More. Benchmarking
optimization software with performance profiles.
Mathematical Programming, 91:201–213, 2002.