Использование принципа наибольшего основания для автоматического выбора ядровой функции




Скачать 32.57 Kb.
Дата19.04.2016
Размер32.57 Kb.
Использование принципа наибольшего основания для автоматического выбора ядровой функции.

Д.П. Ветров, Д.А. Кропотов, Н.О. Пташко

(Москва)


Введение

Метод опорных векторов (SVM) относится к числу наиболее распространенных и успешных методов решения задачи распознавания образов [1]. Одной из открытых на сегодняшний день проблем, возникающих при обучении SVM, является выбор внутренних параметров алгоритма, т.е. таких параметров, которые задает сам пользователь, и которые не изменяются при обучении. Целью данной работы является разработка метода, позволяющего, используя Байесовскую регуляризацию и принцип наибольшего основания [3], автоматически подбирать значения всех параметров метода опорных векторов. Его построение мы будем производить на базе уже существующего метода релевантных векторов (RVM), предложенного в работе [2].

Байесовская регуляризация и принцип наибольшего основания

Назовем моделью множество алгоритмов распознавания с фиксированным набором параметров алгоритма и их априорными распределениями. Пусть - множество моделей, причем определяет семейство алгоритмов, структуру их параметров и их априорные распределения . Обозначим правдоподобие обучающей выборки как . Используя принцип максимума правдоподобия для выбора наилучшей модели, получим известный принцип наибольшего основания (maximal evidence, подробнее см. доклад «О связи Байесовской регуляризации с устойчивостью алгоритмов распознавания» настоящего сборника).





Байесовская регуляризация метода опорных векторов

Применение Байесовской регуляризации для решения поставленной задачи состоит в следующем. Внешние параметры SVM играют роль параметров модели. Таким образом, мы подбираем самую правдоподобную модель.

SVM основывает свои предсказания на функциях вида (здесь и далее , где , ). При этом веса объектов неотрицательны и ограничены сверху константой . Ядровая функция также имеет параметры, от которых существенно зависит качество получаемых классификаторов. В RVM веса ядровых функций трактуются как случайные величины с априорным нормальным распределением . Коэффициенты подбираются путем максимизации величины evidence.

Используя Байесовскую регуляризацию, метод RVM успешно справляется с необходимостью устанавливать значение , при этом функция считается заданной априори. Рассмотрим наиболее популярный вид функции . Здесь параметр играет роль «ширины» гауссианы. Прямое использование метода релевантных векторов для подбора значения оказывается неприемлемым. Определяя модель просто как множество функций с фиксированным значением , получим, что наиболее правдоподобной будет модель с наименьшим возможным значением . В то же время очевидно, что классификаторы с «узкими» гауссианами чрезвычайно чувствительны даже к небольшому смещению начальных данных, что является свидетельством их неустойчивости и плохой обобщающей способности. Для учета этого отрицательного эффекта предлагается включить координаты центров гауссиан в параметры классификаторов. Формально модель может быть определена как множество классификаторов вида



,

где



Описание алгоритма и выводы

Введем правдоподобие выборки следующим образом: , .

Для проведения Байесовской регуляризации необходимо максимизировать evidence. Для этого воспользуемся аппроксимацией Лапласа.



где - точка максимума логарифма подынтегральной функции, а -соответствующие гессианы в этой точке. Гессиан представляется трудным для вычислений в силу своего размера, поэтому при вычислении предлагается дифференцировать функцию не по каждой координате каждого центра, а формально по целому вектору, считая его единой переменной, т.е. .

Таким образом, применяя покоординатный спуск, удается решить задачу оценки и оптимизации . Результатом распознавания тестовой выборки является такая конфигурация меток классов, которая обеспечивает максимум величине , где , а .

Разработанный метод подбора ядровой функции показал более высокое качество работы по сравнению с аналогичной процедурой с использованием скользящего контроля и, как правило, приводил к более разреженным (т.е использующим меньше ядровых функций) алгоритмам.

Работа выполнена при поддержке РФФИ (гранты 05-07-90333, 04-01-08045, 04-01-00161, 03-01-00580) и ИНТАС (YS 04-83-2942).

Литература

1. Vapnik V. The Nature of Statistical Learning Theory, Springer-Verlag, New-York, 1995



2. Tipping M. E. Relevance Vector Machines // Advances in Neural Information Processing Systems, 12, MIT Press, 2000, pp. 652-658

3. MacCay D.J.C. Information Theory, Inference, and Learning Algorithms, Cambridge University Press, 2003


База данных защищена авторским правом ©uverenniy.ru 2016
обратиться к администрации

    Главная страница