Автоматическое извлечение правил для снятия морфологической неоднозначности




Скачать 65.34 Kb.
Дата02.08.2016
Размер65.34 Kb.


Автоматическое извлечение правил для снятия морфологической неоднозначности

Протопопова Е.В., 3 курс отделения прикладной и математической лингвистики, филологический факультет СПбГУ,


protoev@gmail.com

Аннотация

Ключевым вопросом автоматического создания морфологической разметки текстов является снятие морфологической неоднозначности. Существующие системы анализа русского языка при решении данной задачи используют большие вручную размеченные корпуса текстов, создание которых представляет собой отдельную весьма трудоемкую задачу. В нашей работе предлагается использовать метод, известный как Brill tagger, использующий при обучении данные, размеченные по морфологическому словарю. Также оценивается размер корпуса, необходимого и достаточного для получения относительно высокой точности разметки, приводятся результаты работы системы с использованием различных параметров.


Введение


Морфологическая неоднозначность представляет собой весьма рспространённое явление и выделяется на нескольких уровнях: неоднозначность на уровне словоформы (межчастеречная) и неоднозначность форм внутри одной парадигмы (внутрилеммная). Примером неоднозначности первого вида может служить следующая форма:

После (ПОСОЛ, сущ., предл.п.)

После (ПОСЛЕ, наречие)

После (ПОСЛЕ, предлог)

Внутрилеммная неоднохначность часто системна и может быть предсказана для целого класса слов, например, для наречий форма типа «большой» будет иметь 6 вариантов разбора.

Разрешение морфологической неоднозначности (омонимии) считается одной из основных проблем при морфологическом анализе текстов, поэтому основные усилия при создании морфологических анализаторов направлены именно на решение данной задачи. Среди известных подходов к разрешению неоднозначности выделяют детерминированные (основанные на правилах) и вероятностные (статистические) процедуры ([2], [3]).

Используемый нами подход, описанный в работе [1], иногда называют комбинированным: он сочетает использование статистической информации с применением контекстных правил. Работа алгоритма сводится к следующему. Из автоматически размеченного корпуса собирается статистическая информация о встречающихся частеречных тегах и их окружении (контекстах). На основе этой статистической информации выводятся правила преобразования омонимичных тегов в неомонимичные, затем каждому правилу приписывается вес, полученный с помощью специальной функции оценки. Данный подход имеет следующие преимущества:


  • он не требует использования большого количества вручную размеченных данных;

  • на выходе мы получаем список правил, который затем может быть проанализирован лингвистом.

Описание метода и данных

Исходный алгоритм


Основная идея алгоритма была описана выше, здесь мы постараемся более подробно изложить принципы его работы. Текст, используемый в качестве обучающего набора, размечается неоднозначно, то есть каждому слову приписываются все возможные варианты его морфологического разбора. Затем собирается статистическая информация о тегах и контекстах, в которых они встречаются. Для каждого тега Х подсчитывается freq(X) – абсолютная частота тега и incontext(X, C) – частота тега Х в контексте С. Далее для каждого омонимичного тега рассматриваются различные варианты снятия омонимии: для каждого возможного варианта вычисляется параметр  , где ZY. Из ZY выбирается тег R, для которого значение этого параметра максимально. На основе этих данных составляются правила преобразования омонимичных тегов в неомонимичные:

Заменить тег Х на тег Y в контексте С;

каждому такому правилу приписывается вес:





где , Z, Y ∈ x, Z ≠ Y, freq(Z) – частота тега Z в корпусе, incontext(Z, C) – частота тега Z в контексте C.

На каждом шаге алгоритм находит правило с наибольшим весом, обучение продолжается, пока вес лучшего правила положителен. При тестировании на наборе размером 200 тысяч слов из Penn Treebank алгоритм показал точность 95.1%, на наборе размером 350 тысяч слов из Брауновского корпуса – 96.0%.

Данные и отличия в реализации


Русский язык (в отличие от английского) является языком с богатой морфологией, то есть при морфологической разметке каждому слову приписываются значения сразу нескольких морфологических категорий. Эта информация наиболее удобно представляется в виде пар «ключ – значение», где ключ – название морфологической категории. В условиях русского языка представляется логичным проводить процедуру снятия морфологической неоднозначности постепенно: от наиболее общих грамматических категорий к более частным, то есть от межчастеречной неоднозначности к внутрилеммной. На первом этапе мы рассматриваем лишь процедуру разрешения межчастеречной неоднозначности с использованием четырех контекстных признаков: по одному слову и тегу справа и слева.

Полученные правила записывались следуюшим образом:

ADJF NOUN → NOUN | 1:tag=PNCT

то есть «Заменить тег ADJF NOUN на тег NOUN, если следующий тег – PNCT».

В качестве обучающих корпусов для получения правил мы использовали наборы предложений разного размера, выбранные случайным образом из корпуса статей с сайта http://www.chaskor.ru/. Корпус объемом 15 миллионов токенов был размечен с помощью словаря проекта OpenCorpora (http://opencorpora.org/); использовалась упрощенная разметка следующего вида:

2 Школа 393872 школа NOUN inan femn sing nomn

Слова, отсутствующие в словаре, размечались тегами UNKN (неизвестная последовательность кириллических символов), LATN (неизвестная последовательность символов латиницы), NUMR (цифры) and PNCT (знаки препинания).

Результаты

Влияние размера обучающего корпуса


Одной из основных целей работы было определение необходимого и достаточного объема корпуса для получения набора правил, дающего достаточную точность разметки. Для решения этой задачи было проведено несколько экспериментов. Как было сказано выше, на корпусах разного размера – от тысячи до 170 тысяч предложений – были получены различные наборы правил, которые сравнивались между собой.

Наиболее очевидный способ сранить между собой различные списки правил – сравнить их размер и содержание. Результаты (рис.1) подтверждают наше предположение о том, что количество правил увеличивается при увеличении размера обучающего корпуса. Это в основном связано с тем, что правила основываются на контекстных признаках, разнообразие которых увеличивается при увеличении корпуса. С другой стороны, стоит отметить, что количество правил, использующих частеречный тег, стабилизируется на больших корпусах, что объясняется ограниченным количеством частеречных тегов в целом.



Рисунок 1. Изменение списков правил



Рисунок 2. Изменение коэффициента ранговой корреляции (объем корпуса - в тысячах предложений)

Кроме того, для каждых двух наборов правил, полученных на одном размере корпуса, был вычислен коэффициент ранговой корреляции Спирмена. Стоит, однако, отметить, что сравнивались только правила, встреченные в обоих наборах. Наблюдается (рис.2) увеличение значения коэффициента корреляции при увеличении размера корпуса, что, вероятно, свидетельствует о том, что правила, полученные на больших корпусах, располагаются в схожем порядке.

О точности снятия неоднозначности


Для оценки правильности результатов разметки был создан эталон разметки – корпус размером около ста предложений (выбранных случайно из корпуса текстов проекта OpenCorpora), омонимия в разметке была снята вручную. Затем тот же корпус был размечен с помощью морфологического словаря и различных списков правил. Для оценки точности результаты сравнивались с эталонной разметкой, определялось количество ошибок и их типы (омонимичный тег, преобразованный неверно или не преобразованный).

Точность снятия неоднозначности достигает 95.5% при обучении на корпусе размером 60 тысяч предложений и не уменьшается при увеличении размера обучающего корпуса. При этом количество типов ошибок почти не изменяется при увеличении размера корпуса от 20 тысяч предложений. С другой стороны, обучение на корпусе объемом 15 миллионов словоупотреблений не даёт значительного увеличения точности.


Изменение параметров обучения


Полученные результаты показывают, что хотя алгоритм в целом может быть применен к задаче снятия неоднозначности при разметке текстов на русском языке, точность его работы в данном случае может быть увеличена. Мы предлагаем следующие способы доработки алгоритма:

  1. Увеличение числа контекстных признаков. Данное уточнение имеет смысл, если функция оценки правил будет выбирать правила с более отдаленным от рассматриваемого слова контекстом. Результаты экспериментов с использованием восьми контекстных признаков показывают, что примерно 40% правил используют в качестве контекста второе слово справа или слева.

  2. Объединение нескольких контекстных признаков в одном правиле.

  3. Более тщательный отбор обучающего корпуса, например, с точки зрения жанровых особенностей.

Заключение


В работе представлен алгоритм снятия морфологической неоднозначности с использованием неконтролируемого обучения. Точность разметки с использованием модуля, реализующего данный алгоритм, составляет около 95%. Также описаны различные оценки объема оптимального для обучения корпуса и предложены способы доработки системы.

Литература


  1. Brill E. Unsupervised Learning Of Disambiguation Rules For Part-Of-Speech Tagging. In Proceedings of the Third Workshop on Very Large Corpora, MIT, Cambridge, Massachusetts, USA, 1995.

  2. Sharoff S., Joakim Nivre. The proper place of men and machines in language technology: Processing Russian without any linguistic knowledge. Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 25 - 29 мая 2011 г.).

  3. Сокирко А.В., Толдова С.Ю. Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп). URL: http://www.aot.ru/docs/RusCorporaHMM.htm



База данных защищена авторским правом ©uverenniy.ru 2016
обратиться к администрации

    Главная страница