К вопросу о пополнении словаря для синтаксического анализа корпуса




Скачать 147.69 Kb.
Дата02.04.2016
Размер147.69 Kb.
К вопросу о пополнении словаря для
синтаксического анализа корпуса
(на примере парсера SemSin)

Каневский Е.А.

Санкт-Петербургский экономико-математический институт

Российской академии наук

kanev@emi.nw.ru
В докладе рассматриваются вопросы, связанные с подготовкой семантико-синтаксического словаря к синтаксической разметке корпуса текстов. Показано, что для пополнения словаря наиболее оптимальным является вариант отбора отсутствующих в словаре слов, имеющих значительную частоту встречаемости. Предлагается конкретная методика для проведения такого отбора, а также специальная система для определения морфологических и семантико-синтаксических параметров новых слов.

Ключевые слова: корпус, анализ текста, лексема, морфология, русский язык, словарь.
The report examines issues related to the preparation of semantic-syntactic dictionary to syntactical tagging text corpus. It is shown that for the replenishment of the vocabulary is the most optimal variant selection missing in the dictionary of words with the sizeable frequency of occurrence. Offers specific methods for conducting such screening and also a special system to determine the morphological and semantic-syntactic parameters of new words.

Keywords: linguistic corpora, text analyses, lexem, morphologic, Russian language, vocabulary.

1. Введение


Для решения различных лингвистических задач недостаточно иметь собственно массив текстов (корпус), необходимо чтобы этот текст содержал в себе дополнительную информацию, в частности лингвистическую разметку. Среди лингвистических типов разметки выделяются морфологическая, синтаксическая, лингвистическая и анафорическая [1].

В настоящее время предпринимается попытка использовать для этой цели семантико-синтаксический парсер SemSin, который как раз и осуществляет все эти виды анализа для русскоязычного текста и фиксирует соответствующую его разметку [2. 3]. Функционирование парсера основано на использовании семантико-синтаксического словаря и классификатора В.А. Тузова [4], которые за прошедшее время модифицированы и существенно расширены. Сегодня словарь содержит более 190 тыс. лексем, распределенных по 1700 классам. Получаемые из словаря базы данных для каждой лексемы хранят её морфологические характеристики, а также номер семантического класса и актанты или валентности (для подключения зависимых слов) в виде падежей (!Им, !Род, !Вин и т. д.) или предлогов с соответствующими падежами (!вВин, !наПред и т. д.). Часто перед таким актантом указаны допустимые классы слов, могущих их замещать. Около 14% слов в словаре имеют две и более лексемы. Это могут быть слова с разными морфологическими характеристиками (например, дворник – человек и дворник – устройство, или совпадающие по написанию мужские и женские фамилии), а могут быть и слова с одинаковой морфологией, но относящиеся к разным классам (например, слову ключ соответствуют три лексемы, означающие инструмент, код и родник).

Парсер SemSin строит синтаксическое дерево зависимостей, по возможности, снимает лексическую неоднозначность и управляется внешними легко модифицируемыми правилами (их более 450). Такой способ управления позволяет достаточно эффективно подстраивать парсер под свои потребности и под особенности разбираемого текста. В состав парсера входят 4 блока: словарь, морфологический анализатор, продукционные правила и лексический анализатор [2]. На вход парсера подается текст на русском языке, который считывается абзацами. Очередной абзац подвергается морфологическому анализу с выделением отдельных токенов (слов, словосочетаний, знаков препинания, чисел и т. д.). Заметим, что морфологический анализатор умеет обрабатывать только те слова, которые хранятся в словаре. Затем цепочка токенов обрабатывается в лексическом анализаторе с помощью системы продукционных правил, целью которых является преобразование линейной последовательности токенов в дерево зависимостей. В заключение осуществляется выявление анафорических отношений для личных, притяжательных и возвратных местоимений [3].

В парсере SemSin снятие грамматической и частеречной омонимии производится одновременно с построением синтаксического дерева зависимостей. Однако когда попадаются словоформы, обладающие высокой степенью омонимии, возникает необходимость снять или хотя бы уменьшить эту омонимию до начала синтаксического разбора. Этим занят предсинтаксический модуль, который осуществляет также опознавание неизвестных слов, в частности, имен, фамилий и некоторых географических названий [5].


2. Отбор новых слов


Естественно, что при разборе почти любого нового текста в нем будут попадаться слова, отсутствующие в словаре – новые слова (НС). Эти НС нужно выделить из исследуемого текста и поместить в словарь, только после этого можно надеяться на правильный анализ этого текста.

В качестве исследуемого текста выберем корпус «Путешествия», предоставленный В.П. Захаровым. Этот корпус состоит из 112 файлов общим размером приблизительно в 7035 тыс. словоформ. Для отбора НС каждый файл в отдельности необходимо подвергнуть анализу с помощью парсера. Поскольку скорость работы парсера невелика – около 80 слов в секунду, то возникает вопрос: а нельзя ли осуществить анализ без функционирования правил? Рассмотрим эту вопрос подробнее.

Для анализа выберем три файла:

А. Фидлер – Тайна Рио де Оро (размер более 36 тыс. словоформ),

В. Фукс, Э. Хиллари – Через Антарктиду (размер более 101 тыс. словоформ),

В. Конецкий – За Доброй Надеждой (размер более 217 тыс. словоформ).

Проведем анализ каждого из них в трех возможных вариантах: «Полный» – присутствуют все правила, «С предсинтаксическим модулем» – оставлены только те правила, которые обеспечивают работу предсинтаксического модуля (скорость работы парсера возрастает в 3 раза) и «Без предсинтаксического модуля» – убраны все правила (скорость работы парсера возрастает в 6 раз). Результаты представлены в таблицах 1–3.


Режим

Полный

С предсинт. модулем

Без предсинт. модуля

Слов

125

125

+0%

183

+ 46%

С-форм

170

170

+0 %

253

+ 49%

Всего

1353

1353

+ 0%

1736

+28 %

Таблица 1. Результаты анализа файла «А. Фидлер»

В строках таблиц с надписью «Всего» приводится общее количество словоформ, не опознанных парсером (автоматически выдается при его работе). В строках таблиц с надписью «С-форм» приводится количество уникальных (различных) словоформ. В строках таблиц с надписью «Слов» приводится условное количество слов, которое получается способом, описанным ниже.



Режим

Полный

С предсинт. модулем

Без предсинт. модуля

Слов

162

169

+4%

283

+75%

С-форм

268

275

+3%

452

+69%

Всего

1168

1180

+1%

2159

+85%

Таблица 2. Результаты анализа файла «В. Фукс, Э. Хиллари»

Обычно для обработки полученных НС нами используется система ВЕГА [6, 7]. Она обладает некоторыми весьма полезными возможностями, в том числе, позволяет вводить очень большое количество слов (более 1 миллиона) и составлять из них словари различного типа. Простейший – это словарь уникальных слов, расположенных по алфавиту (в нашем случае получаем уникальные словоформы). Для каждого слова приводится частота встречаемости и ссылки на его адреса в базе. Более сложный – частотный словарь, который правильнее было бы назвать квазичастотным. При его составлении в одно слово объединяются не только полностью совпадающие слова, но и слова, имеющие разные окончания (в том числе и с разной морфологией), причем размер окончания зависит от длины (в нашем случае получаем слова). Так, например, к слову гарпунирован будут отнесены словоформы гарпунирован, гарпунировал, гарпунировали, гарпунированной, гарпунировать и гарпунировано (в порядке их встречаемости).



Режим

Полный

С предсинт. модулем

Без предсинт. модуля

Слов

759

759

+0 %

1222

+61 %

С-форм

875

891

+2 %

1400

+ 60%

Всего

1430

1430

+0%

2481

+ 73%

Таблица 3. Результаты анализа файла «В. Конецкий»

Сравнивая результаты, представленные во всех трех таблицах, можно сделать вывод, что количество НС в режимах «Полный» и «С предсинтаксическим модулем» практически не отличаются друг от друга. Это свидетельствует о том, что основную работу по опознанию НС выполняет предсинтаксический модуль. Очевидно, также, что режим «Без предсинтаксического модуля» хотя и обладает наивысшей скоростью анализа, но приводит к неоправданно большому количеству излишних НС. Таким образом, для выделения НС целесообразно использовать режим «С предсинтаксическим модулем».

Проведя анализ всех файлов исследуемого корпуса, мы получаем общее количество НС – 97400. Введя все НС в систему ВЕГА, получаем, что количество уникальных НС составляет 28950, а количество квазислов – 21460. Распределение полученных квазислов по их встречаемости в корпусе приведено ниже, причем под покрытием понимается та часть от общего количества словоформ, которая приходится на их долю:

Встр-мость 1 2 3 4 5 6 7-8 9-10 11-15 >15

Колич.,% 59,7 14,5 6,8 3,7 2,6 2,0 2,4 1,6 2,7 4,0

Покрыт.,% 14,4 7,0 4,9 3,6 3,1 2,9 4,4 3,6 7,4 48,7


Поскольку количество НС весьма велико и ввод их всех, скорей всего, невозможен, то необходимо ввести какое-то разумное ограничение, т.е. некие правила для отбора тех НС, которые целесообразно вводить в словарь. Обычно при количестве НС до 2-3-х тысяч мы ограничивались вводом слов с встречаемостью более 2-х. В нашем случае, как нетрудно видеть, это составит чуть более 5,5 тысяч слов, причем будет потеряно чуть больше 21% от всех словоформ. Возможным вариантом является ограничения вводимых слов величиной в полторы тысячи. Если взять НС с встречаемостью более 10, то количество слов составит около 1450 слов, а потери словоформ – менее 45%. Для большего представления об используемом нами квазичастотном словаре приведем его вершину для рассматриваемого корпуса (см. таблицу 4).

Как видно из таблицы, в качестве слова в таком словаре может использоваться не только слово не в именительном падеже (ЭТНЫ, МАТЮШКИНЫМ, ПЕММИКАНОМ), но и вообще с ошибочным окончанием (ПАСХАЛЬСКНХ). Интересно, что в последнем случае к «квазислову» ПАСХАЛЬСКНХ относятся такие слова как ПАСХАЛЬЦЫ, ПАСХАЛЬЦЕВ, ПАСХАЛЬСКИХ, ПАСХАЛЬЦАМ, ПАСХАЛЬЦАХ, ПАСХАЛЬСКИЕ, ПАСХАЛЬСКОЙ, ПАСХАЛЬЦА,ПАСХАЛЬСКИС, ПАСХАЛЬСКИХ,


ПАСХАЛЬСКОГО, ПАСХАЛЬСКИМИ, ПАСХАЛЬЦЕМ, ПАСХАЛЬСКОН,
ПАСХАЛЬСКОЕ, ПАСХАЛЬСКАЯ
(именно в этом порядке и с теми же ошибками).


633

ПИРИ

173

ВИСТИНГ

426

ЭТНЫ

173

ГМЕЛИНА

420

ФОРБЭШОМ

172

ЧЕЛЮСКИНА

418

ШЕКЛТОН

169

ЭГЛОН

416

ДЕГО

165

АЛЛАН

411

МАТТА

164

БЭРДОМ

366

ПИТЪЮК

162

СТЬЕРНЕБО

351

ПАЗИО

162

ТРОЛЛЕМАН

321

МОРГАНА

161

УЛАВ

293

РОКУЭЛЛА

159

РЕД

277

ТАИТИ

151

ОДЖИБВЕИ

269

ПАСХАЛЬСКНХ

149

МАКОЛОЛО

242

РУАЛА

149

МАЛЬМГРЕН

234

ГОБИ

148

МАКЛАЙ

222

КРАСИН

141

БАРТЛЕТА

220

МАТЮШКИНЫМ

137

ИЛК

210

ПЕММИКАНОМ

135

МЕКВУСАК

206

БАРН

133

ЛЕВИК

204

АТАН

133

ТИОТИ

201

АКУ-АКУ

131

ЗИНИО

199

ЭРЕБУСА

131

СИУ

190

БРЭГГС

131

ТИБУРЦИО

189

ПОЗЬ

130

ЭЯЛЬ

184

КЕМПБЕЛЛ

127

МАРИАНО

178

СТРИНДБЕРГ

126

РИСЕР-ЛАРСЕН

177

ОЛСОН

126

УИЗЕЛАМИ

174

ЭВАНС

124

ДИД

173

ВИСТИНГ

124

ЭСТЕВАН

Таблица 4. Слова с наибольшей частотой встречаемости

Если решена проблема отбора НС, то можно перейти к их вводу в словарь.


3. Пополнение словаря


Ввод слов в словарь, в принципе, можно осуществлять вручную, однако это представляет значительную трудность и требует очень большого опыта, поскольку для каждого слова необходимо определить как минимум его морфологические параметры (часть речи, тип изменения и набор окончаний в виде их адреса), синтаксические параметры (актанты, определяющие возможность присоединения к себе других слов) и класс по классификатору. Желательно также оформить это в виде формулы – записи определенного вида с использованием семантических функций по Тузову [4], что позволяет человеку в какой-то степени понять смысл данного слова. Достаточно большой опыт в пополнения словаря привел нас к мысли о необходимости создания специальной системы для этой цели [8, 9]. Таким системой и является Adviser [10].

Если ввести в среднее окно очередное НС (в нормальной форме) и задать часть речи, то под словом выведется его аналог (с классом изменения по Зализняку [11] и с адресом набора окончаний), а справа – соответствующая парадигма (рис. 1). Если эта парадигма не подходит, то можно выбрать другой аналог из левого окна, заполнение которого производится по одной, двум или трем буквам из обратного словаря. При получении верной парадигмы следует перейти к выбору синтактико-семантического аналога, который осуществляется путем задания имени, отчества или фамилии, а также путем непосредственного подбора аналога по словарю. Полученная формула выводится в специально окно. При необходимости эту формулу можно сразу тут же редактировать. По получению подходящей формулы осуществляется запись морфологической и синтактико-семантической информации в виде очередной текстовой строки словаря.



П
рактически ситуация осложняется тем, что почти каждое незнакомое слово приходится проверять по исходному тексту. Для ФИО: надо определить это имя или фамилия, это мужчина или женщина и, наконец, как это НС изменяется. В других случаях надо определить, что это вообще такое и что это НС означает. И, конечно, как оно изменяется.

4. Заключение


Таким образом, в докладе рассмотрены вопросы, связанные с подготовкой семантико-синтаксического словаря к синтаксической разметке корпуса текстов. Очевидно, что разметка такого рода предъявляет дополнительные требования к качеству словаря. Показано, что для пополнения словаря наиболее оптимальным является вариант отбора отсутствующих в словаре слов, имеющих значительную частоту встречаемости. Предлагается конкретная методика для проведения такого отбора, а также специальная система для полуавтоматического определения морфологических и семантико-синтаксических параметров новых слов. При достаточном опыте с ее помощью можно описать до 100 слов за день работы.

Литература

  1. Захаров В.П. Корпусная лингвистика: Учебно-метод. пособие. – СПб., 2005.

  2. Каневский Е.А., Боярский К.К. Семантико-синтаксический анализатор SemSin // Международная конференция по компьютерной лингвистике «Диалог-2012», Бекасово, 30 мая – 3 июня 2012 г. [Электронный ресурс]. – Режим доступа: http://www.dialog-21.ru/digest/2012/?type=doc, свободный. Яз. рус. (дата обращения: 22.05.2015).

  3. Боярский К.К., Каневский Е.А, Степукова А.В. Выявление анафорических отношений при автоматическом анализе текста // Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики. 2013-№5(87). С. 108–111

  4. Тузов В.А. Компьютерная семантика русского языка. СПб.: Изд-во С.-Петерб. ун-та, 2004.

  5. Боярский К.К., Каневский Е.А. Предсинтаксический модуль в анализаторе SemSin // Интернет и современное общество: сборник научных статей. Труды XVI Всероссийской объединенной конференции «Интернет и современное общество». СПб. – СПб.: «Университетские Телекоммуникации», 2013. С. 280–286.

  6. Боярский К., Каневский Е. Вега – система классификации и анализа текста. – Deutschland, Saarbrűcken: LAP Lambert Academic Publishing GmbH & Co. KG, 2011.

  7. Каневский Е.А., Боярский К.К. ВЕГА – инструмент для лингвистических исследований. // Прикладна лiнгвiстика та лiнгвiстичнi технологii:.MegaLing-2012. К.:Довiра, 2013. С. 113–123.

  8. Каневский Е.А. Некоторые вопросы пополнения морфологического словаря терминами предметной области. // Труды Международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. – М.: РосНИИ ИИ, 2001. Т. 2. С. 156–160.

  9. Каневский Е.А., В.А. Тузов. Некоторые вопросы пополнения семантического словаря терминами предметной области. // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог’2002. Протвино, РосНИИ ИИ. 2002. Т. 2. С. 250–257.

  10. Боярский К.К., Каневский Е.А. Проблемы пополнения семантического словаря. // Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики. 2011. №2 (72). С. 132–137.

  11. Зализняк А.А. Грамматический словарь русского языка. М: Русский язык, 1980


База данных защищена авторским правом ©uverenniy.ru 2016
обратиться к администрации

    Главная страница