Частотный анализ произведений русской поэзии




страница1/4
Дата19.04.2016
Размер0.64 Mb.
  1   2   3   4
Правительство Российской Федерации

Федеральное государственное автономное образовательное учреждение высшего профессионального образования

«Национальный исследовательский университет

«Высшая школа экономики»

Факультет Бизнес-информатики

Отделение Прикладной математики и информатики

Кафедра Анализа данных и искусственного интеллекта

ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА БАКАЛАВРА

на тему

Частотный анализ произведений русской поэзии

Выполнил студент группы 471

Полесская Екатерина Викторовна

Научный руководитель:

Кандидат технических наук, доцент Чеповский Андрей Михайлович

Москва 2014

Содержание

Аннотация……………………………………………………………………3

Abstract……………………………………………………………………….4

Введение………………………………………………………………………5

Глава 1. Частотный анализ


    1. Частотный анализ………………………………………………..8

    2. Программное обеспечение………………………………………9

    3. Ранговый анализ……………………………………………….13

Глава 2. Исследование применимости авторского инварианта к анализу поэзии

2.1. Авторский инвариант Фоменко…………………………………18

2.2. Алгоритм поиска авторского инварианта………………………20

2.3. Применение авторского инварианта к поэзии…………………28

2.4. Характеристики, подозрительные на инвариант……………….31

Глава 3. Частотный анализ русских поэтических текстов

3.1. Частотный анализ имен существительных…………..…………38

3.2. Частотный анализ имен прилагательных………..……………..43

Заключение………………………………………………………………….50

Список литературы…………………………………………………………52




Аннотация

Выпускная квалификационная работа посвящена решению проблемы по сопоставлению русских поэтических текстов на основе их частотных характеристик.

Целью работы является выявление сходства текстов, а также поиск сравнительных характеристик текстов. Задачами исследования являются анализ частотных характеристик, выделение дифференцирующих признаков поэтических текстов и сопоставление русских поэтических текстов. Методом исследования является частотный анализ текстов.

Одной из сравнительных характеристик может выступать авторский инвариант. Это некий числовой параметр, позволяющий различать авторов произведений. Как показали предыдущие исследования, авторским инвариантом для прозаических текстов выступает частота употребления служебных слов: предлогов, союзов, частиц. Таким образом, в общем случае, можно определить автора текста, вычислив долю служебных слов в тексте, и сопоставив ее с уже имеющимися данными по авторам.

Данное исследование посвящено установлению авторского инварианта в поэзии. В работе рассматривается применимость авторского инварианта для прозаических текстов в поэзии и поиск авторского инварианта для поэтических текстов. Помимо этого, проводится анализ частотных словарей поэтов.

В результате было получено, что частота употребления служебных слов не может являться авторским инвариантом для поэтических текстов. С целью выбора инварианта были исследованы частота употребления существительных, доля именных групп и частота употребления глагольных групп. Был получен отрицательный ответ – ни одна из этих характеристик инвариантом не является.

Список ключевых слов: частотный анализ, частотный словарь, авторский инвариант.

Abstract

This graduation project focuses on comparison of Russian poetic texts by analyzing the frequency characteristics.

The main goal of the research is revealing similarities of texts as well as finding the comparative characteristics of texts. The basic tasks are identifying differentiating features of poetic texts and comparison of the texts by analyzing the frequency characteristics. The main tool of information retrieval is the frequency analysis.

The author invariant is one of such comparative characteristics. It is a numeric parameter that allows one to distinguish authors of texts. According to previous investigations, the frequency of occurrence of function words, prepositions, unions and particles, is the author invariant in case of prose. Thus, it is possible to determine the author of a text by calculating the proportion of function words and comparing it to existing data.

This research deals with detecting of author invariant for poetic texts. The paper includes the applicability of author invariant for prose in poetry and searching the author invariant for poetic texts. Apart from, the analysis of frequency vocabularies of poets is conducted.

The result is the frequency of occurrence of function words is not an author invariant for poetry. The frequency of occurrence of nouns, the proportion of nouns’ groups and the frequency of occurrence of verbs’ groups were considered in order to reveal the author invariant. However, none of these characteristics could be an author invariant for poetry.

Key words: frequency analysis, frequency vocabulary, author invariant.

Введение

Двадцать первый век – век высоких технологий. Основным ресурсом научно-технического прогресса является информация, которую необходимо обрабатывать, хранить, передавать и использовать. Данное исследование посвящено интеллектуальной обработке текстовой информации.

Данная работа относится к сфере автоматической обработки текстов. Эта область возникла около шестидесяти лет назад, и одними из первых исследуемых проблем были проблема машинного перевода и криптографии. Интерес к данным задачам подогревался холодной войной и желанием быстро и досконально изучить противников. Еще больше задач возникло с появлением ПК и различных устройств, требующих обработки языка. Например, автоматическая проверка орфографии в текстовых редакторах или выдача релевантных результатов поисковыми системами сети Интернет. Разработки в данной области ведутся относительно небольшими темпами, ввиду сложности структуры естественного языка.

Данное исследование посвящено другой проблеме автоматической обработки текстов, а именно выявлению сходства между поэтическими текстами. Актуальность данного исследования определяется необходимостью решения проблем искусственного интеллекта в области моделирования поэзии, а также разработки методов частотного анализа русских текстов. Такая необходимость объясняется возможностью широкого применения таких моделей, например, в рекомендательных системах. Встраивание новой модели сходства текстов позволит улучшить рекомендации пользователям. Также возможно применение таких моделей для усовершенствования системы «Антиплагиат».

Данной проблеме посвящено небольшое число работ. В.С. Баевский в своей книге «Лингвистические, математические, семиотические и компьютерные модели в истории и теории литературы»[1] рассмотрел сходство между авторами XIX-XX веков. В качестве инструментов анализа он использовал частотные характеристики текстов и ранговую корреляцию Спирмена. В.П. Фоменко и Т.Г. Фоменко в работе «Авторский инвариант русских литературных текстов»[3] решают задачу поиска авторского инварианта, т.е. некоторой количественной характеристики, которая однозначно характеризует произведения одного автора или небольшого числа «близких» авторов и принимает существенно отличающееся значение для групп других авторов. Таким образом, авторский инвариант позволяет определить возможного автора неизвестного текста или определить сходство нескольких писателей. Объектом исследования выступали прозаические тексты. Подробнее работы В.С. Баевского и В.П. Фоменко и Т.Г. Фоменко будут рассмотрены далее.

Целью данной работы является выявление сходства поэтических текстов, а также поиск сравнительных характеристик текстов различных поэтов и выявление авторского инварианта в поэзии. Задачами исследования является анализ частотных характеристик, выделение дифференцирующих признаков поэтических текстов и сопоставление русских поэтических текстов. Методом исследования является частотный анализ текстов.

Новизна исследования заключается в поиске авторского инварианта для поэтических текстов и в моделировании поэтического творчества.

Предметом исследования является вопрос наличия авторского инварианта для поэтических текстов, а также анализ частотных словарей поэтов. Объектом исследования являются поэтические тексты авторов XIX-XX вв.



В первой главе работы рассматривается предмет частотного анализа, история развития, его алгоритм. А также ранговый анализ, который является частным случаем частотного анализа.

Вторая глава посвящена авторскому инварианту. А именно, обзору работы В.П. Фоменко и Т.Г. Фоменко по поиску авторского инварианта для прозаических текстов, проверке, является ли найденный ими инвариант, инвариантом для поэзии и поиску авторского инварианта для поэтических текстов.

В последней главе приведены и проанализированы частотные словари поэтов XIX-XX веков.

Далее следует заключение и список литературы.

Глава 1. Частотный анализ

1.1. Частотный анализ



Частотный анализ – один из методов анализа текстов на естественном языке. Процедура частотного анализа заключается в построении частотного словаря по данному тексту. На первом шаге частотного анализа необходимо привести все словоупотребления в тексте к начальным формам, т.е. к леммам. Далее необходимо вычислить частоту употребления каждой леммы. Для этого необходимо разделить количество вхождений каждой леммы на общее количество лемм в тексте. Таким образом, формула для вычисления частоты:



где – количество употреблений леммы i;

N – общее число лемм в тексте;

– частота леммы i.

Если леммы ранжировать по убыванию частоты, то полученный список будет представлять собой частотный словарь данного текста.

Первый частотный словарь был опубликован в 1953 году и содержал всего 1700 слов. В 1963 году, спустя десять лет, в Таллине был издан «Частотный словарь современного русского литературного языка», содержащий всего 2500 слов. Нетрудно заметить, что оба словаря содержали довольно небольшое количество слов: это всё, что лингвисты могли посчитать без использования компьютера. Первый адекватный частотный словарь, построенный с использованием вычислительной техники, был издан в 1977 году под редакцией Л.Н. Засориной, включал около 40000 слов. Интересно отметить, что в основу данного частотного словаря легли русскоязычные тексты политической направленности, и многие слова, связанные с Советской властью, сейчас устарели и не используются. В настоящее время построение частотных словарей автоматизировано.

Частотный анализ хорошо зарекомендовал себя в качестве инструмента автоматической обработки текстовой информации. На основе частотного словаря можно определить тему текста, стиль, особенности автора.

1.2. Программное обеспечение



Для исследования применялась программа, которая при помощи морфологического словаря, проводила частотный анализ входного текста. Входными данными программы являются: морфологический словарь, анализируемый текст и конфигурационный файл модуля построения словарей. Входные данные должны лежать в той же директории, что и исполняемый файл. Анализируемый текст должен иметь расширение “.txt в кодировке UTF-8. Конфигурационный файл «config.cfg» включает в себя набор признаков, по которым анализируется текст, т.е. набор частей речи. Значение 1 – включать данный тип признака в частотный словарь, 0 – не включать данный тип признака в частотный словарь. Ниже приведен список возможных параметров:

  • NGram1 = 1 - n-граммы длины 1

  • NGram2 = 1 - n-граммы длины 2

  • NGram3 = 1 - n-граммы длины 3

  • NGram4 = 1 - n-граммы длины 4

  • NGram5 = 1 - n-граммы длины 5

  • NGram6 = 1 - n-граммы длины 6

  • NGram7 = 1 - n-граммы длины 7

  • NGram8 = 1 - n-граммы длины 8

  • NGrams = 1 - маска всех n-грамм

  • NounInitials = 1 - начальные формы существительных

  • AdjectiveInitials = 1 - начальные формы прилагательных

  • VerbInitials = 1 - начальные формы глаголов

  • ParticipleInitials = 1 - начальные формы причастий

  • AdverbInitials = 1 - начальные формы наречий

  • CardinalInitials = 1 - начальные формы количественных числительных

  • OrdinalInitials = 1 - начальные формы порядковых числительных

  • CollectiveInitials = 1 - начальные формы собирательных числительных

  • AcronymInitials = 1 - начальные формы аббревиатур

  • PronounInitials = 1 - начальные формы местоимений

  • ConjunctionInitials = 1 - начальные формы союзов

  • ParticleInitials = 1 - начальные формы частиц

  • PrepositionInitials = 1 - начальные формы предлогов

  • InterjectionInitials = 1 - начальные формы междометий

  • SurnameInitials = 1 - начальные формы фамилий

  • NameInitials = 1 - начальные формы имён

  • PatronymicInitials = 1 - начальные формы отчеств

  • ToponymInitials = 1 - начальные формы топонимов

  • Initials = 1 - маска начальных форм всех слов

  • Bases = 1 - основы всех слов

  • NounPhrases = 1 - именные группы

  • VerbPhrases = 0 - глагольные группы

Флаги, задающие режим выделения именных и глагольных групп:



  • SyntaxMode_Default = 0 - режим по умолчанию - все флаги отключены

  • SyntaxMode_AllowPrepositionStart = 1 - выделять предложные группы (предлог + именная группа)

  • SyntaxMode_AllowPrepositions = 1 - разрешить предлоги внутри именных групп

  • SyntaxMode_RestrictLastItem = 1 - выделять только именные группы, заканчивающиеся на существительное или прилагательное

  • SyntaxMode_All = 1 - все из вышеперечисленных.

Пример заполнения файла «config.cfg» для построения частотного словаря по именам существительным:

  • NGram1 = 0 ;n-граммы длины 1

  • NGram2 = 0 ;n-граммы длины 2

  • NGram3 = 0 ;n-граммы длины 3

  • NGram4 = 0 ;n-граммы длины 4

  • NGram5 = 0 ;n-граммы длины 5

  • NGram6 = 0 ;n-граммы длины 6

  • NGram7 = 0 ;n-граммы длины 7

  • NGram8 = 0 ;n-граммы длины 8

  • NGrams = 0 ;маска всех n-грамм

  • NounInitials = 1 ;начальные формы существительных

  • AdjectiveInitials = 0 ;начальные формы прилагательных

  • VerbInitials = 0 ;начальные формы глаголов

  • ParticipleInitials = 0 ;начальные формы причастий

  • AdverbInitials = 0 ;начальные формы наречий

  • CardinalInitials = 0 ;начальные формы количественных числительных

  • OrdinalInitials = 0 ;начальные формы порядковых числительных

  • CollectiveInitials = 0 ;начальные формы собирательных числительных

  • AcronymInitials = 0 ;начальные формы аббревиатур

  • PronounInitials = 0 ;начальные формы местоимений

  • ConjunctionInitials = 0 ;начальные формы союзов

  • ParticleInitials = 0 ;начальные формы частиц

  • PrepositionInitials = 0 ;начальные формы предлогов

  • InterjectionInitials = 0 ;начальные формы междометий

  • SurnameInitials = 0 ;начальные формы фамилий

  • NameInitials = 0 ;начальные формы имён

  • PatronymicInitials = 0 ;начальные формы отчеств

  • ToponymInitials = 0 ;начальные формы топонимов

  • Initials = 0 ;маска начальных форм всех слов

  • Bases = 0 ;основы всех слов

  • NounPhrases = 0 ;именные группы

  • VerbPhrases = 0 ;глагольные группы

  • SyntaxMode_Default = 0 ;режим по умолчанию - все флаги отключены

  • SyntaxMode_AllowPrepositionStart = 0 ;выделять предложные группы (предлог + именная группа)

  • SyntaxMode_AllowPrepositions = 0 ;разрешить предлоги внутри именных групп

  • SyntaxMode_RestrictLastItem = 0 ;выделять только именные группы, заканчивающиеся на существительное или прилагательное

  • SyntaxMode_All = 0 ;все из вышеперечисленных.

В конфигурационном файле допускаются комментарии. Единственное обязательное требование - они должны быть расположены в конце строки и после символа «;».

В результате работы программы в директории «02_dictionaries» создаются частотные словари в формате «dictionary_<имя словаря>.txt». Количество созданных файлов соответствует количеству файлов в директории 01_input_texts, названия словарей соответствуют названиям файлов, расположенных в директории 01_input_texts.



Таким образом, настраивая этот файл можно проводить частотный анализ, как по каждой отдельной части речи, так и по наборам из них, а также N-граммам, глагольным и именным группам. На выходе по каждому входному тексту имеется частотный словарь, включающий в себя только те признаки, которые указаны в конфигурационном файле. После построения частотных словарей, так же возможны их визуализация путем построения столбчатой диаграммы в файлах формата «.xls» и вычисление для частотных словарей коэффициента ранговой корреляции Спирмена.

Программа была модифицирована и протестирована. В процессе работы было обнаружено, что сумма всех частот в частотном словаре равнялась единице. Значит, программа вычисляла частоту по формуле:



где – общее число лемм, имеющих тот же признак, т.е. ту же часть речи.

Данная формула была скорректирована в соответствии с формулой (1.1.1).

Таким образом, в процессе работы над дипломным проектом было модифицировано, протестировано и исправлено программное обеспечение для анализа текстов.

    1. Ранговый анализ

В основе рангового анализа лежит вычисление коэффициента ранговой корреляции Спирмена между частотными словарями. Такой анализ был проведен Вадимом Соломоновичем Баевским. Рассмотрим подробнее его исследование.

Вадим Соломонович Баевский, литературовед, историк, создатель Смоленской филологической школы, внес огромный вклад в математическое моделирование языковых явлений. В своей книге «Лингвистические, математические, семиотические и компьютерные модели в истории и теории литературы» он рассказывает об исследовании поэзии XIX-XX веков. Им были выбраны яркие представители русской поэзии того времени: Пушкин, Лермонтов, Ахматова, Блок, Высоцкий и другие, всего около двадцати. На основе частотных словарей поэтов Баевский определял сходство между поэтами. «Мы поставили перед собой задачу вычисления расстояний (в математическом смысле слова) между этими частотными словарями или, что почти одно и то же, между тематикой отдельных книг или всего творчества поэтов или, несколько более условно, между их художественными мирами. Мы хотим знать, насколько оригинальна тематика книги или, напротив, насколько она близка к тематике других книг того же автора или других авторов — предшественников, современников, преемников»[1]. Частотный словарь строился для имен существительных. Стоит отметить, что объем исследуемых текстов каждого автора должен быть большим, чтобы быть пригодным для статистического анализа. Анализ проводился только по 30 самым часто употребляемым словам. При меньших значениях, статистика работала плохо, т.к. большая часть коэффициентов ранговой корреляции лежали в доверительной области, т.е. были случайными. При больших значениях, исследуемая область частотного словаря становится менее обозримой, ее труднее анализировать.

При анализе частотных словарей исследователями было установлено, что есть некая лексика присущая всем поэтам. В ней сконцентрированы основные темы поэзии: Бог, жизнь, смерть, человек, любовь, душа. В каждом словаре имелось всего несколько оригинальных слов, которые не встречаются у других поэтов. Более того, средний ранг оригинального слова был равен 19, т.е. оно не являлось часто употребляемым словом. В словарях Лермонтова, Гумилева и Тютчева было всего по одному оригинальному слову. Поэтому подход, чем оригинальнее, тем лучше, не имеет места.

Особый интерес представлял частотный словарь Пушкина. Будут ли в нем оригинальные слова? Он оказал значительное влияние на русскую литературу, следовательно, ожидалось, что наиболее частотные слова у других поэтов должны совпадать или почти совпадать со словами Пушкина. Исследование показало, что среди 30 частотных слов Пушкина только два слова не встречаются среди 30 частотных слов других поэтов. Значит, можно сделать вывод: Пушкин оказал значительное влияние на речь других поэтов. А так как проводился частотный анализ имен существительных, то Пушкин в значительной степени определил тематику поэзии XIX-XX веков.

Также при частотном анализе было обнаружено, что самыми поэтичными словами оказались: душа, день, сердце и ночь.

После этих предварительных наблюдений был проведен ранговый корреляционный анализ по Спирмену. На основе частотных словарей каждому слову в нем приписывается ранг. Затем вычисляется значение коэффициента ранговой корреляции для каждой из возможных пар поэтов. Ниже приведена таблица значений коэффициентов корреляции для ряда авторов.

Под 19 В понимается обобщенный частотный словарь поэзии первой трети XIX века. Жирным шрифтом отмечены значимые коэффициенты корреляции. Это означает, что связь между соответствующими поэтами существует.

Таблица 1.3.1. Коэффициенты ранговой корреляции.[1]






Рылеев

Пушкин

Лермонтов (поэзия)

Лермонтов лирика

Баратынский

Фет

Тютчев

19 В

Грибое-дов «Горе от ума»

0.21

0.27

0.55

0.30

0.36

0.17

0.35

0.22

Рылеев




0.25

0.40

0.55

0.47

0.35

0.43

0.48

Пушкин







0.39

0.31

0.32

0.32

0.34

0.42

Лермон-тов (поэзия)










0.54

0.50

0.42

0.46

0.47

Лермон-тов (лирика)













0.64

0.53

0.58

0.62

Баратын-ский
















0.46

0.50

0.57

Фет



















0.50

0.62

Тютчев






















0.61

Оказалось, частотные словари поэтов-романтиков Рылеева, Лермонтова, Баратынского, Тютчева, Фета все связаны между собой попарно сильной корреляцией. Лирика Пушкина значимо коррелирует с лирикой М.Ю. Лермонтова.

Помимо этого, несмотря на то, что от книги к книге поэта наблюдается изменение тематики, взглядов поэта, между словарями книг одного поэта, как правило, существует сильная положительная корреляция, особенно между хронологически соседними. Например, для З. Гиппиуса.

Таблица 1.3.2. Коэффициент ранговой корреляции для З.Гиппиуса.[1]





ЗГ1

ЗГ2

ЗГ3

ЗГ1




0.50

0.39

ЗГ2







0.40

ЗГ3










Таким образом, частотный анализ и метрика Спирмена позволяют объективно обнаруживать сходство между поэтами.

  1   2   3   4


База данных защищена авторским правом ©uverenniy.ru 2016
обратиться к администрации

    Главная страница