2 Формирование поэтических корпусов 7 Структура системы 18 Структура словаря 18




страница1/5
Дата02.08.2016
Размер0.78 Mb.
  1   2   3   4   5
Оглавление


2.3. Формирование поэтических корпусов 7

6. Структура системы 18

6.1. Структура словаря 18

6.2. Структура стихотворения 19

1. Основные термины охраны труда 36

2. Микроклимат 41

3. Освещение 43

3.1. Постановка задачи 44


I. Специальная часть проекта
1. Введение

Культура речи – понятие, в основе которого лежит сформированное в сознании человека представление о речевом идеале, некий эталонный образец, которому человек должен следовать во время выражения своих мыслей. Культура речи, как и другие компоненты общей культуры человека, требует постоянного качественного развития и совершенствования.

Проблематику культуры речи начали рассматривать еще философы античности, такие как Аристотель, Сократ и Платон. Демократическое государственное устройство Древней Греции способствовало активному вмешательству людей разных сословий в политическую жизнь страны. Гражданам часто приходилось выступать публично. Для того чтобы уметь донести до публики свою точку зрения или наоборот – опровергнуть доводы оппонента, требовались определенные навыки убеждения и опыт устного воздействия на аудиторию.

Такие условия стали предпосылкой к зарождению риторики – науки об искусстве красноречия [1]. Риторика рассматривалась как важнейшая часть культуры мышления (философского, политического и художественного), и позже вошла в число «избранных наук». Принято считать, что понятие «культуры речи» было впервые упомянуто именно в это время.

В нашем государстве появление понятия «культура речи» связывают с возникновением новой советской интеллигенции в начале XX века, сопровождавшейся борьбой за чистоту русского языка. В этот период в свет выходят труды [2] и [3], сформировавшие базис к последующему приобщению людей к грамотной речи. Кроме того, в советский период существовала цензура в сфере СМИ, что благоприятно сказывалось на общем культурном состоянии страны, активно внедряя в массы прообраз грамотной речи.

За последние десятилетия наблюдается спад общего культурного развития общества, произошли значительные негативные перемены в формировании облика русского языка. В первую очередь эта тенденция касается культуры речи. Демократизация средств массовой информации и глобальная информатизация стали негативно сказываться на уровне литературной образованности общества, так как в этих сферах грамотность практически никак не регулируется. Язык художественной литературы, политики, средств массовой информации влияет на формирование языковой культуры и языкового идеала. Читая газеты и журналы, слушая радио- и телепередачи, человек неосознанно запоминает те или иные языковые нормы, устойчивые (в том числе и заведомо ложные) обороты, которые впоследствии закрепляет через прямое общение, Интернет-переписку и т.п. как эталон речи. Расхождения между литературным языком и существующим в настоящее время многообразием речевых «субкультур» очевидны [4]. Все это вместе взятое ведет к обеднению активного словарного запаса. Язык просто меняется, отражая то, что происходит вокруг нас.

Грамотность играет ключевую роль в публичной речи. Если же оратор допускает многочисленные стилистические и грамматические ошибки, слушатель отвлекается от главной мысли. Нарушается автоматизм восприятия, от чего внимание расходуется не на смысл речи, а на распознавание ее отдельных языковых единиц. Кроме того, неграмотная речь через эстетическое отторжение вызывает отторжение информации как таковой. Поэтому соблюдение языковых норм и правил, преодоление штампов и канцеляризмов, жаргонизации и вульгаризации языка существенно облегчает процесс общения [5].

Правила языка и языковые нормы фиксируются в соответствующих лингвистических словарях. Существует огромное множество словарей, различающихся по определенным типологическим признакам (толковые [6], орфографические [7], орфоэпические [8], синонимические [9] и т.д.). Однако со временем словари утрачивают свою актуальность. Словари нуждаются в постоянном регулировании и обновлении, чтобы их содержание было всегда наиболее подробным и полным. Неполнота электронного словаря – проблема вечная и, к счастью, гораздо легче решаемая, чем неполнота «бумажного» варианта. Необходимо только время и аккуратность человека, который пополняет словарь. Аккуратность нужна, в частности и потому, что ввод каждого нового слова может затронуть уже имеющийся размеченный массив: например имя собственное Мѝла «испортит» равноправие нарицательных форм мѝла и мила̀ [10].

Ручной метод пополнения является наиболее распространенным: человек сам вносит соответствующие коррективы, если он обладает конкретными знаниями. Но данный метод требует больших трудозатрат. Поэтому в зависимости от типологии принимаются попытки разработать автоматизированные системы, способные значительно сократить трудоемкость пополнения словарей.

Следует отметить, что невозможно разработать и использовать единый алгоритм пополнения для словарей с различной типологией, так как их строение в корне отличается друг от друга. В каждом отдельно взятом случае следует принимать во внимание все языковые особенности, по которым группируются элементы словаря. Для словаря ударений и орфоэпического словаря до сих пор не было разработано достаточно качественных методик автоматизированного пополнения, в то время как для русского языка эта задача достаточно актуальна: в русском языке нет формальных правил постановки ударения, в отличие от таких языков, как польский, венгерский и др. Расположение ударений играет немаловажную роль в стихосложении.

Поэзия – форма литературного творчества, в которой произведения создаются посредством ритмического распределения ударных и безударных слогов и рифмующихся слов. Поэзия всегда играла ключевую роль в духовном развитии общества. По сравнению с прозой, стихотворение представляет собой несколько более сложную художественную структуру. Прозаический текст подчиняется лишь совсем небольшому количеству литературных норм, которые позволяют рассматривать произведение как творчество, обладающее художественной ценностью, в то время как правила, по которым организована поэзия, более жесткие. По своей концепции стихосложение больше напоминает создание музыкальной композиции.

Ключевой особенностью поэтических произведений является некая ритмическая организованность, благодаря которой в процессе чтения стихотворения человек неосознанно строит предположения о том, какая будет интонация в последующих строках. Этот факт позволяет рассматривать стихотворение как четко структурированную систему с закономерным расположением ударных слогов.

Если проанализировать ритмический рисунок стихотворения с технической стороны, предоставляется возможность выдвинуть гипотезы о том, какие будут ударные позиции у неизвестных слов, так как ритм, как правило, сохраняется на протяжении всего произведения. Наиболее вероятностный результат можно сформулировать как эталонный и применить для всех строф. При достаточном объеме входных данных, эталонный ритмический рисунок позволит расставить ударения в тех позициях строф, где встречаются неизвестные слова. Другими словами, если вся строфа или некоторые ее элементы регулярно повторяются в последующих частях стихотворения, можно предположить, что такое строение будет свойственна всему стихотворению. Это суждение дает основу для того, чтобы автоматизировать процесс пополнения словарей ударений и орфоэпических словарей.

В данной работе приведено подробное описание разработки такой системы и результаты ее работы.
2. Назначение и область применения

Автоматизированная методика пополнения словарей ударений, описанная в данной работе, может быть внедрена в более крупные системы, использующие такие словари для решения конкретных задач.



2.1. Синтез речи

Синтезатор речи – это система преобразования текста в речь. Первые системы синтеза речи начали появляться уже в начале XX века. Все чаще мы можем наблюдать повсеместное использование таких систем, призванных автоматизировать выдачу конкретной информации:

  • воспроизведение электронных книг;

  • воспроизведение информации в информационно-справочных системах для помощи слепым и немым;

  • объявление отправления поездов и авиарейсов;

  • выдача информации о каких-либо технологических процессах на производстве.

Синтезаторы речи все еще далеки от совершенства: требуется большой объем памяти для хранения знаний о том, как воспроизводить текст; часто наблюдается нарушение интонации в слишком длинных предложениях; голос синтезатора, как правило, больше напоминает речь робота, чем речь живого человека. Инженеры постепенно решают каждую из этих проблем, улучшая качество таких систем.

Методы синтеза человеческой речи основаны на использовании двух моделей [11]:



  1. Модель компилятивного синтеза;

  2. Формантно-голосовая модель.

Модель компилятивного синтеза представляет собой синтез речи путем комбинирования записанных образцов отдельных звуков. При использовании такой модели составляется база данных звуковых фрагментов, из которых по кусочкам собираются целые предложения. Модель компилятивного синтеза применима только в простейших случаях, когда синтезатор должен уметь произносить достаточно небольшой и заранее известный набор фраз. Качество речи при таком подходе остается на достаточно высоком уровне. Тем не менее, на стыке составляемых звуковых фрагментов возможны интонационные искажения и разрывы, заметные на слух. Кроме того, создание крупной базы данных звуковых фрагментов, учитывающей все особенности произношения фонем и аллофонов с разными интонациями, представляет собой сложную и кропотливую работу.

Формантно-голосовая модель основана на моделировании речевого тракта человека. Такая модель может быть реализована с применением нейронных сетей и допускает самообучение. Из-за высокой сложности точного моделирования особенностей речевого тракта формантно-голосовая модель обладает относительно низкой точностью синтезируемых звуков речи.

Решение задачи расстановки ударений поможет системам, работающим с заведомо неизвестным текстом, воспроизводить речь более естественно. Для определения ударения можно использовать заготовленный словарь произношений, содержащий сведения об ударении. Система производит поиск нужного слова, находит указание на ударный слог и осуществляет пошаговое воспроизведение каждой фонемы, соблюдая правильную интонацию. Наиболее известными синтезаторами речи, использующими словари ударений, являются Govorilka, Ice Book Reader и Acapela Alyona.

2.2. Генерация рифм

В настоящее время особой популярностью пользуются так называемые генераторы рифм. Эти программы позволяют мгновенно подобрать к нужному слову наиболее подходящую рифму. Данный подход к написанию стихов является несколько спорным моментом, так как произведение, написанное таким образом, теряет всякую ценность. Даже не слишком глубокий анализ позволяет с легкостью выявить искусственность происхождения такого текста. Кроме того, теряется возможность сохранить первоначальный смысл стихотворения, так как системы по подбору рифм пока не обладают настолько развитым искусственным интеллектом для смыслового анализа, позволяющим полностью заменить писательский труд. Однако если автор не ставит перед собой цели внести какой-либо литературный вклад, то такой метод крайне эффективен (например, для написания лозунгов, слоганов, поздравительных стишков). Более того, с точки зрения лингвистики такие методы могут представлять некоторый научный интерес.

Генераторы рифм можно разделить на два вида:



  • добавлению рифмующихся строк к изначально заданным

  • подбор рифмы к одному слову

Первый метод генерации почти полностью исключает авторское вмешательство, подбирая строки практически лишенные какой-либо осмысленности. Второй метод является более гибким и точным, требуя от автора лишь уточнения рифмующегося слова из списка готовых вариантов. Именно такие системы наиболее популярны в сети Интернет на данный момент. Для работы таких сервисов необходимо заготовить базу данных словоформ.

Для того чтобы два слова рифмовались, требуется не только совпадение окончаний слов, но также совпадение взаимного расположения ударных гласных. Таким образом, решая эту проблему, из списка выпадают заведомо ложные результаты – омографы, совпадающие по написанию, но различающиеся по звучанию (ве́сти вести́, по́шло пошло́). Для решения этой проблемы необходимо ввести словарь ударений с систематизированной базой данных, в которой слова отсортированы по позиции ударного слога.


2.3. Формирование поэтических корпусов


Поэтические произведения являются одним из важнейших источников изучения языка. Однако вследствие трудоемкости обработки таких текстов и их неравномерной доступности исследователи не имеют возможности в полной мере использовать этот материал. Для этих целей следует использовать размеченный корпус поэтических текстов. Такой справочник позволит иметь систематическую картину языковых норм и правил, по которым филологи смогут выявить соответствующие закономерности развития языка. Подавляющее большинство задач с помощью корпуса можно решать эффективно и быстро: во многих случаях получение примеров с заданными свойствами, на сбор которых традиционными методами нужно затратить не один день работы, оказывается возможным буквально за секунды. В других случаях использование корпуса существенно упрощает процедуру получения нужных примеров [12].

Корпус поэтических текстов позволяет изучить следующие аспекты развития языка:



  • Система ударений

  • История произношения

  • История лексики

Поэтический корпус дает возможность заниматься этой проблемой целенаправленно, минимизируя затрачиваемые усилия.

На сайте национального корпуса русского языка (http://ruscorpora.ru) представлена электронная версия корпуса поэтических текстов. Помимо обычной семантической и морфологической разметки, предусмотрена специальная стиховедческая разметка. Так, возможен поиск текстов, написанных амфибрахием, тоническими размерами, 5-стишиями, вольной рифмовкой, твёрдыми формами и т.п.


3. Постановка задачи

Для того чтобы иметь возможность работать со стихотворением не как с набором символьных единиц, а как с ритмически организованной системой, необходимо привести входные данные к такому виду, чтобы по сформировавшейся картине можно было легко оценивать интонационные характеристики строф. Для этого следует определить сильные и слабые позиции в словах и схематически обозначить их так, чтобы впоследствии можно было бы четко прослеживать их наличие без обращения к исходным текстовым данным. В литературе сильные слоги принято обозначать символом «/», а слабые – «-». После этой интерпретации, мы получаем так называемый ритмический рисунок. Например, стихотворение




  1. Буря мглою небо кроет,

Вихри снежные крутя;

То как зверь она завоет,

То заплачет как дитя.
будет иметь следующий ритмический рисунок:


  1. / - / - / - / -

/ - / - / - /

/ - / - / - / -

/ - / - / - /
На примере (2) можно заметить четкость следования друг за другом слабых и сильных слогов. Последующие строфы, как правило, будут раз за разом повторять одну и ту же схему. Именно это чередование ритмических отделов наделяет поэтические тексты мелодичностью, схожей с динамикой музыкальных композиций.

Однако здесь возникает проблема, связанная с автоматизацией ритмического анализа: слабые и сильные позиции не всегда совпадают с безударными и ударными слогами соответственно. То есть, например, в приведенном выше примере, слово «снежные» записано как «/ - /». В слове имеются две сильные позиции. Эти позиции зависят непосредственно от ритмического контекста. В данном случае речь идет о так называемом акценте. Акцент – это интонационная обособленность слога за счет повышения голосового тона, в то время как ударение характеризует слог увеличенной громкостью и мелодической выделенностью [13]. Акцент часто совпадает с ударением, но это не позволяет соотносить эти два понятия друг с другом. Поэтому по схеме (2) нельзя определить формальную постановку ударений в словах.

Для дальнейшей разработки автоматизированного аппарата, придется отказаться от классического литературного понимания ритмического рисунка, основывающегося на акцентах, и производить его формирование на основе ударений. Таким образом, схема обретает следующий вид:


  1. / - / - / - / -

/ - / - - - /

/ / / - / - / -

/ - / - / - /
Схема (3) не соответствует базовым требованиям метрики, зато по ней можно увидеть, в каких позициях следует ожидать ударные и безударные позиции. Такой подход позволяет наделить процесс формирования ритмического рисунка прикладной пользой в определении ударений в неизвестных словах.

Взяв за основу схему первой строфы, принятую за образцовый ритмический рисунок, следует произвести поочередное сравнение с каждой последующей строфой, производя соответствующие коррективы образцового ритмического рисунка. Собрав информацию по всему стихотворению, становится возможным выделить наиболее релевантные элементы для формирования конечного эталонного ритмического рисунка, который будет максимально соответствовать структуре всех строф. Это позволит произвести анализ неизвестных слов и сформулировать гипотезу об их ритмической структуре для последующего обновления словаря ударений.


4. Разработка технического задания

4.1. Назначение и область применения

Данная система предназначена для автоматизации процесса пополнения словарей ударений и орфоэпических словарей для последующего использования в масштабных проектах, использующих соответствующие словари для решения производственных задач.


4.2. Цели и особенности разработки системы

Разрабатываемая система предназначена для автоматизации пополнения словаря ударений. Система является полностью автоматизированной. Целью создания системы является уменьшение трудозатрат на создание и словарей ударений, предполагающей лишь незначительное вмешательство пользователя в работу системы.


4.3. Описание объектов проектирования

На входе имеется базовый словарь ударений, разбитый на текстовые документы в зависимости от положения ударного слога. На основе ритмического рисунка загружаемого стихотворного текста, формулируются гипотезы о расстановке ударений в тех словах, в которых положение ударения было неизвестно, и осуществляется пополнение словаря.
4.4. Требования к программе

Разработка, отладка и тестирование осуществляются на языке C# в среде программирования Microsoft Visual Studio 2010. Программа обладает интуитивно понятным графическим интерфейсом и может использоваться на любых компьютерах с предустановленной операционной системой Windows.
4.5. Этапы разработки

  1. Исследование объекта проектирования.

– 28 февраля 2013г.;

  1. Разработка методики составления и анализа ритмических рисунков.

– 10 марта 2013г.;

  1. Методика пополнения словаря

– 20 марта 2013г.;

  1. Разработка и отладка программного обеспечения

– 20 апреля 2013г.;

  1. Пример использования программного обеспечения

– 30 апреля 2013г.;

  1. Оформление дипломного проекта

– 20 мая 2013г.


4.6. Порядок сдачи

Согласно ГОСТ 19301-79 ЕСПД "Порядок и методика испытаний, тестирования. Требования к содержанию и оформлению".


5. Разработка метода

5.1. Токенизация стихотворения

На начальном этапе необходимо избавиться от знаков пунктуации, для того чтобы иметь возможность работать непосредственно со словами. Для этого осуществляется токенизация – выделение лексем среди набора символов. В результате остаются только те элементы, которые непосредственно повлияют на дальнейшее формирование ритмического рисунка.

За основу взят метод, описанный в [14]. Суть метода заключается в использовании так называемых «граничных маркеров» (token boundaries – TB). Их расположение сигнализирует о конце текущей лексемы и о начале новой. Например, предложение:


  1. «Чудесный жребий совершился: угас великий человек.»

примет вид:

  1. «Чудесный TB жребий TB совершился TB : TB угас TB великий TB человек TB

Для составления ритмического рисунка следует исключить из текста знаки пунктуации. Таким образом, (4) примет вид:

  1. «Чудесный TB жребий TB совершился TB угас TB великий TB человек TB»

Следует разработать ряд правил – некий алгоритм расстановки граничных маркеров, позволяющий произвести определенные действия по выделению необходимых лексем. Правила разрабатываются отдельно в зависимости от целей и особенностей естественного языка. По своей структуре правила напоминают распознающий конечный автомат: на вход подается строка текста, осуществляется сдвиг и считывание каждого символа, выполняются соответствующие операции в зависимости от состояния, и на выход подается переработанная строка. Для нашего случая перечень правил будет иметь следующий вид:

  1. Знак пунктуации TB

  2. Пробел TB

  3. TB TB TB

Пункты 1 и 2 подразумевают игнорирование всех знаков, не являющихся буквами (цифры и прочие символы не подлежат анализу, так как мы рассматриваем ситуацию, в которой стихотворение содержит только буквы и знаки препинания). Пункт 3 осуществляет замену нескольких идущих подряд граничных маркеров на один. Такая необходимость возникает в силу того, что каждый из знаков пунктуации или пробелов, стоящих рядом, после выполнения пунктов 1 и 2 оставляет после себя граничный маркер. Так как граничный маркер предназначен для отделения лексем друг от друга, расположение граничных маркеров рядом друг с другом нерационально.
5.2. Анализ структуры стихотворения

Для дальнейшей работы необходим сбор сведений, позволяющих определить основные характеристики текста:



  • количество слов

  • количество неизвестных слов

  • размер строфы

От соотношения объема неизвестных слов к общему объему слов в стихотворении зависит релевантность будущего ритмического рисунка: если в тексте встречается слишком много неизвестных слов, ритмический рисунок может оказаться неточным, что негативно скажется на формировании эталонного ритмического рисунка.


5.3. Формирование ритмического рисунка

На данном этапе происходит перевод текста в схематическую последовательность ударных и безударных слогов. У системы уже должна быть заготовлена база знаний, содержащая сведения о гласных данного естественного языка, по которым будет происходить построение ритмического рисунка.

Введем таблицу обозначений:

«» - безударная позиция;

«/» - ударный слог;

«=» - вероятностно безударная позиция;

«%» - вероятностно ударная позиция;

«X» - неоднозначная позиция;

«?» - неизвестная позиция.

Система поочередно считывает лексемы, определяя начало и конец каждого элемента при помощи граничных маркеров, введенных в разделе 2, параллельно определяя количество гласных в текущем элементе. В зависимости от этого количества, возможно два развития событий:



  1. В слове одна гласная

Это слово не добавляется в словарь, так как постановка ударения в данном случае очевидна. Система записывает в итоговую схему «X». Это обусловлено тем, что по односложным словам нельзя строить ритмический рисунок, так как в разных строфах их позиции могут с равной вероятностью иметь сильную и слабую позиции. В противном случае последовательность из нескольких идущих подряд односложных слов будет распознаваться как последовательность ударных слогов, что негативно повлияет на качество ритмического рисунка.

  1. В слове больше одной гласной

Системе необходимо выяснить, имеется ли данное слово в словаре ударений. Для этого осуществляется поочередное сравнение текущего слова с каждым элементом исходного словаря.

    1. Слово найдено в словаре

Так как словоформы в словаре уже сгруппированы по позиции ударной гласной, можно сразу определить ударение. К примеру, слово «транзистор» будет найдено в категории 2, так как ударение падает на предпоследний слог. Однако теперь требуется знать положение ударения относительно не конца, а начала слова, так как разбор текста происходит слева направо. Следовательно, позицию ударения следует также анализировать слева направо. Это значение вычисляется при помощи следующей формулы:

  1. accentLR = vowelNumber – accentRL + 1, где

vowelNumber – количество гласных в слове;

accentRL – ударная позиция, отсчитываемая справа налево.
Таким образом, получаем функцию с двумя параметрами:

(8) F(v, a), где



v – количество гласных в слове;

a – ударная позиция, отсчитываемая слева направо.
Происходит анализ слова по гласным от 1 до v. В случае, когда v = a, в ритмический рисунок записывается «/», означающий ударный слог. В случае, когда v ≠ a, записывается «», означающий безударный слог. Например, слово «компьютер» будет иметь вид «- / -».


    1. Слово отсутствует в словаре

В схему записывается «?» столько раз, сколько в текущем слове содержится гласных. Например, слово «процессор» будет записано как «? ? ?».
Если встречается пустая строка, означающая новую строфу, в ритмический рисунок также записывается пустая строка.

В результате этой процедуры получаем готовый ритмический рисунок стихотворения.


5.4. Сбор статистических сведений

На данном этапе происходит анализ строф для выявления наиболее часто встречаемых фрагментов. Это необходимо для последующего построения эталонного ритмического рисунка. Суть сбора сведений сводится к подсчету количества нахождений каждого из двух элементов («» и «/») ритмического рисунка в каждой из позиций. Прочие элементы («X» и «?») при разборе игнорируются системой, так как такие элементы не помогут в построении качественного эталонного ритмического рисунка.

Для оптимальной организации учета данных вводится матрица:

(9) M (Ae), где



А = {«–», «/»} – алфавит ритмического рисунка (количество строк матрицы);

e – количество элементов в строфе ритмического рисунка (количество столбцов матрицы);

элементы матрицы – счетчики количества вхождений соответствующего элемента ритмического рисунка в соответствующей позиции.


Заполнение матрицы осуществляется во время разбора строк каждой строфы. Конец строфы – пустая строка, сигнализирует о том, что нумерация строк начинается с начала, после чего осуществляется разбор очередной строфы. В результате анализа всех строф получаем готовую таблицу с необходимыми для формирования эталонного ритмического рисунка данными.
5.5. Формирование эталонного ритмического рисунка

Система готова к созданию эталонного ритмического рисунка. На основе матрицы (9), система приступает к построению гипотез. В зависимости от соотношения значений столбца, относящихся к одному кортежу, возможны следующие ситуации:



  • Если элемент a встречается более одного раза, а элемент b не встретился ни одного раза, в эталон записывается элемент a;

  • Если элемент a встречается более чем в 4 раза чаще, чем элемент b, в эталон записывается элемент a;

  • Если элемент a встречается менее чем в 4 раза чаще, чем элемент b, в эталон записывается элемент a, означающий то, что в данной позиции наиболее вероятно расположение элемента a, чем элемента b («=» для элемента «» и «%» для элемента «/»);

  • Если элемент a встречается столько же раз, сколько элемент b, в эталон записывается знак неопределенности – «X»;

В результате получаем эталонный ритмический рисунок.

5.6. Расстановка ударений в неизвестных словах и занесение слов в словарь

Система берет для анализа исходный ритмический рисунок. В нем она находит строфы, в которых есть неизвестные слова по наличию в строфе «?» элементов. После этого осуществляется параллельное считывание слов стихотворения и элементов исходного ритмического рисунка (гласная в стихотворении = знак ударности/безударности в ритмическом рисунке). По позиции «?» элемента в исходном ритмическом рисунке система находит элемент эталонного ритмического рисунка, расположенного в аналогичной позиции и пошагово заменяет элементы исходного ритмического рисунка элементами эталона. Например, неизвестное слово «картина», записанное в исходном ритмическом рисунке как «? ? ?», должно определиться как «- / -». По полученному ритмическому рисунку система сможет автономно решить, в какую категорию словаря ударений следует добавить данное слово.

Для этого снова вводится функция (8). Она берет значения своих параметров на основе новой ритмической схемы слова. Для функции слова «клавиатура» параметр v будет равен 5, а параметр a – 4. Далее используется модифицированная формула (7) для определения категории словаря, которую следует дополнить данным словом:

(10) accentRL = vowelNumberaccentLR + 1


Полученное значение представляет собой ссылку на соответствующую категорию словаря. Так слово «клавиатура» будет добавлено в группу №2 (предпоследняя ударная гласная).

Если исходному ритмическому рисунку слова соответствует эталонный ритмический рисунок, у которого имеются неоднозначные или вероятностно ударные/безударные позиции из-за недостатка исходных данных, система передает контроль пользователю для ручного указания позиции ударной гласной. Таким образом, если система не смогла сформулировать однозначную гипотезу постановки ударения в слове «клавиатура» и ритмический рисунок представляет собой, например, «- - - % -», программа останавливает свою работу и ждет команды пользователя. Введенный пользователем результат сохраняется, и по нему происходит описанное выше добавление слова в словарь.

Данная процедура повторяется для всех неизвестных слов в стихотворении.

Последовательность выполнения программы можно представить в виде следующей схемы:


Схема 1. Выполнение программы


  1   2   3   4   5


База данных защищена авторским правом ©uverenniy.ru 2016
обратиться к администрации

    Главная страница