Области применения речевых корпусов и опыт их разработки




Скачать 101.11 Kb.
Дата03.06.2016
Размер101.11 Kb.
УДК 621.391
О.Ф. Кривнова

ОБЛАСТИ ПРИМЕНЕНИЯ РЕЧЕВЫХ КОРПУСОВ И ОПЫТ ИХ РАЗРАБОТКИ
Московский государственный университет им. М.В.Ломоносова, филологический ф-т

Россия, 119899 Москва, Воробьевы горы, I гум. корпус

Тел.: (495) 939-26-01

E-mail: okri@philol.msu.ru


Корпуса звучащей речи, которые называют также речевыми базами данных, представляют собой важнейший тип языковых ресурсов. В состав корпуса часто включают и компьютерные программы, которые обеспечивают создание, сбор, организацию и управление собственно языковыми, в том числе и фонетическими, ресурсами. Интерес к созданию речевых корпусов был в значительной степени инициирован разработками в области автоматического распознавания речи, где исследователям приходится сталкиваться с огромной акустической вариативностью звуковых единиц языка, которая имеет весьма разнообразные источники – от системной контекстной вариативности, обусловленной коартикуляцией, до психофизиологического состояния говорящего или технических характеристик микрофона, который используется при записи речевого материала. Современные распознающие системы обычно обучаются на очень больших массивах звучащей речи, записанной от многих дикторов (не менее 100 человек). В последнее десятилетие заметен переход от “ручных” правил и алгоритмов к корпусному моделированию и в области автоматического синтеза речи. Это особенно важно для моделирования просодических характеристик речи, ее эмоционального содержания и выражения, а также имитации индивидуальных особенностей голоса говорящего. Речевые корпуса представляют и самостоятельный научный интерес, а потребность в них возникает во многих научных задачах, связанных с анализом и описанием звучащей речи на разных языках. В докладе рассмотрены основные области применения речевых корпусов, а также кратко суммирован опыт их разработки, в том числе на материале русского языка.
1. Речевой корпус как разновидность языковых ресурсов. Корпуса звучащей речи, которые называют также речевыми базами данных, представляют собой важнейший тип языковых ресурсов. Последний термин обычно используется для обозначения любых, как правило больших, наборов лингвистических данных и описаний, представленных в электронном виде и специально организованных для разработки, совершенствования и оценки систем и алгоритмов обработки речевого и языкового материала в технологических приложениях.

Речевой корпус – это структурированная совокупность речевых фрагментов, которая обеспечена программными средствами доступа к ним. Речевой фрагмент как базовая единица корпуса представляет собой оцифрованный фрагмент речевого сигнала, который сопровождается ассоциированной информацией определенного типа (типов). В настоящее время задача создания больших, разнообразных и информационно «богатых» (многоуровневых) речевых корпусов, а также удобного и надежного инструментария для их разработки и использования становится все более актуальной как для компьютерных приложений, так и для фундаментальных фонетических исследований. Современные системы распознавания речи, которые дают наиболее высокие показатели надежности, базируются преимущественно на методах статистического моделирования речевых и языковых явлений и требуют обучения на больших массивах аннотированной звучащей речи, записанной от многих дикторов (не менее 100 человек).

Современный подход к синтезу речи по тексту, основанный на конкатенации акустических фрагментов разной размерности, также предполагает использование больших речевых корпусов [1] . Специалисты считают, что корпусной подход (corpus-based approach) является определяющим для развития технологий синтеза, особенно при моделировании просодических характеристик речи и индивидуальных особенностей говорящего. Отмечаются также такие достоинства этого подхода, как формализация процедур обучения, применение итеративного обучающего процесса с исправлением возникающих и контролируемых ошибок, возможность контроля и объективной оценки работы различных прикладных систем на стандартизованной основе (на одних и тех же речевых корпусах). Практика показывает, что при наличии речевых корпусов и технологии обучения создание прототипической версии автоматического распознавателя или синтезатора речи занимает не так уж много времени. В литературе указываются сроки от двух месяцев до полугода. Для коммерчески ориентированных разработок это немаловажное обстоятельство.

Было бы неправильно думать, что речевые корпуса представляют интерес только для развития речевых технологий. Использование представительных речевых корпусов, снабженных специальной информацией, уровень развития современных речевых технологий и постоянно возрастающие мощности компьютерной техники дают ученым недоступную ранее возможность для проведения крупномасштабных и статистически достоверных фонетических исследований на разнообразном речевом материале.

2. Из истории разработок. Первые речевые корпусы появились в середине 80-х годов прошлого века в США, где их разработка финансировалась прежде всего Министерством обороны. При поддержке этого ведомства были созданы: TI-DIGITS корпус (1984) для тестирования систем распознавания изолированных цифр и цифровых последовательностей; Road Rally для анализа и распознавания ключевых слов (word spotting) и King Corpus для систем идентификации говорящего (speaker recognition). В рамках государственной программы развития лингвистических технологий, известной как ARPA/DARPA (the Advanced Research Projects Agency), это же министерство финансировало создание известного американского корпуса TIMIT (1980-1990), который послужил прототипом для многих других речевых корпусов. При этой же финансовой поддержке были разработаны специализированные речевые корпус Resourse Management (RM) и Wall Street Journal (WSJ) для исследований в области распознавания слитной речи, а также Air Travel Information Service (ATIS) для исследования спонтанной речи и понимания естественного языка в диалоговых системах.

Практика показала, что создание хорошего речевого корпуса представляет собой довольно сложную технологическую задачу, требующую значительных финансовых и кадровых вложений. Горячими точками в этом процессе до сих пор являются финансовое обеспечение, необходимость кооперативных усилий, обеспечение общедоступности и многопрофильности речевых корпусов, стандартизация и создание компьютерного инструментария для накопления, обработки и верификации речевых баз данных [2]. Для решения этих задач в 90-е годы ХХ в. были созданы специальные координационные центры по сбору, хранению, распространению и созданию общедоступных и стандартизованных языковых ресурсов, в том числе речевых. Среди них:



  • LDC (Linguistic Data Consorcium, http://www.ldc.upenn.edu)

  • CSLU (Center for Spoken Language Understanding, Oregon Graduate Institute

  • http://www. CSLU.ogi.edu)

  • ELRA (European Language Resources Association, http://www.elra.info)

Коллекция речевых корпусов, которые предлагаются указанными центрами с каждым годом увеличивается, и все большее количество специалистов участвуют в их разработке. Одновременно растет мощность, разнообразие и компьютерное оснащение самих корпусов. (более подробные сведения о центрах речевых ресурсов можно найти в [3].

3. Классификация речевых корпусов. Опыт, накопленный в области создания и использования речевых корпусов, позволяет выделить ряд признаков, которые могут быть положены в основу классификации речевых баз данных и учитываться при проектировании нового корпуса. Укажем наиболее важные характеристики (см. также [4-6] ).

    • целевое использование корпуса: специализированные, общие (репрезентативные), учебно-иллюстративные;
    • тип речевого материала: дискретная речь, непрерывная речь-чтение, спонтанная речь, специальные диалоги;

    • тип текстового материала: списки слов/слогов, наборы отдельных предложений, связные тексты; монотематические или политематические;

    • тип речевого сигнала: лабораторная речь, офисная речь, публичная речь, телефонная речь (обычная или через мобильный телефон; радио-, теле-речь.

    • тип информации, ассоциированной с речевым сигналом(аннотации): орфографическая запись, фонемная / фонетическая транскрипция, просодическая транскрипция, акустико-фонетическая разметка сигнала: «событийная», сегментная, просодическая, наличие других типов лингвистических аннотаций и комментариев, например, об индивидуальных особенностях произношения говорящего или эмоциональной окраске речевых фрагментов;

    • тип статистической балансировки звуковых единиц языка: естественная, равномерная, репрезентативная, по специальной статистической схеме;

    • наличие и тип дополнительной сигнальной информации, включённой в корпус наряду с речевым сигналом: простые, мультимодальные и специальные корпуса.


4. Речевые корпуса для русского языка. Как правило, речевые базы данных являются моноязычными. Речевые корпуса созданы не только для всех технологически важных языков (американского англ., немецкого, японского, китайского и др.), но и для большинства официальных языков Европейского Союза : для британского и шотландского вариантов английского языка, голландского, датского, шведского, немецкого, французского, итальянского, испанского, есть также несколько многоязычных корпусов. В результате осуществления программы Copernicus ELRA распространяет также речевые корпуса для языков Восточной Европы (польский, болгарский, эстонский, румынский и венгерский). На сайте Европейской Ассоциации в Интернете можно найти предложения и речевых корпусов для русского языка. Насколько нам известно, в их разработке принимала участие Санкт-Петербургская компания “Одитек”.

4.1. Речевой корпус ISABASE. В конце 90-х годов в Институте системного анализа РАН при участии специалистов речевой группы филологического ф-та МГУ был создан первый представительный речевой корпус для русского языка с разметкой речевых фрагментов на звуковые единицы, который использовался не только в исследовательских целях, но и для построения автоматической системы распознавания дискретной речи [4]. Корпус моносигнальный, остальные характеристики см. ниже в таблице 1.


тип речевого материала

Дискретная речь

Дикторы/речевые фрагменты-редложения

Общий объем

Текстовый материал

1

Фонетически сбалансированный набор из 500 коротких предложений, монотематический

5 дикторов-мужчин и 4 диктора-женщины;

1863 фрагмента



4653 реч. Фрагмента;

3713 различных слов;



2

Фонетически репрезентативный набор предложений, взятых из литературных текстов; политематический

15 дикторов-мужчин и 14 дикторов-женщин

3280 фрагмента



Типы аннотаций

Текст речевого фрагмента, фонетическая транскрипция, результаты ручной сегментации сигнала на слова и фонемы

Транскрипционная система из 110 монофонов



Табл.1. Характеристики русского речевого корпуса ISABASE.


4.2. Речевой корпус RuSpeech. В 2000-2001 гг. в ИСА РАН заказу корпорации Intel был создан также самый представительный на сегодняшний день речевой корпус русского языка RuSpeech, который может быть использован для разработки систем распознавания русской речи [5]. Общие характеристики корпуса приведены в ниже в таблице 2.

Помимо самой речевой базы, важным результатом проекта Ruspeech явились отлаженная технология создания речевых корпусов и комплекс программных средств для обеспечения этой технологии [4-6]. Среди последних необходимо отметить – отладку автоматического транскриптора русской речи; создание программы для подготовки текстового материала с нужными фонетическими и статистическими характеристиками; создание автоматизированного




Общая характеристика

Тип речевого материала

Состав фрагментов/предложений

Дикторы /фрагменты

Непрерывная речь; моносигнальный

50 часов записи; 30 CD, более 15 Gb;

; более 50000 фрагментов- предложений



237 дикторов: 127 мужчин и 110 женщин; разного возраста

Текстовый материал

1

Фонетически

сбалансированный набор;

политематический


70 предложений, обеспечивающих полное (≥3 раз) монофонное покрытие;

203 диктора: 111-м и 92-ж; каждое предложение произнесено всеми дикторами;

2

Фонетически репрезентативный (на аллофоном уровне) набор предложений, взятых из газетных и новостных текстов на интернет-сайтах; политематический

3060 предложений, обеспечивающих полное покрытие аллофонов из репрезентативного набора,


203 диктора: 111-м и 92-ж по 180 предложений выборочно; каждое предложение роизнесено 14 дикторами;

2000 фонетически разнообразных предложений;

20 дикторов: 10-м и 10-ж по 200 предложений выборочно; каждое предложение произнесено 1 диктором

Аннотации

Текст речевого фрагмента, каноническая и фактическая транскрипция, выверенная экспертами;данные о дикторе и эксперте-фонетисте

Транскрипционная система из 114 монофонов;



рабочего места эксперта-фонетиста; программы пакетной записи дикторов; нескольких программ для верификации результатов основных этапов разработки [6].

Табл.2. Характеристики русского речевого корпуса Ruspeech.


Л И Т Е Р А Т У Р А


  1. Hunt A. , Black A.W. Unit selection in a concatenative speech synthesis system using a large speech database // ICASSP-96, vol. 1, pp. 373-376, 1996.
  2. Gibbon, D.,Moore, R., Winski, R. (Editors) Handbook of Standards and Resources for Spoken Language Systems Mouton de Gruyter, 1997.


  3. Кривнова О.Ф., Захаров Л.М., Строкин Г.С. Речевые корпусы (опыт разработки и использование) // Труды семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. M., , 2001.

  4. Богданов Д.С., Кривнова О.Ф., Подрабинович А.Я., Фарсобина В.В. База речевых фрагментов русского языка ISABASE // Cб. «Интеллектуальные технологии ввода и обработки информации». М., Эдиториал УРСС, 1998.

  5. Богданов Д.С., Брухтий А.В., Кривнова О.Ф., Подрабинович А.Я., Строкин Г.С. Технология формирования речевых баз данных // Cб. «Организационное управление и искусственный интеллект». М., Эдиториал УРСС, 2003.

  6. Arlazarov V.L., Bogdanov D.S. Krivnova O. F., Podrabinovitch A. Ya. . Creation of Russian Speech Databases: Design, Processing, Development Tools // International Conference SPECOM'2004. Proceedings. S-Pb. Russia, 2004. Pp: 650-656.


База данных защищена авторским правом ©uverenniy.ru 2016
обратиться к администрации

    Главная страница