Дипломная работа студента 544 группы




Скачать 474.5 Kb.
страница1/6
Дата01.08.2016
Размер474.5 Kb.
  1   2   3   4   5   6


САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Математико-механический факультет

Кафедра системного программирования

Рандомизированный алгоритм стохастической аппроксимации в задаче распознавания отдельных слов речи

Дипломная работа студента 544 группы

Шалымова Дмитрия Сергеевича
Научный руководитель

профессор ………………………………………………...О. Н. Граничин

Рецензент

аспирант ………..…………………………………………Д. А. Дыдычкин

"Допустить к защите"

Заведующий кафедрой

д. ф.-м. н., профессор ……………………………………А. Н. Терехов

Санкт-Петербург

2006 г.

Содержание


Введение 3

Цель и задачи дипломной работы 4

История развития систем распознавания речи 4

Основные подходы к решению задачи распознавания речи 5

Современные системы распознавания речи 6

Технологии для аппаратных реализаций 7

Наборы библиотек для разработки приложений 7

Независимые пользовательские приложения 8

Специализированные приложения 8

Устройства, выполняющие распознавание на аппаратном уровне 8

Теоретические исследования и разработки 9

Основная часть 9

Распознавание слов речи 12

Терминология 12

Системная модель 14

Словарь и его составление 14

Обработка речевого сигнала 15

Предварительная фильтрация 15

Нарезка сигнала перекрывающимися сегментами 15

Обработка сигнала в окне 16

Получение векторов свойств 17

Рандомизированный алгоритм стохастической 20

аппроксимации (SPSA) и модель распознавания звука 20

Свойства SPSA алгоритма и задача самообучения 21

Задача самообучения 21

Автоматическая классификация входных сигналов 22

Пробное возмущение и алгоритм оценивания 25

Основные предположения и состоятельность оценок 26

Пример 28

Описание программы 29

Распознавание звука на основе 33

SPSA алгоритма и квантовые вычисления 33

Возможная другая постановка задачи 35

Заключение 37

Список использованной литературы 38

Приложение 40


Введение


С момента появления первых ЭВМ одним из наиболее важных вопросов развития компьютерной техники был процесс взаимодействия человека с машиной. Долгое время это было доступно только узким специалистам – технологи «общались» с машиной через посредника - программиста. Такая ситуация просуществовала вплоть до появления диалогового интерфейса, когда пользователь смог лично вводить с клавиатуры адресованную машине команду и получать осмысленный ответ. Появление графического интерфейса, при котором отпала необходимость в знании человеком каких-либо команд, привела к повсеместному распространению персональных компьютеров.

Однако человек всегда стремился к более универсальному и естественному способу взаимодействия с ЭВМ. Еще в эпоху перфокарт в научно-фантастических романах человек разговаривал с компьютером, как с равным себе. Тогда же были предприняты первые шаги по реализации речевого интерфейса.

Тем не менее, если сравнить показатели современных систем распознавания с показателями систем времен начала зарождения этой области науки, то можно сказать, что за прошедшие десятки лет исследователи недалеко продвинулись. Это заставляет некоторых специалистов сомневаться относительно возможности реализации речевого интерфейса в ближайшем будущем. Другие считают, что задача уже практически решена. Большинство экспертов сходится во мнении, что для развития распознавания речи потребуется какое-то время.

В рамках своего проекта «Super Human Speech Recognition» IBM надеется к 2010 году разработать коммерческие системы, преобразующие речь в печатный текст точнее, чем человек [20].

Задача распознавания речи остается актуальной на сегодняшний день проблемой. В данной работе для ее решения применяется рандомизированный алгоритм стохастической аппроксимации [3], получивший в англоязычной литературе название Simultaneous Perturbation Stochastic Approximation (SPSA) [27]. Представление этого алгоритма достаточно просто для понимания и реализации в виде электронного устройства. Алгоритм сходится при почти произвольных помехах, и на каждой итерации совершает относительно небольшое количество измерений [4].

В работе кратко описаны история развития систем распознавания, основные подходы к решению проблемы, а также освещены современные системы распознавания речи. Анализируются свойства алгоритма стохастической аппроксимации с возмущением на входе в применении к задаче распознавания отдельных слов речи. Также описана системная модель распознавания на основе данного алгоритма.


Цель и задачи дипломной работы


Целью дипломной работы является создание системной модели для решения задачи распознавания отдельных слов речи на основе нового рандомизированного алгоритма типа стохастической аппроксимации. Алгоритм основывается на использовании пробных возмущений и обладает такими полезными свойствами как состоятельность оценок при почти произвольных помехах и сохранение простоты и работоспособности при росте размерности пространства состояний, а также при увеличении количества классов, т. е. всех возможных типов входных элементов. Эти свойства являются существенными в задачах распознавания вообще, и в задаче распознавания речи, в частности.

История развития систем распознавания речи


Большинство систем распознавания речи (Automatic Speech Recognition - ASR) состоит из процесса анализа и обработки аналогового сигнала и процесса распознавания. При анализе аналогового сигнала из речи выделяются свойства, которые используются далее в процессе распознавания для того, чтобы определить, что было сказано. Рассмотрим краткую историю развития систем ASR в контексте этих двух процессов.

Самые первые попытки создания ASR систем осуществлялись в 1950-х годах. Была построена зависимая от диктора система, распознававшая цифры [16]. В качестве свойств сигнала использовались спектральные резонансы гласных в словах. В 1959 году был создан модуль, способный распознавать десять гласных вне зависимости от диктора [18].

В 60-х годах в Японии было построено несколько машин, которые распознавали гласные звуки, используя специальный спектральный анализатор [31]. Также было создано устройство, распознающее фонемы [24].

В 70-х гг в области распознавания речи было совершено два значительных открытия: использование метода динамического программирования (Dynamic Time Warping - DTW)[25], основанное на временном выравнивании речевых диалектов, и метод кодирования линейного предсказания (Linear Predictive Coding - LPC) [22], который успешно использовался в распознавании сигналов с низким битрейтом (количество битов информации, передаваемых в секунду). В AT&T Bell Laboratories были построены распознающие системы, обработка акустического сигнала в которых была основана на LPC анализе, а процесс распознавания на DTW [21].

В 80-х гг от подходов, основанных на применении шаблонов, исследования в области распознавания речи перешли к методам статистического моделирования. Использовались скрытые модели Маркова (Hidden Markov Models - HMM). Работы Бейкера [13] были одними из первых, в которых для решения задачи распознавания речи были применены HMM. В конце 80-х гг к проблеме распознавания был применен метод, основанный на искусственных нейронных сетях (Artificial Neural Network - ANN). В наши дни большинство ASR систем в процессе распознавания используют HMM.

С 90-х годов распознавание речи несколько усовершенствовалось. Словарь распознаваемых слов вырос до нескольких десятков тысяч. Использование быстрых алгоритмов декодирования позволило производить распознавание в реальном времени. В современных дикторозависимых системах, распознающих отдельные слова, количество которых достигает двадцати тысяч слов, ошибки составляют менее 0.1% [15]. И около 5% ошибок в независимых от диктора системах, которые распознают слитную речь из тысячи слов [11].

Распознавание речи в реальном времени с помощью современных методов требует больших вычислительных ресурсов, объем которых часто бывает ограничен. Невозможность широкого применения многих алгоритмов сегодня, например, в мобильных устройствах, заставляет исследователей искать более эффективные и оптимизированные методы. За счет своей простоты и небольшого количества операций на каждой итерации рассматриваемый в дипломной работе алгоритм может быть предложен как альтернатива существующим подходам для распознавания речи в реальном времени.

  1   2   3   4   5   6


База данных защищена авторским правом ©uverenniy.ru 2016
обратиться к администрации

    Главная страница