ВВЕДЕНИE 3
1. ОСНОВНЫЕ ПОНЯТИЯ 6
1.1. Схема речи 6
1.2. Распознавание 7
1.3. HMM 8
1.4. Модели, характеризующие структуру речи 9
2. ИНСТРУМЕНТЫ ДЛЯ РАЗРАБОТКИ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ РАСПОЗНАВАНИЯ РЕЧИ 11
2.1. HTK 11
2.2. CMU Sphinx 11
2.3. Kaldi 12
2.4. Simon 12
2.5. Julius 12
2.6. Используемые алгоритмы 13
2.7. Сравнительный анализ 14
2.8. Вывод 15
3. СИСТЕМА CMU SPHINX 17
3.1. FrontEnd 18
3.2. Linguist 18
3.3. Decoder 20
4. ИНТЕГРИРОВАНИЕ И НАСТРОЙКА РАБОТЫ CMU SPHINX 21
4.1. Виртуальная биотехнологическая лаборатория 21
4.2. Ресурсы и плагины CMU Sphinx 21
4.3. Написание C# скриптов для использования .dll файлов CMU Sphinx 25
4.4. Интеграция C# скриптов в Unity проект 29
ЗАКЛЮЧЕНИЕ 32
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 33
ПРИЛОЖЕНИЕ 35
Как правило, аудиодорожка сочетает несколько факторов из двух вышеперечисленных списков.
Бесспорно можно утверждать, что данные факторы влияют на речевое восприятие человеком, следовательно, те же самые факторы могут проявлять отрицательное влияние на распознавание речи автоматизированной системой. На шум может оказывать большое влияние устройство звукозаписи, где использование разных микрофонов может приводить к кардинально разным результатам, ведь те могут обладать разными характеристиками и целями, так же отрицательное влияние оказывает отсутствие специального сопровождающего для микрофона оборудования: заглушающих решёток,
фильтров, – потому что кроме речи в запись идет звук дыхания.
Как уже было сказано ранее, шум оказывает негативный эффект на распознавание речи, вследствие чего для достижения наилучшего качества распознавания необходимо привести уровень шума к минимуму. Стоит упомянуть, что формат аудиозаписи имеет не последнюю роль в определении качества аудиозаписи в целом.
Для обучения и тестирования систем распознавания используют идеальные аудиодорожки, обычно на таких дорожках абсолютно отсутствуют посторонние звуки, а спикер обладает дикторской речью. Конечно же возникает вопрос, как сильно изменится качество распознавания при использовании менее качественных записей.
Предметом исследования в данной дипломной работе являются системы распознавания речи, а так же их эффективность после внедрения в виртуальную биотехнологическую лабораторию. Будут использоваться данные максимально соответствующей действительности при работе с VR- очками, а именно – низкое качество звукозаписывающего устройства, наличие речи не имеющей отношения к словарю распознавания, наличие посторонних звуков.
Целью исследования является внедрение системы распознавания речи в сцену виртуальной реальности на основе анализа проведенного в данной работе, что позволит интерпретировать голосовые команды пользователя в действия программной среды.
Основными задачами в данной работе являются:
1. Сравнить возможные инструменты распознавания;
2. Разработать модуль внедрения инструмента в движок Unity;
3. Исключить механические действия усложняющие взаимодействие с виртуальной лабораторией;
4. Сделать возможными действия нереализуемые при помощи механических устройств;
5. Улучшить общий эффект восприятия взаимодействия с виртуальной средой.
Голосовой интерфейс для интерпретирования команд в виртуальной реальности №9101848
Артикул: 9101848
- Тип работы: Дипломная работа
- Предмет: Информационные системы и технологии
- Уникальность: 84% (Антиплагиат.ВУЗ)
- Разместил(-а): 185 Рамиль в 2018 году
- Количество страниц: 45
- Формат файла: docx
- Последняя покупка: 11.05.2022
1 399p.
2 000p.
Только 24.01.2025
1. Context-dependent phonetic hidden Markov models for speaker- independent continuous speech recognition [Текст] / K. F. Lee. - IEEE, 1990. - 599-609c.
2. Context-Dependent Pre-Trained Deep Neural Networks for Large- Vocabulary Speech Recognition [Текст] / George E. Dahl, Dong Yu, Li Deng, Alex Acero. - IEEE, 2011. - 36c.
3. Синтез акустической речи [Электронный ресурс]. – Режим доступа: http://musslap.zcu.cz/en/acoustic-speech-synthesis/
4. Spoken language recognition based on senone posteriors [Текст] / Luciana Ferrer, Yun Lei, Mitchell McLaren, Nicolas Scheffer. - INTERSPEECH, 2014. - 291c.
5. Word recognition using whole word and subword models [Текст] / C.
H. Lee, B. H. Juang, F. K. Soong, L. R. Rabiner. - IEEE, 1989. - 683- 684c.
6. The 1996 Hub-4 Sphinx-3 System [Текст] / Placeway, Chen, Eskenazi, Jain, Parikh, Raj, Ravishankar, Rosenfeld, Seymore, Siegler, Stern, Thayer. - Carnegie Mellon University Pittsburgh, Pennsylvania, 1996. - 1c.
7. A Statistical Model-Based Voice Activity Detection [Текст] / Sohn, Kim, Sung. - IEEE, 1999. - 1с.
8. Recurrent neural networks for voice activity detection [Текст] / T. Hughes, K. Mierle. - Google Inc, 2013. - 7378-7392с.
9. From Frequency to Quefrency: A History of the Cepstrum [Текст] / Alan V. Oppenheim, Ronald W. Schafer. - IEEE, 2004. - 95c.
10. Speech Feature Extraction Techniques: A Review [Текст] / Shreya Narang, Ms. Divya Gupta. - A Monthly Journal of Computer Science and Information Technology, 2015. - 106-114c.
11. Robust Feature Extraction Based on Teager-Entropy and Half Power Spectrum Estimation for Speech Recognition [Текст] / Jing Dong, Dongsheng Zhou, Qiang Zhang. - Key Laboratory of Advanced Design and Intelligent Computing, 2015. - 91-93с.
12. A tutorial on hidden Markov models and selected applications in speech recognition [Текст] / L. R. Rabiner. - IEEE, 1989. - 257-258c.
13. Базовые концепции разговорной речи [Электронный ресурс]. – Режим доступа: http://cmusphinx.sourceforge.net/wiki/tutorialconcepts
14. Документация BLAS [Электронный ресурс]. – Режим доступа: http://www.netlib.org/blas/
15. Документация LAPACK [Электронный ресурс]. – Режим доступа: http://www.netlib.org/lapack/
16. Гусев М.Н. Система распознавания речи: основные модели и алгоритмы [Текст] / М.Н. Гусев, В.М. Дегтярев. - СПб.: Знак, 2013. - 128 с.
17. Документация CMUSphinx [Электронный ресурс]. – Режим доступа: https://cmusphinx.github.io/wiki/
18. Sphinx-4: A Flexible Open Source Framework for Speech Recognition [Текст] / Walker, Lamere, Kwok, Raj, Singh, Gouvea, Wolf, Woelfel. – Sun Microsystems, 2004. - 2c, 7c.
19. Виртуальные лаборатории как средство обучения биомедицинским технологиям [Текст] / Абрамов В.Д., Кугуракова В.В., Ризванов А.А., Абрамский М.М., Манахов Н.Р., Евстафьев М.Е. - Казанский (Приволжский) федеральный университет, 2016. - 129-148c.
20. Virtual Biotechnological Lab Development [Текст] / Abramov V, Kugurakova V, Rizvanov A. - Springer US, 2017. - 363-365с.
2. Context-Dependent Pre-Trained Deep Neural Networks for Large- Vocabulary Speech Recognition [Текст] / George E. Dahl, Dong Yu, Li Deng, Alex Acero. - IEEE, 2011. - 36c.
3. Синтез акустической речи [Электронный ресурс]. – Режим доступа: http://musslap.zcu.cz/en/acoustic-speech-synthesis/
4. Spoken language recognition based on senone posteriors [Текст] / Luciana Ferrer, Yun Lei, Mitchell McLaren, Nicolas Scheffer. - INTERSPEECH, 2014. - 291c.
5. Word recognition using whole word and subword models [Текст] / C.
H. Lee, B. H. Juang, F. K. Soong, L. R. Rabiner. - IEEE, 1989. - 683- 684c.
6. The 1996 Hub-4 Sphinx-3 System [Текст] / Placeway, Chen, Eskenazi, Jain, Parikh, Raj, Ravishankar, Rosenfeld, Seymore, Siegler, Stern, Thayer. - Carnegie Mellon University Pittsburgh, Pennsylvania, 1996. - 1c.
7. A Statistical Model-Based Voice Activity Detection [Текст] / Sohn, Kim, Sung. - IEEE, 1999. - 1с.
8. Recurrent neural networks for voice activity detection [Текст] / T. Hughes, K. Mierle. - Google Inc, 2013. - 7378-7392с.
9. From Frequency to Quefrency: A History of the Cepstrum [Текст] / Alan V. Oppenheim, Ronald W. Schafer. - IEEE, 2004. - 95c.
10. Speech Feature Extraction Techniques: A Review [Текст] / Shreya Narang, Ms. Divya Gupta. - A Monthly Journal of Computer Science and Information Technology, 2015. - 106-114c.
11. Robust Feature Extraction Based on Teager-Entropy and Half Power Spectrum Estimation for Speech Recognition [Текст] / Jing Dong, Dongsheng Zhou, Qiang Zhang. - Key Laboratory of Advanced Design and Intelligent Computing, 2015. - 91-93с.
12. A tutorial on hidden Markov models and selected applications in speech recognition [Текст] / L. R. Rabiner. - IEEE, 1989. - 257-258c.
13. Базовые концепции разговорной речи [Электронный ресурс]. – Режим доступа: http://cmusphinx.sourceforge.net/wiki/tutorialconcepts
14. Документация BLAS [Электронный ресурс]. – Режим доступа: http://www.netlib.org/blas/
15. Документация LAPACK [Электронный ресурс]. – Режим доступа: http://www.netlib.org/lapack/
16. Гусев М.Н. Система распознавания речи: основные модели и алгоритмы [Текст] / М.Н. Гусев, В.М. Дегтярев. - СПб.: Знак, 2013. - 128 с.
17. Документация CMUSphinx [Электронный ресурс]. – Режим доступа: https://cmusphinx.github.io/wiki/
18. Sphinx-4: A Flexible Open Source Framework for Speech Recognition [Текст] / Walker, Lamere, Kwok, Raj, Singh, Gouvea, Wolf, Woelfel. – Sun Microsystems, 2004. - 2c, 7c.
19. Виртуальные лаборатории как средство обучения биомедицинским технологиям [Текст] / Абрамов В.Д., Кугуракова В.В., Ризванов А.А., Абрамский М.М., Манахов Н.Р., Евстафьев М.Е. - Казанский (Приволжский) федеральный университет, 2016. - 129-148c.
20. Virtual Biotechnological Lab Development [Текст] / Abramov V, Kugurakova V, Rizvanov A. - Springer US, 2017. - 363-365с.
Материалы, размещаемые в каталоге, с согласия автора, могут использоваться только в качестве дополнительного инструмента для решения имеющихся у вас задач,
сбора информации и источников, содержащих стороннее мнение по вопросу, его оценку, но не являются готовым решением.
Пользователь вправе по собственному усмотрению перерабатывать материалы, создавать производные произведения,
соглашаться или не соглашаться с выводами, предложенными автором, с его позицией.
Тема: | Голосовой интерфейс для интерпретирования команд в виртуальной реальности |
Артикул: | 9101848 |
Дата написания: | 13.12.2018 |
Тип работы: | Дипломная работа |
Предмет: | Информационные системы и технологии |
Оригинальность: | Антиплагиат.ВУЗ — 84% |
Количество страниц: | 45 |
Скрин проверки АП.ВУЗ приложен на последней странице.
В работе представлены только пояснительная записка и листинг программы. Самой программы нет
В работе представлены только пояснительная записка и листинг программы. Самой программы нет
Голосовой интерфейс для интерпретирования команд в виртуальной реальности, Дипломная работа по предмету Информационные системы и технологии - список файлов, которые будут доступны после покупки:
Пролистайте готовую работу "Голосовой интерфейс для интерпретирования команд в виртуальной реальности" и убедитесь в ее качестве перед тем как купить:
После покупки артикул автоматически будет удален с сайта до 25.03.2025
Посмотреть остальные страницы ▼
Честный антиплагиат!
Уникальность дипломной работы — 84% (оригинальный текст + цитирования, без учета списка литературы и приложений), приведена по системе Антиплагиат.ВУЗ на момент её написания и могла со временем снизиться. Мы понимаем, что это важно для вас, поэтому сразу после оплаты вы сможете бесплатно поднять её. При этом текст и форматирование в работе останутся прежними.
Гарантируем возврат денег!
Качество готовой работы "Голосовой интерфейс для интерпретирования команд в виртуальной реальности", проверено и соответствует описанию. В случае обоснованных претензий мы гарантируем возврат денег в течение 24 часов.
Утром сдавать, а работа еще не написана?
Через 30 секунд после оплаты вы скачаете эту работу!
Сегодня уже купили 41 работу. Успей и ты забрать свою пока это не сделал кто-то другой!
ПРЕДЫДУЩАЯ РАБОТА
Автоматизация процесса внедрения зависимостей при разработке android-приложений
СЛЕДУЮЩАЯ РАБОТА
Разработка системы контроля затрат и источников в разрезе клинико-статистических групп для медицинского учреждения