Разделение голосов в записях множества дикторов — Дипломная работа #9101430 — Программирование

Дипломная — Разделение голосов в записях множества дикторов — 1

Пролистайте материалы и убедитесь в качестве

Артикул: 9101430

Предмет: Программирование
Уникальность: 86% (Антиплагиат.ВУЗ)
Разместил(-а): 185 Рамиль в 2019 году
Количество страниц: 64
Формат файла: docx

2 499p.

Содержание
Литература
О работе

ВВЕДЕНИЕ 3
Глава 1. Теоретические основы разделения голосов 5
1.1. Сущность и факторы разделения голосов 5
1.2. Машинное обучение 7
1.3. Цифровая обработка сигналов 9
1.4. Методы для решения Cocktail Party Problem 11
Глава 2. Модели для создания разделения голосов в записях множества дикторов 14
2.1. Модель сети 14
2.2. Выход разрабатываемой сети 20
Глава 3. Реализация модели 23
3.1. Входные данные 23
3.2. Предобработка данных 24
3.3. Метрики 29
3.4. Реализация модели 31
Глава 4. Эффективность полученных результатов 34
4.1. Полученные результаты 34
4.2. Анализ полученных результатов 38
ЗАКЛЮЧЕНИЕ 40
СПИСОК ЛИТЕРАТУРЫ 42
ПРИЛОЖЕНИЕ 44

Как упоминалось выше, в работе одной из первых была упомянута задача разделения голосов. Автор приводил результаты своих экспериментов, направленных на получение представления о принципах работы той самой способности разделения голосов. Помимо этого, были выделены факторы, которые, как полагалось, влияют на эту способность, иными словами – возможные причины данной особенности. Приведен следующий список:
1) голоса приходят из различных направлений;
2) чтение по губам, жесты и тому подобное;
3) разные голоса, разные высоты, скорость, мужской голос, женский и так далее;
4) различающиеся акценты;
5) переходные вероятности (предметная область, динамика голоса, синтаксис, …).
Также отмечается, что достоверность выделенных факторов, может и не совпадать с действительностью.
Дальнейшие идеи о решении данной проблемы были изложены в работе [2]. Они основываются на предполагаемом механизме восприятия, то есть оценке источников звука из смеси. Например, отдельные звуки имеют тенденцию демонстрировать изменения амплитуды, являющейся общей для разных частот, которые она содержат. Таким образом, если зашумленная запись содержит энергию на нескольких частотах, которые начинаются или останавливаются в одно и то же время, эти частоты, вероятно, принадлежат одному и тому же звуку и интерпретируются мозгом как таковые.
Также в данной работе отмечается, что наши уши – своего рода локализаторы сигналов – являются еще одним источником информации: если целевой звук имеет другое пространственное расположение, его легче обнаружить и интерпретировать. Помимо этого, были высказаны предположения, что визуальные подсказки к речи (используемые при чтении по губам) также помогают улучшить разборчивость. И местоположение, и визуальные сигналы могут частично помочь, направляя внимание на соответствующую часть полученной слуховой информации.

1. E. Colin Cherry. Some experiments on the recognition of speech, with one and with two ears [Текст] / E. Colin Cherry // The Journal of the acoustical society of America 25, 5. – 1953. – С.975–979.
2. Josh H. McDermott. The cocktail party problem [Текст] / Josh H. McDermott // Current Biology,vol. 19, no. 22 – 2009. – С.1024-1027.
3. Elana Zion Golumbic. Visual input enhances selective speech envelope tracking in auditory cortex at a "cocktail party" [Текст] / Elana Zion Golumbic, Gregory B. Cogan, Charles E. Schroeder, and David Poeppel // The Journal of neuro science: the official journal of the Society for Neuroscience 334. – 2013. – С.1417– 1426.
4. Tom M. Mitchell. Machine Learning [Текст] / Tom M. Mitchell. – McGraw-Hill Science/Engineering/Math, 1997. – 432 с.
5. Столов Е.Л. Курс лекций по цифровой обработке сигналов [Текст] / КФУ, ИВМиИТ, КСАИТ. – 2018.
6. A. P. Varga. Hidden Markov model decomposition of speech and noise [Текст] / A. P. Varga, Roger K. Moore // Acoustics, Speech, and Signal Processing, 1990. ICASSP-90., 1990 International Conference. – 1990. – С.281-284.
7. John R. Hershey. Deep clustering: Discriminative embeddings for segmentation and separation [Текст] / John R. Hershey, Zhuo Chen, Jonathan Le Roux, Shinji Watanabe // 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2016. – C.31-35.
8. Ariel Ephrat. Looking to Listen at the Cocktail Party: A Speaker- Independent Audio-Visual Model for Speech Separation [Текст] / Ariel Ephrat, Inbar Mosseri, Oran Lang, Tali Dekel, Kevin Wilson, Avinatan Hassidim, William T. Freeman, Michael Rubinstein // SIGGRAPH. – 2018.
9. Christopher M. Bishop, Pattern Recognition and Machine Learning [Текст] / Christopher M. Bishop. – Springer Science+Business Media, LLC, 2006. – 758 с.
10. Yuhong Li. CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes [Текст] / Yuhong Li, Xiaofan Zhang, Deming Chen // University of Illinois at Urbana-Champaign Beijing University of Posts and Telecommunications. – 2018.
11. Sepp Hochreiter. Long Short-term Memory [Текст] / Sepp Hochreiter, Jürgen Schmidhuber. – Neural Computation 9(8):1735-80, 1997. – 32 с.
12. DeLiang Wang. Supervised Speech Separation Based on Deep Learning: An Overview [Текст] / DeLiang Wang, Jitong Chen // IEEE/ACM Transactions on Audio, Speech, and Language Processing. – 2018.
13. FFmpeg framework [Электронный ресурс]. –2019. – Режим доступа: https://ffmpeg.org/ (дата посещения: 26.04.2019).
14. Forrester Cole. Synthesizing Normalized Faces from Facial Identity Features [Текст] / Forrester Cole, David Belanger, Dilip Krishnan, Aaron Sarna, Inbar Mosseri, William T. Freeman // 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). – 2017. – C.3703-3712.
15. Emmanuel Vincent. Performance measurement in blind audio source separation [Текст] / Emmanuel Vincent, Rémi Gribonval, Cédric Févotte // IEEE Transactions on Audio, Speech, and Language Processing. – 2006. – C.1462-1469.
16. ITU-T Rec. P.862.2. Wideband extension to recommendation P.862 for the assessment of wideband telephone networks and speech codecs [Текст]. – Union, Geneva, Switzerland, ITU-T Rec. 2005. – 12 с.

Материалы, размещаемые в каталоге, с согласия автора, могут использоваться только в качестве дополнительного инструмента для решения имеющихся у вас задач, сбора информации и источников, содержащих стороннее мнение по вопросу, его оценку, но не являются готовым решением. Пользователь вправе по собственному усмотрению перерабатывать материалы, создавать производные произведения, соглашаться или не соглашаться с выводами, предложенными автором, с его позицией.

Тема:	Разделение голосов в записях множества дикторов
Артикул:	9101430
Дата написания:	15.07.2019

Тип работы:	Дипломная работа
Предмет:	Программирование
Оригинальность:	Антиплагиат.ВУЗ — 86%
Количество страниц:	64

Скрин проверки АП.ВУЗ приложен на последней странице.

В работе представлены только пояснительная записка и листинг программы. Самой программы нет

А ты умеешь выполнять такие работы?

Файлы артикула: Разделение голосов в записях множества дикторов по предмету программирование

Разделение голосов в записях множества дикторов.docx

808.3 КБ

Пролистайте "Разделение голосов в записях множества дикторов" и убедитесь в качестве

После покупки артикул автоматически будет удален с сайта до 24.06.2024

Дипломная — Разделение голосов в записях множества дикторов — 2

Дипломная — Разделение голосов в записях множества дикторов — 3

Дипломная — Разделение голосов в записях множества дикторов — 4

Дипломная — Разделение голосов в записях множества дикторов — 5

Дипломная — Разделение голосов в записях множества дикторов — 6

Посмотреть остальные страницы ▼

Честный антиплагиат!

Уникальность работы — 86% (оригинальный текст + цитирования, без учета списка литературы и приложений), приведена по системе Антиплагиат.ВУЗ на момент её написания и могла со временем снизиться. Мы понимаем, что это важно для вас, поэтому сразу после оплаты вы сможете бесплатно поднять её. При этом текст и форматирование в работе останутся прежними.

Гарантируем возврат денег!

Качество каждой готовой работы, представленной в каталоге, проверено и соответствует описанию. В случае обоснованных претензий мы гарантируем возврат денег в течение 24 часов.

Программная реализация учебного портала «Основы кибербезопасности» для учащихся 2-4 классов

Разностные методы решения параболического уравнения со слабой нелинейностью

Разделение голосов в записях множества дикторов #9101430

Файлы артикула: Разделение голосов в записях множества дикторов по предмету программирование

Пролистайте "Разделение голосов в записях множества дикторов" и убедитесь в качестве