ВВЕДЕНИЕ 3
1. Анализ аналогов 4
1.1. Google translate 4
1.2. Стандартный функционал системы ios 5
1.3. Сравнение с разрабатываемым приложением 6
2. Набор данных 8
3. Распознавание текста 12
3.1. Tesseract и его составляющие 12
3.2. Rnn 13
3.3. Lstm 14
4. Обнаружение областей 17
5. Дообучение 21
6. Разбиение видеоряда 26
7. Пример работы 28
7.1. Изображение 28
7.2. Видеофайл 29
7.2.1. Пример №1 29
7.2.2. Пример №2 31
7.3. Дальнейшее преобразование текста 32
8. Добавление перевода 34
ЗАКЛЮЧЕНИЕ 36
СПИСОК ЛИТЕРАТУРЫ 41
ПРИЛОЖЕНИЕ 42
В настоящее время у каждого человека есть телефон или подобное мобильное устройство, открывающее ему неограниченные возможности. Возможность делать фотографии или записывать видео является одной из таких.
В сети существует большое количество инструментов, позволяющих распознавать текст на изображениях, но найти подобный инструмент для работы с видеоматериалом - было проблемой. Хоть зачастую распознавание текста именно с видео не является нужным, но всё же могут возникнуть некоторые ситуации, которые потребуют автоматической расшифровки текста на протяжении всего видеоряда.
Одним из примеров может быть расшифровка бегущий строки новостей. Обычно программа идёт минимум час, что могло бы потребовать большое количество отдельных фотографий или же большое количество времени для человека, чтобы расшифровать весь этот текст вручную.
Целью выпускной квалификационной работы является написание программы, позволяющей распознавать текст на изображениях и выводить информацию в отдельный файл.
Основные задачи включали в себя:
1) найти модель машинного обучения, способную выделять текст на изображениях;
2) найти набор данных, подходящий по критериям;
3) произвести предобработку набора данных, которая позволит
использовать изображения, содержащиеся в нём для обучения модели;
4) дообучить модель на обработанном наборе данных;
5) написать код, разбивающий заданное видео на отдельные фрагменты для последующей подачи в модель;
6) написать код, позволяющий выводить ответы модели в файл;
7) добавить перевод текста на другие языки.
Распознавание текста из видео с помощью алгоритмов машинного обучения #9106823
Артикул: 9106823
- Предмет: Программирование
- Уникальность: 77% (Антиплагиат.ВУЗ)
- Разместил(-а): 185 Рамиль в 2024 году
- Количество страниц: 61
- Формат файла: docx
2 500p.
1) Интернет-источник, Датасет: виды, применение, набор лучших [Электронный ресурс]. - 2024. - URL: https://cocodataset.org (дата обращения 30.03.2023).
2) Интернет-источник, COCO [Электронный ресурс]. - 2024. - URL: https://cocodataset.org (дата обращения 30.03.2023).
3) Интернет-источник, Tesseract OCR Software Tutorial [Электронный ресурс]. - 2024. - URL:
https://guides.nyu.edu/tesseract/home#:~:text=Welcome,or%20most%20other%20p opular%20formats. (дата обращения 22.04.2024).
4) Интернет-источник, Про fine-tuning моделей простыми словами [Электронный ресурс]. - 2024. - URL:
https://habr.com/ru/companies/raft/articles/785616/ (дата обращения 24.04.2024).
5) Интернет-источник, EAST Framework: Four Simple Ways to Apply Behavioural Insights [Электронный ресурс]. - 2024. - URL:
https://www.bi.team/publications/east-four-simple-ways-to-apply-behavioural- insights/ (дата обращения: 28.04.2024).
6) Интернет-источник, EAST: An Efficient and Accurate Scene Text Detector [Электронный ресурс]. - 2024. - URL: https://arxiv.org/pdf/1704.03155v2 (дата обращения: 23.05.2024).
2) Интернет-источник, COCO [Электронный ресурс]. - 2024. - URL: https://cocodataset.org (дата обращения 30.03.2023).
3) Интернет-источник, Tesseract OCR Software Tutorial [Электронный ресурс]. - 2024. - URL:
https://guides.nyu.edu/tesseract/home#:~:text=Welcome,or%20most%20other%20p opular%20formats. (дата обращения 22.04.2024).
4) Интернет-источник, Про fine-tuning моделей простыми словами [Электронный ресурс]. - 2024. - URL:
https://habr.com/ru/companies/raft/articles/785616/ (дата обращения 24.04.2024).
5) Интернет-источник, EAST Framework: Four Simple Ways to Apply Behavioural Insights [Электронный ресурс]. - 2024. - URL:
https://www.bi.team/publications/east-four-simple-ways-to-apply-behavioural- insights/ (дата обращения: 28.04.2024).
6) Интернет-источник, EAST: An Efficient and Accurate Scene Text Detector [Электронный ресурс]. - 2024. - URL: https://arxiv.org/pdf/1704.03155v2 (дата обращения: 23.05.2024).
Материалы, размещаемые в каталоге, с согласия автора, могут использоваться только в качестве дополнительного инструмента для решения имеющихся у вас задач,
сбора информации и источников, содержащих стороннее мнение по вопросу, его оценку, но не являются готовым решением.
Пользователь вправе по собственному усмотрению перерабатывать материалы, создавать производные произведения,
соглашаться или не соглашаться с выводами, предложенными автором, с его позицией.
Тема: | Распознавание текста из видео с помощью алгоритмов машинного обучения |
Артикул: | 9106823 |
Дата написания: | 29.06.2024 |
Тип работы: | Дипломная работа |
Предмет: | Программирование |
Оригинальность: | Антиплагиат.ВУЗ — 77% |
Количество страниц: | 61 |
Скрин проверки АП.ВУЗ приложен на последней странице.
В работе представлены только пояснительная записка и листинг программы. Самой программы нет
В работе представлены только пояснительная записка и листинг программы. Самой программы нет
Файлы артикула: Распознавание текста из видео с помощью алгоритмов машинного обучения по предмету программирование
Пролистайте "Распознавание текста из видео с помощью алгоритмов машинного обучения" и убедитесь в качестве
После покупки артикул автоматически будет удален с сайта до 22.01.2025
Посмотреть остальные страницы ▼
Честный антиплагиат!
Уникальность работы — 77% (оригинальный текст + цитирования, без учета списка литературы и приложений), приведена по системе Антиплагиат.ВУЗ на момент её написания и могла со временем снизиться. Мы понимаем, что это важно для вас, поэтому сразу после оплаты вы сможете бесплатно поднять её. При этом текст и форматирование в работе останутся прежними.
Гарантируем возврат денег!
Качество каждой готовой работы, представленной в каталоге, проверено и соответствует описанию. В случае обоснованных претензий мы гарантируем возврат денег в течение 24 часов.
Утром сдавать, а работа еще не написана?
Через 30 секунд после оплаты вы скачаете эту работу!
Сегодня уже купили 23 работы. Успей и ты забрать свою пока это не сделал кто-то другой!
ПРЕДЫДУЩАЯ РАБОТА
Чат-бот с искусственным интеллектом и имитацией реальной личности
СЛЕДУЮЩАЯ РАБОТА
Система управления проектами и задачами с элементами защиты информации