ОГЛАВЛЕНИЕ 2
ГЛОССАРИЙ 3
ВВЕДЕНИЕ 5
ГЛАВА 1. ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ 8
1.1. Алгоритмы подсчёта уникальных элементов в потоковых данных 8
1.2. Apache Druid 8
1.3. Yandex ClickHouse 9
1.4. Фильтры Блума 9
ГЛАВА 2. РЕАЛИЗАЦИЯ 11
2.1. Требования к реализации 11
2.2. Используемые технологии 11
2.3. Архитектура и подробности реализации 14
2.3.1. Модуль service 14
2.3.2. Модуль model 18
2.3.3. Модуль controller 19
2.3.4. Модули config и util 20
2.3.5. База данных 23
ГЛАВА 3. ОБУЧЕНИЕ МОДЕЛИ АЛГОРИТМОМ МАШИННОГО ОБУЧЕНИЯ 24
3.1. Поиск наилучшего алгоритма машинного обучения на экспериментальных данных 24
3.2. Подготовка данных, подходящих для обучения 27
3.3. Результаты обучения модели 27
ЗАКЛЮЧЕНИЕ 30
СПИСОК ЛИТЕРАТУРЫ 31
ПРИЛОЖЕНИЕ 32
Основной целью работы является разработка приложения, способного регистрировать уникальные события из потоковых данных и раскладывать их по временным периодам. Побочной целью выделено выяснение вопроса, можно ли обучить алгоритм машинного обучения или нейросеть таким образом, чтобы по структуре заполненного фильтра Блума можно было с высокой точностью узнать количество хранящихся в нём уникальных элементов.
Для достижения цели были поставлены следующие задачи:
● изучить и проанализировать существующие аналоги, инструменты, работающие с потоковыми данными и вероятностными структурами;
● реализовать программный код, позволяющий собирать, записывать и анализировать поступающие данные на уникальность;
● изучить и протестировать на пригодность применения к данной задаче алгоритмов машинного обучения;
● сформировать выборку для обучения алгоритма машинного обучения или нейронной сети;
● оценить получившиеся результаты и сделать вывод.
Объектом исследования является процесс разработки программного средства для регистрации значимых бизнес-метрик в потоковых данных на основе их уникальности и программное средство, позволяющее с помощью алгоритмов машинного обучения приблизительно определять количество уникальных элементов в множестве по вероятностной структуре фильтра Блума.
Предметом исследования является система, позволяющая регистрировать значимые бизнес-метрики из потоковых данных на основе их уникальности и возможность обучения модели машинного обучения предсказанию количества уникальных объектов, находящихся в фильтре Блума.
' .
Разработка инструмента для регистрации значимых бизнес-метрик в потоковых данных #9103768
Артикул: 9103768
- Предмет: Программная инженерия
- Уникальность: 73% (Антиплагиат.ВУЗ)
- Разместил(-а): 185 Рамиль в 2021 году
- Количество страниц: 33
- Формат файла: docx
1 999p.
1. Cisco Annual Internet Report [Электронный ресурс] // Режим доступа:
https://www.cisco.com/c/en/us/solutions/executive-perspectives/annual-internet-re
port/index.html, свободный (дата обращения 10.06.2021).
2. Speedtest Global Index [Электронный ресурс] // Режим доступа:
https://www.speedtest.net/global-index, свободный (дата обращения 10.06.2021).
3. Marianne Durand, Philippe Flajolet LogLog Counting Of Large Cardinalities [Электронный ресурс] // Режим доступа:
http://algo.inria.fr/flajolet/Publications/DuFl03.pdf, свободный (дата обращения 11.06.2021).
4. Philippe Flajolet, Éric Fusy, Olivier Gandouet, FrédéricMeunier HyperLogLog: the analysis of a near-optimal cardinalityestimation algorithm [Электронный ресурс] // Режим доступа:
http://algo.inria.fr/flajolet/Publications/FlFuGaMe07.pdf, свободный (дата обращения 11.06.2021).
5. Bloom, Burton H. Space/time trade-offs in hash coding with allowable errors // Communications of the ACM Т. 13 (7): 422–426.
6. Philippe Flajolet, G. Nigel Martin Probalistic counting algoryhms for data base applications [Электронный ресурс] // Режим доступа:
https://hal.inria.fr/inria-00076244/file/RR-0313.pdf, свободный (дата обращения 12.06.2021).
7. Aggregations in Apache Druid [Электронный ресурс] // Режим доступа:
https://druid.apache.org/docs/latest/querying/aggregations.html, свободный (дата обращения 10.06.2021).
8. Агрегатные функции в Yandex ClickHouse [Электронный ресурс] // Режим доступа: https://cloud.yandex.ru/docs/ydb/yql/reference/builtins/aggregation, свободный (дата обращения 10.06.2021).
https://www.cisco.com/c/en/us/solutions/executive-perspectives/annual-internet-re
port/index.html, свободный (дата обращения 10.06.2021).
2. Speedtest Global Index [Электронный ресурс] // Режим доступа:
https://www.speedtest.net/global-index, свободный (дата обращения 10.06.2021).
3. Marianne Durand, Philippe Flajolet LogLog Counting Of Large Cardinalities [Электронный ресурс] // Режим доступа:
http://algo.inria.fr/flajolet/Publications/DuFl03.pdf, свободный (дата обращения 11.06.2021).
4. Philippe Flajolet, Éric Fusy, Olivier Gandouet, FrédéricMeunier HyperLogLog: the analysis of a near-optimal cardinalityestimation algorithm [Электронный ресурс] // Режим доступа:
http://algo.inria.fr/flajolet/Publications/FlFuGaMe07.pdf, свободный (дата обращения 11.06.2021).
5. Bloom, Burton H. Space/time trade-offs in hash coding with allowable errors // Communications of the ACM Т. 13 (7): 422–426.
6. Philippe Flajolet, G. Nigel Martin Probalistic counting algoryhms for data base applications [Электронный ресурс] // Режим доступа:
https://hal.inria.fr/inria-00076244/file/RR-0313.pdf, свободный (дата обращения 12.06.2021).
7. Aggregations in Apache Druid [Электронный ресурс] // Режим доступа:
https://druid.apache.org/docs/latest/querying/aggregations.html, свободный (дата обращения 10.06.2021).
8. Агрегатные функции в Yandex ClickHouse [Электронный ресурс] // Режим доступа: https://cloud.yandex.ru/docs/ydb/yql/reference/builtins/aggregation, свободный (дата обращения 10.06.2021).
Материалы, размещаемые в каталоге, с согласия автора, могут использоваться только в качестве дополнительного инструмента для решения имеющихся у вас задач,
сбора информации и источников, содержащих стороннее мнение по вопросу, его оценку, но не являются готовым решением.
Пользователь вправе по собственному усмотрению перерабатывать материалы, создавать производные произведения,
соглашаться или не соглашаться с выводами, предложенными автором, с его позицией.
Тема: | Разработка инструмента для регистрации значимых бизнес-метрик в потоковых данных |
Артикул: | 9103768 |
Дата написания: | 25.04.2021 |
Тип работы: | Дипломная работа |
Предмет: | Программная инженерия |
Оригинальность: | Антиплагиат.ВУЗ — 73% |
Количество страниц: | 33 |
Скрин проверки АП.ВУЗ приложен на последней странице.
Пролистайте "Разработка инструмента для регистрации значимых бизнес-метрик в потоковых данных" и убедитесь в качестве
После покупки артикул автоматически будет удален с сайта до 22.02.2025
Посмотреть остальные страницы ▼
Честный антиплагиат!
Уникальность работы — 73% (оригинальный текст + цитирования, без учета списка литературы и приложений), приведена по системе Антиплагиат.ВУЗ на момент её написания и могла со временем снизиться. Мы понимаем, что это важно для вас, поэтому сразу после оплаты вы сможете бесплатно поднять её. При этом текст и форматирование в работе останутся прежними.
Гарантируем возврат денег!
Качество каждой готовой работы, представленной в каталоге, проверено и соответствует описанию. В случае обоснованных претензий мы гарантируем возврат денег в течение 24 часов.
Утром сдавать, а работа еще не написана?
Через 30 секунд после оплаты вы скачаете эту работу!
Сегодня уже купили 12 работ. Успей и ты забрать свою пока это не сделал кто-то другой!
ПРЕДЫДУЩАЯ РАБОТА
Разработка тренажера для обучения инженеров по буровым растворам с использованием виртуальной реальности
СЛЕДУЮЩАЯ РАБОТА
Разработка системы информационного мониторинга контрагентов банка