ГЛОССАРИЙ 3
ВВЕДЕНИЕ 5
1 ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ 10
1.1 Идентификация парафраз 10
1.2 Разметка семантических ролей 11
1.3 Понятие базы знаний. Базы знаний FrameNet и FrameBank 13
1.4 Векторное представление слов 15
2 Метод идентификации парафраз 19
2.1 Разработка моделей машинного обучения на основе нейронных сетей архитектуры CNN и BILSTM в нескольких модификациях 19
2.2 Интеграция базы знаний FrameBank 27
2.3 Корпуса 29
2.4 Маркировка семантических ролей при помощи IsaNLP SRL 31
2.5 Использованные инструменты 32
3 РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТОВ 34
3.1 Результат для корпуса ParaPhraser 34
3.2 Результат для корпуса Quora Question Pairs Russian 35
3.3 Анализ внедрения признаков на основе семантических ролей 36
ЗАКЛЮЧЕНИЕ 39
СПИСОК ЛИТЕРАТУРЫ 41
ПРИЛОЖЕНИЕ 45
Актуальность работы подтверждается наличием исследований последних лет в данном направлении на других языках, в частности английского. Однако для русского языка работы доказывающие эффективность интеграции баз знаний с информацией о семантических ролях, для решения задачи идентификации парафраз отсутствуют.
Данная работа решает проблемы лексического пробела и согласования основных составляющих для русскоязычных текстов в рамках задачи идентификации парафраз, путем внедрения информаци о семантических ролях слов.
Целью работы является разработка, обучение и последующая оценка качества моделей машинного обучения на основе нейронных сетей с интегрированной базой знаний FrameBank для задачи идентификации парафраз. Для решения поставленной цели необходимо решить следующие задачи:
● Провести предобработку текстовых корпусов
● Провести разметку ролей в корпусах и добавить информации о семантических ролях к соответствующим предложениям.
● Интегрировать базу знаний FrameBank в нейронную сеть;
● Оценить качество моделей нейронной сети с интегрированной базой знаний и без ее использования;
Объектом исследования является, разработка и оценка качества моделей машинного обучения на основе нейронных сетей с интегрированной базой знаний FrameBank, а предметом — модели машинного обучения.
Разработка моделей машинного обучения на основе нейронных сетей с интегрированными базами знаний. А также похожие готовые работы: страница 15 #9103763
Артикул: 9103763
- Предмет: Программная инженерия
- Уникальность: 72% (Антиплагиат.ВУЗ)
- Разместил(-а): 185 Рамиль в 2021 году
- Количество страниц: 46
- Формат файла: docx
- Последняя покупка: 16.05.2022
1 999p.
1. Barron-Cedeno, A., Vila, M., Marti, M.A., Rosso, P.: Plagiarism Meets Paraphrasing: Insights for the Next Generation in Automatic Plagiarism Detection. //Computational Linguistics. – 2013. – Т. 39. – №. 4. – С. 917-947.
2. Bernardi R. et al. Sentence paraphrase detection: When determiners and word order make the difference //Proceedings of the IWCS 2013 Workshop Towards a Formal Distributional Semantics. – 2013. – С. 21-29.
3. Zhang X., Sun X., Wang H. Duplicate question identification by integrating framenet with neural networks //Proceedings of the AAAI Conference on Artificial Intelligence. – 2018. – Т. 32. – №. 1.
4. Franco-Salvador M. et al. Uh-prhlt at semeval-2016 task 3: Combining lexical and semantic-based features for community question answering [Электронный ресурс] //arXiv preprint arXiv:1807.11584. – 2018. URL: https://arxiv.org/pdf/1807.11584.pdf (дата обращения: 14.05.2021).
5. Dos Santos C. et al. Learning hybrid representations to retrieve semantically equivalent questions //Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers). – 2015. – С. 694-699.
6. Lei T. et al. Semi-supervised question retrieval with recurrent convolutions
//Proceedings of the North American Chapter of the Association for Computational Linguistics (NAACL 2016). – 2016.
7. Sang E. F., De Meulder F. Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition //arXiv preprint cs/0306050. – 2003 URL: https://arxiv.org/pdf/cs/0306050.pdf (дата обращения: 14.05.2021).
8. Nivre J., Boguslavsky I., Iomdin L. Parsing the SynTagRus treebank of Russian //Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). – 2008. – С. 641-648.
9. Боярский К. К., Каневский Е. А. О влиянии семантики на точность определения парафраз в русскоязычных текстах //АНАЛИТИКА И УПРАВЛЕНИЕ ДАННЫМИ В ОБЛАСТЯХ С ИНТЕНСИВНЫМ ИСПОЛЬЗОВАНИЕМ ДАННЫХ. – 2017. – С. 311-318.
10. Pivovarova L. et al. ParaPhraser: Russian paraphrase corpus and shared task
//Conference on Artificial Intelligence and Natural Language. – Springer, Cham, 2017. – С. 211-225.
11. Pronoza E., Yagunova E. Low-level features for paraphrase identification
//Mexican International Conference on Artificial Intelligence. – Springer, Cham, 2015. – С. 59-71.
12. Yin W., Schütze H. Convolutional neural network for paraphrase identification //Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. – 2015. – С. 901-911.
13. Кузнецов И. О. Автоматическая разметка семантических ролей в русском языке //Текст: непосредственный. – 2016.
14. Gildea D., Jurafsky D. Automatic labeling of semantic roles //Computational linguistics. – 2002. – Т. 28. – №. 3. – С. 245-288.
15. Fillmore C. J. Lexical entries for verbs //Foundations of language. – 1968. – С. 373-393.
16. Baker C. F., Fillmore C. J., Lowe J. B. The berkeley framenet project //36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics, Volume 1. – 1998. – С. 86-90.
17. Schuler K. K. VerbNet: A broad-coverage, comprehensive verb lexicon. – University of Pennsylvania, 2005.
18. Palmer M., Gildea D., Kingsbury P. The proposition bank: An annotated corpus of semantic roles //Computational linguistics. – 2005. – Т. 31. – №. 1.- С. 71-106.
19. Russian FrameBank. Offline version [Электронный ресурс] // URL: https://github.com/olesar/framebank (дата обращения: 16.05.21)
20. Lyashevskaya O., Kashkin E. FrameBank: a database of Russian lexical constructions //International Conference on Analysis of Images, Social Networks and Texts. – Springer, Cham, 2015. – С. 350-360.
21. Национальный корпус русского языка [Электронный ресурс] // URL: https://ruscorpora.ru/new/ (дата обращения: 24.05.2021).
22. One-hot [Электронный ресурс]// Википедия. Свободная энциклопедия.
– URL: https://en.wikipedia.org/wiki/One-hot (дата обращения: 25.05.2021).
23. Bag-of-words model [Электронный ресурс]// Википедия. Свободная энциклопедия. – URL: https://en.wikipedia.org/wiki/Bag-of-words_model (дата обращения: 25.05.2021).
24. Joulin A. et al. Fasttext. zip: Compressing text classification models [Электронный ресурс] //arXiv preprint arXiv:1612.03651. – 2016. URL: https://arxiv.org/pdf/1612.03651 (дата обращения: 14.05.2021).
25. Mikolov T. et al. Advances in pre-training distributed word representations [Электронный ресурс] //arXiv preprint arXiv:1712.09405. – 2017. URL: https://arxiv.org/pdf/1712.09405 (дата обращения: 14.05.2021).
26. Kenter T., Borisov A., De Rijke M. Siamese cbow: Optimizing word embeddings for sentence representations [Электронный ресурс]//arXiv preprint arXiv:1606.04640. – 2016. URL: https://arxiv.org/pdf/1606.04640 (дата обращения: 14.05.2021).
27. Guthrie D. et al. A closer look at skip-gram modelling //LREC. – 2006. – Т.6. – С. 1222-1225.
28. ParaPhraser [Электронный ресурс]// URL: http://paraphraser.ru/about/ (дата обращения: 04.05.2021).
29. Quora question pairs russian [Электронный ресурс]// URL: https://www.kaggle.com/loopdigga/quora-question-pairs-russian/tasks (дата обращения: 04.05.2021).
30. Parikh A. P. et al. A decomposable attention model for natural language inference [Электронный ресурс] //arXiv preprint arXiv:1606.01933. – 2016. URL: https://arxiv.org/pdf/1606.01933.pdf (дата обращения: 14.05.2021).
31. Zhang X. et al. Attentive interactive neural networks for answer selection in community question answering //Proceedings of the AAAI Conference on Artificial Intelligence. – 2017. – Т. 31. – №. 1.
32. Shelmanov A., Devyatkin D. Semantic role labeling with neural networks for texts in Russian [Электронный ресурс] //Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference" Dialogue. – 2017. – Т. 1. – С. 245-256. URL: http://www.dialog-21.ru/ (дата обращения: 16.05.21).
33. Larionov D. et al. Semantic role labeling with pretrained language models for known and unknown predicates //Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2019). – 2019. – С. 619-628.
34. PyTorch фреймворк машинного обучения для языка Python [Электронный ресурс] // URL: https://pytorch.org/docs/stable/index.html (дата обращения: 8.05.21)
35. IsaNLP SRL FrameBank [Электронный ресурс] // URL: https://github.com/IINemo/isanlp_srl_framebank (дата обращения: 8.05.21) 36.NumPy библиотека Python [Электронный ресурс] // URL: https://numpy.org/ (дата обращения: 8.05.21)
37.Scikit-learn пакет Python для машинного обучения [Электронный ресурс] // URL: https://scikit-learn.org/stable/ (дата обращения: 8.05.21)
2. Bernardi R. et al. Sentence paraphrase detection: When determiners and word order make the difference //Proceedings of the IWCS 2013 Workshop Towards a Formal Distributional Semantics. – 2013. – С. 21-29.
3. Zhang X., Sun X., Wang H. Duplicate question identification by integrating framenet with neural networks //Proceedings of the AAAI Conference on Artificial Intelligence. – 2018. – Т. 32. – №. 1.
4. Franco-Salvador M. et al. Uh-prhlt at semeval-2016 task 3: Combining lexical and semantic-based features for community question answering [Электронный ресурс] //arXiv preprint arXiv:1807.11584. – 2018. URL: https://arxiv.org/pdf/1807.11584.pdf (дата обращения: 14.05.2021).
5. Dos Santos C. et al. Learning hybrid representations to retrieve semantically equivalent questions //Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers). – 2015. – С. 694-699.
6. Lei T. et al. Semi-supervised question retrieval with recurrent convolutions
//Proceedings of the North American Chapter of the Association for Computational Linguistics (NAACL 2016). – 2016.
7. Sang E. F., De Meulder F. Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition //arXiv preprint cs/0306050. – 2003 URL: https://arxiv.org/pdf/cs/0306050.pdf (дата обращения: 14.05.2021).
8. Nivre J., Boguslavsky I., Iomdin L. Parsing the SynTagRus treebank of Russian //Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). – 2008. – С. 641-648.
9. Боярский К. К., Каневский Е. А. О влиянии семантики на точность определения парафраз в русскоязычных текстах //АНАЛИТИКА И УПРАВЛЕНИЕ ДАННЫМИ В ОБЛАСТЯХ С ИНТЕНСИВНЫМ ИСПОЛЬЗОВАНИЕМ ДАННЫХ. – 2017. – С. 311-318.
10. Pivovarova L. et al. ParaPhraser: Russian paraphrase corpus and shared task
//Conference on Artificial Intelligence and Natural Language. – Springer, Cham, 2017. – С. 211-225.
11. Pronoza E., Yagunova E. Low-level features for paraphrase identification
//Mexican International Conference on Artificial Intelligence. – Springer, Cham, 2015. – С. 59-71.
12. Yin W., Schütze H. Convolutional neural network for paraphrase identification //Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. – 2015. – С. 901-911.
13. Кузнецов И. О. Автоматическая разметка семантических ролей в русском языке //Текст: непосредственный. – 2016.
14. Gildea D., Jurafsky D. Automatic labeling of semantic roles //Computational linguistics. – 2002. – Т. 28. – №. 3. – С. 245-288.
15. Fillmore C. J. Lexical entries for verbs //Foundations of language. – 1968. – С. 373-393.
16. Baker C. F., Fillmore C. J., Lowe J. B. The berkeley framenet project //36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics, Volume 1. – 1998. – С. 86-90.
17. Schuler K. K. VerbNet: A broad-coverage, comprehensive verb lexicon. – University of Pennsylvania, 2005.
18. Palmer M., Gildea D., Kingsbury P. The proposition bank: An annotated corpus of semantic roles //Computational linguistics. – 2005. – Т. 31. – №. 1.- С. 71-106.
19. Russian FrameBank. Offline version [Электронный ресурс] // URL: https://github.com/olesar/framebank (дата обращения: 16.05.21)
20. Lyashevskaya O., Kashkin E. FrameBank: a database of Russian lexical constructions //International Conference on Analysis of Images, Social Networks and Texts. – Springer, Cham, 2015. – С. 350-360.
21. Национальный корпус русского языка [Электронный ресурс] // URL: https://ruscorpora.ru/new/ (дата обращения: 24.05.2021).
22. One-hot [Электронный ресурс]// Википедия. Свободная энциклопедия.
– URL: https://en.wikipedia.org/wiki/One-hot (дата обращения: 25.05.2021).
23. Bag-of-words model [Электронный ресурс]// Википедия. Свободная энциклопедия. – URL: https://en.wikipedia.org/wiki/Bag-of-words_model (дата обращения: 25.05.2021).
24. Joulin A. et al. Fasttext. zip: Compressing text classification models [Электронный ресурс] //arXiv preprint arXiv:1612.03651. – 2016. URL: https://arxiv.org/pdf/1612.03651 (дата обращения: 14.05.2021).
25. Mikolov T. et al. Advances in pre-training distributed word representations [Электронный ресурс] //arXiv preprint arXiv:1712.09405. – 2017. URL: https://arxiv.org/pdf/1712.09405 (дата обращения: 14.05.2021).
26. Kenter T., Borisov A., De Rijke M. Siamese cbow: Optimizing word embeddings for sentence representations [Электронный ресурс]//arXiv preprint arXiv:1606.04640. – 2016. URL: https://arxiv.org/pdf/1606.04640 (дата обращения: 14.05.2021).
27. Guthrie D. et al. A closer look at skip-gram modelling //LREC. – 2006. – Т.6. – С. 1222-1225.
28. ParaPhraser [Электронный ресурс]// URL: http://paraphraser.ru/about/ (дата обращения: 04.05.2021).
29. Quora question pairs russian [Электронный ресурс]// URL: https://www.kaggle.com/loopdigga/quora-question-pairs-russian/tasks (дата обращения: 04.05.2021).
30. Parikh A. P. et al. A decomposable attention model for natural language inference [Электронный ресурс] //arXiv preprint arXiv:1606.01933. – 2016. URL: https://arxiv.org/pdf/1606.01933.pdf (дата обращения: 14.05.2021).
31. Zhang X. et al. Attentive interactive neural networks for answer selection in community question answering //Proceedings of the AAAI Conference on Artificial Intelligence. – 2017. – Т. 31. – №. 1.
32. Shelmanov A., Devyatkin D. Semantic role labeling with neural networks for texts in Russian [Электронный ресурс] //Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference" Dialogue. – 2017. – Т. 1. – С. 245-256. URL: http://www.dialog-21.ru/ (дата обращения: 16.05.21).
33. Larionov D. et al. Semantic role labeling with pretrained language models for known and unknown predicates //Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2019). – 2019. – С. 619-628.
34. PyTorch фреймворк машинного обучения для языка Python [Электронный ресурс] // URL: https://pytorch.org/docs/stable/index.html (дата обращения: 8.05.21)
35. IsaNLP SRL FrameBank [Электронный ресурс] // URL: https://github.com/IINemo/isanlp_srl_framebank (дата обращения: 8.05.21) 36.NumPy библиотека Python [Электронный ресурс] // URL: https://numpy.org/ (дата обращения: 8.05.21)
37.Scikit-learn пакет Python для машинного обучения [Электронный ресурс] // URL: https://scikit-learn.org/stable/ (дата обращения: 8.05.21)
Материалы, размещаемые в каталоге, с согласия автора, могут использоваться только в качестве дополнительного инструмента для решения имеющихся у вас задач,
сбора информации и источников, содержащих стороннее мнение по вопросу, его оценку, но не являются готовым решением.
Пользователь вправе по собственному усмотрению перерабатывать материалы, создавать производные произведения,
соглашаться или не соглашаться с выводами, предложенными автором, с его позицией.
Тема: | Разработка моделей машинного обучения на основе нейронных сетей с интегрированными базами знаний |
Артикул: | 9103763 |
Дата написания: | 27.04.2021 |
Тип работы: | Дипломная работа |
Предмет: | Программная инженерия |
Оригинальность: | Антиплагиат.ВУЗ — 72% |
Количество страниц: | 46 |
Скрин проверки АП.ВУЗ приложен на последней странице.
В работе представлены только пояснительная записка и листинг программы. Самой программы нет
В работе представлены только пояснительная записка и листинг программы. Самой программы нет
Файлы артикула: Разработка моделей машинного обучения на основе нейронных сетей с интегрированными базами знаний. А также похожие готовые работы: страница 15 по предмету программная инженерия
Код работы.zip
676.39 КБ
Пролистайте "Разработка моделей машинного обучения на основе нейронных сетей с интегрированными базами знаний. А также похожие готовые работы: страница 15" и убедитесь в качестве
После покупки артикул автоматически будет удален с сайта до 27.01.2025
Посмотреть остальные страницы ▼
Честный антиплагиат!
Уникальность работы — 72% (оригинальный текст + цитирования, без учета списка литературы и приложений), приведена по системе Антиплагиат.ВУЗ на момент её написания и могла со временем снизиться. Мы понимаем, что это важно для вас, поэтому сразу после оплаты вы сможете бесплатно поднять её. При этом текст и форматирование в работе останутся прежними.
Гарантируем возврат денег!
Качество каждой готовой работы, представленной в каталоге, проверено и соответствует описанию. В случае обоснованных претензий мы гарантируем возврат денег в течение 24 часов.
Утром сдавать, а работа еще не написана?
Через 30 секунд после оплаты вы скачаете эту работу!
Сегодня уже купили 59 работ. Успей и ты забрать свою пока это не сделал кто-то другой!
ПРЕДЫДУЩАЯ РАБОТА
Разработка модели поиска ассоциативных правил для анализа потребительской корзины
СЛЕДУЮЩАЯ РАБОТА
Разработка информационно-аналитической платформы распределения обучающихся по элективам