ВВЕДЕНИЕ 3
1. Метаобучение 5
1.1. Метод модельно-агностического метаобучения 5
1.2. Метод «Рептилия» 10
1.3. Метод мета-ученика 11
1.4. Другие методы метаобучения 13
2. Обучение с подкреплением 15
2.1. Марковский процесс принятия решений 15
2.2. Метод REINFORCE 16
2.3. Усовершенствования метода REINFORCE 20
2.4. Метод актера-критика с преимуществами 21
2.5. Метод проксимальной оптимизации политики 25
3. Описание метода 33
3.1. Архитектура Transformer 35
3.2. Сеть адаптации 37
4. Реализация метода метаобучения с подкреплением 40
4.1. Средства разработки 40
4.2. Искусственные среды 40
4.3. Архитектура модели политики 43
5. Эксперименты 45
5.1. Описание процесса обучения нейронных сетей 45
5.2. Результаты на среде двухмерной навигации 46
5.3. Результаты на среде управления гепардом 53
5.4. Результаты на среде управления муравьем 56
ЗАКЛЮЧЕНИЕ 60
СПИСОК ЛИТЕРАТУРЫ 64
ПРИЛОЖЕНИЕ 67
Суть данной техники заключается в том, чтобы обучить модель для некоторой задачи, а затем использовать полученные параметры модели для дообучения другим похожим задачам. Ключевое отличие здесь от мето- дов метаобучения заключается в том, что при использовании такой техники совершенно игнорируется сам процесс обучения как объект для оптимиза- ции. Также, если техника «переноса обучения» способна помочь с меньши- ми трудозатратами получить хорошие результаты во многих «типовых» за- дачах компьютерного зрения или в задачах обработки естественного языка, то такая техника слабо применима к области обучения с подкреплением. В первую очередь, это связано с тем, что в случае обучения с подкреплением данные, которые будут использоваться для обучения, прямым или косвенным
образом получаются в результате работы алгоритма, то есть алгоритм влияет на обучающую выборку данных. По этой причине, если пытаться применить подход «переноса обучения» даже для очень похожих задач обучения с под- креплением, то стратегия, выработанная для решения одной задачи, может оказать сильное отрицательное влияние на получение данных, которые бы помогли для обучению новой задачи. Наряду с этим в сфере обучения с под- креплением особенно остро стоит проблема медленного обучения – как пра- вило, даже для решения достаточно простых задач необходимо совершить миллионы взаимодействий алгоритма со средой. Таким образом, разработка и применение методов метаобучения к задачам обучения с подкреплением может принести полезный вклад для всей области обучения с подкреплени- ем.
В данной работе пойдет речь о разработке и реализации нового метода метаобучения с подкреплением. Полученный метод отдаленно основывает- ся на широко известном методе метаобучения – методе модельно-агностиче- ского метаобучения (англ. Model-Agnostic Meta-Learning или сокращенно – MAML) [1]. Разработанный метод показывает превосходящие результаты по сравнению с MAML и при этом остается в рамках первого порядка.
Целью работы является разработка и реализация нового метода метао- бучения с подкреплением.
В рамках работы были поставлены и выполнены следующие задачи:
– изучение существующих методов метаобучения и обучения с под- креплением,
– разработка и реализация в виде программы нового метода метаобу- чения с подкреплением,
– обучение модели (представлена в виде нейронной сети) на задачах обучения с подкреплением,
– валидация гиперпараметров метода,
– анализ полученных результатов.
Разработка и реализация метода метаобучения с подкреплением #9105446
Артикул: 9105446
- Предмет: Программирование
- Уникальность: 68% (Антиплагиат.ВУЗ)
- Разместил(-а): 185 Рамиль в 2022 году
- Количество страниц: 78
- Формат файла: docx
1 999p.
1) Finn, Chelsea. Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks [Текст] / Chelsea Finn, Pieter Abbeel, Sergey Levine // Proceedings of the 34th International Conference on Machine Learning / Под ред. Doina Precup, Yee Whye Teh. – Т. 70 из Proceedings of Machine Learning Research. – International Convention Centre, Sydney, Australia : PMLR, 2017. – 06–11 Aug. – С. 1126–1135. – Режим доступа: http://proceedings.mlr.press/v70/fi nn17a.html (дата обращения: 2022-03-04).
2) Kingma, Diederik P. Adam: A Method for Stochastic Optimization [Текст] / Diederik P. Kingma, Jimmy Ba // 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings / – Под ред. Yoshua Bengio, Yann LeCun, 2015. – Режим доступа: http://arxiv.org/abs/1412.6980 (дата обращения: 2022-03-24).
3) Nichol, Alex. On First-Order Meta-Learning Algorithms [Текст] / Alex Nichol, Joshua Achiam, John Schulman // CoRR. – 2018. – Режим досту- па: http://arxiv.org/abs/1803.02999 (дата обращения: 2022-03-11).
4) Ravi, Sachin. Optimization as a Model for Few-Shot Learning [Текст] / Sachin Ravi, Hugo Larochelle // – [5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings] : OpenReview.net, 2017. – Режим доступа: https://openreview.net
/forum?id=rJY0-Kcll (дата обращения: 2022-03-14).
5) Hochreiter, Sepp. Long Short-Term Memory [Текст] / Sepp Hochreiter, Jürgen Schmidhuber // Neural Comput. – 1997. – Нояб. – Т. 9, № 8. – С. 1735– 1780. – Режим доступа: https://doi.org/10.1162/neco.1997.9.8.1735 (дата обращения: 2022-03-27).
6) Meta-Learning with Memory-Augmented Neural Networks [Текст] / Adam Santoro, Sergey Bartunov, Matthew Botvinick [и др.] // Proceedings of The 33rd International Conference on Machine Learning / Под ред.Maria Florina Balcan, Kilian Q. Weinberger. – Т. 48 из Proceedings of Machine Learning Research. – New York, New York, USA : PMLR, 2016. – 20–22 Jun. – С. 1842–1850. – Режим доступа: http://proceedings.mlr.press/v48/santoro16.ht ml (дата обращения: 2022-03-21).
7) Graves, Alex. Neural Turing Machines [Текст] / Alex Graves, Greg Wayne, Ivo Danihelka // CoRR. – 2014. – Т. abs/1410.5401. – Режим доступа: http:
//arxiv.org/abs/1410.5401 (дата обращения: 2022-03-16).
8) Metalearned Neural Memory [Текст] / Tsendsuren Munkhdalai, Alessandro Sordoni, Tong Wang, Adam Trischler // Advances in Neural Information Processing Systems / Под ред. H. Wallach, H. Larochelle,
A. Beygelzimer [и др.]. – – [Т. 32] : Curran Associates, Inc., 2019. – Ре- жим доступа: https://proceedings.neurips.cc/paper/2019/file/182bd81ea25270b 7d1c2fe8353d17fe6-Paper.pdf (дата обращения: 2022-03-21).
9) Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling [Текст] / Junyoung Chung, Çaglar Gülçehre, KyungHyun Cho, Yoshua Bengio // CoRR. – 2014. – Т. abs/1412.3555. – Режим доступа: http://arxiv.org/abs/1412.3555 (дата обращения: 2022-03-27).
10) Williams, Ronald J. Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning [Текст] / Ronald J. Williams // Mach. Learn. – 1992. – Май. – Т. 8, № 3–4. – С. 229–256. – Режим доступа: https://doi.org/10.1007/BF00992696 (дата обращения: 2022-04-10).
11) Trust Region Policy Optimization [Текст] / John Schulman, Sergey Levine, Pieter Abbeel [и др.] // Proceedings of the 32nd International Conference on Machine Learning / Под ред. Francis Bach, David Blei. – Т. 37 из Proceedings of Machine Learning Research. – Lille, France : PMLR, 2015. – 07–09 Jul. – С. 1889–1897. – Режим доступа: http://proceedings.mlr.press/v37/schulman15
.html (дата обращения: 2022-04-15).
12) Proximal Policy Optimization Algorithms [Текст] / John Schulman, Filip Wolski, Prafulla Dhariwal [и др.] // CoRR. – 2017. – Режим доступа:
http://arxiv.org/abs/1707.06347 (дата обращения: 2022-04-25).
13) High-Dimensional Continuous Control Using Generalized Advantage Estimation [Текст] / John Schulman, Philipp Moritz, Sergey Levine [и др.] // 4th International Conference on Learning Representations, ICLR 2016, San Juan, Puerto Rico, May 2-4, 2016, Conference Track Proceedings / – Под ред. Yoshua Bengio, Yann LeCun, 2016. – Режим доступа: http://arxiv.org/abs/1506
.02438 (дата обращения: 2022-04-15).
14) Attention is All you Need [Текст] / Ashish Vaswani, Noam Shazeer, Niki Parmar [и др.] // Advances in Neural Information Processing Systems / Под ред. I. Guyon, U. Von Luxburg, S. Bengio [и др.]. – – [Т. 30] : Curran Associates, Inc., 2017. – Режим доступа: https://proceedings.neurips.cc/paper/2017/file/3f5 ee243547dee91fbd053c1c4a845aa-Paper.pdf (дата обращения: 2022-04-18).
15) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [Текст] / Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova // CoRR. – 2018. – Т. abs/1810.04805. – arXiv : 1810.04805.
16) Brockman, Greg. OpenAI Gym [Текст]. – 2016. – arXiv:1606.01540.
17) Nair, Vinod. Rectified Linear Units Improve Restricted Boltzmann Machines [Текст] / Vinod Nair, Geoffrey E. Hinton // Proceedings of the 27th International Conference on International Conference on Machine Learning. – ICML’10. – Madison, WI, USA : Omnipress, 2010. – С. 807–814.
18) Benchmarking Deep Reinforcement Learning for Continuous Control [Текст] / Yan Duan, Xi Chen, Rein Houthooft [и др.] // Proceedings of The 33rd International Conference on Machine Learning / Под ред. Maria Florina Balcan, Kilian Q. Weinberger. – Т. 48 из Proceedings of Machine Learning Research. – New York, New York, USA : PMLR, 2016. – 20–22 Jun. – С. 1329–1338. – Ре- жим доступа: https://proceedings.mlr.press/v48/duan16.html (дата обращения: 2022-04-16).
2) Kingma, Diederik P. Adam: A Method for Stochastic Optimization [Текст] / Diederik P. Kingma, Jimmy Ba // 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings / – Под ред. Yoshua Bengio, Yann LeCun, 2015. – Режим доступа: http://arxiv.org/abs/1412.6980 (дата обращения: 2022-03-24).
3) Nichol, Alex. On First-Order Meta-Learning Algorithms [Текст] / Alex Nichol, Joshua Achiam, John Schulman // CoRR. – 2018. – Режим досту- па: http://arxiv.org/abs/1803.02999 (дата обращения: 2022-03-11).
4) Ravi, Sachin. Optimization as a Model for Few-Shot Learning [Текст] / Sachin Ravi, Hugo Larochelle // – [5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings] : OpenReview.net, 2017. – Режим доступа: https://openreview.net
/forum?id=rJY0-Kcll (дата обращения: 2022-03-14).
5) Hochreiter, Sepp. Long Short-Term Memory [Текст] / Sepp Hochreiter, Jürgen Schmidhuber // Neural Comput. – 1997. – Нояб. – Т. 9, № 8. – С. 1735– 1780. – Режим доступа: https://doi.org/10.1162/neco.1997.9.8.1735 (дата обращения: 2022-03-27).
6) Meta-Learning with Memory-Augmented Neural Networks [Текст] / Adam Santoro, Sergey Bartunov, Matthew Botvinick [и др.] // Proceedings of The 33rd International Conference on Machine Learning / Под ред.Maria Florina Balcan, Kilian Q. Weinberger. – Т. 48 из Proceedings of Machine Learning Research. – New York, New York, USA : PMLR, 2016. – 20–22 Jun. – С. 1842–1850. – Режим доступа: http://proceedings.mlr.press/v48/santoro16.ht ml (дата обращения: 2022-03-21).
7) Graves, Alex. Neural Turing Machines [Текст] / Alex Graves, Greg Wayne, Ivo Danihelka // CoRR. – 2014. – Т. abs/1410.5401. – Режим доступа: http:
//arxiv.org/abs/1410.5401 (дата обращения: 2022-03-16).
8) Metalearned Neural Memory [Текст] / Tsendsuren Munkhdalai, Alessandro Sordoni, Tong Wang, Adam Trischler // Advances in Neural Information Processing Systems / Под ред. H. Wallach, H. Larochelle,
A. Beygelzimer [и др.]. – – [Т. 32] : Curran Associates, Inc., 2019. – Ре- жим доступа: https://proceedings.neurips.cc/paper/2019/file/182bd81ea25270b 7d1c2fe8353d17fe6-Paper.pdf (дата обращения: 2022-03-21).
9) Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling [Текст] / Junyoung Chung, Çaglar Gülçehre, KyungHyun Cho, Yoshua Bengio // CoRR. – 2014. – Т. abs/1412.3555. – Режим доступа: http://arxiv.org/abs/1412.3555 (дата обращения: 2022-03-27).
10) Williams, Ronald J. Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning [Текст] / Ronald J. Williams // Mach. Learn. – 1992. – Май. – Т. 8, № 3–4. – С. 229–256. – Режим доступа: https://doi.org/10.1007/BF00992696 (дата обращения: 2022-04-10).
11) Trust Region Policy Optimization [Текст] / John Schulman, Sergey Levine, Pieter Abbeel [и др.] // Proceedings of the 32nd International Conference on Machine Learning / Под ред. Francis Bach, David Blei. – Т. 37 из Proceedings of Machine Learning Research. – Lille, France : PMLR, 2015. – 07–09 Jul. – С. 1889–1897. – Режим доступа: http://proceedings.mlr.press/v37/schulman15
.html (дата обращения: 2022-04-15).
12) Proximal Policy Optimization Algorithms [Текст] / John Schulman, Filip Wolski, Prafulla Dhariwal [и др.] // CoRR. – 2017. – Режим доступа:
http://arxiv.org/abs/1707.06347 (дата обращения: 2022-04-25).
13) High-Dimensional Continuous Control Using Generalized Advantage Estimation [Текст] / John Schulman, Philipp Moritz, Sergey Levine [и др.] // 4th International Conference on Learning Representations, ICLR 2016, San Juan, Puerto Rico, May 2-4, 2016, Conference Track Proceedings / – Под ред. Yoshua Bengio, Yann LeCun, 2016. – Режим доступа: http://arxiv.org/abs/1506
.02438 (дата обращения: 2022-04-15).
14) Attention is All you Need [Текст] / Ashish Vaswani, Noam Shazeer, Niki Parmar [и др.] // Advances in Neural Information Processing Systems / Под ред. I. Guyon, U. Von Luxburg, S. Bengio [и др.]. – – [Т. 30] : Curran Associates, Inc., 2017. – Режим доступа: https://proceedings.neurips.cc/paper/2017/file/3f5 ee243547dee91fbd053c1c4a845aa-Paper.pdf (дата обращения: 2022-04-18).
15) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [Текст] / Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova // CoRR. – 2018. – Т. abs/1810.04805. – arXiv : 1810.04805.
16) Brockman, Greg. OpenAI Gym [Текст]. – 2016. – arXiv:1606.01540.
17) Nair, Vinod. Rectified Linear Units Improve Restricted Boltzmann Machines [Текст] / Vinod Nair, Geoffrey E. Hinton // Proceedings of the 27th International Conference on International Conference on Machine Learning. – ICML’10. – Madison, WI, USA : Omnipress, 2010. – С. 807–814.
18) Benchmarking Deep Reinforcement Learning for Continuous Control [Текст] / Yan Duan, Xi Chen, Rein Houthooft [и др.] // Proceedings of The 33rd International Conference on Machine Learning / Под ред. Maria Florina Balcan, Kilian Q. Weinberger. – Т. 48 из Proceedings of Machine Learning Research. – New York, New York, USA : PMLR, 2016. – 20–22 Jun. – С. 1329–1338. – Ре- жим доступа: https://proceedings.mlr.press/v48/duan16.html (дата обращения: 2022-04-16).
Материалы, размещаемые в каталоге, с согласия автора, могут использоваться только в качестве дополнительного инструмента для решения имеющихся у вас задач,
сбора информации и источников, содержащих стороннее мнение по вопросу, его оценку, но не являются готовым решением.
Пользователь вправе по собственному усмотрению перерабатывать материалы, создавать производные произведения,
соглашаться или не соглашаться с выводами, предложенными автором, с его позицией.
Тема: | Разработка и реализация метода метаобучения с подкреплением |
Артикул: | 9105446 |
Дата написания: | 19.05.2022 |
Тип работы: | Дипломная работа |
Предмет: | Программирование |
Оригинальность: | Антиплагиат.ВУЗ — 68% |
Количество страниц: | 78 |
Скрин проверки АП.ВУЗ приложен на последней странице.
В работе представлены только пояснительная записка и листинг программы. Самой программы нет
В работе представлены только пояснительная записка и листинг программы. Самой программы нет
Файлы артикула: Разработка и реализация метода метаобучения с подкреплением по предмету программирование
Пролистайте "Разработка и реализация метода метаобучения с подкреплением" и убедитесь в качестве
После покупки артикул автоматически будет удален с сайта до 04.01.2025
Посмотреть остальные страницы ▼
Честный антиплагиат!
Уникальность работы — 68% (оригинальный текст + цитирования, без учета списка литературы и приложений), приведена по системе Антиплагиат.ВУЗ на момент её написания и могла со временем снизиться. Мы понимаем, что это важно для вас, поэтому сразу после оплаты вы сможете бесплатно поднять её. При этом текст и форматирование в работе останутся прежними.
Гарантируем возврат денег!
Качество каждой готовой работы, представленной в каталоге, проверено и соответствует описанию. В случае обоснованных претензий мы гарантируем возврат денег в течение 24 часов.
Утром сдавать, а работа еще не написана?
Через 30 секунд после оплаты вы скачаете эту работу!
Сегодня уже купили 28 работ. Успей и ты забрать свою пока это не сделал кто-то другой!
ПРЕДЫДУЩАЯ РАБОТА
Разработка клиент-серверного приложения Генератор заданий для ЕГЭ по информатике
СЛЕДУЮЩАЯ РАБОТА
Чат-бот в Telegram для бухгалтерского учета