ТЕРМИНЫ, ОПРЕДЕЛЕНИЯ И СОКРАЩЕНИЯ 3
ВВЕДЕНИЕ 4
ГЛАВА 1. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТА 6
1.1. Общие понятие 6
1.2. Методы Интеллектуального Анализа Данных 7
1.3. Этапы интеллектуального анализа данных 13
1.4. Подходы к анализу близости текста 17
1.5. Анализ аналогов 21
1.6. Технологии и инструменты интеллектуального анализа текста 25
ГЛАВА 2. НАЗНАЧЕНИЕ И СПЕЦИФИКАФИЯ ТРЕБОВАНИЙ 33
2.1. Назначение 33
2.2. Требовании к системе 34
2.3. Ограничении системы 35
ГЛАВА 3. АРХИТЕКТУРА, СХЕМА И АЛГОРИТМЫ СИСТЕМЫ 36
3.1. Архитектура Системы 36
3.2. Схемы работы системы 38
ГЛАВА 4. РАЗРАБОТКА СИСТЕМЫ 41
4.1. Использованные технологии 41
4.2 Интерфейс системы 41
4.3. Модель Машинного Обучения 43
ГЛАВА 5. АНАЛИЗ РЕЗУЛЬТАТОВ 44
5.1. Этапы анализа результатов 44
5.2. Тест даты 44
5.3. Оценки эксперта и системы 44
5.4. Формула метода Пирсона и граф результата 46
5.5. Измерение результата 48
5.6. Результат сравнение использование метода Пирсона. 48
ГЛАВА 6. ЗАКЛЮЧЕНИЕ 50
СПИСОК ЛИТЕРАТУРЫ 51
ПРИЛОЖЕНИИ 56
Цель диссертационной работы:
Разработка системы сравнительного анализа текстов научных публикаций которая поможет распознать сходства между научными работами.
Актуальность работы:
Технологии интеллектуального анализа текста дают нам много возможностей для анализа гигантских текстовых баз данных, которые с каждым днем растут все больше и больше. В академической среде эта технология используется для многих причин, таких как плагиат и т. д. научных статей. Но есть научные исследования, которые проводятся без знания о существовании других исследований, связанных с темой исследования (без ссылки друг на друга). В результате, не выявленные результаты исследований, которые связанные с исследуемой сфере не используются в других работах, которые могли бы предоставить больше информации, не повторяя их. По этой причине существует потребность в системе, которая будет определять связь сходства, между статьями, которые исследуют похожей сфере не ссылаясь друг на друга.
Новизна работы:
Система сравнительного анализа текстов научных публикаций на сходства разрабатывается в первые.
Практическая значимость:
Система предоставит исследователям больше информации об области исследований путем анализа научных работ, которые связаны друг с другом, но не дают ссылки друг на друга.
Объект исследования:
Разработка системы сравнительного анализа текстов научных публикаций на сходства.
Предмет исследования:
Научные работы, которые связаны друг с другом, но не дают ссылки друг на друга.
Задачи:
1. Теоретический обзор интеллектуального анализ текстов.
2. Изучение и выбор средств разработки системы.
3. Разработка системы сравнительного анализа текстов.
4. Тестирование системы.
Разработка системы сравнительного анализа текстов научных публикаций в некоторых предметных областях #9101836
Артикул: 9101836
- Предмет: Информационные системы и технологии
- Уникальность: 82% (Антиплагиат.ВУЗ)
- Разместил(-а): 185 Рамиль в 2018 году
- Количество страниц: 67
- Формат файла: docx
999p.
[1] L. Bornmann, R. Mutz. Growth rates of modern science: A bibliometric analysis based on the number of publications and cited references // Journal of the Association for Information Science and Technology. 2015. V.66. № 11. - p. 2215-2222.
[2] S. Inzalkar, J. Sharma. A survey on text mining-techniques and application // International Journal of Research in Science & Engineering. 2015. V.24. -p.1- 14.
[3] U. Singh, S. Hasan. Survey paper on document classification and classifiers // Int. J. Comput. Sci. Trends Technol. 2015. V.3. №2. -p.83-87.
[4] A. Kao, S.R. Poteet. Natural language processing and text mining // Springer Science & Business Media. 2007.
[5] R. Kohavi, F. Provost. Glossary of terms // Machine Learning. 1998. V.30. -p. 271–274.
[6] S. Arthur. Some Studies in Machine Learning Using the Game of Checkers // IBM Journal of Research and Development. 1959. V.3. №3. -p. 210–229.
[7] J.H. Friedman. Data Mining and Statistics: What's the connection? // Computing Science and Statistics. 1998. V.29. №1. -p. 3–9.
[8] S.K. Mohamad, Z. Tasir. Educational data mining: A review // Procedia-Social and Behavioral Sciences. 2013. V.97. -p.320-324.
[9] A. Joshi, R. Kaur. A review: Comparative study of various clustering techniques in data mining // International Journal of Advanced Research in Computer Science and Software Engineering. 2013. V.3. № 3.
[10] K. Varun, C. Anupama. An Empirical Study of the Applications of Data Mining // Techniques in Higher Education. 2011.
[11] N.R. Mabroukeh, C.I. Ezeife. A taxonomy of sequential pattern mining algorithms // ACM Computing Surveys. 2010. V.43. -p.1–41.
[12] A.B.E.D. Ahmed, I.S. Elaraby. Data Mining: A prediction for Student's Performance Using Classification Method // World Journal of Computer Application and Technology. 2014. V.2. № 2. -p.43-47.
[13] J.D. Rennie, L. Shih, J. Teevan, D.R. Karger. Tackling the poor assumptions of naive bayes text classifiers // In Proceedings of the 20th international conference on machine learning (ICML-03). 2003. -p. 616-623.
[14] S.J. Russell, P. Norvig. Artificial intelligence: a modern approach (International Edition). 2002.
[15] W. Cherif, A. Madani, M. Kissi. Towards an efficient opinion measurement in Arabic comments // Procedia Computer Science. 2015. V.73. -p. 122-129.
[16] R.R. Larson. Introduction to information retrieval // Journal of the American Society for Information Science and Technology. 2010. V.61. № 4. -p.852- 853.
[17] T.K. Ho. The random subspace method for constructing decision forests // IEEE transactions on pattern analysis and machine intelligence. 1998. V.20.
№8. -p. 832-844.
[18] J. Friedman, T. Hastie, R. Tibshirani. Sparse inverse covariance estimation with the graphical lasso // Biostatistics. 2008. V.9. № 3. -p. 432-441.
[19] J. Leskovec, A. Rajaraman, J.D. Ullman. Mining of massive datasets // Cambridge university press. 2014.
[20] C. Breitinger, B. Gipp, S. Langer. Research-paper recommender systems: a literature survey // International Journal on Digital Libraries. 2015. V.17. № 4. -p. 305-338.
[23] W.H. Gomaa, A.A. Fahmy. A survey of text similarity approaches // International Journal of Computer Applications. 2013. V.68. № 13.
[24] E.S. Pramukantoro, M.A. Fauzi. Comparative analysis of string similarity and corpus-based similarity for automatic essay scoring system on e-learning gamification // In Advanced Computer Science and Information Systems (ICACSIS). 2016. -p. 149-155.
[22] D.S. Hunnisett, W.J. Teahan. Context-based methods for text categorization // In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. ACM Press, Sheffield, United Kingdom. 2004. -p. 578-579.
[21] H. Liu, H. Motoda. Feature Selection for Knowledge Discovery and Data Mining // Kluwer Academic Publisher. 1998.
[25] G. Oberreuter, J.D. VeláSquez. Text mining applied to plagiarism detection: The use of words for detecting deviations in the writing style // Expert Systems with Applications. 2013. V.40. № 9. -p.3756-3763.
[26] M. Szczuka, A. Janusz. Semantic clustering of scientific articles using explicit semantic analysis // In Transactions on Rough Sets XVI Springer. Berlin. Hiedelberg. 2013. -p. 83-102.
[27] Y. Shinyama. PDFMiner: Python PDF parser and analyzer. 2010. Режим доступа: http://www.unixuser.org/~euske/python/pdfminer/.
[28] K.S. Jones, P. Willet. Readings in Information Retrieval // Morgan Kaufmann, San Francisco. 1997.
[29] A. Shetty, R. Bajaj. Auto Text Summarization with Categorization and Sentiment Analysis // International Journal of Computer Applications. 2015. V.130. № 7. -p. 57-60.
[30] https://analyticsindiamag.com/top-10-programming-languages-data-scientists- learn-2018/
[31] S. Tippmann. Programming tools: Adventures with R // Nature. 2014. V.517.
-p. 109–110. Режим доступа: https://www.nature.com/news/programming- tools-adventures-with-r-1.16609 (дата обращения 22.05.2018).
[32] TIOBE Index for May 2018 // www.tiobe.com. Режим доступа: https://www.tiobe.com/tiobe-index/ (дата обращения 22.05.2018).
[33] D. Kuhlman. A python book: Beginning python, advanced python, and python exercises // Dave Kuhlman. 2009. -p. 1-227.
[34] M. Lutz. Learning Python: Powerful Object-Oriented Programming // O'Reilly Media, Inc. 2013.
[35] Python frameworks: full stack vs micro framework. Режим доступа: https://dzone.com/articles/python-frameworks-full-stack-vs-micro-framework (дата обращения 22.05.2018).
[36] Режим доступа: http://snowball.tartarus.org/algorithms/english/stemmer.html (дата обрашение 26.05.2018)
[37] Корпусы NLTK. Режим доступа: https://raw.githubusercontent.com/nltk/nltk_data/gh- pages/packages/corpora/stopwords.zip (дата обрашение 26.05.2018).
[38] Режим доступа: http://scikit- learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVecto rizer.html. (дата обрашение 26.05.2018)
[39] Режим доступа: https://www.kaggle.com/benhamner/nips-papers/data (дата обрашение. 26.05.2018)
[40] Pearson correlation coefficient statistical guide. Режим доступа: https://statistics.laerd.com/statistical-guides/pearson-correlation-coefficient- statistical-guide.php (дата обрашение. 17.06.2018)
[41] B. Li, L. Han. Distance weighted cosine similarity measure for text classification // In International Conference on Intelligent Data Engineering and Automated Learning. Springer, Berlin, Heidelberg. 2013. -p. 611-618.
[2] S. Inzalkar, J. Sharma. A survey on text mining-techniques and application // International Journal of Research in Science & Engineering. 2015. V.24. -p.1- 14.
[3] U. Singh, S. Hasan. Survey paper on document classification and classifiers // Int. J. Comput. Sci. Trends Technol. 2015. V.3. №2. -p.83-87.
[4] A. Kao, S.R. Poteet. Natural language processing and text mining // Springer Science & Business Media. 2007.
[5] R. Kohavi, F. Provost. Glossary of terms // Machine Learning. 1998. V.30. -p. 271–274.
[6] S. Arthur. Some Studies in Machine Learning Using the Game of Checkers // IBM Journal of Research and Development. 1959. V.3. №3. -p. 210–229.
[7] J.H. Friedman. Data Mining and Statistics: What's the connection? // Computing Science and Statistics. 1998. V.29. №1. -p. 3–9.
[8] S.K. Mohamad, Z. Tasir. Educational data mining: A review // Procedia-Social and Behavioral Sciences. 2013. V.97. -p.320-324.
[9] A. Joshi, R. Kaur. A review: Comparative study of various clustering techniques in data mining // International Journal of Advanced Research in Computer Science and Software Engineering. 2013. V.3. № 3.
[10] K. Varun, C. Anupama. An Empirical Study of the Applications of Data Mining // Techniques in Higher Education. 2011.
[11] N.R. Mabroukeh, C.I. Ezeife. A taxonomy of sequential pattern mining algorithms // ACM Computing Surveys. 2010. V.43. -p.1–41.
[12] A.B.E.D. Ahmed, I.S. Elaraby. Data Mining: A prediction for Student's Performance Using Classification Method // World Journal of Computer Application and Technology. 2014. V.2. № 2. -p.43-47.
[13] J.D. Rennie, L. Shih, J. Teevan, D.R. Karger. Tackling the poor assumptions of naive bayes text classifiers // In Proceedings of the 20th international conference on machine learning (ICML-03). 2003. -p. 616-623.
[14] S.J. Russell, P. Norvig. Artificial intelligence: a modern approach (International Edition). 2002.
[15] W. Cherif, A. Madani, M. Kissi. Towards an efficient opinion measurement in Arabic comments // Procedia Computer Science. 2015. V.73. -p. 122-129.
[16] R.R. Larson. Introduction to information retrieval // Journal of the American Society for Information Science and Technology. 2010. V.61. № 4. -p.852- 853.
[17] T.K. Ho. The random subspace method for constructing decision forests // IEEE transactions on pattern analysis and machine intelligence. 1998. V.20.
№8. -p. 832-844.
[18] J. Friedman, T. Hastie, R. Tibshirani. Sparse inverse covariance estimation with the graphical lasso // Biostatistics. 2008. V.9. № 3. -p. 432-441.
[19] J. Leskovec, A. Rajaraman, J.D. Ullman. Mining of massive datasets // Cambridge university press. 2014.
[20] C. Breitinger, B. Gipp, S. Langer. Research-paper recommender systems: a literature survey // International Journal on Digital Libraries. 2015. V.17. № 4. -p. 305-338.
[23] W.H. Gomaa, A.A. Fahmy. A survey of text similarity approaches // International Journal of Computer Applications. 2013. V.68. № 13.
[24] E.S. Pramukantoro, M.A. Fauzi. Comparative analysis of string similarity and corpus-based similarity for automatic essay scoring system on e-learning gamification // In Advanced Computer Science and Information Systems (ICACSIS). 2016. -p. 149-155.
[22] D.S. Hunnisett, W.J. Teahan. Context-based methods for text categorization // In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. ACM Press, Sheffield, United Kingdom. 2004. -p. 578-579.
[21] H. Liu, H. Motoda. Feature Selection for Knowledge Discovery and Data Mining // Kluwer Academic Publisher. 1998.
[25] G. Oberreuter, J.D. VeláSquez. Text mining applied to plagiarism detection: The use of words for detecting deviations in the writing style // Expert Systems with Applications. 2013. V.40. № 9. -p.3756-3763.
[26] M. Szczuka, A. Janusz. Semantic clustering of scientific articles using explicit semantic analysis // In Transactions on Rough Sets XVI Springer. Berlin. Hiedelberg. 2013. -p. 83-102.
[27] Y. Shinyama. PDFMiner: Python PDF parser and analyzer. 2010. Режим доступа: http://www.unixuser.org/~euske/python/pdfminer/.
[28] K.S. Jones, P. Willet. Readings in Information Retrieval // Morgan Kaufmann, San Francisco. 1997.
[29] A. Shetty, R. Bajaj. Auto Text Summarization with Categorization and Sentiment Analysis // International Journal of Computer Applications. 2015. V.130. № 7. -p. 57-60.
[30] https://analyticsindiamag.com/top-10-programming-languages-data-scientists- learn-2018/
[31] S. Tippmann. Programming tools: Adventures with R // Nature. 2014. V.517.
-p. 109–110. Режим доступа: https://www.nature.com/news/programming- tools-adventures-with-r-1.16609 (дата обращения 22.05.2018).
[32] TIOBE Index for May 2018 // www.tiobe.com. Режим доступа: https://www.tiobe.com/tiobe-index/ (дата обращения 22.05.2018).
[33] D. Kuhlman. A python book: Beginning python, advanced python, and python exercises // Dave Kuhlman. 2009. -p. 1-227.
[34] M. Lutz. Learning Python: Powerful Object-Oriented Programming // O'Reilly Media, Inc. 2013.
[35] Python frameworks: full stack vs micro framework. Режим доступа: https://dzone.com/articles/python-frameworks-full-stack-vs-micro-framework (дата обращения 22.05.2018).
[36] Режим доступа: http://snowball.tartarus.org/algorithms/english/stemmer.html (дата обрашение 26.05.2018)
[37] Корпусы NLTK. Режим доступа: https://raw.githubusercontent.com/nltk/nltk_data/gh- pages/packages/corpora/stopwords.zip (дата обрашение 26.05.2018).
[38] Режим доступа: http://scikit- learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVecto rizer.html. (дата обрашение 26.05.2018)
[39] Режим доступа: https://www.kaggle.com/benhamner/nips-papers/data (дата обрашение. 26.05.2018)
[40] Pearson correlation coefficient statistical guide. Режим доступа: https://statistics.laerd.com/statistical-guides/pearson-correlation-coefficient- statistical-guide.php (дата обрашение. 17.06.2018)
[41] B. Li, L. Han. Distance weighted cosine similarity measure for text classification // In International Conference on Intelligent Data Engineering and Automated Learning. Springer, Berlin, Heidelberg. 2013. -p. 611-618.
Материалы, размещаемые в каталоге, с согласия автора, могут использоваться только в качестве дополнительного инструмента для решения имеющихся у вас задач,
сбора информации и источников, содержащих стороннее мнение по вопросу, его оценку, но не являются готовым решением.
Пользователь вправе по собственному усмотрению перерабатывать материалы, создавать производные произведения,
соглашаться или не соглашаться с выводами, предложенными автором, с его позицией.
Тема: | Разработка системы сравнительного анализа текстов научных публикаций в некоторых предметных областях |
Артикул: | 9101836 |
Дата написания: | 19.12.2018 |
Тип работы: | Курсовая работа |
Предмет: | Информационные системы и технологии |
Оригинальность: | Антиплагиат.ВУЗ — 82% |
Количество страниц: | 67 |
Скрин проверки АП.ВУЗ приложен на последней странице.
В работе представлены только пояснительная записка и листинг программы. Самой программы нет
В работе представлены только пояснительная записка и листинг программы. Самой программы нет
Файлы артикула: Разработка системы сравнительного анализа текстов научных публикаций в некоторых предметных областях по предмету информационные системы и технологии
Пролистайте "Разработка системы сравнительного анализа текстов научных публикаций в некоторых предметных областях" и убедитесь в качестве
После покупки артикул автоматически будет удален с сайта до 17.01.2025
Посмотреть остальные страницы ▼
Честный антиплагиат!
Уникальность работы — 82% (оригинальный текст + цитирования, без учета списка литературы и приложений), приведена по системе Антиплагиат.ВУЗ на момент её написания и могла со временем снизиться. Мы понимаем, что это важно для вас, поэтому сразу после оплаты вы сможете бесплатно поднять её. При этом текст и форматирование в работе останутся прежними.
Гарантируем возврат денег!
Качество каждой готовой работы, представленной в каталоге, проверено и соответствует описанию. В случае обоснованных претензий мы гарантируем возврат денег в течение 24 часов.
Утром сдавать, а работа еще не написана?
Через 30 секунд после оплаты вы скачаете эту работу!
Сегодня уже купили 7 работ. Успей и ты забрать свою пока это не сделал кто-то другой!
ПРЕДЫДУЩАЯ РАБОТА
Разработка модуля создания и управления контентом для системы переподготовки специалистов в области web- разработки
СЛЕДУЮЩАЯ РАБОТА
Разработка системы проектирования процесса обучения на основе мониторинга психоэмоциональных состояний обучающихся