МЕТОДЫ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ КЛЮЧЕВЫХ СЛОВ В УЗКОСПЕЦИАЛИЗИРОВАННЫХ ТЕКСТАХ ДЛЯ ПОСТРОЕНИЯ СЛОВАРЕЙ
Д. Н. Пуртов, Е. С. Кубашева
Поволжский государственный технологический университет,
Российская Федерация, 424000, Йошкар-Ола, пл. Ленина, 3
E-mail: idmitry.purtov@gmail.com; KubashevaES@volgatech.net
АННОТАЦИЯ
В данной статье рассмотрены методы извлечения ключевых слов из узкоспециализированного текста, рассмотрены их достоинства и недостатки. На основе проведённых исследований был предложен метод извлечения ключевых слов из узкоспециализированного текста для построения словарей, в основе которого лежит нейросетевая модель статистического типа, отличающаяся от известных способом её формирования в процессе обучения через укрепление нейронных связей в ходе обучения. Таким образом, механизм работы модели реализует статистический подход с использованием компонентов машинного обучения. Особенностью предложенного метода является использование дополнительных связей между нейронами, которые создаются в ходе обучения.
КЛЮЧЕВЫЕ СЛОВА
ключевая информация; статистические методы; нейросетевая модель; узкоспециализированный текст; машинное обучение
ПОЛНЫЙ ТЕКСТ (pdf)
ФИНАНСИРОВАНИЕ
СПИСОК ЛИТЕРАТУРЫ
1. Dostal M. Automatic Keyphrase Extraction Based on NLP and Statistical Methods. Proceedings of the Dateso 2011: Annual International Workshop on Databases, Texts, Specifications and Objects. Pisek, Czech Republic, 2011. Pp. 140–145.
2. SciNER: Extracting Named Entities from Scientific Literature / Z. Hong, R. Tchoua, K. Chard et al. // Krzhizhanovskaya V. et al. (eds) Computational Science – ICCS 2020. ICCS 2020. Lecture Notes in Computer Science. 2020. Vol 12138. Springer, Cham. https://doi.org/10.1007/978-3-030-50417-5_23.
3. Жердева М.В., Артюшенко В.М. Стемминг и лемматизация в lucene. Net // Лесной вестник. 2016. № 3.С. 131-134.
4. Нагель О. В. Корпусная лингвистика и ее использование в компьютеризированном языковом обучении // Язык и культура. 2008. № 4. С. 53-59.
5. Оськина К.А. Оптимизация метода классификации текстов, основанного на tf-idf, за счет введения дополнительных коэффициентов // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2016. № 15. С. 175–187.
6. Кипяткова И. С., Карпов А. А. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи // Информационно-управляющие системы. 2010. № 4 (47). С. 2–8.
7. Колмогорова А. В., Калинин А. А., Маликова А. В. Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент-анализа русскоязычных текстов // Актуальные проблемы филологии и педагогической лингвистики. 2018. № 1. С. 139–148.
8. Носков Д. В. Классификация текстов при помощи алгоритмов машинного обучения // Вестник науки и образования. 2018. № 4. С. 39–41.
9. Пуртов Д. Н., Сидоркина И. Г. Проблема обучения нейронной сети при извлечении ключевой информации// Конгресс "Интеллектуальные системы и информационные технологии - 2019": Международный научно-технический конгресс. (Таганрог, 2-8 сентября2019 г.). в 8 ч. Ч. 2. Высокопроизводительные системы и нейрокомпьютеры. Таганрог: ЮФУ, 2019. С. 291–295.
10. Гуськов C. Ю., Лёвин В. В. Интервальные доверительные оценки для показателей качества бинарных классификаторов – ROC-кривых, AUC для случая малых выборок // Инженерный журнал: наука и инновации. 2015. № 3. С. 1–15.
Для цитирования: Пуртов Д. Н., Кубашева Е. С. Методы автоматического извлечения ключевых слов в узкоспециализированных текстах для построения словарей // Вестник Поволжского государственного технологического университета. Сер.: Радиотехнические и инфокоммуникационные системы. 2021. № 3 (51). С. 41-48. DOI: https://doi.org/10.25686/2306-2819.2021.3.41
Отдел научных программ, интеллектуальной собственности и НИРС
(8362) 68-60-13, аудитория 404 (I) – НИРС, гранты
(8362) 68-60-09, 68-60-62 аудитория 423(I) – ОИС, публикации