Комплексный анализ русскоязычных текстов на основе нейросетевых моделей трансформерного типа
Аннотация
Дата поступления статьи: 18.02.2025Статья посвящена комплексному анализу русскоязычных текстов с использованием нейросетевых моделей, в основу которых положен двунаправленный кодировщик представлений трансформера (Bidirectional Encoder Representations from Transformers – BERT). В работе применяются специализированные модели для русского языка: RuBERT-tiny, RuBERT-tiny2 и RuBERT-base-cased. Предложенный метод охватывает морфологический, синтаксический и семантический уровни анализа, включая лемматизацию, определение частей речи, морфологических признаков, синтаксических отношений, семантических ролей и связей. Использование моделей семейства BERT позволяет достичь точности выше 98% для лемматизации, 97% для определения частей речи и морфологических признаков, 96% для синтаксического анализа и 94% для семантического анализа. Метод подходит для задач, требующих глубокого понимания текста, и может быть оптимизирован для работы с большими корпусами.
Ключевые слова: русскоязычные тексты, морфологический анализ, синтаксический анализ, семантический анализ, лемматизация, RuBERT, обработка естественного языка
1.2.2 - Математическое моделирование, численные методы и комплексы программ
.