Комплексный анализ русскоязычных текстов на основе нейросетевых моделей трансформерного типа

Шиян В.И.; Марков В.Н.

Шиян В.И., Марков В.Н.

Дата поступления статьи: 18.02.2025

Статья посвящена комплексному анализу русскоязычных текстов с использованием нейросетевых моделей, в основу которых положен двунаправленный кодировщик представлений трансформера (Bidirectional Encoder Representations from Transformers – BERT). В работе применяются специализированные модели для русского языка: RuBERT-tiny, RuBERT-tiny2 и RuBERT-base-cased. Предложенный метод охватывает морфологический, синтаксический и семантический уровни анализа, включая лемматизацию, определение частей речи, морфологических признаков, синтаксических отношений, семантических ролей и связей. Использование моделей семейства BERT позволяет достичь точности выше 98% для лемматизации, 97% для определения частей речи и морфологических признаков, 96% для синтаксического анализа и 94% для семантического анализа. Метод подходит для задач, требующих глубокого понимания текста, и может быть оптимизирован для работы с большими корпусами.

Ключевые слова: русскоязычные тексты, морфологический анализ, синтаксический анализ, семантический анализ, лемматизация, RuBERT, обработка естественного языка

1.2.2 - Математическое моделирование, численные методы и комплексы программ

2.3.1 - Системный анализ, управление и обработка информации