Поиск персональных данных в неструктурированных текстах с использованием нейронных сетей
Аннотация
Дата поступления статьи: 17.05.2023В данной статье описывается создание гибридной системы для задачи распознавания различных видов персональных данных в неструктурированных текстах. В основу системы легла нейронная сеть архитектуры ELMo-BiLSTM-CRF и регулярные выражения. Для обучения и валидации нейронной сети был использован специализированный русскоязычный набор данных для задачи распознавания именованных сущностей, созданный на основе наборов Nerus и WiNER. Полученная гибридная модель позволит снизить издержки организаций на хранение и обработку текстовых данных, а также сохранить конфиденциальность пользователей в случае утечек.
Ключевые слова: персональные данные, обработка естественного языка, распознавание именованных сущностей, условное случайное поле, нейронная сеть, рекуррентная нейронная сеть, регулярное выражение
1.2.2 - Математическое моделирование, численные методы и комплексы программ
.