ivdon3@bk.ru
Настоящая работа посвящена исследованию возможности определения сердечных заболеваний на основе 13 категориальных и численных признаков. Мы представляем подробный анализ набора данных, включающий разделение данных на обучающую и тестовую выборки, разбиение признаков на численные и категориальные, применение 4 различных алгоритмов классификации, проверка качества модели двумя техниками – отложенной выборки и кросс-валидацией. Для оценки качества модели обращаем внимание на значение метрики recall и на матрицу ошибок, построенные на тестовом наборе данных из отложенной выборки или на каждом тестовом фолде при использовании кросс-валидации. Результаты исследования имеют значение как для глубинного понимания связи определённых медицинских показателей с сердечными заболевания, так и для развития эффективных методов их прогнозирования при наличии отдельных симптомов.
Ключевые слова: сердечные заболевания, задача классификации, метрики качества, кросс-валидация, recall, машинное обучение, случайный лес
1.2.2 - Математическое моделирование, численные методы и комплексы программ , 3.1.20 - Кардиология