Сравнительный анализ современных методов генерации изображений: VAE, GAN и диффузионные модели
Аннотация
Дата поступления статьи: 24.02.2025Статья представляет собой анализ современных методов генерации изображений: вариационных автоэнкодеров (Variational Autoencoder - VAE), генеративных состязательных сетей (Generative Adversarial Networks - GAN) и диффузионных моделей. Основное внимание уделено сравнительному анализу их производительности, качеству генерации и вычислительным требованиям. Для оценки качества изображений используется метрика расстояние Фреше между распределениями признаков (Fréchet Inception Distance - FID). Диффузионные модели показали наилучшие результаты (FID 20.8), превосходя VAE (FID 59.75) и GAN (FID 38.9), но требуют значительных ресурсов. VAE стабильны, но генерируют размытые изображения. GAN обеспечивают высокое качество, но страдают от нестабильности обучения и коллапса моды. Диффузионные модели, благодаря пошаговому декодированию шума, сочетают детализацию и структурированность, что делает их наиболее перспективными. Также рассмотрены методы генерации из изображения в изображение, применяемые для модификации изображений. Результаты исследования полезны для специалистов в области машинного обучения и компьютерного зрения, способствуя улучшению алгоритмов и расширению областей применения генеративных моделей.
Ключевые слова: дипфейк, глубокое обучение, искусственный интеллект, GAN, VAE, диффузионная модель
1.2.1 - Искусственный интеллект и машинное обучение
1.2.2 - Математическое моделирование, численные методы и комплексы программ
.