Сравнительный анализ современных методов генерации изображений ,  и диффузионные модели

Катаев А.В.; Власова Ю.М.; Ким В.А.; Гусынин Д.А.

Катаев А.В., Власова Ю.М., Ким В.А., Гусынин Д.А.

Дата поступления статьи: 24.02.2025

Статья представляет собой анализ современных методов генерации изображений: вариационных автоэнкодеров (Variational Autoencoder - VAE), генеративных состязательных сетей (Generative Adversarial Networks - GAN) и диффузионных моделей. Основное внимание уделено сравнительному анализу их производительности, качеству генерации и вычислительным требованиям. Для оценки качества изображений используется метрика расстояние Фреше между распределениями признаков (Fréchet Inception Distance - FID). Диффузионные модели показали наилучшие результаты (FID 20.8), превосходя VAE (FID 59.75) и GAN (FID 38.9), но требуют значительных ресурсов. VAE стабильны, но генерируют размытые изображения. GAN обеспечивают высокое качество, но страдают от нестабильности обучения и коллапса моды. Диффузионные модели, благодаря пошаговому декодированию шума, сочетают детализацию и структурированность, что делает их наиболее перспективными. Также рассмотрены методы генерации из изображения в изображение, применяемые для модификации изображений. Результаты исследования полезны для специалистов в области машинного обучения и компьютерного зрения, способствуя улучшению алгоритмов и расширению областей применения генеративных моделей.

Ключевые слова: дипфейк, глубокое обучение, искусственный интеллект, GAN, VAE, диффузионная модель

1.2.1 - Искусственный интеллект и машинное обучение

1.2.2 - Математическое моделирование, численные методы и комплексы программ

Сравнительный анализ современных методов генерации изображений: VAE, GAN и диффузионные модели