Сравнение инновационных моделей для генерации изображений: PixArt-Sigma и ELLA

admin · Апр 18, 2024

Представляем вашему вниманию PixArt-Sigma и ELLA, совершенствующие методы генерации изображения по текстовым подсказкам.

PixArt-Sigma способна генерировать высококачественные изображения в разрешении 4K без использования апскейлера, на основе своего внушительного размера в 0.6B. Кстати, для привлекательности сравним размеры: SDXL обладает размером в 2.6B, Cascade – 5.1B. Модель создана на основе архитектуры Weak-to-Strong, где базовая модель обучается с использованием качественных данных с детализированной разметкой, а потом превращается в мощнейшую версию. Продемонстрировать возможности модели можно посмотрев демо, а ознакомиться с деталями можно на сайте проекта или на странице в GitHub.

Метод ELLA объединяет генераторы изображений с языковыми моделями (LLM), улучшая этим сам текстовый промпт. Объединение двух разнородных нейросетей происходит через адаптер (TSC), который забирает описание с временными метками из LLM и подмешивает его в процесс генерации изображений. Из кода пока представлены версии только для моделей на SD 1.5, SDXL, к сожалению, не попадает в список, несмотря на наличие информации о нем на сайте проекта. Важно отметить наличие ComfyUI ноды. Подробнее о проекте можно узнать на официальном сайте, на странице проекта в GitHub, а также использовать ELLA в ComfyUI, ссылку на инструкцию по использованию можно найти здесь.