Stable Diffusion 3.5 точніше слідує вашим підказкам і створює більше різноманітних людей
Stable Diffusion, відкритий альтернативний генератор зображень до таких платформ, як Midjourney і DALL-E, представив оновлення до версії 3.5. Нова модель прагне виправити численні недоліки попередньої версії Stable Diffusion 3 Medium, яка отримала негативні відгуки. Компанія Stability AI стверджує, що модель 3.5 краще відповідає запитам і конкурує з більш великими моделями за якістю виходу. Більш того, вона налаштована на більшу різноманітність стилів, відтінків шкіри та особливостей, без необхідності явного запиту на це.
Останні новини: Джеймс Кемерон приєднується до ради директорів Stability AI
Види моделі Stable Diffusion 3.5
Оновлена модель доступна в трьох варіантах:
- Stable Diffusion 3.5 Large – найпотужніший з трійці, який забезпечує найвищу якість зображень і відмінно дотримується запитів. Ця модель підходить для професійного використання на роздільній здатності 1 МП.
- Stable Diffusion 3.5 Large Turbo – “дистильована” версія, що акцентує на ефективності, а не на максимальній якості. Проте Stability AI запевняє, що Turbo-варіант також генерує “високоякісні зображення з винятковим дотриманням запитів” у чотирьох кроках.
- Stable Diffusion 3.5 Medium – розроблена для роботи на споживчому обладнанні, ця модель забезпечує баланс між якістю та простотою використання. Вона може генерувати зображення з роздільною здатністю від 0,25 до 2 мегапікселів. Але на відміну від перших двох моделей, Stable Diffusion 3.5 Medium буде доступна лише з 29 жовтня.

Ця нова трійця слідує за невдалою Stable Diffusion 3 Medium, випущеною в червні, коли компанія визнала, що реліз “не відповідав нашим стандартам або очікуванням нашої спільноти”, оскільки модель створила кілька смішно гротескних зображень, які не відповідали запитам. Часті згадки Stability AI про виняткове дотримання запитів в анонсі, безумовно, не є випадковістю.

Хоча Stability AI лише коротко згадала про це у своєму блозі, серія 3.5 має нові фільтри для кращого відображення людської різноманітності. Компанія описує результати нових моделей як “представники світу, а не лише одного типу людей, з різними відтінками шкіри та особливостями, без потреби в детальних запитах”.

Сподіваємося, що нові моделі враховують нюанси та історичні чутливості, на відміну від недавніх помилок Google. Нагадаємо, що Gemini невірно згенерував етнічно різноманітні “фото” історичних постатей, що призвело до сильного обурення, і Google не повернув генерування людських образів протягом шести місяців.


