Початковий запит
В цьому дописі я хочу розказати як взагалі відбувається побудова запиту, які ідеї і знання корисні і як зробити картинку, що гарантовано сподобається іншим. (опис середовища генерування і параметрів див. в попередньому дописі). Приблизно місяць тому користувач Lapinator опублікував наступну картинку
Картинка мені сподобалась своєю «складністю» і переплетенням елементів і я вирішив, що з цим запитом варто попрацювати. Як бачите тут застосовано найпрширеніший метод генерації — мнімальні параметри + 4 вихідні картинки. Власне там була ціла серія картинок схожого змісту і всі вони виглядали фантастично.
Запит при цьому був такий:
Text Prompts
"”Molecular liquid serendipitous hackerpunk tasseled slither!!!!" artwork by Jean Baptiste Monge, Alberto Seveso, Camilla D"Errico, Igor Sava, Jamie Hewlett, Josan Gonzalez, Karol Bak, Michael Divine, Rob Gonsalves, Salvador Dali, Wassily Kandinsky, Anton Fadeev, Francoise Nielly, Epic scale, hyper-detailed, trending on artstation"
Решта параметрів
Initial Resolution: Low Runtime Short Seed 177333394 Overall Prompt Weight 80%
Model Version Stable Diffusion v1.5 Sampling method K_DPM_2_ANCESTRAL
CLIP Guidance SIMPLE
Суттєво, що початкової картинки не було задано, з чого можна було зробити висновок, що у запита є потенціал розвитку: якщо цікава картинка генерується і так, то з початковою картинкою можна отримати більш цікаві штуки.
Перші експерименти. Пташки
Я вирішив, що було б цікаво модифікувати цей запит для створення фантастичних пташок. Для зручності я виділю частини запиту
Запит
"Molecular toxic liquid serendipitous tasseled bird" artwork by Jean Baptiste Monge, Alberto Seveso, Camilla D"Errico, Igor Sava, Jamie Hewlett, Josan Gonzalez, Karol Bak, Michael Divine, Rob Gonsalves, Salvador Dali, Wassily Kandinsky, Anton Fadeev, Francoise Nielly, Epic scale, hyper-detailed, trending on artstation"
Плюс моя улюблена початкова картинка (назвемо її картина 1).
Дали ось такий результат. Зауважте, що виділена змістовна частина, власне bird це те, що вимагається в запиті. Яка пташка? Molecular toxic liquid serendipitous tasseled — для людини трохи забагато описів, але для мережі в самий раз. Далі перелік художників, роботи яких пропонується "використовувати" для утворення елементів картини.
Ну що ж… досить цікаві пташки.
Спробуємо розвинути цей результат. Для розвитку ми скористаємось одною з пташок (права нижня здається найбільш вдалою — в неї пропорції збережені, нормальна голова і кумедна зачіска). Принципово, що ми не змінюємо текст запиту, але змінюємо seed та початкову картинку. Новий результат виглядає так
Особливого розвитку не спостерігається, як і покращення окремих картинок. Пташки наче виглядають непогано, але не зовсім те що хотілось би. Хотілось би "щось надзвичайне".
Тому спробуємо радикально змінити початкову картинку. Є такий художник Aaron Horkey, який створює мрачні картини чорнилом. Якщо задати його ім'я, то можна нагенерувати багато стартових картинок, які будуть задовольняти двом вимогам:
Дуже багато деталей
Багато переходів білий-чорний, що сприяє кращій роботі алгоритму дифузії — виникають складні і несподівані образи, які не могли б з'явитись для рівномірно закрашених площ.
В результати ми отримуємо дивовижні і чудернацькі створіння, в яких, тим не менш, безпомилково вгадуються пташки.
Але все ж не зовсім те, що б хотілось. Потрібно щось інше. Змінимо запит, викинемо Сальвадора Далі — він лише вносить непотрібний сюрреалізм і Кандинського. Додамо трьох інших художників.
"Molecular toxic liquid serendipitous tasseled birds" artwork by Jean Baptiste Monge, Alberto Seveso, Camilla D"Errico, Igor Sava, Jamie Hewlett, Josan Gonzalez, Karol Bak, Michael Divine, Aaron Horkey, Rob Gonsalves, Anton Fadeev, Francoise Nielly, Victo Ngai Epic scale, hyper-detailed, trending on artstation"
В якості початкової картинки виберемо ліву верхню.
Це вже набагато цікавіше, є сюжет, щось відбувається. Збільшуємо праву нижню картинку в 6 раз та відправляємо на челендж "Сюрреалізм". Вона потрапить в топ 20% — цілком непоганий результат.
Тепер спробуємо змінити початкову картинку і глянемо як вона змінює результат.
Виберемо ось таку, зовсім іншу картинку в якості початкової (ліворуч) і отримуємо результат (праворуч). Нуууу…. Не дуже вдало на мою думку.
Ще одна спроба з тим же запитом і методом, але іншою початковою картинкою і іншим форматом
Особливо нічого не чіпляє. Час зробити крок назад. Приберемо цього Aaron Horkey, можливо це його дивні роботи впливають і змінимо семплінг метод на K_LMS — це метод "за замовчуванням", тобто має працювати найкраще.
"”Molecular water bird, toxic air bird, liquid fire bird, serendipitous tasseled earth bird" artwork by Jean Baptiste Monge, Alberto Seveso, Camilla D"Errico, Igor Sava, Jamie Hewlett, Michael Divine, Rob Gonsalves, Anton Fadeev, Francoise Nielly, Victo Ngai Epic scale, hyper-detailed, trending on artstation"
Ще один важливий момент, повернемо параметр Overall Prompt Weight 50%, це дасть можливість створювати більш "вільні" генерації. Початкова картинка 1 дала ось такий результат. І це вже несподівані пташки.
Спробуємо розвинути цю дивну пташку з гребенем. Все те саме, але вона піде за початкову картинку. Зробимо дві копії.
Як бачимо еволюція картинки дає непогані результати. Тепер час підкрутити вдісоток Overall Prompt Weight до 80%.
Отримуємо ось таку чудову картину. Зауважте, що кожен такий запуск відбувається на мінімальному значенні параметрів runtime та resolution, що означає вартість в 1 кредит для кожного запуска. Варіанти, які сподобались ми можемо збільшити. Маштабування (теж працює алгоритм, тому коштує кредитів) покращує результат, але якщо "перезбільшити" то текстури погіршуються. Тому це обережно треба робити.
Це вже суперрезультат. Пташка ліворуч знизу займе місце в топ 20% на челенджі.
Перехід на котів
Спробуємо повторити цей результат для котиків. Ідея проста — якщо замінити головне змістовне слово, тоді, як очікується, все буде те саме, але для котів. Ну і зображень котів більше — отже картинка має бути якісніша. Починаємо з Overall Prompt Weight 50%, щоб дати алгоритму більше свободи (ну це я так інтерпретую цей параметр).
Запит дещо модифікуємо
"Molecular water liquid fire funny fur small pet cat, serendipitous tasseled with gems, coils, spirals" artwork by Jean Baptiste Monge, Alberto Seveso, Camilla D"Errico, Igor Sava, Jamie Hewlett, Michael Divine, Rob Gonsalves, Anton Fadeev, Francoise Nielly, Victo Ngai Epic scale, hyper-detailed, trending on artstation
Вийшла прийнаймі одна чудова картинка. Коти дали ще багато красивих картинок, але я про принципи утворення хочу розказати. Далі спроби з собаками і ящірками загалом були невдалими, не буду засмічувати цей пост ними. А ось ідея книги, охопленої різним оздобленням
"Molecular water liquid fire open book in library, serendipitous tasseled with gems, coils, spirals" artwork by Jean Baptiste Monge, Alberto Seveso, Camilla D"Errico, Igor Sava, Jamie Hewlett, Michael Divine, Rob Gonsalves, Anton Fadeev, Francoise Nielly, Victo Ngai Epic scale, hyper-detailed, trending on artstation
Слід визнати вийшла цікавою. Але в цей момент я вирішив змінити запит і спробувати щось зовсім інше.
Вежі і дим
Для кардинальної зміни я вибрав один з запитів у вільному доступі, який вже дав якісний результат. Його я додав до свого попереднього.
"”Molecular water liquid fire open book in the library, serendipitous tasseled with gems, coils, spirals" artwork by Jean Baptiste Monge, Alberto Seveso, Camilla D"Errico, Igor Sava, Jamie Hewlett, Michael Divine, Rob Gonsalves, Anton Fadeev, Francoise Nielly, Victo Ngai Epic scale, hyper-detailed, trending on artstation"
Weight: 0.8 Save
""”The fantastic smoke serpent, viper, flowers, curls, spirals !!! Emerging from a book!!!" a superb highly detailed artwork by Victo Ngai, Jean Jeszika Le Vye, Thomas Kincade, Jonathan Quintin, Epic scale, highly detailed, clear environment, triadic colors cinematic light 16k resolution, trending on artstation"""
Weight: 0.7 Save
"& vzingaunother edelinquiet dialogqthot evatorado distaili meatogothet CITY FUTURE many radical and bizarre creatures FUN beings Michael Kaluta Jacek Yerka Aleksandr Kuskov Christophe Heughe Adobe After Effects Post-Production SFX detailed and intricate elegant realistic super detailed 8k resolution Substance Designer maximalist over the top amazing depth light dust god rays lens flare depth of field striking hyper real painting uhdi"
Weight: 0.5 Save
"lowres text logos watermarks error cropped worst quality low quality jpeg artifacts ugly duplicate morbid mutilated out of frame extra fingers mutated hands poorly drawn hands poorly drawn face mutation deformed blurry bad anatomy bad proportions extra limbs cloned face disfigured gross proportions malformed limbs missing arms missing legs extra arms extra legs fused fingers too many fingers long neck"
Weight: -3 Save
Результатом стала зміна стилю і покращення деталізації.
Але для того, щоб картинка стала шедевром потрібен певний сюжет а не просто чудернацькі кільця. Права верхня картинка плюс деяка зміна ваг запитів дала зовсім інший стиль.
Text Prompts
"”Molecular water liquid fire open book in the library, serendipitous tasseled with gems, coils, spirals" artwork by Jean Baptiste Monge, Alberto Seveso, Camilla D"Errico, Igor Sava, Jamie Hewlett, Michael Divine, Rob Gonsalves, Anton Fadeev, Francoise Nielly, Victo Ngai Epic scale, hyper-detailed, trending on artstation"
Weight: 0.8 Save
"The fantastic smoke HOUSE flowers, curls, spirals a superb highly detailed artwork by Victo Ngai, Jean Jeszika Le Vye, Thomas Kincade, Jonathan Quintin, Epic scale, highly detailed, clear environment, triadic colors cinematic light 16k resolution, trending on artstation"
Weight: 1 Save
"& vzingaunother edelinquiet dialogqthot evatorado distaili meatogothet CITY FUTURE many radical and bizarre creatures FUN beings Michael Kaluta Jacek Yerka Aleksandr Kuskov Christophe Heughe Adobe After Effects Post-Production SFX detailed and intricate elegant realistic super detailed 8k resolution Substance Designer maximalist over the top amazing depth light dust god rays lens flare depth of field striking hyper real painting uhdi"
Weight: 0.5 Save
"lowres text logos watermarks error cropped worst quality low quality jpeg artifacts ugly duplicate morbid mutilated out of frame extra fingers mutated hands poorly drawn hands poorly drawn face mutation deformed blurry bad anatomy bad proportions extra limbs cloned face disfigured gross proportions malformed limbs missing arms missing legs extra arms extra legs fused fingers too many fingers long neck"
Weight: -3 Save
Хмм, несподівано. Дерево видіється цікавим, тому спробуємо його розвинути
Хмм, все ж мабуть занадто багато елементів запиту. Приберемо ось ту незрозумілу середню частину і лишимо тільки два (плюс стандартний мінус запит для якості)
Text Prompts
"”Molecular water liquid fire HOUSE, serendipitous tasseled with gems, coils, spirals" artwork by ESHER, Jean Baptiste Monge, Alberto Seveso, Camilla D"Errico, Igor Sava, Jamie Hewlett, Michael Divine, Rob Gonsalves, Anton Fadeev, Francoise Nielly, Victo Ngai Epic scale, hyper-detailed, trending on artstation"
Weight: 0.8 Save
"The fantastic smoke HOUSE flowers, curls, spirals a superb highly detailed artwork by ESHER, Victo Ngai, Jean Jeszika Le Vye, Thomas Kincade, Jonathan Quintin, Epic scale, highly detailed, clear environment, triadic colors cinematic light 16k resolution, trending on artstation"
Weight: 0.5 Save
І піднімемо Overall Prompt Weight до 70%
Це краса — збільшуємо і насолоджуємось.
Висновки
Особливість складної системи є в тому, що вона не є ні повністю визначеною ні повністю випадковою. І це якраз цей випадок — навіть складний і якісний запит не гарантує визначеного результату, з іншого боку — якщо запит неякісний, то скільки не запускай — результати будуть посередні. Але можна сформулювати певні принципи:
- Якісний запит, як правило складається з одного змістовного слова, описів і художників.
- Новий запит краще запускати з вагою 50% та без початкової картинки — щоб зрозуміти його потенціал — стиль, деталізацію, можливі елементи. Це, звісно, без гарантій, бо декілька запусків не показують всю картину, але все ж.
- Перші вдалі результати можна використовувати як початкові картинки, їх можна розвивати з більшою вагою запитів.
- Найбільш вдалі картинки збільшувати в 2–6 рази. Зауважте, що формат картинки суттєво впливає на якість. Найкраще алгоритм працює з квадратними форматами.