Инструкция к работе с картинками в нейросетях

Ссылка на профиль автора

почемучка: Сообщения : 77
Очки : 258
Репутация : 169
Дата регистрации : 2023-05-04

Инструкция к работе с картинками в нейросетях

Сообщение автор почемучка Пт 14 Июл 2023 - 14:03

Наконец собрался с силами и решил написать подобие инструкции к работе над картинками в нейросетях. За основу беру то, что знаю - Stable Diffusion online и Easy Diffusion (десктопная, то есть, можно установить на компьютер и не зависеть от сервисов и интернета). Easy Diffusion в отличие от многих других не требует обязательно НВИДИА карты с CUDA (устанавливается в настройках программы).
По сути это одна программа сети,только разные оболочки. В интернете можно найти другие сервисы и десктопные приложения на этой платформе этой нейросети.
Сегодня рассмотрим то, что называется запросами (prompt,промпт). Это относится ко всем сетям, в том числе на других платформах, например midjourney. Отличия могут быть, однако, микроскопичные.

PROMPT (запросы)

это набор инструкций в виде текста, данных алгоритму машинного обучения, который используется для создания определенного вывода. Пользователь пишет «подсказку» в специальном окне программы, например: предмет его цвет и стиль изображения, и ИИ создаёт картинку на основе этой подсказки.

Правильное написание подсказок, является одним из ключевых элементов получения желаемого изображения. Написание подсказок требует отдельной статьи с подробными примерами, но основные правила такие:
- на любой текст что вы вводите в программу она реагирует, даже на не верный (отсутствующий в базе), по этому будьте внимательны при составлении запроса, возможно часть слов которые должны улучшить результат - не работают должным образом.
- обычно хорошая подсказка должна содержать существительное, прилагательное и глагол, чтобы создать интересную тему. Но это не обязательное условие.
- имейте в виду, что порядок написания слов имеет значение. Слова в начале подсказки имеют больший «вес», чем слова в конце подсказки.
- «вес» слов можно регулировать, кроме перестановки в начало строки, в различных версиях программы есть различные приёмы для изменения «веса», например слово «cat» будет слабее слова «(cat)» и сильнее слова«[cat]», как вы догадались, всё дело в скобках в которые заключено слово или несколько слов.

Двойные скобки увеличат вес (акцентируют внимание) еще в два раза. Тоже с квадратными (двойные) уменьшат вес в два раза больше чем одинарные.

Теперь о приемах с весами запросов.
Если же вы хотите самостоятельно выставить вес, то используйте конструкцию «:хх», где хх — числовое значения веса.
Например: Angry dragon:60 flies over medieval castle:40. (злой дракон летит над средневековым замком)
В сумме, все веса должны давать 100.
Создавая запрос для генерации помните, что общаетесь с написанным программистами кодом. Если вы хотите получить более предсказуемый результат, формулируйте запрос, указывая точные объекты, места и свойства изображаемого. Обратите внимание, что длина фразы не должна быть больше 75 слов. Диффужен в отличии от Миджурни любит длинные описания.

Составляя фразу для генерации, с помощью специальных операторов вы можете расставить определенные акценты на тех или иных словах и фразах. Делается это с помощью следующих конструкций:

Контроль внимания поподробнее в спойлере:

Теперь о том, почему наши запросы не всегда учитываются или частично.
Все нейросети обучаются на моделях. В данном случае, если грубо, это набор картинок.
Если модель состоит из набора голых девиц, то не ждите, что сети, обученные на ней, дадут вам великолепную одежду на девушке. Надо дополнительно использовать обучение на картинках, где много одежды. И так далее. Причем, если одежда казуал, то при же запросе "высокая мода", что вы именно это и получите, если только фантазийную из бытовой одежды или ту же бытовую повседневную.
На десктопном варианте вы можете использовать разные модели и даже создавать свои (но тут не все просто и сейчас не буду об этом).
Укажу сайт, где обычные пользователи публикуют свои модели. В Easy Diffusion (десктопной) можно их объединять и смешивать. Можно подобрать модель с девушками или с мужчинами, которые нравятся, и и соединить с моделями, где одежда или другие предметы или архитектура с природой. Таким образом мы создадим нужную себе модель на определенную тему и в работе использовать ее. В запросе мы должны указать слова-триггеры, которые подскажут сетям, что мы хотим от них. Но, к сожалению, о таких словах чаще всего мы можем только догадываться или искать опытным путем.

Смотрим модели для десктопной версии и скачиваем
Есть несколько версий модели. Одни обучались на 512 на 512 пикселей (размер картинок) , другие на 768х768 пикселях.
Продолжение далее...

admin, yudined, лука и ПаутИнка

Ссылка на профиль автора

admin

admin: Сообщения : 171
Очки : 603
Репутация : 353
Дата регистрации : 2021-09-06

Сообщение 2

Re: Инструкция к работе с картинками в нейросетях

Сообщение автор admin Вс 16 Июл 2023 - 13:07

Надеюсь на продолжение инструкции, только поэтому выношу в шапку тему улыбаюсь

yudined, лука и ПаутИнка

Ссылка на профиль автора

почемучка

почемучка: Сообщения : 77
Очки : 258
Репутация : 169
Дата регистрации : 2023-05-04

Сообщение 3

Re: Инструкция к работе с картинками в нейросетях

Сообщение автор почемучка Вс 16 Июл 2023 - 22:14

Параметры генерации

Семя (англ. Seed) — это уникальное числовое значение, т.н. начальная точка для генерации. Семена используются для инициализации генерации. Дает разные варианты вашей картинки. Если вы хотите, чтобы нейросеть выводила один и тот же результат, необходимо зафиксировать значение семя + фраза для генерации. И отключите автоматическую смену сидов. Это относится в нашем случае только для Easy Diffusion (такая функция бывает и в других сервисах). Обычно, при генерации, значение для семени определяется в случайном порядке. Именно поэтому, вводя одну и ту же фразу для генерации, можно получать очень большое количество разнообразных изображений. В случае же использования одного и того же значения для сида, вы будете получать похожие изображения, но с регулируемыми, посредством введения новых слов во фразу для генерации, свойствами изображаемого объекта.
При использовании сидов избегайте изменения размера генерируемого изображения. В противном случае вы получите другое изображение.
Я думаю, кто работает в программах 3Д, знает понятие Seed.
Шаги (англ. Steps) ( в Easy Diffusion называется Inference Steps) — это повторяющиеся итерационные циклы, которые начинаются со случайного шума, генерируемого при вводе фразы для генерации. С каждым шагом удаляется некоторое количество шума, что приводит как повышению качества создаваемого изображения. Чем большее количество шагов вы будете использовать, тем более качественным будет ваше изображение, но не стоит перегибать с данным параметром. Оптимально использовать значения от 25 до 50.
Использование большего количества шагов может привести к генерации немного другого изображения, и не обязательно к лучшему качеству. Помимо этого, вы получите замедление процесса генерации. Чем больше шагов будет выполнено, тем больше времени будет на это потрачено. Ничего не напоминает поминает, опять почти то же 3Д, проходы в рендере.
Кстати, как и в 3Д - рендеринг может быть разным, так и в нейросетях - сэмплеры.
В нейросетях же используют, как я писал, различные сэмплеры, которые имеют разные алгоритмы обработки шумов, поэтому и выдают разный результат. Их можно выбирать, но опять же не во всех оболочках. Так в Stable Diffusion online подобных настроек нет.
Итак, (Sampling method/ сэмплеры) — это различные способы создания изображения из шума. Лучший вариант понять их – попробовать все. Некоторые из них дают более-менее похожий результат, некоторые же дают серьёзные различия. Хотя некоторые советуют k_euler_a (Euler Ancestral), DPM++ 2S a (DPM++ 2 Ancestral), PLMS. Но думаю, это дело вкуса и задач, поставленных перед вами.
Стоит учитывать что разные семплеры затрачивают разное количество времени на создание изображений. В интернете приволят такие тестирования разных семплеров, и что касается затрат времени, то порядок скорости работы был такой (от быстрого к долгому).

DDIM
k_euler
k_euler_a
PLMS
k_lms
k_dpm_2_a
k_dpm_2
k_heun

Сказать что какой-то из них идеален для чего-то конкретного – сложно, иногда прекрасные результаты выдаёт один, иногда другой, особенно это хорошо видно на изображениях в стиле рисунков. Кроме этого, стоит учитывать, что различные семплеры по разному работают при одинаковом количестве шагов (steps).

Шкала CFG (CFG Scale) — это параметр, контролирующий, насколько процесс генерации изображения следует за текстовой подсказкой. В Easy Diffusion(десктопная) называется Guidance Scale. Чем ниже значение, тем больше «творчества» ИИ будет в результате, чем выше значение, тем точнее ИИ следует вашим подсказкам. На практике для небольших по количеству подсказок картин используют обычно дефолтную «7». Если количество подсказок значительно, увеличивают значение в диапазоне «8-14», При больших значениях появляются артефакты на изображениях, кроме этого при жёстких рамках снижается вариативность изображения и часто это скорее вред, чем польза.

CFG 2–6: свобода творчества для ИИ
CFG 7–11: компромисс между пользователем и ИИ
CFG 12 - 15: пользователь уверен в своей подсказке, ИИ следует ей
CFG 16 - 20: ИИ жестко выполняет ваши инструкции.

Установка правильного значения зависит от желаемых результатов, а также от сложности текстовой подсказки. Решение остается за вами, но всегда лучше поэкспериментировать с разными значениями, чтобы увидеть, что лучше подходит для вашего варианта использования: более творческие результаты или результаты, строго соответствующие подсказке.
Если вы пытаетесь создать изображение с более мелкими деталями, указанными в подсказке, вы можете начать с более высокой шкалы от 12 до 19.

Продолжение следует...

admin, yudined, лука и ПаутИнка

Ссылка на профиль автора

admin

admin: Сообщения : 171
Очки : 603
Репутация : 353
Дата регистрации : 2021-09-06

Сообщение 4

Re: Инструкция к работе с картинками в нейросетях

Сообщение автор admin Пн 7 Авг 2023 - 2:16

Продолжение будет? улыбаюсь

Заждались

лука

Ссылка на профиль автора

почемучка

почемучка: Сообщения : 77
Очки : 258
Репутация : 169
Дата регистрации : 2023-05-04

Сообщение 5

Re: Инструкция к работе с картинками в нейросетях

Сообщение автор почемучка Вт 8 Авг 2023 - 22:34

Будет

Как только семья отпустит с дачи и огорода... Думаю, через неделю смогу освободиться для этого. ну, извини

yudined и лука

Ссылка на профиль автора

почемучка

почемучка: Сообщения : 77
Очки : 258
Репутация : 169
Дата регистрации : 2023-05-04

Сообщение 6

Re: Инструкция к работе с картинками в нейросетях

Сообщение автор почемучка Сб 14 Окт 2023 - 23:32

Хочу обратить внимание - за последнее время в Easy Diffusion (компьютерная версия, без интернета) появилось много новых функций. Это и загрузка моделей Lora. Никогда не пользовался ими, но насколько понимаю подобные модели жрут меньше памяти, по-крайне мере, во время обучения моделей. Если не ошибаюсь, то появились новые сэмплеры, некоторые я не помню раньше. Обычно я пользуюсь только несколькими, достаточно известными. Для любителей бесшовных текстур посоветую функцию Seamless Tiling, где можно выбрать тип тайлинга - горизонтальный, вертикальный и горизонт+ вертикаль. Так что можно не лазить в другие сервисы для создания текстур. Но это только диффузные текстуры. Параллельно бамп или нормал карты не сделать. Может потом появится.
Clip Skip - точно не могу сейчас сказать, вроде как меняет результаты рендеринга картинок. В хелпе оно так и есть. Объяснения в основном в виде картинок, как меняется рендер.
И на сладкое. Возможно, именно эта функция позволит проще делать видео или анимацию - Controlnet, который имеет варианты (фильтры) для выбора. Не все понятно, кроме нескольких: OpenPose, OpenPose Face, OpenPose hands, OpenPose full. Тут вроде бы все понятно. Контролируют позу в рисунке: просто позу, мимику, руки, все сразу. Это простая картинка, на которой должен быть человек в нужной вам позе. Программа ее переформатирует в любопытную картинку, которую можно записать и дальше использовать ее, загружая.
Пример картинки позы и то, что программа из нее создает - схематичный рисунок.

Инструкция к работе с картинками в нейросетях 16

Инструкция к работе с картинками в нейросетях 16

Инструкция к работе с картинками в нейросетях Image10

Есть еще у этой функции модели. С ними надо разбираться. Некоторые названия похожи на фильтры. В хелпе пока ничего толком нет.

Инструкция к работе с картинками в нейросетях E21

Инструкция к работе с картинками в нейросетях E21

admin и лука

Наш гардероб: реальный и цифровой

Инструкция к работе с картинками в нейросетях

Инструкция к работе с картинками в нейросетях

Re: Инструкция к работе с картинками в нейросетях

Re: Инструкция к работе с картинками в нейросетях

Re: Инструкция к работе с картинками в нейросетях

Re: Инструкция к работе с картинками в нейросетях

Re: Инструкция к работе с картинками в нейросетях

Похожие темы

Похожие темы

Запрос

Результаты : Сообщения Темы
Расширенный поиск