Dezgo – рисующая нейросеть (Иван Сирфидов) - читать бесплатно онлайн полную версию книги (Функции Dezgo (краткое описание)) #4

Функции Dezgo (краткое описание)

В настоящий момент я наблюдаю у него наличие 9-ти функций. Приведу их тут именно в том порядке, в каком они расположены на сайте.

1) Text-to-image XL – генерация по тексту картинок размеров XL или Flux. В действительности это три функции, потому что в правом верхнем углу окна данной функции имеется опция выбора между «Flux», «XL Lightning» и «XL». И это разные функции, достаточно сказать, что у «XL Lightning» и «XL» есть у каждой свой набор нейросетей, а у Flux на данный момент фактически вообще нет никаких настроек. Если я правильно понял, XLL отличается от XL более быстрой работой и на 60% большей «дешевизной», под которой подразумевается что, если Dezgo бесплатный? Вероятно всё же деньги, так как в платном режиме плата за генерацию картинок взимается, и в размерах XL она выше, чем не в XL, вроде бы 133 картинки за доллар. Максимальный размер картинок в XL и XLL одинаков – 1016x576, 576x1016 и 768x768. Размеры картинок Flux на сегодня самые большие в Dezgo – 1344x768, 768x1344 и 1024x1024. Функция Flux была добавлена совсем недавно, выражаясь точнее, буквально на днях, я с ней фактически ещё не знаком, потому мало что могу сказать про неё, по-моему она работает нестандартно в сравнении с прочими функциями Dezgo, и соответственно потребует отдельного освоения рисования в ней, зато у неё минимум настроек, считай нет совсем, осваивать придётся не так много. Что касается функций XL и XLL, их сети на мой взгляд относительно недружественны к новичкам, они не дают вам лучшего качества, если для этого не приложить усилий, особенно при рисовании людей, я долгое время думал, людей в них вообще нет смысла рисовать (исключая крупные планы), настолько всё у меня получалось плохо, на данный момент отчасти поменял мнение – но лишь о некоторых из них, не о всех. В любом случае, как минимум при рисовании не людей они и для новичка имеют свои плюсы, главный из которых конечно же размеры картинок. Размер всегда имеет значение так или иначе.

2) Text-to-image – генерация картинок по тексту. Максимально возможные размеры картинок при генерации: 384x672 или 672x384, или в варианте квадрата 512x512. Мелковато конечно, но терпимо. Кроме того, есть функция «upscale», позволяющая увеличить картинки в два раза, есть другие нейросети в интернете, тоже увеличивающие картинки. На мой вкус горизонтально ориентированные изображения выходят тут слишком уж мелкими, и никаким увеличением это не исправить, качество получается низковатым, а вот в вертикальной ориентации всё выглядит вполне неплохо. На данный момент выбор нейросетей в text-to-image наиболее широк – 31 (против 12 суммарно в XL и XLL). Вдобавок у Dezgo есть несколько функций перерисовок, ориентированных на работу с ней – они имеют тот же набор нейросетей, иными словами, могут рисовать то же самое, что позволяет и перерисовывать с наименьшими отклонениями от оригинала. Почему они ориентированы именно на text-to-image, почему именно у неё так много сетей? Потому что ещё недавно именно она была основной для Dezgo. Flux-функция появилась только что, XLL в начале года ещё не было, Dezgo быстро развивается. Знаменательными достоинствами text-to-image являются, во-первых, собственно ориентированность на неё функций перерисовок, что расширяет возможности по редактированию картинок, во-вторых, опять же большое количество нейросетей, и в-третьих, конкретно для новичков, хорошее качество без затей. По умолчанию в ней выбрана для вас сеть RealDream12, которая отлично рисует, не требуя никаких выкрутасов, чтобы добиться качественности графики или эффектности контента, комфортная сеть во всех отношениях, поддерживает разные спецэффекты, чего нельзя сказать про многие другие сети, по-моему идеально реалистично рисует людей, способна рисовать в самых разнообразных стилях (хотя заставить её отклоняться от реализма не всегда легко).

3) Controlled Text-to-image – перерисовка картинки по тексту. Во многом повторяет предыдущую функцию – создаёт картинки тех же размеров (384x672 или 672x384, или 512x512), имеет тот же список из 31-ой нейросети. По сути это тоже генератор картинок, просто использующий картинку-образец как способ задать часть параметров графическим путем, а не текстом. Ну например, чтобы персонажи рисовались приблизительно в такой же позе, приблизительно на таком же удалении, приблизительно в такой же одежде, и т.д. Он не копирует в новую картинку ни пикселя информации из старой, он распознаёт, что там есть, и воспроизводит с той или иной степенью точности. Воспроизвести с высокой точностью, близкой к 100%, с абсолютной похожестью, чтобы это выглядело чуть ли не как полная (или исправленная заданным вами образом) копия, можно только если исходная картинка была сгенерирована ровно той же нейросетью, в какой вы её здесь правите, это надо понимать. Нейросети рисуют по-разному, и другая просто не сумеет выдать вам ту же графику, ту же стилистику, те же физиономии персонажей. Что-то близкое есть шансы, но прям один в один никак. Степенью схожести можно управлять с помощью настроек, т.е. вам не обязательно генерировать схожие картинки, вам доступно переносить в новое изображение определённые детали со старого. Или не переносить фактически ничего. Снова повторюсь, это генератор картинок, не редактор, но его особенность такова, что он в определённой мере способен исполнять функции редактора, имитировать их. Очень важный момент: так как Controlled Text-to-image создаёт картинки с нуля, она абсолютно не зависит ни от качества исходной картинки, ни от её размеров. Главное, чтобы объекты на исходной картинке можно было распознать (если они не распознаны, они будут сгенерированы случайным образом, то есть всё равно будут, просто другие). Вы можете взять махонькую картинку, фигового качества, можете вырезать из картинки с множеством персонажей нужного и подсунуть для перерисовки только его, и даже если он с ноготок размером, он нарисуется в полном качестве в полный размер. Но опять же это всё имеет отношение прежде всего к исходным картинкам, сгенерированным в Dezgo, так как объекты на них гораздо лучше распознаются его функциями.

4) Image-to-image – тоже перерисовка картинки по тексту. Условно нечто вроде упрощённой версии предыдущей функции, так как имеет минимум настроек. Однако она работает совершено по другому принципу. Я сейчас буду излагать свои домыслы, я нигде это не прочёл, я пришёл к такому выводу, глядя на полученные здесь результаты. По моему мнению, функция Image-to-image тоже генерирует изображение на основе вашего текста и заданной вами исходной картинки, чем отчасти подобна «controlled text-to-image», но вам оное даже не показывает, вы его не увидите. Это невидимое изображение и ваша исходная картинка смешиваются по некоему сложному алгоритму с заданным вами в настройках функции процентным соотношением, и вот эта смесь и выдаётся вам в качестве результата. Таким образом данная функция позволяет более плавно менять исходную картинку. Чем меньше вы задали в настройках процент допустимых изменений, тем менее картинка изменится, но и тем менее её в принципе можно будет изменить хоть в каких-то деталях. Вот и ловите золотую середину. На 40% изменения будут достаточно незначительными, на 60% уже очень большими, а если установить уровень допустимых изменений на 100%, исходная картинка перестаёт влиять на результат, и функция Image-to-image превращается в просто генератор изображений по тексту. Принимает картинки для перерисовки только в размерах не более 512x512, если они больше, они будут пропорционально уменьшены при загрузке на сайт. Создаёт изображения тоже не более 512x512 – соответственно, если они не квадратные, а вертикальные или горизонтальные в характерных портретной или ландшафтной пропорциях Dezgo, на выходе это будет 288x512 или 512x288, что мелковато. Потому, если мы хотим далее получить полные размеры (384x672 или 672x384), придётся созданную здесь картинку перерисовывать снова уже с помощью Controlled Text-to-image. Помимо прочего, Image-to-image позволяет осуществлять плавную конвертацию изображений, сгенерированных в одних нейросетях Dezgo, в стиль других. Вот тут она реально хороша.

5) Upscale – увеличение размеров картинок в два раза. Размеры загружаемой на сайт картинки не должны превышать 768x768, если они превышают, картинка при загрузке будет автоматически пропорционально уменьшена в размерах, чтобы не превышать 768 пикселей ни по длине ни по ширине.

6) Inpainting from text – перерисовка конкретных деталей. Указываете (текстом), какую деталь картинки хотите изменить, указываете (текстом), как должен выглядеть конечный результат (без особых подробностей, если те не относятся к изменяемой детали). И собственно всё. Деталь будет перерисована. А весь остальной рисунок нет (кроме тех его элементов, что соприкасаются с указанной деталью, и потому без их перерисовки никак не обойтись). В общем, это такой, можно сказать, хирургический инструмент внесения в изображения точечных очаговых правок. Что порой довольно удобно. Позволяет редактировать и сторонние картинки, а не только созданные в Dezgo. Если конечно вас устроит размер. Картинки для перерисовки принимаются в функцию не более чем 512x512, если они больше, произойдёт автоматическое уменьшение размеров при загрузке. На выходе можно получить картинку максимум тех же размеров – 512x512. В целом качество контента исправленной части рисунка здесь наверное выходит несколько хуже, чем у функций редактирования, которые перерисовывают всю картинку с нуля (пункты 3 и 4), он смотрится менее гармонично. Ну и опять же размеры мельче (чем у пункта 3), если мы рисуем не в квадратной ориентации. Посему далее есть смысл отправиться в функцию Controlled Text-to-image и перерисовать полученную здесь картинку уже там. Зачем тогда её править здесь, почему не сразу там? Там крупные изменения сложно внести в отдельную часть, надо задавать низкий процент сохранения деталей, а когда нужные изменения уже произведены, они будут распознаваться и гораздо чаще рисоваться именно такими и на высоких процентах в Controlled Text-to-image.

7) Edit image from text (это название в меню сайта, а в окне функции она обозначена как «Edit image with instructions») – редактирование картинки по заданным текстом инструкциям. Позволяет вносить более существенные изменения, чем редактор из предыдущего пункта (Inpainting from text), не по одной детали править, а некие преобразования делать, так же не меняя то, что не указано менять. Картинки для перерисовки принимаются в функцию не более чем 512x512, если они больше, произойдёт автоматическое пропорциональное уменьшение размеров при загрузке. На выходе можно получить картинку максимум таких же размеров – 512x512. Качество картинок убойно низкое, просто никакущее, потому их обязательно придётся перерисовывать потом в Controlled Text-to-image.

8) Remove background – удаление фона. Возвращает картинку с персонажами на прозрачном фоне или чёрно-белую маску (это когда фон закрашивается чёрным, а фигура персонажа белым). В качестве персонажей могут выступать не только люди, например, я нарисовал в Dezgo собаку, и с её картинки фон тоже удалился без проблем. И у сторонних картинок (созданных не в Dezgo) фон удаляется, и маски для них создаются. Максимальные размеры принимаемых картинок – 768x768, при больших размерах они автоматически уменьшаются при загрузке на сайт. При переключении опции между прозрачным фоном и чёрно-белой маской, если я до этого уже запускал данную функцию для какой-нибудь картинки, у меня почему-то происходил сбой функции и она переставала возвращать хоть какой-то результат – думает, думает, и потом ничего. Лечится перезагрузкой страницы.

9) Text-to-video – создание видео по тексту. Бета версия. Не юзал, потому что тут всё не так просто. Во-первых, надо иметь Discord, коим я никогда не пользовался. Во-вторых, даже если его имеешь… Насколько я понял, предполагается, что люди будут отправлять свои тексты, будет осуществляться голосование (лайками) среди всех пользователей, и каждые пять минут по самому популярному тексту будет генерироваться видео.

< Назад Далее >