test thread
asdfggfdsa
test
Test
Testing
ДАВНО ТЕБЯ НЕ БЫЛО В УЛИЧНЫХ ГОНКАХ! #2
WARNING: тебе понадобится минимум 120гб свободного места
Уже второй день ведётся набор гонщиков нелегальных на гоночный турнир Двача с призом в 1 нихуя.
Как принять участие:
1. Скачиваешь Forza Horizon 5 версии 1.496.624.0. Держи сразу рутрекер: https://rutracker.org/forum/viewtopic.php?t=6132554
Папку Crack в игру НЕ РАСПАКОВЫВАЕШЬ. Папка игры должна быть чистой.
2. Идёшь сюда: https://online-fix.me/games/racing/16828-forza-horizon-5-po-seti.html и делаешь всё как там написано. Это говно разблокирует онлайн.
3. Регаешь учётку Майкрософт, логинишься на неё в игре.
4. Проходишь обучающую сюжетку, тебя выпускает в онлайн.
5. Отписываешь сюда свой ник, и я тебя добавляю.
Набираем штук 8-10 эрондондонеров и турнир можно открывать. На момент начала этого переката нас трое.
Тред в /ch/ для кооперации: https://2ch.hk/ch/res/217519.html (М)
WARNING: тебе понадобится минимум 120гб свободного места
Уже второй день ведётся набор гонщиков нелегальных на гоночный турнир Двача с призом в 1 нихуя.
Как принять участие:
1. Скачиваешь Forza Horizon 5 версии 1.496.624.0. Держи сразу рутрекер: https://rutracker.org/forum/viewtopic.php?t=6132554
Папку Crack в игру НЕ РАСПАКОВЫВАЕШЬ. Папка игры должна быть чистой.
2. Идёшь сюда: https://online-fix.me/games/racing/16828-forza-horizon-5-po-seti.html и делаешь всё как там написано. Это говно разблокирует онлайн.
3. Регаешь учётку Майкрософт, логинишься на неё в игре.
4. Проходишь обучающую сюжетку, тебя выпускает в онлайн.
5. Отписываешь сюда свой ник, и я тебя добавляю.
Набираем штук 8-10 эрондондонеров и турнир можно открывать. На момент начала этого переката нас трое.
Тред в /ch/ для кооперации: https://2ch.hk/ch/res/217519.html (М)
62 Кб, 550x357
ДАВНО ТЕБЯ НЕ БЫЛО В УЛИЧНЫХ ГОНКАХ! #2
WARNING: тебе понадобится минимум 120гб свободного места
Уже второй день ведётся набор гонщиков нелегальных на гоночный турнир Двача с призом в 1 нихуя.
Как принять участие:
1. Скачиваешь Forza Horizon 5 версии 1.496.624.0. Держи сразу рутрекер: https://rutracker.org/forum/viewtopic.php?t=6132554
Папку Crack в игру НЕ РАСПАКОВЫВАЕШЬ. Папка игры должна быть чистой.
2. Идёшь сюда: https://online-fix.me/games/racing/16828-forza-horizon-5-po-seti.html и делаешь всё как там написано. Это говно разблокирует онлайн.
3. Регаешь учётку Майкрософт, логинишься на неё в игре.
4. Проходишь обучающую сюжетку, тебя выпускает в онлайн.
5. Отписываешь сюда свой ник, и я тебя добавляю.
Набираем штук 8-10 эрондондонеров и турнир можно открывать. На момент начала этого переката нас трое.
Тред в /ch/ для кооперации: https://2ch.hk/ch/res/217519.html (М)
WARNING: тебе понадобится минимум 120гб свободного места
Уже второй день ведётся набор гонщиков нелегальных на гоночный турнир Двача с призом в 1 нихуя.
Как принять участие:
1. Скачиваешь Forza Horizon 5 версии 1.496.624.0. Держи сразу рутрекер: https://rutracker.org/forum/viewtopic.php?t=6132554
Папку Crack в игру НЕ РАСПАКОВЫВАЕШЬ. Папка игры должна быть чистой.
2. Идёшь сюда: https://online-fix.me/games/racing/16828-forza-horizon-5-po-seti.html и делаешь всё как там написано. Это говно разблокирует онлайн.
3. Регаешь учётку Майкрософт, логинишься на неё в игре.
4. Проходишь обучающую сюжетку, тебя выпускает в онлайн.
5. Отписываешь сюда свой ник, и я тебя добавляю.
Набираем штук 8-10 эрондондонеров и турнир можно открывать. На момент начала этого переката нас трое.
Тред в /ch/ для кооперации: https://2ch.hk/ch/res/217519.html (М)
тест
>>193303
тест
тест
>>193303
тест
тест
>>193303
❤❤💚💚
❤❤💚💚
Test
>>193303
чмо
чмо
>>193303
тест
тест
Test
>>193303
trest
trest
еуые
>>193320
the last one
the last one
Test
>>191421 (OP)
Test111
Test111
>>193321
Тест
Тест
test
>>193321
test
test
>>193321
test
test
>>193321
test
test
Test
>>193321
test
test
>>193321
test
test
>>193321
test
test
>>193321
test
test
>>193321
test
test
>>193321
test
test
>>193321
test
test
>>193321
тест
тест
>>193321
тест
тест
>>193321
тест
тест
>>193352
Чи тест
Чи тест
Test
Иест
(Автор этого поста был забанен. Помянем.)
(Автор этого поста был забанен. Помянем.)
>>193352
текст
текст
test
(Автор этого поста был забанен. Помянем.)
(Автор этого поста был забанен. Помянем.)
>>193293
Чтобы принять участие в гоночном турнире, необходимо:
1. Скачать Forza Horizon 5 версии 1.496.624.0.
2. Установить онлайн-фикс с сайта online-fix.me.
3. Зарегистрировать учётную запись Microsoft и войти в неё в игре.
4. Пройти обучающую сюжетную линию.
5. Написать свой ник в треде, чтобы тебя добавили.
Чтобы принять участие в гоночном турнире, необходимо:
1. Скачать Forza Horizon 5 версии 1.496.624.0.
2. Установить онлайн-фикс с сайта online-fix.me.
3. Зарегистрировать учётную запись Microsoft и войти в неё в игре.
4. Пройти обучающую сюжетную линию.
5. Написать свой ник в треде, чтобы тебя добавили.
> test
123
321
Test
Тренировка лор для Flux
• sd-scripts: https://github.com/kohya-ss/sd-scripts/tree/sd3?tab=readme-ov-file#flux1-lora-training-wip (ветка sd3)
• LoRA_Easy_Training_Scripts: https://github.com/derrian-distro/LoRA_Easy_Training_Scripts/tree/flux (ветка flux)
• SimpleTuner: https://github.com/bghira/SimpleTuner/blob/main/documentation/quickstart/FLUX.md
Пример конфига для LoRA_Easy_Training_Scripts: https://files.catbox.moe/du67iy.toml
Сгенерировать натуртекст описания картинок 1: https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha
Сгенерировать натуртекст описания картинок 2: https://github.com/MNeMoNiCuZ/joy-caption-batch (массовая обработка)
• sd-scripts: https://github.com/kohya-ss/sd-scripts/tree/sd3?tab=readme-ov-file#flux1-lora-training-wip (ветка sd3)
• LoRA_Easy_Training_Scripts: https://github.com/derrian-distro/LoRA_Easy_Training_Scripts/tree/flux (ветка flux)
• SimpleTuner: https://github.com/bghira/SimpleTuner/blob/main/documentation/quickstart/FLUX.md
Пример конфига для LoRA_Easy_Training_Scripts: https://files.catbox.moe/du67iy.toml
Сгенерировать натуртекст описания картинок 1: https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha
Сгенерировать натуртекст описания картинок 2: https://github.com/MNeMoNiCuZ/joy-caption-batch (массовая обработка)
Тренировка лор для Flux
• sd-scripts: https://github.com/kohya-ss/sd-scripts/tree/sd3?tab=readme-ov-file#flux1-lora-training-wip (ветка sd3)
• LoRA_Easy_Training_Scripts: https://github.com/derrian-distro/LoRA_Easy_Training_Scripts/tree/flux (ветка flux)
• SimpleTuner: https://github.com/bghira/SimpleTuner/blob/main/documentation/quickstart/FLUX.md
Пример конфига для LoRA_Easy_Training_Scripts: https://files.catbox.moe/du67iy.toml
Сгенерировать натуртекст описания картинок для Flux
• joy-caption-pre-alpha: https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha
• joy-caption-batch: https://github.com/MNeMoNiCuZ/joy-caption-batch (массовая обработка)
• sd-scripts: https://github.com/kohya-ss/sd-scripts/tree/sd3?tab=readme-ov-file#flux1-lora-training-wip (ветка sd3)
• LoRA_Easy_Training_Scripts: https://github.com/derrian-distro/LoRA_Easy_Training_Scripts/tree/flux (ветка flux)
• SimpleTuner: https://github.com/bghira/SimpleTuner/blob/main/documentation/quickstart/FLUX.md
Пример конфига для LoRA_Easy_Training_Scripts: https://files.catbox.moe/du67iy.toml
Сгенерировать натуртекст описания картинок для Flux
• joy-caption-pre-alpha: https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha
• joy-caption-batch: https://github.com/MNeMoNiCuZ/joy-caption-batch (массовая обработка)
https://docs.google.com/document/d/1YplACs392Q2gXlveiALReAs1RYyIONpklhng-GNoUTo/pub
Перевод от gemma-2-27b-it.i1-Q6_K
Всем привет! Наконец-то настало время для обновлений - я знаю, что прошло довольно много времени, и приношу извинения за задержку, но технические работы были приоритетом.
Тут много информации, поэтому проверьте TL;DR для каждого раздела, если вы спешите.
Базовая модель
TL;DR: Я буду обучать на AuraFlow, с FLUX в качестве резервного варианта.
В течение последних нескольких месяцев я оценивал несколько вариантов моделей и выбрал AuraFlow в качестве основной модели Pony Diffusion V7. Это надежная архитектура модели с отличным пониманием запросов, и она лицензирована под Apache 2, что соответствует нашим целям монетизации. Я очень впечатлен тем, что это проект одного человека; Симо проделывает потрясающую работу, и поддержка FAL вдохновляет и вызывает уважение, поэтому на личном уровне я восхищаюсь этим усилием и хочу, чтобы эта модель преуспела. Хотя у AF можно улучшить инструменты и эстетику, и в настоящее время у него нет 16-канального VAE, я уверен, что эти проблемы не являются фатальными, и некоторые из них можно решить со временем.
FLUX - самая горячая тема в последнее время, и здорово видеть, как original diffusion team возвращается к работе. Мои сомнения с FLUX заключается в его лицензировании и сложности обучения. Только версия FLUX.1-schnell лицензирована под Apache 2, что означает, что нам нужно будет обучать Pony Diffusion на дистиллированной модели, что, хотя и возможно, является неизученной территорией при создании тьюнов масштаба Pony. Радует, что инструменты быстро совершенствуются, но я остаюсь осторожным. FLUX - отличный запасной вариант, если AF по какой-либо причине не сработает, и я буду проводить с ним некоторые эксперименты.
Другие варианты включают SD3, который немного улучшил свою лицензию с тех пор, как последний раз обсуждался этот вопрос, но сама модель остается посредственной, особенно по сравнению с конкурентами. Я не вижу много надежды на направление SAI, хотя был бы рад ошибиться.
Я также ищу отзывы сообщества о версии SDXL. Она была моим основным кандидатом до появления AF и FLUX. Хотя я слышал, что некоторые пользователи все еще хотят вариант SDXL, я бы предпочел не вводить третью версию. Если AF или FLUX смогут удовлетворить спрос на производительность на оборудовании среднего класса с хорошими инструментами, вариант SDXL может оказаться ненужным, но я открыт вашим предложениям.
Еще одно: Open Model Initiative (OMI) - это то, за чем стоит следить. Это перспективное сотрудничество, направленное на создание полностью открытых моделей с исходным кодом, и несмотря на все доступные в настоящее время модели с разрешительной лицензией, по-прежнему не решена проблема создания полностью открытой модели от начала до конца. Я с удовольствием поделюсь своим опытом с группой, и хотя это не выйдет в ближайшее время, я взволнован перспективами.
Создание описаний для Pony V7
TL;DR: Pony теперь использует описания GPT-4 с передовыми возможностями распознавания символов и поддержкой NSFW, хотя создание описаний для такого большого набора данных занимает время.
Высококачественные описания критически важны для производительности модели, как мы видели на примере PD V6 и многих других новых моделей. Плохие описания могут подорвать даже лучшие модели, такие как AF или FLUX, поэтому моя цель – генерировать плотные, подробные описания, охватывающие весь диапазон содержания – нелегкая задача, учитывая, что большинство современных моделей "vision-language" (VLMs) либо цензурированы, либо не обладают необходимыми нам предметно-специфичными знаниями.
Для улучшения описаний я начал с усовершенствования основанных на тегах промптов, уже используемых в V6, чтобы лучше распознавать и фокусироваться на особых случаях, таких как имена персонажей. Мы также создали и отобрали более тысячи детальных и субъективных промптов для руководства вывода VLM, избегая распространенных ловушек, таких как фразы-заполнители ("На изображении изображено…").
Процесс оценки VLM был довольно трудоемким. Первым основным кандидатом был COG, с которым у меня в целом был положительный опыт. Он хорошо реагировал на промпты на основе тегов, был лишь слегка цензурирован и был восприимчив к файн-тьюнам. Однако качество описаний было немного ниже, чем я хотел, а получение соответствующей лицензии оказалось проблематичным, так как все мои попытки связаться остались без ответа.
Затем я исследовал Dolphin 72B, еще одну отличную модель без цензуры и даже лучшим выполнением промптов и общим знанием. Его основным недостатком была немного уступающая OCR по сравнению с COG, и он имел тенденцию создавать "милые" галлюцинации – добавляя осмысленные, но отсутствующие детали к изображениям. Хотя тонкая настройка Dolphin была сложной, она не была невозможной, и мы успешно сгенерировали первую партию описаний с помощью этой модели, хотя ее большой размер замедлил процесс.
К счастью, мне представили более компактную альтернативу, InternVL2, в частности, вариант 40B (также есть вариант 76B InternVL2, но в моих тестах он не показал заметного улучшения). Эта модель оказалась даже лучше, достигая уровня GPT-4 в создании описаний с лучшим пониманием приглашений, лучшим OCR, более глубокими предметно-специфичными знаниями и отсутствием цензуры. В результате этой оценки InternVL2 в настоящее время является основной моделью для создания описаний.
Также стоит упомянуть Florence-2. Из моих экспериментов это удивительная и чрезвычайно компактная модель. Однако она не обрабатывает сложные промпты на основе тегов так, как это могут делать другие VLMs, из-за другой архитектуры. Я могу использовать выходы более крупных моделей для обучения Florence-2 для более быстрого создания капшнов, и я очень взволнован перспективой иметь очень маленькую модель, такую как эта. Учитывая, что более крупные модели недоступны даже для высокопроизводительных потребительских GPU, наличие более компактной версии для помощи в создании капшнов для LoRAs критически важно.
Самая большая проблема – запуск создания описаний на всем обучающем наборе данных. Если вы компания (или подозрительно богатый любитель furry) и заинтересованы в том, чтобы быть представленными в выпуске V7 и имеете доступ к серверам с VRAM более 80 ГБ (или готовы арендовать такие), свяжитесь со мной на Civit или по адресуa!g6h ANUSpurplesma7AVrt PUNCTUMa1|Ei , чтобы обсудить возможности партнерства.
Перевод от gemma-2-27b-it.i1-Q6_K
Всем привет! Наконец-то настало время для обновлений - я знаю, что прошло довольно много времени, и приношу извинения за задержку, но технические работы были приоритетом.
Тут много информации, поэтому проверьте TL;DR для каждого раздела, если вы спешите.
Базовая модель
TL;DR: Я буду обучать на AuraFlow, с FLUX в качестве резервного варианта.
В течение последних нескольких месяцев я оценивал несколько вариантов моделей и выбрал AuraFlow в качестве основной модели Pony Diffusion V7. Это надежная архитектура модели с отличным пониманием запросов, и она лицензирована под Apache 2, что соответствует нашим целям монетизации. Я очень впечатлен тем, что это проект одного человека; Симо проделывает потрясающую работу, и поддержка FAL вдохновляет и вызывает уважение, поэтому на личном уровне я восхищаюсь этим усилием и хочу, чтобы эта модель преуспела. Хотя у AF можно улучшить инструменты и эстетику, и в настоящее время у него нет 16-канального VAE, я уверен, что эти проблемы не являются фатальными, и некоторые из них можно решить со временем.
FLUX - самая горячая тема в последнее время, и здорово видеть, как original diffusion team возвращается к работе. Мои сомнения с FLUX заключается в его лицензировании и сложности обучения. Только версия FLUX.1-schnell лицензирована под Apache 2, что означает, что нам нужно будет обучать Pony Diffusion на дистиллированной модели, что, хотя и возможно, является неизученной территорией при создании тьюнов масштаба Pony. Радует, что инструменты быстро совершенствуются, но я остаюсь осторожным. FLUX - отличный запасной вариант, если AF по какой-либо причине не сработает, и я буду проводить с ним некоторые эксперименты.
Другие варианты включают SD3, который немного улучшил свою лицензию с тех пор, как последний раз обсуждался этот вопрос, но сама модель остается посредственной, особенно по сравнению с конкурентами. Я не вижу много надежды на направление SAI, хотя был бы рад ошибиться.
Я также ищу отзывы сообщества о версии SDXL. Она была моим основным кандидатом до появления AF и FLUX. Хотя я слышал, что некоторые пользователи все еще хотят вариант SDXL, я бы предпочел не вводить третью версию. Если AF или FLUX смогут удовлетворить спрос на производительность на оборудовании среднего класса с хорошими инструментами, вариант SDXL может оказаться ненужным, но я открыт вашим предложениям.
Еще одно: Open Model Initiative (OMI) - это то, за чем стоит следить. Это перспективное сотрудничество, направленное на создание полностью открытых моделей с исходным кодом, и несмотря на все доступные в настоящее время модели с разрешительной лицензией, по-прежнему не решена проблема создания полностью открытой модели от начала до конца. Я с удовольствием поделюсь своим опытом с группой, и хотя это не выйдет в ближайшее время, я взволнован перспективами.
Создание описаний для Pony V7
TL;DR: Pony теперь использует описания GPT-4 с передовыми возможностями распознавания символов и поддержкой NSFW, хотя создание описаний для такого большого набора данных занимает время.
Высококачественные описания критически важны для производительности модели, как мы видели на примере PD V6 и многих других новых моделей. Плохие описания могут подорвать даже лучшие модели, такие как AF или FLUX, поэтому моя цель – генерировать плотные, подробные описания, охватывающие весь диапазон содержания – нелегкая задача, учитывая, что большинство современных моделей "vision-language" (VLMs) либо цензурированы, либо не обладают необходимыми нам предметно-специфичными знаниями.
Для улучшения описаний я начал с усовершенствования основанных на тегах промптов, уже используемых в V6, чтобы лучше распознавать и фокусироваться на особых случаях, таких как имена персонажей. Мы также создали и отобрали более тысячи детальных и субъективных промптов для руководства вывода VLM, избегая распространенных ловушек, таких как фразы-заполнители ("На изображении изображено…").
Процесс оценки VLM был довольно трудоемким. Первым основным кандидатом был COG, с которым у меня в целом был положительный опыт. Он хорошо реагировал на промпты на основе тегов, был лишь слегка цензурирован и был восприимчив к файн-тьюнам. Однако качество описаний было немного ниже, чем я хотел, а получение соответствующей лицензии оказалось проблематичным, так как все мои попытки связаться остались без ответа.
Затем я исследовал Dolphin 72B, еще одну отличную модель без цензуры и даже лучшим выполнением промптов и общим знанием. Его основным недостатком была немного уступающая OCR по сравнению с COG, и он имел тенденцию создавать "милые" галлюцинации – добавляя осмысленные, но отсутствующие детали к изображениям. Хотя тонкая настройка Dolphin была сложной, она не была невозможной, и мы успешно сгенерировали первую партию описаний с помощью этой модели, хотя ее большой размер замедлил процесс.
К счастью, мне представили более компактную альтернативу, InternVL2, в частности, вариант 40B (также есть вариант 76B InternVL2, но в моих тестах он не показал заметного улучшения). Эта модель оказалась даже лучше, достигая уровня GPT-4 в создании описаний с лучшим пониманием приглашений, лучшим OCR, более глубокими предметно-специфичными знаниями и отсутствием цензуры. В результате этой оценки InternVL2 в настоящее время является основной моделью для создания описаний.
Также стоит упомянуть Florence-2. Из моих экспериментов это удивительная и чрезвычайно компактная модель. Однако она не обрабатывает сложные промпты на основе тегов так, как это могут делать другие VLMs, из-за другой архитектуры. Я могу использовать выходы более крупных моделей для обучения Florence-2 для более быстрого создания капшнов, и я очень взволнован перспективой иметь очень маленькую модель, такую как эта. Учитывая, что более крупные модели недоступны даже для высокопроизводительных потребительских GPU, наличие более компактной версии для помощи в создании капшнов для LoRAs критически важно.
Самая большая проблема – запуск создания описаний на всем обучающем наборе данных. Если вы компания (или подозрительно богатый любитель furry) и заинтересованы в том, чтобы быть представленными в выпуске V7 и имеете доступ к серверам с VRAM более 80 ГБ (или готовы арендовать такие), свяжитесь со мной на Civit или по адресу
https://docs.google.com/document/d/1YplACs392Q2gXlveiALReAs1RYyIONpklhng-GNoUTo/pub
Перевод от gemma-2-27b-it.i1-Q6_K
Всем привет! Наконец-то настало время для обновлений - я знаю, что прошло довольно много времени, и приношу извинения за задержку, но технические работы были приоритетом.
Тут много информации, поэтому проверьте TL;DR для каждого раздела, если вы спешите.
Базовая модель
TL;DR: Я буду обучать на AuraFlow, с FLUX в качестве резервного варианта.
В течение последних нескольких месяцев я оценивал несколько вариантов моделей и выбрал AuraFlow в качестве основной модели Pony Diffusion V7. Это надежная архитектура модели с отличным пониманием запросов, и она лицензирована под Apache 2, что соответствует нашим целям монетизации. Я очень впечатлен тем, что это проект одного человека; Симо проделывает потрясающую работу, и поддержка FAL вдохновляет и вызывает уважение, поэтому на личном уровне я восхищаюсь этим усилием и хочу, чтобы эта модель преуспела. Хотя у AF можно улучшить инструменты и эстетику, и в настоящее время у него нет 16-канального VAE, я уверен, что эти проблемы не являются фатальными, и некоторые из них можно решить со временем.
FLUX - самая горячая тема в последнее время, и здорово видеть, как original diffusion team возвращается к работе. Мои сомнения с FLUX заключается в его лицензировании и сложности обучения. Только версия FLUX.1-schnell лицензирована под Apache 2, что означает, что нам нужно будет обучать Pony Diffusion на дистиллированной модели, что, хотя и возможно, является неизученной территорией при создании тьюнов масштаба Pony. Радует, что инструменты быстро совершенствуются, но я остаюсь осторожным. FLUX - отличный запасной вариант, если AF по какой-либо причине не сработает, и я буду проводить с ним некоторые эксперименты.
Другие варианты включают SD3, который немного улучшил свою лицензию с тех пор, как последний раз обсуждался этот вопрос, но сама модель остается посредственной, особенно по сравнению с конкурентами. Я не вижу много надежды на направление SAI, хотя был бы рад ошибиться.
Я также ищу отзывы сообщества о версии SDXL. Она была моим основным кандидатом до появления AF и FLUX. Хотя я слышал, что некоторые пользователи все еще хотят вариант SDXL, я бы предпочел не вводить третью версию. Если AF или FLUX смогут удовлетворить спрос на производительность на оборудовании среднего класса с хорошими инструментами, вариант SDXL может оказаться ненужным, но я открыт вашим предложениям.
Еще одно: Open Model Initiative (OMI) - это то, за чем стоит следить. Это перспективное сотрудничество, направленное на создание полностью открытых моделей с исходным кодом, и несмотря на все доступные в настоящее время модели с разрешительной лицензией, по-прежнему не решена проблема создания полностью открытой модели от начала до конца. Я с удовольствием поделюсь своим опытом с группой, и хотя это не выйдет в ближайшее время, я взволнован перспективами.
Создание описаний для Pony V7
TL;DR: Pony теперь использует описания GPT-4 с передовыми возможностями распознавания символов и поддержкой NSFW, хотя создание описаний для такого большого набора данных занимает время.
Высококачественные описания критически важны для производительности модели, как мы видели на примере PD V6 и многих других новых моделей. Плохие описания могут подорвать даже лучшие модели, такие как AF или FLUX, поэтому моя цель – генерировать плотные, подробные описания, охватывающие весь диапазон содержания – нелегкая задача, учитывая, что большинство современных моделей "vision-language" (VLMs) либо цензурированы, либо не обладают необходимыми нам предметно-специфичными знаниями.
Для улучшения описаний я начал с усовершенствования основанных на тегах промптов, уже используемых в V6, чтобы лучше распознавать и фокусироваться на особых случаях, таких как имена персонажей. Мы также создали и отобрали более тысячи детальных и субъективных промптов для руководства вывода VLM, избегая распространенных ловушек, таких как фразы-заполнители ("На изображении изображено…").
Процесс оценки VLM был довольно трудоемким. Первым основным кандидатом был COG, с которым у меня в целом был положительный опыт. Он хорошо реагировал на промпты на основе тегов, был лишь слегка цензурирован и был восприимчив к файн-тьюнам. Однако качество описаний было немного ниже, чем я хотел, а получение соответствующей лицензии оказалось проблематичным, так как все мои попытки связаться остались без ответа.
Затем я исследовал Dolphin 72B, еще одну отличную модель без цензуры и даже лучшим выполнением промптов и общим знанием. Его основным недостатком была немного уступающая OCR по сравнению с COG, и он имел тенденцию создавать "милые" галлюцинации – добавляя осмысленные, но отсутствующие детали к изображениям. Хотя тонкая настройка Dolphin была сложной, она не была невозможной, и мы успешно сгенерировали первую партию описаний с помощью этой модели, хотя ее большой размер замедлил процесс.
К счастью, мне представили более компактную альтернативу, InternVL2, в частности, вариант 40B (также есть вариант 76B InternVL2, но в моих тестах он не показал заметного улучшения). Эта модель оказалась даже лучше, достигая уровня GPT-4 в создании описаний с лучшим пониманием приглашений, лучшим OCR, более глубокими предметно-специфичными знаниями и отсутствием цензуры. В результате этой оценки InternVL2 в настоящее время является основной моделью для создания описаний.
Также стоит упомянуть Florence-2. Из моих экспериментов это удивительная и чрезвычайно компактная модель. Однако она не обрабатывает сложные промпты на основе тегов так, как это могут делать другие VLMs, из-за другой архитектуры. Я могу использовать выходы более крупных моделей для обучения Florence-2 для более быстрого создания капшнов, и я очень взволнован перспективой иметь очень маленькую модель, такую как эта. Учитывая, что более крупные модели недоступны даже для высокопроизводительных потребительских GPU, наличие более компактной версии для помощи в создании капшнов для LoRAs критически важно.
Самая большая проблема – запуск создания описаний на всем обучающем наборе данных. Если вы компания (или подозрительно богатый любитель furry) и заинтересованы в том, чтобы быть представленными в выпуске V7 и имеете доступ к серверам с VRAM более 80 ГБ (или готовы арендовать такие), свяжитесь со мной на Civit или по адресуa!g6h ANUSpurplesma7AVrt PUNCTUMa1|Ei , чтобы обсудить возможности партнерства.
Перевод от gemma-2-27b-it.i1-Q6_K
Всем привет! Наконец-то настало время для обновлений - я знаю, что прошло довольно много времени, и приношу извинения за задержку, но технические работы были приоритетом.
Тут много информации, поэтому проверьте TL;DR для каждого раздела, если вы спешите.
Базовая модель
TL;DR: Я буду обучать на AuraFlow, с FLUX в качестве резервного варианта.
В течение последних нескольких месяцев я оценивал несколько вариантов моделей и выбрал AuraFlow в качестве основной модели Pony Diffusion V7. Это надежная архитектура модели с отличным пониманием запросов, и она лицензирована под Apache 2, что соответствует нашим целям монетизации. Я очень впечатлен тем, что это проект одного человека; Симо проделывает потрясающую работу, и поддержка FAL вдохновляет и вызывает уважение, поэтому на личном уровне я восхищаюсь этим усилием и хочу, чтобы эта модель преуспела. Хотя у AF можно улучшить инструменты и эстетику, и в настоящее время у него нет 16-канального VAE, я уверен, что эти проблемы не являются фатальными, и некоторые из них можно решить со временем.
FLUX - самая горячая тема в последнее время, и здорово видеть, как original diffusion team возвращается к работе. Мои сомнения с FLUX заключается в его лицензировании и сложности обучения. Только версия FLUX.1-schnell лицензирована под Apache 2, что означает, что нам нужно будет обучать Pony Diffusion на дистиллированной модели, что, хотя и возможно, является неизученной территорией при создании тьюнов масштаба Pony. Радует, что инструменты быстро совершенствуются, но я остаюсь осторожным. FLUX - отличный запасной вариант, если AF по какой-либо причине не сработает, и я буду проводить с ним некоторые эксперименты.
Другие варианты включают SD3, который немного улучшил свою лицензию с тех пор, как последний раз обсуждался этот вопрос, но сама модель остается посредственной, особенно по сравнению с конкурентами. Я не вижу много надежды на направление SAI, хотя был бы рад ошибиться.
Я также ищу отзывы сообщества о версии SDXL. Она была моим основным кандидатом до появления AF и FLUX. Хотя я слышал, что некоторые пользователи все еще хотят вариант SDXL, я бы предпочел не вводить третью версию. Если AF или FLUX смогут удовлетворить спрос на производительность на оборудовании среднего класса с хорошими инструментами, вариант SDXL может оказаться ненужным, но я открыт вашим предложениям.
Еще одно: Open Model Initiative (OMI) - это то, за чем стоит следить. Это перспективное сотрудничество, направленное на создание полностью открытых моделей с исходным кодом, и несмотря на все доступные в настоящее время модели с разрешительной лицензией, по-прежнему не решена проблема создания полностью открытой модели от начала до конца. Я с удовольствием поделюсь своим опытом с группой, и хотя это не выйдет в ближайшее время, я взволнован перспективами.
Создание описаний для Pony V7
TL;DR: Pony теперь использует описания GPT-4 с передовыми возможностями распознавания символов и поддержкой NSFW, хотя создание описаний для такого большого набора данных занимает время.
Высококачественные описания критически важны для производительности модели, как мы видели на примере PD V6 и многих других новых моделей. Плохие описания могут подорвать даже лучшие модели, такие как AF или FLUX, поэтому моя цель – генерировать плотные, подробные описания, охватывающие весь диапазон содержания – нелегкая задача, учитывая, что большинство современных моделей "vision-language" (VLMs) либо цензурированы, либо не обладают необходимыми нам предметно-специфичными знаниями.
Для улучшения описаний я начал с усовершенствования основанных на тегах промптов, уже используемых в V6, чтобы лучше распознавать и фокусироваться на особых случаях, таких как имена персонажей. Мы также создали и отобрали более тысячи детальных и субъективных промптов для руководства вывода VLM, избегая распространенных ловушек, таких как фразы-заполнители ("На изображении изображено…").
Процесс оценки VLM был довольно трудоемким. Первым основным кандидатом был COG, с которым у меня в целом был положительный опыт. Он хорошо реагировал на промпты на основе тегов, был лишь слегка цензурирован и был восприимчив к файн-тьюнам. Однако качество описаний было немного ниже, чем я хотел, а получение соответствующей лицензии оказалось проблематичным, так как все мои попытки связаться остались без ответа.
Затем я исследовал Dolphin 72B, еще одну отличную модель без цензуры и даже лучшим выполнением промптов и общим знанием. Его основным недостатком была немного уступающая OCR по сравнению с COG, и он имел тенденцию создавать "милые" галлюцинации – добавляя осмысленные, но отсутствующие детали к изображениям. Хотя тонкая настройка Dolphin была сложной, она не была невозможной, и мы успешно сгенерировали первую партию описаний с помощью этой модели, хотя ее большой размер замедлил процесс.
К счастью, мне представили более компактную альтернативу, InternVL2, в частности, вариант 40B (также есть вариант 76B InternVL2, но в моих тестах он не показал заметного улучшения). Эта модель оказалась даже лучше, достигая уровня GPT-4 в создании описаний с лучшим пониманием приглашений, лучшим OCR, более глубокими предметно-специфичными знаниями и отсутствием цензуры. В результате этой оценки InternVL2 в настоящее время является основной моделью для создания описаний.
Также стоит упомянуть Florence-2. Из моих экспериментов это удивительная и чрезвычайно компактная модель. Однако она не обрабатывает сложные промпты на основе тегов так, как это могут делать другие VLMs, из-за другой архитектуры. Я могу использовать выходы более крупных моделей для обучения Florence-2 для более быстрого создания капшнов, и я очень взволнован перспективой иметь очень маленькую модель, такую как эта. Учитывая, что более крупные модели недоступны даже для высокопроизводительных потребительских GPU, наличие более компактной версии для помощи в создании капшнов для LoRAs критически важно.
Самая большая проблема – запуск создания описаний на всем обучающем наборе данных. Если вы компания (или подозрительно богатый любитель furry) и заинтересованы в том, чтобы быть представленными в выпуске V7 и имеете доступ к серверам с VRAM более 80 ГБ (или готовы арендовать такие), свяжитесь со мной на Civit или по адресу
Классификатор эстетики
TL;DR: Классификатор V6 хорошо работает с V7, но был обновлён для учета новых типов данных.
Я рекомендую ознакомиться с "Что такое score_9 и как его использовать в Pony Diffusion" для понимания контекста, что такое классификатор эстетики и почему он важен для Pony Diffusion. При обучении V5/V6 я использовал классификатор на основе CLIP, в конечном итоге остановившись на версии ViT-L/14 CLIP, которая является самой большой и последней моделью, выпущенной OpenAI. Хотя в целом я был доволен его производительностью, у меня были опасения, что я могу использовать неподходящий инструмент для задачи или не использовать лучшую модель CLIP, так как после моделей OAI было выпущено много версий.
Перед выбором изображений для V7 я провел обширное тестирование с различными моделями CLIP и Visual Transformers. Я обнаружил, что модели ViT, хотя и демонстрируют высокую производительность, не обладают выравниванием с эстетическим пониманием, поскольку они не были подвержены эстетическим образцам в масштабе моделей CLIP и более требовательны к данным. Например, они ранжировали определенные визуальные элементы, такие как определенные позы, непропорционально высоко, независимо от других факторов, как только я добавлял несколько подобных оценок к очень разным изображениям с использованием подобных поз. Несмотря на попытки вручную скорректировать это, просматривая большую выборку различий между старыми и новыми моделями и добавляя больше человеческих данных, это превратилось в игру Whac-A-Mole.
Напротив, несколько моделей CLIP, от самых маленьких до самых больших, таких как EVA-02, с самого начала показали лучшее выравнивание с эстетическим пониманием. Однако их общая производительность не была такой точной, как у ViT или старой модели. В отчаянии я портировал старую модель OpenAI ViT-L/14 CLIP в свой новый пайплайн и немедленно увидел лучшие результаты. Моя теория заключается в том, что хотя он хуже выполнял тестовые задания, OAI обучил модель на гораздо более разнообразном наборе данных, что лучше работает в реальных задачах. Хотя мне было немного горько "терять" столько времени, я рад подтвердить, что подход, который я использовал для V6, был обоснован и до сих пор полезен.
В качестве последнего шага я добавил 10 000 дополнительных человеческих оценок для лучшего охвата фотореалистичных изображений, и я также начал отдельный канал сбора обратной связи от людей на основе Elo для получения более точных оценок (выбирая лучшее изображение из двух одинаково ранжированных), но потребуется некоторое время, чтобы это принесло ощутимый результат.
Я выпущу классификатор после выпуска V7, чтобы вы могли добавлять эстетические данные в свои подсказки при обучении LoRAs или мёрджей.
Супер-Художники
TL;DR: V7 будет предлагать обобщенные стили без прямого копирования стиля конкретных художников.
Pony всегда прокладывала свой уникальный путь, что, надеюсь, способствовало её успеху. Одной из отличительных особенностей модели является избегание стилей конкретных художников; однако слабый контроль над стилем, который предлагает Pony, был явно недостаточен, о чём свидетельствует популярность различных LoRA, реализующих как общие, так и специфические стили художников. Улучшение контроля над стилем всегда было одним из основных приоритетов для V7.
В качестве первого шага я разработал новую модель, способную различать стили художников, используя методы чем-то похожие на те, которые используются в эстетических классификаторах. Я оценил несколько архитектур на основе ViTs и CLIP, различных стратегий fine-tuning и использования различных типов встраиваний. В отличие от проблем, с которыми я столкнулся с эстетическими классификаторами, для этой задачи у меня был доступ к гораздо большему объёму данных, что оказалось решающим для разблокировки производительности ViTs.
Интересным открытием стало разнообразие в работах некоторых художников. Я всегда ожидал, что у художников будет более одного отчетливого стиля, т. е. «sketch» против «full color», но большинство художников у кого есть хотя бы несколько десятков работ демонстрировали более двух основных стилистических кластеров и длинный хвост «экспериментальных».
Теперь, будучи оснащенной сетью, способной создавать эмбеддинги художников, я могу группировать и тегировать изображения в наборе данных для обучения более общими, но разнообразными стилями, такими как 'anime_42'. Все еще требуется выполнить некоторую работу, чтобы убедиться, что эти кластеры не близко имитируют существующих художников, но в целом результаты многообещающие, и я считаю, что эта область в значительной степени лишена риска. Нам придется подождать, пока модель будет обучена, чтобы полностью оценить ее влияние, но на данный момент я довольно оптимистичен.
Я также работаю над планом Б на случай, если это не сработает хорошо, в дополнение к текстовым описаниям контента, я добавлю описание стиля, которое сосредоточено исключительно на описании стиля и художественных свойств изображений.
Хотя я еще не принял окончательное решение, я рассматриваю возможность выпуска инструментов, которые позволят пользователям обнаруживать похожие стили на основе конкретного входного изображения, упрощая обнаружение стилей.
Набор данных
TL;DR: Лучший выбор данных означает, что Pony теперь может справляться и с реализмом.
Я почти закончил отбор 10 миллионов высококачественных изображений из набора данных более 30 миллионов, при этом 8 миллионов уже выбраны. В наборе данных теперь представлено больше аниме, обновлен контент по пони/фурри/мультфильмам, и впервые - значительные дополнения к фотографиям. В целом, набор данных был сбалансирован, чтобы стать немного менее NSFW. Я также добавил экспериментальные функции, такие как теги цветовой палитры сцены для лучшего управления цветом, и список "блокировок" художников был обновлен, чтобы ловить больше случаев, когда имена персонажей определяются как художники и удаляются.
Я предоставлю более подробный обзор, когда отбор будет завершен, но на данный момент модель состоит из следующих основных компонентов: 10% пони, 10% фурри, 20% западных мультфильмов, 25% аниме, 25% реализма и оставшиеся 10% - прочие данные. Вас может удивить то, что количество контента пони меньше, чем в V6 (особенно учитывая, что мы Pony Diffusion), но это относительные числа, и у нас на самом деле есть гораздо больше контента каждого типа. Просто в некоторых областях мы "закончили", то есть не осталось много высококачественных изображений, которые можно добавить.
Остается еще немного работы, чтобы подтвердить, что все данные соответствуют нашей рамке безопасности, но на данный момент большая часть работы завершена. Мы выпустим классификаторы безопасности и кодекс персонажа после V7 в рамках нашей приверженности безопасности.
Следующие шаги и планы на будущее
TL;DR: Обучение близко.
Небольшое мелкомасштабное дообучение начнется через несколько дней, чтобы убедиться, что пайплайн для обучения готов. В то время как настройки эстетического классификатора, описание и кэширование VAE все еще ведутся, я близок к запуску полномасштабного обучения. Я ценю ваше терпение и надеюсь, что мы сможем снова поймать молнию в бутылке.
И напоследок: я очень взволнован состоянием инфраструктуры и наборов данных, с которыми я работаю. Переход от V6 к V7 потребовал много переосмысления и переработки, но я наконец доволен процессом и ожидаю, что последующие версии потребуют гораздо меньше времени на подготовку. Мне также удалось собрать огромное количество видеоматериалов для обучения, поэтому я взволнован перспективами T2V в будущем.
Если вам нравится пользоваться Pony Diffusion и хотите поддержать его, пожалуйста, присоединитесь к нашему Discord (вы даже можете подписаться, чтобы помочь проекту), или продолжайте пользоваться генератором Civit, так как он теперь делится buzz'ами с создателями (и вы даже можете увеличить долю создателя, увеличив чаевые).
TL;DR: Классификатор V6 хорошо работает с V7, но был обновлён для учета новых типов данных.
Я рекомендую ознакомиться с "Что такое score_9 и как его использовать в Pony Diffusion" для понимания контекста, что такое классификатор эстетики и почему он важен для Pony Diffusion. При обучении V5/V6 я использовал классификатор на основе CLIP, в конечном итоге остановившись на версии ViT-L/14 CLIP, которая является самой большой и последней моделью, выпущенной OpenAI. Хотя в целом я был доволен его производительностью, у меня были опасения, что я могу использовать неподходящий инструмент для задачи или не использовать лучшую модель CLIP, так как после моделей OAI было выпущено много версий.
Перед выбором изображений для V7 я провел обширное тестирование с различными моделями CLIP и Visual Transformers. Я обнаружил, что модели ViT, хотя и демонстрируют высокую производительность, не обладают выравниванием с эстетическим пониманием, поскольку они не были подвержены эстетическим образцам в масштабе моделей CLIP и более требовательны к данным. Например, они ранжировали определенные визуальные элементы, такие как определенные позы, непропорционально высоко, независимо от других факторов, как только я добавлял несколько подобных оценок к очень разным изображениям с использованием подобных поз. Несмотря на попытки вручную скорректировать это, просматривая большую выборку различий между старыми и новыми моделями и добавляя больше человеческих данных, это превратилось в игру Whac-A-Mole.
Напротив, несколько моделей CLIP, от самых маленьких до самых больших, таких как EVA-02, с самого начала показали лучшее выравнивание с эстетическим пониманием. Однако их общая производительность не была такой точной, как у ViT или старой модели. В отчаянии я портировал старую модель OpenAI ViT-L/14 CLIP в свой новый пайплайн и немедленно увидел лучшие результаты. Моя теория заключается в том, что хотя он хуже выполнял тестовые задания, OAI обучил модель на гораздо более разнообразном наборе данных, что лучше работает в реальных задачах. Хотя мне было немного горько "терять" столько времени, я рад подтвердить, что подход, который я использовал для V6, был обоснован и до сих пор полезен.
В качестве последнего шага я добавил 10 000 дополнительных человеческих оценок для лучшего охвата фотореалистичных изображений, и я также начал отдельный канал сбора обратной связи от людей на основе Elo для получения более точных оценок (выбирая лучшее изображение из двух одинаково ранжированных), но потребуется некоторое время, чтобы это принесло ощутимый результат.
Я выпущу классификатор после выпуска V7, чтобы вы могли добавлять эстетические данные в свои подсказки при обучении LoRAs или мёрджей.
Супер-Художники
TL;DR: V7 будет предлагать обобщенные стили без прямого копирования стиля конкретных художников.
Pony всегда прокладывала свой уникальный путь, что, надеюсь, способствовало её успеху. Одной из отличительных особенностей модели является избегание стилей конкретных художников; однако слабый контроль над стилем, который предлагает Pony, был явно недостаточен, о чём свидетельствует популярность различных LoRA, реализующих как общие, так и специфические стили художников. Улучшение контроля над стилем всегда было одним из основных приоритетов для V7.
В качестве первого шага я разработал новую модель, способную различать стили художников, используя методы чем-то похожие на те, которые используются в эстетических классификаторах. Я оценил несколько архитектур на основе ViTs и CLIP, различных стратегий fine-tuning и использования различных типов встраиваний. В отличие от проблем, с которыми я столкнулся с эстетическими классификаторами, для этой задачи у меня был доступ к гораздо большему объёму данных, что оказалось решающим для разблокировки производительности ViTs.
Интересным открытием стало разнообразие в работах некоторых художников. Я всегда ожидал, что у художников будет более одного отчетливого стиля, т. е. «sketch» против «full color», но большинство художников у кого есть хотя бы несколько десятков работ демонстрировали более двух основных стилистических кластеров и длинный хвост «экспериментальных».
Теперь, будучи оснащенной сетью, способной создавать эмбеддинги художников, я могу группировать и тегировать изображения в наборе данных для обучения более общими, но разнообразными стилями, такими как 'anime_42'. Все еще требуется выполнить некоторую работу, чтобы убедиться, что эти кластеры не близко имитируют существующих художников, но в целом результаты многообещающие, и я считаю, что эта область в значительной степени лишена риска. Нам придется подождать, пока модель будет обучена, чтобы полностью оценить ее влияние, но на данный момент я довольно оптимистичен.
Я также работаю над планом Б на случай, если это не сработает хорошо, в дополнение к текстовым описаниям контента, я добавлю описание стиля, которое сосредоточено исключительно на описании стиля и художественных свойств изображений.
Хотя я еще не принял окончательное решение, я рассматриваю возможность выпуска инструментов, которые позволят пользователям обнаруживать похожие стили на основе конкретного входного изображения, упрощая обнаружение стилей.
Набор данных
TL;DR: Лучший выбор данных означает, что Pony теперь может справляться и с реализмом.
Я почти закончил отбор 10 миллионов высококачественных изображений из набора данных более 30 миллионов, при этом 8 миллионов уже выбраны. В наборе данных теперь представлено больше аниме, обновлен контент по пони/фурри/мультфильмам, и впервые - значительные дополнения к фотографиям. В целом, набор данных был сбалансирован, чтобы стать немного менее NSFW. Я также добавил экспериментальные функции, такие как теги цветовой палитры сцены для лучшего управления цветом, и список "блокировок" художников был обновлен, чтобы ловить больше случаев, когда имена персонажей определяются как художники и удаляются.
Я предоставлю более подробный обзор, когда отбор будет завершен, но на данный момент модель состоит из следующих основных компонентов: 10% пони, 10% фурри, 20% западных мультфильмов, 25% аниме, 25% реализма и оставшиеся 10% - прочие данные. Вас может удивить то, что количество контента пони меньше, чем в V6 (особенно учитывая, что мы Pony Diffusion), но это относительные числа, и у нас на самом деле есть гораздо больше контента каждого типа. Просто в некоторых областях мы "закончили", то есть не осталось много высококачественных изображений, которые можно добавить.
Остается еще немного работы, чтобы подтвердить, что все данные соответствуют нашей рамке безопасности, но на данный момент большая часть работы завершена. Мы выпустим классификаторы безопасности и кодекс персонажа после V7 в рамках нашей приверженности безопасности.
Следующие шаги и планы на будущее
TL;DR: Обучение близко.
Небольшое мелкомасштабное дообучение начнется через несколько дней, чтобы убедиться, что пайплайн для обучения готов. В то время как настройки эстетического классификатора, описание и кэширование VAE все еще ведутся, я близок к запуску полномасштабного обучения. Я ценю ваше терпение и надеюсь, что мы сможем снова поймать молнию в бутылке.
И напоследок: я очень взволнован состоянием инфраструктуры и наборов данных, с которыми я работаю. Переход от V6 к V7 потребовал много переосмысления и переработки, но я наконец доволен процессом и ожидаю, что последующие версии потребуют гораздо меньше времени на подготовку. Мне также удалось собрать огромное количество видеоматериалов для обучения, поэтому я взволнован перспективами T2V в будущем.
Если вам нравится пользоваться Pony Diffusion и хотите поддержать его, пожалуйста, присоединитесь к нашему Discord (вы даже можете подписаться, чтобы помочь проекту), или продолжайте пользоваться генератором Civit, так как он теперь делится buzz'ами с создателями (и вы даже можете увеличить долю создателя, увеличив чаевые).
Классификатор эстетики
TL;DR: Классификатор V6 хорошо работает с V7, но был обновлён для учета новых типов данных.
Я рекомендую ознакомиться с "Что такое score_9 и как его использовать в Pony Diffusion" для понимания контекста, что такое классификатор эстетики и почему он важен для Pony Diffusion. При обучении V5/V6 я использовал классификатор на основе CLIP, в конечном итоге остановившись на версии ViT-L/14 CLIP, которая является самой большой и последней моделью, выпущенной OpenAI. Хотя в целом я был доволен его производительностью, у меня были опасения, что я могу использовать неподходящий инструмент для задачи или не использовать лучшую модель CLIP, так как после моделей OAI было выпущено много версий.
Перед выбором изображений для V7 я провел обширное тестирование с различными моделями CLIP и Visual Transformers. Я обнаружил, что модели ViT, хотя и демонстрируют высокую производительность, не обладают выравниванием с эстетическим пониманием, поскольку они не были подвержены эстетическим образцам в масштабе моделей CLIP и более требовательны к данным. Например, они ранжировали определенные визуальные элементы, такие как определенные позы, непропорционально высоко, независимо от других факторов, как только я добавлял несколько подобных оценок к очень разным изображениям с использованием подобных поз. Несмотря на попытки вручную скорректировать это, просматривая большую выборку различий между старыми и новыми моделями и добавляя больше человеческих данных, это превратилось в игру Whac-A-Mole.
Напротив, несколько моделей CLIP, от самых маленьких до самых больших, таких как EVA-02, с самого начала показали лучшее выравнивание с эстетическим пониманием. Однако их общая производительность не была такой точной, как у ViT или старой модели. В отчаянии я портировал старую модель OpenAI ViT-L/14 CLIP в свой новый пайплайн и немедленно увидел лучшие результаты. Моя теория заключается в том, что хотя он хуже выполнял тестовые задания, OAI обучил модель на гораздо более разнообразном наборе данных, что лучше работает в реальных задачах. Хотя мне было немного горько "терять" столько времени, я рад подтвердить, что подход, который я использовал для V6, был обоснован и до сих пор полезен.
В качестве последнего шага я добавил 10 000 дополнительных человеческих оценок для лучшего охвата фотореалистичных изображений, и я также начал отдельный канал сбора обратной связи от людей на основе Elo для получения более точных оценок (выбирая лучшее изображение из двух одинаково ранжированных), но потребуется некоторое время, чтобы это принесло ощутимый результат.
Я выпущу классификатор после выпуска V7, чтобы вы могли добавлять эстетические данные в свои подсказки при обучении LoRAs или мёрджей.
Супер-Художники
TL;DR: V7 будет предлагать обобщенные стили без прямого копирования стиля конкретных художников.
Pony всегда прокладывала свой уникальный путь, что, надеюсь, способствовало её успеху. Одной из отличительных особенностей модели является избегание стилей конкретных художников; однако слабый контроль над стилем, который предлагает Pony, был явно недостаточен, о чём свидетельствует популярность различных LoRA, реализующих как общие, так и специфические стили художников. Улучшение контроля над стилем всегда было одним из основных приоритетов для V7.
В качестве первого шага я разработал новую модель, способную различать стили художников, используя методы чем-то похожие на те, которые используются в эстетических классификаторах. Я оценил несколько архитектур на основе ViTs и CLIP, различных стратегий fine-tuning и использования различных типов встраиваний. В отличие от проблем, с которыми я столкнулся с эстетическими классификаторами, для этой задачи у меня был доступ к гораздо большему объёму данных, что оказалось решающим для разблокировки производительности ViTs.
Интересным открытием стало разнообразие в работах некоторых художников. Я всегда ожидал, что у художников будет более одного отчетливого стиля, т. е. «sketch» против «full color», но большинство художников у кого есть хотя бы несколько десятков работ демонстрировали более двух основных стилистических кластеров и длинный хвост «экспериментальных».
Теперь, будучи оснащенной сетью, способной создавать эмбеддинги художников, я могу группировать и тегировать изображения в наборе данных для обучения более общими, но разнообразными стилями, такими как 'anime_42'. Все еще требуется выполнить некоторую работу, чтобы убедиться, что эти кластеры не близко имитируют существующих художников, но в целом результаты многообещающие, и я считаю, что эта область в значительной степени лишена риска. Нам придется подождать, пока модель будет обучена, чтобы полностью оценить ее влияние, но на данный момент я довольно оптимистичен.
Я также работаю над планом Б на случай, если это не сработает хорошо, в дополнение к текстовым описаниям контента, я добавлю описание стиля, которое сосредоточено исключительно на описании стиля и художественных свойств изображений.
Хотя я еще не принял окончательное решение, я рассматриваю возможность выпуска инструментов, которые позволят пользователям обнаруживать похожие стили на основе конкретного входного изображения, упрощая обнаружение стилей.
Набор данных
TL;DR: Лучший выбор данных означает, что Pony теперь может справляться и с реализмом.
Я почти закончил отбор 10 миллионов высококачественных изображений из набора данных более 30 миллионов, при этом 8 миллионов уже выбраны. В наборе данных теперь представлено больше аниме, обновлен контент по пони/фурри/мультфильмам, и впервые - значительные дополнения к фотографиям. В целом, набор данных был сбалансирован, чтобы стать немного менее NSFW. Я также добавил экспериментальные функции, такие как теги цветовой палитры сцены для лучшего управления цветом, и список "блокировок" художников был обновлен, чтобы ловить больше случаев, когда имена персонажей определяются как художники и удаляются.
Я предоставлю более подробный обзор, когда отбор будет завершен, но на данный момент модель состоит из следующих основных компонентов: 10% пони, 10% фурри, 20% западных мультфильмов, 25% аниме, 25% реализма и оставшиеся 10% - прочие данные. Вас может удивить то, что количество контента пони меньше, чем в V6 (особенно учитывая, что мы Pony Diffusion), но это относительные числа, и у нас на самом деле есть гораздо больше контента каждого типа. Просто в некоторых областях мы "закончили", то есть не осталось много высококачественных изображений, которые можно добавить.
Остается еще немного работы, чтобы подтвердить, что все данные соответствуют нашей рамке безопасности, но на данный момент большая часть работы завершена. Мы выпустим классификаторы безопасности и кодекс персонажа после V7 в рамках нашей приверженности безопасности.
Следующие шаги и планы на будущее
TL;DR: Обучение близко.
Небольшое мелкомасштабное дообучение начнется через несколько дней, чтобы убедиться, что пайплайн для обучения готов. В то время как настройки эстетического классификатора, описание и кэширование VAE все еще ведутся, я близок к запуску полномасштабного обучения. Я ценю ваше терпение и надеюсь, что мы сможем снова поймать молнию в бутылке.
И напоследок: я очень взволнован состоянием инфраструктуры и наборов данных, с которыми я работаю. Переход от V6 к V7 потребовал много переосмысления и переработки, но я наконец доволен процессом и ожидаю, что последующие версии потребуют гораздо меньше времени на подготовку. Мне также удалось собрать огромное количество видеоматериалов для обучения, поэтому я взволнован перспективами T2V в будущем.
Если вам нравится пользоваться Pony Diffusion и хотите поддержать его, пожалуйста, присоединитесь к нашему Discord (вы даже можете подписаться, чтобы помочь проекту), или продолжайте пользоваться генератором Civit, так как он теперь делится buzz'ами с создателями (и вы даже можете увеличить долю создателя, увеличив чаевые).
TL;DR: Классификатор V6 хорошо работает с V7, но был обновлён для учета новых типов данных.
Я рекомендую ознакомиться с "Что такое score_9 и как его использовать в Pony Diffusion" для понимания контекста, что такое классификатор эстетики и почему он важен для Pony Diffusion. При обучении V5/V6 я использовал классификатор на основе CLIP, в конечном итоге остановившись на версии ViT-L/14 CLIP, которая является самой большой и последней моделью, выпущенной OpenAI. Хотя в целом я был доволен его производительностью, у меня были опасения, что я могу использовать неподходящий инструмент для задачи или не использовать лучшую модель CLIP, так как после моделей OAI было выпущено много версий.
Перед выбором изображений для V7 я провел обширное тестирование с различными моделями CLIP и Visual Transformers. Я обнаружил, что модели ViT, хотя и демонстрируют высокую производительность, не обладают выравниванием с эстетическим пониманием, поскольку они не были подвержены эстетическим образцам в масштабе моделей CLIP и более требовательны к данным. Например, они ранжировали определенные визуальные элементы, такие как определенные позы, непропорционально высоко, независимо от других факторов, как только я добавлял несколько подобных оценок к очень разным изображениям с использованием подобных поз. Несмотря на попытки вручную скорректировать это, просматривая большую выборку различий между старыми и новыми моделями и добавляя больше человеческих данных, это превратилось в игру Whac-A-Mole.
Напротив, несколько моделей CLIP, от самых маленьких до самых больших, таких как EVA-02, с самого начала показали лучшее выравнивание с эстетическим пониманием. Однако их общая производительность не была такой точной, как у ViT или старой модели. В отчаянии я портировал старую модель OpenAI ViT-L/14 CLIP в свой новый пайплайн и немедленно увидел лучшие результаты. Моя теория заключается в том, что хотя он хуже выполнял тестовые задания, OAI обучил модель на гораздо более разнообразном наборе данных, что лучше работает в реальных задачах. Хотя мне было немного горько "терять" столько времени, я рад подтвердить, что подход, который я использовал для V6, был обоснован и до сих пор полезен.
В качестве последнего шага я добавил 10 000 дополнительных человеческих оценок для лучшего охвата фотореалистичных изображений, и я также начал отдельный канал сбора обратной связи от людей на основе Elo для получения более точных оценок (выбирая лучшее изображение из двух одинаково ранжированных), но потребуется некоторое время, чтобы это принесло ощутимый результат.
Я выпущу классификатор после выпуска V7, чтобы вы могли добавлять эстетические данные в свои подсказки при обучении LoRAs или мёрджей.
Супер-Художники
TL;DR: V7 будет предлагать обобщенные стили без прямого копирования стиля конкретных художников.
Pony всегда прокладывала свой уникальный путь, что, надеюсь, способствовало её успеху. Одной из отличительных особенностей модели является избегание стилей конкретных художников; однако слабый контроль над стилем, который предлагает Pony, был явно недостаточен, о чём свидетельствует популярность различных LoRA, реализующих как общие, так и специфические стили художников. Улучшение контроля над стилем всегда было одним из основных приоритетов для V7.
В качестве первого шага я разработал новую модель, способную различать стили художников, используя методы чем-то похожие на те, которые используются в эстетических классификаторах. Я оценил несколько архитектур на основе ViTs и CLIP, различных стратегий fine-tuning и использования различных типов встраиваний. В отличие от проблем, с которыми я столкнулся с эстетическими классификаторами, для этой задачи у меня был доступ к гораздо большему объёму данных, что оказалось решающим для разблокировки производительности ViTs.
Интересным открытием стало разнообразие в работах некоторых художников. Я всегда ожидал, что у художников будет более одного отчетливого стиля, т. е. «sketch» против «full color», но большинство художников у кого есть хотя бы несколько десятков работ демонстрировали более двух основных стилистических кластеров и длинный хвост «экспериментальных».
Теперь, будучи оснащенной сетью, способной создавать эмбеддинги художников, я могу группировать и тегировать изображения в наборе данных для обучения более общими, но разнообразными стилями, такими как 'anime_42'. Все еще требуется выполнить некоторую работу, чтобы убедиться, что эти кластеры не близко имитируют существующих художников, но в целом результаты многообещающие, и я считаю, что эта область в значительной степени лишена риска. Нам придется подождать, пока модель будет обучена, чтобы полностью оценить ее влияние, но на данный момент я довольно оптимистичен.
Я также работаю над планом Б на случай, если это не сработает хорошо, в дополнение к текстовым описаниям контента, я добавлю описание стиля, которое сосредоточено исключительно на описании стиля и художественных свойств изображений.
Хотя я еще не принял окончательное решение, я рассматриваю возможность выпуска инструментов, которые позволят пользователям обнаруживать похожие стили на основе конкретного входного изображения, упрощая обнаружение стилей.
Набор данных
TL;DR: Лучший выбор данных означает, что Pony теперь может справляться и с реализмом.
Я почти закончил отбор 10 миллионов высококачественных изображений из набора данных более 30 миллионов, при этом 8 миллионов уже выбраны. В наборе данных теперь представлено больше аниме, обновлен контент по пони/фурри/мультфильмам, и впервые - значительные дополнения к фотографиям. В целом, набор данных был сбалансирован, чтобы стать немного менее NSFW. Я также добавил экспериментальные функции, такие как теги цветовой палитры сцены для лучшего управления цветом, и список "блокировок" художников был обновлен, чтобы ловить больше случаев, когда имена персонажей определяются как художники и удаляются.
Я предоставлю более подробный обзор, когда отбор будет завершен, но на данный момент модель состоит из следующих основных компонентов: 10% пони, 10% фурри, 20% западных мультфильмов, 25% аниме, 25% реализма и оставшиеся 10% - прочие данные. Вас может удивить то, что количество контента пони меньше, чем в V6 (особенно учитывая, что мы Pony Diffusion), но это относительные числа, и у нас на самом деле есть гораздо больше контента каждого типа. Просто в некоторых областях мы "закончили", то есть не осталось много высококачественных изображений, которые можно добавить.
Остается еще немного работы, чтобы подтвердить, что все данные соответствуют нашей рамке безопасности, но на данный момент большая часть работы завершена. Мы выпустим классификаторы безопасности и кодекс персонажа после V7 в рамках нашей приверженности безопасности.
Следующие шаги и планы на будущее
TL;DR: Обучение близко.
Небольшое мелкомасштабное дообучение начнется через несколько дней, чтобы убедиться, что пайплайн для обучения готов. В то время как настройки эстетического классификатора, описание и кэширование VAE все еще ведутся, я близок к запуску полномасштабного обучения. Я ценю ваше терпение и надеюсь, что мы сможем снова поймать молнию в бутылке.
И напоследок: я очень взволнован состоянием инфраструктуры и наборов данных, с которыми я работаю. Переход от V6 к V7 потребовал много переосмысления и переработки, но я наконец доволен процессом и ожидаю, что последующие версии потребуют гораздо меньше времени на подготовку. Мне также удалось собрать огромное количество видеоматериалов для обучения, поэтому я взволнован перспективами T2V в будущем.
Если вам нравится пользоваться Pony Diffusion и хотите поддержать его, пожалуйста, присоединитесь к нашему Discord (вы даже можете подписаться, чтобы помочь проекту), или продолжайте пользоваться генератором Civit, так как он теперь делится buzz'ами с создателями (и вы даже можете увеличить долю создателя, увеличив чаевые).
test
>>213337
Ji sdasd
Ji sdasd
>>213337
Hi
Hi
F
tst
test
test!
1
test2
2
3
444
5
55
fsdf
е5656
6
66666
6666
4r4r
test
Test
Нн
test
Test
Ggg
Тййй
Теат
пук
Чиньчунл
пук
Ьестиушаталатал
пук
хуй хуй
вфыжоащоужщ
вц
апв
test
еуые
test
еуые
еуые
тестовый хуй
test
Test
Ttttes
yy
test
Gg
>>191421 (OP)
test
test
Test
Test
Test
>>191421 (OP)
testing
testing
Test
a
### Первый этап боя
Место действия: Открытая равнина, без укрытий и преград, идеально подходящая для открытого конфликта.
### Состав команд:
- Команда 1: Киборг Ренат
- Состав: 1 киборг (Ренат)
- Вооружение: Двустволка, ноутбук Чуви Херобук.
- Уникальные способности: Неуязвимость к экстремальным температурам, отсутствие страха и усталости, высокая устойчивость к физическим повреждениям благодаря металлическому телу.
- Цели: Кража денег, действующий в одиночку.
- Команда 2: Сотня обезумевших таджиков
- Состав: 100 человек.
- Вооружение: Травматические пистолеты.
- Уникальные характеристики: Множественность, высокая агрессивность, но низкая организация.
- Команда 3: 500 обезумевших питеков
- Состав: 500 человек.
- Вооружение: Советское снаряжение (может включать винтовки), ружья.
- Уникальные характеристики: Большая численность, высокая преданность идейным принципам, способны к созданию временных альянсов.
Место действия: Открытая равнина, без укрытий и преград, идеально подходящая для открытого конфликта.
### Состав команд:
- Команда 1: Киборг Ренат
- Состав: 1 киборг (Ренат)
- Вооружение: Двустволка, ноутбук Чуви Херобук.
- Уникальные способности: Неуязвимость к экстремальным температурам, отсутствие страха и усталости, высокая устойчивость к физическим повреждениям благодаря металлическому телу.
- Цели: Кража денег, действующий в одиночку.
- Команда 2: Сотня обезумевших таджиков
- Состав: 100 человек.
- Вооружение: Травматические пистолеты.
- Уникальные характеристики: Множественность, высокая агрессивность, но низкая организация.
- Команда 3: 500 обезумевших питеков
- Состав: 500 человек.
- Вооружение: Советское снаряжение (может включать винтовки), ружья.
- Уникальные характеристики: Большая численность, высокая преданность идейным принципам, способны к созданию временных альянсов.
Test
test
test
test
⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀
>>213826
test
test
Test
test
test
test
test
test
as
sd
test
t
Test
Ttt
test
Test ji
ts
xuy
xuy
tiesto
Test
Ditxutxj
>>191421 (OP)
test
test
Z
DG
DF
SAD
TEST
фв
фыв
test
<ul>
<li> Пункт 1. </li>
<li> Пункт 2. </li>
<li> Пункт 3. </li>
</ul>
<li> Пункт 1. </li>
<li> Пункт 2. </li>
<li> Пункт 3. </li>
</ul>
[list]
Пункт 1.
Пункт 2.
* Пункт 3.
[/list]
Пункт 1.
Пункт 2.
* Пункт 3.
[/list]
123
456
789
123
789
123
456
789
567
123
789
567
123
test
chhh
test
тест
>>191422
первая картинка норм
первая картинка норм
всем привет
gggggggggood morning
Test
Test
Test
Test
test
>testtesttesttesttesttesttesttesttesttesttesttest
>testtest
Тест
Тест
testo
test
test
z
test
fd