Казанцев Тимур - ChatGPT и Революция Искусственного Интеллекта стр 6.

Шрифт
Фон

Кроме того, мы уже говорили, что OpenAI планируют выкатить более профессиональную платную версию ChatGPT, которая сможет покрывать расходы компании и сделать ее прибыльной. Бесплатная версия, возможно, будет инкорпорированной в поисковой сервис от Microsoft  Bing, и есть вероятность появления ChatGPT в виде мобильного приложения.

DALL-E, Stable Diffusion, Midjourney и другие генераторы изображений и видео на основе ИИ

Еще одной важной вехой в развитии ИИ стало появление в последние годы систем генерации изображений на основе текстовых данных. Среди таких можно, в первую очередь, выделить: DALL-E 2, Midjourney и Stable Diffusion.

Эти генераторы изображений используют алгоритмы машинного обучения и архитектуры нейронных сетей, чтобы научиться создавать реалистичные изображения, соответствующие входным данным, которые они получают от пользователя.

DALL-E 2  это вариант оригинального генератора изображений DALL-E, который был разработан OpenAI в 2021 году. Это крупномасштабная языковая модель, которая обучается на массивном наборе данных изображений и текста и способна генерировать большое разнообразие изображений на основе заданной текстовой подсказки. Например, если написать запрос «жираф, играющий на пианино», DALL-E 2 может сгенерировать изображение жирафа, сидящего за пианино и положившего передние лапы на клавиши.

Кроме создания новых изображений с нуля, DALL-E может также вносить изменения в существующее изображение на основе вашего текстового пояснения, и создавать вариации существующего изображения.

Вновь созданные изображения могут иметь размеры 256х256, 512х512 или 1024х1024 пикселей. Чем меньше размер, тем быстрее создать новое изображение.

Например, при запросе «белый сиамский кот» выдает следующее изображение кота[5]:



Midjourney  аналогичный генератор изображений с искусственным интеллектом, который также был разработан OpenAI в 2021 году. Он обучается на наборе данных изображений и текста и способен генерировать широкий спектр изображений на основе входного текста. Он назван в честь идеи о том, что это «промежуточный этап» (с англ. midjourney) между оригинальными моделями DALL-E и GPT-3, поскольку он сочетает в себе элементы обоих.

Stable Diffusion  это еще один генератор изображений с искусственным интеллектом, разработанный исследователями Калифорнийского университета в Беркли в 2021 году. Он обучается на наборе данных изображений и текста и предназначен для создания широкого спектра изображений на основе входного текста. Он назван в честь идеи о том, что он способен «распространять» (от англ. diffuse) информацию о содержании изображения через свою сеть, что позволяет создавать более связные и реалистичные изображения.

Нейросеть от Сбера Kandinsky 2.1 и 2.2

Нейросеть от Сбера для генерации изображений Kandinsky 2.1 стала самым быстрорастущим сервисом в мире, достигнув 1 млн уникальных пользователей всего за 4 дня, и 2 млн пользователей за 6 дней. Напомню, что это быстрее результата сервиса ChatGPT от OpenAI, которому потребовалось пять дней, чтобы набрать 1 млн пользователей

Если брать техническую часть, то Kandinsky 2.1  это обновленное поколение нейросети Kandinsky 2.0 для генерации картинок, которую Сбер запустил летом 2022 года. Новая модель сильно улучшена, она была обучена на 170 миллионах связок «текст-изображение». Kandinsky 2.1 содержит 3,3 миллиарда параметров, в то время как предыдущая модель Kandinsky 2.0 содержала только 2 миллиарда.

Основное отличие Kandinsky 2.1 от ее основных конкурентов Midjourney, Stable Diffusion и DALL-E, в том, что она способна понимать более 100 языков, включая русский, а также в том, что ее можно попробовать сразу на нескольких платформах:

сберовской облачной платформе ML Space

на fusionbrain.ai

На сайте Rudalle

в Telegram-боте

а также в мобильном приложении Салют и на умных устройствах Sber при помощи команды «Запусти художника».



Что нейросеть Kandinsky 2.1 умеет делать?

самая стандартная функция  сгенерировать изображение на основе текстового запроса. Причем можно выбрать более 20 вариантов стилей, от ренессанса и классицизма до реальных 3д фотографий, киберпанка и советских мультфильмов

нейросеть умеет смешивать несколько рисунков в один

может дорисовывать изображения

а также создать картину в режиме бесконечного полотна

Все четыре режима генерации пока доступны только в телеграм боте



Периодически в некоторых случаях нейросеть может не сработать, часто приходится долго ждать пока будет сгенерировано изображение, иногда появляются ошибки и на сайтах, и в телеграм-боте. Сбер объясняет это большой нагрузкой на сервис.

Из минусов  все картинки генерируются в разрешении 768 × 768 пикселей. Большее разрешение выставить нельзя, хотя современные нейросети уже рисуют картинки качественнее.

Как и в большинстве нейросетей, у Кандинского тоже иногда возникают проблемы при генерировании изображений людей, особенно если их несколько на картинке, и особенно прорисовка их пальцев, и когда они смотрят не прямо на вас, а в профиль.

Таким образом, если резюмировать, Kandinsky 2.1.  достаточно интересная нейросеть, которая может составить вполне себе конкуренцию Midjourney, Dall-E и Stable Diffusion.

Из плюсов  то что можно вводить промпты на русском языке и еще 100 других. Кроме того, нейросеть можно использовать через телеграм бот или даже голосовго помощника Сбера.

Из минусов  изображения относительно невысокого разрешения, прорисовка людей в определенных стилях, особенно если на картинке несколько персонажей, иногда оставляет желать лучшего.

Но в целом первое впечатление положительное, думаю буду пользоваться и дальше.

Вывод

Эти генераторы изображений с искусственным интеллектом могут революционизировать то, как мы создаем и потребляем изображения, поскольку они могут генерировать оригинальные изображения по запросу на основе вводимого текста. Это может иметь широкий спектр применений в таких областях, как реклама, искусство и дизайн, а также более практические приложения, такие как создание макетов продуктов или визуализация данных.

Использование генераторов изображений ИИ также может иметь экономические последствия, поскольку может изменить способ создания и потребления изображений. Например, если генераторы изображений ИИ получат широкое распространение, это может снизить спрос на традиционные методы создания изображений, такие как фотография или иллюстрация, что может повлиять на рынок труда в этих областях. Уже сейчас многие компании, дизайнеры и предприниматели вместо того, чтобы заказывать дизайн изображений, логотипов, визуализацию у профессиональных иллюстраторов и платить им за это десятки, сотни, а иногда и тысячи долларов, просто используют указанные модели на основе нейронных сетей и получают достаточно хорошие по качеству изображения бесплатно либо по намного сниженной цене.

В целом, появление генераторов изображений с искусственным интеллектом, таких как DALL-E 2, Midjourney и Stable Diffusion, представляет собой захватывающее развитие в области искусственного интеллекта и может изменить то, как мы создаем и потребляем изображения. Вполне вероятно, что эти технологии продолжат развиваться и совершенствоваться в ближайшие годы, и будет интересно посмотреть, как они определят будущее ИИ и экономики.

Ваша оценка очень важна

0
Шрифт
Фон

Помогите Вашим друзьям узнать о библиотеке

Скачать книгу

Если нет возможности читать онлайн, скачайте книгу файлом для электронной книжки и читайте офлайн.

fb2.zip txt txt.zip rtf.zip a4.pdf a6.pdf mobi.prc epub ios.epub fb3