Стремительное развитие технологий ставит перед человечеством новые вопросы . Искусственный интеллект (ИИ) выполняет все более сложные задачи, которые казалось бы могли быть доступны только человеческому разуму. ИИ обыгрывает чемпионов в Го, покер и компьютерные игры, делает научные открытия, пишет статьи, ставит диагнозы и т.д. В ряде случаев деятельность искусственного интеллекта становится вызовом для человечества. В частности, картины, музыка, видео, созданные искусственным интеллектом ставят вопрос о том, что такое творчество, что и почему может называться произведением искусства
Еще до появления ИИ некоторые творцы стремились так или иначе применять информационно-коммуникативные технологии в своей деятельности. Однако инструментальный характер его использования не вызывал сомнений. Опыт таких первопроходцев как художник Гарольд Коэн (Harold Cohen) или музыкант Дэвид Коуп (David Cope), самостоятельно разрабатывающих соответствующее программное обеспечение и обучающих ИИ на своем творческом опыте, можно сравнить с взаимоотношениями мастера и учеников в эпоху Возрождения.
Ситуация кардинально изменилась в последние годы в связи со стремительным ростом возможностей искусственного интеллекта. Нейронные сети оказались способны создавать уникальные произведения в области визуального искусства или музыки в стиле определенных авторов или течений[1].
GAN
Современное искусство, основанное на технологиях искусственного интеллекта, привлекло внимание прессы и широкой общественности после продажи созданной французской арт-группой Obvious картины «Эдмона де Белами» на аукционе Christie’s 25 октября 2018 года, за 432,5 тыс. долларов». Произведение представляет собой нечеткий портрет человека, который был распечатан на холсте размером 700 x 700 мм. Он был создан с использованием GAN (Generative Adversarial Network). Технология состоит в использовании двух нейронных сетей, одна из которых генерирует псевдослучайные образы из заданного набора распределений, а вторая (CNN дискриминатор) определяет правдоподобие образа на основе тренировочного набора. CNN является бинарным классификатором и пытается ответить на вопрос: ‘образец создан человеком?’ Если ответ отрицательный, то пример маркируется как неудачный. Обучается сеть по размеченному набору из фейковых и созданных человеком образов. Обе нейронные сети связаны по замкнутом контуру [2].
Большинство первопроходцев в сфере AI Art использует именно GAN. Среди них можно отметить Анну Ридлер, которая считает, что данные сети дают наиболее визуально интересные результаты. Она создала тренировочный набор из 10000 фотографий тюльпанов в течение сезона и классифицировала их вручную. Затем использовала софт для создания видео, показывающего цветение тюльпанов. Их появление определялось волатильностью биткойна, а полоски на лепестках отражали текущую цену криптовалюты. Работа проводит исторические параллели между «тюльпановой манией», охватившей Европу в 1630-х годах, и спекуляциями на криптовалютах.
Другой неординарный автор, использующий GAN, – Хелена Сарин; она художница в более традиционном понимании, которая пользуется GAN для преобразования и улучшения своих собственных набросков, созданных карандашом на бумаге. Сарин использует исключительно CycleGAN, вариант GAN, который выполняет преобразование одного изображения в новое. По сути, она обучает сеть преобразовывать изображения в форме одного набора данных, чтобы иметь текстуры другого набора данных. Например, она переводит свои фотографии еды и напитков в стиль своих натюрмортов и эскизов цветов. Хелена объясняет, что одним из преимуществ использования CycleGAN является то, что она может работать в высоком разрешении даже с небольшими наборами данных [2].
«Стилизация изображений, которую использует Хелена Сарин в своем творчестве, требует художественного вкуса и таланта. Ее полотна – это симбиоз вдохновения и специфической, кропотливой настройки нейронной сети. Но эта технология постепенно становится доступной и для неподготовленного дилетанта. Порог входа снижается благодаря технологии image2image DeepFace, разработанной в Академии Наук Китая.
Модель позволяет на основе непрофессионального эскиза получить фотографию, наиболее близкую к шаблону. При этом для обучения модели используется библиотека фотографий человеческих лиц. Сама модель является ансамблем из двух алгоритмов: декодера эскиза и генеративно-состязательной нейронной сети (GAN) для сопоставления с фотографией. Библиотека фотографий, которая подается на вход модели, предварительно преобразуется в отображения – эскизы. Набросок автора конвертируется в векторное представление при помощи декодера.
Есть дополнительная революционная опция - прозрачные тени наиболее подходящего изображения могут быть наложены на исходный эскиз, что позволяет художнику дополнить его на основе типичных пропорций лица. Таким образом творчество превращается в итеративный процесс, симфонию автора и машины, которая требует минимальной подготовки человека – машине достаточно намека.
Можно предположить, что в перспективе коллекция фотографий в обучающем сете модели может быть стилизована под работы художников и целые направления. Уже сейчас полученную фотографию можно подать на вход CAN (creative adversarial network) с библиотекой полотен известных мастеров, то есть последовательно создать стилизованное полотно на основе простейшего эскиза [2].
CAN
Еще один тип CAN (creative adversarial networks) работает по тому же принципу, что и GAN за исключением одной важной детали. Дискриминатор имеет множество классов, каждый из которых соответствует своему стилю – импрессионисты, сюрриалисты и т.д. Таким образом, на выходе генератора остаются стилизованные образы. Пример – картина “Летние сады” итальянского художника Давиде Квайолы, представленная на выставке “ Искусственный интеллект и диалог культур” в Эрмитаже. Давиде снял на видео цветы, которые поздним вечером колеблются от порывов ветра. Дальше работать стал не художник, а креативно-состязательная сеть – преобразуя полученную информацию в полотна французских импрессионистов. При этом палитра и движения на видео остаются неизменными: сеть создает поверх исходных данных новую живопись [2].
Скульптура
Скульптуры, созданные искусственным интеллектом, пока не так популярны, как картины, однако развитие в данном направлении все же есть. В основном AI используется либо для создания GAN-макета, либо непосредственно для разработки объемной модели. Скульптура Скотта Итана дебютировала на выставке ‘Artist + AI: figures and forms’ и была создана в сотрудничестве с инструментами искусственного интеллекта. В данном случае AI переводит рисунки в трехмерную форму. Другой пример – технология ‘Dio’ Бена Снэлла, суть которой не раскрывается. Обучающий сет состоял из 1000 классических скульптур. По словам художника, его основная цель заключалась не в том, чтобы сделать DIO человечной [2].
Neural style transfer
Neural style transfer – это самая простая и популярная форма использования ИИ в творчестве. Модель основана на стилизации изображения и построена на основе сверхточных нейронных сетей (CNN). Она внедрена в такие популярные мобильные приложения, как DeepArt и Prisma. На входе модели два изображения – шаблон-стиль и оригинал. При высокой стилизации алгоритм оптимизирует параметры таким образом, что результаты преобразования шаблона и оригинала максимально близки в промежуточных слоях CNN, которые отвечают за метаобраз. Фактор стилизации может регулироваться. Технология позволяет успешно имитировать стиль Ван Гога, Моне по библиотеке шаблонов. Каждому шаблону соответствует сет параметров предобученной нейронной сети. Технология позволяет использовать образы персонажей в рекламе и продвижении товара.
Для примера возьмем изображение собаки и Композицию 7 Василия Кандинского:
Как бы это выглядело, если бы Кандинский решил написать картину этой Собаки исключительно в этом стиле? Что-то вроде этого?
При использовании такого рода технологий неизбежно возникает вопрос об авторском праве. Стилизация известных персонажей ставит вопрос, где проходит граница между ними и оригиналом и как защитить авторские права носителям бренда. По-видимому, ИИ сможет решить и этот вопрос, создавая собирательный образ на основании узнаваемых брендов, дополняя его “случайным шумом” [4].
Artbreeder
Бас Утервайк, художник из Амстердама, использует нейросеть Artbreeder (она объединяет два изображения в одно, компьютерной графики и 3D-анимации) для создания чрезвычайно реалистичных фотографий исторических фигур и памятников, таких как художник Винсент Ван Гог, Джордж Вашингтон, королева Елизавета I и герои знаменитых произведений искусства.
Программа определяет общие черты лица и на их основе создает изображения. На данный момент художник представил более 50 таких портретов.
"С помощью технологий я стараюсь получить достоверный результат. Я считаю свои произведения скорее художественной интерпретацией, нежели научной и исторически точной реконструкцией," — рассказывает художник.
В микроблоге он подробно описывает множество этапов, из которых складывается его работа. "Это не все дело рук технологий. Программное обеспечение порой берет средние значения, поэтому мне иногда нужны дополнительные приемы и методы, чтобы получить то, что я хочу. Ведь портреты должны оставаться похожими на оригинал," — добавил Бас [5].
StyleGAN
NVIDIA опубликовала код предобученной модели StyleGAN для генерации лиц, которые никогда не существовали. StyleGAN является state-of-the-art моделью с лучшими свойствами интерполяции и распутывания, способностью находить скрытые факторы вариации (определять положение лица и идентичность).
Так как основная задача метода — возможность распутывания (disentanglement) и интерполяции генеративной модели, возникает вопрос: “Что происходит с качеством и разрешением изображения?”.
Исследователи показали, что радикальная перестройка архитектуры генератора не ухудшает качество сгенерированного изображения, а наоборот существенно его улучшает. Поэтому не нужно было искать компромисс между качеством и интерполяционными возможностями [6].
GauGAN
Больше года назад Nvidia представила миру удивительный инструмент, превращающий скетчи в фотореалистичные пейзажи. Работает он на нейросети SPADE.
В программе есть палитра, в которой каждый цвет соотносится с каким-то из элементов ландшафта: земли, растительности, строений и т.д.
Процесс создания картины достаточно прост: нужно начать закрашивать участки цветами из палитры, а нейронная сеть преобразует их. К примеру, там где мы хотим видеть море или реку — красим синим. Другой участок, где например хотим лес, красим в соответствующий цвет. И так далее, в результате чего получаем карту сегментации. Все это походит на рисование в Paint.
На основе выбранного реального пейзажа, который служит как референс стиля для генерации, мы получаем фотореалистичный пейзаж, соответствующий нашей карте сегментации [3].
EbSynth
Secret Weapons выпустили свой первый инструмент под названием EbSynth, который позволяет превращать картины в подобие вручную нарисованной анимации. Процесс довольно прост: вам просто нужно загрузить видео и изображение в качестве референса — инструмент сделает все остальное.
Главная задача, это сделать так, чтобы референс и первый кадр из реального видео совпадали максимально, насколько это возможно, иначе будут появляться неприятные глитчи и артефакты, в виде съехавших черт лица или полностью поплывшей картинки.
Затем нужно запустить процедуру расчета, она может занять существенную часть времени, в зависимости от того, какая у вас установлена видеокарта на компьютере. В результате мы получим “ожившее” изображение референса и он будет делать все то, что происходило на видео. Лучшее описание для этого: “Как будто картина из Гарри Поттера”.
EbSynth это очень удобный инструмент. Он показывает, как нейронные сети помогают художникам достигать небывалого результата за короткое время. Это решение активно развивается. По сравнению с прошлогодней версией, в новой EbSynth представили удобный и понятный GUI интерфейс. На официальном сайте можно найти видео, где просто и быстро расскажут как им пользоваться и этого будет достаточно, чтобы создать свою собственную “ожившую” картину [3].
KenBurns
KenBurns — это интересная нейронная сеть, которая в прямом смысле слова позволяет заглянуть поглубже в картину. С ее помощью можно создать эффект “глубины”, пролетев камерой в выбранном направлении. Нейронная сеть анализирует изображение и “нарезает” объекты на фрагменты. Каждому фрагменту задаётся значение глубины, благодаря чему получается эффект параллакса [3].
Демонстрация создания отдельных слоев — эффект Параллакса
Style2paints
Style2paints V4 первый ИИ, который подражает рабочему процессу живого художника, и переводит в цвет лайнарт в несколько слоев поэтапно.
Программа позволяет раскрашивать черно-белые иллюстрации (в частности мангу), а также переносить цветовую гамму с одного изображения на другое. Всё это заточено на иллюстрации и аниме, для обычных фотографий работает не очень. Для помощи нейросети можно поставить цветовые точки с "донора" на свой эскиз, что значительно улучшает результат.
DALL-E 2
В апреле 2022 года американская компания OpenAI представила обновленную версию нейронной сети DALL-E 2, которая самостоятельно создает реалистичные картинки по текстовому описанию. Например, если написать ему «Астронавт едет на лошади», он создает сразу несколько оригинальных изображений на эту тему. Качество картинок настолько хорошее, что отличить творение нейросети от работы профессионального художника одним взглядом практически невозможно. К сожалению, на данный момент нейросеть DALL-E 2 находится на стадии закрытого тестирования, поэтому доступна только ограниченному кругу пользователей.
Первая версия нейросети DALL-E была представлена в начале 2021 года. К концу года российские разработчики из SberDevices, Sber AI и SberCloud создали на ее основе нейронку ruDALL-E, которая так же создает уникальные изображения но, в отличие от оригинала, поддерживает русский язык. По словам разработчиков, созданные по текстовому описанию картинки можно использовать в качестве иллюстраций для статей и даже в рекламных целях. Конечно, качество созданных оставляет желать лучшего, но на данный момент эта одна из самых лучших нейросетей, доступных для использования [7].
Нейросети, создающие музыку
Идея делать музыку с помощью компьютера появилась с появлением самих компьютеров. Первая композиция «в цифре» была написана аж в 1957 году — это короткая зарисовка The Silver Scale, созданная инженером Bell Laboratories Ньюманом Гутманом.
Искусственным интеллектом как помощником и соавтором впервые заинтересовались академические композиторы: первопроходцем тут считается великий авангардист Янис Ксенакис. Технологии развивались — в девяностые появились алгоритмы для генерации джазовых соло и даже целых аранжировок. А расцвет нейросетей привел к тому, что сгенерированная компьютером музыка рассматривается как перспективное направление: всевозможные инструментальные композиции «для бега» или «для сна» уже есть в стриминговых сервисах.
Далее представлены примеры нейросетей, которые создают музыку.
MuseNet
Разработанная отечественными программистами нейросеть научилась сочетать разные стили и жанры музыки: от классики и до кантри. Ее долго натаскивали на сотнях тысяч файлов, в результате мы можем задать программе, например, начальные ноты из шопеновского произведения — а она попытается сгенерировать из этого поп-хит [8].
Jukebox
Эта нейросеть демонстрирует совсем другой принцип работы. Если в прошлых примерах компьютер опирался в первую очередь на ноты и отдельные партии (что позволяет быстро создавать мелодии в любом требуемом стиле — но с полноценными композициями возникают проблемы), то Jukebox от OpenAI пытается делать сразу целые песни в уже готовом виде. Это гораздо сложнее: здесь задействованы не десятки переменных, а миллионы, ведь работать приходится не просто с высотой звука, а с тембрами, манерой исполнения.
Вот, например, компьютер развлекается, импровизируя на тему хита группы Nirvana [8]:
Dadabots
Бесконечный поток дэт-метала, генерируемый в реальном времени. Dadabots — фейковая группа, за музыку которой отвечает нейросеть, написанная и натасканная Си Джей Карром и Заком Жуковским. Они долго пытались экспериментировать с музыкальными нейросетями, но самой удачной — и тяжелой — получилась именно эта [8].
Endel X Grimes
Стартап Endel, специализирующийся на «алгоритмической настроенческой музыке», совместно с певицей Граймс создал «ИИ-колыбельную»: успокаивающую музыку, которая поможет расслабиться и лучше спать и взрослым, и детям.
По словам Граймс, на идею ее натолкнул собственный опыт материнства. «Под белый шум дети лучше засыпают, — объяснила она. — И я подумала: а можно ли сделать из этого что-нибудь более артистичное?» — и сделала вместе с Endel.
Ребенок Граймс, прославившийся пару месяцев назад в интернете своим именем — X Æ A-XII — выступил в роли главного тестировщика. По его реакциям певица подбирала блоки, на которых в итоге обучался алгоритм. В основе мелодии лежат собственные предпочтения Граймс по эмбиенту и расслабляющей музыке, только «более милые».
В приложении Endel доступны различные звуковые пейзажи, генерирующиеся в реальном времени с использованием алгоритмов, подстраивающих звучание под предпочтения конкретного слушателя, его локацию и время суток, и среди этих пейзажей теперь есть и колыбельная с вокалом от Граймс [9].
ИИ в киноиндустрии
Чтобы фильмы создавались быстрее и приносили больше прибыли, в киноиндустрию внедряют технологии искусственного интеллекта. С их помощью создают графику и трейлеры, предсказывают успех будущих проектов, подбирают актерский состав и пишут сценарии[10].
ИИ прогнозирует кассовые сборы
Из сотни сценариев для фильмов важно выбрать то произведение, которое получит признание зрителей и принесет высокие доходы. Однако кинематографисты не всегда справляются с этой задачей. Поэтому для прогнозирования успешности кинопроектов используют искусственный интеллект.
Так, компания ScriptBook [11] разработала одноименную систему, основанную на машинном обучении. Алгоритм изучает текст сценария. Он определяет возраст, пол, расу предполагаемой аудитории зрителей и прогнозирует, сколько фильм может собрать в прокате.
AI-разработка уже доказала свою эффективность. Она проанализировала 62 киноленты от студии SonyPictures. В итоге из 32 неудавшихся работ ИИ определил 22. Также программа с небольшой погрешностью установила, какими станут кассовые сборы фильма «Пассажиры». Она предсказала, что картина соберет $118 млн, а на самом деле сборы достигли чуть меньше $110 млн.
Однако ScriptBook работает неидеально и иногда ошибается. Например, AI-платформа предсказала, что музыкальная драма «Ла-Ла-Лэнд» соберет в прокате $59 млн. В реальности же этот показатель составил $446 млн.
Еще один ИИ-инструмент для анализа сценариев – StoryFit. Эта разработка исследует структуру произведения, его стиль и предсказывает возможную сумму кассовых сборов. Систему используют в компании Adaptive Studios. С ее помощью кинематографисты определяют, как лучше развивать сюжет.
Бостонская компания Pilot также применяет ИИ для прогнозирования кассовых сборов. Программа сравнивает потенциальные кинопроекты с базой данных, где представлены широко известные фильмы. Она берет во внимание сюжетную линию, актерский состав, имена режиссеров и сценаристов, размер бюджета и на основе этой информации определяет, сколько картина может собрать в прокате.
DeepStory
DeepStory - это управляемый искусственным интеллектом генератор сценариев и историй. Этот инструмент для письма нового поколения использует самые современные нейронные сети, чтобы помочь вам совместно создавать оригинальные истории с помощью сверхспособностей нашего искусственного интеллекта.
DeepStory построена на перекрестном опылении человеческого творчества и искусственного интеллекта для создания экстраординарных историй и текстовых приключений с искусственным интеллектом.
DeepStory устраняет ограничения человеческого воображения, позволяя пользователям выражать что угодно на языке, в то время как искусственный интеллект реагирует на ваш письменный ввод [13].
ИИ подбирает актеров
Как известно, актер должен вжиться в свою роль, а роль – в актера. К примеру, Арнольд Шварценеггер как профессиональный бодибилдер с ростом 1,88 м гармонично смотрелся в образе Терминатора – робота с неземными способностями. Представьте, если бы вместо него роль исполнил Дэнни Де Вито с ростом 1,47 см и без должной физической подготовки. Вряд ли главный персонаж культового фильма смотрелся бы таким решительным, да и культовым фильм бы быть перестал. Поэтому в киноиндустрии к подбору актеров относятся очень серьезно, а их поиски занимают несколько месяцев или даже лет. Технологии искусственного интеллекта ускоряют этот процесс.
Так, ИИ-платформа EasyCast позволяет проводить кастинги в автоматическом режиме. Система по запросу пользователя ищет в базе данных артистов, которые подходят под определенные критерии, важные для той или иной роли. При этом программа опирается на текстовое описание образа [10].
ИИ создает персонажей
Качественная графика и спецэффекты – отдельная номинация «Оскара». С их помощью специалисты не только «рисуют» красивую природу, космические просторы или масштабные взрывы, но и создают различных персонажей.
Так, компания Digital Domain использовала технологии машинного обучения для создания персонажа Таноса для фильма «Мстители: Война бесконечности». Специалисты загружали в ИИ-программу изображения лица и мимики актера Джоша Бролина, когда он играл роль безумного титана. На основе полученного материала система создавала эквивалентное изображение высокого разрешения и затем превращала исходники в виртуального персонажа [10].
ИИ продвигает кинопроекты
Как любой коммерческий продукт, фильм нуждается в качественной и эффективной рекламе. Сегодня работу по продвижению кинолент «поручают» ИИ.
Американская компания 20th Century Fox разработала нейросеть Merlin Video, которая анализирует трейлеры, сравнивает их друг с другом и находит общие черты. В итоге она предсказывает реакцию аудитории на рекламные ролики.
Кроме того, при создании рекламного видео для научно-фантастического фильма «Морган» студия задействовала суперкомпьютер Watson от IBM, оснащенный ИИ.
Изначально машина проанализировала трейлеры 100 проектов и определила, что делает сцены страшными или, наоборот, лиричными. После этого в компьютер загрузили киноленту «Морган». Изучив ее, ИИ составил диаграмму развития действий, отобрал сцены для видео, установил их последовательность, а также выбрал музыку. Впоследствии человек смонтировал полученный материал [10].
ИИ «рождает» фильмы
Искусственный интеллект не только помогает кинематографистам, но и самостоятельно создает фильмы.
В 2019 году ИИ «Бенджамин» под руководством инженера из корпорации Google Росса Гудвина за двое суток создал черно-белую короткометражку Zone Out. Система взяла на себя весь процесс кинопроизводства: сгенерировала сюжет, написала диалоги героев, определила эмоции актеров, а также смонтировала картину, озвучила персонажей и подобрала музыку.
«Бенджамин» самостоятельно выбрал из старых фильмов фрагменты для собственного проекта. Лица актеров накладывались на нужные сцены и демонстрировали те эмоции, которые выбирал ИИ.
Ранее Росс Гудвин и режиссер Оскар Шарп при помощи «Бенджамина» создали короткометражки Sunspring и It's No Game. Для первой из них искусственный интеллект написал сценарий, а для второй – составил диалоги. К слову, в 2017 году It's No Game заняла третье место на фестивале короткометражных картин Sci-Fi London [10].
Технология замены лиц
Самое известное применение нейросетей на съемках — технология замены лиц deepfake. Она помогает создавать сцены с умершими актерами или менять возраст героев, как это делали в киновселенной Marvel или в «Ирландце» Скорсезе. Действие «Ирландца» охватывает 50 лет, поэтому главные герои появляются в кадре в разном возрасте. Но подход режиссера исключал мокап или сцены с применением хромакея.
Поэтому для обработки фильма создали программу Flux, которая собирала кадры и создавала маски для лиц актеров. Чтобы «омолодить» Де Ниро, Пачино и Пеши, команда создала каталоги для изображений отдельных частей лица (глаза, носы, скулы). Эти каталоги сравнивали с кадрами из фильмов, где актеры играли, когда были в соответствующем возрасте. Также для проекта разработали нейросеть, которая пересматривала архив и находила идеальное соответствие. В итоге постпродакшеном фильма занимались два года, а бюджет картины вырос [12].
ИИ уже пишет тексты не хуже профессионалов
Совсем недавно OpenAI отменила список ожидания для доступа к нейросети GPT-3. Теперь разработчики из 152 стран, где поддерживается сервис, могут зарегистрироваться и свободно пользоваться инструментами.
Это очень сильный шаг вперед. Шесть лет назад у нас были только примитивные языковые генераторы, которые могли писать базовые отчеты о прибылях и убытках. Потом появилась нейросеть GPT-2, которая была как минимум в 10 раз мощнее и была способна обрабатывать 1,5 миллиарда параметров (переменных, определяющих возможности машинного обучения). Теперь — у нас в свободном доступе есть GPT-3, который может обрабатывать 175 миллиардов.
ИИ может в ответ на запросы генерировать почти неотличимый от человеческого текст. А также анализировать и резюмировать любые источники неструктурированных данных, если они написаны письменным языком.
Это значит, например, что и-мейлы или эссе скоро могут писаться по одному нажатию на кнопку. Людям не обязательно быть грамотными или даже знать стилистику текста, которую от них ожидают. Достаточно задать то, что ты хочешь, и у тебя будет готовый материал под любые потребности. Как Google, только для текстов, которые еще не написаны.
Всё это пока в теории — если разработчики смогут реализовать потенциал AI. Но пока что результаты очень многообещающие. Например, в прошлом году блог на Substack за авторством GPT-3 за две недели посетили 26 тысяч человек. Его приняли за блог обычного автора. Комментатора, который предположил, что блог пишет нейросеть, заминусовали. Также бот GPT-3 в течение недели успешно выдавал себя за человека на AskReddit [14].
Нейросеть пишет стихи
Тинькофф запустил проект «AI да Пушкин», демонстрирующий возможности искусственного интеллекта. При помощи технологии «оживлённого» портрета и нейросети, анимированный прототип Александра Сергеевича Пушкина сочиняет стихи на современный лад.
За разнообразие формулировок и подбор рифм отвечает генеративная стихотворная модель, которая обучена на всех произведениях великого русского поэта и более чем 60 миллионов отфильтрованных четверостиший с ресурса «Стихи.ру». В проекте «AI да Пушкин» Тинькофф впервые применяет технологию синтеза мимики и оживления портрета Thara. Специально для проекта была разработана модель, позволяющая оживить визуализацию А. С. Пушкина.
Нейросеть научилась соотносить звуки произносимой речи с мимикой спикера. Так удалось из аудиофайла создать видео произносящего речь поэта. Использование открытых данных для обучения модели позволило нейропоэту поддерживать и развивать любую мысль. За озвучивание отвечает VoiceKit — голосовая технология Тинькофф, которая позволяет синтезировать голос, преобразовывать текст в голос и обратно. Технология обучена на терабайтах данных и десятках часов человеческой речи и уже применяется в автоматизации работы колл-центра Тинькофф [15].
Мой опыт в применении ИИ
До этого у пеня не было опыта применения ИИ с сфере искусства. Я знаю принцип работы нейронных сетей и даже мог написать простые сети на лёгких языках программирования. На этот раз я использовал сайт https://deepdreamgenerator.com, чтобы из двух изображений составить что-то своё, неповторимое и особенное.
Вот первый пример моей работы:
Сперва я не сильно углубился в процесс и загрузил самую первую картинку, которую нашёл у себя на компьютере. В качестве второго изображения я просто выбрал картинку с сайта. Несмотря на это, результат очень меня порадовал и я решил продолжить эксперименты.
На этот раз я решил совместить два таких изображения:
На этот раз результат оставляет желать лучшего.
Теперь я попробую сгенерировать изображение полностью из своих исходников (изначально первая картинка была моя, а вторую предлагал сайт как более подходящий вариант)
На этот раз получившееся изображение превзошло все мои ожидания. Особенно обрадовал уровень детализации. Также я понял, что не нужно брать изображения, которые совсем не сочетаются друг с другом по стилистике, как было с тигром и космосом.
Продолжу эксперименты с данными изображениями.
По итогу получилось довольно красочно. Сказывается то, что оба изображения имеют закрученные контуры.
Просмотрев примеры других работ на сайте, я заметил, что с обработкой реальных изображениями нейросеть справляется намного хуже, чем с рисунками или стилизованными картинками. Я решил проверить это на собственном опыте.
Генерация изображения выше длилась целых 10 минут, а мой компьютер начал работать намного громче прежнего. Как по мне, результат того стоил. Изначально фотография реального человека стала похожа на рисованную картину.
На последок я решил не искать ничего нового, а просто совместить предыдущие свои работы и посмотреть, что же из этого получиться. Выбрал наиболее удачные и похожие по стилистике генерации.
Данное изображение смотрится хорошо, но заметно то, что детали теряются, ведь по идее, это изображение было получено уже не из двух, а из четырёх исходников. Получилось довольно мрачно, но мне всё равно нравится.
Резюме
Технологии Neural style transfer, Deep Dream позволяют создавать объекты, которые во многих случаях не отличаются от творений человека. Генерация случайных образов в технологии CAN добавляет спонтанность в творчество искусственного интеллекта и позволяет сделать шаг вперед по сравнению с глубокой стилизацией. Безусловно, разрыв между AI и человеком сокращается. Тем не менее, по-видимому, в ближайшее время он не будет полностью преодолён, поскольку именно человек настраивает модель, подбирает обучающие примеры и использует технологии для творчества.
Идея о том, что машины могут быть художниками, или могут даже заменить художников, как они уже заменили некоторые профессии, выглядит пока слишком смелой.
Искусственный интеллект представляет экстраординарные инструменты работы и новое необычное экспериментальное поле для художников в сфере визуального искусства и индустрии развлечений (дизайн игр, кино – CGI и тд), а также упрощает и автоматизирует рутинные процессы. Однако, чем более автоматизированным становится процесс создания произведений искусства, тем выше возрастает ценность идеи, стоящей за ними.
Теперь, когда вопрос исполнения, физической реализации и наличия необходимых технических навыков отпадает, новые идеи являются основной движущей силой в развитии искусства. А генерация этих идей - эта та главная функция, которую искусственный интеллект не сможет (или пока не может) отобрать у творца.
Источники:
"ИСКУССТВО И ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ" (Быльева Дарья Сергеевна, 2021г) - https://www.elibrary.ru/item.asp?id=47224901
"Искусственный интеллект в современном искусстве" (8 июня 2020г) - https://sk.ru/news/iskusstvennyy-intellekt-v-sovremennom-iskusstve/
"Нейронные сети и современное искусство: наш опыт с Artlife 2020"(23 сентября 2020г) - https://medium.com/phygitalism/neural-networks-art-fe9fa6b7d79f
"Передача нейронного стиля" (26 января 2022) - https://www.tensorflow.org/tutorials/generative/style_transfer
"От Ван Гога до Девушки с жемчужной сережкой: художник создает невероятно реалистичные портреты исторических личностей"(9 июля 2020г) - https://www.spletnik.ru/beauty/news_beauty/97343-khudozhnik-ispolzuet-neyroset-dlya-sozdaniya-realistichnykh-portretov.html
"Animated StyleGAN image transitions with RunwayML"(22 августа 2019г) - https://heartbeat.comet.ml/animated-stylegan-image-transitions-with-runwayml-57a2e20db80f
"5 нейросетей для создания уникальных фотографий и рисунков"(14 апреля 2022г) - https://hi-news.ru/technology/5-nejrosetej-dlya-sozdaniya-unikalnyx-fotografij-i-risunkov.html
"5 НЕЙРОСЕТЕЙ, ДЕЛАЮЩИХ МУЗЫКУ: ОТ ЦИФРОВОЙ ЭМИ УАЙНХАУС И ДО БЕСКОНЕЧНОГО МЕТАЛА"(11 июня 2021г) - https://playboyrussia.com/afisha/music/5-nejrosetej-delayushchih-muzyku-ot-cifrovoj-emi-uajnhaus-i-do-beskonechnogo-metala-168091/
"Граймс вместе со стартапом Endel создала ИИ-колыбельную"(29 октября 2020г) - https://stereo.ru/news/grimes-created-ai-lullaby-with-endel
"ИИ В КИНОИНДУСТРИИ: НАПИСАНИЕ СЦЕНАРИЕВ, ПОДБОР АКТЕРОВ И ПРОДВИЖЕНИЕ ФИЛЬМОВ" - https://aiconference.com.ua/ru/news/ii-v-kinoindustrii-napisanie-stsenariev-podbor-akterov-i-prodvigenie-filmov-98065
"Как искусственный интеллект меняет киноиндустрию"(2 ноября 2020г) - https://proglib.io/p/kak-iskusstvennyy-intellekt-menyaet-kinoindustriyu-2020-11-02
"Нейросети в кино"(автор:Александр Тартачный) - https://robotdreams.cc/blog/65-neyroseti-v-kino
"A tale of co-creation between man & machine" - https://www.deepstory.ai/#!/
"ИИ уже пишет тексты не хуже профессионалов"(29 ноября 2021г) - https://habr.com/ru/company/gms/blog/592253/
"Анимированный «AI да Пушкин» сочинит современные стихи по заданной фразе"(21 января 2022г) - https://www.ixbt.com/news/2022/01/21/animirovannyj-ai-da-pushkin-sochinit-sovremennye-stihi-po-zadannoj-fraze.html
コメント