top of page
Фото автораМакс Сазанов

KANDINSKY TEXT2IMAGE ВИЗУАЛИЗАЦИЯ ПОСЛОВИЦ И ФРАЗЕОЛОГИЗМОВ

Ссылка на статью:

Бондаренко Е.Е., Ерёмин М.В., Жангалиев А.Н., Соловов А.В. KANDINSKY TEXT2IMAGE ВИЗУАЛИЗАЦИЯ ПОСЛОВИЦ И ФРАЗЕОЛОГИЗМОВ В сборнике: Человек, интеллект, познание. Материалы XXI Международной конференции молодых ученых в области гуманитарных и социальных наук. Отв. редакторы В.В. Петров, А.С. Зайкова. Новосибирск, 2023. С. 242-245.


В последние годы искусственный интеллект стал популярным и нашел применение во многих областях, включая искусство и литературу. Генерация высококачественных артов по текстовым запросам поставила множество вопросов о роли автора и о творчестве, традиционно рассматриваемом как исключительная прерогатива человека [Быльева, 20021, 2022]. Как отмечает Т. Е. Фадеева, машины, обучаясь на сотнях тысячах изображений, созданных человеком, начинают воспроизводить все более точно то, что мы хотели бы увидеть, и проходят условный «тест Тьюринга» [Фадеева, 2023]. При этом исследователи отмечают, что если логика перевода вербального запроса в визуальный ряд не в полной мере понятна и предсказуема, то открывается путь к «мистификации», которая становится богатой почвой для искусства [Миловидов, 2022]. Чем менее четок и ясен запрос, тем больше простора для разнообразных прочтений. В качестве примера необычного запроса могут служить фразеологизмы. Фразеологизмы, как часть языковой культуры, часто содержат в себе метафорические или символические значения, которые сложно передать только с помощью текста. Проблемы с визуальной передачей фразеологизмов объясняется сложным, полифоничным характером их плана содержания, а также нагруженностью культурно значимой информацией, часто специфичной для культурно-языковой общности [Опарина, 2010]. Фразеологизмы тяжело переводятся на другие языки, а их смысловые пласты могут быть многоуровневыми. Основным инструментом, используемым в данном исследовании, является нейросеть Kandinsky, названная в честь известного художника Василия Кандинского. Нейросеть обучается на больших массивах данных, включающих фразеологизмы из различных языков и сочетаний слов. С помощью сложных алгоритмов искусственного интеллекта, Kandinsky создает уникальные визуальные образы, соответствующие каждому фразеологизму. Методы исследования: Данный исследовательский проект использовал методы сбора данных, генерации визуализаций и анализа по критериям для исследования визуализации фразеологизмов с использованием нейросети Kandinsky. Анализ произведённых визуализаций позволяет оценить несколько аспектов: их семантику, эмоциональную адекватность, эстетические качества, оригинальность и контекстуальную связь. В отношении семантики, можно сделать вывод, что 10 % генерированных изображений, такие как «Двуликий 243 янус» и «Египетские казни», полностью удовлетворяют требованиям, поскольку иллюстрируют или ассоциируются с предложенными фразеологизмами без необходимости дополнительных размышлений. 25 % визуализаций, например, «Волосы дыбом» и «Деньги не пахнут», практически удовлетворяют, требуя небольшого додумывания или контекста для установления связи с фразеологизмами. В первом случае нейросеть отрисовала женщину с взъерошенными волосами, во втором – купюру с лицом, имеющей завязанный нос. 35% иллюстраций, таких как «Вернемся к нашим баранам» и «Желтая пресса», частично удовлетворяют, требуя дополнительного контекста или анализа для понимания связи. Это связано с тем, что искусственный интеллект воспринимает запросы по ключевым словам, из-за чего буквально визуализирует в первом случае, барана, а во втором – некий плакат с надписями на жёлтом фоне. Наконец, 30 % изображений, например, «Авгиевы конюшни» и «Аршин проглотить», практически не удовлетворяют, поскольку связь с фразеологизмами является очень слабой и требует дополнительного контекста или толкования. Первое устойчивое выражение нейросеть воспринимает буквально, полностью игнорируя смысл фразеологизма, отображая обычную конюшню. Во втором случае нейросеть изображает человека, проглатывающего некий объект. Нейронная сеть не смогла понять, как отобразить аршин, из-за чего мы получаем изображение, в котором отсутствует какой-либо смысл. В отношении эмоциональной адекватности, изображения вызывают эмоциональный отклик, соответствующий ожиданиям или заданной эмоциональной тематике, в 25 % случаев, например, «Буриданов осёл». Хоть нейросеть и просто визуализировала осла, но при этом эмоциональная составляющая была соблюдена. В 45 % случаев, например, «Медвежья услуга», изображения в значительной степени передают эмоциональную составляющую, но могут иметь некоторые отклонения от требуемой эмоциональной тематики. Искусственный интеллект изображает человека и сидящего перед ним медведя, оказывающего мужчине услугу. В 20 % случаев, таких как «Деньги не пахнут», изображения частично передают требуемую эмоциональную составляющую. В представлении нейросети, купюра имеет завязанный нос, хотя главным действующим объектом купюра быть не должна. Таким образом это нарушает общую эмоциональную составляющую. В 5 % случаев, например, «Всыпать по первое число» визуализации не передают требуемую эмоциональную составляющую и могут вызывать неподходящий эмоциональный отклик. Указанное выражение передает далеко не то настроение, которое мы наблюдаем на визуализации. На ней мы отчетливо видим некий элемент из яркого сыпучего материала. В отношении эстетического качества около 50 % визуализаций, например, «Деньги не пахнут» имеют достаточно хорошее визуальное оформление, четкость и привлекательность, что делает их привлекательными для восприятия. Модель не добавляет лишних элементов, чётко визуализирует главные элементы, соответствующие ключевым словам. Около 30 % изображений, таких как «Волосы дыбом», имеют средний уровень эстетики, с некоторыми недостатками в композиции или исполнении. Искусственный интеллект нереалистично отображает волосы человека, нарушая общую композицию и детализацию. Оставшиеся 20 % визуализаций, например, «За семью печатями», имеют низкий уровень эстетического качества из-за недостаточной проработки деталей и неудачной композиции, как в представленном примере. В отношении оригинальности, около 40 % иллюстраций, например, «Двуликий янус» представляют собой оригинальные и необычные идеи, которые могут привлечь внимание зрителя. Нейросеть отрисовала театральную маску с венками, имеющую чёткую границу посередине, разделяя обе половины лица. Около 30 % изображений, таких как «Лазаря петь», имеют некоторую степень оригинальности, но не являются совсем новыми или уникальными. В визуализации крылатого выражения нейросеть изображает поющего человека в одежде античной эпохи. Оставшиеся 30 % изображений, например, «Вернемся к нашим баранам» не обладают значительной оригинальностью и представляют уже известные или заимствованные идеи. В представленном примере нейронная модель отображает барана, полностью лишая изображения оригинальности. Наконец, в отношении контекстуальной связи около 40 % изображений имеют прямую связь с фразеологизмами и легко понимаются без необходимости дополнительного объяснения. Например, в визуализации «жёлтой прессы» нейросеть отображает афишу с ярким жёлтым фоном. Акцент на жёлтый цвет помогает без дополнительного объяснения понять, к какому выражению относится изображение. Около 30 % изображений, например, «Деньги не пахнут» и «Волосы дыбом», требуют некоторого контекста или знания фразеологизма для полного понимания. Оставшиеся 30 % изображений, такие как «За семью печатями», имеют неясную связь с фразеологизмами и могут быть трудными для интерпретации без контекста. Нейросеть некорректно визуализирует фразеологизм даже с точки зрения ключевых слов (неверное количество «печатей», изображение животных, никак не связанных с печатями). В заключении исследовательской работы можно отметить, что использование искусственного интеллекта и нейросетевых технологий для визуализации пословиц и фразеологизмов является перспективным направлением исследований в области лингвистики и искусства. Проект, основанный на нейросети Kandinsky, позволяет генерировать уникальные визуальные образы, соответствующие каждому фразеологическому выражению, и анализировать их по различным критериям. Анализ результатов показал, что некоторые из сгенерированных изображений успешно передают семантику и символику фразеологизмов, но некоторые требуют дополнительного контекста для полного понимания. Относительно эмоциональной адекватности, большинство изображений вызывают ожидаемые эмоциональные отклики, но некоторые отклоняются от требуемой 245 эмоциональной тематики. Визуализации также различаются по эстетическому качеству и оригинальности, при этом некоторые представляют собой оригинальные идеи, привлекательные для восприятия, а другие могут быть менее проработанными. Важным аспектом является контекстуальная связь между визуализациями и фразеологизмами. Некоторые изображения имеют прямую связь и легко понимаются, тогда как другие требуют дополнительного контекста или знания фразеологизма для полного осмысления.


Источники:


Литература:

  1. Быльева, Д. С. (2021). Искусство и искусственный интеллект. Философия и культура информационного общества. Тезисы докладов Девятой международной научно-практической конференции. Санкт-Петербург. ГУАП. С. 187–189.

  2. Быльева, Д. С. (2022). Арт и искусственный интеллект: в поисках автора. Коммуникативные стратегии информационного общества. Труды XIV Международной научно-теоретической конференции. Санкт-Петербург. СПбПУ. С. 35–40.

  3. Миловидов, С. В. (2022). Художественные особенности произведений компьютерного искусства, созданных с использованием технологий машинного обучения. Артикульт. № 4 (48), С. 36–48.

  4. Опарина, Е. О. (2010). Перевод фразеологизмов. Основные понятия переводоведения (отечественный опыт). Терминологический словарьсправочник. М. ИНИОН РАН. С. 117–120.

  5. Фадеева, Т. Е. (2023). «Союз» художника с нечеловеческим агентом - утопия или рабочая модель художественного производства? Известия Самарского научного центра Российской академии наук. Социальные, гуманитарные, медико-биологические науки. № 25 (88), С. 108–115.



51 просмотр0 комментариев

Недавние посты

Смотреть все

Comments


bottom of page