Эффект Буба/Кики и звуковой символизм в машинном обучении

 В этой статье мы рассмотрим звуковой символизм на примере эффекта «буба-кики» и его проявление в машинном обучении.

Эффект Буба/Кики и звуковой символизм в машинном обучении

Универсальный эффект

Эффект буба/кики - это явление, при котором люди предпочитают определенные соответствия между формами и соответствующими им звуками.

Эффект буба/кики

Приведенные выше изображения двух теоретических объектов показывают участнику, которого затем спрашивают, какой из них называется «буба», а какой - «кики». Результаты обычно показывают сильное предпочтение (часто до 90%), что остроугольный объект слева назывался кики, а более округлый объект справа назывался бубой. Этот эффект является относительно универсальным, он отмечен во многих языках, культурах, странах и возрастных группах, включая младенцев, которые еще не очень хорошо выучили язык. Эффект в меньшей степени выражен у аутистов и людей слепых от рождения.

Его универсальность делает эффект особенно интересным, и подтверждает гипотезу звукового символизма: идея о том, что фонемы (звуки, составляющие слова) иногда имеют значение по своей сути, а не выбраны произвольно. 

Малума и Такете

Хотя мы можем последовательно сопоставить две вышеуказанные формы с их «правильными» метками, при желании мы можем пойти гораздо дальше.

Малума и Такете

Например можно перерисовать фигуры немного по-другому, а также переименовать их: на изображении выше изображены «малума» и «такете». Если вы экспериментально подтверждаете ожидания на первого изображения этого раздела, вероятно, вы чувствуете, что малума также является левой формой на этом изображении.

Мы можем задавать вопросы об этих формах, которые выходят далеко за рамки их названий: какая из этих форм, скорее всего, будет спокойной, расслабляющей, позитивной или объясняющей? Обычно буба и малума вызывают именно такие ассоциации, тогда как кики и такетэ кажутся более резкими, быстрыми, негативными или, возможно, даже жестокими. Если провести ассоциацию с едой, легко можно представить, что левая форма имеет вкус сладкого и пушистого хлеба или конфет, в то время как правая может иметь гораздо более кислый или пряный вкус и, возможно, иметь более плотную и грубую текстуру.

Звуковая символика

Идея о том, что большие части наших языков имеют тонкие сопоставления фонем со значением, активно изучалась в течение долгого времени Платоном, Локком, Лейбницем и современными академиками, при этом различные исследования предлагали их теоретические причины и обобщения.

Примеры звукового символизма можно найти в японских миметических словах: слово jirojiro означает пристально смотреть, kirakira - сиять искрами, dokidoki - сильно нервничать, fuwafuwa - быть мягким и пушистым, subesube - быть гладим, как нежная кожа.

Звуковой символизм в машинном обучении

Многие из вышеперечисленных аспектов звуковой символики, вероятно, будут очевидны и в поведении некоторых современных моделей машинного обучения. Причина этого в том, что во многих последних моделях SOTA часто используются трансформаторы, а при работе с текстом используется кодирование байтовой электронной пары. Использование BPE позволяет модели работать с текстовым вводом, меньшим, чем размер одного слова (CLIP имеет размер словаря BPE 41 192), и, таким образом, строить сопоставления входов и выходов между различными блоками подслов. Хотя они не соответствуют напрямую фонемам (и, конечно же, модель получает текстовый ввод, а не звук), все же вероятно, что здесь можно найти много интересных ассоциаций после небольшого исследования.

Чтобы проверить это, мы можем использовать такие модели, как CLIP + VQGAN или более позднюю диффузию под управлением CLIP, предлагая им создать изображение «бубы» или «кики». Одна потенциальная проблема заключается в том, что эти слова могли быть непосредственно выучены в обучающем наборе, поэтому мы также попробуем некоторые варианты, включая составление наших собственных. Ниже приведены первые четыре изображения каждого полученного объекта.

Изображение с сайта https://nearcyan.com/the-bouba-kiki-effect-and-sound-symbolism-in-clip/

Изображение с сайта https://nearcyan.com/the-bouba-kiki-effect-and-sound-symbolism-in-clip/

Вышеупомянутые восемь изображений были созданы с подсказкой «изображение бубы», и эквивалентная подсказка для кики. Этот метод подсказки стал популярным в моделях генерации изображений на основе CLIP, поскольку вы можете добавлять в подсказку элементы, такие как «unreal engine» или «Пабло Пикассо», чтобы направить стиль изображения к образцу на свой вкус.

Как и ожидалось, созданные образы, похожие на бубу, обычно выглядят очень изогнутыми и эллиптическими, как и фонемы, составляющие звук слова. При этом, изображения кики выглядят немного менее кики, чем ожидалось, но, тем не менее, все равно выглядят круто и, кажется, слабо напоминают это слово. Если вместо этого попробовать подсказку с «формой кикитакекикитакека», вставив комично большое количество резких фонем в одно выдуманное слово, результат будет более выраженным:

Изображение с сайта https://nearcyan.com/the-bouba-kiki-effect-and-sound-symbolism-in-clip/

Мы можем аналогичным образом изменить приглашение, добавив «Форма» для наших предыдущих слов, в результате чего получится форма бубы, малумы, кики и такте:

Изображение с сайта https://nearcyan.com/the-bouba-kiki-effect-and-sound-symbolism-in-clip/
Любопытно, что ассоциации, подобные фонемам, в недавних крупных моделях, таких как CLIP, похоже, совпадают с нашими ожиданиями, и это интересный пример, который помогает нам представить все детали, встроенные в наши собственные языки и реальность, гораздо больше, чем просто одна точка данных. Существует большой потенциал для дополнительных исследований в этой области.

Комментарии