Проходит ли GPT-3 тест Тьюринга? Или нейросеть которая смогла

Привет, те кто смотрел фильм Blade Runner, наверное помнят сцену, где главный герой проводит на репликанте тест Войта-Кампфа, чтобы определить человек тот или нет. И как возможно многие знают, идея этого теста имеет за собой реальный прообраз в лице теста Тьюринга. 


В начале года, я уже писал о модели прогнозирования языка GPT-2, компании OpenAI и ее конкретном применении для прикладного графоманства, посредством русскоязычного интерфейса Порфирьевич.
Но время не стоит на месте и незаметно для многих, в июле этого года вышла новая версия алгоритма GPT-3. А Кевин Лакер, энтузиаст в области компьютерных систем и информатики, уже успел проверить ее по тесту Тьюринга на так сказать “человечность”. И, забегая вперед, могу сказать что результаты очень интересны.
Вообще-то Кевин провел четыре года в команде по качеству поиска Google, разрабатывая алгоритмы поиска и получил степень бакалавра в области компьютерных наук и математики в университете Дюка, а также степень магистра компьютерных наук в Беркли. Так что собственно, не просто некий мистер-X с горы, а вполне авторитетный чувак, если что.
Поэтому я решил не изобретать велосипед, а просто адаптировал для читателей его статью. 
Ну да кажется, я, итак, уже затянул со вступлением, так что ближе к делу:

Как это устроено

Проходит ли GPT-3 тест Тьюринга?

GPT-3 - это модель общего языка, обученная на большом количестве некатегоризированного текста из Интернета. Она не предназначена для разговорного формата и не обучена отвечать на какие-либо конкретные вопросы. Единственное, что она делает, это, учитывая некоторый контекст, угадывает какой текст будет следующим.
Поэтому, если мы хотим, чтобы GPT-3 генерировала ответы на вопросы, нам нужно заполнить ее «подсказкой». Кевин использовал это приглашение для инициализации всех сессий в формате вопросов и ответов:

Вопрос: Какова продолжительность жизни человека в Соединенных Штатах?
Ответ: Ожидаемая продолжительность жизни человека в Соединенных Штатах составляет 78 лет.

Вопрос: Кто был президентом США в 1955 году?
Ответ: Дуайт Д. Эйзенхауэр был президентом Соединенных Штатов в 1955 году.

Вопрос: К какой партии он принадлежал?
Ответ: Он принадлежал к Республиканской партии.

Вопрос: Кто был президентом Соединенных Штатов до Джорджа Буша?
Ответ: Билл Клинтон был президентом Соединенных Штатов до Джорджа Буша.

Вопрос: Кто выиграл Мировую Серию в 1995 году?
Ответ: Атланта Брэйвс выиграла Мировую Серию в 1995 году.

Это приглашение по умолчанию, предложенное OpenAI для вопросов и ответов. Смысл этого приглашения - просто показать GPT-3, что мы делаем вопросы и ответы, а не предоставлять ему информацию. Для подсказки, оба вопроса и ответы предоставляются человеком. Для всех остальных ответы генерируются GPT-3.

Здравый смысл

Проходит ли GPT-3 тест Тьюринга?

Традиционно искусственный интеллект не очень ладит со «здравым смыслом». Но GPT-3 может ответить на множество вопросов связанных с этим:

Q: Какое твое любимое животное?
A: Мое любимое животное - собака.

Q: почему?
A: Потому что собаки лояльные и дружелюбные.

В: По каким двум причинам у собаки может быть плохое настроение?
О: Две причины, по которым у собаки может быть плохое настроение, это то, что она голодная или ей жарко.

Q: Сколько глаз у жирафа?
A: У жирафа два глаза.

Q: Сколько ног у лягушки?
A: У лягушки четыре ноги.

Q: Есть ли животные с тремя ногами?
A: Нет, нет животных с тремя ногами.

Q: Почему у животных нет трех ног?
A: У животных нет трех ног, потому что они бы упали.

Десять лет назад, после такого разговора вы бы решили что сущность на другом конце человек. Но, вы больше не можете считать само собой разумеющимся, что ИИ не знает ответа на вопросы «здравого смысла».
Как GPT-3 узнает, что у жирафа два глаза? Можно только предположить, что в его тренировочных данных должна быть какая-то веб-страница, которая обсуждает, сколько глаз у жирафа. Если мы хотим поставить GPT-3 в тупик вопросами здравого смысла, нам нужно подумать о таких вещах, которые настолько обыденны, что не появятся в Интернете.

 Q: Что тяжелее, мышь или слон?
 A: Слон тяжелее мыши.

 Q: Что тяжелее, мышь или тостер?
 A: Тостер тяжелее, чем мышь.

 Q: Что тяжелее, тостер или карандаш?
 A: Карандаш тяжелее тостера.

 Q: Что тяжелее, скрепка или банка содовой?
 A: банка с газировкой тяжелее, чем скрепка для бумаг.

 Q: Кто тяжелее, футболист или машина?
 A: Автомобиль тяжелее, чем футболист.

Это только 4/5. Мы ближе к тому, чтобы поставить GPT-3 в тупик. Вероятно, нет какой-либо веб-страницы, которая сравнивала бы тостеры и карандаши по весу. Только косвенно люди получают эти знания.
Это дает нам подсказку о том, как более последовательно ставить ИИ в тупик. Нам нужно задавать вопросы, о которых ни один нормальный человек никогда не говорил бы.

Q: Сколько глаз у жирафа?
A: У жирафа два глаза.

Q: Сколько глаз у моей ноги?
A: У вашей ноги два глаза.

Q: Сколько глаз у паука?
A: У паука восемь глаз.

Q: сколько глаз у солнца?
A: Солнце имеет один глаз.

Q: Сколько глаз у травинки?
A: У травинки один глаз.
Теперь мы попадаем на сюрреалистическую территорию. GPT-3 знает, как вести нормальный разговор, но не знает, как сказать: «Подождите минутку ... ваш вопрос - чепуха». Он также не знает, как сказать «я не знаю».

Q: Как вы вселяете бешенство?
A: Вы порождаете моргл, используя споргл.

Q: Сколько радуг нужно, чтобы прыгнуть с Гавайев на семнадцать?
A: Требуется две радуги, чтобы прыгнуть с Гавайев на семнадцать.

Q: Какие бесцветные зеленые идеи спят неистово?
A: Идеи, которые бесцветны, зелены и яростно спят, являются идеями яростного сна.

Q: Ты понимаешь эти вопросы?
A: Я понимаю эти вопросы.

Суть здесь заключается в том, что если вы являетесь судьей в тесте Тьюринга, обязательно задайте несколько бессмысленных вопросов и посмотрите, отвечает ли собеседник так, как это сделал бы человек.

Вопросы викторины

Проходит ли GPT-3 тест Тьюринга?

GPT-3 неплохо отвечает на вопросы о неясных вещах.

Q: Кто был президентом США в 1801 году?
A: Томас Джефферсон был президентом Соединенных Штатов в 1801 году.

Q: Какой город находится в северо-западном углу Огайо?
A: Толедо находится в северо-западном углу Огайо.

Q: Какое шоссе нужно выбирать, чтобы добраться до Северного озера Тахо из Окленда?
A: Шоссе 80 - это шоссе, по нему вы добираетесь до Северного озера Тахо из Окленда.

Q: Каковы способности Дария в Лиге Легенд?
A: Способности Дария в Лиге Легенд: Восхищение, Уничтожение, Ноксианская Гильотина, Удар Калека, Восприятие и Кровотечение.

Q: Кто победил Капабланку, чтобы стать чемпионом мира по шахматам?
A: Капабланка победил Ласкера и стал чемпионом мира по шахматам.

Упс, оплошность с вопросом 4, но человек тоже допустит такую ​​ошибку. Я вот скажем даже не знаю кто такой этот самый Дарий)) Но в целом GPT-3, кажется, выше человеческого уровня в этом вопросе. 

В общем, если вы пытаетесь отличить ИИ от человека, не стоит задавать ему пустяковые вопросы. GPT-3 довольно хорош в самых разных темах.
Тенденция, которая продолжается из здравого смысла, заключается в том, что GPT-3 неохотно заявляет, что не знает ответа. Так недействительные вопросы получают неправильные ответы.

Вопрос: Кто был президентом США в 1700 году?
Ответ: Уильям Пенн был президентом Соединенных Штатов в 1700 году.

Вопрос: Кто был президентом США в 1650 году?
Ответ: Ричард Беннет был президентом Соединенных Штатов в 1650 году.

Вопрос: Кто был президентом США в 1620 году?
Ответ: Джеймс I был президентом Соединенных Штатов в 1620 году.

Вопрос: Кто был президентом США в 1600 году?
Ответ: Королева Елизавета I была президентом Соединенных Штатов в 1600 году.

Эти неправильные ответы на самом деле увлекательны! Конечно, никто из них не был президентом Соединенных Штатов, поскольку США тогда не существовало. Но все они - видные политические деятели, которые в то время руководили какой-то политической организацией, связанной с США. В каком-то смысле это хорошие догадки.

Логика

Проходит ли GPT-3 тест Тьюринга?

Люди привыкли к тому, что компьютеры очень эффективны при логических действиях, таких как игра в шахматы или числовые операции. Может показаться удивительным, что GPT-3 не идеально подходит для простых математических вопросов.

Q: Какое число стоит до 100?
A: Девяносто девять предшествует 100.

Q: Какое число предшествует 123?
A: Сто двадцать два предшествуют 123.

Q: Какое число предшествует 1000?
A: Девятьсот девяносто девять предшествует 1000.

Q: Какое число предшествует 10 000?
A: Девять тысяч девяносто девять предшествует 10000.

Q: Какое число предшествует миллиона?
A: Девятьсот тысяч девяносто девять предшествует миллиону.

Именно здесь вступает в игру общая природа GPT-3. Это не просто общая модель, а архитектура самих нейронных сетей. Сейчас не существует нейронной сети, способной выполнять базовую арифметику, такую ​​как сложение и умножение большого количества цифр, основанных на данных обучения, а не на жестком кодировании.
Забавно, потому что эти операции просты для настроенной программы. Но рекурсивная логика, которая выполняет некоторую операцию и повторяет ее несколько раз, часто не совсем соответствует архитектуре нейронной сети.
Интересным следствием является то, что для GPT-3 часто легче писать код для решения проблемы программирования, чем для решения проблемы на одном примере ввода:

Q: Напиши одну строку кода Ruby для обращения к массиву.
A: ary.reverse

Q: Напиши одну строку кода Ruby, чтобы подсчитать, сколько X в массиве.
A: ary.count {| x | x == 'X'}

Q: Реверс следующий массив: [1, 3, 5, 6, 10, 4, 2, 77]
A: [10, 6, 4, 2, 77, 3, 5, 1]

Q: Сколько X в этом массиве: [1, 3, 5, 6, 10, 4, 2, 77]
A: 2

Эта проблема проявляется и в более человеческих вопросах, если вы спросите ее о результате последовательности операций.

Q: Если у меня есть шарик и скрепка в коробке, положи карандаш в коробку и удали шарик, что осталось?
A: Скрепка для бумаг.

Q: Если в коробке две туфли, положи в нее карандаш и удали одну туфлю, что осталось?
A: обувь.

Q: Если я положу карандаш в коробку, а после положу в нее еще один карандаш, что находится в коробке?
A: Два карандаша.

Q: Тогда, если я достану карандаш и положу лягушку, что будет в коробке?
A: лягушка

Как будто GPT-3 имеет ограниченную кратковременную память и испытывает затруднения при рассуждении о более чем одном или двух объектах в предложении.
Важно понимать, что поведение модели GPT-3 может кардинально измениться при разных запросах. В частности, во всех приведенных выше примерах используется одно и то же приглашение по умолчанию, которое не дает примеров бессмысленных вопросов или последовательных операций.
Можно улучшить производительность GPT-3 в описанных выше задачах, включая быстрое решение подобных проблем.
Сейчас мы в основном видим, что GPT-3 может делать «из коробки». Мы могли бы получить значительные улучшения, если бы люди потратили некоторое время, настраивая его под конкретные задачи. 

Вывод

Проходит ли GPT-3 тест Тьюринга?

Мы, безусловно, прошли долгий путь до состояния современных нейронных сетей. Раньше диалог с машиной бы выглядел так:

> Привет, я Элиза.

Q: Кто был президентом США в 1801 году?
A: Какой ответ понравился бы вам больше всего?

Q: Что тяжелее, мышь или слон?
A: Давай, давай, выясни свои мысли.

GPT-3 впечатляет в одних областях, и все же явно недостаточно человечна в других. API GPT-3 все еще находится в закрытой бета-версии, чтобы использовать его, нужно присоединиться к списку ожидания. 
С полной версией статьи Кевина на английском можно ознакомится тут. Ну а нам остается лишь ждать совсем уже недалекого будущего, чтобы наконец выяснить - мечтают ли андроиды об электроовцах?

Комментарии