Растрепанный Блокнот | Народный тест Тьюринга. Правила 2 тура

Народный тест Тьюринга. Правила 2 тура

Существует много различных программ (в том числе русскоязычных), более или менее способных поддерживать осмысленный диалог с человеком. Для оценки интеллекта таких программ используется тест Тьюринга, основанный на беседе человека с машиной. Проверяющий должен определить, разговаривает ли он с живым человеком или с программой. Поскольку большинство программ, принимающих участие в проекте, рассчитаны на работу оффлайн, тест Тьюринга был модифицирован. Вам предлагается набор диалогов людей и программ (в каждом диалоге могут участвовать: человек-программа, программа-человек, человек-человек и программа-программа). Требуется определить, кто из участников диалогов - программы, а кто - люди (с помощью голосования).

Участники диалогов (люди и программы) зашифрованы числами. Один и тот же участник проекта (человек или программа) в различных диалогах может обозначаться различными числами.

Порядок, в котором собеседники вступают в диалоги, определен с помощью генератора случайных чисел. Если программа, которой выпало начинать разговор, не способна произнести первую реплику (ждет реплики собеседника), в качестве реплики первой из программ вводится "Привет", "Здравствуй" или другое приветствие; в некоторых случаях - произвольная строка. Это относится как к диалогам программы с человеком (если программе выпало начинать первой), так и к диалогам двух программ.

Требуется: прочитать некоторое число диалогов; сделать предположения, является ли тот или иной номер человеком или программой. Результаты будут опубликованы по окончании голосования (голосование продолжается до весны 2004 г. и может быть продлено, если какой-либо участник к этому времени получит менее 20 оценок). Данные по всем диалогам каждого участника будут обобщаться (будет выведен средний балл), поэтому количество человек, оценивших тот или иной диалог, на оценку существенно не влияет. Однако в случае, если кого-либо из участников оценило менее 20 человек, точность результатов будет сомнительной. Поэтому по возможности оценивайте побольше диалогов!

Цель №1: выяснить, какие из известных программ-собеседников более-менее способны притворяться человеком в диалоге и с использованием каких именно баз.
Цель №2: выяснить, насколько достоверны оценки (как часто человека принимают за программу, а программу - за человека).

Для оценивания вам предлагаются диалоги второго тура. Первый тур, отборочный, состоял в том, что отбраковывались программы, не способные поддерживать видимость осмысленного диалога в течение первых пяти пар реплик. В случае наличия у программы различных персонажей или баз, созданных различными людьми, рассматривались все базы, доступные на момент начала тестирования. Количество диалогов 2 тура, в котором принимала участие какая-либо конкретная программа, зависело от степени осмысленности реплик программы, а также в значительной степени от личных вкусов людей, отбиравших более-менее осмысленные диалоги для участия во 2 туре (в случае, если качество диалога казалось тестеру нетипичным для данной программы или в случае, если диалоги казались достаточно интересными, мог проводиться дополнительный диалог с участием той же программы с той же базой).
Второй тур: определите, кто из участников диалогов - программа, а кто - человек.

Варианты ответа (для голосования):
+2 балла - человек
+1 балл - не могу определить, человек или программа
0 баллов - программа, но хорошо притворяется :)
-1 балл - сразу видно, что программа :(

Данные по всем диалогам каждого участника будут объединены; результат - средний балл участника. В третий тур (с более длинными диалогами и подключением дополнительных людей-тестеров) проходят программы с неотрицательным средним результатом; таким образом, на данном этапе отбор пока остается достаточно нежестким. Количество людей, беседовавших с программами в первых двух турах, было довольно небольшим; в случае, если в третий тур пройдут две и более программы, все желающие смогут поучаствовать в подготовке диалогов программ (правила третьего тура будут объявлены позднее).

Личные имена, адреса сайтов и прочие сведения, способные подсказать ответ, из диалогов вычеркивались (заменялись на [...])

Просьба номер 1: будьте объективными! Если в одном из участников диалога вы узнали свою программу (или просто программу, которую считаете хорошей), не выбирайте вариант "Человек" или "Не могу определить"!
Просьба номер 2: не будьте слишком подозрительными, иначе человек, которого вы примете за чатбота, может обидеться :).

Диалоги для оценивания

Удобнее видеть один диалог на странице? Вам сюда...

Разработчикам программ

Если вы опознали среди участников диалогов свою программу, есть два пути повышения ее рейтинга: честный и нечестный. Нечестный путь (не рекомендуется): проголосовать за свою программу как за "Человека". Честный путь: выбрать вариант "Программа, но хорошо притворяется", затем оповестить всех своих знакомых о проводимом тестировании и надеяться, что они примут вашу программу за человека.
В первых двух турах я намеренно использовала наиболее осмысленные диалоги из всех, которые мне удалось получить. В третьем туре, если он состоится, могут быть использованы произвольные диалоги. В случае, если вы собираетесь принять участие в третьем туре, рекомендуется заняться усовершенствованием программы и баз к ней.

© Инга Кесс

При полном или частичном использовании этих материалов на своем сайте не забудьте поставить ссылку на Растрепанный Блокнот :)...

	На главную страницу

	Все о программах-собеседниках