Растрепанный Блокнот | Народный тест Тьюринга

Народный тест Тьюринга - 2003

См. также: Народный тест Тьюринга. Главная страница проекта

Существует много различных программ (в том числе русскоязычных), более или менее способных поддерживать осмысленный диалог с человеком. Для оценки интеллекта таких программ используется тест Тьюринга, основанный на беседе человека с машиной. Проверяющий должен определить, разговаривает ли он с живым человеком или с программой. Поскольку большинство программ, принимающих участие в проекте, рассчитаны на работу оффлайн, тест Тьюринга был модифицирован. Желающим принять участие в проекте предлагался набор диалогов людей и программ (в каждом диалоге могут участвовать: человек и программа, программа и человек, человек и человек, программа и программа). Требовалось сделать предположение, кто из участников диалогов - программы, а кто - люди (с помощью голосования). Для оценивания предлагались диалоги второго тура. Первый тур, отборочный, состоял в том, что отбраковывались программы, не способные поддерживать видимость осмысленного диалога в течение первых пяти пар реплик. В случае наличия у программы различных персонажей или баз, созданных различными людьми, рассматривались все базы, доступные на момент начала тестирования. Количество диалогов 2 тура, в котором принимала участие какая-либо конкретная программа, зависело от степени осмысленности реплик программы, а также в значительной степени от личных вкусов людей, отбиравших более-менее осмысленные диалоги для участия во 2 туре (в случае, если качество диалога казалось тестеру нетипичным для данной программы или в случае, если диалоги казались достаточно интересными, мог проводиться дополнительный диалог с участием той же программы с той же базой).
Полный текст правил второго тура...

Участники диалогов (люди и программы) были зашифрованы числами. Один и тот же участник (программа или один из участников-людей) в различных диалогах мог обозначаться различными числами:

- человек
- Electronic Brain
- A-life3
- Девушка 1.0
- человек
- человек
- человек
- Нус (с оригинальной базой реплик, размещенной на сайте разработчика)
- Нус (с дополненной нами базой)
- человек
- talkerus
- человек
- человек
- Нус с использованием базы "Инна Гомес" (размещена на сайте разработчика)
- человек
- Болтун 3 (оригинальная база)
- ChatMaster (с дополненной нами базой)
- человек
- Девушка 1.0
- Девушка 1.0
- villy
- Попугай
- Девушка 1.0
- Девушка 1.0
- человек
- человек
- человек
- Девушка 1.0 (база "Болтунья", полученная при обучении Девушки в диалоге с программой "Болтун")
- ChatMaster (с дополненной нами базой)
- человек
- Девушка 1.0
- Болтун 3 (с использованием базы, полученной при импорте базы программы ChatMaster)
- человек
- ChatMaster с оригинальной базой (выставленной на сайте разработчика)
- Нус
- Болтун
- Девушка 1.0
- человек (намеренно притворяется программой)
- Electronic Brain
- Болтун

В первом диалоге принимали участники с номерами 1 и 2, во втором - участники с номерами 3 и 4, и так далее.

Всем желающим предлагалось выставить каждому из участников диалогов оценку:
+2 балла - человек
+1 балл - не могу определить, человек или программа
0 баллов - программа, но хорошо притворяется
-1 балл - программа, притворяться не умеет

Успешно прошедшими 2-й тур предлагалось считать программы с неотрицательным средним результатом. Поскольку у ряда выставлявших оценки возник вопрос, почему именно +2, +1, 0 и -1 балл и могут ли в принципе использоваться такие оценки, поясняю: это аналог обычной 5-балльной системы, в которой, как известно, оценка "1" практически не ставится.

"5" - человек
"4" - не могу определить, человек или программа
"3" - программа, но хорошо притворяется
"2" - программа, притворяться не умеет
(в пятибалльной системе "неотрицательным" результатом является средний балл "3" и выше)

Тестирование завершилось 30.04.2004. На этот момент была выставлена 791 оценка (в сумме по всем диалогам). Около 40% оценок при этом было выставлено участникам-людям, около 60% - участникам-программам (в то время как доля людей и программ среди участников диалогов составляла 37,5% и 62,5% соответственно). Оценки распределились следующим образом:

Программу оценили как "хорошо притворяющуюся" 14,38%
Программу оценили как "плохо притворяющуюся" 32,00%
Программу приняли за человека 8,75%
Программу затруднились отличить от человека ("не могу определить") 4,72%
Правильно распознали человека 24,02%
Человека затруднились отличить от программы ("не могу определить") 3,86%
Человека приняли за хорошо притворяющуюся программу 5,20%
Человека приняли за плохо притворяющуюся программу 7,06%

Распределение оценок во 2 туре Народного теста Тьюринга

Оценки участников:

Участник		Оценка по 5-балльной системе	Средний балл в тесте
1	Человек	4,04	1,07
2	Electronic Brain	2,51	-0,49
3	A-life3	2,29	-0,74
4	Девушка 1.0	2,94	-0,09
5	Человек	4,71	1,68
6	Человек	3,67	0,67
7	Человек	4,43	1,43
8	Нус (оригинальная база)	2,71	-0,29
9	Нус 3 (база Инги Кесс)	2,65	-0,35
10	Человек	4,24	1,24
11	Talkerus	2,66	-0,37
12	Человек	4,5	1,5
13	Человек	3,66	0,63
14	Нус (персонаж «Инна Гомес»)	2,7	-0,33
15	Человек	4,67	1,67
16	Болтун 3 (оригинальная база)	3,2	0,2
17	ChatMaster (база Инги Кесс)	3,33	0,33
18	Человек	5	2
19	Девушка 1.0	3	0
20	Девушка 1.0	3,58	0,58
21	Villy	3,18	0,15
22	Попугай	2,57	-0,43
23	Девушка 1.0	4,15	1,15
24	Девушка 1.0	3,61	0,61
25	Человек	4,34	1,34
26	Человек	4,11	1,14
27	Человек	4	1
28	Девушка 1.0 (база «Болтунья»)	2,85	-0,15
29	ChatMaster (база Инги Кесс)	2,7	-0,3
30	Человек	3,8	0,8
31	Девушка 1.0	3,4	0,4
32	Болтун 3 (база «Chatmaster»)	2,85	-0,15
33	Человек	4,2	1,2
34	ChatMaster (оригинальная база)	2,44	-0,56
35	Нус (база Инги Кесс)	3,28	0,25
36	Болтун 3	3,19	0,22
37	Девушка 1.0	3,87	0,9
38	Человек (притворяется программой)	3,08	0,08
39	Electronic Brain	2,29	-0,71
40	Болтун 3	2,95	-0,05

Зеленым цветом в таблице отмечены неотрицательные результаты, принадлежащие как программам, так и участникам-людям.

Неотрицательные результаты принадлежат участникам-программам с номерами 16 (Болтун), 17 (ChatMaster с базой Инги Кесс), 19 и 20 (Девушка 1.0), 21 (Villy); 23, 24, 31 (Девушка 1.0), 35 (Nus с базой Инги Кесс), 36 (Болтун), 37 (Девушка 1.0). Таким образом, в отдельных диалогах хорошие результаты показали программы (в алфавитном порядке) ChatMaster, Nus, Villy, Болтун, Девушка 1.0.
Если рассматривать оценки одного и того же участника в различных диалогах совместно (считая одну и ту же программу с разными базами как различных участников), неотрицательные результаты получают программы:
ChatMaster, с использованием дополненной нами базы (средний балл около 0,08)
Болтун с оригинальной базой (средний балл около 0,08)
Девушка 1.0 с оригинальной базой (средний балл около 0,41)
Villy (средний балл около 0,15)
Мы предполагали, что в списке программ с неотрицательным результатом (с усреднением результатов по всем диалогам программы с одной и той же базой) должна будет присутствовать программа Nus (с той или иной базой реплик); но этого не произошло. На наш субъективный взгляд, причиной тому являются повторы Nus-ом одних и тех же реплик в одном из диалогов и слишком хорошо узнаваемые реплики в других диалогах. Кстати, хорошо узнаваемые реплики - проблема многих программ; именно эта проблема, как мы считаем, не дала получить существенно более высокий балл программе ChatMaster и некоторым другим программам.

При совместном рассмотрении оценок одной и той же программы для всех использованных баз из списка программ с ненулевым результатом выпадает ChatMaster (поскольку оригинальная база программы в результате неграмотных действий пользователей перегружена репликами с малой степенью осмысленности).

Результаты совместного оценивания участников
(все диалоги одной и той же программы с использованием различных баз):

Участник	Средний балл
Люди	1,12
Болтун	0,02
Девушка 1.0	0,37
Nus	-0,31
ChatMaster	-0,09
Electronic Brain	-0,54
A-Life3	-0,74
Talkerus	-0,37
Villy	0,15
Попугай	-0,43

Следует отметить, что относительно высокие показатели одних программ и относительно низкие показатели других не означают безусловного превосходства одних программ над другими. Речь идет об оценивании конкретных диалогов; в других диалогах, с другими людьми-тестерами и при использовании других (возможно, дополненных) баз результаты могли бы быть совершенно иными. Вообще, как показал опыт, качество диалогов с одной и той же программой существенно меняется при использовании различных баз. Причин этому, как мы считаем, две: во-первых, что очевидно, использование базы с малым количеством записей (или с большим количеством неосмысленных реплик) существенно ухудшает качество диалога. Во-вторых, разные люди по-разному ведут диалог, используют различные обороты речи; программа, удачно взаимодействующая с одним человеком, может оказаться не в состоянии правильно понять и отреагировать на реплики другого, и наоборот, программа, с беседе с большинством людей выдающая бессмысленные реплики в ответ на слова пользователя, может вполне осмысленно реагировать, например, на реплики своего разработчика (или других людей с тем же стилем ведения беседы).

Диалоги, предлагавшиеся для оценивания во 2 туре:

Удобнее видеть один диалог на странице? Вам сюда...

Через какое-то время работа над проектом "Народный тест Тьюринга" будет продолжена (точная дата пока не определена). Вероятнее всего, первоначальные планы (проведение 3-го тура по итогам 2-го) будут изменены. Во-первых, ряд программ-участников, не получивших во 2 туре неотрицательных результатов, - это относительно недавно созданные программы. За время проведения 2-го тура появились новые версии программ и были пополнены базы; эти программы могли бы пройти 2-й тур тестирования, появись новые версии чуть раньше. Во-вторых, у нас вызывает некоторые сомнения достоверность полученных результатов. В ближайшем будущем на сайте будут выставлены дополнительные комментарии к полученным результатам.
Ждите объявлений!

См. также: Народный тест Тьюринга. Главная страница проекта

© Инга Кесс

При полном или частичном использовании этих материалов на своем сайте не забудьте поставить ссылку на Растрепанный Блокнот :)...

	На главную страницу

	Все о программах-собеседниках

Народный тест Тьюринга - 2003

Оценки участников:

Результаты совместного оценивания участников (все диалоги одной и той же программы с использованием различных баз):

Диалоги, предлагавшиеся для оценивания во 2 туре:

Результаты совместного оценивания участников
(все диалоги одной и той же программы с использованием различных баз):