Народный тест Тьюринга - 2003
См. также: Народный тест Тьюринга. Главная страница проекта
Существует много различных программ (в том числе русскоязычных), более или менее способных поддерживать осмысленный диалог с человеком. Для оценки интеллекта таких программ используется тест Тьюринга, основанный на беседе человека с машиной. Проверяющий должен определить, разговаривает ли он с живым человеком или с программой. Поскольку большинство программ, принимающих участие в проекте, рассчитаны на работу оффлайн, тест Тьюринга был модифицирован.
Желающим принять участие в проекте предлагался набор диалогов людей и программ (в каждом диалоге могут участвовать: человек и программа, программа и человек, человек и человек, программа и программа). Требовалось сделать предположение, кто из участников диалогов - программы, а кто - люди (с помощью голосования). Для оценивания предлагались диалоги второго тура. Первый тур, отборочный, состоял в том, что отбраковывались программы, не способные поддерживать видимость осмысленного диалога в течение первых пяти пар реплик. В случае наличия у программы различных персонажей или баз, созданных различными людьми, рассматривались все базы, доступные на момент начала тестирования. Количество диалогов 2 тура, в котором принимала участие какая-либо конкретная программа, зависело от степени осмысленности реплик программы, а также в значительной степени от личных вкусов людей, отбиравших более-менее осмысленные диалоги для участия во 2 туре (в случае, если качество диалога казалось тестеру нетипичным для данной программы или в случае, если диалоги казались достаточно интересными, мог проводиться дополнительный диалог с участием той же программы с той же базой).
Полный текст правил второго тура...
Участники диалогов (люди и программы) были зашифрованы числами. Один и тот же участник (программа или один из участников-людей) в различных диалогах мог обозначаться различными числами:
- - человек
- - Electronic Brain
- - A-life3
- - Девушка 1.0
- - человек
- - человек
- - человек
- - Нус (с оригинальной базой реплик, размещенной на сайте разработчика)
- - Нус (с дополненной нами базой)
- - человек
- - talkerus
- - человек
- - человек
- - Нус с использованием базы "Инна Гомес" (размещена на сайте разработчика)
- - человек
- - Болтун 3 (оригинальная база)
- - ChatMaster (с дополненной нами базой)
- - человек
- - Девушка 1.0
- - Девушка 1.0
- - villy
- - Попугай
- - Девушка 1.0
- - Девушка 1.0
- - человек
- - человек
- - человек
- - Девушка 1.0 (база "Болтунья", полученная при обучении Девушки в диалоге с программой "Болтун")
- - ChatMaster (с дополненной нами базой)
- - человек
- - Девушка 1.0
- - Болтун 3 (с использованием базы, полученной при импорте базы программы ChatMaster)
- - человек
- - ChatMaster с оригинальной базой (выставленной на сайте разработчика)
- - Нус
- - Болтун
- - Девушка 1.0
- - человек (намеренно притворяется программой)
- - Electronic Brain
- - Болтун
В первом диалоге принимали участники с номерами 1 и 2, во втором - участники с номерами 3 и 4, и так далее.
Всем желающим предлагалось выставить каждому из участников диалогов оценку:
+2 балла - человек
+1 балл - не могу определить, человек или программа
0 баллов - программа, но хорошо притворяется
-1 балл - программа, притворяться не умеет
Успешно прошедшими 2-й тур предлагалось считать программы с неотрицательным средним результатом. Поскольку у ряда выставлявших оценки возник вопрос, почему именно +2, +1, 0 и -1 балл и могут ли в принципе использоваться такие оценки, поясняю: это аналог обычной 5-балльной системы, в которой, как известно, оценка "1" практически не ставится.
"5" - человек
"4" - не могу определить, человек или программа
"3" - программа, но хорошо притворяется
"2" - программа, притворяться не умеет
(в пятибалльной системе "неотрицательным" результатом является средний балл "3" и выше)
Тестирование завершилось 30.04.2004. На этот момент была выставлена 791 оценка (в сумме по всем диалогам). Около 40% оценок при этом было выставлено участникам-людям, около 60% - участникам-программам (в то время как доля людей и программ среди участников диалогов составляла 37,5% и 62,5% соответственно). Оценки распределились следующим образом:
Программу оценили как "хорошо притворяющуюся" 14,38%
Программу оценили как "плохо притворяющуюся" 32,00%
Программу приняли за человека 8,75%
Программу затруднились отличить от человека ("не могу определить") 4,72%
Правильно распознали человека 24,02%
Человека затруднились отличить от программы ("не могу определить") 3,86%
Человека приняли за хорошо притворяющуюся программу 5,20%
Человека приняли за плохо притворяющуюся программу 7,06%
Оценки участников:
Участник
|
Оценка по 5-балльной
системе
|
Средний балл
в тесте
|
1
|
Человек
|
4,04
|
1,07
|
2
|
Electronic Brain
|
2,51
|
-0,49
|
3
|
A-life3
|
2,29
|
-0,74
|
4
|
Девушка
1.0
|
2,94
|
-0,09
|
5
|
Человек
|
4,71
|
1,68
|
6
|
Человек
|
3,67
|
0,67
|
7
|
Человек
|
4,43
|
1,43
|
8
|
Нус (оригинальная база)
|
2,71
|
-0,29
|
9
|
Нус 3 (база Инги Кесс)
|
2,65
|
-0,35
|
10
|
Человек
|
4,24
|
1,24
|
11
|
Talkerus
|
2,66
|
-0,37
|
12
|
Человек
|
4,5
|
1,5
|
13
|
Человек
|
3,66
|
0,63
|
14
|
Нус (персонаж «Инна Гомес»)
|
2,7
|
-0,33
|
15
|
Человек
|
4,67
|
1,67
|
16
|
Болтун
3 (оригинальная база)
|
3,2
|
0,2
|
17
|
ChatMaster (база Инги Кесс)
|
3,33
|
0,33
|
18
|
Человек
|
5
|
2
|
19
|
Девушка
1.0
|
3
|
0
|
20
|
Девушка
1.0
|
3,58
|
0,58
|
21
|
Villy
|
3,18
|
0,15
|
22
|
Попугай
|
2,57
|
-0,43
|
23
|
Девушка
1.0
|
4,15
|
1,15
|
24
|
Девушка
1.0
|
3,61
|
0,61
|
25
|
Человек
|
4,34
|
1,34
|
26
|
Человек
|
4,11
|
1,14
|
27
|
Человек
|
4
|
1
|
28
|
Девушка
1.0 (база «Болтунья»)
|
2,85
|
-0,15
|
29
|
ChatMaster (база Инги Кесс)
|
2,7
|
-0,3
|
30
|
Человек
|
3,8
|
0,8
|
31
|
Девушка
1.0
|
3,4
|
0,4
|
32
|
Болтун
3 (база «Chatmaster»)
|
2,85
|
-0,15
|
33
|
Человек
|
4,2
|
1,2
|
34
|
ChatMaster (оригинальная база)
|
2,44
|
-0,56
|
35
|
Нус (база Инги Кесс)
|
3,28
|
0,25
|
36
|
Болтун
3
|
3,19
|
0,22
|
37
|
Девушка
1.0
|
3,87
|
0,9
|
38
|
Человек
(притворяется программой)
|
3,08
|
0,08
|
39
|
Electronic Brain
|
2,29
|
-0,71
|
40
|
Болтун
3
|
2,95
|
-0,05
|
Зеленым цветом в таблице отмечены неотрицательные результаты, принадлежащие как программам, так и участникам-людям.
Неотрицательные результаты принадлежат участникам-программам с номерами 16 (Болтун), 17 (ChatMaster с базой Инги Кесс), 19 и 20 (Девушка 1.0), 21 (Villy); 23, 24, 31 (Девушка 1.0), 35 (Nus с базой Инги Кесс), 36 (Болтун), 37 (Девушка 1.0). Таким образом, в отдельных диалогах хорошие результаты показали программы (в алфавитном порядке) ChatMaster, Nus, Villy, Болтун, Девушка 1.0.
Если рассматривать оценки одного и того же участника в различных диалогах совместно (считая одну и ту же программу с разными базами как различных участников), неотрицательные результаты получают программы:
ChatMaster, с использованием дополненной нами базы (средний балл около 0,08)
Болтун с оригинальной базой (средний балл около 0,08)
Девушка 1.0 с оригинальной базой (средний балл около 0,41)
Villy (средний балл около 0,15)
Мы предполагали, что в списке программ с неотрицательным результатом (с усреднением результатов по всем диалогам программы с одной и той же базой) должна будет присутствовать программа Nus (с той или иной базой реплик); но этого не произошло. На наш субъективный взгляд, причиной тому являются повторы Nus-ом одних и тех же реплик в одном из диалогов и слишком хорошо узнаваемые реплики в других диалогах. Кстати, хорошо узнаваемые реплики - проблема многих программ; именно эта проблема, как мы считаем, не дала получить существенно более высокий балл программе ChatMaster и некоторым другим программам.
При совместном рассмотрении оценок одной и той же программы для всех использованных баз из списка программ с ненулевым результатом выпадает ChatMaster (поскольку оригинальная база программы в результате неграмотных действий пользователей перегружена репликами с малой степенью осмысленности).
Результаты совместного оценивания участников (все диалоги одной и той же программы с использованием различных баз):
Участник |
Средний балл> |
Люди |
1,12 |
Болтун |
0,02 |
Девушка 1.0 |
0,37 |
Nus |
-0,31 |
ChatMaster |
-0,09 |
Electronic Brain |
-0,54 |
A-Life3 |
-0,74 |
Talkerus |
-0,37 |
Villy |
0,15 |
Попугай |
-0,43 |
Следует отметить, что относительно высокие показатели одних программ и относительно низкие показатели других не означают безусловного превосходства одних программ над другими. Речь идет об оценивании конкретных диалогов; в других диалогах, с другими людьми-тестерами и при использовании других (возможно, дополненных) баз результаты могли бы быть совершенно иными. Вообще, как показал опыт, качество диалогов с одной и той же программой существенно меняется при использовании различных баз. Причин этому, как мы считаем, две: во-первых, что очевидно, использование базы с малым количеством записей (или с большим количеством неосмысленных реплик) существенно ухудшает качество диалога. Во-вторых, разные люди по-разному ведут диалог, используют различные обороты речи; программа, удачно взаимодействующая с одним человеком, может оказаться не в состоянии правильно понять и отреагировать на реплики другого, и наоборот, программа, с беседе с большинством людей выдающая бессмысленные реплики в ответ на слова пользователя, может вполне осмысленно реагировать, например, на реплики своего разработчика (или других людей с тем же стилем ведения беседы).
Диалоги, предлагавшиеся для оценивания во 2 туре:
- Участники 1+2, 3+4, 5+6, 7+8, 9+10
- Участники 11+12, 13+14, 15+16, 17+18, 19+20
- Участники 21+22, 23+24, 25+26, 27+28, 29+30
- Участники 31+32, 33+34, 35+36, 37+38, 39+40
Удобнее видеть один диалог на странице? Вам сюда...
Через какое-то время работа над проектом "Народный тест Тьюринга" будет продолжена (точная дата пока не определена). Вероятнее всего, первоначальные планы (проведение 3-го тура по итогам 2-го) будут изменены. Во-первых, ряд программ-участников, не получивших во 2 туре неотрицательных результатов, - это относительно недавно созданные программы. За время проведения 2-го тура появились новые версии программ и были пополнены базы; эти программы могли бы пройти 2-й тур тестирования, появись новые версии чуть раньше. Во-вторых, у нас вызывает некоторые сомнения достоверность полученных результатов. В ближайшем будущем на сайте будут выставлены дополнительные комментарии к полученным результатам.
Ждите объявлений!
См. также: Народный тест Тьюринга. Главная страница проекта
© Инга Кесс
При полном или частичном использовании этих материалов на своем сайте не забудьте поставить ссылку на Растрепанный Блокнот :)...
|