Народный тест Тьюринга - 2003

См. также: Народный тест Тьюринга. Главная страница проекта

Существует много различных программ (в том числе русскоязычных), более или менее способных поддерживать осмысленный диалог с человеком. Для оценки интеллекта таких программ используется тест Тьюринга, основанный на беседе человека с машиной. Проверяющий должен определить, разговаривает ли он с живым человеком или с программой. Поскольку большинство программ, принимающих участие в проекте, рассчитаны на работу оффлайн, тест Тьюринга был модифицирован. Желающим принять участие в проекте предлагался набор диалогов людей и программ (в каждом диалоге могут участвовать: человек и программа, программа и человек, человек и человек, программа и программа). Требовалось сделать предположение, кто из участников диалогов - программы, а кто - люди (с помощью голосования). Для оценивания предлагались диалоги второго тура. Первый тур, отборочный, состоял в том, что отбраковывались программы, не способные поддерживать видимость осмысленного диалога в течение первых пяти пар реплик. В случае наличия у программы различных персонажей или баз, созданных различными людьми, рассматривались все базы, доступные на момент начала тестирования. Количество диалогов 2 тура, в котором принимала участие какая-либо конкретная программа, зависело от степени осмысленности реплик программы, а также в значительной степени от личных вкусов людей, отбиравших более-менее осмысленные диалоги для участия во 2 туре (в случае, если качество диалога казалось тестеру нетипичным для данной программы или в случае, если диалоги казались достаточно интересными, мог проводиться дополнительный диалог с участием той же программы с той же базой).
Полный текст правил второго тура...

Участники диалогов (люди и программы) были зашифрованы числами. Один и тот же участник (программа или один из участников-людей) в различных диалогах мог обозначаться различными числами:

  1. - человек
  2. - Electronic Brain
  3. - A-life3
  4. - Девушка 1.0
  5. - человек
  6. - человек
  7. - человек
  8. - Нус (с оригинальной базой реплик, размещенной на сайте разработчика)
  9. - Нус (с дополненной нами базой)
  10. - человек
  11. - talkerus
  12. - человек
  13. - человек
  14. - Нус с использованием базы "Инна Гомес" (размещена на сайте разработчика)
  15. - человек
  16. - Болтун 3 (оригинальная база)
  17. - ChatMaster (с дополненной нами базой)
  18. - человек
  19. - Девушка 1.0
  20. - Девушка 1.0
  21. - villy
  22. - Попугай
  23. - Девушка 1.0
  24. - Девушка 1.0
  25. - человек
  26. - человек
  27. - человек
  28. - Девушка 1.0 (база "Болтунья", полученная при обучении Девушки в диалоге с программой "Болтун")
  29. - ChatMaster (с дополненной нами базой)
  30. - человек
  31. - Девушка 1.0
  32. - Болтун 3 (с использованием базы, полученной при импорте базы программы ChatMaster)
  33. - человек
  34. - ChatMaster с оригинальной базой (выставленной на сайте разработчика)
  35. - Нус
  36. - Болтун
  37. - Девушка 1.0
  38. - человек (намеренно притворяется программой)
  39. - Electronic Brain
  40. - Болтун

В первом диалоге принимали участники с номерами 1 и 2, во втором - участники с номерами 3 и 4, и так далее.

Всем желающим предлагалось выставить каждому из участников диалогов оценку:
+2 балла - человек
+1 балл - не могу определить, человек или программа
0 баллов - программа, но хорошо притворяется
-1 балл - программа, притворяться не умеет

Успешно прошедшими 2-й тур предлагалось считать программы с неотрицательным средним результатом. Поскольку у ряда выставлявших оценки возник вопрос, почему именно +2, +1, 0 и -1 балл и могут ли в принципе использоваться такие оценки, поясняю: это аналог обычной 5-балльной системы, в которой, как известно, оценка "1" практически не ставится.

"5" - человек
"4" - не могу определить, человек или программа
"3" - программа, но хорошо притворяется
"2" - программа, притворяться не умеет
(в пятибалльной системе "неотрицательным" результатом является средний балл "3" и выше)

Тестирование завершилось 30.04.2004. На этот момент была выставлена 791 оценка (в сумме по всем диалогам). Около 40% оценок при этом было выставлено участникам-людям, около 60% - участникам-программам (в то время как доля людей и программ среди участников диалогов составляла 37,5% и 62,5% соответственно). Оценки распределились следующим образом:

Программу оценили как "хорошо притворяющуюся" 14,38%
Программу оценили как "плохо притворяющуюся" 32,00%
Программу приняли за человека 8,75%
Программу затруднились отличить от человека ("не могу определить") 4,72%
Правильно распознали человека 24,02%
Человека затруднились отличить от программы ("не могу определить") 3,86%
Человека приняли за хорошо притворяющуюся программу 5,20%
Человека приняли за плохо притворяющуюся программу 7,06%

Распределение оценок во 2 туре Народного теста Тьюринга

Оценки участников:

Участник

 

Оценка по 5-балльной системе

Средний балл в тесте

1

Человек

4,04

1,07

2

Electronic Brain

2,51

-0,49

3

A-life3

2,29

-0,74

4

Девушка 1.0

2,94

-0,09

5

Человек

4,71

1,68

6

Человек

3,67

0,67

7

Человек

4,43

1,43

8

Нус (оригинальная база)

2,71

-0,29

9

Нус 3 (база Инги Кесс)

2,65

-0,35

10

Человек

4,24

1,24

11

Talkerus

2,66

-0,37

12

Человек

4,5

1,5

13

Человек

3,66

0,63

14

Нус (персонаж «Инна Гомес»)

2,7

-0,33

15

Человек

4,67

1,67

16

Болтун 3 (оригинальная база)

3,2

0,2

17

ChatMaster  (база Инги Кесс)

3,33

0,33

18

Человек

5

2

19

Девушка 1.0

3

0

20

Девушка 1.0

3,58

0,58

21

Villy

3,18

0,15

22

Попугай

2,57

-0,43

23

Девушка 1.0

4,15

1,15

24

Девушка 1.0

3,61

0,61

25

Человек

4,34

1,34

26

Человек

4,11

1,14

27

Человек

4

1

28

Девушка 1.0 (база «Болтунья»)

2,85

-0,15

29

ChatMaster  (база Инги Кесс)

2,7

-0,3

30

Человек

3,8

0,8

31

Девушка 1.0

3,4

0,4

32

Болтун 3 (база «Chatmaster»)

2,85

-0,15

33

Человек

4,2

1,2

34

ChatMaster (оригинальная база)

2,44

-0,56

35

Нус (база Инги Кесс)

3,28

0,25

36

Болтун 3

3,19

0,22

37

Девушка 1.0

3,87

0,9

38

Человек (притворяется программой)

3,08

0,08

39

Electronic Brain

2,29

-0,71

40

Болтун 3

2,95

-0,05

Зеленым цветом в таблице отмечены неотрицательные результаты, принадлежащие как программам, так и участникам-людям.

Неотрицательные результаты принадлежат участникам-программам с номерами 16 (Болтун), 17 (ChatMaster с базой Инги Кесс), 19 и 20 (Девушка 1.0), 21 (Villy); 23, 24, 31 (Девушка 1.0), 35 (Nus с базой Инги Кесс), 36 (Болтун), 37 (Девушка 1.0). Таким образом, в отдельных диалогах хорошие результаты показали программы (в алфавитном порядке) ChatMaster, Nus, Villy, Болтун, Девушка 1.0.
Если рассматривать оценки одного и того же участника в различных диалогах совместно (считая одну и ту же программу с разными базами как различных участников), неотрицательные результаты получают программы:
ChatMaster, с использованием дополненной нами базы (средний балл около 0,08)
Болтун с оригинальной базой (средний балл около 0,08)
Девушка 1.0 с оригинальной базой (средний балл около 0,41)
Villy (средний балл около 0,15)
Мы предполагали, что в списке программ с неотрицательным результатом (с усреднением результатов по всем диалогам программы с одной и той же базой) должна будет присутствовать программа Nus (с той или иной базой реплик); но этого не произошло. На наш субъективный взгляд, причиной тому являются повторы Nus-ом одних и тех же реплик в одном из диалогов и слишком хорошо узнаваемые реплики в других диалогах. Кстати, хорошо узнаваемые реплики - проблема многих программ; именно эта проблема, как мы считаем, не дала получить существенно более высокий балл программе ChatMaster и некоторым другим программам.

При совместном рассмотрении оценок одной и той же программы для всех использованных баз из списка программ с ненулевым результатом выпадает ChatMaster (поскольку оригинальная база программы в результате неграмотных действий пользователей перегружена репликами с малой степенью осмысленности).

Результаты совместного оценивания участников
(все диалоги одной и той же программы с использованием различных баз):

Участник

Средний балл

Люди

1,12

Болтун

0,02

Девушка 1.0

0,37

Nus

-0,31

ChatMaster

-0,09

Electronic Brain

-0,54

A-Life3

-0,74

Talkerus

-0,37

Villy

0,15

Попугай

-0,43

Следует отметить, что относительно высокие показатели одних программ и относительно низкие показатели других не означают безусловного превосходства одних программ над другими. Речь идет об оценивании конкретных диалогов; в других диалогах, с другими людьми-тестерами и при использовании других (возможно, дополненных) баз результаты могли бы быть совершенно иными. Вообще, как показал опыт, качество диалогов с одной и той же программой существенно меняется при использовании различных баз. Причин этому, как мы считаем, две: во-первых, что очевидно, использование базы с малым количеством записей (или с большим количеством неосмысленных реплик) существенно ухудшает качество диалога. Во-вторых, разные люди по-разному ведут диалог, используют различные обороты речи; программа, удачно взаимодействующая с одним человеком, может оказаться не в состоянии правильно понять и отреагировать на реплики другого, и наоборот, программа, с беседе с большинством людей выдающая бессмысленные реплики в ответ на слова пользователя, может вполне осмысленно реагировать, например, на реплики своего разработчика (или других людей с тем же стилем ведения беседы).

Диалоги, предлагавшиеся для оценивания во 2 туре:

Удобнее видеть один диалог на странице? Вам сюда...

Через какое-то время работа над проектом "Народный тест Тьюринга" будет продолжена (точная дата пока не определена). Вероятнее всего, первоначальные планы (проведение 3-го тура по итогам 2-го) будут изменены. Во-первых, ряд программ-участников, не получивших во 2 туре неотрицательных результатов, - это относительно недавно созданные программы. За время проведения 2-го тура появились новые версии программ и были пополнены базы; эти программы могли бы пройти 2-й тур тестирования, появись новые версии чуть раньше. Во-вторых, у нас вызывает некоторые сомнения достоверность полученных результатов. В ближайшем будущем на сайте будут выставлены дополнительные комментарии к полученным результатам.
Ждите объявлений!

См. также: Народный тест Тьюринга. Главная страница проекта

© Инга Кесс

При полном или частичном использовании этих материалов на своем сайте не забудьте поставить ссылку на Растрепанный Блокнот :)...

 
На главную страницу
 
Все о программах-собеседниках

Hosted by uCoz