Народный тест Тьюринга - 2005
См. также:
Народный тест Тьюринга - 2003
Тест Тьюринга: статья из Википедии (свободной энциклопедии)
Народный тест Тьюринга. Предварительный вариант технической спецификации (обсудить этот вариант можно в форуме)
Существует много различных программ (в том числе русскоязычных), более или менее способных поддерживать осмысленный диалог с человеком. Для оценки интеллекта таких программ используется тест Тьюринга, основанный на беседе человека с машиной. Проверяющий должен определить, разговаривает ли он с живым человеком или с программой. Поскольку большинство программ, принимающих участие в проекте, рассчитаны на работу оффлайн, тест Тьюринга был модифицирован. Вы можете ознакомиться с вариантом теста, предлагавшимся в 2003 году, а также с результатами тестирования: Народный тест Тьюринга-2003. Диалоги программ и людей Народного теста Тьюринга - 2003 Вы можете найти здесь.
Результаты проведения теста в 2003 году показали, что правила проведения требуют некоторой доработки. В настоящее время обсуждение правил проведения Народного теста Тьюринга в 2005 году проходит в форуме раздела "Программы-собеседники". Ведется составление новых правил; через некоторое время они будут выставлены на этой странице. (возможно перенесение времени проведения проекта на 2006 г.)
Краткое содержание правил (предварительный вариант):
Цели тестирования:
- оценить качество диалогов программ (при "общении" программы с разными пользователями и на разные темы);
- определить программы, качество диалогов которых (в среднем по всем диалогам программы) будет лучшим.
Таким образом, Народный тест Тьюринга - это одновременно конкурс и "экзамен" для программ-собеседников. В Народном тесте Тьюринга оценивается только качество диалогов человека с программой. Другие параметры, такие, как скорость "мышления", простота установки программы, интуитивно-понятный интерфейс, дизайн, возможности обучения программы в процессе диалога и/или при помощи редактора баз, наличие разных баз/персонажей, дополнительные возможности программы (например, запуск приложений) и т.п., будут рассматриваться отдельно (Не в рамках Народного теста Тьюринга).
Оценку диалогов получит не собственно программа, а система "программа+базы". Одна и та же программа при использовании разных баз может выдавать совершенно различные результаты. В случае наличия различных баз у программы при выборе одной из баз будет учитываться мнение разработчика. Допускается предоставление разработчиком новой версии программы и новых баз для тестирования, однако сделать это можно только до начала проведения диалогов; новая версия программы и баз к ней должны быть выставлены в интернет (в случае, если у программы нет собственного сайта, она может быть выставлена в Растрепанном Блокноте), при этом все тестеры первого этапа (а при желании - и люди, оценивающие диалоги) должны иметь возможность получить последнюю версию программы и баз к ней.
При разработке правил проведения Народного теста Тьюринга в 2005 году мы учитываем тот факт, что существующие на настоящий момент русскоязычные программы-собеседники могут некоторое время "притворяться человеком", но в большинстве случаев даже по диалогу видно, что один из собеседников - программа (речь идет об общении с программой для работы в оффлайне; стиль ведения диалогов в чате и оффлайн несколько отличается). В то же время существуют, безусловно, хорошие русскоязычные программы-собеседники, которые и не скрывают того факта, что являются программами. Таким образом, мы не ставим перед собой целью выявить программы, идеально притворяющиеся человеком (так, что от человека их отличить невозможно). Мы пытаемся выявить программы с стилем ведения диалогов, наиболее устраивающим пользователей, желающих поговорить с программой, как с человеком (при этом, возможно, помня, что говоришь с программой, - хотя, разумеется, если человек, говорящий с программой, забывает, что его собеседник - не человек, это уже хороший знак для разработчика программы :)).
В диалогах будут участвовать около 10 из 46 известных программ-собеседников. В список участников не были включены программы "необученные" или просто недоработанные, учебные программы, а также развлекательные программы-собеседники, изначально не предназначенные для ведения осмысленного диалога (независимо от наличия или отсутствия других положительных качеств этих программ).
Диалоги будут проводить организаторы Народного теста Тьюринга; на настоящий момент это следующие 4 человека: Инга Кесс, Андрей Филинский, Mihail, Константин Шевчук (Human_in_Shadow). Темы для разговоров выбираются случайным образом из списка; в составлении списка тем могут принять участие все желающие (прислать темы на e-mail netnotes@narod.ru или оставить сообщение в форуме).
На следующем этапе будет проводится оценивание диалогов; в оценивании могут принять участие все желающие. Порядок оценивания будет изложен в новых правилах, предварительный вариант которых вскоре появится на этой странице - для обсуждения и согласования.
Сроки проведения Народного теста Тьюринга в 2005-06 году пока не определены; они зависят от времени, в течение которого будут полностью согласованы правила проведения тестирования, составлен список диалогов и проведены прочие подготовительные мероприятия. После определения сроков проведения вся необходимая информация будет выставлена на этой странице, также будет сообщение в рассылке Растрепанного Блокнота. Следите за обновлениями!
Высказать свое мнение, пожелания, замечания, предложения и т.п. Вы можете в форуме раздела "Программы-собеседники" или написать мне: netnotes@narod.ru
© Инга Кесс
|