Эта статья предлагает новый взгляд на размышления об искусственном интеллекте. Доказано, что теста Тьюринга недостаточно для измерения искусственного интеллекта. Итак, теперь стандартизированные тесты по математике и естественным наукам стали использоваться для измерения искусственного интеллекта. Цель авторов - дать обзор способов сделать машину достаточно умной, чтобы пройти стандартизированный тест по математике и естествознанию.
1. Введение
Авторы сначала отмечают, что о людях судят по ответам на связанные вопросы. Но мы не можем использовать один и тот же стандарт для оценки машин. Тест Тьюринга, предложенный Аланом Тьюрингом в 1950 году [1], оценивает машину по тому, может ли она демонстрировать неразличимое разговорное поведение. В то время как сегодня стандартизированные тесты по математике и естественным наукам были предложены Кларком и Эциони [2] в качестве подходящей меры для оценки машинного интеллекта. Эта статья представляет собой краткое введение в то, как машины обучаются решать математические и естественные задачи.
2. Ответы на вопросы и область математики / естествознания
Ответ на вопрос (QA) - это тип задачи, который требует, чтобы машина генерировала ответы на вопрос, как на естественных языках. В современной системе обеспечения качества существует два типа парадигм. Один из них - это контроль качества на основе текста, который полагается на большие объемы текста. Сначала он извлекает документы, содержащие ответ, методами поиска информации, затем извлекает возможные ответы из текста и приступает к ранжированию ответов. Другой - это контроль качества, основанный на знаниях, в котором семантическое представление вопроса создается и используется для запроса баз данных фактов. Обеспечение качества по естественным наукам и математике представляет собой уникальную задачу, поскольку решение этих проблем требует как хорошего понимания вопросов, так и внутреннего представления проблемы. Кроме того, он должен часто выполнять символьные вычисления [2]. Эту проблему нелегко решить с помощью методов поиска информации или знаний.
3. Ответ на вопрос для науки
Что касается вопросов стандартизированных тестов по естествознанию, в основном это три вопроса: поиск базовых фактов, вывод и мировое знание, а также диаграммы. Экзамены New York Regents Science Exams (NYSED) [3] используются для этой задачи контроля качества,
3.1 Набор данных:
Авторы привели несколько примеров вопросов по тесту и способов их решения.
Основные вопросы:
- Какой объект является лучшим проводником электричества? (A) восковой мелок (B) пластиковая ложка © резиновый ластик (D) железный гвоздь
- Движение почвы ветром или водой называется (A) конденсация (B) испарение © эрозия (D) трение
Эти вопросы могут быть решены системой контроля качества на основе IR.
Простой вывод:
- Какой пример описывает организм, поглощающий питательные вещества? (A) собака закапывает кость (B) Девочка ест яблоко © Насекомое ползает по листу (D) Мальчик сажает помидоры в саду
Этот вопрос может быть решен путем простого вывода из известных фактов, чтобы прийти к ответу. Машина должна знать, что еда включает в себя поступление питательных веществ, а яблоко содержит питательные вещества.
Более сложные знания о мире:
- Студент, едущий на велосипеде, замечает, что по гладкой дороге он движется быстрее, чем по неровной. Это происходит потому, что на гладкой дороге (A) меньше силы тяжести (B) больше силы тяжести © меньше трение (D) больше трение
Для этого вопроса машина должна быть осведомлена о более глубоких знаниях и более продвинутых лингвистических возможностях. Как езда на велосипеде означает движение, и логически вывести путь.
Схема:
- Какая буква на рисунке 1 указывает на структуру растения, которое поглощает воду и питательные вещества?
3.2 Модель
Для решения этой проблемы используются различные подходы. Здесь авторы показывают нам два подхода.
Ссылка [4] предлагает метод использования целочисленного линейного программирования (ILP). Проблема контроля качества формулируется из полуструктурированных знаний в желаемый график поддержки, который в конечном итоге превращается в ILP. Система изображена на рисунке 2.
Ссылка [5] использует множество решателей для решения проблемы на различных уровнях. Слои показаны на рисунке 3, система содержит решатель поиска информации, решатель точечной взаимной информации, решатель опорных векторов, решатель RULE (который содержит правила, закодированные вручную) и решатель целочисленного линейного программирования. Эта система называется ARISTO и является самой современной.
4. Ответы на вопросы по математике.
IR-системы не могут решать математические вопросы. Для решения математических задач, особенно арифметических вопросов, система должна понимать проблему и формулировать уравнение для расчета. Вопросы о геометрии могут вызывать трудности из-за использования диаграмм.
4.1 Набор данных
Как и в части 3.1, авторы предоставляют образцы стандартизированных тестов и показывают соответствующие решения. Вопросы из SAT используются для геометрии, а другие используют NYSED.
Алгебраические задачи:
- Молли владеет компанией Wafting Pie. Сегодня утром ее сотрудники испекли тыквенные пироги из 816 яиц. Если ее сотрудники использовали в общей сложности 1339 яиц сегодня, сколько яиц они использовали днем?
- В этом году старшая школа Сары выиграла 5 баскетбольных матчей. Они проиграли 3 игры. Сколько всего игр они сыграли?
- У Джона 8 оранжевых воздушных шаров, но он потерял 2 из них. Сколько оранжевых воздушных шаров сейчас у Джона?
Требуются языковые процессии, а для последних двух также требуется моделирование мира.
Проблемы с геометрией
На рис. 4 машина должна понимать арифметические и схематические рассуждения.
4.2 Модели
В статье представлено четыре подхода. Один из них - простая категоризация глаголов, направленная на решение алгебраических задач со словами. Модель представлена на рисунке 6, и мы видим, что модель извлекает глаголы из вопроса, а затем формулирует уравнения на основе категории глаголов.
Другая система называется ALGES, которая использует целочисленное линейное программирование для преобразования словесных задач в деревья уравнений и является более сложной. Это показано на рисунке 5.
Третья модель пытается решить геометрические диаграммы. Предлагается в ссылке [6]. Он использует три шага для выравнивания текста с геометрическими диаграммами:
1) выбор элементов, которые максимизируют охват пикселей и идентифицируют примитивы на рисунке;
2) использовать согласование между примитивами и текстовыми элементами;
3) максимизировать согласованность элементов.
На рисунке 7 выравнивание достигается системой. Даже если он может достичь только шага выравнивания текста из трех.
Последняя модель используется для решения геометрических диаграмм, предложенных в [7]. Это выполняется в два этапа: 1). использовать третью модель и языковую обработку для преобразования диаграммы и вопроса в логические выражения; 2). используйте решатель выполнимости, чтобы вывести ответ. Вы можете увидеть шаги на рисунке 8.
5. Заключение
Текущее состояние дел не может хорошо решать стандартизированные тесты. В будущем будет больше стандартных стандартных вопросов по математике и естествознанию. Даже если машина проходит тесты, мы все равно не можем сказать, что она умная. Но это станет знаковым событием в истории искусственного интеллекта, когда он пройдет стандартизированные тесты по математике и естествознанию.
6. Ссылка:
[1] Тьюринг, Алан М. Вычислительные машины и интеллект. Разум 59.236 (1950): 433–460.
[2] Кларк, Питер и Орен Эциони. Мой компьютер - отличник, но насколько он умен? Стандартизированные тесты как мера ИИ . AI Magazine 37.1 (2016): 5–12.
[3] NYSED. 2014. Научные экзамены Риджентс в Нью-Йорке. Http: // www. nysedregents.org/.
[4] Koncel-Kedziorski, Rik, et al. Разбор алгебраических задач на слова в уравнения. TACL 3 (2015): 585–597.
[5] Schoenick, Carissa, et al. Выходя за рамки теста Тьюринга с помощью Allen AI Science Challenge. Препринт arXiv arXiv: 1604.04315 (2016).
[6] Со, Мин Джун и др. Понимание диаграмм в вопросах геометрии. AAAI. 2014.
[7] Со, Мин Джун и др. Решение задач геометрии: сочетание интерпретации текста и диаграммы. EMNLP. 2015 г.
Автор: Шиксин Гу | Редактор: Джошуа Чоу | Продюсер: Чейн Чжан