bannerbannerbanner
Сообщество разума

Марвин Минский
Сообщество разума

Полная версия

7.4. Решение задач

В принципе мы можем использовать метод генерации и тестирования, то есть метод проб и ошибок, для решения любых потенциально решаемых задач. Но на практике даже самому мощному компьютеру потребуется немало времени для перебора достаточного количества возможных решений. Элементарная сборка простого игрушечного дома из дюжины деревянных кубиков обернется анализом количества возможностей, превышающего то, какие ребенок мог бы перебрать за всю свою жизнь. Вот один из способов улучшить этой «слепой» поиск методом проб и ошибок.

Принцип прогресса: Всякий процесс исчерпывающего поиска может быть значительно упрощен, если мы каким-то образом сможем выявлять достижение «прогресса». Далее мы сможем проследить путь к решению, как человек может подняться на незнакомый холм в темноте, ощупывая землю перед собой, чтобы придерживаться верного направления.

Многие простые задачи возможно разрешить этим способом, но для трудных задач распознать «прогресс» может оказаться ничуть не легче, чем решить саму задачу. Не имея перед собой общей картины, наш «скалолаз» может навсегда застрять на каком-то промежуточном холме и никогда не добраться до искомой вершины. Надежного способа избежать этой опасности не существует.

Цели и подцели: Наилучший способ выявления методов решения трудных задач заключается в поиске метода, который позволит разделить задачу на несколько более простых, чтобы решать каждую из них по отдельности.

Многие исследования в области так называемого искусственного интеллекта связаны с поиском методов, которыми машины смогут разделять задачи на малые фрагменты, а затем, при необходимости, делить их на еще более мелкие фрагменты. В следующих нескольких разделах настоящей книги мы обсудим, как это можно сделать посредством постановки задач в качестве «целей».

Использование «знания»: Самый эффективный способ решить задачу – это знать заранее, как она решается. В таком случае поиск решения не потребуется.

Соответственно другое направление в изучении искусственного интеллекта нацелено на поиск способов передачи знаний машинам. Сама эта проблема состоит из нескольких частей: мы должны узнать, как получить необходимые знания, должны научиться корректно репрезентировать эти знания, должны наконец разработать процессы, которые позволят эффективно использовать полученные знания. Чтобы добиться этого, наши воспоминания должны предоставлять не обилие мелких подробностей, а, прежде всего, те взаимосвязи между ними, которые помогут нам добиться цели. Подобные исследования привели к созданию множества практически ориентированных «основанных на знаниях» систем решения задач. Некоторые из них нередко называют «экспертными системами», поскольку они основаны на подражании методам людей-экспертов.

Кроме того, эти исследования дали еще один любопытный результат. Зачастую, как выяснилось, куда проще запрограммировать машины на решение специализированных задач, которые кажутся трудными образованным людям (например, игре в шахматы или доказательству теоремы в логике и геометрии), чем заставить их делать то, что большинству людей видится простым – например, строить игрушечные домики из детских кубиков. Вот почему я уделяю так много внимания «простым» задачам на страницах этой книги.

7.5. Обучение и память

Распространенное убеждение гласит, будто мы учимся лишь тому, за что нас вознаграждают. Некоторые психологи утверждают, что человеческое обучение как таковое основано исключительно на «подкреплении» наградой: даже когда учимся без каких-либо внешних побуждений, мы действуем как бы в предвкушении вознаграждения, только в форме сигналов от внутреннего «я». Но нельзя опираться на довод, который изначально допускает то, что он призван доказывать; вдобавок при попытках использовать эту идею для объяснения того, как люди учатся решать трудные задачи, мы сталкиваемся с фатальной цикличностью. Вы должны уметь что-то делать, прежде чем получите награду за свои действия!

Эта цикличность не казалась серьезным препятствием в те времена, когда Иван Павлов столетие назад изучал условные рефлексы, поскольку в его экспериментах животным не приходилось демонстрировать новые виды поведения; от них требовалось лишь увязывать новые стимулы с прежним поведением. Спустя несколько десятилетий исследования Павлова были дополнены гарвардским психологом Б. Ф. Скиннером, который установил, что высшие животные действительно порой демонстрируют новые формы поведения – «операнты» в его терминологии. Эксперименты Скиннера подтвердили, что, когда за каким-либо оперантом следует вознаграждение, эта форма поведения, скорее всего, будет повторяться впоследствии. Скиннер также обнаружил, что подобное обучение куда действеннее, если животное не может догадаться, получит оно награду или нет. Под определениями «оперантное обусловливание» и «модификация поведения» открытия Скиннера оказали заметное влияние на психологию и образование, однако так и не объяснили, как возникают новые операнты. Кроме того, лишь отдельные эксперименты на животных способны пролить свет на принципы, по которым люди учатся составлять и выполнять свои сложные планы; проблема в том, что другие животные едва ли в состоянии научиться хоть чему-то. Сходство концепций награды / успеха и наказания / неудачи не дает внятного представления о том, как люди учатся порождать новые идеи, позволяющие решать трудные задачи, которые в противном случае могли бы быть решены только посредством продолжительного и малоэффективного процесса проб и ошибок.

Ответ должен лежать в изучении наилучших способов обучения. Чтобы обсудить данный вопрос, следует начать с употребления многих обычных слов, таких как «цель», «награда», «обучение», «мышление», «признание», «симпатия», «желание», «воображение» и «запоминание» (все они восходят к древним, смутно осознаваемым понятиям). Мы обнаруживаем, что большинство этих слов нужно заменить новыми описаниями и идеями. Тем не менее у них есть нечто общее: для решения любой трудной задачи надлежит использовать различные виды воспоминаний. В каждый момент времени мы должны следить за тем, что только что сделали, или нам придется повторять те же шаги снова и снова. Еще мы вынуждены придерживаться поставленных целей, иначе мы придем к тому, что начнем совершать бессмысленные поступки. Наконец, едва задача будет решена, нам понадобится запомнить, как это было сделано, чтобы использовать это знание впоследствии, когда снова возникнет подобная задача.

Бо́льшая часть настоящей книги посвящена памяти, то есть ментальной фиксации прошлого. Почему, когда и как осуществляется такая фиксация? Когда человеческий разум решает трудную задачу, он задействует миллионы агентов и процессов. Какие агенты оказываются достаточно мудрыми для того, чтобы догадаться о необходимых изменениях? Высокоуровневые агенты не могут знать об этом; они едва ли ведают о существовании процессов нижнего уровня. А низкоуровневые агенты тоже не знают, какие из их действий помогают нам добиваться наших целей на высоких уровнях; они едва ли подозревают о наличии целей более высокого уровня. Агентам, которые управляют ногами, все равно, идем ли мы домой или на работу; агенты же, делающие выбор между домом и работой, ничего не знают об управлении конкретными группами мышц. Где в разуме хранятся сведения о том, какие агенты заслуживают награды или наказания?

7.6. Фиксация и награда

Чтобы обучение состоялось, каждый шаг в игре должен приносить намного больше информации. Это достигается за счет разделения задачи на фрагменты. Измерителем успеха служит достижение цели. Если цель достигнута, подцели фиксируются; если нет, они стираются.

Аллен Ньюэлл

Одно известно наверняка: нам всегда легче делать то, что мы делали раньше. Что происходит в нашем сознании, вследствие чего это становится возможным? Вот что мне видится: при решении какой-либо задачи некоторые агенты, вероятно, активируют каких-то других агентов. Давайте примем, что под «вознаграждением» имеется в виду ситуация, когда агент А участвует в активации агента Б, и следствием вознаграждения будет, что впредь для А станет легче активировать Б, зато, возможно, станет тяжелее активировать других агентов. В свое время я был настолько захвачен этой идеей, что разработал машину под названием «Snarc», которая обучалась по данному принципу; она объединяла сорок агентов, каждый из которых был связан с несколькими другими, более или менее наугад, посредством системы «вознаграждений», а последняя включалась после всякого успешного действия и побуждала агента к стимулированию тех же реципиентов сигнала в дальнейшем.

Мы вводили в эту машину задачи наподобие поиска выхода из лабиринта при необходимости избегать встречи с опасным хищником. Машина быстро научилась решать простые задачи, но никак не могла справиться с трудными, например с постройкой башен из кубиков или с игрой в шахматы. Стало ясно, что для решения трудных задач любая машина с памятью ограниченной емкости должна иметь возможность повторно использовать своих агентов по-разному в разных контекстах (вспомним агента «Видеть» и две параллельные задачи, в которых он задействован). Но когда машина пыталась научиться прохождению через хитроумный лабиринт, типичный агент предлагал то правильное направление в один момент времени, то неправильное в другой момент. Позже, когда мы ввели награду за правильные действия, оба решения сделались более вероятными, причем правильный и неправильный выборы тяготели к тому, чтобы отменять друг друга!

Налицо дилемма проектирования машин, которые учатся, «фиксируя» взаимосвязи между агентами. В процессе решения трудной задачи мы обычно совершаем несколько неудачных действий, прежде чем находим правильное; по сути, как раз это имеется в виду, когда мы говорим о «трудных» задачах. Чтобы избежать обучения неправильным действиям, можно было бы запрограммировать машину на фиксацию только тех действий, которые непосредственно предшествовали успеху. Но такая машина способна обучиться лишь решению задач, которые требуют нескольких шагов. В качестве альтернативы можно было бы увеличить срок действия вознаграждения, однако в таком случае награда станет выдаваться и за неправильные действия наряду с правильными, а вдобавок будут стираться ранее усвоенные знания. Мы не можем научиться решению трудных задач посредством «массовой» фиксации состояний агентов или их связей. Почему среди всех животных только обладающие большим мозгом сородичи человека способны научиться решать задачи, которые требуют многих последовательных шагов или связаны с использованием тех же агентов для разных целей? Ответ следует искать в тактиках, которые наши агенты применяют для достижения целей.

 

Мне могут возразить, что бобр выполняет множество действий при постройке плотины, а колонии термитов возводят затейливые гнезда. Однако эти замечательные животные не изучают индивидуально такие практики, они используют навыки, закодированные в их генах благодаря миллионам лет эволюции. Бобра не научить строить гнезда термитов, а термитов не научить строить бобровые плотины.

7.7. Локальная ответственность

Предположим, что Алиса, владеющая оптовым магазином, просит менеджера Билла увеличить продажи. Билл поручает продавцу Чарльзу продавать больше радиоприемников. Чарльз оформляет крупный заказ на выгодных условиях. Но выясняется, что производитель не может поставить эти радиоприемники в нужном количестве, потому что возник дефицит производства. Кто виноват? Алисе следовало бы наказать Билла, чья работа состоит в проверке ассортимента. Вопрос в том, нужно ли вознаграждать Чарльза? С точки зрения Алисы, он своими действиями подвел фирму. Но с точки зрения Билла, Чарльз выполнил обязанности продавца и не его вина, что не удалось достичь цели, поставленной руководителем. Рассмотрим этот пример с двух точек зрения – назовем их «локальной наградой» и «глобальной наградой».

Локальная схема вознаграждает каждого агента, который помогает достичь цели руководителя. Потому Билл вознаграждает Чарльза, хотя действия Чарльза не помогли достижению целей более высокого уровня.

Глобальная схема вознаграждает только тех агентов, которые помогают добиваться целей высшего уровня. Следовательно, Чарльз остается без награды.

Придумывать механизмы для реализации локальных тактик обучения просто, ибо награда в каждом случае зависит только от отношений между агентом и его руководителем. Реализовать глобальную схему обучения труднее, поскольку требуется, чтобы механизмы выясняли, какие агенты действуют во имя первоначальной цели посредством цепочек достижения промежуточных целей. Локальная схема сравнительно великодушна к Чарльзу и вознаграждает его всякий раз, когда он выполняет то, о чем его просят. Глобальная схема оказывается «скареднее», она не поощряет Чарльза, даже пускай тот делает то, о чем просит руководитель, если его действия не вносят вклад в достижение цели высшего уровня. В такой схеме агенты зачастую не получают опыта. Соответственно глобальная тактика подразумевает более медленное обучение.

Обе схемы имеют свои преимущества. Осторожность глобальной тактики уместна, когда цена ошибки чрезвычайно высока или когда система располагает запасом времени. Она способна обеспечить более «ответственное» поведение, поскольку побуждает Чарльза научиться своевременно и самостоятельно проверять ассортимент, а не просто подчиняться указаниям Билла. При этом глобальная тактика не позволяет оправдывать личные упущения фразами вроде: «Я только выполнял распоряжение своего начальника». С другой стороны, локальная тактика ведет к мгновенному усвоению многих знаний, ибо каждый агент имеет возможность постоянно улучшать свою способность добиваться локальных целей, независимо от того, как те соотносятся с целями других агентов. Конечно, наши агенты обладают сразу несколькими вариантами действий. Какие именно они выбирают, зависит от состояния в конкретный момент времени других агентов, чья работа заключается в том, чтобы узнавать, какими стратегиями обучения пользоваться в зависимости от обстоятельств.

Глобальная схема требует способа не только выявлять тех агентов, чьи действия помогли справиться с задачей, но и определять, какие агенты помогли при реализации промежуточных целей. Например, в ходе строительства башни может оказаться полезным отодвинуть какой-то кубик, чтобы освободить место для другого. Возникает желание запомнить, что это движение помогает в строительстве башни; но если умозаключить из этого, что такое движение полезно всегда, нам никогда не построить другую башню. Когда мы решаем трудную задачу, обычно мало выяснить, правильными или неправильными были действия конкретного агента для достижения общей цели; необходимо, чтобы такие суждения хотя бы в малой степени зависели от локальных условий, то есть от того, насколько деятельность каждого агента помогала или мешала работе других. Эффект вознаграждения должен заключаться в том, чтобы заставить агента реагировать тем образом, который помогает достижению определенной цели – но без чрезмерного вмешательства в достижение иных, более важных целей. Все это диктуется обычным здравым смыслом, но для движения дальше нам понадобится уточнить нашу терминологию. Мы все испытываем стремление к достижению целей, но опыт вовсе не то же самое, что понимание. Что такое цель и может ли машина стремиться к целям?

7.8. Разностная машина

Рассуждая о «целях», мы неизбежно смешиваем в одном слове тысячу значений. Цели присущи всем неведомым агентам, которые включаются в работу всякий раз, когда мы пытаемся изменить себя или внешний мир. Если «цель» объединяет в себе столь много значений, зачем мы увязываем их все в одно слово? Вот некоторые примеры того, что мы обычно вкладываем в свои рассуждения о цели:

«Целеориентированная» система как будто не реагирует напрямую на раздражители или ситуации, с которыми она сталкивается. Вместо того она рассматривает выявленные факты как объекты, которые система использует или игнорирует, как если бы она была связана с чем-то еще пока не существующим. Когда любое нарушение процесса или какое-то препятствие отвлекает такую систему от намеченного курса, она, судя по всему, пытается устранить помеху, обойти ее или превратить в некое преимущество.

Какие процессы внутри машины создают впечатление того, будто машина имеет цель, действует настойчиво и целенаправленно? Имеется конкретный тип машин, наделенных, как представляется, этими качествами; прототип разработали на изложенных ниже принципах, сформулированных в конце 1950-х годов, Аллен Ньюэлл, К. Дж. Шоу и Герберт Саймон. Первоначально эту машину именовали «универсальным решателем задач», но я буду называть ее разностной машиной.

Разностная машина должна обладать описанием «желаемой» ситуации.

Она должна иметь субагентов, которые активируются различиями между желаемой и фактической ситуациями.

Каждый субагент должен действовать таким образом, чтобы сгладить различие, вызвавшее его активацию.

Рис. 14


С первого взгляда схема может показаться одновременно слишком простой и слишком сложной. С точки зрения психологии разностная машина выглядит чересчур примитивной для воплощения совокупности амбиций, разочарований, удовлетворений и огорчений, проистекающих из достижения или недостижения цели. Но это ведь не качества самих наших целей, они возникают из взаимодействия между многими агентами, которые участвуют в достижении целей. С другой стороны, можно задаться вопросом, действительно ли понятие цели должно опираться на столь сложную четырехстороннюю схему отношений между агентами, ситуациями, описаниями и различиями. Мы увидим, что на самом деле все проще, чем кажется, поскольку большинство агентов учитывают существование различий.

7.9. Намерения

Когда мы наблюдаем, как мяч скатывается по склону, то замечаем, что он будто пытается обогнуть препятствия на своем пути. Не ведай мы о гравитации, у нас могло бы возникнуть искушение подумать, что мяч имеет цель двигаться вниз. Но мы знаем, что он не «пытается» что-либо сделать; впечатление намерения формируется только в сознании наблюдателя.

Когда мы экспериментируем со Строителем, нам тоже кажется, что у него есть цель. Всякий раз, когда вы оставляете кубики подальше, он протягивает руку и возвращает их обратно. Всякий раз, когда вы разваливаете башню, он ее восстанавливает. Он словно хочет построить башню и упорно трудится, пока башня не будет построена. Разумеется, Строитель выглядит умнее катящегося мяча, поскольку ему приходится преодолевать более серьезные препятствия. Но стоит нам понять, как работает Строитель, как мы видим, что он не сильно отличается от мяча: все, что он делает, это продолжает искать кубики и ставить их сверху других кубиков. Действительно ли у Строителя есть цель?

Одним из элементов стремления к цели является настойчивость. Мы не скажем, что Строитель хочет возвести башню, если он бросит попытки ее построить. Но самой по себе настойчивости недостаточно – ни Строитель, ни катящийся мяч не имеют ни малейшего представления о том, каков будет конечный результат их труда. Другим важным элементом стремления к цели является наличие некоторого образа или описания желаемого состояния. Прежде чем мы согласимся, что Строитель хочет возвести башню, мы должны убедиться, что он обладает неким образом или описанием этой башни. Концепция разностной машины воплощает в себе оба элемента: представление о некоем результате и механизм действия до достижения этого результата.

В самом ли деле разностные машины «испытывают желание»? Задавать подобные вопросы бессмысленно, поскольку они подразумевают различия там, где их нет и в помине (разве что в сознании наблюдателя). Можно воображать наш мяч совершенно пассивным объектом, который просто реагирует на внешнее воздействие. Однако физик[9] XVIII века Жан Лерон д’Аламбер показал, что возможно точно предсказывать поведение катящегося мяча, если описывать тот как разностную машину, чья цель состоит в расходовании собственной энергии. Нам нет необходимости принуждать себя к выяснению того, есть ли у машин цели или нет. Слова должны быть нашими слугами, а не хозяевами. Понятие цели облегчает описание некоторых действий людей и машин; оно предлагает нам возможность использовать простые описания с точки зрения активных целей вместо громоздких и неудобоваримых описаний деятельности машин.

Разумеется, многое из того, что люди подразумевают под «целями», осталось неохваченным. У нас, людей, столько способов желать чего-то, что ни одна схема не способна вместить их все. Тем не менее данная концепция уже привела ко многим важным открытиям в изучении искусственного интеллекта и в психологии. Схема разностных машин остается наиболее полезной для выявления целей или намерений, которые еще не проявили себя.

9Так у автора. Корректнее все-таки называть этого французского ученого механиком и естествоиспытателем.
1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41 
Рейтинг@Mail.ru