bannerbannerbanner
Шум. Несовершенство человеческих суждений

Даниэль Канеман
Шум. Несовершенство человеческих суждений

Полная версия

Групповая поляризация

В США и многих других странах уголовные дела (а также большое число гражданских дел) обычно рассматриваются в суде присяжных. Ожидается, что, подробно обсудив все детали дела, коллегия присяжных заседателей способна вынести более разумное решение, нежели каждый ее член по отдельности. Однако исследования судов присяжных продемонстрировали особый вид влияния социальной среды, тоже являющийся источником шума: групповую поляризацию. Основная идея в том, что к моменту завершения обсуждения участники все дальше смещаются в направлении изначально выбранного ими полюса. Например, если большинство из семи членов группы склоняются к мысли, что неплохо было бы открыть отделение компании в Париже, к концу дискуссии их изначальная убежденность многократно вырастет. Часто внутренние обсуждения приводят к росту уверенности, сплоченности мнений, а также крайних проявлений эмоций, как правило, воодушевления. Как оказалось, групповая поляризация возникает не только во время заседаний суда присяжных, но и во время обсуждений других групп, принимающих профессиональные решения.

При помощи серии экспериментов мы изучили, какие наказания назначали суды присяжных по делам, связанным с ненадлежащим качеством продукции. Присяжные решали, какой денежный штраф следует назначить, чтобы сумма послужила провинившейся компании наказанием, а другим компаниям назиданием. (Мы вернемся к более подробному описанию этих экспериментов в главе 15.) Для наших целей будем считать, что эксперимент выступает в качестве сравнения90 реальных и «статистических» коллегий присяжных. Для начала мы предложили 899 испытуемым ознакомиться с краткими описаниями дел и вынести по ним независимые суждения, используя семибалльную шкалу для оценки степени возмущения инцидентом и желания наказать компанию, а также денежную шкалу для назначения возможных штрафов. На основе этих индивидуальных ответов мы с помощью компьютера сформировали миллионы статистических коллегий присяжных, то есть виртуальных групп из шести человек, отобранных случайным образом. В качестве вердикта каждой статистической коллегии мы взяли медианное значение шести отдельных приговоров ее членов.

Мы обнаружили, что решения статистических коллегий присяжных оказались гораздо более последовательными, а уровень шума в них был значительно ниже. Снижение шума – это механический эффект статистического агрегирования: уровень шума в отдельных, независимых суждениях всегда сокращается при помощи усреднения их значений.

Однако реальные коллегии присяжных отличаются от статистических: они обсуждают дела на настоящем заседании. Разумно задаться вопросом: будут ли приговоры коллегии присяжных стремиться к медианному значению решений ее отдельных членов? Чтобы это выяснить, мы провели еще один эксперимент – на этот раз задействовав больше 3000 граждан, которые отвечают критериям отбора потенциального присяжного, и сформировав более 500 коллегий91, состоявших из шести человек.

Результаты получились однозначными. При рассмотрении одного и того же дела уровень шума в приговорах совещающихся присяжных гораздо выше, чем у статистических, что четко отражает влияние социальной среды. Обсуждение на заседании породило шум при вынесении решения.

Исследование дало еще один любопытный результат. Когда уровень негодования члена коллегии, чье мнение оказывалось медианным, был довольно умеренным, а предлагаемое им наказание – довольно мягким, вердикт всей коллегии из шести человек, как правило, оказывался еще более мягким. Когда, напротив, медианный присяжный был очень возмущен и настаивал на суровом приговоре, коллегия в итоге выносила еще более строгий вердикт. Когда возмущение неправомерными действиями выражалось при помощи денежных штрафов, их суммы систематически оказывались выше, чем штраф, предложенный медианным присяжным. Фактически 27 % коллегий присяжных назначали штраф, который был таким же или даже выше, чем штраф, на котором настаивал самый суровый участник заседания. Совещающиеся коллегии не только более зашумлены, чем статистические: как выяснилось, они также усиливают точки зрения отдельных ее членов.

Вспомните основной вывод о групповой поляризации: мнения участников дискуссии после обсуждения проблемы обычно все дальше сдвигаются в направлении изначально выбранного полюса. Именно такой эффект мы увидели во время нашего эксперимента. Совещающиеся присяжные сдвигались в направлении более мягкого приговора (когда медианный член коллегии оказывался более снисходительным) или в направлении более сурового наказания (когда медианный член коллегии проявлял строгость). Похожим образом присяжные, которые считали штраф необходимым, назначали более высокие суммы, чем те, к которым склонялись медианные участники.

Источники групповой поляризации и эффекта каскадов имеют схожую природу. Важнейшую роль здесь играет информация. Если большинство участников группы выступают за суровое наказание, тогда в его пользу будет приведено множество аргументов – и меньше аргументов против. Когда члены группы прислушиваются друг к другу, их точки зрения сдвигаются в направлении преобладающего мнения, усиливая ощущение сплоченности и уверенности – и подталкивая к более радикальным решениям. А когда людям важна их репутация в группе, они склонны соглашаться с мнением большинства, тем самым создавая условия для возникновения поляризации.

Безусловно, групповая поляризация способна приводить к ошибкам – и такое случается довольно часто. Нас же главным образом интересует вариативность. Как мы убедились, агрегирование суждений снижает уровень шума, поэтому чем больше суждений, тем лучше. Вот почему статистические коллегии показывают меньше шума, чем независимые присяжные. В то же время мы обнаружили, что в решениях совещающихся присяжных больше шума, чем в решениях статистических коллегий. Когда схожие группы показывают разные результаты, причиной этого зачастую является групповая поляризация. Уровень шума при этом может оказаться очень высоким.

В бизнесе, госуправлении и в прочих областях каскады и поляризация способны приводить к большим разночтениям в решениях групп, рассматривающих один и тот же вопрос. Теперь, когда мы убедились, насколько шумными могут быть индивидуальные суждения, потенциальная зависимость результатов от мнения нескольких человек – тех, кто начинает обсуждение, или тех, кто обладает наивысшим авторитетом, – должна вызывать особое беспокойство. Мы увидели, что межэкспертный и внутриэкспертный шум увеличивают разницу во мнениях отдельных членов групп сильнее, чем следует (и сильнее, чем мы ожидаем). Мы также обнаружили, что ситуативный шум, вызываемый усталостью, переменой настроения, порядком рассмотрения вопросов, может повлиять на точку зрения члена группы, который первым высказывается во время обсуждения. Возникающий при этом шум может быть усилен групповой динамикой. В итоге совещающиеся группы оказываются более шумными, чем статистические, в которых индивидуальные ответы попросту усредняются.

Поскольку многие важнейшие решения в бизнесе и госуправлении выносятся на основе коллегиальных обсуждений, необходимо быть начеку по поводу возможных рисков. Организации и их руководство должны принимать меры, контролирующие уровень шума в суждениях отдельных специалистов. Необходимо организовывать работу совещающихся групп таким образом, чтобы уровень шума не усиливался, а снижался. Стратегии по уменьшению уровня шума, предлагаемые нами в этой книге, имеют своей целью достижение именно такого результата.

К разговору о групповых решениях

«Все зависит от того, удалось ли идее завоевать популярность на раннем этапе. Нужно хорошенько поработать, чтобы обеспечить нашему продукту отличный старт в первую же неделю».

«Как я и подозревал, успех идей в политике и экономике сродни успеху кинозвезд. Точки зрения, которые люди считают популярными у окружающих, способны распространиться достаточно широко».

«Меня всегда настораживал тот факт, что к концу обсуждения вся наша команда оказывается охвачена порывом единения и уверенности – и при этом ничто не способно заставить нас свернуть с выбранного пути. Похоже, в наших внутренних процедурах имеются какие-то изъяны».

Часть III
Шум в прогнозировании

Многие суждения по сути являются прогнозами, и поскольку качество поддающихся проверке прогнозов может быть выражено в цифрах, при их изучении мы много узнаем о шумовых помехах и смещении. В этой части книги мы уделим внимание прогнозированию.

В главе 9 сравнивается точность прогнозов, выполненных профессионалами, машинными методами и по простым правилам. И вас не удивит сделанный нами вывод, что профессионалы в этом соревновании занимают третье место. В главе 10 мы исследуем причины такого результата и покажем, что основным фактором низкого качества выносимых людьми оценок является шум.

Чтобы прийти к этим выводам, мы должны выразить качество прогнозов в цифрах, а для этого понадобится единица измерения точности прогнозирования. С ее помощью мы сможем ответить на вопрос: насколько близко прогнозы ковариируют (то есть соотносятся) с результатами? Если, например, кадровые агентства в плановом порядке оценивают потенциал новых сотрудников, мы можем подождать несколько лет, выяснить, как те работают, и проверить, насколько точно рейтинги ковариируют с фактическими показателями. Прогнозы точны, если сотрудники, чей потенциал был высоко оценен при приеме на работу, показали такие же высокие результаты в процессе трудовой деятельности.

Единицей измерения этого интуитивного сопоставления является процент согласия92 (ПС), который отвечает на более специфический вопрос. Допустим, вы принимаете на работу двух сотрудников, выбрав их случайным образом. Какова вероятность, что тот из них, кто получил более высокий балл при оценке потенциала, также лучше покажет себя в работе? При идеальной точности прогнозов ПС составит 100 % и ранжирование двух сотрудников по потенциалу позволит идеально предугадать эффективность их работы в будущем. А если прогнозы совершенно бесполезны, совпадение окажется таким же, как при случайном выборе, то есть вполне вероятно, что сотрудник с более высоким потенциалом не будет работать лучше: ПС составит 50 %. Данный пример был всесторонне изучен, и мы обсудим его в главе 9. Более простой случай: ПС при оценке соотношения длины стопы и роста для взрослых мужчин составляет 71 %. То есть если вы встретите двух мужчин разного роста, вероятность того, что у более высокого будет больший размер стопы, будет равна 71 %.

 

ПС как прямая, интуитивная мера ковариации весьма полезна, однако специалисты не используют ее в качестве стандартной единицы измерения. Стандартной единицей измерения является коэффициент корреляции (r), который находится в диапазоне от 0 до 1, когда две переменные положительно связаны. В предыдущем примере коэффициент корреляции между ростом и размером стопы составляет около 0,6.

Представить себе коэффициент корреляции можно разными способами. Вот один из них, интуитивно понятный: корреляция между двумя переменными – это процент общих для них определяющих факторов. Вообразим, например, что некоторый признак полностью определяется генетически. Мы ожидаем увидеть для этого признака корреляцию 0,5 между родными братьями и сестрами, у которых 50 % общих генов, и 0,25 между двоюродными, у которых 25 % общих генов. Мы также можем интерпретировать корреляцию 0,6 между ростом и размером стопы93 как предположение, что 60 % фактора, определяющего рост, определяет и размер обуви.

Две вышеописанные единицы измерения ковариации непосредственно связаны друг с другом. В таблице 1 приведены значения ПС94 для разных значений коэффициента корреляции. Далее в этой книге мы будем всегда указывать обе единицы измерения при обсуждении качества прогнозов, выполненных людьми и моделями.

Таблица 1. Коэффициент корреляции и процент согласия (ПС)


В главе 11 мы обсудим важную причину ограниченности прогнозов по точности, а именно тот факт, что большинство оценок выносится в состоянии, называемом объективной неосведомленностью, потому что многие обстоятельства, от которых зависит будущее, просто не могут быть известны. Поразительно, что мы обычно ухитряемся в упор не видеть эту ограниченность и давать прогнозы с уверенностью (а зачастую и с излишней самоуверенностью). И наконец, в главе 12 мы покажем, что объективная неосведомленность наносит ущерб не только нашему умению прогнозировать события, но даже и способности понимать их – а это существенная часть ответа на загадку, почему шумы так трудно разглядеть.

Глава 9
Оценочные суждения и модели

Многие заинтересованы в прогнозировании будущей результативности сотрудников при приеме на работу – как в своей фирме, так и в других. Именно потому этот процесс широко используется специалистами в качестве примеров. Возьмем двух сотрудниц крупной компании. При приеме на работу Моника и Натали были протестированы специализированной консалтинговой фирмой, которая оценила по шкале от 1 до 10 баллов их лидерские качества, коммуникативные навыки, навыки межличностного общения, профессионально-технические компетенции и мотивацию карьерного роста (таблица 2). Ваша задача – спрогнозировать эффективность их работы два года спустя по шкале от 1 до 10.


Таблица 2. Два кандидата на руководящую должность


Большинство людей, столкнувшись с подобным типом проблем, пробегают глазами каждую строку и выдают немедленный ответ, зачастую после подсчета в уме среднего количества баллов. Если вы поступите так, то, вероятно, сделаете вывод, что Натали является более сильным кандидатом: она получила на 1–2 балла больше Моники.

Суждение или формула?

Ваш неформальный подход к данной проблеме известен как клиническое суждение. Вы обдумываете информацию, возможно, производите быстрые вычисления, сверяетесь со своей интуицией и выносите вердикт. По сути, в данной книге мы называем просто суждением именно клиническое суждение.

Теперь предположим, вы решали задачу по прогнозированию как участник эксперимента. Моника и Натали были выбраны из базы данных, включающей сотни менеджеров, принятых на работу несколько лет назад, которым присвоили рейтинги по пяти независимым параметрам. На базе этих рейтингов вы спрогнозировали эффективность их работы. Показатели трудовой деятельности менеджеров в новой должности в настоящее время доступны. Насколько близки эти показатели к вашей клинической оценке?

Данный пример представлен на основе реальных исследований прогнозирования эффективности95 работы персонала. И будь вы участником исследования, вас, вероятно, не удовлетворил бы результат. Дипломированные психологи, привлеченные международной консалтинговой фирмой для этой работы, получили корреляцию 0,15 с реальной производительностью (ПС=55 %). Другими словами, когда они аттестовали одного из кандидатов как более сильного – как и мы на примере Моники и Натали, – то вероятность того, что выбранный кандидат показал бо́льшую эффективность, оказалась 55 %, что практически не точнее, чем при случайном выборе. Результат, мягко говоря, не впечатляет.

Возможно, вы объясните столь низкую точность тем, что данные рейтинги не подходят для прогнозирования. Тогда мы должны задаться вопросом: а много ли полезной для прогнозирования информации действительно содержат рейтинги кандидатов? Как они могут обусловить индекс предсказания, который будет иметь максимально возможную корреляцию с фактическим результатом?

На эти вопросы можно ответить стандартными статистическими методами. В представленном исследовании они добиваются оптимальной корреляции 0,32 (ПС=60 %) – что также не впечатляет, однако существенно выше, чем клиническая оценка.

Такая техника, называемая множественной регрессией, определяет показатель, являющийся взвешенным средним96 прогностических факторов. С ее помощью вычисляется оптимальный набор весовых коэффициентов, призванный максимизировать корреляцию между общим прогнозом и целевой переменной. Оптимальные коэффициенты минимизируют MSE (среднеквадратическую ошибку) прогнозов – отличный пример доминирующей роли метода наименьших квадратов в статистике. Как можно ожидать, прогностический фактор, наиболее сильно коррелирующий со значением целевой переменной, получает больший коэффициент97, а наиболее бесполезный получает коэффициент, равный нулю. Коэффициент может быть и отрицательным: количество неоплаченных штрафов за нарушение правил дорожного движения как фактор управленческого успеха, по всей вероятности, получит отрицательный коэффициент.

Использование множественной регрессии – один из примеров механического прогнозирования. Есть много видов механического прогнозирования, в диапазоне от простых правил («нанять любого, кто окончил среднюю школу») до сложнейших моделей с привлечением искусственного интеллекта. Однако линейные регрессивные модели (их еще называют «рабочими лошадками98 исследований в области оценок и принятия решений») получили наибольшее распространение. Чтобы сократить количество профессионального жаргона в книге, мы будем называть линейные модели простыми моделями.

Исследование, которое мы проиллюстрировали на примере Моники и Натали, было одним из многих сопоставлений клинического и механического прогнозирования. Все они отличаются простой структурой99:


▣ для прогнозирования конечного результата (эффективность работы одних и тех же людей) используется набор переменных (в нашем случае рейтинг кандидатов);

клиническое прогнозирование выполняют люди;

▣ алгоритм (например, множественная регрессия) использует те же прогностические факторы для механического прогнозирования тех же результатов;

▣ сравнивается точность клинического и механического прогнозирования.

Пол Мил: оптимальная модель одерживает над вами верх

Знакомясь с клиническим и механическим прогнозированием, люди хотят знать, как их сравнивать. И как выглядит прогноз, сделанный человеком, на фоне вычисленного по формуле?

Такой вопрос задавался и ранее, однако наибольшее внимание привлек к себе лишь в 1954 году, когда профессор психологии Университета Миннесоты Пол Мил опубликовал книгу «Клинический и статистический прогнозы: теоретический анализ и фактологический обзор»100. Мил представил обзор двадцати исследований в сфере высшего образования и в психиатрической диагностике, где клинические оценки противопоставлялись механическим прогнозам. Он пришел к однозначному выводу, что простые механические правила в большинстве случаев одерживают верх над экспертами. Мил обнаружил – практикующие врачи и профессионалы в других областях удручающе слабы в том, что сами нередко считают своей особенно сильной стороной, а именно в способности обобщать информацию.

Чтобы понять, насколько поразительны эти открытия и при чем здесь шум, следует разобраться в работе простой механической модели. Ее ключевая характеристика состоит в том, что одно и то же правило применимо ко всем случаям. Каждый прогностический фактор имеет свой вес, и этот вес одинаков для каждого случая. Вы можете подумать, что столь строгие ограничения ставят модель в крайне невыгодное положение по отношению к экспертам. Вернемся к нашему примеру. Возможно, вы решите, что для Моники сочетание ее мотивации и технических навыков является самым важным качеством и компенсирует ее недостаточность в других областях, в то время как слабость Натали по этим двум параметрам не станет серьезной проблемой с учетом ее сильных сторон. Неявным образом вы уже определили для двух женщин разные средства достижения успеха. Эти вполне убедительные клинические теории по сути присваивают в двух случаях различный вес одному и тому же фактору – ухищрение, на которое неспособна простая модель.

Другое ограничение простой модели – разница в 1 единицу для какого-либо предиктора всегда дает одинаковый эффект (и половинный эффект при разнице в 2 единицы). Клиническая интуиция часто нарушает это правило. Если, к примеру, вас впечатлил полученный Натали высший балл 10 за коммуникативные навыки и в значительной степени повлиял на ее репутацию в ваших глазах, вы сделали то, чего никогда не сделает простая модель. А для формулы, которая рассчитывает средневзвешенное значение, разница между 10 и 9 баллами – то же самое, что разница между 7 и 6 баллами. Клиническая оценка не подчиняется этому правилу. Напротив, она отражает распространенное интуитивное мнение: разница в 1 балл может быть несущественной в одних случаях и критической в других. Возможно, вам захочется это проверить, однако мы подозреваем, что ни одна простая модель не сможет точно объяснить ваши оценки Моники и Натали.

Исследование, на которое мы опирались для этих случаев, – один из очевидных примеров схемы Мила. Как мы заметили ранее, клинические прогнозы достигают корреляции 0,15 (ПС=55 %) при оценке эффективности работы кандидатов, а механические прогнозы – 0,32 (ПС=60 %). Вспомните, с какой уверенностью вы сравнивали оценки, полученные при тестировании Моники и Натали. Результаты Мила настойчиво указывают, что ваша удовлетворенность правотой своих суждений была иллюзией, а точнее, иллюзией достоверности.

Иллюзия достоверности присутствует в любых прогнозах и возникает вследствие распространенной ошибки, когда люди не различают два этапа задачи прогнозирования: количественные оценки на основании имеющихся в распоряжении фактов и прогнозирование реальных результатов. Зачастую вы можете быть абсолютно уверены в своем мнении, какой из кандидатов выглядит более достойным, однако догадаться, который из них действительно окажется лучшим – совершенно другое дело. Например, можно с уверенностью заявлять, что Натали выглядит более сильным кандидатом, чем Моника, однако никак нельзя утверждать, что Натали будет работать более успешно. Причина лежит на поверхности: вам известно достаточно много, чтобы дать оценку кандидатам, однако заглянуть в будущее вам не дано.

К сожалению, в нашем сознании граница размывается. Вы озадачены тем, что не видите разницу между количественной оценкой и прогнозированием? Поздравляем, вы в отличной компании: эту разницу не видит практически никто. А если вы уверены в своих прогнозах так же, как и в оценках, вы стали жертвой иллюзии достоверности.

От иллюзии достоверности не застрахованы и клиницисты. Можно с уверенностью представить себе реакцию психолога на выводы Мила о том, что тривиальные формулы, последовательно примененные, превосходят клинические оценки. Шок, недоверие, презрение к поверхностным исследованиям, авторы которых вздумали усомниться в чудесах клинической интуиции. Подобную реакцию легко понять: схема Мила противоречит субъективному восприятию, а большинство из нас скорее доверится собственному опыту, чем всяким наукообразным заявлениям.

 

Мил сам неоднозначно относился к своим выводам. Его имя ассоциируется с превосходством статистики над клиническими оценками, и можно представить Мила непреклонным критиком внезапных озарений или крестным отцом количественного анализа, как мы сказали бы сейчас. Однако этот образ был бы карикатурным. Мил, помимо своей академической карьеры, работал как практикующий психоаналитик. В его кабинете висел портрет Фрейда101. Он был энциклопедистом102; кроме психологического, получил философское и юридическое образование, писал статьи по метафизике, религии, политическим наукам и даже парапсихологии. (Мил настойчиво утверждал, что «в телепатии что-то есть».) Ни одно из этих человеческих качеств не соответствует стереотипу упертого бухгалтера. Мил ничего не имел против клиницистов – скорее наоборот. Однако когда он задался целью, доказательства преимуществ механического подхода к задаче были «массивными и последовательными».

«Массивными и последовательными»103 – это еще мягко сказано. Две тысячи статей 104 по результатам 136 исследований однозначно подтверждали превосходство механической агрегации над клиническими оценками. Исследования проводились в различных областях, включая диагностику гепатита, годность к военной службе и удовлетворенность в браке. Механическое прогнозирование оказалось более точным в 63 исследованиях, статистические закономерности наблюдалась еще в 65, а клинические прогнозы выиграли состязание в 8 случаях. При этом полученные результаты умаляли преимущества механического прогнозирования, которое к тому же является более быстрым и дешевым. Более того, оценки экспертов в большинстве исследований на самом деле имели несправедливое преимущество за счет доступа к «личной» информации105, не включенной в компьютерную модель. Выводы однозначно подтверждали: простая модель одерживает верх над человеком.

1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39 
Рейтинг@Mail.ru