bannerbannerbanner
Шум. Несовершенство человеческих суждений

Даниэль Канеман
Шум. Несовершенство человеческих суждений

Полная версия

Цена шума

Рациональной основой этой книги является уравнение расчета погрешности. Оно объясняет, зачем нужно сокращать уровень системного шума в прогнозных суждениях: это, по сути, настолько же важно, как и сокращение статистического смещения.

Уравнение расчета погрешности и построенные на его основе заключения зависят от использования среднеквадратической ошибки в качестве меры общей погрешности. Это правило применимо к чисто прогнозным суждениям, включая прогнозы и оценки, задачей которых является приближение к истинному значению с максимальной точностью (наименьшим смещением) и максимальной прецизионностью[6] (наименьшим уровнем шума).

К оценочным суждениям, однако, уравнение расчета погрешности не применишь, поскольку к ним гораздо сложнее применить само понятие погрешности, предполагающее наличие истинного значения. Более того, даже если бы мы определили погрешности, убытки от них редко бывают симметричными и вряд ли в точности соответствуют их квадратам.

Например, для компании, производящей лифты, погрешности в оценке максимальной грузоподъемности лифта будут иметь явно асимметричные последствия: заниженная оценка чревата затратами, а завышенная может привести к катастрофе. Таким же образом квадрат погрешностей бесполезен, когда вы решаете, во сколько нужно выйти из дома, чтобы успеть на поезд. В такой ситуации опоздайте вы на одну или на пять минут – последствия будут совершенно одинаковыми. Когда же страховая компания из главы 2 назначает цену полисам или определяет стоимость страховых претензий, затратными будут погрешности в обоих направлениях, однако нет никаких причин полагать, что эти затраты будут одинаковыми.

Все эти примеры показывают, насколько важно определить роли прогнозных и оценочных суждений в принятии решений. Общепризнанная аксиома надлежащего принятия решений гласит, что не следует смешивать собственные жизненные установки и факты. В основе эффективного принятия решений должны быть объективные и точные прогнозные суждения, свободные от влияния надежд, страхов, предпочтений и ценностных ориентиров. Первым шагом компании, производящей лифты, должен стать нейтральный расчет максимальной грузоподъемности в условиях применения различных технических решений. Безопасность становится предметом пристального внимания только на втором этапе, когда оценочные суждения определяют выбор приемлемого запаса прочности при установлении максимальной вместимости лифта. (Несомненно, этот выбор также будет сильно зависеть от фактических суждений, например об издержках и выгодах такого запаса прочности.) Похожим образом, когда вы будете прикидывать, во сколько выезжать на вокзал, вашим первым шагом будет объективно определить, сколько времени понадобится на то, чтобы туда добраться. Сопутствующие издержки, которые вы понесете, опоздав на поезд или долго томясь в ожидании отправления на вокзале, имеют значение только при выборе того риска, на который вы готовы пойти.

Та же логика работает, когда принимаются гораздо более судьбоносные решения. Военачальник обязан учитывать множество факторов, делая выбор в пользу наступательных действий. Однако бо́льшая часть разведывательных данных, на которые он опирается в своем решении, – прогнозные суждения. При выборе реагирования на кризис в здравоохранении, например пандемию, правительство должно взвесить «за» и «против» возможных сценариев, но без точных прогнозов о последствиях каждого из них (включая решение полностью воздержаться от каких-либо действий) никакая оценка невозможна.

Во всех приведенных примерах для принятия окончательных решений требуются оценочные суждения. Для выбора самого оптимального решения необходимо рассмотреть множество вариантов и применить собственную систему ценностей. Но решения базируются на прогнозах, которые должны быть ценностно-нейтральными. Цель прогнозов – точность, способность оказаться как можно ближе к «яблочку» мишени, и адекватной мерой погрешности является среднеквадратическая ошибка. Качество прогнозных суждений можно улучшить при помощи процедур, снижающих уровень шума, при условии, что такие процедуры не приводят к увеличению смещения.

К разговору об уравнении расчета погрешности

«Как ни странно, если сократить либо шум, либо смещение на одну и ту же величину, это окажет равноценное влияние на точность суждения».

«Всегда полезно сокращать уровень шума в прогнозных суждениях, независимо от того, известен ли при этом уровень смещения».

«Когда 84 % оценок оказывается выше истинного значения, а 16 % – ниже, мы наблюдаем большое смещение. Именно в этом случае масштабы шума и смещения равны».

«Принятие любого решения включает в себя вынесение прогнозных суждений, единственной целью которых должна быть точность. Не смешивайте свои ценностные ориентиры с фактами».

Глава 6
Анализ шума

В предыдущей главе обсуждался разброс в результатах измерений или в суждениях по индивидуальным случаям. В подобных ситуациях разброс в суждениях – это погрешность с двумя составляющими: смещением и шумом. Безусловно, рассматриваемые нами системы вынесения суждений, такие как суды и страховые компании, работают с целым спектром дел и проводят между ними различия. Деятельность федеральных судей и оценщиков страховых убытков не имела бы смысла, если бы по всем рассматриваемым делам они выносили шаблонные суждения. Значительная часть вариативности в суждениях по отдельным делам является намеренной.

Однако разброс в суждениях по одному делу по-прежнему нежелателен, так как представляет собой системный шум. Как мы увидим далее, ревизия шума в ситуациях, когда одни и те же люди выносят решения по нескольким делам, позволяет провести более тщательный анализ системного шума.

Ревизия шумовых помех при назначении наказаний

Чтобы продемонстрировать анализ шума в ситуации с вынесением суждений по множеству дел, обратимся к исключительно подробной46 ревизии шума при назначении наказаний федеральными судьями. Этот анализ был опубликован в 1981 году в поддержку реформы системы вынесения приговоров, описанной в главе 1. Исследование имело узкую направленность и рассматривало именно приговоры, однако из него можно извлечь полезные уроки и для других областей, где выносятся профессиональные суждения. С помощью этой ревизии шума мы хотели более систематически подойти к «определению масштабов разброса при назначении наказаний», не ограничиваясь наглядными, но не подтвержденными официально примерами, упоминаемыми Франкелом и другими специалистами.

Авторы исследования подготовили 16 гипотетических дел, по которым правонарушители были признаны виновными и ожидали приговора. В кратких описаниях этих дел – случаев ограблений или мошенничества – давались различные сведения по шести категориям, например был ли подсудимый зачинщиком или соучастником преступления, имелось ли у него уголовное прошлое, использовалось ли при ограблении оружие и т. д.

Исследователи провели скрупулезно организованные собеседования с 208 действующими федеральными судьями со всей страны. В течение 90 минут судей знакомили со всеми 16 делами и предлагали вынести по ним приговоры47.

Нижеприведенное упражнение по визуализации информации поможет вам оценить, насколько полезны данные, полученные в ходе этого исследования. Представьте себе большую таблицу, состоящую из 16 столбцов, соответствующих преступлениям и помеченных латинскими буквами от А до P, и 208 рядов, по одному на судью, пронумерованных от 1 до 208. В каждой ячейке таблицы, от A1 до P208, указан срок тюремного заключения, назначенный по каждому делу определенным судьей. Эта таблица, состоящая из 3328 ячеек, схематично изображена на рисунке 9. Для изучения шума мы рассмотрим 16 столбцов, каждый из которых представляет собой отдельную ревизию шума.

Рис. 9. Представление результатов исследования о назначениях наказаний

Средний срок приговора

Не существует объективного способа установить «истинное значение» срока приговора в конкретном деле. Ниже мы будем рассматривать среднее значение сроков 208 приговоров по каждому делу (средний срок приговора) в качестве «справедливого». Как отмечалось в главе 1, Комиссия США по вопросам назначения наказаний исходила из такого же допущения, когда в качестве основы для рекомендаций по вынесению приговоров использовала средние значения сроков по прошлым делам. При этом «справедливое» среднее значение срока по каждому делу подразумевает, что смещение равно нулю.

Мы полностью отдаем себе отчет в том, что на практике такое допущение неверно: средний срок приговора по некоторым делам, скорее всего, предвзято смещен, например из-за расовой дискриминации, по сравнению со средним сроком других очень похожих дел. Вариативность предвзятого смещения в различных делах – а оно может быть как позитивным, так и негативным – это значимый источник ошибок и несправедливости. В заблуждение может вводить то, что саму эту вариативность часто48 называют «предвзятостью». Анализ, проводимый в этой главе – как и во всей книге, – посвящен в основном шуму, независимому источнику ошибок. Судья Франкел придавал особое значение несправедливости, вызываемой шумом, однако он также обращал внимание и на предвзятое смещение (в том числе расовую дискриминацию). Подобным же образом не следует считать, что наш упор на явление шума умаляет важность измерения и преодоления смещения вследствие предвзятости.

 

Для удобства в нижнем ряду таблицы указан средний срок приговора по каждому делу. Дела расставлены по возрастанию суровости приговора: средний срок приговора по делу А составляет 1 год, а по делу P – 15,3 года. Средний срок назначенного тюремного заключения49 по всем 16 делам – 7 лет.

Теперь давайте вообразим идеальный мир, в котором все судьи – безупречные измерительные инструменты правосудия и в приговорах напрочь отсутствует шум. Как бы в этом мире выглядел рисунок 9? Очевидно, что значения во всех ячейках по делу A были бы идентичными, ведь все судьи назначили бы обвиняемому ровно один год тюремного заключения. Та же картина наблюдалась бы во всех других столбцах. Конечно, значения в каждом ряду отличались бы, поскольку дела разные, однако сами ряды в точности повторяли бы друг друга. Единственным источником разброса в таблице были бы различия между делами.

К сожалению, мир федеральных судебных органов далек от идеального. Судьи непохожи друг на друга, и в столбцах таблицы наблюдается довольно большой разброс значений, что указывает на шум в суждениях по каждому делу. Мы видим гораздо больший разброс в сроках приговора, чем следовало бы, и наша цель – провести анализ этого разброса.

Лотерея при вынесении приговоров

Начните с уже знакомой нам идеальной картины мира, где сроки, назначенные по каждому делу различными судьями, будут одинаковыми. Каждый столбец таблицы окажется заполненным 208 идентичными цифрами. Теперь добавьте шума, пройдясь по столбцам и поменяв значения в каких-то ячейках, тем самым увеличивая или уменьшая средние сроки приговора. Поскольку вносимые вами изменения неодинаковы, они создают в столбцах таблицы разброс. Это и есть шум.

Основной результат этого исследования – обнаружение высокого уровня шума внутри набора суждений по каждому делу. Количественным показателем шума по каждому делу является стандартное отклонение в назначенных сроках заключения. Средний срок по делу составил 7,0 года, а стандартное отклонение от этого среднего срока – 3,4 года50.

Возможно, термин стандартное отклонение хорошо вам знаком, и все же более конкретный пример не будет лишним. Представьте, что вы случайным образом выбираете двух судей и вычисляете разницу между вынесенными ими приговорами по некоему делу. Теперь повторите это для всех пар судей и всех дел и усредните полученные результаты. Итоговая величина, средняя абсолютная разница, должна дать вам хорошее представление о том, лотерея каких масштабов определяет участь обвиняемого в зале суда. Если допустить, что значения сроков распределены нормально, средняя абсолютная разница в 1,128 раза больше стандартного отклонения, что указывает на то, что средняя разница между двумя случайно выбранными приговорами по одному делу составит 3,8 года. В главе 3 мы уже говорили о лотерее, с которой сталкивается клиент страховой компании, обращающийся за оценкой страховых рисков. Последствия лотереи в правовой системе, мягко выражаясь, более серьезны.

Средняя абсолютная разница в 3,8 года при среднем сроке приговора в 7,0 года вызывает озабоченность и, на наш взгляд, просто неприемлема. К сожалению, есть все основания полагать, что на практике уровень шума, возникающий в процессе отправления правосудия, еще выше. Во-первых, участники ревизии шума выносили приговоры по череде условных дел, которые было необычайно легко сравнивать между собой. В жизни нам не приходится рассчитывать на такое подспорье для соблюдения последовательности в решениях. Во-вторых, судьи в зале суда располагают гораздо бо́льшим объемом информации, чем во время эксперимента. Дополнительная информация, не имеющая решающего значения, увеличивает потенциал возможных расхождений во мнениях судей. Именно поэтому мы подозреваем, что на практике в залах суда обвиняемых ожидает еще большее количество шума, чем в нашем исследовании.

Некоторые судьи особенно суровы: межэкспертный шум

На следующем этапе анализа авторы разбили шум на отдельные составляющие. Впервые пытаясь объяснить для себя феномен шума, вы, как и судья Франкел, вероятно, подумали, что шум возникает из-за того, что некоторые судьи склонны выносить гораздо более суровые приговоры, чем остальные. Любой адвокат подтвердит, что у каждого судьи своя репутация: есть судьи «кровожадные», чьи приговоры всегда строже среднего, а есть «сердобольные», чьи приговоры, как правило, мягче. Мы будем называть подобные отклонения межэкспертными ошибками. (Повторим: мы называем ошибкой отклонение от среднего значения. На самом деле ошибка может устранить несправедливость в случае, если судьи в среднем выносят неправильные решения.)

Разброс в межэкспертных ошибках обнаруживается при решении любой задачи, требующей вынесения суждений. Вот несколько примеров: некоторые управляющие склонны завышать баллы, оценивая продуктивность работников, отдельные прогнозисты выказывают больше оптимизма, делая прогнозы о рыночной доле компании, какие-то ортопеды чаще настаивают на оперативном вмешательстве при проблемах с позвоночником.

В каждом ряду таблицы на рисунке 9 указаны сроки заключения, назначенные одним судьей. Средний срок приговора у одного судьи показан в крайнем правом столбце и отражает уровень строгости этого судьи. Как выяснилось, судьи существенно различаются по этому показателю. Стандартное отклонение значений в крайнем правом столбце – 2,4 года. Разброс таких масштабов не имеет ничего общего со справедливостью. Как вы уже догадались, разница в средних сроках приговоров отражает различия между судьями по другим параметрам, таким как происхождение, жизненный опыт, политические воззрения, предрассудки и так далее. Исследователи изучили отношение судей к назначению наказаний в целом. Например, им предлагалось ответить на вопрос, что является главной целью вынесения приговора: изолирование преступника от общества, его перевоспитание или предупреждение новых правонарушений. Оказалось, что судьи, выступающие за перевоспитание, как правило, назначают более короткие тюремные сроки и более длительные периоды административного надзора, чем судьи, сделавшие выбор в пользу изолирования и устрашения. Отдельно отметим, что судьи из южных штатов США выносили значительно более строгие приговоры, чем их коллеги из других регионов страны. Вполне закономерно, что консервативная идеология также имеет отношение к суровости приговоров.

В общем же можно сказать, что средний уровень назначаемых сроков можно уподобить личностным характеристикам. Воспользовавшись результатами этого исследования, мы могли бы расставить судей по порядку – от самого строгого до наиболее мягкого, точно так же, как личностный тест позволил бы определить уровень их экстраверсии или доброжелательности. Как и в случае с чертами характера, неудивительно, что строгость наказаний коррелирует с присутствием неких генетических факторов, жизненного опыта и других аспектов личности. Ничто из вышеперечисленного не имеет отношения к делу подсудимого. Для описания разброса в значениях средних сроков приговора, идентичных разбросу межэкспертных ошибок, мы используем термин межэкспертный шум.

Не все судьи одинаковы: внутриэкспертный шум

Как указывают черные стрелки на рисунке 9, значение межэкспертного шума составляет 2,4 года, а системного шума – 3,4 года. Разница между ними говорит о том, что строгость каждого судьи – не единственный фактор, играющий роль в возникновении системного шума. Этот дополнительный компонент мы назовем внутриэкспертным шумом.

Чтобы разобраться с понятием внутриэкспертного шума, давайте снова обратимся к рисунку 9, но на этот раз уделим внимание одной случайно выбранной ячейке, скажем С3. Средний срок приговора по делу С приведен внизу столбца – это 3,7 года. Теперь найдите значение среднего срока приговоров, которые Судья 3 вынес по всем рассмотренным делам, в крайнем правом столбце. Это 5 лет – всего на 2 года меньше, чем среднее значение по совокупности дел во всем исследовании. Если бы вариативность в судейской строгости была единственным источником шума в столбце 3, можно было бы предположить, что приговор в ячейке С3 составит 3,7–2 = 1,7 года. Но в ячейке С3 указано значение 4 года, а это означает, что, вынося этот приговор, Судья 3 проявил особую суровость.

С помощью подобной простой аддитивной[7] логики можно попытаться спрогнозировать сроки в каждом столбце таблицы, но на самом деле в большинстве ячеек вы обнаружите отклонения от этой простой модели. Просматривая ряды, вы увидите, что не во всех случаях судьи одинаково строги: они могут быть жестче среднего, рассматривая одни дела, и мягче среднего, вынося решения по другим. Мы называем такие остаточные отклонения внутриэкспертными ошибками. Если подсчитать значения внутриэкспертных ошибок по всем ячейкам таблицы, вы убедитесь, что их сумма будет равна нулю как для каждого судьи (каждого ряда), так и для каждого дела (каждого столбца). Однако при расчете уровня шума внутриэкспертные ошибки взаимно не уничтожаются, потому что при подобных вычислениях значения, указанные во всех ячейках, возводятся в квадрат.

Существует более легкий способ подтвердить тот факт, что простая аддитивная модель здесь не работает. Средний срок приговоров внизу каждого столбца таблицы постепенно увеличивается слева направо, однако в остальных рядах такого не наблюдается. К примеру, Судья 208 назначил гораздо более длительный срок подсудимому в Деле О, чем подсудимому в Деле P. Если бы каждый судья расставил дела в порядке возрастания целесообразного, по его мнению, срока тюремного заключения, итоговые рейтинги не совпали бы.

Мы назвали рассмотренный выше разброс внутриэкспертным шумом, потому что он отражает сложный внутренний характер отношения конкретного судьи к каждому делу. Один судья, например, может быть в среднем более строгим, но проявлять некоторую снисходительность к обвиняемым, совершившим ненасильственные преступления в экономической сфере. Другой, как правило, не отличается особенной суровостью, но менее терпим к рецидивистам. Строгость третьего судьи может быть ближе к средним значениям, при этом он выказывает больше сочувствия к соучастникам преступления, но выносит более жесткие приговоры, если жертва преступления – пожилой человек. (Мы используем термин внутриэкспертный шум с целью сделать текст более удобочитаемым. На самом деле в статистике это называется взаимодействием между переменной судьи и переменной дела. Мы просим прощения у читателей, подкованных в статистике, за то, что вынудили их заниматься подобными ментальными преобразованиями.)

В области уголовного правосудия идиосинкразические решения по некоторым делам, возможно, отражают личную философию вынесения приговоров отдельного судьи. Причиной других решений могут быть возникающие у судьи подсознательные ассоциации, например, если обвиняемая напоминает ему некую особенно гнусную преступницу или, напротив, внешне похожа на его дочь. Какова бы ни была причина их возникновения, такие внутриэкспертные ошибки не случайны: если бы судья повторно столкнулся с этим же делом, мы наблюдали бы их вновь. Но поскольку прогнозировать внутриэкспертный шум на практике сложно, в уже довольно непредсказуемую лотерею вынесения приговоров добавляется элемент неопределенности. Авторы исследования отметили: «То, как по-разному особенности преступления или преступника влияют на решение отдельных судей5152, является еще одной формой несоразмерности при назначении наказаний».

Возможно, вы успели заметить, что разложение системного шума на межэкспертный и внутриэкспертный компоненты следует логике уравнения расчета погрешности из предыдущей главы, где составляющими погрешности были смещение и шум. На этот раз уравнение можно записать так:


Системный шум2= Межэкспертный шум2+ Внутриэкспертный шум2


Наглядно это выражение можно представить таким же образом, как и первоначальное уравнение расчета погрешности (рисунок 10). Две стороны треугольника здесь равны по той причине, что, согласно исследованию о приговорах, внутриэкспертный и межэкспертный компоненты внесли примерно одинаковый вклад53 в системный шум.

 

Внутриэкспертный шум носит повсеместный характер. Врачи принимают решения о госпитализации, компании – о найме сотрудников, юристы – о представлении дел в суде, а голливудские продюсеры – о съемке сериалов. Внутриэкспертный шум наблюдается во всех этих ситуациях: лица, ответственные за принятие решений, классифицируют отдельные случаи совершенно по-разному.


Рис. 10. Разложение системного шума на составляющие

6Прецизионность – степень близости друг к другу независимых результатов измерений.
7Аддитивность – получение целого путем сложения; свойство величин, заключающееся в том, что значение величины, соответствующее целому объекту, равно сумме значений величин, соответствующих его частям при любом разбиении объекта на части.
1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39 
Рейтинг@Mail.ru