bannerbannerbanner
Шум. Несовершенство человеческих суждений

Даниэль Канеман
Шум. Несовершенство человеческих суждений

Полная версия

Нежелательный, но поддающийся измерению

Все, что нам нужно для измерения уровня шума, – это множество суждений, вынесенных по одной проблеме. При этом нет нужды знать истинный результат. Как показала история про стрельбу в тире во введении, взглянув на оборотную сторону мишени, мы не видим обозначения ее центра, зато можем наблюдать разброс попаданий. Если нам известно, что все стрелки целились в одно и то же «яблочко», мы можем измерить уровень шума. Именно эту задачу и выполняет ревизия шума. Если мы попросим прогнозистов оценить продажи в следующем квартале, шумом будет разброс в их оценках.

Понимание различия между смещением и шумом необходимо для практической цели улучшения качества суждений. Утверждение о том, что можно улучшить суждения, даже не имея шансов проверить, насколько они верны, звучит парадоксально. Однако это действительно так – при условии, что мы начнем с измерения уровня шума. Неважно, нацелено суждение на достижение верного ответа или на более сложный компромисс между различными альтернативами, шум нежелателен и при этом часто поддается количественной оценке. Как только уровень шума измерен, во многих случаях его можно сократить, как мы увидим в части V.

К разговору о профессиональных суждениях

«Это субъективное суждение. Люди не могут полностью во всем соглашаться».

«Да, это суждение субъективно, но некоторые оценки настолько оторваны от жизни, что просто не могут быть верными».

«Ваш выбор в пользу одного из кандидатов – отражение личных предпочтений, а не трезвое суждение».

«Для принятия решения необходимы как прогнозные, так и оценочные суждения».

Глава 5
Погрешность измерения

Очевидно, что постоянное смещение обходится очень дорого. Если ваши весы неизменно ошибаются в бóльшую сторону каждый раз, когда вы на них встаете, если полный энтузиазма менеджер регулярно вдвое занижает предполагаемые сроки завершения проекта, а неуверенный в себе руководитель год за годом дает неоправданно пессимистичные прогнозы продаж, это приводит к многочисленным серьезным просчетам.

Мы уже убедились, что шум тоже ведет к возникновению дорогостоящих ошибок. Если менеджер в большинстве своих прогнозов вдвое занижает сроки окончания проекта, но при этом иногда вдвое их завышает, бессмысленно утверждать, что «в среднем» он оказывается прав. Такие ошибки не отменяют друг друга, а суммируются.

Вот почему так важно установить, каким образом и насколько сильно смещение и шум способствуют появлению погрешностей в суждениях. Мы постараемся ответить на эти вопросы в настоящей главе. Основная идея проста: во всех видах профессиональных суждений, целью которых является точность, при расчете общей погрешности смещение и шум играют одинаковую роль. В некоторых случаях больший вклад вносит смещение, в других – шум (и таких случаев гораздо больше, чем можно было бы ожидать). Однако сокращение уровня шума всегда оказывает такой же эффект на значение общей погрешности, как и уменьшение смещения. По этой причине измерению и снижению шума и смещения следует уделять одинаково пристальное внимание.

Подход к измерению погрешности, на основе которого сделан этот вывод, имеет давнюю историю и является общепринятым в науке и статистике. В этой главе мы дадим обзор истории этого подхода и вкратце опишем его основные тезисы.

Нужно ли компании GoodSell сокращать уровень шума?

Представьте себе крупную компанию розничной торговли под названием GoodSell, в которой работает множество специалистов, прогнозирующих объемы сбыта. Они занимаются расчетом будущей доли рынка компании в различных регионах. Возможно, прочитав некую книгу о шумовых помехах, глава отдела прогнозирования Эми Симкин провела ревизию шума: все прогнозисты GoodSell подготовили независимую оценку доли компании на рынке в одном и том же регионе.

На рисунке 3 изображен (неправдоподобно плавный) график с результатами этой ревизии. Эми видит, что прогнозы расположились на кривой, имеющей знакомые очертания колокола, также известной как нормальное распределение, или распределение Гаусса.

Рис. 3. Распределение прогнозов рыночной доли компании GoodSell в одном регионе


Чаще всего эксперты компании давали оценку в 44 %, что отражено в самой верхней точке кривой. Эми убеждается, что в системе прогнозирования компании довольно много шума, ведь будь прогнозы точны, они были бы идентичными, однако на деле они варьируются в широком диапазоне.

Уровень шума в прогнозах компании GoodSell можно оценить количественно. Мы можем рассчитать стандартное отклонение в заключениях экспертов – так же как мы это сделали, отмеряя временные интервалы при помощи секундомера. Как следует из названия, стандартное отклонение отражает типичное расстояние от среднего значения. В нашем примере это 10 процентных пунктов. Как и в любом нормальном распределении, примерно две трети прогнозов расположились в пределах одного стандартного отклонения по обе стороны от среднего значения – между 34 % и 54 % рыночной доли. Теперь у Эми появилась количественная оценка системного шума в прогнозах о доле рынка. (Для более достоверных результатов в ревизию шумовых помех следовало бы включить сразу несколько задач по прогнозированию, однако для наших целей будет достаточно и одной.)

Как и руководство реально существующей страховой компании из главы 2, Эми потрясена результатами и хочет принять меры. Непозволительно высокий уровень шума указывает на то, что прогнозисты недостаточно строго следуют необходимым процедурам. Чтобы сделать действия специалистов более единообразными и упорядоченными, Эми просит разрешения нанять консультанта по шуму, но, к сожалению, эта идея не находит поддержки. Ответ ее начальника кажется вполне разумным: «Как можно сократить погрешность, если мы не знаем, насколько верны наши прогнозы? Конечно, если погрешность в них действительно велика (то есть имеется большое смещение), мы должны приложить максимум усилий для их устранения. Прежде чем принимать меры по улучшению качества прогнозов, нужно подождать и посмотреть, насколько точными они окажутся».

Спустя год после ревизии шума стали известны результаты, которые пытались предугадать прогнозисты. Доля рынка компании в целевом регионе составила 34 %. Теперь мы можем оценить погрешность каждого прогноза: нужно просто подсчитать разницу между прогнозом и результатом. Если эксперты прогнозировали 34 %, то погрешность оказалась нулевой, для среднего прогноза в 44 % погрешность составила 10 %, а для заниженного прогноза в 24 % она оказалась – 10 %.

На рисунке 4 показано распределение ошибок. Выглядит так же, как и распределение прогнозов на рисунке 3, но из числового значения каждого прогноза было вычтено истинное значение (34 %). Кривая распределения не изменилась, и стандартное отклонение (выбранная нами единица измерения шума) все еще составляет 10 %.


Рис. 4. Распределение ошибок в прогнозах GoodSell о рыночной доле в одном регионе


Разница между кривыми на рисунках 3 и 4 аналогична разнице между разбросом попаданий, видимых на передней и задней поверхностях мишени с рисунков 1 и 2 (см. введение). Чтобы заметить шум в результатах стрельбы, необязательно знать точное расположение «яблочка» мишени; подобным же образом данные об истинной доле рынка ничего не меняют в том, что мы уже знаем об уровне шума в прогнозах.

Теперь Эми Симкин и ее руководителю стала известна информация, которой они раньше не располагали, а именно величина смещения в прогнозах. Смещение – это средняя погрешность, которая в нашем случае также составила 10 %. В этом наборе данных смещение и шум оказались одинаковыми в числовом выражении. (Уточним, что такое совпадение ни в коем случае не является нормой, однако роль смещения и шума становится понятнее на примере, где их числовые выражения равны.) Мы видим, что ошибки большинства прогнозистов получились оптимистичными, то есть эксперты переоценили будущую долю рынка: многие прогнозы оказались по правую сторону от вертикальной черты нулевой погрешности. (На самом деле благодаря свойствам нормального распределения мы знаем, что в этой части кривой расположилось 84 % прогнозов.)

С едва скрываемым удовлетворением шеф Эми отмечает, что был прав: в прогнозах выявлено огромное смещение! И в самом деле, теперь стало очевидно, что уменьшить его масштабы было бы весьма полезно. И все же Эми продолжает задаваться вопросом о том, стоило ли год назад – и стоит ли сейчас – пытаться также сократить и уровень шума. Насколько сильно выиграла бы компания от этого шага в сравнении с коррекцией смещения?

Среднеквадратические значения

Для ответа на вопрос Эми нам необходимо воспользоваться «правилом подсчета ошибок» – способом взвесить и свести индивидуальные ошибки в единый показатель общей погрешности. К счастью, такой способ уже существует. Это метод наименьших квадратов, предложенный в 1795 году4243 гением математики Карлом Фридрихом Гауссом, родившимся в 1777 году и вставшим на путь великих открытий в уже очень юном возрасте.

Гаусс предложил правило для оценки вклада индивидуальных ошибок в общую погрешность. Его мера общей погрешности, называемая среднеквадратической ошибкой (MSE[5]), – это среднее значение квадратов индивидуальных погрешностей измерения.

 

Подробные доводы Гаусса в пользу своего метода измерения общей погрешности выходят далеко за рамки этой книги, а предложенное им решение на первый взгляд неочевидно. Зачем нужны квадраты ошибок? Идея кажется взятой с потолка, даже эксцентричной. И все же, как вы сможете убедиться, она базируется на предположении, с которым вы почти наверняка согласитесь.

Чтобы понять, почему это так, давайте обратимся к проблеме, которая кажется совсем не относящейся к делу, хотя в действительности имеет к нашему вопросу самое прямое отношение. Представьте, что вам вручили линейку и попросили измерить длину прямой с точностью до миллиметра. Проводить замеры разрешено пять раз. Результаты этих замеров представлены на рисунке 5 в виде направленных вниз треугольников, расположенных на прямой.


Рис. 5. Пять замеров одной и той же прямой


Как видите, диапазон результатов пяти замеров составил от 971 до 980 миллиметров. Какой будет ваша самая точная оценка длины этой прямой? У нас есть два очевидных претендента на лучший ответ. Во-первых, это медианное значение: результат, находящийся между двумя наименьшими и двумя наибольшими измерениями. Оно составляет 973 миллиметра. Во-вторых, это среднее арифметическое, или, проще говоря, среднее значение, составляющее в этом примере 975 миллиметров и показанное на рисунке в виде стрелки, направленной вверх. Интуитивно вы, скорее всего, выберете среднее арифметическое и будете правы. Средний показатель более информативен, он зависит от величины значений, тогда как медиана – только от их последовательности.

Между вышеописанной задачей приблизительного подсчета, о пути решения которой у вас имеется четкое интуитивное представление, и задачей измерения общей погрешности, которая нас сейчас интересует, существует тесная связь. На самом деле это две стороны одной медали, потому что самая точная оценка – та, которая минимизирует общую погрешность в имеющихся результатах измерений. Соответственно, если вы правы, интуитивно полагая, что среднее арифметическое – это самая точная оценка, тогда формула для измерения общей погрешности должна подсчитывать среднее арифметическое как значение, для которого погрешность минимизируется.

Среднеквадратическая ошибка такое свойство как раз имеет – и это единственный подобный способ измерения общей погрешности. На рисунке 6 мы показали подсчет MSE в наборе из пяти измерений для десяти возможных целых значений истинной длины прямой. Например, если бы истинное значение равнялось 971, погрешности в пяти измерениях составили бы 0, 1, 2, 8 и 9. Сумма квадратов этих погрешностей равняется 150, а среднее арифметическое – 30. Такое большое число говорит о том, что какие-то измерения довольно далеки от истины. Вы видите, что MSE уменьшается по мере приближения к 975, или среднему арифметическому значению, и снова увеличивается по мере удаления в бóльшую сторону. Нашей лучшей оценкой является среднее арифметическое значение, потому что оно минимизирует общую погрешность.


Рис. 6. Среднеквадратическая ошибка для десяти возможных значений истинной длины прямой


Вы также могли заметить, что общая погрешность быстро растет по мере отклонения оценки от среднего арифметического значения. Например, при отклонении оценки всего на 3 миллиметра, от 976 к 979, MSE удваивается. Это ее ключевое свойство: возведение в квадрат придает значительным погрешностям гораздо больший вес, чем незначительным.

Теперь вы понимаете, почему гауссовская формула измерения общей погрешности называется среднеквадратической ошибкой, а сам подход – методом наименьших квадратов. Метод базируется на возведении погрешностей в квадрат, и никакая другая формула не способна поддержать ваше интуитивное предположение, что лучшая оценка – это среднее арифметическое значение.

Другие математики быстро признали преимущества гауссовского метода. Сам же Гаусс среди множества прочих достижений использовал MSE (и другие математические открытия) для решения задачи, которая была не под силу лучшим астрономам Европы: повторного обнаружения Цереры – астероида, который ученые могли наблюдать лишь непродолжительное время, после чего в 1801 году он пропал из виду из-за ярких солнечных бликов. Астрономы пытались рассчитать траекторию движения Цереры, неправильно учитывая погрешность измерения своих телескопов, поэтому так и не обнаружили карликовую планету в точке, на которую указывали их расчеты. Гаусс исправил их вычисления при помощи метода наименьших квадратов. Направив телескопы в точку, указанную Гауссом, астрономы увидели Цереру!

Вскоре метод наименьших квадратов стал применяться учеными в самых различных дисциплинах. Спустя два века он остается стандартным способом оценить погрешность в любых вычислениях, требующих точности. В статистике без взвешивания квадратов погрешностей не обойтись, да и в других областях науки метод наименьших квадратов используется постоянно. Очень скоро мы с вами убедимся, что последствия применения этого подхода могут быть весьма неожиданными.

Уравнения расчета погрешности

Роль смещения и шума в возникновении погрешностей легко обобщить двумя выражениями, которые мы назовем уравнениями расчета погрешности. Первое из этих уравнений раскладывает погрешность однократного измерения на две составляющие, с которыми вы уже знакомы: смещение, или среднюю погрешность, и остаточную «шумную погрешность». Шумная погрешность имеет положительное значение, если погрешность больше, чем смещение, и отрицательное, если меньше. Среднее значение шумных погрешностей равняется нулю. В первом уравнении нет ничего нового:


Погрешность в однократном измерении = Смещение + Шумная погрешность


Второе уравнение расчета погрешности – это разложение на составные части среднеквадратической ошибки, уже знакомой нам меры общей погрешности. При использовании простых алгебраических действий44 среднеквадратическая ошибка может быть представлена как сумма квадратов смещения и шума. (Вспомните, что шум – стандартное отклонение в измерениях, идентичное стандартному отклонению шумных погрешностей.) Таким образом:


Общая погрешность (MSE) = Смещение2+ Шум2


Возможно, вид этого уравнения – сумма двух квадратов – напоминает вам известную со школьных лет теорему Пифагора. Как вы, вероятно, помните, в прямоугольном треугольнике сумма квадратов катетов равняется квадрату гипотенузы. Поэтому уравнение расчета погрешности можно визуализировать при помощи трех квадратов, стороны которых образуют стороны прямоугольного треугольника, при этом площади этих квадратов равны соответственно MSE, смещению2 и шуму2. Рисунок 7 показывает, что MSE (площадь темного квадрата) равняется сумме площадей двух других квадратов. На изображении слева шум больше, чем смещение; на изображении справа смещение больше, чем шум. Однако в обоих случаях MSE одинаковы, а уравнение расчета погрешности применимо к обоим изображениям.


Рис. 7. Два разложения MSE на составляющие


Математическое выражение и его визуализация показывают, что роли смещения и шума в уравнении расчета погрешности идентичны. При определении общей погрешности они взаимонезависимы и равновзвешенны. (Заметьте, что в последующих главах мы прибегнем к похожему разложению на сумму квадратов, анализируя составляющие шума.)

Уравнение расчета погрешности предлагает ответ на практический вопрос, заданный Эми: как изменится общая погрешность, если в одинаковой степени сократить уровень шума или смещения? Ответ на этот вопрос очевиден: в уравнении расчета погрешности смещение и шум взаимозаменяемы, поэтому независимо от того, какой из этих двух показателей мы уменьшим, снижение общей погрешности будет одинаковым. На рисунке 4, где смещение и шум оказались идентичными (по 10 %), их вклад в общую погрешность равнозначен.

Уравнение расчета погрешности определенно говорит в пользу первоначального порыва Эми принять меры по сокращению уровня шума. Каждый раз, когда вы обнаруживаете шум, вы должны постараться его уменьшить! Уравнение указывает на то, что шеф Эми был не прав, предложив подождать до момента, когда можно будет измерить смещение в прогнозах, и только затем принимать решение о дальнейших действиях. При подсчете общей погрешности шум и смещение выступают независимо: выгода от сокращения уровня шума никак не изменится, каким бы при этом ни было смещение.

Эта идея крайне парадоксальна, но при этом принципиально важна. В качестве демонстрации на рисунке 8 показан эффект от одинакового сокращения смещения и шума. Чтобы вам было проще оценить, чего удалось достичь в каждом случае, мы представили первоначальное распределение ошибок (с рисунка 4) в виде пунктирной линии.

В случае А мы исходим из того, что начальник Эми настоял на своем: был определен уровень смещения, затем его сократили вдвое (возможно, предоставив данные исследования прогнозистам, оказавшимся слишком оптимистичными). Уровень шума остался неизменным. На графике сразу заметны улучшения: распределение ошибок целиком сдвинулось в направлении истинного значения.


Рис. 8. Распределение ошибок: двукратное сокращение смещения в сравнении с двукратным сокращением шума


В случае Б мы видим, что бы произошло, если бы Эми все же удалось переубедить своего шефа. Уровень смещения не меняется, а шум сокращается вдвое. Парадокс в том, что создается впечатление, что снижение уровня шума только ухудшило ситуацию. Теперь разброс прогнозов гораздо меньше (ниже уровень шума), но они не стали точнее (смещение не изменилось). Если раньше по одну сторону от истинного значения были 84 % прогнозов, теперь там оказались почти все прогнозы (98 %). Кажется, что сокращение шума значительно ухудшило их качество – совсем не похоже на положительные изменения, на которые так надеялась Эми!

Вопреки создавшемуся впечатлению, в обоих случаях общая погрешность уменьшилась одинаково. Иллюзия того, что в случае Б результаты стали хуже, возникает из-за ошибочных интуитивных представлений о смещении. Целесообразной мерой смещения следует считать не то, какой процент ошибок оказывается по разные стороны от нулевой погрешности, а среднюю погрешность – расстояние между наивысшей точкой кривой и истинным значением. В случае Б средняя погрешность не изменилась. Она все еще высока – 10 %, но больше она не стала. Действительно, смещение стало гораздо заметнее, потому что теперь его вклад в общую погрешность весомее (80 % против 50 % ранее). Но это произошло потому, что уменьшился уровень шума. Напротив, в случае А смещение сократилось, а шум остался прежним. В конечном счете MSE одинакова в обоих случаях: равные объемы сокращения шума или смещения оказывают на MSE один и тот же эффект.

Как показывает этот пример, среднеквадратическая ошибка противоречит нашим интуитивным представлениям об оценке прогнозных суждений. Чтобы минимизировать MSE, нужно постараться избежать значительных ошибок. К примеру, при измерении длины эффект от уменьшения погрешности с 11 см до 10 см в 21 раз выше, чем эффект ее сокращения с 1 см до истинного значения. К сожалению, интуитивные представления в этом отношении45 почти зеркально противоположны верным: люди всеми силами стремятся получить максимально точный ответ и очень внимательно относятся к небольшим погрешностям, при этом практически игнорируя разницу между двумя значительными ошибками. Даже если вы искренне полагаете, что пытаетесь добиться точности суждения, ваш эмоциональный отклик на результаты может помешать достижению точности в научном понимании.

Конечно же, самым оптимальным решением в этой ситуации будет заняться уменьшением как шума, так и смещения. Поскольку эти величины друг от друга не зависят, бессмысленно выбирать между предложениями Эми Симкин и ее начальника. Если компания GoodSell все же возьмется за сокращение уровня шума, тот факт, что при этом станет очевиднее смещение – а на самом деле его просто невозможно будет не заметить, – может обернуться благом.

Разумеется, при уровне смещения намного больше уровня шума сокращение последнего будет менее приоритетной задачей. Но пример с компанией GoodSell дает нам еще один немаловажный урок. В этой упрощенной модели мы посчитали, что уровни шума и смещения одинаковы. Согласно уравнению расчета погрешности, их вклад в общую погрешность тоже одинаков: 50 % у шума и 50 % у смещения. И все же, как мы заметили, 84 % прогнозистов ошиблись в бóльшую сторону. Требуется именно такой высокий уровень смещения (шесть из семи специалистов ошиблись в одинаковом направлении), чтобы их эффект сравнялся с эффектом шума. Поэтому не стоит удивляться, столкнувшись с ситуациями, когда уровень шума выше, чем уровень смещения.

 

Мы показали применение уравнения расчета погрешности на единичном примере – только в одном регионе, где GoodSell ведет свою деятельность. Безусловно, всегда желательно проводить ревизию шума сразу на нескольких примерах. Метод при этом не меняется. Уравнение расчета погрешности используют в каждом отдельном случае, и суммарное уравнение получается при подсчете среднего значения среднеквадратической ошибки, квадрата шума и квадрата смещения, разделенных на количество случаев. Для Эми Симкин было бы полезнее получить целый ряд прогнозов по различным регионам от одной или нескольких групп специалистов. Средние результаты дали бы ей более четкую картину смещения и шума в системе прогнозирования компании GoodSell.

5MSE, mean squared error – среднеквадратическая ошибка (англ.).
1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39 
Рейтинг@Mail.ru