bannerbannerbanner
Ключевые идеи книги: Сигнал и шум. Почему одни прогнозы сбываются, а другие – нет. Нейт Сильвер

Smart Reading
Ключевые идеи книги: Сигнал и шум. Почему одни прогнозы сбываются, а другие – нет. Нейт Сильвер

Полная версия

Автор:

Nate Silver

Оригинальное название:

The Signal and The Noise. Why So Many Predictions Fail – But Some Don’t

www.smartreading.ru

Заглянем в завтра?

На протяжении столетий ученые дискутировали о предсказуемости мира. Формулируя свои законы механики, Ньютон указывал на то, что Вселенная полностью подчиняется упорядоченным и простым законам физики. В XIX веке французский астроном и математик Пьер-Симон Лаплас был уверен, что если располагать абсолютным знанием о месторасположении всех элементов природы и всех законов природы, то «движение каждой частицы Вселенной будет так же идеально предсказуемо, как движение шаров на бильярдном столе».

Открытие теории относительности и квантовой механики означает, что Вселенная подвержена принципу неопределенности и идеальные предсказания невозможны.

Человек склонен переоценивать свою способность заглядывать в будущее. С печальной регулярностью «достоверно» предсказанные события не наступают, а события якобы невозможные неожиданно сваливаются нам на голову. И дело не только в недостаточном владении статистикой. Сначала надо разобраться с понятием вероятности и неопределенности, научиться распознавать собственную предвзятость и ценить возможность экспериментирования.

Мы сталкиваемся с опасностью, когда рост потока информации опережает нашу способность эту информацию обрабатывать. Сейчас в тренде большие данные, однако неправильно считать, что прогнозы, основанные на больших данных, обязательно окажутся успешными. Цифры и факты не имеют самостоятельного значения. Это человек наполняет их смыслом и может интерпретировать данные так, что результат окажется оторван от реальности.

В век информации разрыв между тем, что мы знаем, и тем, что мы думаем, что знаем, становится все шире. Это проявляется в очень детальных прогнозах, которые оказываются абсолютно несостоятельными. Большинство неудачных прогнозов – результат нашей излишней самоуверенности.

Защищаясь от информационной перегрузки, мы склонны упрощать мир вокруг нас. Мы стремимся привести мир в согласие со своими представлениями о нем, на самом деле он становится все более разнообразным и сложным. Мы никогда не сможем составлять идеально объективные прогнозы. Они всегда будут нести отпечаток наших субъективных убеждений. И признание этого факта – первый шаг к улучшению качества прогнозирования.

Моделирование будущего может быть полезным, даже если модель оказывается неправильной. Она помогает понять, в чем ошибка и как минимизировать затраты от ошибок. Главное помнить, что построение моделей будущего – инструмент для лучшего понимания сложности мира, но модель никогда не сможет отразить мир целиком.

Ищем среднее

Многочисленные исследования подтверждают, что обобщенные прогнозы лучше индивидуальных. В разных областях деятельности усреднение имеющихся прогнозов часто снижает вероятность ошибки на 15–20 %. Однако прежде чем высчитывать среднее, стоит обратить внимание на следующее.

▶ Усредненный прогноз может быть лучше индивидуального, но это не означает, что он надежен и достоверен.

▶ Комбинирование прогнозов улучшает качество прогнозирования только в том случае, если каждый индивидуальный прогноз составлялся независимо от других.

▶ Хотя усредненный прогноз бывает, как правило, лучше типичного индивидуального прогноза, он может быть хуже, чем лучший индивидуальный прогноз.

Наследие Томаса Байеса

Томас Байес, английский священник XVIII века, стал основателем целого направления современной статистики и автором знаменитой теоремы[1], названной в его честь. Байес полагал, что наши знания о Вселенной строятся на приближениях: мы приближаемся к истине по мере накопления новой информации. В его знаменитой книге «Эссе к решению проблемы в доктрине возможностей» заложены основы современной теории вероятности. Сформулированная им теорема позволяет рассчитать вероятность какого-либо события, при условии что произошло другое взаимосвязанное с ним событие. Пьер-Симон Лаплас сумел выразить теорему Байеса математическими средствами.

Теорема Байеса применима к широчайшему спектру событий и явлений. Например, вероятность появления рака груди у 40-летних женщин очень мала – 1,4 %. Но какова вероятность рака, если маммограмма показала наличие рака? Исследования показывают, что если у женщины рака нет, то маммограмма ошибочно покажет рак примерно в 10 % случаев. Если у женщины рак есть, то маммограмма распознает его в 75 % случаев. Такая статистика вполне убедительно говорит о том, что позитивная маммограмма – вполне надежное свидетельство наличия рака. Однако если к этим цифрам применить теорему Байеса, то вывод будет другой – даже при наличии позитивной маммограммы вероятность наличия рака у 40-летней женщины около 10 %.

Сила эксперимента

«Ложный позитив» – проблема для любой науки, если составители прогнозов не пользуются теоремой Байеса. Практика показывает, что многие гипотезы, выдвигаемые в медицинских и научных академических изданиях, оказываются ложными. Исследователи не сумели в независимых условиях воспроизвести полученные ими «позитивные» данные, опубликованные в медицинских журналах. Количество информации постоянно растет, однако количество значимой информации – в разы меньше. Большая часть информации – просто «шум».

Согласно теореме Байеса, нужно уточнять прогноз каждый раз, когда становится доступной новая информация. Говоря иначе, использовать метод проб и ошибок.

Успех Google объясняется умелым сочетанием креативной культуры с неукоснительным тестированием всего нового. Google постоянно работает над улучшением качества своих прогнозов. Когда мы отправляем поисковый запрос в Google и получаем список возможных ответов, порядок, в котором появляются ответы, отражает прогноз Google в отношении того, какие ответы будут для нас более полезными. Google для улучшения качества своего поискового механизма проводит в среднем около 10 тысяч экспериментов в год.

К сожалению, эксперты, составляющие прогнозы в различных областях жизни, далеко не всегда имеют возможность проверять правильность своих статистических моделей в реальности.

1В самом базовом виде теорема Байеса представляет собой алгебраическое выражение с тремя известными переменными. Вероятность того или иного события равна хy / (xy + z (1 – x)), где x представляет собой изначальную вероятность (выраженную в процентах) наступления события, y – вероятность наступления события, при условии что вводные данные правильные, и z – вероятность наступления события, при условии что вводные данные ошибочны. Иными словами, теорема позволяет корректировать вероятность того или иного результата, учитывая влияние ложноположительных данных.
Рейтинг@Mail.ru