Автор:
Nate Silver
Оригинальное название:
The Signal and The Noise. Why So Many Predictions Fail – But Some Don’t
На протяжении столетий ученые дискутировали о предсказуемости мира. Формулируя свои законы механики, Ньютон указывал на то, что Вселенная полностью подчиняется упорядоченным и простым законам физики. В XIX веке французский астроном и математик Пьер-Симон Лаплас был уверен, что если располагать абсолютным знанием о месторасположении всех элементов природы и всех законов природы, то «движение каждой частицы Вселенной будет так же идеально предсказуемо, как движение шаров на бильярдном столе».
Открытие теории относительности и квантовой механики означает, что Вселенная подвержена принципу неопределенности и идеальные предсказания невозможны.
Человек склонен переоценивать свою способность заглядывать в будущее. С печальной регулярностью «достоверно» предсказанные события не наступают, а события якобы невозможные неожиданно сваливаются нам на голову. И дело не только в недостаточном владении статистикой. Сначала надо разобраться с понятием вероятности и неопределенности, научиться распознавать собственную предвзятость и ценить возможность экспериментирования.
Мы сталкиваемся с опасностью, когда рост потока информации опережает нашу способность эту информацию обрабатывать. Сейчас в тренде большие данные, однако неправильно считать, что прогнозы, основанные на больших данных, обязательно окажутся успешными. Цифры и факты не имеют самостоятельного значения. Это человек наполняет их смыслом и может интерпретировать данные так, что результат окажется оторван от реальности.
В век информации разрыв между тем, что мы знаем, и тем, что мы думаем, что знаем, становится все шире. Это проявляется в очень детальных прогнозах, которые оказываются абсолютно несостоятельными. Большинство неудачных прогнозов – результат нашей излишней самоуверенности.
Защищаясь от информационной перегрузки, мы склонны упрощать мир вокруг нас. Мы стремимся привести мир в согласие со своими представлениями о нем, на самом деле он становится все более разнообразным и сложным. Мы никогда не сможем составлять идеально объективные прогнозы. Они всегда будут нести отпечаток наших субъективных убеждений. И признание этого факта – первый шаг к улучшению качества прогнозирования.
Моделирование будущего может быть полезным, даже если модель оказывается неправильной. Она помогает понять, в чем ошибка и как минимизировать затраты от ошибок. Главное помнить, что построение моделей будущего – инструмент для лучшего понимания сложности мира, но модель никогда не сможет отразить мир целиком.
Многочисленные исследования подтверждают, что обобщенные прогнозы лучше индивидуальных. В разных областях деятельности усреднение имеющихся прогнозов часто снижает вероятность ошибки на 15–20 %. Однако прежде чем высчитывать среднее, стоит обратить внимание на следующее.
▶ Усредненный прогноз может быть лучше индивидуального, но это не означает, что он надежен и достоверен.
▶ Комбинирование прогнозов улучшает качество прогнозирования только в том случае, если каждый индивидуальный прогноз составлялся независимо от других.
▶ Хотя усредненный прогноз бывает, как правило, лучше типичного индивидуального прогноза, он может быть хуже, чем лучший индивидуальный прогноз.
Томас Байес, английский священник XVIII века, стал основателем целого направления современной статистики и автором знаменитой теоремы[1], названной в его честь. Байес полагал, что наши знания о Вселенной строятся на приближениях: мы приближаемся к истине по мере накопления новой информации. В его знаменитой книге «Эссе к решению проблемы в доктрине возможностей» заложены основы современной теории вероятности. Сформулированная им теорема позволяет рассчитать вероятность какого-либо события, при условии что произошло другое взаимосвязанное с ним событие. Пьер-Симон Лаплас сумел выразить теорему Байеса математическими средствами.
Теорема Байеса применима к широчайшему спектру событий и явлений. Например, вероятность появления рака груди у 40-летних женщин очень мала – 1,4 %. Но какова вероятность рака, если маммограмма показала наличие рака? Исследования показывают, что если у женщины рака нет, то маммограмма ошибочно покажет рак примерно в 10 % случаев. Если у женщины рак есть, то маммограмма распознает его в 75 % случаев. Такая статистика вполне убедительно говорит о том, что позитивная маммограмма – вполне надежное свидетельство наличия рака. Однако если к этим цифрам применить теорему Байеса, то вывод будет другой – даже при наличии позитивной маммограммы вероятность наличия рака у 40-летней женщины около 10 %.
«Ложный позитив» – проблема для любой науки, если составители прогнозов не пользуются теоремой Байеса. Практика показывает, что многие гипотезы, выдвигаемые в медицинских и научных академических изданиях, оказываются ложными. Исследователи не сумели в независимых условиях воспроизвести полученные ими «позитивные» данные, опубликованные в медицинских журналах. Количество информации постоянно растет, однако количество значимой информации – в разы меньше. Большая часть информации – просто «шум».
Согласно теореме Байеса, нужно уточнять прогноз каждый раз, когда становится доступной новая информация. Говоря иначе, использовать метод проб и ошибок.
Успех Google объясняется умелым сочетанием креативной культуры с неукоснительным тестированием всего нового. Google постоянно работает над улучшением качества своих прогнозов. Когда мы отправляем поисковый запрос в Google и получаем список возможных ответов, порядок, в котором появляются ответы, отражает прогноз Google в отношении того, какие ответы будут для нас более полезными. Google для улучшения качества своего поискового механизма проводит в среднем около 10 тысяч экспериментов в год.
К сожалению, эксперты, составляющие прогнозы в различных областях жизни, далеко не всегда имеют возможность проверять правильность своих статистических моделей в реальности.