bannerbannerbanner
Логика случая. О природе и происхождении биологической эволюции

Евгений Кунин
Логика случая. О природе и происхождении биологической эволюции

Полная версия

Молекулярная эволюция и молекулярная филогенетика

Традиционные филогенетические исследования, наполнившие содержанием дарвиновскую концепцию древа жизни, были основаны на сравнении морфологических черт организмов, таких как структура скелета животных или строение цветков растений (Futuyma, 2005). Эволюционные биологи не осознавали, что сравнивать следует реальную молекулярную базу эволюции, которая подвержена действию естественного отбора, то есть гены, просто потому, что они практически ничего не знали о химической основе этой составляющей и о способе, которым гены кодируют фенотип организма. Более того, согласно парадигме панадаптационизма в эволюционной биологии, гены, на каком бы молекулярном механизме они ни основывались, должны существенно разниться в неродственных организмах, если учесть фенотипические различия между этими организмами, как подчеркивалось, в частности, Эрнстом Майром, одним из главных строителей СТЭ.

Идея того, что последовательность оснований ДНК может использоваться для эволюционной реконструкции, была, вероятно, впервые высказана в печати, пусть и мимоходом, еще Криком (в той же самой основополагающей статье, в которой он сформулировал адапторную гипотезу синтеза белка, – Crick, 1958). Эмиль Цукеркандль и Лайнус Полинг развили принципы и описали первое фактическое использование молекулярного эволюционного анализа несколько лет спустя. Они напрямую опровергли гипотезу Майра, показав, что последовательности аминокислот нескольких белков, которые в то время были известны для нескольких видов, такие как цитохром c и глобины, оказались чрезвычайно консервативными даже у дальнородственных животных (Zuckerkandl and Pauling, 1965). Цукеркандль и Полинг также предложили концепцию молекулярных часов: они предсказали, что скорость эволюции определенной последовательности белка будет неизменна (с учетом возможных флуктуаций) в течение длительных временных интервалов в отсутствие функциональных изменений. Здесь необходимо отметить, что то, что последовательности генов, кодирующих «один и тот же белок» (то есть белки с одинаковым действием и сходными свойствами), в различных организмах оказались очень сходными – и, более того, степень схожести этих последовательностей отрицательно коррелировала с филогенетическим расстоянием между данными организмами, – можно рассматривать как наилучшее и исчерпывающее доказательство реальности эволюции.

В течение последующих нескольких лет, в основном благодаря работам Маргарет Дэйхофф и ее коллег, консервативность кодирующих белки последовательностей была продемонстрирована на примерах самых различных форм жизни, от бактерий до млекопитающих (Dayhoff et al., 1983). Учитывая открытие консервативности белок-кодирующих последовательностей и гипотезу молекулярных часов, оказалось естественным перейти к конструированию филогенетических деревьев на основе (не)похожести этих последовательностей, что должно было показать примерное время возникновения расхождений в последовательностях генов (белков) от общего предка. И в самом деле, скоро были изобретены несколько методов измерения расстояний в молекулярной филогенетике, а также введен принцип наибольшей экономии (см. табл. 2–1). Последующее тестирование гипотезы молекулярных часов на все растущей базе последовательностей ДНК показало, что для большинства генов эти часы идут не с одинаковой скоростью; напротив, эти данные оказались значительно диспергированы, то есть отклонения в скорости эволюции значительно превышали среднее отклонение, которое могло быть предсказано распределением Пуассона (Bromham and Penny, 2003). Такая избыточная дисперсия молекулярных часов приводит к особенности молекулярного филогенеза, известной как притяжения длинных ветвей (ПДВ), существенно искажающей результаты молекулярного филогенетического анализа (см. табл. 2–1). Молекулярная филогенетика, таким образом, превратилась в сложную ветвь прикладной математики и статистики в основном для того, чтобы справляться с эффектами ПДВ и им подобными (Felsenstein, 2004). Но, несмотря на все артефакты, молекулярная филогенетика остается краеугольным камнем современной эволюционной биологии и использует в первую очередь методы наибольшего правдоподобия (см. табл. 2–1).

Таблица 2–1. Краткое описание филогенетических методов

Методы, основанные на секвенировании

Требуют многократного сравнения гомологичных нуклеотидов или белковых последовательностей.

Дистанционно-матричные методы

Все эти методы используют матрицы межвидовых расстояний <dij> (i, j соответствуют видам), рассчитанные на основе сравнений последовательностей с корректировкой на множественные замещения. Ультраметрические методы (простая иерархическая кластеризация). Достоверны только для стабильных молекулярных часов. В принципе не считаются приемлемыми филогенетическими методами, но могут быть использованы для целей классификации или генерации предварительных филогенетических деревьев.

Метод объединения ближайших соседей (neighbor-joining). Более сложный метод восходящей кластеризации, основанный на минимальном эволюционном критерии (кратчайшая суммарная длина ветвей дерева). Чувствителен к ПДВ и гораздо менее точен, чем метод наибольшего правдоподобия, однако высокоэффективен для вычислений и быстр. Не используется для исчерпывающего филогенетического анализа, но для анализа большого количества последовательностей может быть единственным практически применимым методом.

Метод наименьших квадратов, метод Фитча. Метод измерения расстояний, основанный на минимизации разностей между расстояниями на филогенетическом дереве и в соответствующей матрице расстояний. По точности и эффективности примерно равен методу объединения ближайших соседей. Считается неподходящим для исчерпывающего филогенетического анализа, но используется для построения предварительных филогенетических деревьев для метода наибольшего правдоподобия.

Принцип наибольшей экономии (maximum parsimony)

Не использует матрицы расстояний, вместо этого работает с наборами состояний признаков. Состояниями признаков, в частности, могут быть нуклеотиды или аминокислоты в определенных позициях множественных выравниваний. Принцип наибольшей экономии (НЭ), основанный на принципе наименьшего действия в физике, определяет как наиболее вероятный тот эволюционный сценарий (филогенетическое дерево), который включает в себя наименьшее количество событий (переходов состояний в наборе признаков).

Существует множество алгоритмов, вычисляющих деревья, наиболее соответствующие принципу НЭ и использующие значимые и незначимые признаки. Принцип НЭ часто ставится под сомнение, поскольку существуют деревья, лишь слегка отличающиеся от наиболее экономичного варианта, но имеющие совершенно иную топологию. Метод высоко чувствителен к ПДВ.

Метод наибольшего правдоподобия (maximum likelihood)

Аналогично методу НЭ, в методе наибольшего правдоподобия (НП) оцениваются переходы между состояниями признаков и выбираются деревья, набравшие наибольший вес. В отличие от метода НЭ, метод НП является параметрическим статистическим подходом, который использует детальную модель эволюции признака для оценки вероятности данных на основе имеющегося эволюционного дерева. Дерево, которое имеет наибольшую вероятность возникновения наблюдаемых данных, признается наиболее вероятным. Метод НП зачастую производит деревья, аналогичные тем, которые получаются методом НЭ, но теоретически он предпочтительнее, будучи (в отличие от НЭ) статистически более достоверным (то есть при наличии достаточного количества данных гарантирует получение наиболее правдоподобного дерева). На практике метод НП часто превосходит метод НЭ. Методы НП чрезвычайно затратны с вычислительной точки зрения и непрактичны при работе с большими наборами данных. Таким образом, методы НП зачастую используются для оптимизации предварительных деревьев, полученных методом объединения ближайших соседей и методом Фитча. Для тех же филогенетических исследований, где точность построения дерева важнее скорости, следует выбирать методы НП. Более того, недавние алгоритмические достижения более чем на порядок ускорили построение филогенетических деревьев методами НП без серьезных потерь точности (Price et al., 2010).

Байесовский подход

Подобно методу НП, этот подход использует функцию правдоподобия, но прибегает к теореме Байеса с целью связать апостериорную вероятность дерева с правдоподобием данных и априорную вероятность дерева с эволюционной моделью. В отличие от методов НЭ и НП, которые выводят наилучшее дерево или набор деревьев, методы байесовского вывода выбирают деревья пропорционально их правдоподобию и определяют представительный набор деревьев. Метод хорошо работает для относительно небольших объемов данных, но непрактичен для больших.

Проверка точности филогенетических методов и достоверности деревьев

Модельные деревья

Филогенетические методы постоянно проверяются на искусственно смоделированных данных, для которых известна точная история эволюции. Методы сравниваются по критерию точности реконструкции топологии для искусственно построенных деревьев. Как правило, различные методы НП и байесовские методы превосходят все остальные для небольших наборов данных. Наилучшие результаты показывают итерационные методы, которые используют исходное дерево, построенное по методу НП, чтобы выравнивать данные, перестраивать дерево и повторять так до сходимости.

Бутстреппинг

Наиболее часто используемый тест на надежность топологии филогенетического дерева, при котором рассматриваются выборки данных (колонки выравнивания) и дерево оценивается по большому числу выборок. Процент выборок (то есть репликаций), в которых реконструируется данный узел дерева, называют уровнем поддержки. Статистика бутстреппинга еще не полностью разработана, поэтому пороговые значения для «достаточно высокого» уровня поддержки определяются путем моделирования или эмпирического анализа и могут варьировать в зависимости от целей конкретного исследования (например, значения более 90 процентов, или более 70 процентов; поддержка ниже 50 процентов обычно не считается надежной).

 

Статистические критерии проверки филогенетических гипотез (топологий деревьев)

Для сравнения правдоподобия различных топологий деревьев, выводимых из одного и того же набора данных, разработаны статистические критерии, основанные на различных моделях правдоподобия (самые известные – критерий Кишино – Хасегавы и приблизительно несмещенный критерий).

Когда исследователь интересуется филогенетическим сродством конкретного таксона, соответствующая ветвь переносится в различные положения в дереве, при сохранении топологии остальных ветвей, и правдоподобие каждого из полученных деревьев сравнивается при помощи статистических критериев с правдоподобием исходного дерева, полученного методом НП. Разновидность этого критерия применяется к деревьям с ограничениями, используемым для проверки филогенетических гипотез, таких как монофилия определенной группы (например, архей) в определенном наборе данных. В этом случае сравнивается правдоподобие дерева с ограничениями (монофилия в данном примере) с правдоподобием исходного НП-дерева.

Часто встречающиеся аномалии филогенетического анализа

Ни один филогенетический метод не застрахован от аномалий, которые часто оказывают заметное влияние на топологию дерева. Двумя основными классами филогенетических аномалий являются гомоплазия и притяжение длинных ветвей (ПДВ). Гомоплазия включает в себя параллельные, сходящиеся и обратные мутации, которые филогенетически не информативны и неверно истолковываются филогенетическими методами. ПДВ называется чрезвычайно распространенный случай, когда длинные ветви (быстро эволюционирующие линии) в дереве кластеризуются вместе только потому, что ни одна из них не проявляет сродства к другим группам, а не потому, что они на самом деле образуют монофилетическую группу. Филогенетики также иногда говорят о притяжении коротких ветвей, то есть ошибочной кластеризации коротких ветвей дерева. Разработка новых методов филогенетического анализа в большой степени побуждается необходимостью преодолеть эти аномалии, сохраняя притом вычислительный метод приемлемым с практической точки зрения.

Общие производные признаки

Важным подходом филогенетического анализа, дополняющим традиционные молекулярные филогенетические методы, является анализ общих производных признаков (так называемых синапоморфий), которые могут быть использованы для разграничения монофилетических групп (клад). Синапоморфии суть признаки, объединяющие всех членов монофилетической группы и исключающие все другие виды. В принципе одна достоверная синапоморфия может определять кладу. Однако это верно только в отсутствие гомоплазии, которую невозможно исключить для большинства признаков. Предполагаемые синапоморфии выбираются таким образом, чтобы свести вероятность гомоплазии к минимуму, например уникальные вставки в консервативных генах, в частности вставки мобильных элементов, мутации, которые требуют нескольких нуклеотидных замен, и слияния генов. В филогеномике идет активный поиск подобных редких геномных изменений. Одних синапоморфий часто недостаточно для несомненных филогенетических выводов, но они предоставляют дополнительные свидетельства для филогений, основанных на геномных последовательностях.

Деревья, не основанные на геномных последовательностях

Филогенетические методы пригодны не только для выравнивания гомологичных последовательностей, но и для анализа дистанционных матриц, полученных полногеномным сравнением любого числа других признаков (таких как содержание общих генов или оперонная организация). Например, в случае содержания общих генов расстояние между двумя геномами определяется как Dij = nij/ni, где nij – число генов, общих для двух геномов, а ni – полное число генов в меньшем геноме. Геномные деревья, полученные этим методом, обычно не являются надежными филогениями из-за обширной гомоплазии. Однако эти деревья могут быть информативными для сравнения образа жизни организмов.

Нейтральная теория молекулярной эволюции

Вероятно, важнейшим прорывом в эволюционной биологии после СТЭ стала нейтральная теория молекулярной эволюции. Как правило, ее связывают с именем Мото Кимуры (Kimura, 1983), хотя Джукс и Кинг одновременно и независимо развивали аналогичные идеи. Вначале нейтральная теория развивалась как логическое продолжение популяционно-генетических идей Райта, основанных на важности генетического дрейфа в эволюции. Согласно нейтральной теории, значительное большинство всех фиксируемых в процессе эволюции мутаций являются относительно нейтральными; таким образом, фиксация возникает на основе случайного дрейфа. Следствием этой теории, неоднократно подчеркиваемым Кимурой, является то, что геномная последовательность эволюционирует равномерно, как по часам (в подтверждение исходной гипотезы молекулярных часов Цукеркандля и Полинга), при этом полезные мутации, подверженные естественному отбору, настолько редки, что ими можно с успехом пренебречь в целях количественного описания эволюционного процесса. Естественно, нейтральная теория отнюдь не подразумевает, что естественный отбор не важен для эволюции. На самом деле теория подчеркивает, что доминирующим способом отбора является не дарвиновский позитивный отбор на основе адаптивных мутаций, а отсекающий (очищающий) отбор, который удаляет вредные мутации, в то же время допуская фиксацию нейтральных мутаций путем генетического дрейфа.

Последующие исследования довели эту теорию до более реалистичной формы: чтобы зафиксироваться, мутация должна быть не в буквальном смысле нейтральной, а всего лишь достаточно мало вредной, чтобы избежать немедленного удаления отсекающим отбором. Современная теория «почти нейтральных» мутаций была разработана в первую очередь Томоко Отой (Ohta, 2002). То, какие мутации распознаются как вредные при вычищении отбором, в большой степени зависит от величины популяции: в небольших популяциях в ходе генного дрейфа могут зафиксироваться даже существенно вредные мутации, тогда как в больших популяциях даже малого негативного эффекта будет достаточно для удаления мутантной аллели (см. табл. 1–1).

Главной эмпирической проверкой теории (почти) нейтральных мутаций является измерение постоянства скорости эволюционного процесса в семействах генов. Несмотря на то что зачастую можно наблюдать значительную дисперсию молекулярных часов, такие измерения с уверенностью показывают, что доля нейтральных мутаций среди зафиксированных и в самом деле весьма существенна (Bromham and Penny, 2003; Novichkov et al., 2004). Теория почти нейтральных мутаций является значительным отступлением от селекционистской парадигмы СТЭ, поскольку однозначно утверждает, что большинство мутаций, зафиксированных в ходе эволюции, не подвержены дарвиновскому (позитивному) отбору. Хотя Дарвин и предвидел нейтралистскую парадигму, утверждая, что для целей классификации лучше всего подходят селективно нейтральные характеристики, однако он не развил эту прозорливую идею, и она, таким образом, не стала частью СТЭ.

Важно отметить, что в ходе последующего развития «нейтральной» теории Кимура, Ота и другие осознали, что те мутации, которые были почти нейтральными во время их фиксации, не были в то же время не важными для эволюции. Напротив, такие мутации составили резервуар вариаций (почти нейтральную сеть аллелей), который может использоваться естественным отбором в свете меняющихся условий среды, – феномен, важный как для микро-, так и для макроэволюции (Kimura, 1991). Эта идея стала ключевой для некоторых позднейших открытий в эволюционной теории, мы обсудим ее более детально позднее в этой книге (в частности, в гл. 8 и 9).

Измерение естественного отбора сравнением последовательностей ДНК

Несмотря на всю свою важность, дарвиновский естественный отбор является концепцией, определенной в качественных терминах. В рамках же популяционной генетики и СТЭ отсекающий и положительный отбор оказались более конкретными и математически определенными. В описании СТЭ отбор скорее можно приравнять к силе в классической механике или потоку в классической термодинамике, то есть к феноменологически определяемому количеству. С появлением сравнения последовательностей ДНК стало возможно обнаруживать и измерять отбор в определенных механистических терминах, базируясь на подсчете различных типов замещений нуклеотидов. Для измерения отбора путем сравнения последовательностей используются две очень простые идеи (см. табл. 2–2). Эти два подхода имеют в своей основе очень много общего, поскольку оба определяют два класса сайтов, один из которых принимается в качестве фона нейтральной эволюции. Первый метод заключается в сравнении числа замен нуклеотидов в позициях, важных с точки зрения кодирования аминокислот (несинонимичные позиции), и в позициях, которые, из-за избыточности генетического кода, не имеют значения для кодирования белков (синонимичные замены). Если отношение скоростей несинонимичных и синонимичных замен (Ka/Ks, см. табл. 2–2) значительно ниже 1, то эволюция соответствующего гена в основном определяется отсекающим отбором, направленным на данную последовательность белка; напротив, в случае Ka/Ks > 1 эволюция определяется в основном положительным дарвиновским отбором (см. табл. 2–2). Второй, более точный подход использует так называемый критерий Макдональда – Крейтмана для измерения отбора, при котором соотношение Ka/Ks сравнивается для внутривидовых вариантов (полиморфизмы) и межвидовых вариантов (фиксированные мутации). Поскольку незафиксированные полиморфизмы в основном нейтральны, то межвидовое отношение Ka/Ks должно быть значительно меньше, чем Ka/Ks для полиморфизмов в случае отсекающего отбора, и значительно больше, чем значение для полиморфизмов в случае положительного отбора.

Таблица 2–2. Измерение отбора путем анализа последовательностей белок-кодирующих генов (Hurst, 2002; Li, 1997)

Белок-кодирующие последовательности состоят из двух видов сайтов:

• синонимичные, в которых замены не влияют на последовательность кодируемых аминокислот;

• несинонимичные, в которых замены ведут к заменам аминокислот.

Отношение Ka/Ks (где Ka – частота несинонимичных замен, Ks – синонимичных; обе вычисляются с коррекцией на множественные замены) является количественной мерой отбора, действующего на уровне белковых последовательностей.

Ka/Ks = 1 – нейтральная эволюция белковой последовательности (кодируемый белок не подвергается отбору).

Для большинства белок-кодирующих генов Ka/Ks ≪ 1 – отсекающий отбор.

Для прокариот типично Ka/Ks < 0,1.

Для эукариот типично Ka/Ks ≈ 0,1–0,2.

• Ka/Ks > 1 – положительный отбор; достаточно редко встречается для белок-кодирующих генов, но для некоторых категорий генов, несомненно, наличествует, например для генов, участвующих в антипаразитической защите или в сперматогенезе, а также в вирусных белках, таких как гемагглютинин вируса гриппа.

• Для измерения Ka/Ks для индивидуальных сайтов используют методы наибольшего правдоподобия; большинство белоккодирующих генов содержат несколько сайтов, подверженных положительному отбору.

• Использование Ka/Ks для измерения уровня отбора предполагает нейтральность синонимичных сайтов.

• Однако Ka и Ks положительно коррелируют между собой – таким образом, отбор затрагивает и синонимичные сайты.

• Некодирующие сайты, такие как интронные последовательности, могут использоваться как фон нейтральной эволюции при измерении отбора на синонимичных сайтах (Ks/Ki, где Ki – частота замен для интронных сайтов).

• Критерий Макдональда – Крейтмана (Aquadro, 1997; McDonald and Kreitman, 1991) широко используется для измерения отбора. Он сравнивает внутривидовые вариации (частота полиморфизма, P) с межвидовыми вариациями (дивергенция, D).

• Dn/Ds = Pn/Ps – нейтральная эволюция белковой последовательности.

• Dn/Ds < Pn/Ps – отсекающий отбор.

• Dn/Ds > Pn/Ps – положительный отбор.

Появление таких количественных подходов к анализу отбора примечательно не только благодаря их технической применимости в изучении эволюции: они также являются признаком фундаментальных изменений в способах осмысления отбора биологами. Дарвиновская качественная идея, которая была выражена в абстрактной математической форме Фишером и впервые измерена с использованием генетических методов Добржанским и его учениками, теперь превратилась в прямо измеряемую статистическую характеристику ансамблей нуклеотидных сайтов. Такая трансформация концепции отбора сродни тому, как классическая термодинамика с ее абстрактными потоками превратилась в статистическую физику Больцмана и Гиббса (см. гл. 4).

 
1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41 
Рейтинг@Mail.ru