Научные вычисления

Биоинформатика

В 2021 году произошло нечто беспрецедентное в науке: база данных AlphaFold выросла до 200 миллионов структур белков за один год. За предыдущие 50 лет экспериментальная биология накопила 170 тысяч структур. Соотношение 1000:1. Это не постепенный прогресс - это разрыв. Биоинформатика превратила вычисления в инструмент биологического открытия.

**AlphaFold2 (DeepMind)** предсказал структуры 200 миллионов белков с точностью, сопоставимой с экспериментом, открыв новую эпоху структурной биологии.
**BLAST** обрабатывает 50 тысяч геномных запросов в минуту - диагностика инфекционных заболеваний, ГМО-тестирование, криминалистика работают через этот алгоритм.
**Phylogenomics** реконструировала дерево жизни из 10 000 геномов в 2020 году, разрешив вопрос о месте архей в эволюции - спор, длившийся 30 лет.

Выравнивание последовательностей

В 1976 году Маргарет Дэйхофф построила первое филогенетическое дерево белков - вручную, сравнивая аминокислотные последовательности. Сегодня BLAST обрабатывает 50 тысяч запросов в минуту к базе данных из 250 миллиардов нуклеотидов. В основе - алгоритм Нидлмана-Вунша (1970) для глобального выравнивания и Смита-Уотермана (1981) для локального. Оба - классический пример динамического программирования. Выравнивание двух последовательностей длиной n: O(n^2) времени и памяти. Для трёх последовательностей - O(n^3). BLAST ускоряет это через эвристику: сначала ищет короткие точные совпадения (seeds), потом расширяет. Точность - не 100%, скорость - на порядки выше точных методов. Именно поэтому 97% геномных анализов в мире используют BLAST или BWA, а не точные алгоритмы.

Нидлман-Вунш: dp[i][j] = max(dp[i-1][j-1] + score(a_i, b_j), dp[i-1][j] + gap, dp[i][j-1] + gap). Матрица замен BLOSUM62 отражает эволюционно наблюдаемые частоты аминокислотных замен. E-value в BLAST: ожидаемое число случайных выравниваний с таким score или лучше. E < 0.001 - достоверно значимо. CIGAR строка: '3M1I2M' = 3 match, 1 insertion, 2 match.

Почему BLAST использует эвристику поиска seeds вместо точного алгоритма Смита-Уотермана?

Филогенетика

Как доказать, что человек и шимпанзе имеют общего предка 6 миллионов лет назад? Через DNA: 98.8% генома идентично. Филогенетика строит деревья эволюционного родства из выравниваний последовательностей. Метод максимального правдоподобия (ML) - золотой стандарт: перебирает деревья, оценивая вероятность наблюдаемых данных при каждой топологии. Байесовская филогенетика (MrBayes, Beast) использует MCMC для апостериорного распределения деревьев - так получают не одно дерево, а распределение правдоподобных деревьев с оценкой неопределённости. В 2020 году FiloGenies реконструировала дерево жизни из 10 000 геномов - 3 петабайта данных, 10 месяцев CPU-времени. Результат: окончательное разрешение места архей в дереве жизни.

UPGMA (Unweighted Pair Group Method with Arithmetic mean) - кластерный метод по матрице расстояний, O(n^2), предполагает молекулярные часы. Neighbor-Joining - быстрее, не предполагает молекулярных часов, O(n^3). ML с IQ-TREE - точный, медленный. Bootstrap (100-1000 повторений): оценка надёжности ветвей. Значение > 70% считается надёжным.

Зачем метод максимального правдоподобия (ML) лучше UPGMA для построения филогенетических деревьев?

Сворачивание белков

Анфинсен в 1961 году показал: последовательность аминокислот полностью определяет трёхмерную структуру белка. Следствие: структуру можно предсказать из последовательности. Но «проблема сворачивания» оставалась нерешённой 60 лет. Пространство конформаций белка из 100 аминокислот - 10^47 вариантов (число Левинталя). Белок находит правильную структуру за микросекунды - значит, не перебором. Перебор невозможен даже физически. CASP (Critical Assessment of protein Structure Prediction) - двухлетнее соревнование, начавшееся в 1994 году. До 2020 года лучшие методы давали TM-score ~0.5 (половина структуры правильно). AlphaFold2 в 2020 году набрал TM-score > 0.9 - революция.

Energy function для сворачивания: E = E_bonded + E_vdW + E_electrostatic + E_solvation + E_hydrogen_bonds. Rosetta (UW): Monte Carlo + energy minimization. Coevolution сигнал: контакт между остатками i и j виден как корреляция мутаций в выравнивании - DCA (Direct Coupling Analysis). AlphaFold2 использует и MSA (множественное выравнивание), и попарные расстояния между остатками.

Что такое проблема Левинталя и как AlphaFold2 её обходит?

AlphaFold и структурная биоинформатика

14 июля 2021 года DeepMind выложила структуры 350 000 белков - треть всего человеческого протеома - предсказанные AlphaFold2. К 2022 году база данных выросла до 200 миллионов структур - практически все известные белковые последовательности. За 50 лет рентгеновская кристаллография и криоэлектронная микроскопия дали 170 000 структур в PDB. AlphaFold дал 200 миллионов за год. Это не просто быстрее - это другой масштаб. Но AlphaFold не заменяет эксперимент: он не предсказывает динамику, конформационные переходы, взаимодействия с лигандами в точности сопоставимой с экспериментом. AlphaFold-Multimer предсказывает комплексы белков, AlphaFold3 расширился на ДНК, РНК и малые молекулы.

AlphaFold2 архитектура: Evoformer (трансформер над MSA + попарными признаками) -> Structure Module (рамки для каждого остатка, инвариантные к вращению/трансляции). pLDDT score (0-100): уверенность предсказания на уровне остатка. PAE (Predicted Aligned Error): уверенность в относительном положении пар остатков - используется для оценки доменных интерфейсов.

AlphaFold решил проблему сворачивания белков - теперь структурная биология не нужна

AlphaFold предсказывает статическую структуру в равновесии. Эксперимент незаменим для: динамики и конформационных изменений, точного положения лигандов, посттрансляционных модификаций, новых сложных сборок

Многие биологические функции зависят от движения: аллостерические переходы, связывание субстрата, открытие/закрытие ионных каналов. AlphaFold не моделирует это. AlphaFold3 улучшает предсказание комплексов с малыми молекулами, но всё ещё не заменяет криоэМ для нативных структур в физиологических условиях.

Что означает pLDDT score в предсказаниях AlphaFold и как его использовать при интерпретации результатов?

Ключевые идеи

**Нидлман-Вунш и Смита-Уотерман** - динамическое программирование O(n^2) для точного выравнивания. BLAST ускоряет до практического времени через seeds-эвристику ценой небольшой потери чувствительности.
**ML-филогенетика** превосходит UPGMA: явная модель замен и отсутствие предположения о молекулярных часах даёт реалистичные деревья для реальных данных.
**Проблема Левинталя** - не вопрос скорости, а вопрос стратегии: 10^47 конформаций невозможно перебрать; нейросетевые методы учат статистические паттерны вместо симуляции физики.
**pLDDT AlphaFold** - встроенная мера уверенности, используемая без экспериментальных данных; значения < 50 указывают на IDR (intrinsically disordered regions), а не на ошибку.

Связанные темы

Биоинформатика пересекается с вычислительной физикой и машинным обучением:

Вычислительная физика — МД симуляции белков - мост между физикой и биоинформатикой: атомные потенциалы и численные интеграторы из физики, интерпретация из биологии
Deep Learning — AlphaFold2, ESMFold, RoseTTAFold - все используют трансформеры и вариационные методы из deep learning для предсказания структуры

Вопросы для размышления

Почему E-value в BLAST важнее raw score при оценке значимости выравнивания в базе данных?
Как bootstrap в филогенетике оценивает неопределённость дерева и почему это важнее, чем просто одно наилучшее дерево?
AlphaFold3 предсказывает комплексы белков с ДНК и малыми молекулами. Какие задачи в разработке лекарств это открывает и что по-прежнему требует эксперимента?

Связанные уроки

stat-01-sampling

Выравнивание последовательностей

Почему BLAST использует эвристику поиска seeds вместо точного алгоритма Смита-Уотермана?

Филогенетика

Зачем метод максимального правдоподобия (ML) лучше UPGMA для построения филогенетических деревьев?

Сворачивание белков

Что такое проблема Левинталя и как AlphaFold2 её обходит?

AlphaFold и структурная биоинформатика

AlphaFold решил проблему сворачивания белков - теперь структурная биология не нужна

Что означает pLDDT score в предсказаниях AlphaFold и как его использовать при интерпретации результатов?

Ключевые идеи

**Нидлман-Вунш и Смита-Уотерман** - динамическое программирование O(n^2) для точного выравнивания. BLAST ускоряет до практического времени через seeds-эвристику ценой небольшой потери чувствительности.

**ML-филогенетика** превосходит UPGMA: явная модель замен и отсутствие предположения о молекулярных часах даёт реалистичные деревья для реальных данных.

**Проблема Левинталя** - не вопрос скорости, а вопрос стратегии: 10^47 конформаций невозможно перебрать; нейросетевые методы учат статистические паттерны вместо симуляции физики.

**pLDDT AlphaFold** - встроенная мера уверенности, используемая без экспериментальных данных; значения < 50 указывают на IDR (intrinsically disordered regions), а не на ошибку.