«Искусство Картографии достигло у них в Империи такого совершенства, что Карта одной-единственной Провинции занимала целый Город, а карта Империи – целую Провинцию. Со временем эти Несоразмерные Карты нашли неудовлетворительными, и Коллегия Картографов создала Карту Империи, которая была форматом в Империю и совпадала с ней до единой точки».
Чтобы создать виртуальную версию тела, первым делом нужно собрать достаточно личных данных. Существует множество потенциальных источников для получения этих данных: ультразвуковое сканирование сердца и других внутренних органов или визуализация всего тела с использованием рентгеновских лучей или магнитно-резонансной томографии (МРТ). Вы можете использовать различные – омы, будь то детальная последовательность ДНК (геном), химические детали вашего метаболизма (метаболом) или весь набор белков (протеом). Ваши личные данные могут включать в себя и незнакомые характеристики (такие как особая форма важного фермента), и более рутинные измерения (например, артериальное давление), а также «цифровые биомаркеры», которые можно собирать с помощью носимого устройства, будь то телефон, часы или рубашка из «умного» текстиля, контролирующего потоотделение[33]. Способы можно перечислять почти бесконечно.
Но сколько и какие именно данные нам нужны? Один из ответов можно найти в рассказе аргентинского эссеиста Хорхе Луиса Борхеса, процитированном выше. В этом кратчайшем из рассказов Борхес рисует в воображении время, когда наука картографии стала настолько точной, что достаточной считалась только карта того же масштаба, что и сама империя. Пусть в эпоху интернета подробнейшие карты и могут уместиться на экране смартфона, действительно ли нам необходимо дублировать на них каждый камешек в асфальтовом покрытии, чтобы не разбиться на дороге?
В какой степени науке необходимо представить человеческое тело, чтобы понять его? Когда дело доходит до создания виртуального человека, должны ли мы, как Суарес Миранда, фиксировать все 7 000 000 000 000 000 000 000 000 000 (7 октиллионов) атомов в теле, не говоря уже обо всех деталях еще большего скопления простых частиц – вращающихся протонов, нейтронов и электронов, – которые составляют каждый из атомов? Решая, сколько данных нам нужно, чтобы сделать первый шаг к созданию цифрового двойника, сможем ли мы не утонуть в данных, избежать проклятия гильдии картографов?
Есть и другие вопросы, которые следует рассмотреть. Мы ищем данные, которые можно измерить где угодно, с использованием одного оборудования, в одинаковых условиях и по одним и тем же протоколам. Даже разные люди, использующие разное оборудование, должны прийти к схожим результатам в одинаковых условиях[34]. Нам необходимо собирать эти данные эффективным и современным способом: науку всегда подстегивает разработка новых инструментов, таких как микроскопы, секвенаторы и сканеры. Существуют также проблемы с курированием, хранением и защитой данных. И, конечно же, возникают практические вопросы по обработке всех этих данных: даже самый мощный компьютер, который появится в ближайшие десятилетия, не сможет смоделировать молекулярный уровень человеческого тела, который, по оценкам, состоит из примерно от 20 000 000 000 000 000 000 000 000 до 1 000 000 000 000 000 000 000 000 000 молекул.
Интуитивно кажется разумным предположить, что, чтобы создать виртуальную версию, нам нужно знать о вас все, что только можно. Но измерить состояние всех молекулярных ингредиентов (не говоря уже обо всех составляющих вас атомах) – непростая задача. Сколько же данных будет достаточно? Хватит ли знания, что ваше тело состоит примерно из 20 000 генов? Или что в нем трудится замечательный коллектив из 37,2 триллиона клеток[35]? Или что ваш мозг весит 3 фунта и требует около 20 Вт энергии? Или что молекулы в вашем теле представляют собой различные смеси из примерно 60 атомов разных видов (элементов), включая 25 г магния, содержащегося в костях и мышцах, 1,6 мг кобальта, содержащегося в витамине B12, 4 мг селена и 96 г хлора[36]? Или что нужно около 1011 бит (100 000 000 000 бит), чтобы выразить сканирование вашего тела длиной до 1 мм? Или что понадобится 1032 бит (единица, за которой следуют 32 нуля) информации, чтобы описать ваше тело с атомарным разрешением?
Данные не равнозначны. Особенно показательные данные включают «эмерджентные» свойства, которые отражают коллективное поведение большого числа микроскопических составляющих, где сумма качественно отличается от поведения частей. Свою первую книгу мы начали с австрийского физика Людвига Больцмана (1844–1906), продемонстрировавшего, как свойства жидкостей и газов возникают из поведения составляющих их молекул, что помогло открыть область, которую сегодня называют статистической механикой. Питер Слоот, который работает с Питером в Амстердамском университете, описывает эмерджентность с точки зрения взаимодействующих элементов, адаптирующихся к среде, которую сами помогают создать[37]. Пол Нерс определяет эмерджентность как взаимодополняемость: высокие уровни биологического описания (например, уровень клетки) ограничивают события, которые происходят на низких уровнях (например, среди молекул жизни). «В результате, – сказал он нам, – вы никогда не сможете построить жизнь просто снизу вверх»[38].
Из множества примеров в биологии, где целое больше суммы частей, наиболее яркими являются сама жизнь и сознание. Хотя мозг может быть счастливым, его нейроны не ограничены эмоциями. Точно так же бактерия жива, а составляющие ее молекулы – нет. Даже если бы мы знали все молекулярные детали организма, вплоть до последнего атома, мы не могли бы сказать, что это и есть рецепт живого существа.
Следствием эмерджентности является то, что переносить знание обо всем с одного уровня описания (октиллионы атомов, составляющих тело) на другой (например, одна клетка) – непрактично, не нужно и все равно недостаточно. И если бы мы попытались смоделировать движения сердца, начав с атомного уровня, мы бы обнаружили, что моделирование может занять целую вечность, даже с использованием самых мощных компьютеров. Нет смысла создавать идеальную – в редукционистском смысле – модель сердца вплоть до последнего атома, если одно виртуальное сердцебиение этой модели занимает тысячелетия.
Наука о сложности также говорит нам, что видеть каждую деталь не нужно[39]. Мы интуитивно знаем это, потому что медицина иногда концентрируется на элементарных вопросах, таких как уровень натрия или железа, но диагностика обычно фокусируется на высоких уровнях описания: от рентгена костей до артериального давления и частоты сердечных сокращений. Чтобы понять науку о человеке, нам нужно гораздо меньшее количество данных с низких (то есть наименьших) уровней, чем кажется. Более того, сосредоточив внимание на каждом листике, ветке и дереве, мы легко можем упустить лес.
Хотя наши знания о том, как работает человеческое тело, зависят от понимания его составных частей, очень важно осознавать, как все эти части работают вместе, если мы хотим ухватить его эмерджентные свойства. Даже если мы поймем роль ДНК в клетке (в настоящее время мы понимаем лишь небольшую часть ее функций) и функцию этой клетки в органе, это не означает, что мы сможем выяснить физиологию организма, поскольку на каждую клетку влияет активность клеток других тканей, органов и систем органов. Когда речь идет о патогенах, таких как вирусы, нам также необходимо понимать их перемещение между организмами, как при пандемии. А еще есть способы, которыми организмы взаимодействуют друг с другом, будь то вирус в хозяине, человек в деревне или избирательный округ в обществе, которое само по себе является огромным субъектом. Роджер Хайфилд является соавтором целой книги Supercooperators о том, как и почему люди являются видом, наиболее склонным к сотрудничеству[40].
И даже если не брать это в расчет, на все уровни организации влияют окружающая среда, диета и образ жизни: воздействие солнечного света, стресс, фастфуд и физические упражнения. С самых первых дней моделирования физиологии человека мы обнаружили доказательства «нисходящей причинности», то есть того, как воздействие на высокие уровни организации тела может изменить способ использования генов в клетках. Мы можем быть носителями генов, повышающих риск развития диабета 2-го типа, но если мы соблюдаем здоровую диету и достаточно занимаемся спортом, болезнь может не развиться. Точно так же кто-то может нести гены, которые снижают риск развития рака легких, но постоянное курение все равно имеет катастрофические последствия. Биология человека – это больше чем просто сумма природы и воспитания.
Появление новых организованных атрибутов и структур из взаимодействующей системы клеток, тканей и органов в данной среде – светлая сторона теории сложности. Однако существует и темная сторона в форме так называемого динамического хаоса. Он накладывает еще одно ограничение на то, в какой степени мы можем превратить данные о человеческом теле в его понимание.
Динамический хаос – не то же самое, что случайность. На самом деле это тонкая форма порядка, освобожденная от оков периодичности и предсказуемости. Хаос может возникнуть из обманчиво простых на вид уравнений, содержащих ключевой ингредиент – нелинейность, когда изменение результата не пропорционально изменению входных данных. Примеров нелинейности предостаточно: от скачка температуры, вызывающего отключение котла, до воя, возникающего, когда микрофон подносится слишком близко к источнику звука. Нелинейность может привести к хаосу, когда точное поведение невозможно предсказать в долгосрочной перспективе.
Хаос является обычным явлением: от непредсказуемых колебаний маятника до капризов погоды[41]. Хаос таится и внутри тела. Проблема динамического хаоса заключается в том, что, если вы не вводите данные с бесконечной точностью (что невозможно), эти сложные нелинейные взаимодействия делают невозможными точные долгосрочные прогнозы. Таким образом, хотя вам не обязательно знать все о теле, чтобы его смоделировать, когда нам придется формулировать прогнозы с точки зрения вероятностей, небольшие изменения в данных могут привести к большим, непредсказуемым результатам.
Чтобы определить, в какой степени мы хотим охватить всю сложность человеческого тела и сделать первый шаг к виртуальному двойнику, нам нужно думать о данных как об инструменте, а не о репрезентации. По той же причине карты различаются в деталях в зависимости от цели их применения: путешественнику необходимо видеть каждое поле и тропинку, а пилоту самолета нужна карта местности, аэропортов, воздушных пространств и маяков. Точно так же уровень детализации, который нам необходим, чтобы сделать первый шаг к созданию виртуального человека, зависит от того, какие задачи мы хотим решить.
Простого измерения, например, температуры может быть достаточно, чтобы выяснить, подхватил ли ребенок инфекцию. Но у пожилых людей нам могут потребоваться более подробные данные о том, как они реагируют на инфекцию, чтобы понять, что происходит. Например, когда речь идет о серьезной инфекции мочевыводящих путей, первым признаком проблемы может быть спутанность сознания, а не повышение температуры. И если нужно понять, какая инфекция вызывает проблему, требуются дополнительные данные, такие как генетический состав инфицирующего организма.
Данные действительно полезны, когда основаны на научном методе – самом мощном способе обеспечить рациональное понимание того, как работает организм. Он опирается на теорию; в противном случае наука была бы не более чем каталогизацией воспроизводимых наблюдений. Как мы упоминали во введении, уравнения типичной теории представляют работу природы более экономично, чем огромные хранилища необработанных данных. Теория помогает нам раскрыть принципы и законы, которые объясняют, как и почему тело работает именно так. Нам еще предстоит сказать об этом в следующей главе, где мы обсудим второй шаг к виртуальному человеку. Однако прежде всего необходимо найти способы сбора данных из тела.
«Так многое в прогрессе зависит от взаимодействия методов, открытий и новых идей, вероятно, именно в таком нисходящем порядке». Когда лауреат Нобелевской премии Сидней Бреннер сделал это замечание в марте 1980 г. на симпозиуме, организованном Институтом Фридриха Мишера в Базеле, Швейцария, он с нетерпением ждал следующего десятилетия в биологии[42]. Как предсказывал Бреннер, развитие виртуального человека было обусловлено новыми технологиями и продолжает зависеть от большего количества новых данных. Когда дело доходит до структур тела, целый ряд методов раскрывает беспрецедентные детали.
Рисунок 4. Портрет Везалия из его книги De Humani Corporis Fabrica (1543) (автор Ян ван Калькар)
Перечислять их можно бесконечно, за века появилось множество замечательных способов рассмотрения тела. Одним из примеров является публикация в 1543 г. De Humani Corporis Fabrica («О строении человеческого тела») Андреаса Везалия – выдающегося 700-страничного труда (1514–1564), в котором представлено более 200 гравюр на дереве, основанных на вскрытиях человеческого тела.
Чтобы расширить знания о диссекции и традиционной анатомии, был разработан широкий спектр методов. «Микрография», первая важная работа по микроскопии, была опубликована в 1665 г. В этом новаторском научном бестселлере Роберт Гук (1635–1703) раскрыл микроскопическую структуру пробки. Он показал стенки, окружающие пустые пространства, и назвал эти структуры клетками. Сегодня с помощью технологий микроскопии можно рассмотреть детали клеток вплоть до атомного масштаба[43].
Нам больше не нужно изучать тело только с помощью видимого света. В 1895 г. немецкий физик Вильгельм Рентген (1845–1923) открыл невидимый вид лучей, названный рентгеновским излучением или рентгеновскими лучами. В то Рождество он написал 10-страничную статью, в которой описал, как рентгеновские лучи могут сделать кости видимыми. Эти раскрывающие лучи также позволят изучить молекулярный механизм клеток с помощью метода, называемого дифракцией рентгеновских лучей. Сегодня существует множество других методов, позволяющих заглянуть внутрь живого тела: от терагерцового излучения до ультразвука. Мы даже можем использовать антивещество в виде позитронов (антиэлектронов) для изучения метаболизма.
В организме есть электрическая система, и о ней тоже нам нужны данные. В то время как по проводам электричество движется со скоростью около 1 мм/с (хотя связанная с ним электромагнитная волна распространяется примерно со скоростью света, 300 000 км/с), сигналы в нашем теле движутся со скоростью 0,08 км/с, или около 290 км/ч. Внутри нас электричество переносится более крупными и сложными ионами, а не проворными электронами (заряженными субатомными частицами), которые питают наши дома.
Исследования того, как импульсы распространяются по нервам, восходят к разработке метода «зажима напряжения» в 1930-х и 1940-х гг. биофизиком Кеннетом Коулом (1900–1984) из США вместе с Аланом Ходжкином (1914–1998) и Эндрю Хаксли (1917–2012) из Великобритании, которые нашли способ проводить измерения, продевая электроды в гигантский аксон – нервную клетку – кальмара.
Рисунок 5. Клеточная структура пробки, представленная Робертом Гуком, «Микрография» (1665)
Еще лучшее понимание «проводки» тела стало возможным благодаря технике, которая позволяет регистрировать мизерные электрические токи силой около пикоампера (миллионная миллионной доли ампера), которые проходят через одиночный ионный канал, одну молекулу или комплекс молекул, позволяющий ионам проникать через мембрану клетки. В 1976 г. немецкие клеточные физиологи Эрвин Неер и Берт Закман сообщили, как это сделать с помощью крошечного, но простого устройства, называемого локально-изолирующим электродом.
Они использовали кончик чрезвычайно тонкой стеклянной пипетки, чтобы прикоснуться к крошечному участку внешней мембраны клетки, который, по счастливой случайности, содержал единственный ионный канал. Небольшое всасывание обеспечивало герметичное уплотнение, так что ионы могли течь только из канала в пипетку. Используя чувствительный электрод, они смогли зафиксировать крошечные изменения тока, когда ионы проходили через зажатый канал. За это замечательное открытие в 1991 г. Неер и Закман получили Нобелевскую премию.
Но данные, которые привлекли наибольшее внимание в последние годы, связаны с чтением генетического кода человека. За это мы можем поблагодарить британца Фредерика Сэнгера (1918–2013), одного из величайших новаторов в молекулярной биологии: «Из трех основных видов деятельности, связанных с научными исследованиями – мышлением, разговорами и действиями, я предпочитаю последний и, вероятно, именно он у меня лучше всего получается»[44]. Он был прав. Став первым, кто раскрыл структуру белка (это оказался инсулин), Сэнгер в середине 1970-х разработал методы секвенирования ДНК, за что во второй раз стал лауреатом Нобелевской премии.
Со времени новаторской работы Сэнгера стоимость секвенирования человеческого генома (генетического кода в ДНК человека) резко упала – с миллиардов долларов до сотен. Одной из причин является появление секвенирования «следующего поколения» – прорыва, который сравнивают с переходом от самолета братьев Райт к современному Боингу.
В 1997 г. химики Кембриджского университета Шанкар Баласубраманиан и Дэвид Кленерман начали разрабатывать свой метод, согласно которому образец ДНК делится на фрагменты, которые иммобилизуются на поверхности чипа и локально амплифицируются. Затем каждый фрагмент декодируется, вплоть до «буквы» генетического кода (нуклеотида – подробнее позже), с использованием флуоресцентно окрашенных букв, добавленных ферментом. Обнаружив цветные буквы, включенные в каждую позицию чипа, и повторив этот цикл сотни раз, можно прочитать последовательность каждого фрагмента ДНК[45].
Рисунок 6. Метод локальной фиксации потенциала. Адаптировано из книги Александра Д. Рейеса «Прорывной метод, который стал жизненно важным для нейробиологии» (A Breakthrough Method that Became Vital to neuroscience). (Nature, 2019)
Еще одно достижение в области секвенирования нового поколения относится к 1970-м гг., когда Стив Хладки и Денис Хейдон из Кембриджа зафиксировали поток тока через одиночный ионный канал в искусственной мембране. Поскольку ДНК является заряженной молекулой, она также может пройти через этот открытый канал и при прохождении вызывает колебания тока, соответствующие генетической последовательности. Последующее развитие коммерческого «нанопорового секвенирования» компанией Oxford Nanopore Technologies (в частности, ее основателем Хэганом Бэйли) можно проследить до исследований 1980-х гг., когда впервые было обнаружено движение ДНК через поровые белки[46].
Используя новую технологию секвенирования, можно считывать значительно более длинные участки ДНК, чем ранее, поэтому в 2021 г. международная группа из 30 учреждений – Консорциум Telomere-to-Telomere (T2T) – опубликовала первый «длинно читаемый» геном[47]. Это было важное открытие, поскольку исторический проект последовательностей человеческой ДНК, опубликованный в июне 2000 г., пропускал целых 15 % генома: более ранние технологии секвенирования параллельно считывали код миллионов фрагментов ДНК, каждый из которых был относительно небольшим и содержал до 300 букв кода. В результате они не могли справиться с повторяющимися участками кода ДНК, скрывающимися в геноме, особенно с центромерами – защемленными частями хромосом, которые играют ключевую роль в делении клеток. Сквозная последовательность 2021 г., основанная на длинном чтении от 10 000 до 100 000 букв, выявила 115 новых генов, кодирующих белки, и, вероятно, содержит множество областей, которые играют роль в регуляции генов и других функциях.
Рисунок 7. Как ДНК, проходящая через канал нанопоры, генерирует сигнал (дизайн – Ёритака Харазоно. TogoTV. cc BY 4.0)
Два десятилетия назад, когда на горизонте появились детали всего генетического кода человека, вопрос о том, какие данные необходимы для определения человеческого существа, имел соблазнительно простой ответ. Детали сложной структуры тела, казалось, заключены в ДНК – самом известном биологическом носителе информации. В начале этого столетия общественность была убеждена, что понимание кода ознаменует эру персонализированной медицины.
Биологи знали, что человеческий геном является чрезвычайно важным ресурсом, и в этом не может быть никаких сомнений. Копия находится в каждой из ста триллионов ваших клеток (за исключением красных кровяных клеток – они разрушают свою ДНК, чтобы переносить как можно больше кислорода, оставаясь при этом достаточно маленькими, чтобы проходить через капилляры). Подобно томам вашей «библиотеки», ДНК упакована в коробки, известные как хромосомы. Обычно в клетках человека имеется 46 хромосом. Если взять самую большую хромосому (вторую), то ДНК, содержащаяся в ней, в развернутом виде будет иметь размер более 8 сантиметров[48].
Используя рентгеновские лучи для изучения скрученной спиральной ДНК в каждом из этих пучков, можно понять, как она передает данные. Внутри двойной спирали ДНК находится лестница закодированной информации, где каждая «ступенька» состоит из двух химических единиц, называемых нуклеотидными основаниями. Эти единицы бывают четырех типов: аденин А, тимин Т, гуанин G и цитозин С. Из-за своей формы и химических свойств основания всегда образуют пары внутри ступени одинаковым образом: C соединяется только с G, а A соединяется только с T. В наших 46 хромосомах шесть миллиардов таких букв.
Вот почему двойная спираль также хранит секрет того, как клетки могут передавать свои инструкции после деления: если разделить нити двойной спирали, ступеньки лестницы разделятся на взаимодополняющие основания. Каждая полученная цепь может действовать как шаблон для копирования исходной партнерской цепи и сохранять информацию о том, как создавать белки, которые строят тело и управляют им (с помощью множества механизмов коррекции клеточных ошибок).
Порядок, в котором появляются основания, описывает код жизни аналогично буквам в этом предложении, только сообщения, которые они несут, содержат инструкции по созданию белка – одного из строительных блоков клеток – посредством вмешательства родственной генетической молекулы, называемой РНК. Информация в генах записана в трехбуквенном коде, причем тройка букв ДНК – кодон – отвечает за определенную аминокислоту, которая при соединении с цепочкой других аминокислот сворачивается в белок – один из блоков, которые строят ваши клетки и управляют ими.
Несмотря на то, что существует всего 20 различных аминокислот, для создания вас клетки вашего тела используют огромное количество комбинаций из таких разных белков, как гемоглобин (красный пигмент, который переносит кислород в вашей крови), инсулин (сигнальная молекула, которая сыграла главную роль в Нобелевской премии Сэнгера), или фермент АТФ-синтаза (преобразующая энергию молекулярная машина, примерно в 200 000 раз меньше булавочной головки, вращающаяся со скоростью 60 раз в секунду, производя энергетическую валюту нашего тела – молекулу под названием АТФ).
Всего, как говорилось ранее, в организме насчитывается около 37,2 триллиона клеток, и, хотя они (за парой исключений, таких как эритроциты по ранее упомянутым причинам) содержат всю информацию ДНК человека, каждый вид клетки во взрослом организме зависит от использования только определенного подмножества генов в геноме. Таким образом, клетки могут специализироваться на одном типе: от нервных и мышечных до клеток, населяющих органы, например мозг и сердце. Неудивительно, что многие думают, будто человеческий геном содержит все ответы, когда дело касается биологии человека.
Первым человеком, который узнал о своих собственных генетических данных – и их ограничениях – был пионер геномики и предприниматель Крейг Вентер[49], который в 2000 г. возглавил частную попытку создать первый черновой вариант последовательности генома человека. 4 сентября 2007 г. группа под руководством Сэма Леви из Института Дж. Крейга Вентера в Роквилле, штат Мэриленд, завершила чтение генетического кода Вентера, что ознаменовало публикацию первого полного (шесть миллиардов букв) генома отдельного человека[50].
Роджер редактировал автобиографию Вентера «Расшифрованная жизнь»[51] и помнит, что даже Вентер был удивлен тем, как мало его геном смог раскрыть. В то время никто не знал, как правильно читать геномы. Это одна из причин, почему в более позднем проекте под названием Human Longevity Inc. (HLI) Вентер, как и Лерой Худ и другие, не только собрал геномную информацию, но и связал ее с фенотипами: анатомией, физиологией и поведением пациентов, от когнитивных онлайн-тестов до эхокардиограммы и анализа походки[52].
С помощью HLI скрининг выявил широкий набор дополнительных рисков возрастных хронических заболеваний, связанных с преждевременной смертностью, и улучшил интерпретацию полногеномного анализа[53]. «В клинике мы каждый день спасаем жизнь по крайней мере одному человеку, обнаруживая серьезную опухоль, о которой он даже не подозревал», – сказал нам Вентер, приводя несколько убедительных, но анекдотических примеров. В его случае, когда обычные методы объявили его свободным от рака, скрининг HLI выявил рак простаты, который начал распространяться. У нобелевского лауреата Хэма Смита, давнего сотрудника Вентера, обнаружили серьезную опухоль легких. Эти своевременные диагнозы были поставлены не на основе генетики, а с помощью мощного МРТ-сканера мощностью 3 Тесла (примерно в 60 000 раз сильнее, чем магнитное поле Земли) с расширенным анализом изображений. Вентер рассказал нам, что в этом сканере «опухоли загораются, как лампочки»[54].
Фенотип (то есть наблюдаемые черты и характеристики тела, от цвета глаз до рака) очень далек от генотипа или генетического рецепта тела. Думать, что единственный вид данных, обнаруженный в геноме, может раскрыть суть человека, – все равно, что пытаться определить внешний вид, вкус и ощущение торта по рецепту. Некоторые вещи – фрукты и смородина – сразу понятны, но многие другие гораздо менее очевидны.
Хотя секвенирование человеческого генома ознаменовало конец почти столетних усилий по поиску генов, кодирующих белки, оно подчеркнуло, как мало мы знаем о регуляторных элементах, не кодирующих белки, но составляющих геном[55]. Из трех миллиардов букв ДНК в геноме человека только около 2 % кодируют белки, которые строят и поддерживают наше тело. Хотя последние два десятилетия стали золотым веком открытия генов, около 20 % человеческих генов с жизненно важными функциями остаются окутанными тайной (согласно исследованию неизвестного генома, проведенному Шоном Манро из Лаборатории молекулярной биологии в Кембридже и Мэтью Фриманом из Школы патологии Данна Оксфордского университета)[56]. Нам предстоит еще много работы, помимо понимания генов. Когда-то интроны были среди огромных участков человеческой ДНК (около 98 %), отбрасываемых, как бессмысленный мусор. Теперь мы знаем, что эти некодирующие области генома содержат важные регуляторные элементы, которые определяют, как контролируется экспрессия генов, но всего мы по-прежнему не понимаем[57].
Также огромный всплеск интереса к использованию генов в организме произошел в области, называемой эпигенетикой. Деление клеток на разные типы связано с особенностями экспрессии генов, а не с изменениями в самой ДНК. Питательная среда начинается с хромосомы – пучка ДНК в наших клетках. Хромосомы четко организованы, как и белки, которые с ними взаимодействуют, и эта организация, по-видимому, важна для использования генов[58]. Паттерны использования генов могут быть основаны на химических модификациях ДНК (например, украсив ген химическими фрагментами, называемыми метильными группами, вы его выключите), а также на гистонах – крошечных белках, которые прикрепляются к ДНК, как бусины на ожерелье, и играют роль в упаковке ДНК и регулировании способа активации генов. В результате связь между генотипом и фенотипом не является прямой.
Истории ДНК могут быть запутанными. Традиционные генетические исследования искали вариант ДНК, связанный с определенным заболеванием. Иногда все просто: мутации в гене, ответственном за фактор свертывания крови, вызывают наследственное заболевание – гемофилию, которую иногда называют королевской болезнью, поскольку она широко распространена в европейских королевских семьях.
Однако зачастую эти корреляции рассказывают сложную историю. Когда дело доходит до распространенных заболеваний головного мозга, таких как шизофрения и болезнь Альцгеймера, огромный объем информации поступает в результате полногеномного поиска ассоциаций (GWAS), в котором исследователи стремятся сравнить генетические последовательности тысяч людей с определенным признаком. Хорошей новостью является то, что сотни геномных регионов могут быть связаны с риском развития заболевания головного мозга у человека. Но иногда это триумф данных над пониманием. Объяснение того, почему спектр генетических вариантов влияет на здоровье, остается сложной задачей[59]. Даже если мы действительно связываем варианты с заболеванием, исследования диабета, например, показали, что на генетику приходится только около 10 % различий, наблюдаемых при заболевании, а остальное зависит от образа жизни и питания[60].
Сопоставление данных о генотипе с фенотипом осложняется тем фактом, что количество наших генов значительно превосходит количество белков. Гены можно перетасовать и использовать разными способами. Способность каждого гена кодировать множество белков обусловлена процессом, известным как альтернативный сплайсинг, при котором биты кода, называемые интронами, соединяются, а оставшиеся части гена, известные как экзоны, при создании белка могут включаться или бездействовать. Теоретически из одного гена можно получить до 100 белков[61].
Даже при кодировании участков ДНК не существует прямого соответствия между линейным кодом ДНК и трехмерной формой белков в организме, что имеет решающее значение для их работы – например, для ускорения клеточной химической реакции. Для белка, содержащего всего 100 аминокислот, число альтернативных структур, которые он может принять в водной среде клетки, колеблется где-то между 2100 и 10100 возможных конформаций (форм). Изучение каждой из них заняло бы вечность, но этот одномерный код приобретает правильную трехмерную форму (что имеет решающее значение для его работы) с помощью различных видов поддержки.
Одним из способов принятия правильной формы является непрерывное движение молекул в клетках, вызванное тепловой энергией. Многие из жизненно важных компонентов живой клетки достаточно малы, чтобы подвергаться постоянным ударам моря окружающих молекул (броуновское движение), что может помочь белку принять наиболее стабильную форму, даже если количество возможных стабильных конфигураций варьируется от миллионов до триллионов[62]. Кроме того, существует множество механизмов точной настройки того, как организм интерпретирует генетические данные и превращает их в белки.
Некоторые из способов, помогающие белкам сворачиваться в наших клетках, можно найти в замечательной молекулярной машине, называемой рибосомой, состоящей из примерно полумиллиона атомов и размером около одной миллионной дюйма в поперечнике. Эта машина лежит в центре двух эпох жизни на Земле: одной – знакомой, а другой – окутанной тайной. Первая состоит из сегодняшних живых существ, основанных на ДНК, а вторая отражает самые первые существа, которые делились и, как предполагается, основывались на РНК – тонком, но гибком виде генетического материала, который не только хранит информацию, но, в отличие от ДНК, также может катализировать химические реакции. Действительно, рибосома – это рибозим, фермент, состоящий из РНК, свернутой в сложную структуру.
Загляните глубоко внутрь рибосомы, как это сделали структурные биологи, и вы увидите древнее ядро, которое превращало инструкции в белки для построения живых существ на протяжении большей части четырех миллиардов лет. Там вокруг центрального механизма РНК, чтобы отточить его работу, развилась белковая оболочка, различная в зависимости от существа: например, наши рибосомы почти в два раза больше, чем у насекомых, которые нас заражают.
Для работы рибосомы необходимы различные ингредиенты: во-первых, молекула матричной РНК, которая несет в себе инструкции по созданию белка из ДНК. Чтобы превратить этот код в белок, рибосома использует второй тип РНК – транспортную, которая несет в себе строительные блоки белков, называемые аминокислотами.
Сейчас мы знаем атомные детали того, как рибосома превращает данные ДНК в плоть и кости, благодаря получившим Нобелевскую премию рентгеновским исследованиям Венки Рамакришнана в Великобритании, Ады Йонат в Израиле и Томаса Стейца в США. Они обнаружили, что рибосома состоит из трех разных молекул РНК и более 50 различных белков, разделенных на два компонента (60S/40S в наших клетках и 50S/30S у бактерий). Один из них – «мозг», считывающий генетический код, а другой – большое «сердце», производящее белок (рис. 8). Они расходятся и объединяются по мере того, как молекулярные связи создаются и разрушаются, производя белки, которые строят тело и управляют им.