В мире людей все создается руками и умом homo-sapiens. Человек разумный, ни для кого не секрет, подвержен слабостям. Жалко конечно, но если разумность многих из нас еще неплохо бы подтвердить, то слабость интеллекта многих индивидуумов в тени не прячется. Каждому в разной степени характерны лень, алчность и завистливость, безалаберность, невнимательность и прочие прелести. Порой встречаются люди просто с ограниченным интеллектом, пусть и без диагностированных заболеваний, но точно с ограниченным! Не вдаваясь в философию, обобщим все людские слабости понятием «человеческий фактор».
Безработных, надеюсь, среди читателей нет. Факт причастности каждого из нас к работе в той или иной сфере любопытен. Представьте, в компании работает 100 человек. Каждый – носитель человеческого фактора. Как урегулировать такое скопище вероятностей? Как предусмотреть, что по принципу «и палка раз в год стреляет», а палок сто, в среднем каждый третий день в году любой сотрудник может напортачить? Один прикарманит, другой ошибки в отчете допустит, третий еще чего отморозит… Оставим управленческие вопросы менеджерам и мастеру личной эффективности господину Кови, пусть земля ему будет пухом. Разовьем мысль дальше, в научную среду. Одним из важнейших показателей продуктивности научной деятельности той или иной страны является количество публикаций в международных рецензируемых журналах. Согласно данным сводки Science and Engineering Indicators за 2010 год, опубликованной на сайте Национального Научного Фонда США, общемировое число ежегодно публикуемых статей по всему миру, во всех науках, составило 760 000. Семьсот шестьдесят тысяч за год, Карл! Ежегодное количество публикаций, с 1995 года, росло на 2,5 процента в год, и выросло до семисот шестидесяти тысяч статей за год к 2010му. Даже если отнестись к ученым и исследователям с большим уважением и предположить, что каждый допускает важную ошибку всего раз в несколько лет – нетрудно представить, сколь в целом высоко может быть количество ошибочных выводов относительно того или иного предположения, той или иной науки. Известный факт, что с течением времени ученые меняют взгляды и убеждения касаемо разных вопросов, но в основном – своих же исследований. Это замечательно, так как является показателем постоянного пересмотра и подвергания своих выводов критическому анализу, но так же демонстрирует, что любой сегодняшний научный постулат может быть опровергнут завтра.
Добавим в размышления о роли человеческого фактора в науке такое свойство эксперимента, как воспроизводимость. Для минимизирования влияния разных побочных, неподконтрольных факторов, едва ли не важнейшим требованием к научному исследованию является его повторяемость и воспроизводимость. Проще говоря, открытие не будет котироваться, пока не подтвердится хотя бы на нескольких исследовательских площадках. Разумно, не правда ли? Ежели уважаемый исследователь заявляет об открытии, способном если и не перевернуть представление о предмете исследования, то хотя бы скорректировать – почему предложенное исследование не перепроверить?
В апреле 2015 года в Академии Медицинских Наук (The Academy of Medical Sciences) проходил симпозиум по воспроизводимости и надежности результатов биомедицинских исследований. Одним из первых итогами полузакрытого симпозиума поделился главред The Lancet – еженедельного рецензируемого журнала по общей медицине, с почти двухсотлетней историей публикаций (с 1823г.). Ключевая фраза отчета была следующей: «The case against science is straightforward: much of the scientific literature, perhaps half, may simply be untrue» («Довод против науки довольно прямолинеен: значительная часть научной литературы, возможно половина, может быть попросту ложной»). Надо отметить, что симпозиум проходил под правилом Chatham House, в соответствии с которым, никто из участников не имеет права разглашать авторство высказанных на мероприятии мнений. Это правило позволяет всем высказываться откровенно – без поправок на интересы спонсоров, политические и прочие. Говорить чистую правду. Так, автор слов «A lot of what is published is incorrect» остается неизвестным, однако отчет главреда The Lancet начинается именно с этой цитаты. Если поинтересоваться, можно обнаружить не единожды встречающиеся выводы подобного толка, но этот особенно примечателен, поскольку произошел относительно недавно и был достаточно масштабным. Еще раз, кто не понял – буквально сами представители, источники науки медицины и биологии собрались, и поделившись друг с другом докладами и анализом решили, что едва ли не половина научной литературы ошибочна! Как высказался Ричард Хортон, «что-то пошло в корне неправильно с одним из величайших человеческих творений», подразумевая науку.
Таково положение дел. Растущий масштаб любого явления человеческой деятельности приводит к неизбежному накоплению следствий человеческого фактора. Однако, каким образом человеческий фактор мог повлиять на общую достоверность научных исследований? Разве дизайн исследований не должен каким-то статистическим образом нивелировать подобное влияние? Остановимся на итоге отчета о симпозиуме: «Хорошей новостью является то, что наука начинает воспринимать худшие из своих недостатков очень серьезно. Плохой же новостью является то, что никто не готов сделать первый шаг к очистке системы». Высшие представители науки лишь признают появившуюся проблему, о ее решении и вычищении ложной научной литературы пока только заговорили.
Так же, главред The Lancet поднимал тему недостаточно строгих критериев достоверности исследований. Например, в физике элементарных частиц p-value не должно быть выше 3×10—7, когда в биологии p-value достаточно не превышать 0,05. На эту тему в феврале 2014 года в журнале Nature опубликовали статью «Scientific method: Statistical errors», поясняющую, почему «золотой стандарт» статистической достоверности (p <0,05) не так надежен, как полагают многие ученые. Представленное в 1920х годах в Великобритании статистиком Рональдом Фишером, p-значение не предполагалось на роль окончательного теста. Оно лишь предназначалось для неформального определения значительности в старомодном смысле: заслуживают ли результаты исследования второго, более внимательного взгляда. Всего лишь прикидка. Повторюсь, Ричард Хортон в упомянутом отчете тоже предложил повысить стандарт.
Первая ласточка, в феврале 2015, опубликована новость, что журнал BASP (Basic and Applied Social Psychology) запретил публикацию статей, использующих критерий p <0,05, по причине слишком частого его использования в качестве аргументации исследований низкого качества. Конечно, журнал посвящен психологическим и социальным исследованиям, но лишь потому, что практическое применение подобных данных, по-видимому, уже принесло в достатке негативную обратную связь. Пребывающей в кризисе (по мнению ряда ученых) биомедицине тоже осталось недолго. Осмелимся предположить, что одним из ключевых шагов по «очистке» биологии и медицины от множества ложных исследований станет ужесточение критериев достоверности до уровня физики элементарных частиц, или близко к этому. От спекуляций, спровоцированных заинтересованными в прибыли больших компаниях, это вряд ли убережет, но загрязнение и так не чистой научной среды слабо подтвержденными исследованиями точно затруднит.
В январе 2015 года экспертная комиссия института естественных наук «Рикэн» постановила, что в ходе эксперимента Харуко Обокаты, посвященному STAP-клеткам, «допущены сознательные фальсификации». Тем не менее, никакое тщательное рецензирование не предотвратило публикацию в авторитетном журнале Nature. В результате инцидента в журнале ввели ужесточенный контроль иллюстраций в статьях, так как именно в них обнаружили несоответствие. Сколько же до этого сомнительных статей заняли место в одном из наиболее серьезных профильных журналов? Nature сильно потерял в авторитете в первую очередь из-за этого события.
Эти и множество подобных случаев внесли вклад в общий неприятный вывод ученых и исследователей о состоянии биологической и медицинской литературы на сегодняшний день, озвученный на симпозиуме.
Вот ирония! Пока научное сообщество вцепляется пятерней в волосы, задумываясь, как поправить растущую дискредитацию – на периферии творится безумие. Тренеры через одного декларируют научную обоснованность собственных тренировок, каждая вторая представительница сомнительной спортивной дисциплины выписывает себе корочки «нутрициолога». Одни плодят новые, «научно-обоснованные» мифы с ссылками на исследования, другие разоблачают мифы старые. Нелепо, но большое количество людей, ложно причисляющих себя к категории специалистов, лишь занимается замещением одной спорной или ошибочной информации на другую. Даже лаборатория под вашим боком не становится гарантом высокой научности – стоит присмотреться к организации исследования. Не удивительно – лабораторная деятельность опирается на те же исследования и гипотезы, что и остальные, а соответственно обилие сложных диагностических устройств еще не дает 100% надежных выводов. Более того, именно в лабораториях дают жизнь как верным, так и ложным наблюдениям, ошибочно или сознательно интерпретируя результаты в угоду гипотезе. Стюарт Лиман в своей статье «Bad statistics, and bad training are sabotaging drug discovery» рассказывает старую шутку среди ученых исследователей: «33 процента животных отреагировали на лечение положительно, 33 процента животных не показали никакого ответа, а третья мышь убежала», а ведь такие исследования могли лечь в основу популярных и растиражированных теорий! Горькая шутка получается.
Тем паче нет смысла искать правду в различных интернет сообществах. Кружки по интересам, они же социальные интернет объединения, лишь укореняют безграмотность населения, пропагандируя простые и харизматичные советы, укладывающиеся в полтора слова.«Умри, но сдохни», «Побеждает сильнейший», «Если не успел – то опоздал» и прочие «богатые» на мудрость лозунги всегда достучатся до инфантильных сердец. Погоня за аудиторией, как известно, никогда не способствует повышению качества материала, ибо растущая сложность и глубина предмета лишь наоборот, с каждым витком, отсеивает нетерпеливых. Уже не приходится надеяться на столь серьезный подход к получению научных знаний, как поиск исследований, прошедших проверку воспроизводимости и верную интерпретацию этих исследований без излишне оптимистичной экстраполяции выводов на практику. Часто ли вы встречаете среди специалистов апеллирование к обширным мета анализам в ходе дискуссии по какому-либо вопросу? Не думаю.
Представьте на секунду. Тысячи публикаций исследований. Сотни тысяч. Многие лежат в свободном доступе в интернет ресурсах. Малозначительные эффекты, крохотные выборки, ошибочный анализ, частные интересы авторов или спонсоров исследования… Плохо осведомленным людям, не специалистам, это подается за монолитную, авторитетную, незыблемую НАУКУ. Кем подается? Персонажами, выставляющими себя грамотными аналитиками – накидал красивых ссылок, умело аргументировал надежность своих и недостоверность чужих фактов, и новому жрецу науки смотрят в рот! Подобная картина сплошь и рядом на всем интернет пространстве – что российском, что зарубежном.
В 2012 году в журнале Nature опубликовали статью «Drug development: Raise standards for preclinical cancer research». Автор исследования, Гленн Бигли (C. Glenn Begley), повествует, что в течение десяти лет в биотехнологической фирме Amgen предпринимались попытки воспроизвести «наиболее ценные» исследования, посвященные борьбе с раком, отобранные из 53 журналов. Поскольку в исследованиях описывались совершенно новые подходы таргетированной борьбы с раком и новые варианты клинических применений существующей терапии, некоторые данные были умышленно убраны из текста – во избежание плагиата технологии. Даже со скидкой на это, процент подтвержденных научных данных оказался ничтожно мал – всего 6 исследований из 53. Всего шесть исследований, из пятидесяти трех авторитетных, смогли воспроизвести! В этом случае одной из причин предполагается низкое качество опубликованных доклинических данных. Забавно, что в опубликованной в 2012 году статье фигурирует идея, что не смотря на отдельные ошибки в деталях исследований, в целом на ключевую идею статьи можно положиться и она выдержит проверку временем: «that although there might be some errors in detail, the main message of the paper can be relied on and the data will, for the most part, stand the test of time.» То было в 2012, а уже в 2015 году научное сообщество медиков и биологов растеряло свою снисходительность к деталям исследований, пускай и предклинических.
Обратите внимание – медицина, как научное направление, подвержена строжайшему контролю и анализу исследований, так как связана с прямым воздействием на человеческий организм. Тем не менее и там копятся результаты человеческого фактора – это неизбежное, недооцениваемое явление. Результатом растущей, выразимся сдержанно, сомнительности множества исследований в медицине и биологии, становятся инициативы вроде проекта Элизабет Айорнс «Reproducibility Initiative». С большой долей удачи, инициаторы нашли инвестора в лице благотворительной организации, пожертвовавшей 1,3 млн. долларов на проверку 50 самых известных статей в области биологии рака. Упоминается, что в среднем 26 тысяч долларов на одно исследование хватит лишь на проверку ключевого эксперимента, но не для полного воспроизведения исследования каждый раз (что, в общем-то, и не является необходимым). Вы только представьте – реально сложной задачей является поиск денег на перепроверку исследований, попытку воспроизвести ключевые эксперименты, а именно возможность их повторить, то есть воспроизводимость, делает исследование значимым на практике! Не пора ли тест на воспроизводимость эксперимента закладывать в бюджет исследования?
Проблема дизайна качественного исследования нарастает с новой силой каждый год. В упомянутой выше статье Стюарта Лимана, опубликованной в январе 2014 года, упоминается, как изучение 76 влиятельных исследований на животных показало, что в половине случаев использовалось не более пяти животных на группу, и многие не смогли должным образом обеспечить случайное распределение мышей по контрольной и экспериментальной группам. По словам профессора Джона Иоаннидиса, эпидемиолога Стэндфордского университета, одной из ключевых проблем множественных искажений результатов биомедицинских исследований, является «погоня за значимостью», то есть попытка интерпретировать данные с целью прохождения статистического теста значимости – девяносто-пяти процентной границы, установленной в свое время Рональдом Фишером. Разве такое применение видел господин Фишер для своей идеи?