Нет ничего менее реального, чем реализм. Детали вводят в заблуждение. Только путем отбора, исключения, акцента мы постигаем истинный смысл вещей.
В этой главе мы научно обоснуем эффективность многомодельного подхода. И начнем с теоремы Кондорсе о жюри присяжных и теоремы о прогнозе разнообразия, которые содержат поддающиеся количественной оценке аргументы в пользу ценности множества моделей как помощников в принятии решений, прогнозировании и объяснении. Однако эти теоремы могут преувеличивать такие аргументы. Чтобы объяснить, почему, мы обратимся к моделям категоризации, которые делят мир на блоки. Применение моделей категоризации покажет, что построение множества моделей может оказаться более сложной задачей, чем мы предполагали. Использование этого же класса моделей позволит нам обсудить степень их детализации (насколько точными они должны быть), а также решить, применять ли одну большую модель или несколько маленьких. Выбор будет зависеть от области применения. При прогнозировании мы часто стремимся действовать с размахом. В случае объяснения разумнее руководствоваться принципом «чем меньше, тем лучше».
Этот вывод решает одну давнюю проблему. На первый взгляд может показаться, что многомодельное мышление требует изучения большого количества моделей. Хотя нам действительно нужно освоить некоторые модели, их не так много, как вы думаете. Нам не придется изучать сто или даже пятьдесят моделей, поскольку они обладают важным свойством, известным как «один ко многим». Мы можем применять одну и ту же модель в разных ситуациях, введя новые переменные, параметры и изменив допущения. Это свойство в какой-то мере противоречит идее многомодельного мышления. Использование модели в новой области требует креативности, открытости разума и скептицизма. Мы должны признать, что не каждая модель подходит для решения любой задачи. Если модель не может объяснить, спрогнозировать или помочь нам рассуждать, ее нужно исключить из рассмотрения.
Навыки, необходимые для использования одной модели во многих областях, отличаются от математических и аналитических способностей, наличие которых многие считают обязательным условием для достижения успеха в моделировании. Процесс использования одной модели во многих областях подразумевает творческий подход. Прежде всего задайте себе вопрос: «Сколько областей применения я могу найти для модели случайного блуждания?» Чтобы вы могли составить представление о том, какие формы может принимать креативность, в конце главы мы используем геометрическую формулу площади и объема в качестве модели и применим ее для объяснения размера супертанкеров, критики индекса массы тела, прогноза масштабирования метаболизма и объяснения, почему так мало женщин-руководителей.
Теперь обратимся к моделям, которые помогают раскрыть преимущества многомодельного мышления. И представим в их контексте две теоремы: теорему Кондорсе о жюри присяжных и теорему о прогнозе разнообразия. Теорема Кондорсе о жюри присяжных основана на модели, созданной для объяснения преимуществ принципа большинства. В соответствии с ней присяжные принимают бинарное решение о виновности или невиновности подсудимого. Каждый присяжный в основном выносит правильное решение. Чтобы применить эту теорему к совокупности моделей, а не членов жюри присяжных, мы интерпретируем принятие решения каждым присяжным как классификацию согласно той или иной модели. В качестве классов могут выступать действия (купить или продать) или прогнозы (победителем станет представитель демократической или республиканской партии). Далее теорема указывает на то, что конструирование множества моделей и применение принципа большинства обеспечит более высокий уровень точности, чем при использовании одной из моделей данного множества. Модель опирается на концепцию состояния мира – полное описание всей значимой информации. Для жюри присяжных состояние мира складывается из доказательств, представленных в суде. Для моделей, которые оценивают социальный вклад благотворительного проекта, оно может представлять команду проекта, организационную структуру, план проведения мероприятий и особенности проблемы или ситуации, которую должен решить проект.
Теорема Кондорсе о жюри присяжных
Каждый из нечетного количества людей (моделей) классифицирует неизвестное состояние мира как истинное или ложное. Каждый человек (модель) классифицирует правильно с вероятностью вероятность того, что другой человек (модель) выполнит правильную классификацию, статистически независима от правильности классификации любого другого человека (модели).
Теорема Кондорсе о жюри присяжных: большинство голосов обеспечивают правильную классификацию с более высокой вероятностью, чем любой отдельный человек (модель), а по мере увеличения количества членов жюри (моделей) точность решения, принятого большинством, приближается к 100 процентам[38].
Эколог Ричард Левинс объясняет, как применить логику этой теоремы к многомодельному подходу: «Мы пытаемся решить одну и ту же задачу с помощью ряда альтернативных моделей с разными упрощениями, но общим биологическим предположением. В таком случае, если эти модели, несмотря на различие исходных предположений, приводят к аналогичным результатам, мы имеем то, что можно назвать устойчивой теоремой, относительно свободной от деталей модели. Следовательно, истина находится на пересечении независимых случаев лжи»[39]. Обратите внимание, что здесь Левинс рассчитывает на единство классификации. Когда многие модели дают одну и ту же классификацию, наша уверенность должна повыситься.
Следующая теорема, о прогнозе разнообразия, применима к моделям, которые делают численные прогнозы или оценки. Она количественно оценивает влияние точности моделей и их разнообразия на точность их среднего[40][41].
Теорема о прогнозе разнообразия
Погрешность множества моделей = средняя погрешность модели – разнообразие прогнозов моделей
где Mi – это прогноз i-й модели, – среднее значений моделей, а V – истинное значение.
Теорема о прогнозе разнообразия описывает математическое тождество. Нам не нужно его проверять – оно всегда справедливо. Вот пример. Две модели прогнозируют количество «Оскаров», которые присудят одному из фильмов. Одна модель предсказывает два «Оскара», а другая – восемь. Среднее значение прогнозов двух моделей (прогноз на основе множества моделей) равно пяти. Если на самом деле фильм получит четыре «Оскара», то квадратичная погрешность прогноза первой модели будет равна 4 (2 в квадрате), второй – 16 (4 в квадрате), а множества моделей – 1. Разнообразие прогностических моделей составляет 9, поскольку прогноз каждой модели отличается от среднего прогноза на 3. В таком случае теорему о прогнозе разнообразия можно записать так: 1 (погрешность множества моделей) = 10 (средняя погрешность моделей) – 9 (разнообразие прогностических моделей).
Логика этой теоремы опирается на противоположные (плюсы и минусы) взаимоисключающие типы погрешностей. Если одна модель прогнозирует слишком высокое значение, а другая – слишком низкое, то эти модели демонстрируют разнообразие прогнозов. Обе погрешности исключают друг друга, а среднее значений моделей будет точнее, чем значение каждой модели в отдельности. Даже если оба прогнозируемых значения слишком высоки, ошибка среднего этих прогнозов все равно будет не больше, чем средняя двух завышенных прогнозов.
Из теоремы не следует, что совокупность различных моделей обеспечивает точную картину. Если всем моделям свойственна общая систематическая ошибка, то и среднее тоже будет ее содержать. Данная теорема подразумевает, что любая совокупность различных моделей (или людей) будет точнее, чем средний член этой совокупности – феномен, известный как «мудрость толпы». Этот математический факт объясняет эффективность ансамблевых методов в информатике, которые выводят среднее множества классификаций, а также то, что люди, использующие в рассуждениях множество моделей и концептуальных схем, делают более точные прогнозы по сравнению с теми, кто ориентируется лишь на отдельные модели. Любой однобокий взгляд на мир упускает важные детали и оставляет белые пятна. У таких людей меньше шансов предвидеть крупные события, такие как крах рынка или арабская весна 2011 года[42].
Обе теоремы приводят убедительные аргументы в пользу применения множества моделей, по крайней мере в контексте прогнозирования. Однако порой эти аргументы излишне убедительны. Теорема Кондорсе подразумевает, что при достаточном количестве моделей мы бы практически никогда не ошибались, а теорема о прогнозе – что формирование разнопланового множества умеренно точных моделей прогнозирования позволило бы нам свести погрешность множества моделей практически к нулю. Однако, как мы увидим далее, наша способность строить множество разноплановых моделей не беспредельна.
Чтобы объяснить, почему обе теоремы могут преувеличивать аргументы в пользу многомодельного подхода, прибегнем к моделям категоризации, которые обеспечивают микрообоснования теоремы Кондорсе о жюри присяжных и делят состояния мира на непересекающиеся блоки. Эти модели восходят к эпохе античности. В своем труде The Categories[43] Аристотель выделил десять атрибутов, в том числе такие как субстанция, количество, место и положение, которые использовал для разделения мира на категории. Каждая комбинация этих атрибутов образует отдельную категорию.
Мы используем категории каждый раз, когда употребляем нарицательное существительное. «Брюки» – это категория, так же как «собаки», «ложки», «камины» и «летние каникулы». Нам свойственно использовать категории в качестве руководства к действию. Мы распределяем рестораны по национальному признаку (итальянские, французские, турецкие или корейские), чтобы выбрать, где пообедать. Классифицируем акции по отношению рыночной цены акции к чистой прибыли на одну акцию и продаем малодоходные акции. Используем категории для объяснения тех или иных явлений – как в случае с утверждением, что численность населения Аризоны возросла, потому что в этом штате благоприятные погодные условия. Кроме того, категории применяются для прогнозирования: мы можем предсказать, что у кандидата на государственную должность, имеющего военный опыт, более высокие шансы на победу.
Мы можем интерпретировать вклад моделей категоризации в рамках иерархии мудрости. Объекты образуют данные. Группирование объектов по категориям порождает информацию. Определение оценок по категориям требует знаний. Для критического анализа теоремы Кондорсе мы полагаемся на модель бинарной категоризации, которая делит объекты или состояния мира на две категории – «виновен» и «невиновен». Основная идея состоит в том, что количество соответствующих атрибутов ограничивает число отдельных вариантов категоризации, а значит, и число полезных моделей.
Модели категоризации
Существует множество объектов или состояний мира, каждое из которых определяется множеством атрибутов и имеет то или иное значение. Модель категоризации М делит эти объекты или состояния на конечное множество категорий {S1, S2, …, Sn} на основе атрибутов объекта и присваивает оценки {M1, M2, …, Mn} каждой категории.
Представьте, что у нас есть сто заявок на получение студенческого кредита, половина из которых были погашены, а половина – нет. По каждому кредиту нам известны две детали: превышал ли его размер 50 000 долларов и специализировался ли его получатель в инженерном деле или в гуманитарных науках. Это и есть два атрибута. С их помощью мы можем выделить четыре типа кредитов: крупные кредиты студентам со специализацией «инженерное дело», мелкие кредиты студентам со специализацией «инженерное дело», крупные кредиты студентам со специализацией «гуманитарные науки» и мелкие кредиты студентам со специализацией «гуманитарные науки».
Модель бинарной категоризации классифицирует каждый из четырех типов кредитов как выплаченный или невыплаченный. Одна модель может классифицировать мелкие кредиты как выплаченные, а крупные как невыплаченные. Другая может классифицировать кредиты студентам со специализацией «инженерное дело» как погашенные, а студентам со специализацией «гуманитарные науки» как непогашенные. Вполне вероятно, что каждая из этих моделей может быть правильной более чем в половине случаев и что эти две модели могут быть практически независимы друг от друга. Проблема возникает при попытке создать больше моделей. Существуют только шестнадцать уникальных моделей, которые соотносят четыре категории с двумя возможными исходами. Две классифицируют все кредиты как выплаченные или невыплаченные, у каждой из оставшихся четырнадцати есть полная противоположность. Всякий раз, когда модель обеспечивает правильную классификацию, ее противоположный вариант дает неправильную классификацию. Таким образом, из четырнадцати возможных моделей максимум семь могут быть правильными более чем в половине случаев. И если та или иная модель окажется правильной ровно в половине случаев, то же произойдет и с ее противоположностью.
Размерность наших данных ограничивает количество моделей, которые мы можем создать. У нас может быть максимум семь моделей. Мы не можем построить одиннадцать независимых моделей, не говоря уже о семидесяти семи. Даже если бы у нас были данные с более высокой размерностью (например, если бы мы знали возраст, средний балл, доход, семейное положение и адрес получателей кредита), категоризация, основанная на этих атрибутах, должна обеспечивать точные прогнозы. Каждое подмножество атрибутов должно быть релевантным тому, погашен ли кредит, и не связанным с другими атрибутами. В обоих случаях речь идет о сильных предположениях. Например, если между адресом, семейным положением и доходом наблюдается корреляция, то модели, в которых эти атрибуты поменяны местами, тоже должны коррелировать[44]. В случае строгой вероятностной модели независимость кажется обоснованной: разные модели порождают разные ошибки. Объяснение этой логики с помощью моделей категоризации позволяет осознать сложность построения множества независимых моделей.
Попытки формирования совокупности разноплановых, точных моделей сопряжены с аналогичной проблемой. Предположим, нам нужно создать ансамбль моделей категоризации, прогнозирующих уровень безработицы в пятистах городах среднего размера. Точная модель должна разделить города на категории таким образом, чтобы в рамках одной категории в них наблюдался схожий уровень безработицы. Кроме того, модель должна точно прогнозировать безработицу в каждой категории. Для того чтобы две модели обеспечивали разные прогнозы, они должны по-разному делить города на категории, по-разному составлять прогнозы, или и то и другое. Хотя эти два критерия не противоречат друг другу, могут возникнуть трудности с их удовлетворением. Если один вариант категоризации основан на среднем уровне образования, а другой – на среднем уровне дохода, они могут обеспечивать разбиение на аналогичные категории. Тогда обе модели будут точными, но не разнообразными. Формирование двадцати шести категорий с использованием первой буквы названия каждого города обеспечит разноплановую категоризацию, но, по всей вероятности, не позволит создать точную модель. Поэтому здесь снова напрашивается вывод, что на практике количество элементов «множества» обычно ближе к пяти, чем к пятидесяти.
Результаты эмпирических исследований прогнозирования согласуются с этим выводом. Хотя увеличение числа моделей повышает уровень точности (как и должно быть согласно теоремам), после формирования группы моделей предельный вклад каждой из них снижается. В компании Google обнаружили, что привлечение одного интервьюера для оценки кандидатов на вакантную должность (вместо случайного выбора) повышает вероятность найма высококвалифицированного сотрудника с 50 до 74 процентов, привлечение второго интервьюера повышает эту вероятность до 81 процента, привлечение третьего интервьюера – до 84 процентов, а четвертого – до 86 процентов. Наличие двадцати интервьюеров повышает вероятность всего до 90 процентов с небольшим. Это указывает на ограничение предельного количества значимых способов оценки потенциального сотрудника.
Аналогичный вывод справедлив и при оценке десятков тысяч прогнозов экономистов в отношении безработицы, экономического роста и инфляции. В этом случае следует рассматривать экономистов как модели. Включение второго экономиста повышает точность прогноза примерно на 8 процентов, еще два экономиста повышают его на 12 процентов, а еще три – более чем на 15 процентов. Десять экономистов увеличивают точность прогноза примерно на 19 процентов. Кстати, прогноз лучшего экономиста всего на 9 процентов точнее, чем среднего, при условии, что вы знаете, какой экономист лучший. Таким образом, три произвольно выбранных экономиста эффективнее, чем один лучший[45]. Еще одна причина использования нескольких средних экономистов, не полагаясь на одного, пусть в прошлом и лучшего, – изменчивость мира. Экономист, демонстрирующий сегодня самые высокие результаты, завтра может стать середняком. Аналогичная логика объясняет, почему Федеральная система США полагается на совокупность экономических моделей, а не на одну модель: как правило, множество моделей обеспечивают более высокий средний результат, чем самая лучшая одиночная модель.
Урок должен быть очевиден: формирование множества разноплановых, точных моделей позволяет нам составлять очень точные прогнозы и оценки и выбирать правильные действия. Теоремы обосновывают логику многомодельного мышления. Чего они не делают и не могут сделать, так это построить множество моделей, удовлетворяющих их исходным предположениям. На практике мы можем обнаружить, что имеем возможность создать три-пять хороших моделей. И если так, то это здорово! Нам нужно только вернуться к предыдущему абзацу: включение второй модели обеспечивает улучшение на 8 процентов, а третьей – уже на 15 процентов. Учтите, что вторая и третья модели не обязательно должны быть лучше первой. Они могут быть хуже. Однако если эти модели чуть менее точны, но отличаются в категорийном смысле, их следует включить в совокупность.
Многие модели работают в теории и на практике. Но это не значит, что многомодельный подход всегда верен. Иногда лучше разработать одну большую модель. В этом разделе мы проанализируем, когда целесообразнее использовать каждый из подходов и попутно рассмотрим вопрос о степени детализации, то есть о том, насколько детальным должно быть разделение данных.
Для того чтобы ответить на первый вопрос (использовать одну большую модель или множество маленьких), вспомните об областях применения моделей: рассуждение, объяснение, разработка, коммуникация, действие, прогнозирование и исследование. Четыре из них (рассуждение, объяснение, коммуникация и исследование) требуют упрощения, благодаря чему мы можем использовать логику, позволяющую объяснять те или иные явления, распространять свои идеи и исследовать возможности.
Вспомните теорему Кондорсе о жюри присяжных. С ее помощью мы смогли раскрыть логику, объяснить, почему подход с использованием множества моделей с большой вероятностью обеспечит правильный результат, и сделать выводы. Если бы мы включили в модель жюри присяжных типы личности и представили доказательства в виде одномерного массива слов, мы заблудились бы в лесу деталей. Борхес рассуждает об этом в своем эссе о науке, рассказывая о составителях карт, стремившихся к чрезмерной детализации: «Коллегия картографов создала карту империи, которая была размером с империю и совпадала с ней до единой точки. Потомки, не столь преданные изучению картографии, сочли эту пространную карту бесполезной»[46].
Модели с высоким уровнем точности будут полезны и для трех оставшихся областей применения моделей, таких как прогнозирование, разработка и действие. При наличии БОЛЬШИХ данных мы должны их использовать. Эмпирическое правило звучит так: чем больше у нас данных, тем детализированнее должна быть модель. Это можно продемонстрировать на примере применения моделей категоризации для структурирования мышления. Допустим, нам нужно построить модель для объяснения вариации во множестве данных. Для создания контекста предположим, что у нас есть огромный массив данных сети продуктовых магазинов, содержащий подробную информацию о ежемесячных расходах нескольких миллионов домохозяйств на продукты питания. По объему расходов они разнятся, что мы измеряем как вариацию – сумму квадратов разности между величиной расходов каждого домохозяйства и средним объемом расходов по всем домохозяйствам. Если средний объем расходов составляет 500 долларов в месяц, а семья тратит 520 долларов, она вносит вклад в общую вариацию, равный 400, или 20 в квадрате[47].
Если общая вариация составляет 1 миллиард долларов, а модель объясняет 800 миллионов этой вариации, то ее показатель R² составляет 0,8. Величина объясненной вариации соответствует тому, насколько данная модель улучшает оценку среднего значения. Если оценка, полученная с помощью модели, указывает, что домохозяйство потратит 600 долларов, и оно действительно тратит 600 долларов, то данная модель объясняет все 10 000, которые это домохозяйство вносит в общую вариацию. Если семья потратила 800 долларов, а согласно модели должна была потратить 700 долларов, тогда то, что было вкладом в общую вариацию 90 000 ((800 – 500)²), теперь составляет всего 10 000 ((800 – 700)²). Таким образом, данная модель объясняет вариации.
R²: процент объясненной дисперсии (коэффициент детерминации)
где V(x) – это значение x на множестве X, – среднее значение, а M(x) – оценка модели.
В данном контексте модель категоризации делит домохозяйства на категории и определяет значение по каждой. Более детализированная модель обеспечивает создание большего числа категорий. Это может потребовать анализа большего количества атрибутов домохозяйств. Увеличение числа категорий позволяет объяснить большую долю вариации, но мы можем зайти слишком далеко. Последовав примеру картографов Борхеса и отнеся каждое домохозяйство к отдельной категории, мы сможем объяснить всю вариацию. Но такое объяснение, как и карта в натуральную величину, не принесет особой пользы.
Создание избыточного количества категорий приводит к чрезмерной подгонке данных, а она препятствует прогнозированию будущих событий. Предположим, мы хотим использовать данные о покупках продуктов за прошлый месяц для прогнозирования данных за нынешний месяц. Ежемесячные расходы домохозяйств отличаются. Модель, которая относит каждое домохозяйство к его собственной категории, предскажет, что оно потратит столько же, сколько и в прошлом месяце. Но это будет не очень хороший прогноз, учитывая ежемесячные колебания расходов. Отнеся домохозяйства к категории им подобных, мы сможем использовать средний объем расходов на продукты аналогичных домохозяйств для создания более точного прогноза.
Для этого мы будем рассматривать ежемесячный объем расходов каждого домохозяйства как одно из значений распределения (о распределениях рассказывается в главе 5). У этого распределения есть среднее значение и дисперсия. Задача построения модели категоризации – создать категории на основе атрибутов таким образом, чтобы у домохозяйств в рамках одной категории были близкие средние значения. Тогда объем расходов одной семьи за первый месяц позволит определить объем расходов другой семьи за второй месяц. Однако ни один вариант категоризации не может быть идеальным. Средний объем расходов домохозяйств, входящих в одну категорию, будет немного отличаться. Мы называем это погрешностью категоризации.
Увеличивая категории, мы увеличиваем и погрешность категоризации, поскольку возрастает вероятность отнесения к одной категории домохозяйств с разными средними значениями. Впрочем, более крупные категории основаны на большем количестве данных, а значит, оценки среднего в каждой категории будут точнее (см. правило квадратного корня в главе 5). Погрешность, возникающая из-за неправильной оценки среднего, называется погрешностью оценки. По мере увеличения категорий погрешность оценки уменьшается. Включение одного или даже десяти домохозяйств в одну категорию не позволит получить точную оценку среднего, если они будут существенно разниться по ежемесячному объему расходов. Тысяча домохозяйств в одной категории обеспечат такую оценку.
Итак, мы получили важный интуитивный вывод: увеличение количества категорий влечет за собой погрешность категоризации в связи с отнесением домохозяйств с разными средними значениями к одной категории. Статистики называют это систематической ошибкой модели.