Сноски

1

Издана на русском языке: Сильвер Н. Сигнал и шум. Почему одни прогнозы сбываются, а другие – нет. М.: КоЛибри, 2015. Прим. пер.

2

Эта книга Нейта Сильвера – превосходное введение в сферу применения статистики для прогнозов в спорте и других областях.

3

Подробно данные о Шипмане обсуждаются в работе: D. Spiegelhalter and N. Best, ‘Shipman’s Statistical Legacy’, Significance 1:1 (2004), 10–12. Все документы по этому общественному расследованию находятся на сайте http://www.the-shipman-inquiry.org.uk/reports.asp.

4

Термины, выделенные полужирным шрифтом, включены в глоссарий в конце книги.

5

Шипман повесился в Уэйкфилдской тюрьме за день до своего 58-летия. После этого жена получала деньги от Национальной службы здравоохранения Великобритании, на которые не имела бы права, если бы ее муж умер после 60 лет – возраста выхода на пенсию. Прим. пер.

6

Спойлер: это можно было сделать практически наверняка.

7

В отечественной практике высотой груди дерева считается расстояние в 1,3 метра от корневой шейки. Прим. пер.

8

T. W. Crowther et al., ‘Mapping Tree Density at a Global Scale’, Nature 525 (2015), 201–5.

9

Погрешность для этой величины – 0,1 триллиона, то есть истинное количество деревьев на Земле находится в диапазоне 2,94–3,14 триллиона (я полагаю, что эта величина слишком точна, если учесть большое количество предположений, принятых при моделировании). По оценкам ученых, ежегодно вырубается 15 миллиардов (15 000 000 000) деревьев и с момента возникновения человеческой цивилизации планета уже потеряла 46 % деревьев.

10

E. J. Evans, Thatcher and Thatcherism (Routledge, 2013), p. 30.

11

Изменения в национальной статистике: включение незаконных препаратов и проституции в национальную статистику Великобритании [Интернет] (Национальное статистическое управление, 2014).

12

Национальное статистическое управление Великобритании описывает ряд мер для благосостояния на сайте https://www.ons.gov.uk/peoplepopulationandcommunity/wellbeing.

13

Если бы я был типичным среднестатистическим человеком, этот факт давал бы мне основание заранее чему-то радоваться.

14

N. T. Nikas, D. C. Bordlee and M. Moreira, ‘Determination of Death and the Dead Donor Rule: A Survey of the Current Law on Brain Death’, Journal of Medicine and Philosophy 41:3 (2016), 237–56.

15

Викторианская эпоха – время правления королевы Виктории (1837–1901). Прим. пер.

16

J. P. Simmons and U. Simonsohn, ‘Power Posing: P-Curving the Evidence’, Psychological Science 28 (2017), 687–93. Возражения смотрите в работе: A. J. C. Cuddy, S. J. Schultz and N. E. Fosse, ‘P-Curving a More Comprehensive Body of Research on Postural Feedback Reveals Clear Evidential Value for Power-Posing Effects: Reply to Simmons and Simonsohn (2017)’, Psychological Science 29 (2018), 656–66.

17

Основная рекомендация Американской статистической ассоциации (ASA) – «Преподавать статистику как исследовательский процесс решения проблем и принятия решений». См. https://www.amstat.org/asa/education/Guidelines-for-Assessment-and-Instruction-in-Statistics-Education-Reports.aspx. Цикл PPDAC был представлен в работе: R. J. MacKay and R. W. Oldford, ‘Scientific Method, Statistical Method and the Speed of Light’, Statistical Science 15 (2000), 254–78. Его активно поддерживает школьная система Новой Зеландии, которая обеспечивает хорошее статистическое образование. См. C. J. Wild and M. Pfannkuch, ‘Statistical Thinking in Empirical Enquiry’, International Statistical Review 67 (1999), 223–265, и онлайн-курс «Данные для идей», https://www.futurelearn.com/courses/data-to-insight.

18

Книга Дугласа Адамса вышла в 1979 году, когда он уже получил степень и преподавал. Прим. пер.

Издана на русском языке: Адамс Д. Автостопом по галактике. М.: АСТ, 2014. Прим. ред.

19

Издательство (дочернее предприятие (Penguin Books) было основано в 1937 году и выпускало недорогие научно-популярные (и другие нехудожественные) книги в мягких обложках. Они активно использовались для самообразования после войны, а газета The Guardian даже назвала эти книги «неформальным университетом для британцев 1950-х». Прим. пер.

20

Издана на русском языке: Хафф Д. Как лгать при помощи статистики. М.: Альпина Паблишер, 2015. Прим. пер.

21

Питер Хиггс (род. 1929) – британский физик, предложивший в 1964 году идею нового поля и соответствующей частицы (бозона), которые сейчас носят его имя. Прим. пер.

22

Скрининговые исследования – обследование людей, не имеющих симптомов, с целью выявить какое-нибудь заболевание. Прим. пер.

23

Статины – препараты, которые применяются для снижения уровня холестерина в крови. Прим. пер.

24

См. ‘History of Scandal’, Daily Telegraph, 18 July 2001, and D. J. Spiegelhalter et al., ‘Commissioned Analysis of Surgical Performance Using Routine Data: Lessons from the Bristol Inquiry’, Journal of the Royal Statistical Society: Series A (Statistics in Society) 165 (2002), 191–221.

25

Сейчас я сожалею об использовании выражения «избыточные смерти», поскольку газеты потом интерпретировали его как «предотвратимые случаи смерти». На деле просто по вероятностным соображениям примерно в половине больниц количество смертей будет больше ожидаемого, и лишь некоторых из них можно было бы избежать.

26

Данные о результатах выживания детей, перенесших операции на сердце, в Соединенном Королевстве Великобритании и Северной Ирландии можно получить на сайте http://childrensheartsurgery.info/.

27

Оказывается, нет никаких веских доказательств каких-либо принципиальных различий между этими больницами, если учитывать степень серьезности случаев.

28

См. A. Cairo, The Truthful Art: Data, Charts, and Maps for Communication (New Riders, 2016), и The Functional Art: An Introduction to Information Graphics and Visualization (New Riders, 2012).

29

Индекс массы тела разработан бельгийским статистиком и социологом Адольфом Кетле в 1830-х годах. Он определяется так: ИМТ = масса (кг) / рост2 (м). Используются самые разные способы группирования людей по этому параметру; в настоящее время в Великобритании применяются такие категории: недостаточная масса (ИМТ < 18,5), нормальная масса (ИМТ от 18,5 до 25), избыточная масса (от 25 до 30), ожирение (от 30 до 35), болезненное ожирение (свыше 35).

Сам термин «индекс массы тела» появился намного позднее, в статье Анселя Киза с соавторами, опубликованной в 1972 году в Journal of Chronic Diseases. Прим. пер.

30

Информацию Всемирной организации здравоохранения о канцерогенности потребления красного мяса и обработанного мяса см. http://www.who.int/features/qa/cancer-red-meat/en/. ‘Bacon, Ham and Sausages Have the Same Cancer Risk as Cigarettes Warn Experts’, Daily Record, 23 October 2015.

31

Строго говоря, относительное увеличение на 18 % дает 6 × 1,18 = 7,08 процента, но для наших целей округления до 7 % вполне достаточно.

32

Это было любимое наблюдение Ханса Рослинга, см. следующую главу.

33

E. A. Akl et al., ‘Using Alternative Statistical Formats for Presenting Risks and Risk Reductions’, Cochrane Database of Systematic Reviews 3 (2011).

34

Строго говоря, шесть темных фигурок в обеих частях рисунка следовало бы разместить по-разному, поскольку диаграммы представляют разные группы из 100 человек. Но это затруднило бы их сравнение.

35

Подчеркиваем, что в данном случае вовсе не подразумевается, что вероятность рака равна 6/94. Объясним это на простом примере. Когда говорят о «шансах 1 к 2», то вероятность не равна 1/2. Это означает, что в вашу пользу один возможный исход, а против вас – два исхода. Следовательно, «шансы 1 к 2» означают один удачный исход из трех возможных, то есть вероятность успеха равна 1/3. Аналогично, в нашем случае вероятность рака равна 6/100, а число 6/94 – это отношение вероятности рака к вероятности его отсутствия: (6/100) / (94/100) = 6/94. Прим. пер.

36

‘Statins Can Weaken Muscles and Joints: Cholesterol Drug Raises Risk of Problems by up to 20 per cent’, Mail Online, 3 June 2013. Исходная работа: I. Mansi et al., ‘Statins and Musculoskeletal Conditions, Arthropathies, and Injuries’, JAMA Internal Medicine 173 (2013), 1318–26.

37

Евгеника (др.-греч. εύγενής – хорошего рода) – это учение о том, что человеческую расу можно улучшать путем селекции либо путем поощрения деторождения у «подходящих» людей (например, с помощью финансовых стимулов), либо препятствуя размножению «неподходящих» (скажем, за счет принудительной стерилизации). Многие из первых создателей статистических методов были увлеченными евгениками. Однако опыт нацистской Германии положил конец этой концепции, хотя академический журнал Annals of Eugenics поменял свое название на Annals of Genetics только в 1955 году.

38

F. Galton, ‘Vox Populi’, Nature (1907); доступно по адресу: https://www.nature.com/articles/075450a0.

39

Слово «распределение» широко используется в статистике, но может иметь разные смыслы, поэтому я постараюсь объяснить, что оно означает в каждой ситуации. Диаграммы построены с помощью программного обеспечения для языка R.

40

На диаграмме размаха центральная вертикальная линия в прямоугольнике представляет собой медиану (серединное значение), сам ящик-прямоугольник включает основную часть точек, расположенную близко к медиане [обычно в ящик включают половину наблюдений, то есть границами ящика являются первый и третий квартили, и, соответственно, ширина ящика отражает интерквартильный размах; Прим. пер.], а горизонтальные линии-«усы» показывают наименьшее и наибольшее значение, либо доходят только до краев статистически значимой выборки, а выбросы изображаются отдельно.

41

Десятичный логарифм числа x – это такое число y, что 10y = x. Например, десятичный логарифм 1000 равен 3, потому что 103 = 1000. Логарифмические преобразования особенно уместны, когда есть основания полагать, что люди совершают скорее относительные, а не абсолютные ошибки. Скажем, если мы ожидаем, что люди получают неверный ответ, ошибаясь на 20 % в ту или иную сторону, а не на 200 драже в банке.

42

Вообще говоря, непрерывным переменным противопоставляются дискретные, которые необязательно принимают неотрицательные целые значения, а могут принимать значения в произвольном конечном или счетном множестве. Прим. пер.

43

Это определение удобно для нечетного количества элементов в выборке. Если число элементов четное, то обычно медианой считают полусумму двух средних элементов ряда. Прим. пер.

44

Хотя в 1907 году в Nature оспаривали выбор Гальтоном медианы, считая, что среднее арифметическое дало бы лучшую оценку.

45

Представьте, что в комнате сидят три человека, которые зарабатывают 400, 500 и 600 фунтов в неделю. В таком случае выборочное среднее для их зарплат составляет 1500 / 3 = 500 фунтов. Медианное значение тоже 500 фунтов. Затем в комнату заходят два человека, зарабатывающие по 5000 фунтов, и выборочное среднее взлетает до 11 500 / 5 = 2300 фунтов, в то время как медиана поднялась только до 600.

46

В ролике о нашем эксперименте (https://www.youtube.com/watch?v=n98BhnwWmsc) я принудительно убрал 33 максимальных числа (9999 и выше), взял логарифм для получения симметричного распределения, вычислил среднее арифметическое для такого преобразованного распределения, а затем произвел обратное преобразование, чтобы получить оценку в первоначальном масштабе. Это дало число 1680, которое оказалось самой близкой оценкой к истинному значению 1616. Описанный процесс (взять логарифм, вычислить среднее арифметическое, вернуться обратно) дает то, что известно как среднее геометрическое. Это эквивалентно такой процедуре: перемножить все N чисел и извлечь корень N-й степени. Среднее геометрическое используется при создании некоторых экономических индексов, в частности основанных на отношениях. Причина в том, что у него есть «устойчивость к переворачиванию отношения»: если стоимость апельсинов измерять в килограммах на апельсин или в апельсинах на килограмм, то это даст одно и то же геометрическое среднее. В то же время среднее арифметическое может давать большой разброс.

47

Если не вдаваться в тонкости, то N-й процентиль – значение, которое не превышает N% наблюдений. 25-й процентиль называют первым квартилем, 50-й процентиль – вторым квартилем (или медианой), 75-й процентиль – третьим квартилем. В общем случае, когда доля наблюдений не превосходит числа α, то говорят об α-квантиле. Прим. пер.

48

Размах – это разность между наибольшим и наименьшим значением в выборке. Впрочем, у автора в таблице указываются только границы диапазона – как для размаха, так и для интерквартильного размаха. Прим. пер.

49

Почти наверняка это опечатка при наборе числа 1137, которое является числовым изображением слова leet, что на сетевом сленге означает «элитный» [Leet – это язык интернета, где латинские буквы заменяются похожими символами. Прим. пер.]; среди ответов было девять чисел 1337.

50

В качестве меры неравенства для сильно асимметричных распределений (например, доходов) используется коэффициент Джини, однако он сложен и не всегда интуитивно понятен.

51

Квадрат среднеквадратичного отклонения называется дисперсия: его трудно интерпретировать прямо, но с математической точки зрения это очень полезное понятие. [Дисперсия интерпретируется вполне естественно – это средний квадрат отклонения наблюдений от выборочного среднего. Прим. пер.].

Загрузка...