Splunk Inc., “The State of Dark Data,” 2019, www.splunk.com/en_us/form/the-state-of-dark-data.html.
Venture Beat. “87 % of data science projects failing”: venturebeat.com/2019/07/19/why-do-87-of-data-science-projects-never-make-it-into-production
www.brookings.edu/wp-content/uploads/2016/06/11_origins_crisis_baily_litan.pdf
Нейт Сильвер написал по этому поводу целую серию статей (fivethirtyeight.com/tag/the-real-story-of-2016). Одна из ошибок социологов заключалась в допущении независимости событий, как и в случае с ипотечным кризисом.
Примечание для коллег-статистиков: мы имеем в виду обычную, а не статистическую достоверность.
Метод k-ближайших соседей можно использовать для предсказания не только классов, но и чисел. Эти так называемые задачи регрессии мы рассмотрим далее в книге.
Эта идея обсуждается в чрезвычайно полезной книге Г. Уилсона «Teaching tech together» (CRC Press, 2019).
Надежная стратегия работы с данными способна смягчить эти проблемы. Разумеется, важным компонентом любой подобной стратегии является решение значимых проблем, и именно на этом мы сосредоточим внимание в этой главе. Если вы хотите узнать больше о высокоуровневой стратегии работы с данными, обратитесь к книге Jagare, U. Data science strategy for dummies. (John Wiley & Sons, 2019).