Большие данные являются как инструментом, так и ресурсом и предназначены в большей степени информировать, чем объяснять. Они ведут людей к пониманию, но все еще могут вызывать недоразумения в зависимости от того, как с ними обращаться. Какими бы ослепительными ни были возможности больших данных, мы не должны позволять, чтобы их соблазнительный блеск затмил свойственные им недостатки.
Мы никогда не сможем собрать, сохранить или обработать всю совокупность мировой информации — максимальное количество «N = всё» — с помощью существующих технологий. Лаборатория физики элементарных частиц ЦЕРН в Женеве собирает менее 0,1% информации, которая создается в процессе экспериментов, а остальное рассеивается, как дым, вместе с сопутствующими знаниями.[166] Но это вряд ли новая истина. Общество всегда было ограничено в инструментах, используемых для измерения и познания действительности — от компаса и секстанта до телескопа, радара и, наконец, GPS. Наши инструменты завтра могут стать вдвое, десятикратно или даже в тысячу раз мощнее, чем сегодня, основательно снизив значимость наших нынешних знаний. В скором времени наш мир больших данных покажется чем-то столь же забавным, как память 4 Кб бортового управляющего компьютера «Аполлон-11».[167]
Мы всегда сможем собирать и обрабатывать лишь малую часть совокупной всемирной информации, и она может быть только подобием действительности, словно тени на стенах пещеры Плато.[168] Поскольку информация не бывает идеальной, наши прогнозы так или иначе подвержены ошибкам. Но это не означает неправильности данных — просто они не бывают полными. Такое положение вещей не отрицает открытий со стороны больших данных, но все расставляет по местам. Большие данные не дают окончательных ответов, но и те, что есть, дают нам возможность дождаться лучших методов и, следовательно, лучших ответов. А между тем нам следует использовать большие данные с большой долей беспристрастности… и человечности.
Примечания
1
Статья о тенденциях распространения гриппа, опубликованная в научном журнале Nature: Jeremy Ginsburg et al. Detecting influenza epidemics using search engine query data // Nature. — 2009. — Vol. 457. — P. 1012–1014. URL: http://www.nature.com/nature/journal/v457/n7232/full/nature07634.html
2
Дополнительное исследование службы Google Flu Trends (в соответствии с независимым дополнительным клиническим исследованием в госпитале Джона Хопкинса): Dugas et al. Google Flu Trends: Correlation with Emergency Department Influenza Rates and Crowding Metrics // CID Advanced Access. — January 8, 2012. — DOI 10.1093/cid/cir883.
3
Покупка авиабилетов: Farecast — информация от Кеннета Кукьера: Kenneth, Cukier. Data, data everywhere // The Economist. — February 27, 2010. — P. 1–14. А также интервью с Эциони (2010–2012 гг.).
4
Директор исследовательского центра имени Тьюринга при Вашингтонском университете.
5
Статья Эциони «Гамлет»: Etzioni, Oren. To buy or not to buy: mining airfare data to minimize ticket purchase price / Oren Etzioni, C. A. Knoblock, R. Tuchinda, and. A. Yates // SIGKDD ’03. — August 24–27, 2003. URL: http://knight.cis.temple.edu/~yates//papers/hamlet-kdd03.pdf.
6
Сколько компания Microsoft заплатила за Farecast. Из сообщений СМИ, в частности: Secret Farecast buyer is Microsoft // Seattlepi.com. — April 17, 2008. URL: http://blog.seattlepi.com/venture/2008/04/17/secret-farecast-buyer-is-microsoft/?source=mypi.
7
Астрономия и секвенирование ДНК. Специальный отчет в журнале The Economist (см. выше): Data, data everywhere // The Economist. — February 27, 2010. — P. 1–14.
8
Секвенирование ДНК: Pollack, Andrew. DNA Sequencing Caught in the Data Deluge // New York Times. — November 30, 2011. URL: http://www.nytimes.com/2011/12/01/business/dna-sequencing-caught-in-deluge-of-data.html?pagewanted=all.
9
Статистика Facebook: Facebook IPO prospectus // Facebook. — Form S-1 Registration Statement, US Securities And Exchange Commission. — February 1, 2012. URL: http://sec.gov/Archives/edgar/data/1326801/000119312512034517/d287954ds1.htm.
10
Статистика YouTube: Page, Larry. Update from the CEO // Google, April 2012. URL: http://investor.google.com/corporate/2012/ceo-letter.html.
11
Количество твитов: Geron, Tomio. Twitter’s Dick Costolo: Twitter Mobile Ad Revenue Beats Desktop On Some Days // Forbes. — June 6, 2012. URL: http://www.forbes.com/sites/tomiogeron/2012/06/06/twitters-dick-costolo-mobile-ad-revenue-beats-desktop-on-some-days/.
12
Информация и количество данных: Hilbert, Martin. How to measure the world’s technological capacity to communicate, store and compute information? / Martin and Hilbert Priscila Lopez // International Journal of Communication. — 2012. URL: http://www.ijoc.org/ojs/index.php/ijoc/article/viewFile/1562/742.
13
По оценкам за 2013 год, объем сохраненной информации равен 1,2 зеттабайта, из которых нецифровая информация составляет менее 2% (из интервью Гилберта Кукьеру).
14
Печатный станок и восемь миллионов книг (больше, чем было выпущено с момента основания Константинополя): Eisenstein, Elizabeth L. The Printing Revolution in Early Modern Europe. — Cambridge: Canto/Cambridge University Press, 1993. — P. 13–14.
15
Аналогия Питера Норвига. Из бесед с Норвигом о его труде The Unreasonable Effectiveness of Data (написанном в соавторстве), в частности: Norvig, Peter. The Unreasonable Effectiveness of Data // Лекция в Университете провинции Британская Колумбия. — Видео YouTube. — 23.09.2010. URL: http://www.youtube.com/watch?v=yvDCzhbjYWs.
16
Пикассо об изображениях в Ласко: Whitehouse, David. UK Science shows cave art developed early // BBC News Online. — October 3, 2001. URL: http://news.bbc.co.uk/1/hi/sci/tech/1577421.stm.
17
Jeopardy! («Рискуй!») — телеигра, популярная во многих странах мира. Российский аналог — «Своя игра». Здесь и далее прим. ред.
18
Walmart — американская компания-ретейлер, управляющая крупнейшей в мире розничной сетью.
19
CapitalOne — американская банковская холдинговая компания, специализирующаяся на кредитах.
20
«Человек, который изменил всё» (Moneyball) — биографическая спортивная драма режиссера Беннетта Миллера. На русском языке издана книга: Льюис М. Moneyball. Как математика изменила самую популярную спортивную лигу в мире. М. : Манн, Иванов и Фербер, 2014.
21
Линия Мажино — система французских укреплений на границе с Германией.
22
О Джеффе Йонасе и о том, что «говорят» данные: беседа с Джеффом Йонасом (декабрь 2010 года, Париж).
23
В Древнем Риме: перепись граждан с указанием имущества для определения их социально-политического, военного и податного положения.
24
История переписей в США: US Census Bureau. The Hollerith Machine (онлайн-материал). URL: http://www.census.gov/history/www/innovations/technology/the_hollerith_tabulator.html (последнее посещение — 25.07.2012).
25
Вклад Неймана: Kruskal, William. Representative Sampling, IV: the History of the Concept in Statistics, 1895–1939 / William Kruskal and Frederick Mosteller // International Statistical Review. — 1980. — Vol. 48. — P. 169–195, 187–188. Знаменитая статья Неймана: Neyman, Jerzy. On the Two Different Aspects of the Representative Method: The Method of Stratified Sampling and the Method of Purposive Selection // Journal of the Royal Statistical Society. — 1934. — Vol. 97, No. 4 . — P. 558–625.
26
Выборки из 1100 результатов наблюдений достаточно. Пример см. в статье: Babbie, Earl. Practice of Social Research. — 12th ed., 2010. — P. 204–207.
27
Подводные камни опросов: Crossen, Cynthia. Fiasco in 1936 Survey Brought ‘Science’ To Election Polling // Wall Street Journal. — October 2, 2006. URL: http://online.wsj.com/public/article/SB115974322285279370-_rk13XDUHmIcnA8DYs5VUscZG94_20071001.html?mod=rss_free.
28
Влияние сотовых телефонов: Estimating the Cellphone Effect. — September 20, 2008. URL: http://www.fivethirtyeight.com/2008/09/estimating-cellphone-effect-22-points.html.
29
23andme — частная компания в Маунтин-Вью, Калифорния, где разрабатываются новые биотехнологические методы.
30
Генетическое секвенирование Стива Джобса: Isaacson, Walter. Steve Jobs. — 2011.
31
Google Flu Trends: прогнозирование на уровне городов с 75%-ной точностью: Dugas et al. Google Flu Trends: Correlation with Emergency Department Influenza Rates and Crowding Metrics // CID Advanced Access. — January 8, 2012.
32
Эциони о временных данных: интервью Кукьеру (октябрь 2011 года).
33
Исполнительный директор компании Xoom: Rosenthal, Jonathan. Special report: International banking // The Economist. — May 19, 2012. — P. 7–8.
34
Корректировка боев сумо: Duggan, Mark. Winning Isn’t Everything: Corruption in Sumo Wrestling / Mark Duggan & Steven D. Levitt // American Economic Review. — 2002. — Vol. 92. — P. 1594–1605. URL: http://pricetheory.uchicago.edu/levitt/Papers/DugganLevitt2002.pdf.
35
Левитт С., Дабнер С. Фрикономика. М. : Манн, Иванов и Фербер, 2011.