Акведуки способствовали росту городов, печатные станки — просвещению, а газеты — подъему национального государства. Эти инфраструктуры имели дело с потоками (воды и знаний), так же как телефон и интернет. В отличие от них датификация — фундаментальное изменение действительности в человеческом понимании. Благодаря большим данным мы перестанем рассматривать окружающий мир как бесконечное множество событий, которые объясняются как природные или социальные явления, а взглянем на него как на область, состоящую в основном из информации.
Более века назад физики предположили, что не атомы, а информация является настоящей основой всего сущего. И пусть это звучит эзотерически, но во многом именно благодаря датификации мы теперь можем полномасштабно фиксировать и рассчитывать материальные и нематериальные аспекты существования и действовать в соответствии с ними.
Взглянув на мир с точки зрения информации — бескрайних просторов данных, которые нам предстоит постичь, — мы получим небывалое представление об окружающей действительности. Это мировоззрение охватит все сферы нашей жизни. Со временем датификация, которая затмит акведуки и газеты, станет конкурировать с типографией и интернетом, вручив нам инструменты для преобразования мира с помощью данных. Сейчас делом заняты самые продвинутые пользователи. Большие данные используются для создания новых форм ценности, которые мы рассмотрим в следующей главе.
Глава 6 Ценность
В конце 1990-х годов началось массовое засорение интернета. Программы, именуемые «спам-ботами», программировались на то, чтобы узнать последовательность действий для подписки на бесплатную учетную запись электронной почты, а затем использовать ее для массовой рассылки рекламных сообщений десяткам миллионов людей, переполняя почтовые ящики. Эти же роботы могли регистрироваться на сайтах, а затем оставлять сотни рекламных объявлений в разделах комментариев. Интернет превращался в неуправляемое, недружелюбное и недоброжелательное место. В частности, казалось, он перестал быть примером открытости и простоты использования, предлагающим такие возможности, как бесплатная электронная почта. Когда компании вроде TicketMaster предлагали приобрести в интернете билеты на концерты по принципу «кто не успел, тот опоздал», подлые программы скупали их все, опережая реальных людей.
В 2000 году новоиспеченный выпускник колледжа 22-летний Луис фон Ан загорелся идеей решить эту проблему: нужно заставить регистрирующегося доказать, что он человек. Луис нашел то, что легко давалось людям, но представляло трудности для компьютеров: опознать в процессе регистрации искаженные, трудно читаемые буквы. Люди смогут расшифровать их и ввести правильный текст в считаные секунды, но компьютер будет поставлен в тупик. Компания Yahoo реализовала эту идею и стремительно сократила атаки спам-ботов. Фон Ан назвал свое творение Captcha (англ. Completely Automated Public Turing Test to Tell Computers and Humans Apart — «полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей»). Пять лет спустя около 200 миллионов Captcha стали вводиться ежедневно.
Это принесло Луису фон Анну, выходцу из гватемальской семьи, которая владела кондитерской фабрикой, широкую известность и работу преподавателя компьютерных наук в Университете Карнеги—Меллон, после того как ему была присвоена степень доктора философии. Благодаря своему изобретению в возрасте 27 лет он получил одну из престижных премий Фонда Макартуров[93] за «гениальность» в размере 500 тысяч долларов. Когда Луис понял, что каждый день миллионы людей тратили впустую около десяти секунд своего времени на ввод раздражающих букв и при этом огромное количество получаемой информации попросту выбрасывалось, он усомнился в гениальности своего изобретения.[94]
Луис фон Ан искал способы более продуктивного применения человеческой вычислительной мощности. В итоге был создан тест-преемник с подобающим названием ReCaptcha. Теперь, вместо того чтобы вводить случайные буквы, люди набирают два слова из проектов по сканированию текстов, которые не удалось распознать с помощью компьютерной программы оптического распознавания символов. Одно слово подтверждает, что его уже вводили другие пользователи (и, следовательно, является сигналом того, что пользователь — человек), а другое — новое слово, которое нужно уточнить. Чтобы гарантировать точность, система отображает одно и то же случайное слово до тех пор, пока примерно пять разных пользователей не введут его без ошибок, и только тогда слово считается правильным. Таким образом, данные имеют как основное назначение (доказать, что пользователь является человеком), так и второстепенное — расшифровать непонятные слова из оцифрованных текстов. Система ReCaptcha оказалась настолько полезной, что в 2009 году компания Google решила внедрить ее в свой проект сканирования книг.
Выгода от системы огромна, если учесть, сколько нужно людей для выполнения такой работы. Более 200 миллионов ReCaptcha вводятся ежедневно. Примерно 10 секунд, затрачиваемых на эту операцию, — это в общей сумме около полумиллиона часов в день. Минимальная заработная плата в США в 2012 году составляла 7,25 доллара в час. Если бы для уточнения слов, которые компьютер не мог понять, пришлось обратиться на рынок труда, это обошлось бы примерно в 35 миллионов долларов в день, или более чем 1 миллиард долларов в год. Но Луис фон Ан разработал систему, которая делает это, по сути, бесплатно.
История ReCaptcha подчеркивает, насколько важны повторные данные, особенно если это большие данные. В эпоху цифровых технологий мы осознали роль данных в поддержке операций, и нередко они сами становились товаром. В мире больших данных все снова меняется. Акцент переносится на потенциальное применение данных в будущем. Этот процесс влечет за собой далеко идущие последствия. Он влияет на то, как компании оценивают данные, имеющиеся в их распоряжении, и кому предоставляют к ним доступ. Он позволяет компаниям (а может быть, и вынуждает их) менять свои бизнес-модели, а также меняет отношение организаций к данным и способы их использования.
Информация всегда была необходима для рыночных сделок. Данные дают возможность проводить ценовые исследования, а те — определить объемы производства. Кроме того, на рынках давно торгуют определенными видами информации. Примеры тому — книги, статьи, музыка, фильмы, а также финансовая информация (такая как цены на акции). В последние несколько десятилетий подобная информация была объединена понятием личных данных. Специализированные брокеры данных в США, такие как Acxiom, Experian и Equifax, запрашивают кругленькие суммы за всеобъемлющие досье личной информации на сотни миллионов пользователей. С появлением Facebook, Twitter, LinkedIn, Foursquare и других платформ социальных сетей наши личные связи, мнения, предпочтения и примерный распорядок дня пополнили и без того огромный пул личной информации, уже имеющейся о каждом из нас.
Хотя ценность данных уже давно не вызывает сомнений, прежде они воспринимались как дополнение к основной коммерческой деятельности или как довольно ограниченные категории интеллектуальной собственности и личной информации. Но в эпоху больших данных все данные без исключения будут рассматриваться как ценные сами по себе.
Говоря «все данные», мы имеем в виду даже самые сырые, самые, казалось бы, обыденные отрывки информации. Это могут быть показатели датчика температуры на заводском механизме. Или поток координат GPS в режиме реального времени, показатели акселерометра и уровень топлива в автомобиле — или в целом автопарке из 60 000 единиц. Или миллиарды старых поисковых запросов, или цены на все авиабилеты по всем рейсам коммерческих авиакомпаний США за прошедшие годы.
До недавнего времени не существовало простого способа сбора, хранения и анализа таких данных, что значительно ограничивало возможность извлечь из них потенциальную ценность. В знаменитом примере Адама Смита[95] производителю булавок, с которым он обсуждал разделение труда в ХVIII веке, потребовались бы наблюдатели, постоянно присматривающие за сотрудниками, а также проведение измерений и подсчет выпущенной продукции с помощью бумаги и пера. Даже измерение времени было бы затруднительным, учитывая, что надежные часы в то время были редкостью.[96] Ограничения технической среды сформировали взгляды классических экономистов на устройство экономики — то, о чем они едва ли имели представление, так же как рыба не знает, что она мокрая. Поэтому, рассматривая факторы производства (земля, труд и капитал), они, как правило, упускали из виду роль информации. Хотя за последние два столетия стоимость сбора, хранения и использования данных успела снизиться, до недавних пор это по-прежнему оставалось относительно дорогим удовольствием.