Чтобы распространить информацию об ОМП, я завела блог под названием MathBabe. Моей целью была мобилизация коллег-математиков на борьбу с небрежным использованием статистики и основанных на предвзятости моделей, которые создавали свои собственные токсичные петли обратной связи. Специалисты по анализу данных, которых заинтересовал мой блог, сообщали мне о распространении ОМП в новых областях. Но в середине 2011 года, когда в Нижнем Манхэттене развернулось протестное движение «Захвати Уолл-стрит», я поняла, что нам нужно работать с более широкой аудиторией. Тысячи протестующих собрались, чтобы потребовать экономической справедливости и финансовой подотчетности. Однако, когда я услышала интервью с участниками этого движения, я обнаружила, что они зачастую не знают о самых основных проблемах, связанных с финансами. Они явно не читали мой блог. (Тут я должна добавить, что необязательно знать все детали системы, чтобы понять, что она неработоспособна.)
Я поняла, что могу либо критиковать их, либо к ним присоединиться, и выбрала второе. Вскоре я уже проводила еженедельные встречи Альтернативной банковской группы при Колумбийском университете, где мы обсуждали финансовую реформу. В ходе этого процесса я осознала, что обе мои вылазки за пределы академического мира – одна в финансы и другая в науку данных – обеспечили меня потрясающим доступом к технологиям и ОМП, приводимому в действие культурой.
Плохо продуманные математические модели в наши дни управляют экономикой везде, от рекламных кампаний до тюрем. Это ОМП обладает многими характеристиками, которые похожи на модель подсчета прогресса учеников, чуть не пустившую под откос карьеру Сары Высоцки в вашингтонских школах. Они непрозрачны, не подвергаются вопросам и сомнениям, массово распространены и занимаются тем, что сортируют, вычленяют и «оптимизируют» миллионы людей. Путая свои выводы с объективной реальностью, большинство из них создает губительные петли обратной связи ОМП.
Но есть одно важное различие между моделью подсчета увеличения коэффициента знаний учеников, созданной школьным округом, и, скажем, разновидностью оружия математического поражения, подсчитывающей перспективы выдачи микрокредитов. Они имеют разную отдачу. Для школьного округа отдача – что-то вроде политической валюты: ощущение, что задачи решаются. Но для бизнеса валюта используется самая стандартная: деньги. Для многих предприятий, применяющих эти грубые алгоритмы, притекающие к ним денежные потоки дают иллюзию доказательства того, что их модели работают. Посмотрите на ситуацию их глазами – и она для вас будет иметь смысл. Когда такие предприятия строят статистические системы, чтобы найти клиентов или манипулировать отчаявшимися заемщиками, растущий доход демонстрирует им, что они на правильном пути. Программное обеспечение хорошо делает свою работу. Проблема заключается в том, что прибыль выступает как мерило качества моделей. Мы увидим, как это опасное заблуждение будет проявляться снова и снова.
Это происходит из-за того, что специалисты по анализу данных слишком часто теряют из виду людей, для которых вроде бы предназначен этот анализ. Эти специалисты наверняка понимают, что программа, обрабатывающая данные, не может в определенном проценте случаев не дать неправильную оценку, ошибочно поместив того или иного человека в ту или иную социальную группу, что приведет к тому, что он не получит хорошую работу или шанс взять ипотеку на дом своей мечты. Но чаще всего люди, управляющие ОМП, не зацикливаются на этих ошибках. Их обратная связь – это деньги, а рост прибылей – их мотивация. Их системы разработаны так, чтобы захватывать как можно больше данных и оттачивать аналитику, обеспечивая все больший приток денег. Инвесторы, конечно же, радуются своей прибыли и осыпают компании-разработчики ОМП еще большим количеством денег.
А жертвы? Любой специалист по анализу внутренних данных скажет вам, что ни одна статистическая система не может быть идеальной. Жертвы – это сопутствующий риск. И зачастую их признают, как Сару Высоцки, всего лишь расходным материалом. Забудьте о них на минуту, скажут вам, и подумайте обо всех тех людях, которые получили полезные предложения через рекомендации от поисковиков, или нашли любимую музыку на сайте Pandora, или идеальную работу на LinkedIn, или, возможно, встретили любовь всей своей жизни на Match.com. Думайте о впечатляющих масштабах, позабудьте о мелких недостатках.
Большие данные имеют много горячих поклонников, но я к ним не отношусь. Эта книга будет острейшим образом сосредоточена на другом направлении: на том ущербе, который приносит оружие математического поражения, и на несправедливостях, которые оно порождает. Мы исследуем ущерб, который был нанесен людям в критические моменты их жизни: во время поступления в колледж, при попытках взять кредит, при вынесении им приговора в суде, в поисках работы. Все эти жизненно важные рубежи всё в большей и большей степени контролируются тайными моделями, которые произвольно наказывают людей.
Добро пожаловать на темную сторону Больших данных.
Компоненты бомбы: что такое модель?
Стоял жаркий августовский день 1946 года. У Лу Бодро, играющего менеджера команды Cleveland Indians, было отвратительное настроение. В первой из двух игр, намеченных на этот день, Тед Уильямс практически в одиночку уничтожил команду Бодро. Уильямс, возможно лучший хиттер того времени, выбил три хоум-рана и еще довел восемь игроков до домашней базы. В итоге «Индейцы» проиграли со счетом 10:11.
Бодро нужно было что-то предпринять. Поэтому, как только Уильямс вышел на поле во второй игре, игроки «Индейцев» начали быстро перемещаться. Бодро, шорт-стоп, перебежал на место, где обычно стоял второй бейсмен, а второй бейсмен отошел на правый аутфилд, третий бейсмен сдвинулся влево, к месту шорт-стопа. Было очевидно, что Бодро (возможно, эта идея была продиктована отчаянием) полностью изменил расположение своей защиты, чтобы превратить хиты Теда Уильямса в ауты.
Другими словами, Бодро мыслил как специалист по анализу данных. Он проанализировал предварительные данные, по большей части на основе наблюдений: обычно Тед Уильямс делал подачу в правый аутфилд. Затем он предпринял меры – и они сработали. Игроки стали ловить больше мощных лайнеров Уильямса (хотя они по-прежнему ничего не могли сделать с хоум-ранами, пролетающими над их головами).
Если вы сегодня придете на бейсбольную игру высшей лиги, вы увидите, что защита относится практически к каждому игроку противника как к Теду Уильямсу. Если Бодро просто пронаблюдал за тем, куда Уильямс обычно направлял удар, то сейчас менеджеры точно знают, куда каждый игрок направлял удар в течение последней недели, за последний месяц, за всю карьеру, играя против левшей, в ситуации, когда у него было два страйка, и так далее и тому подобное. Используя эту собранную информацию, они могут проанализировать текущую ситуацию и рассчитать расстановку игроков, дающую наибольшую вероятность успеха. Иногда это включает в себя довольно-таки существенные перемещения игроков по полю.
Перенос защиты – лишь часть гораздо более серьезного вопроса: какие шаги могут предпринять бейсбольные команды для максимизации вероятности победы? В поисках ответа на этот вопрос специалисты по бейсбольной статистике изучили каждую переменную, которую смогли количественно измерить, и присвоили ей определенную ценность. Насколько дабл ценнее сингла? Когда, если вообще когда-либо, имеет смысл использовать сэкрифайс-бант для перемещения раннера с первой на вторую базу?