Данные могут быть структурированными и неструктурированными.
Структурированные данные имеют определенную длину и формат. Даты сделок, имена и адреса клиентов, данные GPS, сведения штрихкода на кассе супермаркета все это структурированные данные. Представим себе, сколько товаров ежедневно проходит через кассы всех магазинов в мире дух захватывает от такого объема данных! Эти данные генерируются и тогда, когда мы проходим по ссылке на любой сайт. Они помогают представить потребительские привычки, предсказывают наше поведение.
Это самый древний вид данных: ведущие учет товаров месопотамские писцы тоже имели дело с именами и адресами клиентов.
Неструктурированные данные не имеют определенного формата. Метеоданные и результаты спутниковой фотосъемки, измерения сейсмоактивности, записи с камер наблюдения и результаты опросов, наконец, привычные электронные письма и все наши «цифровые следы» (соцсети, онлайн-покупки, штрафы за превышение скорости) это неструктурированные данные.
В среднем 80 % данных любого предприятия неструктурированные. Настоящий клондайк для предприимчивых бизнесменов, не так ли? Между тем до последнего времени не существовало технологий, которые бы помогали работать с этим типом данных. Их можно было лишь анализировать вручную. Тем самым пропадали колоссальные возможности.
А сегодня? Вы набираете в поисковой строке желаемый товар, а через минуту контекстная реклама сама возникает в браузере. С точки зрения программиста, это типичный результат комплексного взаимодействия структурированных и неструктурированных данных. Более того, только их взаимодействие (и желательно в режиме реального времени) и имеет смысл в качестве бизнес-стратегии.
Бизнес больше не может работать с изолированными хранилищами информации самые актуальные решения в этой области связаны с интеграцией данных. За это отвечают метаданные. Они обеспечивают кратчайший путь к искомой информации. Данные о банковском счете, содержащие собственно номер счета, а также имя и адрес клиента, типичный пример метаданных. Теги, которыми мы маркируем посты в соцсетях, тоже метаданные.
Специфика работы с данными
Специфика работы с данными определяется их типом. Данные могут быть:
передаваемыми (их также называют данными в движении), они транслируются непосредственно в ходе производственного процесса показания медицинских датчиков, приборы слежения;
хранимыми (или данными в покое) данные соцсетей, статистика продаж, переписка клиентов с кол-центрами.
Цикл работы с данными включает три этапа:
сбор данных;
систематизация;
обобщение.
На первый взгляд, в этом списке нет того, чего бы не знал и специалист середины XX века. Конкретное же содержание работы, как будет показано далее, может быть очень специфическим и разнообразным. К тому же сегодня в этом цикле появилась четвертая характеристика:
достоверность данных.
Большие данные океан информации, который, однако, питается тысячами информационных ручейков и речушек. Реляционные базы данных[2], изобретенные в XX веке, имели дело с высокоструктурированными упорядоченными данными, связанными с определенным аспектом деятельности. Сегодня ситуация изменилась. Чтобы у компании сложилась реалистичная картина происходящего, собранные данные должны охватывать множество источников, часто неструктурированных.
Инфраструктура больших данных
В мире, где информации становится все больше, а ее источники все разнообразнее, единственной эффективной стратегией работы сегодня остаются распределенные вычисления. Эта технология позволяет отдельным компьютерам, сколь угодно удаленным друг от друга, работать в качестве единой среды. Внедрение этой технологии привело в свое время к созданию интернета. В 1990-е Google, Yahoo! и Amazon увеличили бизнес-мощности, используя дешевеющее аппаратное обеспечение для хранения данных. А сегодня мы наблюдаем еще более тесное срастание технологий с бизнесом: ранее недоступные для анализа массивы информации становятся источником миллиардных доходов первыми это поняли все те же Amazon, Google и Facebook. Но распределенные вычисления сейчас лишь одна из составляющих инфраструктуры, которая обслуживает большие данные.