Smart Reading - Ключевые идеи книги: Просто о больших данных. Джудит Гурвиц, Алан Ньюджент, Ферн Халпер, Марсия Кауфман стр 2.

Шрифт
Фон

Данные могут быть структурированными и неструктурированными.

Структурированные данные имеют определенную длину и формат. Даты сделок, имена и адреса клиентов, данные GPS, сведения штрихкода на кассе супермаркета все это структурированные данные. Представим себе, сколько товаров ежедневно проходит через кассы всех магазинов в мире дух захватывает от такого объема данных! Эти данные генерируются и тогда, когда мы проходим по ссылке на любой сайт. Они помогают представить потребительские привычки, предсказывают наше поведение.

Это самый древний вид данных: ведущие учет товаров месопотамские писцы тоже имели дело с именами и адресами клиентов.

Неструктурированные данные не имеют определенного формата. Метеоданные и результаты спутниковой фотосъемки, измерения сейсмоактивности, записи с камер наблюдения и результаты опросов, наконец, привычные электронные письма и все наши «цифровые следы» (соцсети, онлайн-покупки, штрафы за превышение скорости)  это неструктурированные данные.

В среднем 80 % данных любого предприятия неструктурированные. Настоящий клондайк для предприимчивых бизнесменов, не так ли? Между тем до последнего времени не существовало технологий, которые бы помогали работать с этим типом данных. Их можно было лишь анализировать вручную. Тем самым пропадали колоссальные возможности.

А сегодня? Вы набираете в поисковой строке желаемый товар, а через минуту контекстная реклама сама возникает в браузере. С точки зрения программиста, это типичный результат комплексного взаимодействия структурированных и неструктурированных данных. Более того, только их взаимодействие (и желательно в режиме реального времени) и имеет смысл в качестве бизнес-стратегии.

Бизнес больше не может работать с изолированными хранилищами информации самые актуальные решения в этой области связаны с интеграцией данных. За это отвечают метаданные. Они обеспечивают кратчайший путь к искомой информации. Данные о банковском счете, содержащие собственно номер счета, а также имя и адрес клиента,  типичный пример метаданных. Теги, которыми мы маркируем посты в соцсетях,  тоже метаданные.

Специфика работы с данными

Специфика работы с данными определяется их типом. Данные могут быть:

 передаваемыми (их также называют данными в движении), они транслируются непосредственно в ходе производственного процесса показания медицинских датчиков, приборы слежения;

 хранимыми (или данными в покое)  данные соцсетей, статистика продаж, переписка клиентов с кол-центрами.

Цикл работы с данными включает три этапа:

 сбор данных;

 систематизация;

 обобщение.

На первый взгляд, в этом списке нет того, чего бы не знал и специалист середины XX века. Конкретное же содержание работы, как будет показано далее, может быть очень специфическим и разнообразным. К тому же сегодня в этом цикле появилась четвертая характеристика:

 достоверность данных.

Большие данные океан информации, который, однако, питается тысячами информационных ручейков и речушек. Реляционные базы данных[2], изобретенные в XX веке, имели дело с высокоструктурированными упорядоченными данными, связанными с определенным аспектом деятельности. Сегодня ситуация изменилась. Чтобы у компании сложилась реалистичная картина происходящего, собранные данные должны охватывать множество источников, часто неструктурированных.

Инфраструктура больших данных

В мире, где информации становится все больше, а ее источники все разнообразнее, единственной эффективной стратегией работы сегодня остаются распределенные вычисления. Эта технология позволяет отдельным компьютерам, сколь угодно удаленным друг от друга, работать в качестве единой среды. Внедрение этой технологии привело в свое время к созданию интернета. В 1990-е Google, Yahoo! и Amazon увеличили бизнес-мощности, используя дешевеющее аппаратное обеспечение для хранения данных. А сегодня мы наблюдаем еще более тесное срастание технологий с бизнесом: ранее недоступные для анализа массивы информации становятся источником миллиардных доходов первыми это поняли все те же Amazon, Google и Facebook. Но распределенные вычисления сейчас лишь одна из составляющих инфраструктуры, которая обслуживает большие данные.

Ваша оценка очень важна

0
Шрифт
Фон

Помогите Вашим друзьям узнать о библиотеке

Скачать книгу

Если нет возможности читать онлайн, скачайте книгу файлом для электронной книжки и читайте офлайн.

fb2.zip txt txt.zip rtf.zip a4.pdf a6.pdf mobi.prc epub ios.epub fb3