Большие данные

Большие данные (big data) – это часть учебной программы «Управление эффективностью бизнеса»

Что такое большие данные?

Есть множество определений термина «большие данные», но большинство предлагает что-то вроде следующего:

«Чрезвычайно большая совокупность данных (массивов данных), которую можно анализировать, чтобы выявить закономерности, тенденции и взаимосвязи, особенно относящиеся к поведению и взаимодействию людей».

Кроме того, во многих определениях также говорится, что массивы данных настолько велики, что традиционные методы хранения и их обработки работать не будут.

Характеристики больших данных, известные как 3V, таковы:

  • Разнообразие
  • Скорость
  • Объем

Эти характеристики, а иногда ещё некоторые дополнительные, в целом были приняты как основные качества больших данных. Самый распространенный четвертый знак «V», который иногда добавляют, — это Достоверность (Veracity): верны ли данные и можно ли полагаться на их точность?

PM BD fig 1

Объем

Объем большого количества данных, хранящихся в крупных компаниях, таких как Walmart (супермаркеты), Apple и EBay, измеряется во многих петабайтах. Типичный диск на персональном компьютере (ПК) содержит гигабайты, поэтому хранилища этих компаний содержат как минимум те данные, которые обычно могут находиться на миллионе ПК, возможно, даже на 10-20 миллионах ПК.

Такие масштабы трудно понять. Вероятно, полезнее рассмотреть типы данных, которые обычно будут хранить крупные компании.

Розничная сеть
С помощью карт лояльности, которые проводятся на кассе: детали всех покупок, которые вы совершаете, время, место и способ оплаты, использование купонов.

Через веб-сайты: каждый продукт, который вы просматривали, каждую страницу, которую вы посетили, каждый продукт, который вы когда-либо покупали.

Социальные сети (такие как Facebook и Twitter)
Друзья и контакты, сделанные публикации, ваше местоположение при создании сообщений, фотографии (которые можно отсканировать для идентификации), любые другие данные, которые вы можете выбрать, чтобы показать вселенной.

Компании мобильной связи
Номера, на которые вы звоните, тексты, которые вы отправляете (которые могут автоматически сканироваться на наличие ключевых слов), каждое местоположение, в котором ваш телефон когда-либо был включен (с точностью до нескольких метров), ваши привычки просмотра. Голосовая почта.

Интернет-провайдеры и провайдеры браузеров
Каждый сайт и каждая страница, которую вы посещаете. Информация обо всех загрузках и всех электронных письмах (опять же, они регулярно сканируются, чтобы давать представление о ваших интересах). Условия поиска, которые вы вводите.

Банковские системы
Каждая квитанция, оплата, информация о кредитной карте (сумма, дата, продавец, местоположение), местонахождение банкоматов.

Разнообразие

Некоторые моменты в отношении разнообразия информации можно увидеть в перечисленных выше примерах. В частности, имеют место следующие виды информации:

  • Просмотр действий: сайты, просмотренные страницы, членство на сайтах, загрузка, поиск
  • Финансовые операции
  • Интересы
  • Покупательские привычки
  • Реакция на рекламу в интернете, а также на рекламные письма
  • Географическая информация
  • Информация о социальных и деловых контактах
  • Текст
  • Числовая информация
  • Графическая информация (например, фотографии)
  • Устная информация (например, голосовая почта)
  • Техническая информация; например, анализ вибрации и температуры реактивного двигателя.

Эти данные могут быть как структурированными, так и неструктурированными.

Структурированные данные: эти данные хранятся в определенных полях (числа, тексты, даты и т. д.), часто с определенной длиной, в определенной записи, в файле схожих записей. Для структурированных данных требуется модель типов и формата бизнес-данных, которые будут записываться, и того, как такие данные будут храниться, обрабатываться и использоваться. Это называется моделью данных. Проектирование модели определяет и ограничивает данные, которые могут быть собраны и сохранены, и обработку, которая может быть выполнена с её помощью.

Пример структурированных данных можно найти в банковских системах, которые регистрируют поступления и платежи с вашего текущего счета: дату, сумму, получение/оплату, краткие пояснения, такие как получатель или источник денег.

Структурированные данные находятся в быстром доступе благодаря устоявшимся языкам структурированных запросов баз данных.

Неструктурированные данные: к ним относится информация, которая не имеет заранее определенной модели данных. Она бывает разных форм и размеров, и именно это разнообразие и нерегулярность затрудняет её хранение таким образом, чтобы её можно было проанализировать, найти или использовать каким-либо иным образом. Часто цитируют исследования, по результатам которых 80% бизнес-данных неструктурированны и находятся в документах текстовых процессоров, электронных таблицах, файлах PowerPoint, аудио- и видеозаписях о взаимодействиях в социальных сетях и картографических данных.

Вот пример неструктурированных данных и их использования в среде розничных сетей.

Вы входите в большой магазин, и у вас есть мобильный телефон. Это позволяет отслеживать ваше движение по магазину. Магазин может знать или не знать, кто вы (в зависимости от того, знает ли он номер вашего мобильного телефона).

Магазин может записать, какие отделы вы посещаете и сколько времени вы проводите в каждом. Камеры видеонаблюдения на потолке сопоставляют ваше изображение с телефоном, поэтому теперь они знают, как вы выглядите, и смогут узнать вас при будущих посещениях.

Вы проходите рядом с конкретным продуктом, и предыдущие записи показывают, что вы ранее уже смотрели на этот продукт, поэтому вам может быть отправлено текстовое сообщение с напоминанием об этом или объявление о снижении цены на 10%. Возможно, в магазине проводится маркетинговая кампания, в которой говорится, что он всегда предлагает наилучшие условия, поэтому, когда вы проходите мимо товаров, вы можете сравнить цены, и магазин должен проверить цены на веб-сайтах других магазинов, сообщив вам новую цену. Если вы покупаете продукт, то у магазина могут появиться дополнительные маркетинговые возможности для сопутствующих товаров и расходных материалов, и эти данные тоже должны быть записаны.

Вы оплачиваете покупки с помощью кредитной карты, которая связана с другой организацией, например, благотворительным фондом или авиакомпанией, поэтому теперь магазин имеет некоторое представление о ваших интересах.

Возможно, вы покупаете несколько товаров, и магазин захочет узнать, покупаются ли эти товары вместе.

Таким образом, простое посещение магазина может сгенерировать огромное количество данных, которые будут очень разными по размеру и характеру для каждого человека.

Скорость

Информация должна предоставляться достаточно быстро, чтобы быть полезной при принятии решений и управлении эффективностью. Например, в приведенном выше сценарии магазина было бы мало пользы от получения информации о сравнении цен и от отправки текстовых сообщений покупателям после того, как они уже покинули магазин. Если предполагается, что распознавание лиц будет использоваться в магазинах и отелях, то оно должно происходить более или менее мгновенно, чтобы, встречая гостей, успеть обратиться к ним по имени.

Вы поймете, что объем и разнообразие действуют против скорости, и поэтому необходимо найти методы для обработки огромного количества неоднородных, неудобных данных в режиме реального времени.

Обработка и анализ больших данных

Обработка больших данных обычно называется аналитикой больших данных и включает в себя:

  • Интеллектуальный анализ данных: анализ данных для определения закономерностей и установления таких связей, как ассоциации (где связаны несколько событий), последовательности (где одно событие приводит к другому) и корреляции.
  • Прогнозная аналитика: тип интеллектуального анализа данных, целью которого является прогнозирование будущих событий. Например, вероятность того, что кого-то убедят повысить класс билета на рейс.
  • Анализ текста: сканирование текстов, таких как электронные письма, и обработка документов текстовыми процессорами для извлечения полезной информации. Это может быть просто поиск по ключевым словам, которые указывают на интерес к продукту или месту.
  • Голосовая аналитика: всё, что описано выше, только со звуком.
  • Статистическая аналитика: используется для выявления тенденций, корреляций и изменений в поведении.

Аналитические результаты могут привести к:

  • Более эффективному маркетингу
  • Лучшему обслуживанию клиентов и управлению отношениями с ними
  • Повышению лояльности клиентов
  • Повышению конкурентоспособности
  • Повышению операционной эффективности
  • Появлению улучшенных моделей учёта себестоимости
  • Открытию новых источников дохода

Примеры использования больших данных

Netflix: эта компания начинала как служба рассылки DVD и разрабатывала алгоритмы, которые помогли бы ей предсказывать предпочтения и привычки зрителей. Теперь она предоставляет фильмы через Интернет и может легко собирать информацию о том, когда смотрят фильмы, как часто фильмы могут быть остановлены и перезапущены, где их просмотр может быть не завершён и как пользователи оценивают фильмы. Это позволяет Netflix прогнозировать, какие фильмы будут популярны среди клиентов. Большие данные также используется Netflix для производства собственных сериалов, потому с гораздо большей уверенностью можно утверждать, что это будут хиты.

Amazon: ведущий в мире интернет-магазин собирает огромное количество информации о предпочтениях и привычках клиентов, что позволяет ему очень точно адресовать своё предложение каждому клиенту. Например, он регулярно дает рекомендации клиентам на основе ранее купленных книг или DVD-дисков.

Airlines: они знают, куда вы летали; какие места, класс салона вы предпочитаете; когда вы летаете; как часто вы ищете рейс перед бронированием; насколько вы чувствительны к снижению цен; какую авиакомпанию вы могли бы забронировать вместо них; возвращаетесь ли вы с ними, если вылетали рейсом другой авиакомпании; был ли в последний раз взят в прокат автомобиль; какой класс отелей вы могли бы забронировать через их сайт; какие маршруты становятся популярнее и какова сезонность маршрутов. Они также знают прибыльность каждого клиента, так что, например, в случае отмены рейса, они могут в первую очередь помочь самым ценным клиентам.

Эта информация позволяет авиакомпаниям разрабатывать новые маршруты и графики, подбирать маршруты для самолетов, а также делать индивидуальные предложения для каждого потенциального пассажира.

Target: Target является вторым по величине дисконтным ритейлером в США. Обыкновенно пересказывается история о его способности определять, когда клиентка беременна: часто в компании это знают ещё до того, как клиентка сообщила новость своей семье. Утверждается, что Target может сделать предсказание о беременности на основании анализа последних 25 просмотренных продуктов. Например, ранняя беременность часто вызывает утреннее недомогание, поэтому клиентки, возможно, перейдут на более лёгкую пищу и менее ароматный гель для душа. Почему Target будет интересно узнать, беременна ли покупательница? Потому что она будет нуждаться в различных продуктах во время беременности, а потом, через несколько месяцев, у ребенка будут свои собственные потребности в продуктах: подгузники, детский шампунь и одежда. Для Target раннее выявление беременности – это возможность установить покупательские привычки матери и, возможно, даже предпочтения ребенка.

Tesco: Британская сеть супермаркетов Tesco работает в нескольких странах по всему миру. В Ирландии компания разработала систему для анализа температуры своих холодильников в магазине. В холодильниках были установлены датчики, которые измеряли температуру каждые три секунды и отправляли информацию через Интернет в центральное хранилище данных. Анализ этих данных позволил компании определить устройства, которые функционировали при неправильных температурах. Компания обнаружила, что ряд холодильников работает при температуре ниже рекомендуемых показателей (от -21◦C до -23◦C). Очевидно, что потраченная впустую энергия стоила денег. Учитывая, что в Ирландии компания расходует 10 миллионов евро в год на охлаждение холодильников, ожидаемое сокращение этих расходов на 20% стало значительной экономией.

Система также позволила инженерам удаленно контролировать работу холодильников. Когда они определяли, что конкретное устройство неисправно, они могли сразу проанализировать проблему, а только потом ехать в магазин с нужными деталями, чтобы их заменить. Ранее холодильники могли быть отремонтированы только тогда, когда менеджер магазина обнаруживал проблему, что обычно случалось, когда проблема превращалась в нечто более серьезное. Инженеры должны были посетить магазин, определить проблему и только потом, во второй раз, приехать в магазин с необходимыми деталями.

Опасности и риски больших данных

Несмотря на примеры использования больших данных в торговле, особенно для маркетинга и управления взаимоотношениями с клиентами, существуют также некоторые потенциальные опасности и недостатки.

Стоимость: Установить необходимое аппаратное и аналитическое программное обеспечение стоит дорого, хотя эти затраты постоянно снижаются.

Регулирование: Некоторые страны и культуры обеспокоены количеством собираемой информации, потому они приняли законы, регулирующие её сбор, хранение и использование. Нарушение закона может иметь серьезные репутационные и санкционные последствия.

Потеря и кража данных: Помимо последствий, возникающих из-за нарушений нормативных требований, о которых говорилось выше, компании подвержены риску гражданского судопроизводства, если данные будут украдены и в результате пострадают отдельные лица.

Неверные данные (достоверность): Если имеющиеся данные неверны или устарели, возможны неверные выводы. Даже если данные верны, некоторые корреляции могут быть ложными, что приведёт к ложным выводам о правильности гипотезы.

Выдержки из статей Кена Гарретта, внештатного лектора и писателя, и Ника Райана, эксперта в данной области в компании BPP.