Мы с вами живем в цифровом мире. Мире, в котором ежесекундно поступает и обрабатывается огромное количество информации. Для этого даже несколько лет назад придумали специальный термин Big Data или в переводе с английского в буквальном смысле «большие данные».
Понятие Big Data
Дословно Big Data означает большие данные. Данный термин используется для описания большого и растущего набора данных. И данные правда большие. Приведем простой пример. У каждого из нас есть аккаунт в социальных сетях – это Вконтакте, Фейсбук, Инстаграм и так далее. Каждый из нас там чаще или реже оставляет фотографии, сообщения. И представляете, сколько это физически должно занимать место на серверах социальных сети. Термин «большие данные» появился в 2008 году в статье, опубликованной в журнале Nature. Что это такое объяснил американский учёный Клиффорд Линч. По мнению Линча – Биг дейт – это любые массивы информации объемом больше 50 гигабайт в сутки. На сегодня такие объемы кажутся ученым уже слишком маленькими для по-настоящему больших данных. Но новых критериев пока нет. И вряд ли они появятся, слишком быстро сменяется в этой теме.
Мы все используем смартфоны, но задумывались ли вы когда-нибудь, столько данных они генерируют в виде текстов, телефонных звонков, электронных писем, фотографий, видео, поисковых запросов, музыки. Около 40 экзабайт данных генерируется каждый месяц одним пользователем смартфона. А теперь представьте это число, умноженное на 5 миллиардов смартфонов. Это много для нашего сознания. Хоть и названо простыми словами.
На самом деле этот объем данных довольно велик, для того чтобы справились с обработкой традиционные вычислительные системы. И огромный объем данных – это то, что мы называем бигдата.
Давайте посмотрим на сгенерированные данные в минуту в Интернете:
- 2,1 миллиона снимков публикуются в Snapchat;
- 3,8 миллиона поисковых запросов выполняются в Google;
- 1 миллион человек регистрируется на Facebook;
- 4,5 миллиона видео просматриваются на YouTube;
- 188 миллионов электронных писем отправляется сейчас.
Для этого и используются технологии больших данных.
Какие данные мы можем считать, как биг дата
В законе Мура был описан экспоненциальный рост того, на что способна вычислительная техника. Исходя из этого, невозможно четко обозначить критерии тех самых больших данных. Но мы можем выделить те характеристики, которые отражаются в следующей концепции:
- достоверность данных и результатов их обработки (Veracity) – учитывая то, что на основе данных принимаются управленческие решения, достоверность очень важна.
- ценность (Value) – насколько ценны предоставленные данные. Очевидно, что номера банковских карт долларовых миллиардеров и пин-коды от них более ценная информация, чем публикации этих людей в Твиттере.
- разнообразие (Variety) – большие данные могут существовать в любых формах. От упорядоченных таблиц, до огрызков текстовых файлов.
- объем (Volume) – минимум 150 гигабайт в сутки.
- скорость накопления и анализа больших данных (Velocity) — Big Data обновляются каждую секунду, значит, скорость должна быть огромной. В идеале, данные должны обрабатываться в онлайн режиме.
Центр обработки данных – это место, где хранится и, как ясно из названия, обрабатывается та или иная информация.
Источниками биг дейта можно считать:
- Интернет. В том числе социальные сети, форумы, сайты, различные СМИ.
- Корпоративная информация. Базы данных, архивы, хранилища файлов.
- Показания различных приборов. А именно датчики, регистраторы и так далее.
Приведем простой пример использования больших данных. Интернет-магазин собирает данные о покупателях, их заказов, чтобы формировать правильный ассортимент, показывать рекламу, тем, кому она будет интересна. Увеличивать продажи, следовательно, получать большую прибыль. Также, отталкиваясь от поведения покупателей специалисты видят, когда спрос выше. Например, перед праздниками, и прогнозируем насколько нужно увеличить запасы товаров на складе.
Многие путают понятия Big Data и Data Science. Data Science – это наука о данных, область деятельности, где профессионалы копаются в статистической информации, в том числе в больших данных, чтобы найти что-нибудь полезное для бизнеса, промышленности, менеджмента и других сфер. Big Data – это сами данные.
Через 6 лет после появления термина «большие данные» в ведущих технических вузах всего мира появились прикладные специальности, связанные с big data management, например, да это тот же Data Scientist или Data Analyst.
Примерно тогда же большие данные начали активно собирать, использовать самые крутые IT корпорации, вроде Google и Microsoft, Apple, Facebook. Сейчас большие данные используются практически всеми крупными компаниями, государственными учреждениями и компетентными органами.
Как работает Big Data
Давайте посмотрим, как компании собирают, хранят и используют большие данные, и как работает Big Дейта в целом.
Основные источники данных это:
- Профили пользователей на сайтах и в социальных сетях;
- Клиентские данные компании, то есть заказы и платежи в интернет-магазинах, добавление в корзину или в избранное;
- Официальная статистика (рождаемость, смертность, миграции, уровень образования и тому подобные вещи);
- Показания приборов: фитнес-трекеров, навигаторов, всевозможных датчиков и тому подобное;
- Электронные устройства, подключенные к интернету.
Где всё это храниться? На серверах, в облачных хранилищах и, в так называемых, озерах данных.
- Озеро данных или Data Lake – это своеобразная информационная свалка, где разнородная информация хранится в разных видах. Здесь рядом могут валяться расписание пригородных электричек и фото, загруженное в Instagram.
Чтобы все это обрабатывать применяются самые современные инструменты, в том числе искусственный интеллект.
Методы анализа Big Data
И так основные методы:
- Классификация — группировка новых данных по принципам, которые ранее применялись к похожим данным. Так, если новый объект дышит, ходит и рычит, то, скорее всего, перед нами животное, а не растение.
- Кластерный анализ – нахождение общих признаков, их группировка по этим признакам.
- Смешение и объединение данных. Данные из разнородных источников объединяются, чтобы выявить закономерность. Например, записи телефонных разговоров и протоколов допросов показывают, совершал человек преступление или нет.
- Машинное обучение. Искусственный интеллект сам ищет решения задачи по аналогии с похожими задачами, которые он решил ранее. И другие методы.
В целом, многочисленные методы анализа Big Data можно разделить на две основные категории:
- описательные: что-то уже произошло, и мы пытаемся понять, что именно, и почему;
- прогнозирующие: что-то скорее всего произойдет определенным образом, потому что раньше похоже уже происходило тем же самым образом.
Обе категории одинаково нужны и важны в аналитике Big Data.
Инструменты для работы с Big Data
Перечислим основные инструменты:
- язык программирования для статистической обработки данных и работы с графикой, а также свободной программная среда вычислений.
- NoSQL — система управления базами данных.
- Hadoop — программная платформа и набор ПО для систем, работающих с высокой загрузкой.
Для примера рассмотрим, какая технология используется Hadoop. Данная программная платформа использует распределенную файловую систему для хранения больших данных. Если у вас есть массивный файл, он будет разбит на более мелкие фрагменты и сохранен на разных машинах. Мало того, что когда вы разбиваете файл, вы также делаете его копии, которые отправляются на разные узлы. Таким образом, если вы храните свои большие данные в распределенном виде, вы будете уверены, что даже если одна машина выйдет из строя, ваши данные будут в безопасности на другой. Такие фреймворки, как Hadoop, Cassandra, Spark и другие позволяют обезопасить ваши данные.
Как гласит Википедия, Парадигма Mapreduce используется для обработки больших данных. Длительная задача «А» разбита на более мелкие задачи «B», «C», «D». Теперь вместо одной машины, три машины берутся за каждую задачу и завершают ее параллельно и собирают результаты в конце. Благодаря этому, обработка проводится проще и быстрее.
Для обработки Big Data в режиме онлайн используются мощные суперкомпьютеры. Возможности обычных не хватает, чтобы обеспечить нужную скорость вычислений. Несмотря на дороговизну оборудования, программного обеспечения и квалифицированных кадров, большие данные сейчас главный инструмент в принятии решений крупными сетевыми бизнесами, государственными структурами и международными организациями. Потому что прибыль от использования Big Data колоссальная. Так, в 2020 году она составила больше 200 миллиардов долларов. По прогнозам прибыль в 2022 удвоится. 400 миллиардов солидные деньги. В общем, не зря Big Data называют новой нефтью.
Сейчас в Евросоюзе более половины компаний работают с большими данными. В развитых странах Азии столько же. А в соединённых штатах более 55 процентов. За последние пять лет число корпораций использующих Big Data в мире утроилось. Могло быть и больше, если бы не законодательное ограничение в области сбора персональных данных. В США наиболее жесткие законы в Калифорнии, в месте наибольшей концентрации IT компаний. В Китае тоже все жестко. Там принято более 200 законов, касающихся защиты приватности. Приложения и сервисы, которые их нарушают, нещадно блокируются. В общем, в Китае следить за гражданами имеет право только государство. Местный всеобщей регламент защиты данных – самая жесткая система защиты личных данных в мире.
Анализ больших данных
Теперь, когда мы разобрались, что такое большие данные, сохранили и обработали их. Настало время анализировать эти данные для многочисленных приложений.
В таких играх, как Halo 3 или Call of Duty дизайнеры анализируют пользовательские данные, чтобы понять, на каком этапе большинство пользователей приостанавливают перезагрузку или прекращают играть. Это понимание может помочь им переработать сюжетную линию игры и улучшить взаимодействие с пользователем. Это, в свою очередь, снижает уровень оттока клиентов.
Подобным образом, большие данные также помогли в управлении стихийными бедствиями во время урагана «Сэнди» в 2012. Так, Big Data использовались для лучшего понимания воздействия шторма на восточное побережье США. Был разработан соответственный проект и прияты необходимые меры. Если принять БД во внимание, то можно предсказать выход урагана на сушу за пять дней и составить соответствующий доклад. Что было невозможно раньше.
Это одни из некоторых показательных примеров, насколько ценными могут быть большие данные, после их точной обработки и анализа.
Кто работает с большими данными?
Следует также упомянуть о людях, которые работают с Big Data, то есть об аналитиках данных, исследователях данных
Чем отличается Data Analyst от Data Scientist?
Грань очень тонкая. Основные различия касаются методов исследований. Аналитики используют методы системного и бизнес-анализа, а исследователи – моделирование, машинное обучение и прочие средства, связаны с искусственным интеллектом и математикой. Если Analyst использует преимущественно готовые инструменты, то Scientist должен знать программирование и уметь, при необходимости, запилить собственный инструментарий. Поэтому зарплата у исследователей чуть выше.
Есть еще Data Engineer — инженер по данным. Их работа — это создание нужной инфраструктуры для сбора и обработки данных. Проще говоря, они занимаются созданием соответствующих инструментов и их настройкой. И в меньшей степени нужны знания в области бизнес-анализа, и в большей – технические навыки. К примеру, знание языков программирования, подходящих для работы с Big Data Python, Java, Scala.