Кто такие аналитики Big Data? Чем отличается Big Data Analyst от Data Scientist? Можно ли войти в профессию с нуля? Какие задачи решают аналитики Big Data и что же такое Big Data в принципе?
Если вы введете в Google запрос «что такое data?», то вам определят это как количество, знаки или символы, над которыми выполняются операции с помощью компьютера. Они могут храниться и передаваться в виде электрических сигналов или записываться на магнитные, оптические или механические носители записи. Проще говоря, мы можем сказать, что все факты и цифры, которые могут быть сохранены в цифровом формате, можно назвать данными. Весь текст, числа, изображение, аудио,3 видео, хранящиеся на наших телефонах и компьютерах, являются некоторыми примерами данных. Все они хранятся в цифровом виде и состоят из нулей и единиц.
В концепции больших данных нет ничего сложного. Как следует из названия, большие данные относятся к огромным объемам данных, которые слишком велики для обработки и анализа с помощью традиционных инструментов.
Поскольку количество Big Data увеличивается в геометрической прогрессии – это представляет собой настоящую проблему с точки зрения анализа.
Существует 3 признака, которыми должны обладать большие данные:
- Volume – объем (данные изменяются по величине физического объема документа)
- Velocity – данные регулярно обновляются, что требует их постоянной обработки.
- Variety – разнообразные данные могут иметь неоднородные форматы.
Где встречаются большие данные?
Самые распространенные сферы, где есть Big Data:
- Поисковые технологии
- Рекомендательные системы
- Социальные сети
- Игры
- Речевые технологии
- Финансы(банки)
- Ритейл
- Персонализация
- Маркетинг.
В нашем веке они повсюду. Все телефоны, веб-сайты и переносимые устройства — все генерируют данные. Они складываются и записываются в определенные хранилища базы данных. И уже при помощи аналитических инструментов, а, по сути, просто программирования, они обрабатываются и где-то используются.
Соответственно, этим и занимается аналитик Big Data.
Задачи Big Data Analyst
Какие же задачи решает специалист по анализу больших данных?
- Database management. Самое простое – это работа с базами данных. Все данные каким-то образом складируются, записываются. И преимущественно — это базы данных. Данные должны быть структурированы и построены по определенной логике. Аналитик больших данных должен уметь с этим взаимодействовать, должен понимать, что где хранится.
- Database mining. Извлечение данных. У тебя есть база данных, ты прекрасно в ней разбираешься. Знаешь, что, где лежит и можешь эти данные извлечь. Соответственно, для этого тебе нужно написать запрос и куда-то ты данные себе сложить.
- Processed data. Обработка данных. К примеру, мы подключились к базе данных, выгрузили данные по ежедневным сессиям пользователей. Но эти данные неструктурированные, то есть это обыкновенные строчки, которые подтверждают, что данный пользователь заходил в интернет или в какой-то сервис и вышел из него. Соответственно, если мы эти данные сгруппируем по часам, то мы можем увидеть активность пользователей в течение дня.
- Transformed data. Таким вот образом мы данные обработали и уже даже построили из них некую диаграмму, график, чтобы проанализировать и посмотреть на них. Соответственно, преобразовали их.
- Statistics. К примеру, мы хотим посмотреть, как вообще изменялась посещаемость за сегодняшний день, отличается ли она от предыдущих дней. Здесь нам уже нужны некие статистические методы, чтобы правильно эти данные агрегировать и посчитать, построить средний график по часам, либо применить другую методику. И их нужно проанализировать.
- Patterns. Выделяются паттерны обработки больших данных.
- Data Visualization. Визуализация – это отличный инструмент, который позволяет подтвердить или опровергнуть вашу гипотезу, и наглядно продемонстрировать его бизнесу. Таким образом, бизнес и аналитик разговаривают на одном языке.
- Knowledge/ insight. Самое главное – данные должны отвечать на вопрос. При помощи данных нужно получать инсайты, знания. И внедрять их ежедневный процесс.
Ключевые навыки аналитика по big data
- Извлечение данных из источников данных. В качестве источника здесь подразумевается некие базы данных, к которым нужно уметь делать запрос. Самый простые – это SQL запросы, которые мы делаем к базам. Обращаемся к ним, и выгружаем от них некие данные.
- Обработка данных. За обработку отвечают языки программирования, к примеру Python, Scala и другие.
- Визуализация. Мы данные получили, обработали, и было бы неплохо их визуализировать. Для этого есть отдельный инструментарий, которые строится на основе Python или других решений. Или это могут быть самостоятельные программы для визуализации данных. Такие, как Tableau или Qlik. Это отдельные программы, отдельный набор инструментов, но они отвечают за данные задачи.
- Формирование исследования, соответствующего критериям бизнес-задачи. Зачастую бизнес ставит вполне конкретную и четкую задачу.
- Формирование гипотез. Бизнес может формировать гипотезу, что «у нас продажи выросли или упали. Было бы здорово это посмотреть на данных и получить подтверждение или опровержение».
Различие Data Analyst и Data Scientist
Многие могут ошибочно зайти на площадки по поиску работы и увидеть, что некоторые обязанности Data Scientist и Data Analyst пересекаются. И исходя из этого, сделать вывод, что это одна и та же профессия. Но это мнение ошибочно. Во многих компаниях и вправду профессии могут пересекаться, но они не являются идентичными.
Data Scientist – это фундаментальная работа с данными, это наука о данных.
Data аналитик – это применение результатов науки о данных к конкретным ситуациям, конкретным рабочим бизнес вопросам.
Наука о данных – это самостоятельная наука о том, как собирать, обрабатывать данные, как извлекать из них инсайты, гипотезы, теории, какие-то процессы. Это и является наукой это Data Science.
Но вот конкретное применение является целью именно Data Analyst. Конечно. Он применяет какие-то знания из Data Science, но не становится от этого Data Scientist.
Обучение на профессию Data аналитика
Если вы решили обучиться любой IT профессии, у вас есть 3 пути, по которым вы можете пойти.
В первую очередь – это посещать вузы Москвы, или того города, в котором вы живете. Один из самых первых вариантов, когда люди думают, где учиться. Конечно, получив высшее образование, вы действительно получите необходимую базу знаний. Но помимо этого, в университете будет большое количество непрофильных предметов. Да и обучение в вузе занимает достаточно продолжительное время. Кто в наше время готов тратить 4 года на обучение?
Исходя из этого, многие останавливаются на онлайн курсах. В сети огромное количество компаний, предлагающих пройти обучение в срок до одного года. За это время вы будете изучать конкретную область, которую вы выберете. В нашем случае – по профессии Data Analyst. Многие онлайн школы, помимо практики, по окончанию обучения, предлагают стажировки. А иногда и помогают с дальнейшим трудоустройством.
Так же, вы всегда можете заняться самообучением. В сети огромное количество бесплатных курсов, уроков и туториалов, которые вы можете изучить самостоятельно. В этом случае есть один не оспоримый минус. Самообучение, чаще всего занимает намного больше времени, нежели обучение в тех же онлайн школах/университетах. В IT все меняется чуть ли не ежечасно. Нужно будет успевать за этим ритмом.
Направления развития аналитика
Грубо говоря, аналитик должен обладать четырьмя основными направлениями.
- Математика и статистика. Это безусловно фундаментальная база аналитики.
- Машинное обучение
- Статистическое моделирование
- Планирование эксперимента
- Байесовский вывод
- Обучение с учителем
- Обучение без учителя
- Оптимизация
- Программирование и базы данных.
- Знание в компьютерных науках
- Скриптовый язык, например, Python
- Специализированные статистические инструменты. Например, R
- Базы данных SQL, NoSQL
- Реляционная алгебра
- Параллельные системы баз данных и параллельная обработка запросов
- Понимание MapReduce, Hadoop
- Опыт в xaaS-сервисах
- Коммуникация и визуализация.
- Умение общаться с топ-менеджментом
- Навыки сторителлинга
- Умение превратить инсайты в управленческие и конкретные действия
- Визуальный дизайн
- Пакеты R
- Знание инструментов визуализации
- Понимание предметной области или потребности бизнеса.
- Понимание интерес к бизнесу
- Интерес к данным
- Неформальное лидерство
- Хакерское мышление
- Умение решать проблемы
- Умение мыслить стратегически, проактивность, креативность, инновационный подход, готовность к сотрудничеству
В целом, как специалист, Data аналитик опять-таки находится на стыке разных сфер. Аналитиками и не сразу становятся – это, безусловно, определенный путь, который нужно пройти.