Сегодня пробуем разобраться в Big Data и всем, что с этим связано. Начнем с основных терминов.

Термин Big Data впервые был употреблен в 2008 году Клиффордом Линчем, редактором журнала Nature. В своей статье Клиффорд анализировал резкое увеличение объемов информации в мире и рассуждал о том, что для освоения всего этого объема нужны инновационные инструменты и технологии.

Термином “большие данные” (Big Data) принято называть данные громадных объемов (как структурированные, так и неструктурированные), которые сегодня могут быть обработаны только с помощью программного обеспечения для получения определенного результата. Такие программные инструменты стали современной продвинутой альтернативой базам данных.

В результате обработки данных получается инсайт — неизвестная до этого информация, новые сведения.

Data Science — наука о методах и инструментах, с помощью которых проводится анализ Big Data, об извлечении из больших данных ценных выводов и новой, ранее неизвестной полезной информации. Огромное количество новых проектов, связанных с Big Data, свидетельствует о том, что эта часть технологического развития не просто способна изменить наш мир, но и уже меняет его прямо сейчас. Data Science взаимосвязана не только с большими данными, но и с машинным обучением и наукой о мышлении.

С того момента, как технологии научились фиксировать наши действия, накоплено уже невероятное количество данных, которые человек просто не в состоянии обработать и проанализировать. Сведения о наших действиях и поведении в интернете (наши посты, переходы, твиты, лайки и многое другое), данные о наших звонках и локациях, об изменениях климата, ландшафта и многое-многое другое — те самые большие данные, которые могут оказаться весьма полезными при корректной обработке и анализе.

И если раньше все алгоритмы обработки данных были изначально запрограммированы разработчиком, то сегодня компьютер получает от программиста только вводные данные, способ обучения при этом машина определяет сама. Процесс машинного обучения очень похож на то, как учится чему-то каждый из нас. При этом, когда мы говорим о машинном обучении, мы подразумеваем не только искусственный интеллект, это и кластерный анализ, и генетические алгоритмы, и эволюционные алгоритмы.

Последний важный термин — наука о мышлении (Cognitive Science), которая изучает механизмы мышления и познания. Эта наука работает прежде всего на создание искусственных интеллектов.

Самый перспективный продукт Data Science на данный момент — нейросети. Это одна из технологий машинного обучения, которая создана по примеру нашего мозга. На данный момент нейросети пытаются повторить отдельные функции нейросетей человеческого мозга. Для того чтобы компьютер смог полностью повторить человеческий мозг, понадобится еще примерно 30-50 лет.

Где можно применять нейросети сегодня? Почти во всех аспектах нашей деятельности:

  • юристы могут применять нейросети, чтобы найти прецеденты для конкретного дела;
  • финансовые технологи могут анализировать сделки, лояльность клиентов, результативность системы мотивации покупательского спроса и тд;
  • логисты могут прогнозировать и планировать поставки продуктов;
  • медики могут анализировать факторы, влияющие на здоровье, а также диагностировать заболевания любой сложности;
  • нейросети можно использовать для переводов с иностранных языков;
  • можно обучить нейросети рисовать картины в стиле Моне или Рембрандта;
  • и даже фильтры на изображениях — продукт деятельности нейросетей.

Big Data: Новые профессии

Основные новые профессии, связанные с анализом больших данных — Data Scientist, специалист по работе с данными и специалист по машинному обучению. И это не профессии разработчиков-программистов. Это, прежде всего, математики с обширными знаниями во всех смежных дисциплинах и очень упорной способностью к анализу. Потому что с первого раза подобрать оптимальную формулу для машинного обучения почти невозможно.

Сегодня многие крупные игроки создали собственные фреймворки, которые предоставляют возможность сделать собственную нейросеть, обладая лишь базовыми основами программирования. В облачном хранилище Microsoft Azure можно найти все необходимые инструменты для работы с ИИ. Важно, что для использования искусственного интеллекта в вашем стартапе совсем не обязательно покупать дорогое мощное оборудование и ПО, все необходимые инструменты вы можете подключить как услуги прямо в облаке.

В чем основные преимущества Data Science:

  • ИИ-технологии позволяют получать максимум информации о предпочтениях человека (или определенных групп людей) и создавать оптимизированные под эти потребности интерфейсы, рассылки и тд;
  • Внедрение такой глубокой персонализации позволит, например, показывать рекламу продукта только тем пользователям, которые реально в нем заинтересованы, и делать такие продукты, которые будут действительно удовлетворять потребностям клиентов и пользоваться спросом. Это отличная возможность для бизнеса повысить свою маржинальность.

Пример использования Big Data: Супермаркеты

Отличный пример того, как можно увеличивать прибыль и сокращать издержки с помощью машинного обучения и анализа больших данных — специальное ПО для супермаркетов. Такое программное обеспечение позволяет проанализировать все данные со сканеров на кассах, данные интернет-покупок, данные по картам лояльности и многое другое. Конечная цель анализа всех этих источников данных — повысить лояльность потребителей путем персонализации предложения. Благодаря усовершенствованиям в ИТ появилась возможность использовать данные из всех источников (сканирование, карта, социальные сети) совместно, чтобы лучше понять потребителей и стать к ним ближе.

Простой пример: зачем розничному продавцу платить за то, чтобы распечатать и доставить каталог с газировкой, шоколадками и чипсами потребителю, который заботится о своем здоровье? Этот каталог, вероятно, окажет негативное влияние на отношение  потребителя к магазину, поэтому более разумным вариантом будет отправить персонализированное электронное письмо, в котором будет рассказано о том, какие товары здорового питания предлагаются на этой неделе. С отличным развернутым материалом с инфографикой по примеру применения Big Data в ритейле можно ознакомиться по ссылке.

Пример использования Big Data: Психиатрия

Одними из первых попробовали применить анализ Big Data и машинное обучение в психиатрии американские ученые. С помощью прогностической модели команда ученых проанализировала публичные данных из социальных сетей в целях изучения распространенности депрессии в США. В программу были загружены публикации из Twitter, Facebook и Reddit. Сообщения отбирались по словам, указывающим на различные депрессивные и подавленные состояния людей. И результаты этого исследования почти полностью соответствовали статистике из официальных источников.

Еще один отличный пример использования больших данных в психиатрии — большое исследование, проведенное сотрудниками проекта World Well Being. В ходе него в рамках этого проекта было проанализировано почти сто пятьдесят млн твитов, содержащих слова и фразы, имеющие негативный окрас. Результаты анализа сравнили с официальными статистическими данными о сердечно-сосудистых заболеваниях. Оказалось, что корреляция с сообщения в публикациях больше, чем с такими показателями как благоприятность региона проживания и уровень медицины и образования.

Ученые чикагского университета разработали ПО, которое организует режим сна и бодрствования, контролирует физические нагрузки, составляет режим питания и следит за другими показателями. Приложение имело доступ к социальной активности пользователей (ими были студенты) и регулярности присутствия на занятиях. Приложение анализировало все данные и выявляло признаки наличия или отсутствия депрессии. Если в результате анализа ПО определяло, что пользователь находится в зоне риска, то ему давались рекомендации, а куратор получал информацию о том, что на этого студента стоит обратить внимание. Это отличный пример того, как программа по анализу Big Data может быть полезна на уровне отдельно взятого человека.

Такие программные инструменты могут оказать реальную пользу врачам-психиатрам и наркологам. Врач сможет постоянно получать необходимые данные о состоянии пациентов и вовремя реагировать на системные сигналы «тревоги», а пациенту для это совершенно не обязательно ни лично посещать врача, ни отправлять ему информацию вручную.