Big data

О чем речь

Мы с Вами живем во времена глобальной информационно-технологической революции. Развитие науки о данных и технологий машинного обучения в совокупности с доступностью достаточных компьютерных мощностей, привело к началу внедрения в бизнес, а также в нашу повседневную жизнь первых интеллектуальных систем.
Роман Потапов

Потапов Роман Александрович, к.ф.м.н.

Генеральный директор,
Лаборатория интеллектуальных данных

Мы с Вами живем во времена глобальной информационно-технологической революции. Развитие науки о данных и технологий машинного обучения в совокупности с доступностью достаточных компьютерных мощностей, привело к началу внедрения в бизнес, а также в нашу повседневную жизнь первых интеллектуальных систем. Их громко называют Искусственным Интеллектом (ИИ), хотя до создания реального разумного организма мы еще очень далеко 🙂

Тем не менее, мир программного обеспечения (ПО) переживает качественный скачок, сопоставимый с появлением Интернета. Как оказывается, программы могут быть не только набором кнопок и послушных алгоритмов. Современное ПО с технологией машинного обучения может интеллектуально интерпретировать информацию, принимать несложные решения, и даже делать прогнозы на будущее.

“Мир программного обеспечения (ПО) переживает качественный скачок, сопоставимый с появлением Интернета”

Бизнесмены пока еще не соотносят это со своей повседневной деятельностью, но буквально уже через несколько лет будет невозможно заниматься бизнесом без таких систем.

Крупные компании, в свою очередь, обладая глобальным пониманием мощи этой технологии, теряются с планированием конкретного внедрения. Применяют к ним традиционные неповоротливые подходы, больше озабоченные тем, как бы выпустить очередную политику, что это все во благо, а не с целью сокращения рабочих мест, вместо того, чтобы наладить плановый централизованный анализ текущих бизнес-процессов и их последующую адаптацию к новым возможностям.

В последнее время мы часто слышим такие термины, как Большие данные (Big Data), Искусственный интеллект (Artificial Intelligence), Анализ данных (Data Mining/Analytics), Машинное обучение (Machine Learning), Глубокое обучение (Deep Learning), Бизнес аналитика (Business Analytics), Наука о данных (Data Science)…

Давайте последовательно разберемся что же это такое

BIG DATA - Большие Данные

Пожалуй, наиболее распространенный и простой термин, который у всех на слуху. По сути, это действительно огромный набор данных и ничего более.

 

Для лучшего определения Big Data удобно использовать методику многих Vs:

Volume (Объем):

В данном случае размер действительно имеет значение. Сразу после появления первых персональных компьютеров и интернета, бизнес стал накапливать данные, вначале особо не понимая для чего это может понадобиться. Сейчас пополнение данных происходит постоянно. Это требует адаптации технологий хранения и обработки данных, которые становятся все более и более распределенными с использованием облачных технологий и многочисленных связанных компьютеров. Эпоха суперкомпьютеров уходит в прошлое.

Velocity (Скорость):

Срочность обработки данных становится все более актуальной. Современный бизнес все чаще требует решения задач в режиме online.

Variety (Разнообразие):

В большинстве случаев большие данные не являются структурированными. Порой их невозможно поместить в обычную базу данных, классифицировать и упорядочить. Это могут быть как цифровые данные, так и текст, видео, звук, картинка.

Veracity (Достоверность):

Данные должны быть надежными (лучше из первоисточника) и доступными.

Value (Ценность):

Данные должны обладать определенной ценностью для бизнеса или общества.

При этом важно понимать, что ценность данных не зависит напрямую от их размера. Напротив, самые значимый эффект обычно достигается на наименьшем числе наблюдений. Вам нужно всего лишь несколько раз нажать кнопку выключателя, чтобы понять как включается свет в комнате. В тоже время, возможно, Вам надо выпить сотню бокалов вина, чтобы научиться в нем разбираться. При этом ценность умения включать свет в комнате, очевидно, намного больше, чем умение разбираться в сортах вин.

Vulnerability (Уязвимость):

Сбор, хранение и доступ к данным должны соответствовать нормам права и конфиденциальности. Безусловно, данные должны быть соответственно защищены.

Большие данные должны удовлетворять этим V-критериям.

Довольно часто большие наборы данных являются распределенными в сети, их размер может превышать емкость жесткого диска одного компьютера, и их обработку должны производить несколько машин. Распространенным подходом для работы с большими данными является организация Data Lake, когда все данные централизуются в одном хранилище. Данные при этом остаются не структурированными, не обработанными, но становятся доступными из одного места.

ARTIFICIAL INTELLIGENCE (AI) – Искусственный Интеллект

Самый растиражированный и популярный термин, изначально присущий жанру научной фантастики. Это интуитивно понятная концепция, которой, однако, сложно дать однозначное определение. Еще в 1950 году Alan Turing сформулировал свой известный вопрос: «Может ли машина думать?», и даже разработал не менее известный тест. Считается, что именно с этого момента началось научное исследование этого вопроса.

В настоящее время, основываясь на последних достижениях науки о данных, наиболее корректным определением Искусственного Интеллекта будет следующее: «машина или программа, которой присуще некоторое разумное поведение».

Важным здесь является слово «некоторое», которому оказывается возможным придать смысл конкретных технологий и направлений, показанных ни диаграмме.

DATA MINING – Анализ Данных

Анализ данных это искусство нахождения интересных и неочевидных закономерностей, используя аналитические методы.

Под закономерностями понимаются возможности группировки данных по определенным критериям, нахождение зависимостей в данных, определение аномалий, идентификация поведения и последовательности событий.

Советую прочитать недавно вышедшую книгу американского ученого-социолога Seth StephensDavidowitzEverybody Lies, где приводится множество интересных примеров анализа накопленных массивов данных поисковых систем и различных общественных институтов, позволяющих по новому взглянуть на современное общество.

При этом недавно появившаяся технология машинного обучения позволяет вывести аналитику данных на качественно новый уровень.

MACHINE LEARNING (ML) – Машинное Обучение

Технология машинного обучения это ключевой элемент систем Искусственного Интеллекта. Сама технология основана на математических методах статистического анализа и теории вероятностей, разработанных математиками за последние примерно 200 лет. Как известно, проблемой большинства оптимизационных статистических алгоритмов является невозможность их аналитического решения за исключением весьма ограниченных случаев. Эта ситуация, правда, характерна для всех разделов математики и теоретической физики.

Классическим примером является задача трех тел, которая не решается в общем виде. Известно лишь несколько точных решений для специальных начальных условий. Популярный роман китайского писателя-фантаста Лю Цысиня основан именно на этом факте. Надо, однако, заметить, что применение технологии машинного обучения в совокупности с вычислительными системами, способно довольно хорошо решить проблему обитателей Трисоляриса, страдающих от непредсказуемого поведения трех солнц в их планетной системе, таким образом исключив основу для сюжета романа 🙂

 

Начав развиваться в компьютерной индустрии с начала 80-х годов, в последние несколько лет технология машинного обучения сделала качественный скачок, будучи хорошо реализованной в библиотеках языков для анализа данных, например, таких как python. Важным фактором ее бурного развития является открытость (open source) этой технологии, что позволило научному сообществу довольно быстро добиться ощутимых успехов и продвижения на пути к созданию интеллектуальных систем.

Этот же момент делает эту технологию привлекательной для бизнеса, освобождая от лицензионных расходов и давая возможность ее внедрения в короткие сроки для оптимизации конкретных бизнес-процессов.

Часто спрашивают, чем машинное обучение отличается от статистического анализа? По сути, и там и там используются одни и те же математические методы и функции. Справедливо, видимо, считать, что машинное обучение это развитие статистического анализа в применение к большим данным, делающим упор именно на предсказательном аспекте аналитики.

Суть технологии заключается в обучении программы на вводных данных на основе заложенных в нее оптимизационных алгоритмов и подобранных эвристик. Будучи обученной, такая программа может обрабатывать другой набор данных из того же источника, делая прогнозы или принимая решения.

Классическая модель машинного обучения включает в себя методики обучения как «с учителем», когда первоначальный набор данных (тренировочный или обучающий) содержит правильные ответы, так и «без учителя», когда тренировочные данные не содержат ответов. В первом случае система обучается для последующего воспроизведения правильных ответов на тестовых данных. Во втором случае задачей является нахождение структур в данных для их классификации.

Классическая модель переросла в более развитые алгоритмы, в том числе метод ансамблей (Ensemble Method), когда разные алгоритмы объединяются для получения лучшего (усредненного или взвешенного) результата. Наиболее известными методами здесь являются Случайный Лес (Random Forest) и XGBoost, в последнее время добившийся многих побед в проектах Kaggle.

Другой прогрессивный подход – это усиленное обучение (Reinforcement Learning). Суть его в постоянном обучение программы, которая настраивается и совершенствуется на основе проб и ошибок, получая обратную связь на свои действия. Этот метод особенно часто применяется в игровых системах, таких как, например, AlphaGo (лучший в мире игрок в Го).

И самый, пожалуй, продвинутый метод, современный бриллиант в короне машинного обучения, это Глубокое Обучение, или Нейронные Сети.

DEEP LEARNING (DL) – Глубокое Обучение

Этот метод, развившийся из технологии машинного обучения, основан на использовании искусственных нейронных сетей. Искусственная нейронная сеть это вычислительный алгоритм многослойной структуры, состоящий из множества соединенных узлов, работающих вместе. Свое название этот метод получил в следствие его построения по аналогии с биологическими нейронными сетями, которые формируют наш мозг.

И хотя искусственные нейронные сети исследовались достаточно давно, свое качественное развитие они получили только в последние годы с появлением достаточных компьютерных мощностей. Применение технологии DL позволило качественно улучшить системы распознавания образов, включая картинки, видео и речь. Яркой вехой здесь является создание в 2012 году Алексом Крижевским искусственной нейронной сети AlexNet, выигравшей ежегодный мировой конкурс по распознаванию картинок с примерно 10% меньшей ошибкой, чем у ближайшего конкурента. Применение таких нейронных сетей сделало возможным в настоящее время довести точность распознавания изображений до 98-99%.

BUSINESS INTELLIGENCE / ANALYTICS (BI/BA) – Бизнес Аналитика

Под BI понимают использование данных внутри компании, позволяющее ее менеджерам принимать бизнес-решения.

Многочисленные инструменты BI (от Microsoft Excel до Tableau или SAP BW) дают возможность увидеть и проанализировать лишь то, что уже произошло, и следовательно, принимаемые бизнес решения будут исключительно реагирующими.

BA это расширенный взгляд на данные, когда бизнес использует как большие наборы данных, так и современные технологии их обработки (такие как машинное обучение), чтобы понять не только что произошло, но также что происходит в текущий момент (online анализ), а также спрогнозировать что может произойти в будущем. Это позволяет про-активно подходить к развитию ситуации и, очевидно, получать конкурентное преимущество на рынке.

Бизнес аналитика

DATA SCIENCE (DS) – Наука о Данных

Все описанное выше и является наукой о данных. Если просто, то Наука о данных это набор методов и навыков для извлечения из данных полезных знаний.

Это часто представляют вариацией Venn диаграммы, изначально предложенной Drew Conway.

DATA SCIENCE

Наука о данных включает в себя три составляющие. В основе лежит высшая математика, статистика и теория вероятностей. Другой важный блок это программирование (знание языков, библиотек, архитектуры баз данных и т.д.). И третья составляющая это непосредственно прикладная область знаний конкретной области (медицины, финансов, индустрии бизнеса и т.д.).

Сочетание этих трех областей как раз и составляет науку о данных, которая в большей степени является прикладной, способной ответить на актуальные запросы современного общества и бизнеса.

схема
[https://twitter.com/gapingvoid]
Поделиться...
Поделиться в facebook
Поделиться в twitter
Поделиться в vk