Интеллектуальный анализ данных (data mining)

Словосочетание «интеллектуальный анализ данных» часто используется как профессиональный жаргон, применяемый для общего описания любого вида обработки очень большого массива информации, но такое его понимание нельзя назвать точным. У этого термина есть еще одно толкование — сбор данных, хотя на самом деле оно является неправильным, поскольку подразумевает, что предназначение этого инструмента заключается в извлечении данных, а не в проникновении в суть изучаемого вопроса, чего можно добиться с помощью анализируемых данных.

Data Mining

При более точном толковании под интеллектуальным анализом данных понимается аналитический процесс, предназначенный для изучения, как правило, очень больших массивов данных с целью нахождения в них коммерчески значимых идей, закономерностей или зависимостей между переменными, знание которых могло бы улучшить показатели работы компании и достигаемые ею итоговые результаты.

По своей сути интеллектуальный анализ данных является гибридом искусственного интеллекта, статистики, систем управления базами данных, исследования баз данных и машинного обучения. А сам процесс представляет собой автоматический или полуавтоматический анализ больших объемов данных, проводимый для нахождения до этого не известных, но тем не менее интересных закономерностей, аномалий или зависимостей, которые могут быть впоследствии использованы.

Когда следует применять инструмент

Конечной целью интеллектуального анализа данных является прогнозирование, и поэтому к данному инструменту следует прибегать тогда, когда ваши массивы данных очень большие и вы хотите на их основе получить идеи, которые могли бы помочь вашему бизнесу в будущем. Очевидно, в бизнесе способность предсказывать будущее очень полезна, так как она может не толькосократить расходы и помочь при планировании и реализации стратегии, но и потенциально изменить направленность бизнеса, что в данном случае можно сделать с помощью идей, полученных по результатам интеллектуального анализа данных.

Необходимость ИАД

Такие идеи также могут помочь при принятии решений и снизить риски. Однако нужно в полной мере понимать, что применение этого инструмента действительно может выявить закономерности, аномалии или взаимозависимости, но необязательно укажет вам причину их появления. И поэтому, если для вас после проведения этого анализа по-прежнему важным остается вопрос «почему», после него придется прибегнуть к другим видам анализа.

Вопросы, на которые можно получить ответ с помощью инструмента

Интеллектуальный анализ данных может помочь лицу, принимающему решение, спрогнозировать будущее. С его помощью вы можете более легко получить ответы на следующие и им подобные вопросы.

  • Какие основные факторы являются одинаковыми для всех наших заказчиков, приносящих нам максимальную прибыль?
  • Как мы можем классифицировать наших покупателей в сегменте умных часов?
  • Какие факторы являются общими при проведении мошеннических операций?
  • Каковы основные закономерности, используемые посетителями нашего сайта для навигации по нему?

Как следует пользоваться инструментом

В интеллектуальном анализе данных выделяются три этапа:

  • предварительное исследование;
  • построение модели и ее проверка;
  • широкое применение.

Этап 1: предварительное исследование

Сначала необходимо подготовить данные. Эта подготовка включает обработку данных, их преобразование в нужный вид, отбор подмножеств данных. Кроме того, если массивы данных большие и имеют много полей атрибутов переменных, то потребуется провести тот или иной предварительный отбор признаков, чтобы переменные оказались в диапазоне, с которым можно работать.

Методы Data Mining

Затем, в зависимости от характера аналитической задачи, в ходе предварительного исследования может быть произведен простой выбор однозначных предикторов, необходимых в любом случае для регрессионной модели, которая будет использована для проведения предварительного анализа с целью установления наиболее значимых переменных и определения сложности и общего характера моделей, которые могут быть задействованы на следующем этапе.

Этап 2: построение модели и ее проверка

После этого необходимо рассмотреть различные модели, которые вы нашли на первом этапе, и на основе их прогностических характеристик выбрать из них лучшую. Эта операция может показаться простой, но на самом деле она иногда включает очень сложный процесс. Имеется целый ряд методов, разработанных для достижения этой цели, многие из которых основаны на так называемой «оценке конкурирующих моделей», т. е. применения разных моделей к одному и тому же набору данных, а затем сравнения результатов, полученных с их помощью, и выбор из них лучшей.

К числу основных приемов прогнозного интеллектуального анализа данных, которые наиболее популярны у пользователей, относятся бэггинг (формирование ансамблей классификаторов с использованием случайной выборки), бустинг (пошаговое наращивание ансамбля алгоритмов), стекинг (формирование многоуровневой структуры) и метаобучение (сочетание прогнозов, полученных с помощью различных моделей).

Этап 3: широкое применение

Заключительный этап интеллектуального анализа данных включает использование модели, выбранной как лучшей, и ее применение к новым данным с целью получения прогнозов или оценок ожидаемых результатов.

Стадии ИАД

Лучше всего воспользоваться возможностями интеллектуального анализа данных можно, если инвестировать в один из многочисленных инструментов, применяемых для проведения этого анализа, которые предлагаются на рынке.

Практический пример

Интеллектуальный анализ данных может выявить необычные  неожиданные связи между переменными,  которые затем могут быть использованы для улучшения результатов. Воспользовавшаяся интеллектуальным анализом данных компания Walmart обнаружила, что каждый раз после предупреждения о приближении урагана их продажи печенья «Рор-Tarts» возрастают.

Конечно, в подобных ситуациях можно было бы ожидать увеличения продаж фонариков, но почему у людей вдруг появляется желание запастись сладким продуктом для завтрака, непонятно. Однако Walmart не нужно знать, почему существует эта зависимость, ей достаточно знать, что такая зависимость действительно имеется.

Поэтому всякий раз после предупреждения о приближении урагана или при резком ухудшении погодных условий печенье «Рор-Tarts» размещают в магазинах Walmart поближе к входу, что способствует еще большему росту его продаж.

О чем не нужно забывать

Данными, которые используются в крупном бизнесе, и тем, что этот бизнес с ними делает, в настоящее время интересуются все больше и больше людей. Причем этот интерес будет усиливаться и дальше, и поэтому мы вам рекомендуем пользоваться своими данными всегда этически правильно и предоставлять к ним доступ, т. е. обеспечивать, как сейчас модно говорить, их транспарентность. Расскажите своим заказчикам, что вы хотите сделать со своими данными, и убедитесь в том, что полученные таким образом результаты будут полезны не только для вашего бизнеса, но и для тех, на кого он работает, — для ваших заказчиков.

Продумайте, каким образом вы обезличите данные так, чтобы содержащаяся в них информация не указывала на конкретного человека, имеющего к ней то или иное отношение. Часто появляющиеся при таком анализе идеи вообще не связаны с конкретными заказчиками. Например, Walmart не нужно знать, кто именно из покупателей при приближении урагана приобрел печенье «Рор-Tarts», поскольку им вполне достаточно того, что они смогли выявить указанную зависимость и с выгодой для себя воспользоваться ею.

Всегда с должным вниманием относитесь к имеющимся у вас данным и к своим обязательствам по их защите. В настоящее время данные выступают в качестве новой валюты, и вы должны защищать конфиденциальность ваших заказчиков как в самой компании, так и за ее пределами.

Интеллектуальный анализ данных является одним из современных, более сложных аналитических методов, сущность которого более детально рассматривается в большинстве книг и на сайтах по статистике.

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (3 оценок, среднее: 5,00 из 5)
Загрузка...