Data Mining
- Стоимость услуги будет зависеть от требований по задаче
- Минимальная стоимость услуги Data Mining от 50 000 ₽
Предобработка
Шесть классов задач анализа данных
Оценка качества полученных результатов
Data Mining
Data Mining представляет собой комплексный анализ исходных данных с помощью методов матстатистики, машинного обучения, моделирования баз знаний. Целью майнинга является получение из массива информации новых, специфичных сведений хорошо показывающиx себя на практике. Data Mining нужен, чтобы:
- Предварительно обработать «сырой» массив
- Управлять базами данных, в том числе мониторить социальные, природные, техногенные процессы и явления для пополнения баз
- Разрабатывать модели и их параметры
- Составлять метрики эффективности
- Выполнять наглядную визуализацию, чтобы люди без серьезной математической подготовки могли анализировать информацию.
В майнинге разработаны разнообразные методы, способы, стратегии. Из-за важности Data Mining регулярно придумываются новые методологии, которые дополняют и расширяют уже созданные.
Для работы с хранилищами и витринами данных, анализа корпоративных массивов информации, предобработки тематических подмножеств агрегированных сведений применяются методы:
- Билла Инмона
- ETL (Extract, Transform, Load – «достать, обработать, загрузить»)
- NoETL (Not only ETL) – ETL с расширенным инструментарием
Ранние способы поиска закономерностей в базах данных основаны на теореме Байеса и регрессионном анализе. Из-за роста компьютерных технологий, увеличения вычислительных мощностей появилось больше возможностей по собиранию, хранению, обработке огромных массивов данных. Поэтому Data Mining дополняется автоматизированными технологиями. Также в майнинге используются наработки в сфере машинного обучения по:
- Правилам принятия решений и представления решающих правил в строгой иерархической структуре
- Кластерному анализу
- Нейронным сетям
- Генетическим алгоритмам
- SVM – методу опорных векторов
Получается, что майнинг массивов необработанных данных включает в себя комбинации способов и инструментов. Поэтому при оказании услуг по Data Mining важно корректно определить методологию, чтобы обнаружить в объеме информации скрытые шаблоны и паттерны, которые принесут практическую пользу. Грамотный майнинг устранит разрыв между прикладными статистическими инструментами и искусственным интеллектом, поможет настроить управление базами данных, разработает алгоритмы обучения и поиска требуемых сведений, обработает объемные информационные массивы.
Этапы извлечения полезных знаний из базы данных
Извлечь данные – получить полные сведения из собранной информации, как структурированной, так и неструктурированной. Полученные знания следует представить в виде, понятном для электронно-вычислительных машин, чтобы ускорить последующую обработку.
Извлечение знаний методически аналогично извлечению информации из текстов (Natural Language Processing – NLP) и ETL, но результат извлечения выходит за рамки создания структурированной информации. Требуется, чтобы отобранные сведения были структурированными, распознавались интеллектуальными информационными системами, преобразовывались в реляционную структуру, позволяли применять репозитории онтологий, давали возможность создавать схемы, которые способны совместно использоваться людьми и программными агентами.
Поэтому в ходе KDD (Knowledge Discovery in Databases – «нахождение знаний в базах данных») необходимо выполнить следующие этапы:
- Определить выборку исходной информации
- Сделать предварительную обработку массива
- Преобразовать полученные данные в удобочитаемый формат
- Извлечь конкретные признаки и обнаружить закономерности
- Интерпретировать данные и дать оценку полученной информации
Из-за разнообразия сфер применения Data Mining требуется использовать варианты KDD, подходящие для конкретной области. Существует межотраслевой стандарт для исследования данных (CRISP-DM), в котором исследовательский цикл делится на шесть фаз. При оказании услуги майнинга по CRISP-DM следует:
- Понять бизнес и определить цели проекта
- Изучить начальные сведения, выявить проблемы с качеством – неполнотой или недостоверностью информации
- Подготовить данные, которые понадобятся для моделирования, привести разнородные и разноформатные сведения к единому формату
- Выбрать методику моделирования, построить модель, протестировать
- Оценить результаты и на основе оценки продумать последующие шаги
- Развернуть модель – составить финальный отчет и при необходимости внедрить полученные знания для решения прикладных задач
Предобработка
По сведениям корпорации IBM, свыше 80% собранных данных хранятся в неструктурированном виде – как текст на естественном языке. Но даже структурированные массивы часто представляются в форме, понятной человеку, а не компьютеру. Чтобы ЭВМ распознавала подобную информацию, ей следует или получить умение мыслить аналогично людям, или научиться имитировать мыслительный процесс.
Майнинг текстовой информации, написанной естественным языком, делается с помощью NLP. Data Mining выполняется на нескольких уровнях:
- Поиск словосочетаний
- Определение тематики текста
- Выделение семантических отношений – связи слов и обозначаемых объектов, признаков, действий
Чтобы сделать комплексный анализ, сначала разрабатывают парсер, способный проводить морфологический, грамматический, синтаксический разбор. Затем выполняют онтологический анализ – составляют тематический словарь, определяют взаимосвязи между терминами, рассматривают правила, которые позволят выдавать истинные утверждения. Тогда искусственный интеллект сможет успешно имитировать человеческое мышление.
Но сначала собирают массив данных. Так как алгоритмы майнинга способны обнаружить только паттерны, которые действительно присутствуют в информации, то массив должен иметь правильный объем. Если набор сведений для изучения окажется кратким, в нем не будет содержаться достаточного количества шаблонов. Если массив будет чересчур объемным, программа не сможет обработать его в течение заданного времени. Поэтому на этапе предобработки следует найти подходящую информацию и очистить ее от «шумов».
Шесть классов задач анализа данных
Data Mining решает проблемы следующих типов:
- Поиск аномалий. Методы майнинга позволяют обнаружить выбросы, отклонения, нетипичные изменения в массиве данных. Аномалии могут оказаться как ошибками, так и нестандартными знаниями, которые требуют детального изучения.
- Нахождение зависимостей. Поиск взаимосвязей между переменными дозволяет создавать практически полезные правила ассоциаций. Так, интернет-магазин, собирая сведения о корзинах клиентов и обнаруживая взаимосвязи, узнает, какие товары приобретаются вместе. Это поможет выстроить маркетинговую стратегию по продвижению продукции.
- Обнаружение похожих структур в объемном массиве. Кластерный анализ находит относительно однородные группы в ходе работы алгоритма.
- Классификация новых данных посредством сравнения с уже изученной структурой. Например, почтовые программы способны классифицировать входящее электронное письмо как спам, зная о типовых характеристиках подобных рассылок.
- Установление соответствия между случайными переменными. Регрессионный анализ позволяет найти с минимальными ошибками взаимосвязи в массиве.
- Формирование обобщенных данных на основе детализированных. Суммаризация дает возможность компактно представить информацию, сделать визуализацию, создать наглядные отчеты.
Оценка качества полученных результатов
Инструменты Data Mining возможно применить некорректно. Из-за неправильного использования методов получатся результаты, которые будут казаться значимыми, но в реальности не смогут предсказать будущее поведение, не повторятся на новой выборке, окажутся бесполезными для практических исследований.
Причинами неграмотного применения майнинга часто становятся отсутствие должной проверки гипотез или изучение чересчур огромного количества гипотетических суждений. Последняя проблема известна в машинном обучении как переобучение.
Чтобы исключить получение некорректных результатов, требуется проводить оценку их качества. Для этого надо проверить, сможет ли алгоритм, уже обученный на определенном наборе данных, верно интерпретировать массив, на котором он ранее не обучался. При обработке новой информации должен получиться результат, который соответствует заданным стандартам.
Допустим, заказана услуга интеллектуального анализа данных для обнаружения спама среди получаемых электронных писем. Тогда сначала разрабатывается алгоритм и запускается в работу на наборе, который содержит образцы «законных» и «незаконных» писем. После окончания обучения алгоритм применяется к массиву e-mail, с которым он еще не сталкивался. Затем производится подсчет – сколько писем ЭВМ рассортировала правильно и какое количество сообщений пометила ошибочно. Для оценки качества используются специальные методы, например, график ROC-кривой.
Когда изученные шаблоны не отвечают требуемым стандартам, приходится переосмысливать работу – точнее составлять выборку, изменять предобработку массива, менять алгоритмы по извлечению паттернов. Если достигается заданный результат, переходят к заключительному шагу – интерпретируют изученные шаблоны и превращают их в знания.
Оформите заявку на сайте, мы свяжемся с вами в ближайшее время и ответим на все интересующие вопросы.
|
Заказать услугу
|