Аудит процессов машинного обучения
- Стоимость услуги будет зависеть от требований по задаче
- Минимальная стоимость услуги аудита процессов машинного обучения от 50 000 ₽
Результаты аудита машинного обучения
Машинное обучение произвело революцию во многих отраслях. Благодаря машинному обучению мы можем находить в данных неявные связи, которые нельзя было найти с помощью классических методов программирования.
Отметим, что «эффект черного ящика» ограничивает применение некоторых моделей машинного обучения, преимущественно нейросетевых, в областях с высокой степенью риска. Предположим, что некая система имеет «вход» для загрузки обрабатываемых данных и «выход» для считывания результата обработки. «Эффект черного ящика» лишает пользователя возможности найти ответ на вопрос «почему было принято то или иное решение».
Востребованной становится услуга аудита датасетов. Не менее важна интерпретируемость моделей, применяемых для решения тех или иных задач. Это подводит к тому, что повышается значимость аудиторов и методов интерпретации «черных ящиков».
При традиционном программировании можно узнать, почему система после расчетов выдала такой результат. Программист проверяет исходный код, просматривает, какие действия выполнялись, и объясняет результат. Например, достигнут предел по параметру, поэтому дальнейшие вычисления прекращаются.
Аудит в машинном обучении предполагает решение следующих задач:
- выявление возникающих проблем
- анализ проблем и причин, предшествующих им
- поиск методов устранения ошибок
Источники проблем в процессах машинного обучения
Данные, применяемые для обучения
Одной из наиболее распространенных проблем является несоответствие обучающих данных тем данным с которыми модель сталкивается в процессе работы. Например: снимки деталей на производстве были сделаны с помощью другой камеры, при ином освещении, чем те что используются в обучающих данных. Еще одна проблема - недостаток данных или несоответствие (отсутствие) разметки. Выборка оказывается не репрезентативной, классы несбалансированными, а способы предварительной обработки информации, извлечения или обогащения нужных признаков - не соответствующими поставленной задаче.
Обучение моделей, выделение оптимальных гиперпараметров
В машинном обучении выделяют задачу поиска оптимальных гиперпараметров. Это относится непосредственно к подбору архитектуры модели, определению исходных параметров обучения, подбору методов обогащения и модификации обучающей выборки данных. Не менее важно подобрать методы извлечения и обогащения признаков.
Поиск, подбор оптимальных гиперпараметров сравнимо с проверкой гипотез. Предстоит определить приоритетные проблемы, из-за которых модель теряет качество. Это относится как к проблеме недообучения, так и проблеме переобучения. Чтобы обучение проходило должным образом, необходимо найти решение для перечисленных проблем. Это могут быть и простые способы, например, поиск (случайный или по сетке или grid search), и методы, основанные на статистике или машинном обучении (bayesian optimization, Google AutoML, sigOpt).
Еще один значимый момент - скорость, с которой проверяются, анализируются возможные гипотезы. Повысить ее можно, если применить подвыборку исходной информации относительно небольшого объема, но включающую сложные примеры. До начала работы гипотезы надлежит рассортировать с учетом важности. Приоритет отдается гипотезам, дающим максимальный эффект, при этом расходующим минимальные ресурсы.
Оценка качества моделей
Например, предприятие планирует автоматизировать процессы, связанные с классификацией комплектующих деталей по фотоснимкам. Цель нововведения - минимизация количества человеческих ошибок, высвобождение персонала для оказания иных услуг.
Насколько качественно решена задача классификации, определяют по двум параметрам. Это точность (precision) классификации и ее полнота (recall). Не менее важно, чтобы у заказчика было понимание, какой из этих критериев соответствует решению поставленной бизнес-задачи.
При разработке подобных моделей возможны проблемы следующего характера - в процессе тестирования система демонстрирует хорошее качество, но после запуска в работу оно значительно снижается. Среди причин, приводящих к тому, что качество разработанной модели оценивается неправильно, можно выделить следующие:
- выборка не сбалансирована
- валидационная или тестовая выборка не репрезентативна
- поиск гиперпараметров проводится без тестовой выборки
Инфраструктура Big Data
Одна из проблем этапа обучения модели, связанных с инфрастркутурой Big Data заключается в том, что данные, собранные из разных источников, неверно отформатированы. Это происходит и на стадии подготовки данных, и при последующем извлечении признаков.
Такие ошибки становятся следствием неверной настройки методов агрегации и обработки информации на уровне кода. Если инфраструктура настроена неверно, возможно нерациональное распоряжение имеющимися ресурсами. Это становится причиной того, что обучение модели происходит с временными задержками. Потерять часы и дни можно при извлечении признаков данных, предварительной обработке. Последнее относится к этапам и обучения, и последующей работы (production).
Этапы аудита процессов машинного обучения
Этап «Планирование аудита процессов машинного обучения»
- Сбор информации о структуре применяемых бизнес-процессов и ее анализ
- Изучение состава, структуры информационных систем, применяемых в бизнес-процессах
- Исследование ролей сотрудников, зоны ответственности каждого. Это относится и к услугам, оказываемым на условиях аутсорсинга
- Выбор информационных критериев, наиболее значимых для применяемых бизнес-процессов
- Идентификация, определение характерных IT-рисков
- Оценка существующего уровня контроля применительно к изучаемым бизнес-процессам
- На основе полученной информации осуществляется выбор границ и объектов исследования: процессов и связанных с ними ресурсов
Этап «Аудит процессов машинного обучения»:
- Применяемые методы управления идентифицируются. Проводится документирование процессов, связанных со сбором данных, их первичным изучением
- Оценивается эффективность механизмов управления, их целесообразность и пригодность с учетом ситуации
- Проверка соответствия. Получение гарантии того, что применяемые механизмы управления пригодны для решения поставленных задач
- Тестирование. Цель - выявление ошибок и недочетов в управлении обучением моделей с последующим их исправлением
Результаты аудита машинного обучения
- Организационные. Заказчику передается детальное описание инфраструктуры
- Технические. Для каждого «узкого места», сбоя, неисправности составляется описание. Заказчику передаются рекомендации по устранению проблем, оптимизации работы системы. Предпринимаются меры по минимизации рисков, смягчению последствий сбоев
- Методологические. Аудитор определяет методы, решающие проблемы, возникающие в управлении и контроле. Отдельное внимание уделяется структуризации, упорядочиванию подходов. Если нужна модернизация, реконфигурация, обусловленная требованиями бизнес-процессов, аудитор формирует перечень рекомендаций. Они позволят сделать ML-системы надежными, производительными, безопасными и экономичными в плане ресурсов
Оформите заявку на сайте, мы свяжемся с вами в ближайшее время и ответим на все интересующие вопросы.
|
Заказать услугу
|