Предварительная обработка данных
- Стоимость услуги будет зависеть от требований по задаче
- Минимальная стоимость услуги предварительной обработки данных от 30 000 ₽
Работа с признаками: извлечение, генерация и обработка
Большинство задач, решаемых с помощью машинного обучения, делится на два класса: обучение без учителя и обучение с учителем. В обоих случаях на вход модели подаются исходные данные, которые она анализирует и выявляет в них закономерности.
- Датасетом называется набор наблюдений (data samples), которые часто называются записями, событиями, случаями, примерами, наблюдениями или объектами.
- Наблюдения описываются рядом характеристик, фиксирующих признаки объекта, такие как масса физического объекта или время, когда произошло событие, и т.д..
- Признаки часто также называют переменными, характеристиками, полями, или атрибутами.
Для чего необходимо производить очистку данных
В процессе машинного обучения следует производить предварительную обработку имеющейся информации. Это необходимо для ее адаптации в более читабельный вид для компьютера. Из разноформатных сырых сведений, извлекаются единые «признаки», которые могут быть легко интерпретированы алгоритмами машинного обучения.
На практике данные обладают следующими недостатками:
- Неполнота: отсутствуют значения атрибутов, отсутствуют определенные интересующие атрибуты или содержится только агрегированная информация.
- Зашумленность: содержит ошибки или выбросы.
- Несовместимость: содержит расхождения в кодировке или названиях признаков.
Несоответствия в сведениях могут быть первоначально вызваны ошибками ввода пользователя, повреждением при передаче или хранении или различными определениями словаря данных для аналогичных объектов в разных хранилищах. Неверная, противоречивая информация может привести к ложным выводам и потерям точности решения, поскольку напрямую влияет на качество моделей, обученных на этих данных.
Исправление или удаление данных
Исправление или удаление данных - представляет собой обнаружение и исправление или удаление поврежденных или неточных сведений из набора записей для улучшения их качества.
Проблемы данных на уровне имеющихся признаков:
- Недопустимые значения - данные, лежащие в основе вне допустимого диапазона: любая буква среди чисел
- Наличие ошибок - неправильное, согласно нормам русского языка, написание слов, которое приводит к искажению смысла сведений: «првэт» вместо общепринятого «привет»
- Отсутствующие значения - пустые строки, символы пробелов или переноса строк
- Вложенные сведения - наличие нескольких смысловых значений непосредственно в одном признаке
- Многозначность - использование большого количества слов для возможного описания схожего по смыслу одного значения: «организация» и «компания». Или использование одной и той же аббревиатуры для различных по смысловому значению слов: «НЛП» - может считаться ошибочным сокращением для «нейролингвистического программирования» и «natural language processing»
- Шум - значения, не несущие полезной информации, случайные наборы символов, негативно влияющие на результаты последующих операций над значениями
Возникающие проблемы на уровне созданных записей:
- Cнижение уникальности: повторение одного и того же номера или названия документа
- Копирование одной и той же записи несколько раз
- Несоответствие имеющихся записей - различные наборы признаков соответствуют одному и тому же объекту
- Неверно указанные ссылки - это нарушение в образованной логической связи
Процесс исправления или удаления информации начинается с поиска ошибочных записей. Проверка может быть нечеткой - исправление записей, которые частично соответствуют существующим или строгой - отклонение любого адреса, у которого нет действующего почтового индекса. Далее приведена классификация методов исправления или удаления данных.
-
Поиск и удаление пустых значений
Зачастую в датасете отсутствуют какие-либо значения. К этому могут приводить ошибки на этапе сбора необходимых данных или из-за какого-то правила проверки уже имеющихся данных. Поэтому пропущенные значения необходимо учитывать и обрабатывать, поскольку моделям процесса машинного обучения требуются цифровые значения.
- Исключение строк с отсутствующими данными. Простая стратегия. Неэффективна, если большинство объектов имеют пропущенные значения. Если у объекта отсутствует большинство значений, то сам этот объект также может быть удален.
- Замена недостающих значений. Если пропущен только разумный процент значений, то возможно применить методы интерполяции, чтобы заполнить эти значения.
-
Поиск и удаление дубликатов
Не только дублирующиеся, но и большое соотношение очень похожих наблюдений к уникальным могут приводить к «переобучению». Такое явление представляет собой построенную модель, «выучивающую» примеры из обучающей выборки. При этом «переобучение» плохо работает на примерах, которые не принимали участие в обучении.
-
Поиск и удаление шумов
- Спектральный анализ - помогает избавиться от высокочастотной информации. Представляет собой небольшие частые колебания, происходящие около основного сигнала. Во время изменения ширины спектра разрешается по желанию выбрать и убрать шум.
- Авторегрессионые методы - используются на практике во время анализа существующих временных рядов. Они сводятся к прямому нахождению имеющихся функций, описывающих происходящий процесс и шум. После чего имеющийся шум можно удалить. В результате чего останется только основной сигнал.
В практической деятельности применяется 2 способа удаления или исправления информации:
- Автоматизированный - происходящий при использовании СУБД для больших данных: инструмент Hive, SSDT - (SQL Server Data Tools) и Azure, и прочее или объединенных систем при проведении статистического анализа: компьютерной программы SAS, IBM SPSS и так далее
- Очистка данных собственными силами. Аналитик Big Data самостоятельно ищет готовые или разрабатывает свои скрипты для исправления опечаток в текстовых полях.
Применяя вышеперечисленные методы на практике, аналитик тем самым преобразует имеющиеся типы данных, агрегируя их признаки и заполняя пропущенные значения, что в свою очередь позволяет избавиться от шума и различных выбросов.
После завершения процесса удаления или исправления сведений, ученый переходит к генерации признаков.
Работа с признаками
Признак представляет собой переменную, способную описать характеристику исследуемого объекта. Если говорить о выборке, то это столбцы в таблице, в которой объектами выступают строки. При этом входные и переменные модели процесса машинного обучения считаются предикторами. Входные же представляют собой не только зависимые, но и целевые признаки.
Разновидности признаков:
- бинарные - принимающие сразу два значения: {«да», «нет»}, {0,1}, {-1,1}, {true, false} и так далее.
- номинальные (факторы) - имеющие одно конечное число уровней: фактор «час дня» состоит из 24 уровней, то есть 24 часов дня. В то же время факторы могут быть как неупорядоченными, так и упорядоченными: «дней год» - состоит из 365 упорядоченных между собой уровней.
- количественные (числовые) значения, расположенные от минус бесконечности до плюс бесконечности.
Таким образом, представленные признаки состоят из информации любого типа информации: звука, текста, картинки или геоданных. Алгоритм обработки сильно зависит от задачи и специфичных проблем в значениях и может включать следующие этапы:
-
Кодирование категориальных значений
Часто данные содержат в себе множественные категориальные значения. Иногда получается так, что категорий оказывается больше по отношению к объему данных. информации. Бывает, что значения в категориальных признаках содержатся явный и неочевидный порядок распределения.
-
Устранение дисбаланса
Дисбаланс в информации приводит к парадоксу точности - это парадоксальный вывод, что точность не является показателем для предиктивных моделей при классификации. Например, если распространенность категории А является доминирующей, то в 99% случаев прогнозирование того, что каждый случай относится к категории А, будет - точность 99%. Это говорит о том, что вы обладаете отличительной точностью, которая отражает исключительно распределение базового класса.
Существуют различные тактики борьбы с несбалансированными значениями, среди которых:
- Обогащение путем сбора данных из открытых источников
- Подбор метрики учитывающей дисбаланс
- Удаление экземпляров или добавление копий
- Обогащение данных синтезом, например алгоритмом SMOTE
- Создание пользовательской матрицы штрафов для компенсации дисбаланса
-
Отбор признаков (feature selection)
Произведение оценки статистического веса и удаление ненужных признаков происходит при помощи алгоритмов процесса машинного обучения. Это позволяет дать оценку важности предиктора. К примеру, логическая регрессия или же случайный лес.
-
Обогащение признаков
Обогащение представляет собой процесс извлечения признаков из сырой информации для наделения ее данными об отношении с другими объектами (контекстная информация для текстов, информация о соседних пикселях в изображении, контекстная информация аудио и т.п.). Существуют также методы обогащения с использованием заранее предобученных моделей машинного обучения. Преимущество здесь в том что можно без дополнительных усилий повысить точность модели на своих данных, используя похожие.
-
Изменение признаков
Монотонность преобразования признаков может быть критичным для одних алгоритмов и одновременно никаким образом не влиять на другие. Что считается одной из главных причин популярности деревьев решений и производных алгоритмов.
Но встречаются и другие причины, относящиеся к инженерной отрасли: np.log - как один из способов борьбы с большими числами, которые не помещаются в np.float64. Но это можно считать исключением, чем правилом, так как периодически появляется желание приспособить датасет под необходимые требования алгоритма.
При использовании параметрических методов требуется минимальная симметричность и унимодальность распределения информации. Несмотря на это, могут применяться жесткие требования.
Стоит отметить, что требования к данным предъявляют не только параметрические методы. Так как, тот же метод ближайших соседей при ненормированных признаках даст неверные предсказания. Это связано с тем, что распределение одного признака может лежать в очень маленьком диапазоне: от -1 до 1, а распределение значений другого признака в очень большом, например, от 0 до 1000.
На практике используются методы преобразования информации. Выбор изменения информации зависит от поставленных задач, проблем и целей, в которые могут входить:
- снижение размерности помогает преобразовать информацию при помощи получения главных переменных. Это необходимо для экономии времени, которое затрачивается на процессы обучения и запоминания. При этом удаление мультиколлинеарности способствует улучшению скорости модели процесса обучения
- нормализация, разрешающая исходным значениям изменяться в диапазоне. Но работа аналитических моделей с такими значениями может быть некорректной
Оформите заявку на сайте, мы свяжемся с вами в ближайшее время и ответим на все интересующие вопросы.
|
Заказать услугу
|