Разметка данных
- Стоимость услуги будет зависеть от требований по задаче
- Минимальная стоимость услуги разметки данных от 30 000 ₽
Разметка данных для задач обработки естественного языка
Генерация синтетических данных
Чтобы провести обучение Deep learning моделей на должном уровне, необходимо собрать и обработать информацию о множестве объектов. От качества и объема выборки зависит точность работы модели. Разметка данных (ее еще называют подготовкой выборки) зачастую весьма трудозатратна.
Если отрасль, в которой планируется использовать модель, специфическая, дополнительные требования предъявляются к квалификации экспертов, составляющих то выборку для обучения, предъявляются дополнительные требования. Нужны навыки обработки данных. Обязательное условие - способность быстро разбираться в новой для себя сфере. Чтобы подготовка выборки для обучения проходила эффективно, требуется соответствующее программное обеспечение. Представим, что требуется создать модель для классификации изображений. При обучении, в модель закладываются критерии, в соответствии с которым изображения относят к определенным классам. Задача усложняется, если планируется сегментация обрабатываемых изображений. На практике это означает, что на каждом рисунке или картине предстоит выделить, прорисовать границы объектов.
Для разметки данных, упрощения ряда процессов применяют специализированное программное обеспечение или сервисы. Часть подобного ПО изначально предназначена для работы с определенными типами данных, возможно, выполнения нескольких смежных операций над ними. Но есть и решения универсального характера, предоставляющие пользователю ряд преимуществ.
Например, работа с prodi.gy предполагает применение ранее обученной модели для предварительной разметки имеющихся данных с помощью заранее обученной модели. Пользователю остается следить за процессом и вносить поправки при необходимости. Яндекс.Толока и Mechanical turk предлагают разметку «под ключ». Пользователь передает свои данные профессионалам и получает обратно в готовом виде. Оба сервиса гарантируют качество разметки.
Разметка данных для задач компьютерного зрения
Оптическое распознавание символов (OCR)
Под оптическим распознаванием данных, символов понимают оцифровку документов в рукописном, машинописном формате. Оцифровать можно не только текст, но и фотографии, изображения вывесок, рекламных слоганов. Это же относится к субтитрам на экране. В литературе встречаются такие обозначения, как optical character recognition или OCR.
Уже существуют сервисы, выполняющие распознавание символов с высокой точностью, вне зависимости от шрифта, размера и форматирования символов.
В части систем распознавания документов реализован форматированный вывод. Пользователь получает на выходе практически точную копию исходного изображения. Учитывается расположение столбцов, элементов без текста, таких как таблицы и изображения.
Разметка данных для задач распознавания текстов и изображений может включать выполнение следующих операций:
- выделение рамок, прямоугольников с текстом внутри
- поиск рамок, включающих токены и отдельные слова
- определение языка, на котором написан текст
- определение скрипта
На вход подается изображение с включением слов, отдельных символов, текста.
На выходе после распознавания - Текст, возможно, с учетом форматирования
Сегментация изображений
Сегментация изображения предполагает, что система выделяет группы пикселей, относящиеся к заданному объекту. В литературе, специализированных источниках сегментацию называют кластерным анализом. Область изучена, пользователям предлагаются сотни алгоритмов, отличающихся уровнем эффективности и областью применения. В компьютерном зрении сегментация применяется давно.
Сфера применения сегментации:
- выявление опухолей, патологических изменений в организме
- проведение малотравматичных хирургических операций
- изучение анатомических особенностей человека
- выделение заданных объектов на снимках со спутника
- распознавание лиц, отпечатков пальцев
- системы управления движением на автомагистралях
- машинное зрение
Сегментация предполагает предварительную разметку данных. Задача такой разметки относится к трудоемким. Важно не только загрузить, но и выделить на каждом изображении границы объектов требуемого типа. Уже существуют технологии, облегчающие работу: специалист по разметке выделяет приблизительные границы искомых объектов прямоугольниками, далее запускается предобученная модель разметки, которая уточняет границы объектов.
На входе: изображение с некоторыми объектами.
На выходе: рамки искомых объектов. Можно задавать точкой, шириной и высотой. Обозначается присвоенный выделенному объекту класс.
Классификация изображений
Классификация изображений считается подклассом более сложной и общей задачи сегментации. Модель на основе некоторого рисунка, картины, фотографии должна ответить, есть ли на нем объект, относящийся к нужному классу. Границы непосредственно объекта система классификации не выделяет.
Задачу классификации иногда дополнительно усложняют требованием локализации объекта на изображении. В этом случае надлежит не прорисовать границы объекта, а выделить его прямоугольной рамкой.
Разметка данных для задачи классификации считается менее трудоемким процессом, чем разметка для задач сегментации или поиска объектов. Не приходится прорисовывать объект, обозначать его границы. Модель должна только присвоить объекту класс.
На входе модели: изображение с одним объектом.
На выходе модели: метка, свидетельствующая о присвоении класса. Это может быть номер класса (целое число).
Обнаружение объектов
Обнаружение объекта предполагает его локализацию и классификацию. Выполняется как в отношении как одного, так и ряда объектов на одном изображении.
На входе модели: изображение с некоторым количеством объектов.
На выходе модели: изображение с нанесенными рамками требуемых объектов. Можно задавать точками или указывать габариты. Для объектов указываются их классы.
Разметка данных для задач обработки естественного языка
Классификация текстов
Один из определяющих факторов при проведении классификации текста - подготовка качественных данных при обучении. Например, если нужно определить вероятное поведение пользователей чата, то при обучении модели придется собрать в исследуемом чате беседы и разговоры в интересующих темах. Из разговоров выделяются намерения пользователей чата, которые в дальнейшем планируется предсказывать. Если для обучения выбрать неверные данные, то и результат на выходе модели будет недостоверным.
На входе модели: текст, в том числе после предварительной обработки.
На выходе модели: метка о присвоении класса.
Частеречная разметка
Частеречная разметка (Part of Speech tagging) предполагает, что каждому слову присваивается тег, определяющий его часть речи. Задача решается с учетом контекста. Она относится к сложным, так как одно и то же слово может иметь разное значение, относиться к разным частям речи. Определяющий момент - контекст.
На основе присвоенных тегов частей речи или POS-тегов можно построить дерево синтаксического анализа. А они в свою очередь востребованы при извлечении именованных сущностей (NER) и выделении отношений между отдельными словами. С использованием POS-тегов формируют лемматизаторы, позволяющие выделить корневую или нормальную форму для слов.
На входе машины: связный текст, последовательность слов.
На выходе машины: последовательность тегов или их идентификаторов (например, целые числа).
Анализ тональности текста
Анализ тональности текстов предполагает, что для текста определяются эмоциональные оценки автора. Учитывается его мнение об объекте или процессе, отношение к происходящему, затрагиваемым вопросам. Можно сказать, что анализ тональности позволяет определить, как автор статьи, текста, контента относится к рассматриваемой теме.
Для обозначения отношения, мнения автора применяются:
- метки классов: нейтральное, резко отрицательное, восторженно положительное
- числовые значения из некоторого выбранного диапазона, например, от -5 до +5, где -5 - резко негативное отношение, +5 - очень позитивное
На входе машины: текст. Может потребоваться предварительная обработка.
На выходе модели: метка о присвоении класса или некоторое значение из выбранного диапазона.
Распознавание именованных сущностей
В обработке естественного языка под именованной сущностью понимается некоторый реальный объект. Это может физическое лицо, его машина, предприятие, город и т. п. У каждого из этих объектов есть собственное название или имя. Объект может существовать или иметь только виртуальное представление. Главное, что его можно назвать. Примеры сущностей: Москва, Василий Абрамович, Мерседес. Именованная сущность - это экземпляр некоего класса или вида сущностей. Например, Москва - это экземпляр мегаполисов.
На вход модели: текст, набор слов.
На выходе модели: текст, введенные слова (например, индексы токенов или индексы символов начала и конца сущности). Каждое из них помечается меткой сущности.
Транскрипция аудио
Многие убеждены, что для распознавания речи текст необходимо предварительно разделить на слоги и провести привязку к временным отсечкам. Сейчас для решения таких задач применяются языковые модели и специализированные алгоритмы. Разметка сводится к минимуму. Необходимо только сопоставить между собой фрагменты аудиозаписи и транскрипцию речи, без какой-либо временной привязки. Модель распознавания речи на выходе дает набор токенов без какого-либо форматирования и знаков пунктуации. Зачастую, для восстановления пунктуации и другого вида форматирования используются специализированные модели.
На входе модели: аудиозапись с форматом - wav.
На выходе модели: текст записи, зачастую без форматирования и пунктуации.
Классификация аудиозаписи
Классификация аудио - это процесс анализа звуковых фрагментов в целью отнесения их к одному или нескольким классам. Этот процесс, также известный как классификация звуков, лежит в основе множества современных технологий искусственного интеллекта, включая виртуальных помощников, автоматическое распознавание речи и приложения для преобразования текста в речь. В основном классификация аудио используется для решения вспомогательных задач, таких как отсечение шумов для последующей обработки и распознавания речи.
На входе модели: аудиозапись с форматом - wav.
На выходе модели: метки о присвоении класса. Иногда требуются временные отсечки.
Генерация синтетических данных
Термином «синтетические данные» часто называют реальные объекты, но полученные в процессе компьютерного моделирования. Разметка в этом случае выполняется автоматически. Возьмем в качестве примера железнодорожный переезд. Если его смоделировать при помощи специального приложения, можно сразу получить полную информацию обо всех объектах: от габаритов до скорости перемещения. Другой пример - синтезатор, озвучивающий звукозаписи. В этом случае можно получить информацию о фонемах букв с временной привязкой к транскрипции. Вручную подобные задачи в достаточном объеме решить практически невозможно.
Важно, чтобы искусственная «картинка» соответствовала реальной. Если в синтетическом «мире» между объектами есть какие-либо отношения, они должны существовать на самом деле. Необходимо отметить, что над решением данной проблемы работают уже давно. Созданы архитектуры для генерации нужного контента, синхронизации синтетических данные с реальными.
Одна из основных современных нейросетевых архитектур, для решения данной задачи, называется Generative Adversarial Networks. Она же позволяет создавать уникальный контент, опираясь на уже существующий.
Автоматизация разметки
Чаще всего при построении систем автоматизации применяют предобученные машины или алгоритмы, способные размечать данные пусть и не на идеальном уровне. Это решает задачу разметки частично, но не снимает ее. Приходится проверять информацию, выявлять и устранять ошибки, допущенные машиной.
Генерация примеров с проблемами
Разработка модели предполагает предварительную подготовку выборки для проведения обучения. Так как тексты имеют «синтетическую» природу, можно создавать тысячи примеров. В этом случае можно рассчитывать, что при обработке реальных данных модель будет давать приемлемые результаты.
Пройден первый этап генерации синтетических данных. Анализ полученных результатов показал, что возникают проблемы при распознавании буквы «I». Причина - смешение в примерах, выбранных для обучения. Для устранения ошибки созданы примеры «с проблемами». Их присоединили к исходным данным, что привело к повышению качества обработки. Процесс пришлось повторять неоднократно с добавлением новых «проблемных» задач, чтобы получить распознавание приемлемого качества.
Важно понимать, что данные для обучения не должны быть однообразными. Важна и схожесть с реальными условиями. Например, нужна модель для обработки фотографий текста без фона. А для обучения применяли фотографии текста, нанесенного поверх изображений. В такой ситуации полученный результат не будет соответствовать желаемому.
Не менее важно проводить обучение на примерах, вызывающих ошибки в процессе реальной работы. Если есть изображения без разметки, можно воспользоваться теми выводами, в которых модель не уверена. В таком случае, размечают только их. Это позволяет не тратить время на разметку всего объема данных.
Оформите заявку на сайте, мы свяжемся с вами в ближайшее время и ответим на все интересующие вопросы.
|
Заказать услугу
|