Компьютерное зрение
Распознавание текста
Специализированные задачи компьютерного зрения
Компьютерное зрение это междисциплинарная область науки, которая стремится изучить и автоматизировать широкую группу задач, которые способна решать зрительная система человека.
Распознавание образов
Среди стандартных задач компьютерного зрения можно выделить проблему распознавания образов. Модели определяет, содержит ли картинка, видео нужный образ, фигуру, некоторое действие или их признак.
Массив задач по распознаванию образов можно разделить на классы:
- Сегментация. Еще до того, как машина приступит к выделению объектов или их классификации, нужно определить, из каких компонентов состоит картинка. Сегментация предполагает, что изображение дробят на отдельные части — сегменты. Далее в отношении каждого из них можно решать, поможет ли данный фрагмент решить конкретную проблему. Как следствие, задачи решаются точнее и быстрее.
- Классификация объектов. Цель этого действия — определение, есть ли на картинке объект искомого типа. В классификации выделяют подвид задач — идентификацию. В этом случае выделяется не некоторый объект заданного типа, а конкретный. Подобные задачи решаются давно. Например, можно организовать вход в лабораторию только по отпечатку пальца или фото сетчатки глаза. ГИБДД использует классификацию для поиска угнанных машин.
- Обнаружение объектов. Задачи этого типа считаются расширением, продолжением задач классификации. Необходимо не только выделить объект, но и определить его координаты на картинке. В самом простом случае объект обозначается квадратной или прямоугольной рамкой. Сложные системы выделяют контуры предмета. В качестве примера можно привести обнаружение раковых клеток на МРТ или КТ. На этом же принципе строится работа систем, взимающих плату за проезд по платным участкам дорог.
Для решения задач, перечисленных ранее, используются разные методы и алгоритмы. Лучшими считаются те, что базируются на сверточных нейронных сетях. Однако они по-прежнему испытывают трудности распознаванием, идентификацией небольших объектов, например, насекомых. К тому же фотографы пользуются фильтрами в процессе съемки. Такие изображения сложно обрабатывать. Если человек без проблем находит нужный объект на таком фото, то у машины могут возникнуть проблемы. В то же время человек затрудняется при отнесении объекта к конкретному классу. Например, не все разбираются в породах кошек или собак, различают птиц. Для сверточной нейронной сети эти задачи не представляют сложности.
Но и в распознавании образов есть проблемы. Они относятся не к качеству модели, а к ее обучению. На разметку данных тратятся значительные ресурсы, особенно при множестве определяемых классов. И многие компании работают над тем, чтобы искусственно получать нужные для обучения данные и «бесплатно» проводить их разметку.
Распознавание текста
Еще одна задача, решаемая компьютерным зрением — распознавание символов. Для этого необходимо:
- определить рамки строк символов на картинке
- определить, на каком языке сделана запись
- в ряде случаев требуется распознавание шрифта
Только на последнем этапе выполняется непосредственно распознавание, определение конкретных символов.
Если есть возможность предсказывать рамки, ориентируясь только на плоскую систему координат, а сам объект развернут в трехмерном пространстве, то результат будет далек от ожидаемого. Если потом эти данные подать на вход машинной модели для расшифровки, распознавание может не состояться. Машина не сможет предсказать, какой текст нанесен на изображение.
Чтобы решать подобные задачи, модель сначала предсказывает те рамки, которые повернуты. Как вариант, для выделения изогнутого, повернутого текста используют не прямоугольники, а многоугольники.
Специализированные задачи компьютерного зрения
Слежение за некоторым объектом на видео съемке. Объект предстоит выделить, распознать, определить, в какую сторону он двигается. Это может потребоваться, например, для определения скорости перемещения объекта или отдельных его точек.
Определение, какие события сняты на видео. Эта задача относится к распространенным. Она используется во множестве приложений, например, для построения интерфейса пользователя, для организации взаимодействия между пользователем и ПК. Данный сегмент компьютерного зрения к текущему моменту времени хорошо проработан. Исследователи предложили самые разные методы работы: оптический поток, фильтрация Калмана, скрытые модели Маркова. Некоторые методы базируются на применении камер RGBD (Microsoft Kinect). Если стандартная камера фиксирует события в плоском формате, RGBD создают трехмерное пространство. Таким образом создана модель человеческого скелета, демонстрирующая положение костей в процессе движения.
Повышение разрешения. Например, есть зернистое изображение. Разрешение у него на низком уровне — LR. Из него нужно получить качественное изображение или HR. Есть простые методы (билинейная и бикубическая интерполяция). Они базируются на корректировке локальных данных из первоначального изображения. На их основе определяются параметры, значения пикселей для конечной картинки, выполненной в высоком разрешении. Сейчас подобные задачи решают машинные модели. Они проходят предварительное обучение и далее могут переводить LR-изображение в HR. Здесь работа ведется уже не локально. Вся базовая картинка становится контекстом для обработки и повышения разрешения.
Оформите заявку на сайте, мы свяжемся с вами в ближайшее время и ответим на все интересующие вопросы.
|
Заказать услугу
|