Поиск и сбор данных
- Стоимость услуги будет зависеть от требований по задаче
- Минимальная стоимость услуги поиска и сбора данных от 30 000 ₽
Процесс создания моделей машинного обучения требует сбора данных для обучения, с разметкой или без. В зависимости от задачи, могут подойти данные из открытых источников, таких как агрегаторы датасетов (Google Dataset Search, kaggle, data.gov и т.п.). В случаях, когда задача требует специфических данных (например, требуется распознавать речь, содержащую термины из узкой предметной области), может помочь обогащение данных с использованием сторонних датасетов или данных веб-ресурсов, полученных с помощью парсинга.
Получение данных с сайтов
Парсингом (web-scraping) называют процесс автоматизированного получения данных, соответствующих заданным условиям. Поиск осуществляется не только на сайтах, но в блогах, соцсетях, на форумах, специализированных порталах и в агрегаторах.
Непосредственно парсер представляет собой программный комплекс для выборки и структурирования нужных данных.
Предусмотрен ли запрет на парсинг? Нет. В законах или подзаконных актах России подобные ограничения отсутствуют. Конституция страны (п. 4 ст. 29) разрешает гражданам искать, собирать информацию, передавать третьим лицам, используя для этого законные способы. Парсинг можно сравнить с тем, как покупатели в магазинах фотографируют ценники. Информация размещена в свободном доступе, авторские права на нее не зарегистрированы. Значит желающие могут фотографировать этикетки, копировать для себя или передачи третьим лицам.
Возвратимся к парсингу в интернете. Если для получения информации не нужна авторизация, нормы закона при этом не нарушаются. Незаконными считаются попытки получить персональные данные посетителей сайтов, иных ресурсов вне зависимости от цели: рассылки предложений или размещения таргетированной рекламы. Закон запрещает собирать и использовать персональные данные граждан, если это не предусмотрено нормативными актами.
За счет использования парсеров можно быстрее собирать и структурировать данные для обучения моделей и иных целей. Подобные программы популярны у маркетологов, разработчиков сайтов, специалистов SEO-продвижения и менеджеров по продажам.
Парсеры позволяют:
- проверять, что и по какой цене продается. Эта информация важна для интернет-магазинов. Можно проверить уровень цен у конкурентов и автоматически формировать собственный каталог на основании полученных сведений.
- собирать метаданные сайтов (H1, title и description). Эта информация нужна для SEO-продвижения.
- аккумулировать комментарии покупателей, клиентов о товарах, предоставляемых услугах.
Для сбора данных используют разные инструменты. Например, взаимодействие с сайтами может проходить на уровне http-запросов. Нужная информация отбирается в автоматическом режиме, пользователь получает ее в структурированном виде. Еще один вариант взаимодействия предлагает применение JavaScript. В подобных ситуациях создается headless-версия браузера. Потребуются интерфейсы для обращения к выбранным ресурсам. В помощь разработчикам парсеров сформированы библиотеки и модули для работы с языками программирования.
Решать стандартные задачи можно при помощи облачных инструментов парсинга. На сервере разработчика аккумулируются данные по областям знаний. Пользователю остается скачать результаты. Доступ к ПО — через интерфейсы или API.
Источниками данных, помимо веб-сайтов, могут являться также мессенджеры и социальные сети. Существующие API позволяют получить доступ к данным, сообщениям, медиаконтенту пользователя и сообществ. Текстовые сообщения в сообществах и личной переписке используются для обучения чат-ботов, вопросно-ответных систем и решения других NLP-задач. Медиа-контент в социальных сетях не упорядочен, однако, за счет инструментов поиска и фильтрации представляет возможность получения специфических данных из узких предметных областей.
Услуги АВИ Консалт по сбору данных для обучения моделей
Наша компания применяет для решения задач как обращения к готовым датасетам, так и занимаемся сбором и обогащением датасетов из открытых источников сугубо законным способом (в противном случае конечный продукт, возможно, нельзя будет использовать и продавать).
В качестве датасетов могут быть применены как данные из открытых источников (опенсорсные базы данных) так и данные предоставленные заказчиком. Помимо использования готовых баз данных мы также создаем их самостоятельно используя парсинг из открытых источников. В итоге процесс взаимодействия с клиентом можно описать следующим списком:
- Проведение анализа задачи, под которую требуются данные, с учетом ее ограничений, вашей инфраструктуры, используемых методов и инструментов. На выходе вы получаете аналитический отчет, содержащий оценку качества данных а также рекомендацию по их обогащению.
- Поиск, сбор и парсинг данных.
- Обработка, объединение датасетов и создание обучающих и тестовых выборок.
Если вас интересуют услуги, касающиеся последующих шагов цикла создания моделей машинного обучения, можете ознакомится с ними в статьях:майнинг данных, очистка и предварительная обработка данных.
Оформите заявку на сайте, мы свяжемся с вами в ближайшее время и ответим на все интересующие вопросы.
|
Заказать услугу
|