Как с помощью ML сократить время нормализации справочников номенклатуры с 8 часов до 30 минут?
25 января на открытой онлайн-встрече ведущий эксперт НСИ Qlever Solutions Елена Язева, представила аудитории ML-сервис для работы с мастер-данными, разработанный командой Qlever, и продемонстрировала действующие кейсы применения машинного обучения в управлении НСИ.
В статье по итогам вебинара рассказываем о том, зачем нужна нормализация данных, и как инструменты ML могут помочь в процессе нормализации мастер-данных.
Зачем приводить в порядок данные?
Данные – это уникальный актив:
Данные – неисчерпаемый ресурс, в отличие от материальных или финансовых ресурсов
Управление данными – кросс-функциональный процесс, который требует взаимодействия многих специалистов
Высокое качество данных дает ценность, низкое качество создает издержки
Необходим особый подход к определению объективной ценности данных
Управление данными – это стратегический уровень, этот процесс требует понимания важности данных лидерами компании
Управление данными включает управление рисками
Данные для компании – потенциал развития и получения прибыли
Они помогают компаниям сформировать уникальные конкурентные преимущества, получить дополнительную прибыль, оптимизировать производство и продажи, избежать риски.
Согласно отчету IDC (International Data Corporation), ежегодно объем данных в мире увеличивается на 61%.
Особенно быстро растет количество данных в отраслях, которые характеризуются сложными и высокотехнологичными процессами, производят или реализуют большое разнообразие продукции, имеют филиальную структуру, взаимодействуют с государственными информационными системами.
Например, на предприятиях информация о материалах, компонентах производимого изделия и его модификациях, технологических маршрутах, оснастке, оборудовании, контрагентах, ценах, процессах и стандартах является объектом основных данных и порой исчисляется миллионами строк.
При производстве одного авиационного двигателя может использоваться до 10 тыс. различных компонентов, включая различные детали и узлы, такие как лопатки турбины, компрессоры, камеры сгорания, подшипники, клапаны и т. д.
Объекты основных данных - самые значимые для организации сущности — те, которые отслеживаются в рамках транзакций, отражаются в отчетности, оцениваются и анализируются. Они хранятся в справочниках НСИ.
Важно, чтобы данные о каждом объекте НСИ поддерживались в актуальном состоянии.
Неверные значения, наличие в справочниках НСИ дубликатов и некорректных наименований могут стать причиной ошибок в производственных процессах, которые дорого обойдутся предприятию.
Приводить данные в порядок важно не только крупным предприятиям.
Данные, предназначенные для многократного применения при решении различных инженерно-технических и организационных задач, присутствуют и в других отраслях.
Беспорядок в справочниках и каталогах основных данных в любой компании приводит к:
снижению качества бизнес-процессов
замедлению работы компании из-за отличия в показателях подразделений
увеличению времени получения отчетов до нескольких дней
отсутствию возможности внедрить BI-инструменты для анализа бизнес-показателей
Низкое качество данных = потеря денег
Покажем на примерах, с которыми сталкивались специалисты Qlever в работе с клиентами.
Классические проблемы качества данных
В результате ручного ввода данных в справочники и присутствия человеческого фактора, бизнес сталкивается с проблемами качества данных:
Ошибки в форматах данных: путаница в единицах измерения и форматах дат и времени
Формальное отношение сотрудников к внесению исходных данных, копипаст
Отсутствие или неполнота общих словарей
Дубликаты
Несовпадения перевода (как перевести корректно «ООО»: «ООО», «LLC», «Ltd» или «LLP»?)
Отсутствие или недостаточность аудита исторических данных (например, произошло изменение юридического статуса контрагента, которое не было учтено)
Проверка данных на возможность передачи во внешние источники (персональные и иные конфиденциальные данные)
Как приводить данные в порядок
Нормализация НСИ – это трансформация данных в соответствии с требованиями методики ведения объекта НСИ.
В процесс нормализации входят:
Выявление и удаление дублей, неактуальных данных
Выявление и устранение ошибок в данных
Структурирование данных, приведение значений в соответствие правилам ведения
Заполнение необходимых атрибутов
Как правило, нормализацию мастер-данных проводят вручную специалисты НСИ. Проверка и исправление 1000 позиций данных занимает у НСИ-экспертов до 1 рабочего дня, что делает процесс нормализации затратным.
Сократить время нормализации НСИ с 8 часов до 30 минут можно с помощью инструментов машинного обучения.
СервисML-Qlever
Команда Qlever Solutions разработала собственный инструмент для нормализации данных на основе машинного обучения, который поможет навести порядок в любом корпоративном справочнике эффективнее и дешевле ручной нормализации.
Сервис может использоваться для:
Выделения характеристик из неструктурированных наименований
Классификации объектов справочников
Для работы с сервисом необходимы только ресурсы на подготовку данных, обучение модели с помощью обучающей выборки и проверку результатов.
Автоматическое выделение характеристик
Алгоритм выделяет значения характеристик из неструктурированного наименования, согласно словарю характеристик, и одновременно нормализует их.
Объем данных по выборке из примера – 10 000 записей
Количество характеристик – 7
Время подготовки словаря характеристик методистом – 1 час
Время работы алгоритма - 20 минут
Время проверки – 40 минут
Автоматическая классификация
Инструмент классифицирует номенклатуру по совокупности атрибутов номенклатуры, в том числе, по историческому наименованию. Аналогично может быть проведена классификация по другим классификаторам (ТН ВЭД, ОКПД2, ЕТСНГ и т.п).
Точность классификации номенклатуры с помощьюMLсоставляет 99%.
Узнайте больше об инструменте ML, который приведет в порядок справочники меньше, чем за 1 час
Посмотрите вебинар "ML-алгоритмы в системе управления НСИ: 100-кратный рост скорости и экономической эффективности"
Автоматический сбор данных, чтобы формировать дашборды и получать аналитические отчёты максимально быстро и без использования ручного труда
Обнаружение аномалий в справочниках, поиск ошибок или дублей в данных для их своевременного исправления
Классификация объектов справочников на основе большого количества характеристик или по неструктурированным данным, чтобы обогащать и дополнять данные необходимыми атрибутами
Автоматический перевод текстовых и звуковых данных
Система рекомендаций, прогнозирование событий
Интеллектуальный помощник в необходимой предметной области
Машинное обучение многократно ускоряет процесс обработки данных и экономит ваши средства.
В таблице наглядно показали сравнение затрат при нормализации справочника на 10 000 единиц номенклатуры ручным методом и с помощью алгоритмов машинного обучения.
Расчетная стоимость чел.- часа определена при окладе сотрудника 100 тыс. руб. в месяц с учетом начислений на з/п и накладных расходов 40%. Из таблицы видно:
1.При проверке дублей вручную эксперту необходимо будет вычитать все 10 000 позиций справочника и вникнуть в смысл каждой записи, этот процесс займет до 40 человеко-часов и по средним расчетам ЗП обойдется компании в 41 тыс. рублей. Наименования позиций могут, на первый взгляд, быть одинаковыми, но на самом деле незначительно отличаться.
В такой ситуации простой поиск дублей не даст необходимого результата.
Алгоритмы ML производят интеллектуальный поиск и отмечают ряд позиций, которые похожи с определенной степенью релевантности (например, две позиции похожи на 78%). Алгоритм дает эксперту ориентир, что необходимо сравнить именно эти позиции и сделать вывод.
С помощью автоматического сравнения эксперту НСИ необходимо будет проверить уже не 10 000, а всего 500 позиций, где дубли наиболее вероятны, что сократит время, а значит, и стоимость его работы. По данной задаче ML-алгоритм экономит до 60% времени эксперта.
2. Для классификации записей с помощью машинного обучения, например, по ОКПД2, специалисту не нужно сопоставлять все позиции. Временные затраты приходятся только на подготовку обучающей выборки для ML-сервиса, а затем алгоритм автоматически проставляет коды, с точностью почти в 100%. Здесь экономия затрат от использования ML достигает до 90%, сокращая стоимость работы специалиста с 83 тыс. до 8 тыс. рублей.
3.Самый большой выигрыш по времени можно получить при выделении характеристик из неструктурированных данных. Здесь, как видно на таблице, мы сокращаем затраты компании с 166 тыс. до 2 тыс. рублей.
Например, при необходимости выделения дополнительных атрибутов из выборки по МТР (материально-технические ресурсы) с помощью ML, необходимо только предварительно подготовить список характеристик и возможных значений.
4. Произведя разбивку по атрибутам, можно легко провести нормализацию наименований для стандартизации их в справочнике. Автоматизированная нормализация наименований займет у сотрудника около 80 часов против всего 8 часов работы алгоритма, экономия составит до 90%.
Стоимость работ по НСИ с использованиемML-Qlever
На рынке средняя стоимость нормализации одной позиции в справочнике стоит в районе 150 рублей, в таблице мы показали, как снижается стоимость за обработку одной позиции по разным видами задач НСИ при применении нашего ML-алгоритма Qlever.
Запишитесь на тест-драйв Qlever-ML
С помощью инструментов машинного обучения нормализуем ваши данные бесплатно* *до 1000 позиций справочника