30.01.2024 ПУБЛИКАЦИИ

Как с помощью ML сократить время нормализации справочников номенклатуры с 8 часов до 30 минут?

25 января на открытой онлайн-встрече ведущий эксперт НСИ Qlever Solutions Елена Язева, представила аудитории ML-сервис для работы с мастер-данными, разработанный командой Qlever, и продемонстрировала действующие кейсы применения машинного обучения в управлении НСИ.

В статье по итогам вебинара рассказываем о том, зачем нужна нормализация данных, и как инструменты ML могут помочь в процессе нормализации мастер-данных.

Зачем приводить в порядок данные?

Данные – это уникальный актив:

  • Данные – неисчерпаемый ресурс, в отличие от материальных или финансовых ресурсов
  • Управление данными – кросс-функциональный процесс, который требует взаимодействия многих специалистов
  • Высокое качество данных дает ценность, низкое качество создает издержки
  • Необходим особый подход к определению объективной ценности данных
  • Управление данными – это стратегический уровень, этот процесс требует понимания важности данных лидерами компании
  • Управление данными включает управление рисками
Данные для компании – потенциал развития и получения прибыли

Они помогают компаниям сформировать уникальные конкурентные преимущества, получить дополнительную прибыль, оптимизировать производство и продажи, избежать риски.

    Согласно отчету IDC (International Data Corporation), ежегодно объем данных в мире увеличивается на 61%.

    Особенно быстро растет количество данных в отраслях, которые характеризуются сложными и высокотехнологичными процессами, производят или реализуют большое разнообразие продукции, имеют филиальную структуру, взаимодействуют с государственными информационными системами.

    Например, на предприятиях информация о материалах, компонентах производимого изделия и его модификациях, технологических маршрутах, оснастке, оборудовании, контрагентах, ценах, процессах и стандартах является объектом основных данных и порой исчисляется миллионами строк.
      При производстве одного авиационного двигателя может использоваться до 10 тыс. различных компонентов, включая различные детали и узлы, такие как лопатки турбины, компрессоры, камеры сгорания, подшипники, клапаны и т. д.

      Объекты основных данных - самые значимые для организации сущности — те, которые отслеживаются в рамках транзакций, отражаются в отчетности, оцениваются и анализируются. Они хранятся в справочниках НСИ.

      Важно, чтобы данные о каждом объекте НСИ поддерживались в актуальном состоянии.

      Неверные значения, наличие в справочниках НСИ дубликатов и некорректных наименований могут стать причиной ошибок в производственных процессах, которые дорого обойдутся предприятию.

        Приводить данные в порядок важно не только крупным предприятиям.

        Данные, предназначенные для многократного применения при решении различных инженерно-технических и организационных задач, присутствуют и в других отраслях.

          Беспорядок в справочниках и каталогах основных данных в любой компании приводит к:

          • снижению качества бизнес-процессов
          • замедлению работы компании из-за отличия в показателях подразделений
          • увеличению времени получения отчетов до нескольких дней
          • отсутствию возможности внедрить BI-инструменты для анализа бизнес-показателей

            Низкое качество данных = потеря денег

            Покажем на примерах, с которыми сталкивались специалисты Qlever в работе с клиентами.

              Классические проблемы качества данных

              В результате ручного ввода данных в справочники и присутствия человеческого фактора, бизнес сталкивается с проблемами качества данных:

              • Ошибки в форматах данных: путаница в единицах измерения и форматах дат и времени
              • Формальное отношение сотрудников к внесению исходных данных, копипаст
              • Отсутствие или неполнота общих словарей
              • Дубликаты
              • Несовпадения перевода (как перевести корректно «ООО»: «ООО», «LLC», «Ltd» или «LLP»?)
              • Отсутствие или недостаточность аудита исторических данных (например, произошло изменение юридического статуса контрагента, которое не было учтено)
              • Проверка данных на возможность передачи во внешние источники (персональные и иные конфиденциальные данные)

                Как приводить данные в порядок

                Нормализация НСИ – это трансформация данных в соответствии с требованиями методики ведения объекта НСИ.

                В процесс нормализации входят:

                • Выявление и удаление дублей, неактуальных данных
                • Выявление и устранение ошибок в данных
                • Структурирование данных, приведение значений в соответствие правилам ведения
                • Заполнение необходимых атрибутов
                Как правило, нормализацию мастер-данных проводят вручную специалисты НСИ. Проверка и исправление 1000 позиций данных занимает у НСИ-экспертов до 1 рабочего дня, что делает процесс нормализации затратным.

                    Сократить время нормализации НСИ с 8 часов до 30 минут можно с помощью инструментов машинного обучения.

                    Сервис ML-Qlever

                    Команда Qlever Solutions разработала собственный инструмент для нормализации данных на основе машинного обучения, который поможет навести порядок в любом корпоративном справочнике эффективнее и дешевле ручной нормализации.

                    Сервис может использоваться для:

                    • Выделения характеристик из неструктурированных наименований
                    • Классификации объектов справочников
                    Для работы с сервисом необходимы только ресурсы на подготовку данных, обучение модели с помощью обучающей выборки и проверку результатов.


                        Автоматическое выделение характеристик

                        Алгоритм выделяет значения характеристик из неструктурированного наименования, согласно словарю характеристик, и одновременно нормализует их.

                        • Объем данных по выборке из примера – 10 000 записей
                        • Количество характеристик – 7
                        • Время подготовки словаря характеристик методистом – 1 час
                        • Время работы алгоритма - 20 минут
                        • Время проверки – 40 минут


                            Автоматическая классификация

                            Инструмент классифицирует номенклатуру по совокупности атрибутов номенклатуры, в том числе, по историческому наименованию.
                            Аналогично может быть проведена классификация по другим классификаторам (ТН ВЭД, ОКПД2, ЕТСНГ и т.п).

                            Точность классификации номенклатуры с помощью ML составляет 99%.
                                  Узнайте больше об инструменте ML, который приведет в порядок справочники меньше, чем за 1 час
                                  Посмотрите вебинар "ML-алгоритмы в системе управления НСИ: 100-кратный рост скорости и экономической эффективности"

                                  Чем помогут инструменты ML в управлении данными?

                                  • Автоматический сбор данных, чтобы формировать дашборды и получать аналитические отчёты максимально быстро и без использования ручного труда
                                  • Обнаружение аномалий в справочниках, поиск ошибок или дублей в данных для их своевременного исправления
                                  • Классификация объектов справочников на основе большого количества характеристик или по неструктурированным данным, чтобы обогащать и дополнять данные необходимыми атрибутами
                                  • Автоматический перевод текстовых и звуковых данных
                                  • Система рекомендаций, прогнозирование событий
                                  • Интеллектуальный помощник в необходимой предметной области

                                  Машинное обучение многократно ускоряет процесс обработки данных и экономит ваши средства.

                                      Рассмотрим экономическое обоснование, приведенное выше.

                                      В таблице наглядно показали сравнение затрат при нормализации справочника на 10 000 единиц номенклатуры ручным методом и с помощью алгоритмов машинного обучения.

                                      Расчетная стоимость чел.- часа определена при окладе сотрудника 100 тыс. руб. в месяц с учетом начислений на з/п и накладных расходов 40%. Из таблицы видно:

                                      1. При проверке дублей вручную эксперту необходимо будет вычитать все 10 000 позиций справочника и вникнуть в смысл каждой записи, этот процесс займет до 40 человеко-часов и по средним расчетам ЗП обойдется компании в 41 тыс. рублей. Наименования позиций могут, на первый взгляд, быть одинаковыми, но на самом деле незначительно отличаться.

                                      В такой ситуации простой поиск дублей не даст необходимого результата.

                                      Алгоритмы ML производят интеллектуальный поиск и отмечают ряд позиций, которые похожи с определенной степенью релевантности (например, две позиции похожи на 78%). Алгоритм дает эксперту ориентир, что необходимо сравнить именно эти позиции и сделать вывод.

                                      С помощью автоматического сравнения эксперту НСИ необходимо будет проверить уже не 10 000, а всего 500 позиций, где дубли наиболее вероятны, что сократит время, а значит, и стоимость его работы. По данной задаче ML-алгоритм экономит до 60% времени эксперта.


                                      2. Для классификации записей с помощью машинного обучения, например, по ОКПД2, специалисту не нужно сопоставлять все позиции. Временные затраты приходятся только на подготовку обучающей выборки для ML-сервиса, а затем алгоритм автоматически проставляет коды, с точностью почти в 100%. Здесь экономия затрат от использования ML достигает до 90%, сокращая стоимость работы специалиста с 83 тыс. до 8 тыс. рублей.


                                      3. Самый большой выигрыш по времени можно получить при выделении характеристик из неструктурированных данных. Здесь, как видно на таблице, мы сокращаем затраты компании с 166 тыс. до 2 тыс. рублей.

                                      Например, при необходимости выделения дополнительных атрибутов из выборки по МТР (материально-технические ресурсы) с помощью ML, необходимо только предварительно подготовить список характеристик и возможных значений.


                                      4. Произведя разбивку по атрибутам, можно легко провести нормализацию наименований для стандартизации их в справочнике. Автоматизированная нормализация наименований займет у сотрудника около 80 часов против всего 8 часов работы алгоритма, экономия составит до 90%.

                                      Стоимость работ по НСИ с использованием ML-Qlever

                                      На рынке средняя стоимость нормализации одной позиции в справочнике стоит в районе 150 рублей, в таблице мы показали, как снижается стоимость за обработку одной позиции по разным видами задач НСИ при применении нашего ML-алгоритма Qlever.

                                      Запишитесь на тест-драйв Qlever-ML

                                      С помощью инструментов машинного обучения нормализуем ваши данные бесплатно*
                                      *до 1000 позиций справочника