От реактивного к превентивному: новая парадигма управления качеством данных
В Москве прошла Седьмая Всероссийская конференция «Качество данных», организатором которой выступает издательство «Открытые системы». Главной темой конференции стало формирование конвейеров данных, обеспечивающих необходимый уровень их качества, интеграцию в корпоративные бизнес-процессы. Это единственная в России и СНГ площадка, полностью посвященная стратегии и практике обеспечения качества данных.
Почему мы обратили внимание на данное мероприятие? Очевидно, что качество данных является критически важным фактором не только для бизнеса, но и для государственного управления. Соответственно, ключевые подходы в управлении качеством данных и наработанный компаниями опыт полезны и интересны для сферы госуправления.
Shift left — сдвиг влево
Надо признать, что долгое время ИТ-системы воспринимались как основной инструмент решения задач, а данные считались вторичным элементом — просто «сырьем» для обработки. «Мы все привыкли к тому, что у нас есть ИТ-система, которая должна решить определенные задачи. Для того чтобы она работала, нам нужно: „железо“, лицензии. Далее раздали доступ сотрудникам и работаем, — обрисовал стандартную ситуацию Владимир Анисимов, независимый эксперт. — Очень долго мы не понимали того, что, по сути, сама система вторична. Первичны данные, которые обрабатываются в системе, и решения, которые мы принимаем на основе этих данных». По словам спикера, сегодня в современной бизнес-среде постепенно происходит фундаментальный сдвиг влево (парадигма shift left), а именно осознание ключевой роли данных. Становится очевидным: именно качество данных определяет эффективность принимаемых решений, а значит, и успех компании в целом.
По словам Владимира Анисимова, сегодня бизнес приходит к пониманию необходимости закладывать требования к качеству данных уже на этапе проектирования систем. Это принципиально отличается от традиционного метода, когда менеджеры пытаются сократить сроки выполнения задач без учета фундаментальных основ. Вместо реактивного подхода («проблема возникла — срочно устраняем») предлагается превентивная модель: не допускать попадания некачественных данных в систему, возвращая их на доработку еще на входе.
Инструменты и методы обеспечения качества
Для реализации этой парадигмы существует целый арсенал современных инструментов. Например, библиотека Great Expectations способна покрыть
Great Expectations — библиотека проверки, документирования и профилирования данных для поддержки их качества (Data Quality — это комплексная характеристика, определяющая степень пригодности данных для решения конкретных бизнес-задач) и улучшения взаимодействия между командами дата-специалистов.
Следующая практика, которая, по мнению спикера, достойна внимания, — Data Ops. Она позволяет оптимизировать работу с данными через автоматизацию, непрерывную интеграцию и тесное взаимодействие команд. По словам Владимира Анисимова, сегодня Data Ops пока не получила массового распространения, тем не менее отдельные компании уже успешно интегрируют практику в свои процессы, демонстрируя его эффективность. «Таким образом, Data Ops можно рассматривать как стратегический элемент будущего», — считает спикер.
Непрерывная интеграция и поставка
Такие подходы, как Continuous Integration (непрерывная интеграция) и Continuous Delivery (непрерывная поставка), прочно вошли в практику разработчиков программного обеспечения. Однако эти принципы в полной мере применимы и к работе с данными. «Ведь в процессе разработки любого продукта данные неизбежно вовлечены в рабочий цикл — они собираются, обрабатываются, передаются и анализируются, а значит, требуют такого же внимательного и системного подхода, как и сам код», — подчеркнул Владимир Анисимов.
Именно поэтому критически важно интегрировать контроль качества данных непосредственно в процессы Continuous Delivery и Continuous Integration. Это означает, что проверка данных не должна оставаться отдельной, обособленной задачей, выполняемой время от времени вручную. Напротив, она должна стать естественной, неотъемлемой частью рабочего конвейера CI/CD.
«Data Quality as Code — еще один новый подход, который позволит зашить все проверки в код, автоматизировать нашу работу», — рассказал спикер. Проверки запускаются автоматически при каждом изменении данных или выполнении определенных операций, что исключает человеческий фактор и гарантирует регулярность контроля.
Особую важность имеет возможность отслеживать изменения правил качества данных с помощью механизмов версионирования, аналогичных тем, что используются в системах контроля версий кода. Как рассказал спикер, каждое изменение правил фиксируется, сохраняется история правок, можно отследить, кто и когда внес те или иные корректировки, а также при необходимости вернуться к предыдущей версии правил. Такой подход обеспечивает полную прозрачность и контролируемость процесса управления качеством данных.
Доступ ограничен
Материал опубликован в сокращенном виде. Прочитать публикацию целиком вы можете, подписавшись на журнал «Финконтроль»