Melhorando a qualidade dos dados: anomalias e monitoramento automatizado

Como os desenvolvedores podem evitar problemas de licenciamento de código aberto

25 de junho de 2024

Featued image for: Human Insight + LLM Grunt Work = Creative Publishing Solution

Human Insight + LLM Grunt Work = Solução Criativa de Publicação

26 de junho de 2024

Publicado por Douglas S. em 25 de junho de 2024

Categorias

Data Science

Tags

Melhorando a qualidade dos dados: anomalias e monitoramento automatizado

Quer as aplicações, os sistemas de informação e os recursos computacionais sejam voltados para o cliente ou internos, geradores de receitas ou não, um facto quase sempre permanecerá verdadeiro sobre eles.

Todos eles são baseados em dados e são tão úteis quanto seus ativos de dados.

Quando esses dados são precisos, oportunos, completos e de qualidade confiável, esses sistemas podem atender a diversos objetivos de negócios. No entanto, como disse o CEO da Anomalo, Elliot Shmukler, ao The New Stack: “O problema é que todas essas coisas quebram se você estiver fazendo as coisas erradas. Ou, se seus dados estiverem atrasados. Ou, se estiver faltando.”

As soluções contemporâneas de qualidade de dados são responsáveis por estas e por um número quase ilimitado de variáveis adicionais que diminuem a qualidade dos dados de uma organização — e o resultado dos seus esforços orientados por dados.

Além disso, eles fazem isso com uma quantidade impressionante de automação (baseada em aprendizado de máquina (ML), construções com e sem código e bibliotecas de recursos). Eles fornecem essa funcionalidade para dados que fluem através de pipelines de dados, dados em repouso e dados estruturados, semiestruturados e não estruturados (incluindo texto não estruturado).

Com recursos para implementar rapidamente a análise de causa raiz por meio de linguagem natural e descrições pictóricas, essas plataformas “ajudam as equipes de dados a encontrar esses tipos de problemas em seus dados antes que algo aconteça”, acrescentou Shmukler. “Antes que os painéis estejam errados. Antes que os modelos de ML baseados nesses dados saiam dos trilhos. Antes que as decisões erradas sejam tomadas.”

Aprendizagem Auto-Supervisionada

O aprendizado de máquina da Anomalo é fundamental para permitir que as organizações implementem a qualidade dos dados de forma expedita e, na maioria dos casos, com esforço nominal. A oferta funciona principalmente conectando-se a data warehouses ou data lakes para começar a “monitorar automaticamente qualquer conjunto de dados… de seu interesse”, indicou Shmukler.

Os modelos de aprendizado de máquina da Anomalo, que envolvem em grande parte o aprendizado autossupervisionado, monitoram conjuntos de dados sem que os usuários estabeleçam regras, escrevam código ou descrevam o que são dados de qualidade. Embora também estejam envolvidas técnicas de perfil de dados, os modelos de aprendizagem auto-supervisionados “treinam-se na história do conjunto de dados, em vez de quaisquer dados rotulados por humanos”, disse Shmukler. Logo após a seleção dos conjuntos de dados, a plataforma começa a monitorar detalhes como:

Atualização de dados: Essa verificação determina se novos dados estão chegando quando esperados.
Completude: Esta métrica avalia se os dados têm o volume certo ou faltam segmentos, informações colunares ou outras características.
Distribuição: As mudanças de distribuição indicam se os conjuntos de dados contêm valores novos e anômalos.
Correlações colunares: Anomalo pode determinar se há alterações atípicas nas correlações entre colunas nas tabelas.

Ao analisar esses e outros fatores, disse Shmukler, as “verificações prontas para uso” do sistema encontram 85 a 90 por cento de todos os problemas possíveis sem que você precise nos dizer o que procurar.

Monitoramento Determinístico

Os usuários podem administrar regras e lógica de negócios para monitoramento determinístico e especializado para os 10% a 15% restantes de problemas de qualidade de dados. Uma biblioteca de regras básicas está disponível na plataforma para que as organizações “façam de três a quatro cliques para implementar uma regra fácil e simples”, disse Shmukler.

Os exemplos incluem regras para verificar valores colunares para detectar coisas como nulos aparecendo onde não deveriam estar, se os valores estão no formato correto e diferenças entre tabelas específicas.

Para casos de uso personalizados em que o SQL é necessário, o AI Assist, um recurso lançado recentemente, utiliza GPT-4 para escrever SQL a partir de prompts em linguagem natural. Ele também pode corrigir erros de código se os usuários preferirem escrever seu próprio SQL.

“Com o AI Assist, você pode simplesmente nos dizer o que está tentando fazer e nós escreveremos esse SQL para você”, disse Shmukler.

As organizações podem até emitir verificações para um conjunto completo de métricas, até aproximadamente 100 por vez, para conjuntos de dados diferentes ou para o mesmo. Assim, ao monitorar atividades de vários clientes em diversas regiões, por exemplo, os usuários podem empregar esse recurso em vez de criar verificações individuais para cada métrica para cada cliente em cada região – um processo árduo e demorado.

Com essa capacidade, disse Shmukler, a plataforma “analisará automaticamente essa coleção de métricas como um todo e identificará as mais anômalas, rastreá-las-á ao longo do tempo e construirá modelos individuais para entender como está se movendo”.

Análise de causa raiz

A simplicidade que o Anomalo oferece para monitorar automaticamente a qualidade dos dados caracteriza a determinação rápida das causas raízes dos incidentes de dados. O sistema emite “análise automatizada de causa raiz quando as regras falham”, de acordo com Shmukler, e quando anomalias são detectadas. Vários fatores influenciam a determinação da causa dos problemas de dados, incluindo a linhagem dos dados, desenvolvimentos atuais e anteriores.

Uma síntese desses fatores é divulgada por meio de alertas oportunos de problemas relacionados ao sistema subjacente e “à causa raiz que calculamos”, disse Shmukler. “Há informações históricas para que você possa contextualizar esse problema. Todas essas coisas estão disponíveis para você, a apenas um clique de distância.”

Os alertas incorporam explicações em linguagem natural e visualizações que descrevem quaisquer problemas com dados ou pipelines de dados.

Suporte ao pipeline de dados

Anomalo estende seu monitoramento a pipelines de dados e ferramentas de orquestração para implementar medidas como disjuntores, que impedem que pipelines transmitam dados de qualidade abaixo do padrão, e binning, que separa dados de qualidade de dados de baixa qualidade, permitindo que os primeiros continuem no pipeline.

Shmukler relatou um caso de uso em que um cliente imobiliário, recebendo dados de terceiros de inúmeras fontes nacionais e agências governamentais, estava lutando para combinar seus dados de preços de listagem com os dados fiscais corretos.

A análise de causa raiz do Anomalo não apenas identificou com sucesso de onde vieram os dados de baixa qualidade, mas, observou Shmukler, “também identificou qual região geográfica dentro do conjunto de dados estava mostrando esses dados ruins”.

Texto e documentos não estruturados

A capacidade de implementar a qualidade dos dados nas fontes simplesmente conectando-se a elas, interromper os pipelines de dados com base na qualidade dos dados que contêm e automatizar a linguagem natural e as explicações pictóricas das causas dos incidentes de dados é apenas o começo para a Anomalo.

O fornecedor, que foi reconhecido como Parceiro Emergente do Ano da Databricks, lançou recentemente um recurso no qual implanta GPT-4 para monitoramento de texto não estruturado, permitindo aos usuários fazer upload de um corpus e “criar resumos dos documentos para avaliar sua qualidade enquanto procuram quão rico é esse conteúdo”, disse Shmukler. “Em que série está?” Existem duplicatas?”

Tais esforços estão a modernizar a utilidade geral da qualidade dos dados, trazendo-a para o domínio da IA generativa. A Anomalo não está apenas empregando essa tecnologia, mas também fazendo isso para que as organizações ajustem, treinem e instituam a geração aumentada de recuperação (RAG) em seus próprios modelos de linguagem.