Conceito, definição de qualidade de dados (Data Quality) - parte II
11:49Tal como prometido no post anterior aqui ficam algumas soluções para minimizar os problemas de qualidade de dados.
Vamos ver se consigo abranger todos os tópicos colocados, mas tenho desde já de fazer uma ressalva. A limpeza dos dados é tudo menos um processo estético. Não se deve fazer uma limpeza de dados apenas para que fiquem "mais bonitos", até porque a isso não se deve chamar limpeza de dados, muito menos processo de qualidade de dados. Isto vem na sequência de uma mensagem que recebi e como não quero que restem duvidas acerca deste aspecto venho aqui reiterar a importância dos processos de qualidade de dados.
Vou tentar mostrar como os processos de qualidade de dados podem ajudar a melhorar, não apenas os dados em si, mas especialmente conseguir em primeira analise a melhoria imediata dos dados, de forma a rentabilizar os mesmos, podendo dessa forma ter um retorno no investimento rapidamente.
Muitos são os estudos e todos apontam para valores assustadores de custos. Vamos desde os 5% do PIB Norte-Americano, aos 10% das receitas das empresas Australianas e da Nova Zelândia para alem de muitos outros valores todos eles como foi dito... assustadores.
Em Portugal nunca foi feito nenhum estudo concreto dos valores que a falta de qualidade dos dados nas nossas empresas representam. Provavelmente porque é um problema que se vai adiando, porque os custos não são medidos, como tal não existem. Os devolvidos são colocados num armazém e nem sequer são contados e quando são contados por norma não se faz contas ao custo total desses devolvidos. Fiz uma pequena "calculadora" onde se pode calcular o custo aproximado total destes devolvidos, com valores a que tive acesso de uma campanha de um prospect. Não é nada muito elaborado nem tenta ser. É apenas para que se possa ter uma forma simples de ter uma noção dos custos.
Estes processos de qualidade de dados podem ser mais ou menos complexos dependendo muito não apenas dos problemas existentes, mas também da disponibilidade de mudança da empresa. Idealmente estes processos deveriam iniciar-se com um data profiling.
Nesta primeira fase, será feita uma representação das fontes de dados, com os nomes dos campos, a sua descrição, os máximos e mínimos. Ter uma representação dos valores, mostrando os padrões, com as frequências para que rapidamente se possam detectar erros nos dados existentes. Verificar a informação das tabelas ligadas, a existência de registos órfãos, detecção de sobreposições, verificação dos dados dos campos por entradas válidas, detecção de tabelas não normalizadas, entre outras verificações de todos os campos existentes permitindo assim que se tenha uma noção rapida e concreta de todas as dificuldades existentes. Este trabalho pode ser executado manualmente, mas com a execução destes softwares o tempo de execução é reduzido para 15% em norma.
Numa segunda fase temos os processos batch. Para alem da correcção dos problemas nos dados que tenham sido encontrados anteriormente deverão ser igualmente executadas a normalização de moradas e a procura de duplicados, que são uma ajuda fundamental para incrementar a qualidade dos dados, mas apenas servem para melhorar no imediato essa qualidade. Depois são necessários softwares que mantenham essa qualidade. Caso contrario passados uns meses já se perdeu novamente a confiança nos dados.
Essa terceira fase que deve ser colocada em implementação conjuntamente com esta segunda fase, é constituída pela implementação de softwares online que permitem que todas as interacções entre os utilizadores e a base de dados sejam feitas de forma a manter os dados limpos.
Este processo tem 3 vertentes, uma a normalização/correcção das moradas, impedindo que moradas erradas entrem no sistema, outra vertente a deduplicação/desduplicação dos registos, evitando que registos duplicados entrem em BD e por fim uma monitorização de todos os outros campos da BD, impedindo que erros já detectados voltem a ocorrer.
Todos estes processos já foram de alguma forma aqui demonstrados neste blog. Temos por exemplo o profiling, os processos batch, a parte da normalização/correcção de moradas e finalmente a monitorização.
0 comentários