Limpeza de dados
11:42Um dos primeiros processos necessários para termos qualidade de dados é a Limpeza dos dados (Data Cleansing). Consiste essencialmente na detecção e correcção (ou remoção) de registos que estejam incompletos, incorrectos, sejam irrelevantes, que estejam corrompidos ou imprecisos. Outro dos termos que se podem igualmente aqui aplicar é validação dos dados (Data validation). Embora possam e devam ser usados em conjunto, na maior parte dos casos a validação dos dados é pouco ou nem sequer é usado. Isto apenas faz aumentar os custos de limpeza de dados, uma vez que se os dados forem validados logo na sua entrada é muito mais simples, barato e fiável, que posteriormente normalmente num processo batch.
Voltando ao processo de limpeza, mais tarde iremos falar no processo de validação, é um processo que deve envolver a remoção de erros que são comuns, como por exemplo, erros de digitação, fonéticos e outros que possam ocorrer aquando da inserção dos dados em BD. Isto sempre feito comparando os registos contra tabelas de referência, ou através da delimitação de valores, ou com métodos estatísticos, ou outros processos que validem esses dados. Esta validação pode ser mais ou menos restritiva, invalidado por exemplo registos que não tenham código postal.
Numa fase posterior temos a remoção de duplicados das BD’s que é outro dos processos fundamentais na limpeza de dados. Esta parte é das partes mais sensíveis uma vez que não existe uma “receita” que sirva todas as BD’s. Todas as BD’s são únicas e como tal o processo de parametrização tem sempre de ser igualmente único. É um processo muito sensível, porque podemos estar a deixar muitos duplicados por encontrar, ou por outro lado podemos estar a dar como duplicados registos que não são de todo duplicados. Esta afinação é dos processos mais morosos e que requer mais conhecimentos em todo o processo de limpeza de dados. Mais uma vez, tudo isto se simplifica quando esta remoção de duplicados é feita aquando da introdução dos dados na BD. Prevenir é sempre melhor que remediar.
Depois de assinalados os duplicados há um processo muitíssimo importante que é o processo de complementarização. Consiste na “associação” de todos os campos, segundo regras pré estabelecidas, a um único registo. Imaginemos que temos 5 duplicados de um dado registo e que apenas em um deles temos o número de telemóvel. Esse dado não pode ser pedido, temos de ter forma de o poder colocar no registo master, que no final do processo irá ter TODAS as informações dispersas por todos os registos duplicados.
Depois de cada um destes processos há sempre um outro que tem de decorrer em paralelo que é o processo de verificação da consistência dos dados. Este processo de verificação é de extrema importância para que não se percam dados em nenhuma das fases deste processo.
0 comentários