Limpeza de dados

Para que se possa ter uma boa qualidade de dados é necessário em muitos casos fazer uma limpeza regular a esses dados. Se por um lado existe...

Para que se possa ter uma boa qualidade de dados é necessário em muitos casos fazer uma limpeza regular a esses dados. Se por um lado existem campos que facilmente conseguimos verificar a sua validade e qualidade, outros há em que é quase impossível tal tarefa.

Iniciando pelos nomes temos um bom exemplo da simplicidade e da dificuldade na limpeza dos dados. Em termos gerais tanto o nome, como o campo sexo são facilmente verificáveis, validados e corrigidos se necessário. Existem listas de referência com os nomes e com os respectivos sexos, fazendo o cruzamento entre estas listas de referência e os dados existentes e temos o tratamento executado. Depois temos as excepções. Desde nomes que simplesmente estão escritos de uma forma tão distorcida que impede a sua correcção, as abreviaturas não standartizadas, até nomes totalmente estranhos, não sendo necessário sequer dar como exemplo as famosas filhas de um casal do nosso burgo. Estes casos são os que têm se ser validados manualmente. Felizmente que estes casos são sempre casos residuais e por vezes nem sequer existem.

Depois temos os valores que derivam de regras existentes e que os utilizadores acabam por tornear inserindo outros valores, como nos 3 últimos dígitos do código postal serem em muitos casos "999", porque anteriormente já tinha sido impossibilitada a inserção do "000". Ou então no numero de porta porque é um campo que tem obrigatoriedade de preenchimento e como já se colocou a morada completa no campo do arruamento, voltam a colocar um valor no campo numero de porta. No final temos como resultado registos como:

Morada Numero Porta Adicional Localidade CodPostal EndPostal
Rua Poder Local, 16 7 Z 16 Pontinha 1675-99 Pontinha
R Poder Local, 16 7 Z 9999 Pontinha 1675-001 Pontinha
Rua do Poder Local 16 7 Z Pontinha 1675-157 Pontinha

Embora sejam problemas resolúveis é sempre arriscado simplesmente retirar o 9999, porque pode haver casos em que o 9999 é realmente o numero de porta.

No próximo post passamos à fase de deduplicaçaão.

You Might Also Like

0 comentários

Flickr Images