Normalização vs Qualidade de dados
11:58Por algumas reacções que obtive relativamente ao post Ferramentas de qualidade de dados em Portugal, acho que devo evidenciar as diferenças entre uma normalização, que certamente é parte integrante dos processos de qualidade de dados, mas apenas uma pequena parte e um processo completo de qualidade de dados. Diria mesmo que é a parte mais simples, caso as fases que considero primordiais tenham obtido sucesso.
Para melhor poder mostrar a diferença entre uma normalização e um processo completo de qualidade de dados, vamos dar alguns exemplos. Imaginemos que temos a seguinte BD para tratamento.
Ant Sousa Mendes; R. frenando Diaz, 4 3º Direito; 1000 Lisboa
Man Jose Tavares; Aven. Fern Diaz, 5 6 Es; 1100-000 Lisvoa
Mª Jaão Tavares; Av Fernado Dias, 5 6ª ESQUERDO; 1100-199 LISBOA
Se em cima destes dados for feito um trabalho de normalização e dependendo das regras que forem definidas, o resultado final será qualquer coisa como:
António Sousa Mendes; Rua Frenando Diaz, 4 3º Dto; 1000 Lisboa
Manuel José Tavares; Avenida Fernando Diaz, 5 6º Esq; 1100-000 Lisvoa
Maria João Tavares; Avenida Fernado Dias, 5 6º Esq; 1100-199 Lisboa
Mas como se podem ver existem erros que persistem, com um processo de qualidade de dados mais completo facilmente conseguiríamos os seguintes resultados:
António Sousa Mendes; Avenida Fernando Dias, 4 3º Dto; Lisboa; 1100-199 LISBOA
Manuel José Tavares; Avenida Fernando Dias, 5 6º Esq; Lisboa; 1100-199 LISBOA
Maria João Tavares; Avenida Fernando Dias, 5 6º Esq; Lisboa; 1100-199 LISBOA
Não apenas temos as ruas TOTALMENTE normalizadas e confirmadas, como temos sempre o código postal completo com as 7 posições correctas.
Esta pode ser a diferença entre conseguirmos encontrar ou não alguns dos registos duplicados. E quando falamos em duplicados tanto podem ser duplicados por household, como seria aqui o caso ou mesmo indivíduos duplicados.
Espero que tenha sido um pouco mais esclarecedor, que um processo de normalização, com maior ou menor dificuldade, se consegue fazer sem grandes problemas. Mas por outro lado um processo completo de qualidade de dados já não é assim tão simples de ter bons resultados. Para se conseguirem valores elevados de qualidade de dados, necessitamos não apenas de uma ferramenta poderosa, mas também de um ficheiro de arruamentos que o consiga acompanhar. Como sabemos em Portugal, mesmo em termos cartográficos, não temos o levantamento total do país. E estamos a falar de uma área muito activa, mas neste momento temos um street file que nos permite ter qualidade de dados de 93%, o que é excelente não apenas em Portugal, como em qualquer parte do mundo.
0 comentários