Acordo ortográfico vs Qualidade de dados
12:03Depois de um interregno demasiado prolongado devido a falta de tempo, vou tentar voltar à cadencia anterior de colocação de posts, começando por desejar a todos um excelente 2012!
E para recomeçar, nada melhor que falar no novo acordo ortográfico e do impacto que certamente irá ter na qualidade dos dados. Se até aqui a introdução / alteração de dados já era um problema porque cada vez as pessoas escrevem com mais erros ortográficos, com a entrada do novo acordo ortográfico será ainda pior.
Se pensarmos em termos de nomes e de moradas, poderemos estar perante uma receita perfeita para uma autentica "caldeirada". Vão certamente gerar a criação de muitos duplicados, porque vão aparecer muito mais dados inconsistentes que vão aumentar a falta de qualidade nos dados. Nada melhor que dar alguns exemplos dos erros que se podem antecipar.
Em termos de moradas temos um exemplo que é muito frequente e que certamente vai trazer problemas, especialmente quando estivermos a falar na deduplicação, não existindo um programa que consiga contornar estas dificuldades, que é o "c" antes do "t". E são muitos os exemplos, aqui ficam alguns:
Arquitecto <-> Arquiteto
Projectada <-> Projetada
Inspector <-> Inspetor
Recta <-> Reta
Actor <-> Ator
Actriz <-> Atriz
Colectividade <-> Coletividade
Para juntar a estes temos ainda outros que presumo que se mantenham, porque não se vai mudar o nome às pessoas, ou seja um Octávio, não vai ser "renomeado" e passar a ter o nome escrito como Otávio o mesmo acontecerá ao Victor, ao Octaviano e mais alguns. Como tal um "Find Replace" para trocar todos os "CT" por "T" não deve ser de todo a melhor opção.
Se a falta de qualidade dos dados já se fazia notar em algumas bases de dados, esta será certamente a melhor altura para agir, porque daqui para a frente as coisas só podem piorar.
0 comentários