Questões e sugestões para manter a qualidade de dados - Abordagens
15:12Nunca é de mais repetir que a falta de qualidade de dados é responsável por danos de milhões de Euros em muitas empresas por esse mundo fora. Em muitos casos as empresas entram em grandes projectos de CRM e de BI desperdiçando vastos recursos, uma vez que a qualidade dos dados que alimentam essas aplicações continua a ser baixa ou por vezes muito baixa.
Existem casos que a implementação de rotinas de qualidade de dados mascara um pouco os problemas, mas não fazem com que a qualidade dos dados fique a um nível aceitável, não permitem dar o salto em termos de qualidade que os projectos de CRM e de BI necessitam. Dados incorrectos, a longo prazo podem levar à insatisfação dos clientes, baixando a retenção de clientes.
A Qualidade dos Dados é frequentemente abordada sob a forma de funcionários e/ou consultores externos, sendo por norma responsável por 20 a 50% dos projectos de datawarehouse.
Por norma estes projectos ETL executados desta forma, duram semanas e na maior parte dos casos mesmo meses ou anos. Logicamente que esta duração de projectos depende em muito da dimensão da BD. Com estes tempos de tratamento dos dados o normal é que aquando da reintegração dos dados, estes já tenham sido actualizados e com isso não possam ser reintegrados. Outras vezes ainda na reintegração surgem problemas com formatos, tamanhos entre outros. Outra das dificuldades que surgem é que os dados são por norma partilhados por várias plataformas igualmente com diferentes formatos, o que faz com que se perda um pouco da eficácia no tratamento executado.
O tempo de execução pode ser igualmente um problema porque quando se demora seis meses a processar um ficheiro, o mais certo é que no final do processo já existam dados a necessitar novamente de atenção, o que leva a que este projecto seja um projecto infindável.
Existem três aspectos que são fundamentais que são a precisão, a consistência e a antiguidade dos dados. Por vezes as empresas mantêm em BD dados de clientes com os quais não existe nenhum contacto há mais de 5 anos. Estes dados podem não estar precisos, podem não ter consistência e certamente não estão actualizados. Em cerca de 85% dos casos, a insatisfação dos clientes é resultado de dados obsoletos existentes em vários departamentos como registos de cliente redundantes. Registos duplicados são outros dos motivos da fraca qualidade dos dados e ainda ajudam igualmente a aumentar o tamanho da BD.
Dados correctos, no tempo certo, para as pessoas certas são determinantes para a eficiência operacional de qualquer empresa. Devem ser dados correctos a base de tomadas de decisão a todos os níveis, operacional, táctico e estratégico. Qual deve ser então a abordagem a ter? Indo certamente repetir-me, mas considero que a abordagem que preconizo é certamente a abordagem mais correcta e que melhores resultados finais irá obter.
Em vez de se repetir o processo de ETL infinitamente com todos os custos que isso acarreta, deve ser executado esse processo de ETL num prazo relativamente curto, por norma uma a duas semanas, sendo que para grande volume de dados um mês será um valor com margem de segurança.
Simultaneamente a este processo de ETL fazemos a integração dos programas de normalização / actualização/ correcção (Firewall) em todos os pontos de contacto com a BD, para impedir na medida do possivel que "lixo" volte a entrar na BD. Estas ferramentas têm a vantagem de serem usadas transversalmente em toda a organização. Com isto todos os agentes que até aqui eram a principal fonte de erros, passam a ser a principal barreira que impede que dados "sujos" sejam incorporados em BD. Não existe outra forma de ter qualidade de dados, que não seja com o empenho de todos.
0 comentários