Os projectos de ETL são o fim ou apenas o principio dos projectos de qualidade de dados?
17:23Na grande maioria dos casos os projectos de limpeza de dados ou qualidade de dados, são projectos simples de ETL, em que existem várias abor...
Na grande maioria dos casos os projectos de limpeza de dados ou qualidade de dados, são projectos simples de ETL, em que existem várias abordagens.
Há projectos que são "simples". É feita a Extracção dos dados, o seu tratamento (Transform) e posteriormente o seu carregamento em BD (Load). Com estes projectos há uma aproximação a uma verdadeira qualidade de dados, mas se "olharem" com mais atenção vão verificar que na realidade, os dados nunca chegaram realmente a ficar limpos nos valores que são apresentados. Estes processos de ETL demoram algum tempo, e durante esse tempo, alguns dos dados que estão a ser tratados, estão a ser alterados pelos utilizadores. Ou seja, quando a BD é reposta, esses dados para alem de não poderem ser carregados, as alterações que entretanto foram efectuadas trouxeram mais "lixo" para o sistema.
E depois? Na semana seguinte a este projecto há novos dados, alterações e todo um conjunto de processos que fazem os dados voltar ao seu estado de falta de qualidade.
Existem outras abordagens, que já vi serem implementadas por grandes empresas em Portugal, que são ainda mais chocantes, que é a execução de projectos de ETL de forma progressiva. Ou seja, primeiro por exemplo tratam os registos que têm o código postal 1000. Depois os 1050 e assim sucessivamente. Este processo apenas permite que uma empresa fique eternamente a fazer a limpeza de dados, porque quando chegam ao fim do processo, estão os dados iniciais já totalmente "sujos". Apenas continuam o processo Ad aeternum.
Os processos ETL devem ser o principio de qualquer projecto de qualidade de dados. Durante o processo de ETL deve ser implementada uma solução online que permita a manutenção dos dados actualizados, evitando assim estar sempre a implementar processos ETL, com os elevados custos inerentes.
Aqui podem ver uma demonstração de como podem funcionar estas aplicações que em termos de moradas evitam a entrada de "lixo" para o sistema.