Conceito, definição de qualidade de dados (Data Quality)

São várias as procuras que aqui chegam com as keywords "definição/conceito de qualidade de dados/data quality". A qualidade de dad...

São várias as procuras que aqui chegam com as keywords "definição/conceito de qualidade de dados/data quality". A qualidade de dados não é um atributo que se consiga definir com um simples sim ou não. É composto por vários parâmetros, uns mensuráveis outros totalmente subjectivos e todos eles podem ser alterados de empresa para empresa, embora existam alguns pontos que são comuns.

Como tal, alguns dos atributos que são mais usados quando se fala de qualidade de dados, são:
- Validade e integridade, os dados existentes estão correctos?
- Acessibilidade, quando são necessários os dados estão disponíveis, ou é necessário fazer vários pedidos até se poder ter acesso aos dados?
- Cobertura, os dados cobrem todos os aspectos do negócio? Podem existir valores absolutos, mas também podem existir valores relativos.
- Pontualidade, Os dados estão sempre disponíveis ou é necessário esperar algum tempo pela sua disponibilização?
- Contexto/Precisão, os dados reproduzem com precisão o que é suposto descreverem?
- Confiabilidade, a todo o momento pode haver confiança nos dados, ou existe alturas do ano em que essa confiança é maior e outras alturas em que é menor?
- Integralidade, os dados contêm toda a informação relevante?

Relativamente a estes atributos, são válidos para praticamente todos os tipos de dados de todos os tipos de industrias, mas aqui e por uma questão de facilidade, vou "puxar a brasa à minha sardinha" e vou centrar os exemplos na área onde tenho maior experiência e maiores exemplos, as moradas e as deduplicações.

Iniciando pela Validade e integridade dos dados, as moradas são um dos casos em que o problema é precisamente esse. Em Portugal muitas empresas têm em muitos registos apenas os 4 dígitos do código postal ou com os 3 últimos dígitos apenas com 000 ou com 999, e muitas vezes com problemas ainda maiores, que já dei como exemplo casos que agora me têm surgido com alguma regularidade, é com 4 dígitos que nada têm a ver com o Endereço Postal. Tenho pelo menos dois fornecedores que neste momento têm na minha morada pessoal, algo como, 2675 LISBOA, tal como dito num post anterior, o mais certo é que, infelizmente, isto foi resultado de um processo de qualidade de dados falhado.

A Acessibilidade é um dos pontos subjectivos. Apenas no dia-a-dia das empresas se pode ter noção da existência/inexistência de problemas de acesso a dados. Embora em algumas organizações seja muito fácil detectar estes problemas. Ainda não há muito tempo estava numa repartição publica e ficou tudo parado porque a pessoa que estava a ser atendida, não sabia o seu código postal e o funcionário não tinha acesso aos códigos postais.

Cobertura é outro dos aspectos subjectivos na maior parte dos casos. Um dos exemplos mais simples é a distribuição geográfica das áreas de negócio. Existem distribuições por Distrito, outras por Concelhos, outras por código postal e é aqui que muitas vezes os problemas de cobertura podem surgir. Novos códigos postais que surgem com novos clientes, podem não estar associados a nenhuma zona.

Quanto à Pontualidade está relacionada não apenas com a acessibilidade como também com a duplicação de registos que existem. Quantas vezes já aconteceu dentro da organização ser necessário uma contagem de registos de uma zona especifica do país e não ser possível fazer essa contagem? Ou porque os dados estavam incorrectos porque essas zonas não estavam atribuídas a todos os registos, ou porque existiam muitos registos duplicados.

Contexto/Precisão, um dos exemplos é o campo da morada que em muitos casos contem outras informações fora de contexto, como o contacto (exemplo: "entregar à D. Alexandra"). Em termos de moradas é possível ter uma noção da precisão dos registos. Dependendo do software, deverá existir um campo em que está colocada a precisão da normalização efectuada e com este campo poderemos saber qual a percentagem total de dados que está normalizado. Temos em Portugal com os nossos softwares clientes a trabalharem com percentagens de qualidade acima dos 93%, o que é um valor excelente. Logicamente que o objectivo é aproximar-mo-nos mais dos 100%, embora sabendo que esse valor é impossível de atingir. Casos como moradas "Casa amarela ao lado da escola Primária" não há street file que resista a estes casos, não sendo como tal possível ter um valor de qualidade como correcto, embora seja um registo que é entregue sem problemas.

Relativamente à Confiabilidade um dos exemplos que me é mais familiar, é se houver a necessidade de enviar uma carta urgente de extrema importância para o cliente, mas não há a certeza que a morada está correcta, porque apenas tem o código postal de 4 dígitos e não se tem a certeza que a morada existe e se a carta irá chegar ao destino. O mesmo relativo aos duplicados, imaginemos um caso extremo em que existe uma queixa já em tribunal de um cliente, mas como existem dois registos em base de dados vai ser feito um contacto com o cliente para lhe oferecer o mesmo produto que motivou a queixa, mas com os dados do outro registo, sem que se tenha noção dessa queixa. Desse momento em diante esse departamento nunca mais vai ter confiança nos dados.

A Integralidade está um pouco relacionada com os pontos anteriores, em que se for necessário por exemplo aceder aos dados de um cliente até que ponto se pode ter a certeza que os dados existentes são de confiança e estão completos. Imaginemos que existe uma queixa por parte do cliente que entretanto já foi resolvida, mas ainda não foi lançada no sistema e é necessário fazer um contacto. Não havendo dados no sistema e não tendo a certeza que essa resolução foi executada com a satisfação do cliente, esse contacto vai ser um contacto sempre feito a medo.

No próximo post vou tentar mostrar como podemos minimizar ao máximo estes problemas.

You Might Also Like

6 comentários

  1. Olá Osvaldo,
    Há um atributo/dimensão que acaba por ser mais importante que todos estes: relevância para o negócio.
    As iniciativas de Data Quality não deve ter por objectivo simplesmente "melhorar os dados". Devem sim, ter por objectivo potenciar decisões de negócio relevantes com base em factos e optimizar processos de negócio.
    Todo o propósito de Data Quality é melhorar a performance do negócio de uma organização (e não tornar os dados "mais limpos").

    ResponderEliminar
  2. Olá Filipe,
    Se de alguma forma faço querer que a Qualidade dos dados é um processo estético, peço desculpa. Eu acho em todos os exemplos dados são problemáticos para as empresas, e mostram como a falta de qualidade de dados pode minar processos de negócio. De qualquer forma recomendo a leitura de mais alguns posts, como por exemplo http://qualidadededados.blogspot.com/2011/01/quando-os-processos-de-qualidade-de.html onde tento mostrar que por vezes existem processos de qualidade de dados, que supostamente colocam os dados mais limpos, mas apenas criam mais problemas.

    ResponderEliminar
  3. Olá Osvaldo,
    Sim, compreendi que não defende que DQ seja um processo estético. Também trabalho nesta área há vários anos e percebo a que se refere quando fala em "limpeza de dados".
    O meu ponto é outro: alguns projectos de DQ focam-se apenas em melhorar a qualidade dos dados, sem medir qual a importância que estes têm para o negócio. Isto leva a que por vezes se invista num projecto de DQ sobre dados que não são relevantes, por não serem utilizados em nenhum processo de negócio. Quando posteriormente a gestão de topo questiona sobre os benefícios do projecto (e todos sabemos que os executivos querem sempre medir o retorno financeiro), este não existe (porque o produto resultante do projecto não é utilizado), o que leva ao desacreditar dos benefícios de uma cultura DQ.
    Daí ter referido que tão ou mais importante que a Validade, Cobertura, Pontualidade, etc., deve ser considerada a importância que os dados têm para o negócio da organização.
    Assim, devemos sempre orientar as iniciativas de DQ aos dados mais importantes e que poderão contribuir de forma mais positiva para a performance da empresa.
    Recentemente foi publicado um post muito interessante sobre este assunto pelo Jim Harris, no Information Management.

    ResponderEliminar
  4. Filipe,

    O aspecto financeiro é sempre o mais importante, seja no que for. Em Portugal há excepções que são as modas. Se os outros têm, nós também temos de ter, mas isso seria outro tópico novo.

    Mas como dizia relativamente ao aspecto financeiro, desenvolvi uma pequena "calculadora" onde se pode ver o retorno de um processo de qualidade de dados. Com base em alguns dados reais e outros estimados, dá para ter uma ideia do impacto por exemplo da qualidade das moradas no orçamento de uma empresa.

    ResponderEliminar
  5. Osvaldo,
    Regardiing the issue and the topic related to the data quality, I am not sure I see if you have solution to make sure you have the latest data. I have to say that related to the ERP world the most valuable context of data quality I can think of is the data used to test and replicate the original data so that coherant chenges and developments can be made and test with a mirror image of the real data.
    Now with the ERP world i.e. SAP. How can I get the SAP data in a reliable and cost effective manner.
    In the market there are a few solutions, one being SAP TDMS, but in order to garantee quailty and have a clear vision it is always good to look at alternatives. DSM from EPIUSE is a valuable and trusty alternative to conseider if there is minimum interest in good quality data a cost efficent price.

    ResponderEliminar
    Respostas
    1. Hi,

      In SAP the Uniserv solutions can give your adresses the latest reference files, with quarterly updates, with a complete street file. That will cover the address management, and also can cover the deduplications of records.

      Eliminar

Flickr Images