Tratamento de qualidade de dados, níveis de qualidade

Uma das coisas mais complicadas no tratamento dos dados é precisamente medir os níveis de qualidade do tratamento. Existem vários aspectos...

Uma das coisas mais complicadas no tratamento dos dados é precisamente medir os níveis de qualidade do tratamento.

Existem vários aspectos que temos de ter em conta para contabilizar a qualidade dos dados, que vão desde o numero de registos que foram tratados de forma correcta, ao número de registos existentes e que ainda é possível que sejam considerados registos válidos e finalmente os registos que são simplesmente "lixo".

Já na parte da deduplicação é relativamente mais simples, uma vez que certamente se o tratamento for executado de forma correcta iremos ter três tipos de registos: os únicos, os duplicados e os duvidosos. O ideal é que estes últimos sejam no menor número possível.

Voltando à normalização, se estivermos a falar da normalização das moradas, sabemos que existem vários tipos de normalizações em Portugal e conforme as ferramentas que têm por base com valores muito diferentes e logicamente com uma qualidade final igualmente muito diferente.

Vamos a um exemplo simples, é quase impossível ver empresas com certeza da qualidade das suas moradas, mas existem. Há empresas a trabalhar com ferramentas de qualidade de dados em que se a morada não for validada pelo sistema, simplesmente a morada não entra no sistema. Isto apenas se consegue atingir com uma certeza muito grande na qualidade das ferramentas e da base de dados de referencia.

Existem em Portugal já algumas empresas que dizem que fazem tratamento dos dados, mas simplesmente não têm ferramentas para tal. Apenas com muita confiança nos processos de trabalho, nas tabelas de referencia e no software é possível ter um demo online para que qualquer um possa verificar por si próprio.

Porque é muito diferente dizer que se faz, do que poder provar logo à partida que se faz. E isso deve fazer toda a diferença.

O tratamento de dados é, ou em muitos casos deveria ser, mais que simplesmente fazer a normalização dos dados. É poder comparar com um street file se a rua existe realmente, em muitos casos se o numero de porta existe realmente e finalmente atribuir o código postal conforme estes elementos. Sem isto o que se faz é simplesmente colocar os registos bonitos sem qualquer certeza que a rua realmente existe.

Por fim temos ainda o numero de registos em que estas alterações/correcções são feitas. Por norma em muitos casos temos valores que rondam os 50 a 60%, mas existem softwares que permitem ir bem mais longe e atingir no mínimo os 80%.

You Might Also Like

0 comentários

Flickr Images