Deduplicação, desduplicação, identificação de duplicados - Tipos

Vou finalmente iniciar pelos tipos de deduplicacão. O mais habitual é a deduplicacão por indivíduo. Para a execução destas deduplicacões s...

Vou finalmente iniciar pelos tipos de deduplicacão.

O mais habitual é a deduplicacão por indivíduo. Para a execução destas deduplicacões são utilizados os campos que possam de alguma forma distinguir os indivíduos entre si. Toda e qualquer referência pode e deve ser usada. Partindo dos mais comuns como o nome, morada, data de nascimento, BI, mas tudo o que possa ajudar a distinguir indivíduos pode ser utilizado, emails, telefones fixos ou móveis, tudo o que nos possa tornar únicos ou que nos possa distinguir de outros pode ser importante para uma deduplicação.

O output final deste processo será um ficheiro com uma chave que identifica os registos que são duplicados, ou que suspeita que sejam duplicados e uma percentagem de match entre eles. Ou seja, no exemplo abaixo encontramos um grupo de duplicados (234) que é composto por 3 registos em que 2 são precisamente iguais e existe um com uma percentagem de match de 80%.

Grupo Percentagem IDOriginal Nome Morada CodPostal EndPostal
234 100 0035 Osvaldo Godinho Rua Poder Local, 14 1675-157 Pontinha
234 100 0495 Osvaldo Godinho Rua Poder Local, 14 1675-157 Pontinha
234 080 0495 Osvaldo Gil Godinho R Poder Local, 14 1675 Pontinha

Estes valores são meramente exemplificativo e não servem de referência porque dependendo dos pesos que forem colocados a cada um dos campos, teremos valores diferentes. Esses acertos que são uma das fases mais complicadas da deduplicação por norma é diferente de BD para BD. Existem as deduplicações genéricas, mas depois para termos maior precisão são necessárias várias tentativas para conseguirmos o ponto óptimo.

Para além da deduplicação normal por individuo podemos ter por household, ou seja conseguirmos ter a noção de quantas casas temos em BD, independentemente de termos o pai, a mãe e os filhos como nossos clientes, se necessitarmos de enviar uma comunicação dispendiosa para os clientes, podemos enviar apenas uma por casa, tendo essa indicação.

Estes são dois dos exemplos, mas podemos ainda ter a deduplicação por quadro de empresa, para além de deduplicações de outro tipo, tudo o que seja passível de ser deduplicado.

You Might Also Like

0 comentários

Flickr Images