Deduplicação, desduplicação, identificação de duplicados...

Desta vez vou iniciar uma série de post's relativos à deduplicação (foi este o termo que "aprendi" a usar e que uso com mais f...

Desta vez vou iniciar uma série de post's relativos à deduplicação (foi este o termo que "aprendi" a usar e que uso com mais frequência) em modo batch.

Existem alguns acrónimos que por vezes importamos do Marketing para designar as diferentes deduplicações existentes, mais usualmente utilizadas. B2C, B2B e B2H, significando deduplicação por Individuo, por Empresa e por Household. No caso da deduplicação por Empresa pode ter incluída a deduplicação com individuo ou não.

Quanto às listas que podem ser incluídas nestas deduplicações, existem as listas Standard, Externas, Negativas e de Enriquecimento.

Depois podemos ter "afinações" diferentes em cada uma das deduplicações: Idênticos, Standard, Overkill e Underkill.

Dentro de cada uma destas "afinações" temos para cada campo várias formas de comparar os registos: Fonéticas, Similaridade, Equalização (Código Postal), Proximidade (Numero de porta) e Sinónimos.

Por fim temos as Listas de saída, numa deduplicação podemos gerar um ficheiro com os Limpos, um ficheiro com os duplicados e um ficheiro com a lista dos duplicados que inclui para alem dos duplicados os Master's desses duplicados.

Como resultado teremos vários tipos de registos: Único, Mestre, Duplicado e Ambíguo.

O registo Mestre pode ser definido por prioridade, que pode ter como origem: Categoria ou Prioridade da lista, Prioridade ou Completude do registo ou simplesmente pela ordenação.

Tudo assim de seguida pode parecer uma grande confusão, mas vou nos próximos posts desenvolver cada um dos pontos anteriores.

You Might Also Like

0 comentários

Flickr Images