Deduplicação, desduplicação, identificação de duplicados - Listas e registos

Para terminar vamos desenvolver um pouco o output e como obter esse output. O resultado final, dependendo do fim pretendido, pode ter vári...

Para terminar vamos desenvolver um pouco o output e como obter esse output.

O resultado final, dependendo do fim pretendido, pode ter várias "formas". Pode ser apenas um ficheiro com os registos duplicados e respectivos masters, pode ser um ficheiro apenas com os limpos ou um ficheiro apenas com os duplicados.

O que o software faz é a criação de grupos de duplicados que com uma chave comum que permite o posterior tratamento das bases de dados como por exemplo, com a alteração dos históricos de todas as tabelas dos registos duplicados para o registo master.

Outro ficheiro final de output é um ficheiro apenas com os "limpos", ou seja todos os registos únicos, sem duplicados e com os masters, ou seja apenas um dos duplicados, que pode ser "eleito" tal como nas prioridades das listas.

Por fim temos o ficheiro final apenas com os duplicados.

De todos estes ficheiros e logicamente salvaguardando usos específicos, o mais importante é sem duvida o primeiro que contém todas as informações fundamentais para tratamento dos dados. Com este ficheiro temos os elementos que nos permitem: complementar um registo, alterar tabelas de históricos entre outros.

Com este post fica completo finalmente o tópico da deduplicação.

You Might Also Like

0 comentários

Flickr Images