Integração de dados
11:15O que é necessário para uma integração de dados?
O primeiro passo para que se possa fazer a integração de dados provenientes de diferentes bases de dados, é a normalização dos mesmos para que se possa fazer o segundo passo com maior segurança. Esse segundo passo será a deduplicação, mas antes de passarmos a essa fase, vamos focar um pouco mais na normalização.
Para que serve essa normalização? Essa normalização serve acima de tudo para dar consistência aos dados. Os dados provenientes de fontes diferentes, muitas vezes mesmo de origens totalmente distintas, têm especificidades próprias. Com esta normalização o que se pretende é criar uma uniformização, sempre importante, mas também para que se consiga ter melhores resultados na deduplicação. Existem softwares que permitem ir um pouco mais alem nesta normalização e permitem ainda fazer a validação e correcção dos dados. Com isto temos a certeza que o nomes estão correctos, quer sejam os nomes das pessoas, como os nomes das ruas. É importante que os dados fiquem normalizados, mas também é importante que não se percam dados/informações neste processo.
De seguida e tal como foi referenciado, passamos à fase da deduplicação. Nesta fase, sempre complicada, pode ter sido um pouco facilitada pelo trabalho feito na fase anterior. Se um registo por exemplo tiver um nome como Nantónio Santos, R Prof Dr Zé Ninguem, 14 3 Esquerdo e num outro registos duplicado tivermos António Santos, Rua Professor Doutor José Ninguem, 14 3 Esq as diferenças são muitas e como tal o resultado percentual em termos de deduplicação pode ser inferior ao valor mínimo que foi definido como mínimo para serem considerados como duplicados. Isto seria evitado com um trabalho anterior de normalização/verificação/correcção.
Depois de encontrados os grupos de duplicados, temos ainda a terceira fase de complementarização. Logicamente que entre cada um destes processos tem de haver um trabalho de verificação de resultados. Neste processo pode obrigar-nos a voltar a um nível anterior devido aos erros/problemas que se possam encontrar.
No processo de complementarização o que é feito é agrupar os dados/informações que possam estar espalhados pelos diferentes duplicados, "criando" assim um registo com toda a informação. Imaginemos que temos um registo em que existem os dados do nome, morada e telefone em outro registo para alem destes dados existem ainda os dados do telemóvel e do email. O que se pretende é que no fim se tenha um registo apenas com todas as informações espalhadas pelos diferentes duplicados que possam existir.
No fim deste processo temos uma BD com qualidade, em que temos uma certeza maior não apenas por exemplo do numero dos clientes, coisa que provavelmente muitas empresas em Portugal não conseguem ter a certeza, mas por outro lado uma base de dados que permite dar uma maior confiança em termos da qualidade dos dados. Consegue-se assim também ter uma melhor visão de cada um dos clientes, uma vez que os seus dados estão agregados e desta forma aquilo que se pensava serem dois clientes médios, é afinal um dos melhores clientes da empresa, tudo isto porque se estavam a dar entrada das encomendas em dois registos diferentes.
0 comentários