Perguntas feitas pelos responsáveis de projecto relativamente aos projectos de Qualidade de Dados (6ª Questão)
14:13Quais são os limites de tolerância que deve ter o projecto? Por norma todas as aplicações são parametrizáveis e estes limites devem ser to...
Quais são os limites de tolerância que deve ter o projecto?
Por norma todas as aplicações são parametrizáveis e estes limites devem ser tomados em conta, não de uma forma genérica, mas mais uma vez, com a experiencia adquirida. Tal como foi dito nos pontos anteriores todas as BD's são únicas e como tal têm de ter tratamentos diferenciados. Imaginemos que temos uma BD na qual temos uma deduplicação já testada e experimentada, em que o valor de match tem um valor ideal. Mas entretanto foi criado mais um campo que ajuda na deduplicação dos registos, como tal deveremos mudar os limites para termos a certeza que os duplicados são encontrados.
O mesmo se passa relativamente aos parâmetros dos softwares real time. Ao longo do tempo poder-se-á verificar que é necessário fazer acertos porque os utilizadores por exemplo usam mais uma variável que outras para fazer pesquisas. Como tal temos de na parametrização evidenciar essa variável para que os resultados sejam totalmente satisfatórios. Com isto apenas se demonstra que embora os limites devam existir, existe com estas ferramentas sempre a possibilidade de fazer afinações.
Perguntas feitas pelos responsáveis de projecto relativamente aos projectos de Qualidade de Dados (5ª Questão)
11:34Quem devem ser os intervenientes num processo destes? No final do projecto, toda a empresa deve ter participado no processo porque tal com...
Quem devem ser os intervenientes num processo destes?
No final do projecto, toda a empresa deve ter participado no processo porque tal como foi dito, isto afecta todos os departamentos da empresa sem excepção. Numa fase inicial apenas o departamento de informática tem um maior envolvimento no projecto, mas numa fase posterior todos os departamentos são chamados a participar, especialmente se forem colocados a funcionar os softwares que funcionam em real time. Nesta fase todos os colaboradores da empresa que tenham interacção com os dados vão ser chamados a normalizar os dados. Este processo vai apenas simplificar e em muitos casos permitir poupar tempo nas rotinas de introdução/ alteração de dados.
Mesmo que existam vícios de introdução de dados, o que vai acontecer no final é que todas os colaboradores da empresa sem excepção, vão colocar os dados da mesma forma no sistema.
No link podem tentar colocar alguns dados de formas diferentes e como se pode ver no final o resultado é sempre o mesmo.
Perguntas feitas pelos responsáveis de projecto relativamente aos projectos de Qualidade de Dados (4ª Questão)
17:07Quanto tempo demora a ter um projecto destes em funcionamento? O tempo de implementação de um projecto de qualidade de dados depende de mu...
Quanto tempo demora a ter um projecto destes em funcionamento?
O tempo de implementação de um projecto de qualidade de dados depende de muitos factores: da quantidade de registos existentes, dos sistemas existentes (SO e SGBD), da qualidade actual da BD. Tudo isto são factores que podem interferir no tempo de implementação do projecto de qualidade d e dados.
Vamos então por partes. Relativamente à quantidade de registos existentes, como facilmente se compreende é totalmente diferente normalizar 5.000 registos que normalizar 5.000.000 de registos, não apenas em termos de tempos de processamento máquina, como em termos de tempos de verificação dos resultados e respectivos acertos que sejam necessários efectuar. Especialmente em termos de deduplicação. Todas as BD’s são diferentes e como tal têm de ser efectuados acertos. Não existe nenhuma fórmula mágica que sirva para todas as bd’s e estes acertos, são dos processos mais melindrosos dentro de qualquer projecto de qualidade de dados. Pode ser a diferença entre, ter uma base de dados em que se misturaram clientes que nada têm a ver um com o outro ou então onde ficaram muitos duplicados por encontrar.
Quem já alguma vez tentou retirar duplicados de uma base de dados sabe a dificuldade que esse processo acarreta, porque muitas vezes mesmo estando a olhar para dois registos parecidos, não conseguimos dizer se são duplicados ou não. Fazer isto de forma automática, aumenta a dificuldade. Como tal, apenas com técnicos altamente experimentados conseguimos ter os melhores resultados num processo tão sensivel.
Perguntas feitas pelos responsáveis de projecto relativamente aos projectos de Qualidade de Dados (3ª Questão)
10:29Qual é o budget necessário? Tal como referido no ponto anterior a solução depende muito da quantidade de dados existente. Existem soluções...
Qual é o budget necessário?
Tal como referido no ponto anterior a solução depende muito da quantidade de dados existente. Existem soluções para todos os budgets. Quanto maior a quantidade de dados, maior será a utilidade das ferramentas que funcionam real time.
Embora existam outras possibilidades, a possibilidade de se fazerem limpezas de dados com alguma regularidade, existem ainda os serviços SAAS, que começam agora a ganhar força, e que permitem que se tenha uma solução a preço reduzido.
Depois logicamente e para organizações de maior dimensão, existem as ferramentas que funcionando em real time permitem que se tenham dados com muita qualidade a todo o momento, por um custo por registo muito bom.
Perguntas feitas pelos responsáveis de projecto relativamente aos projectos de Qualidade de Dados (2ª Questão)
10:28O que vamos fornecer no final aos nossos colaboradores? O que vão ganhar com isto? O que se vai executar numa fase inicial será a normaliz...
O que vamos fornecer no final aos nossos colaboradores? O que vão ganhar com isto?
O que se vai executar numa fase inicial será a normalização/deduplicação de todos os dados para que os dados passem a ter consistência. Enquanto este processo se desenvolve deverá ser instalado um sistema online que faça a normalização e deduplicação aquando da inserção dos registos para que estes se mantenham sempre com qualidade. Esta abordagem é uma abordagem que não é muito comum no mercado, embora seja a mais avançada. Tem como base ferramentas hi-tec, e que não estão muito divulgadas no nosso mercado. Com estas ferramentas os colaboradores vão ter do seu lado ferramentas que os ajudam no seu dia a dia.
Quantos de nós não tivemos de pedir ao nosso interlocutor para repetir uma morada, porque simplesmente não estávamos a conseguir entender o que estava a ser dito. Com estas ferramentas que aqui podem ser testadas, isso deixa de ser um problema.
Com isto os nossos colaboradores ganham tempo, ganham em imagem, porque se no final ainda conseguirem dizer ao utilizador por exemplo o seu CP7, isso mostra profissionalismo.
Ganham igualmente se tiverem o modulo de georeferenciação, quando tiverem de ir para a rua e não necessitarem de andar a perguntar onde fica a rua, uma vez que já levam as coordenadas geográficas no GPS, ou antes de saírem já viram como chegar ao destino.
O procedimento tradicional nestes casos, consiste em executar processo de qualidade de dados (normalização e deduplicação) e passados uns meses, voltar a correr esse processo. Este “ciclo” tem como desvantagens os custos que ficam associados, a deterioração dos dados ao longo do tempo até à normalização seguinte.
Perguntas feitas pelos responsáveis de projecto relativamente aos projectos de Qualidade de Dados (1ª Questão)
10:39Porque vamos fazer este projecto? Este projecto é realmente necessário? A resposta ao porquê, já foi anteriormente respondida no post inic...
Porque vamos fazer este projecto? Este projecto é realmente necessário?
A resposta ao porquê, já foi anteriormente respondida no post inicial deste blog, mas é sempre bom reforçar argumentos. Tal como foi dito anteriormente os dados são as fundações de qualquer empresa. Não tendo dados de qualidade, os custos operacionais podem ser enormes, embora ninguém saiba muito bem quantificar o real valor destes custos nas respectivas empresas.
Por norma estes custos estão dispersos pelos diferentes departamentos da empresa. Se pensarmos em termos do departamento de informática, passam horas incontáveis a tentar resolver problemas de integridade de dados, porque por exemplo, quando lhes é pedida uma contagem simples ao número de clientes de uma determinada zona. Como não têm capacidade imediata para dar resposta, vão verificar, muitas vezes manualmente e sem ferramentas adequadas, os registos que não têm distrito, concelho ou freguesia associada, ou até quem sabe um código postal de 7 dígitos de forma a poder cruzar com a tabela que faz a associação com os respectivos vendedores. Este é apenas um pequeno exemplo.
Depois no departamento de distribuição, por não terem as moradas normalizadas, nem com coordenadas geográficas, os carros têm de parar para pedir informações porque a rua como está escrita, não aparece no GPS, ou quem sabe andarem perdidos com os respectivos custos associados.
No departamento de Marketing, não se contabilizaram as devoluções que existem relativas à última campanha. Que têm associados custos não apenas de portes de correio, mas de criatividade da peça, desenvolvimento, impressão e envelopagem. Tudo isto são custos que se deveriam associar a cada uma daquelas peças que vieram devolvidas. Juntando a isto, temos ainda os clientes que receberam peças em duplicado ou triplicado, com os custos de imagem que isso implica.
No departamento de vendas por vezes podem não ter uma real noção dos gostos/necessidades dos respectivos clientes porque as vendas estão dispersas por mais que um registo. Como tal perdem oportunidades de vendas apenas porque o vendedor ao olhar para a ficha do cliente não tinha nesse registo a informação que ele era consumidor de um produto que por acaso nessa altura estava em promoção, de entre outros que o vendedor destacou.
Estas são apenas algumas das implicações que a falta de qualidade de dados pode trazer para dentro da organização, sendo que contabilizar todos estes valor é quase uma missão impossível.
Formas de deduplicação
11:23Ainda dentro da remoção/alocação de duplicados, falada no post Limpeza de dados, existe muito mais que dizer. São inúmeras as formas de enco...
Ainda dentro da remoção/alocação de duplicados, falada no post Limpeza de dados, existe muito mais que dizer. São inúmeras as formas de encontrar duplicados, sendo a mais comum por indivíduo. Mas podemos encontrar duplicados, não apenas por indivíduo, mas por domicílio (household), por edificação, por família, e muitos outras formas que sejam interessantes para os fins pretendidos, isto quando estamos a falar de bases de dados B2C (business to consumer). Se formos para as BD’s B2B (business to business) podemos detectar duplicados por empresa, por departamento, enfim um sem número de possibilidades.
Por norma estes softwares o que fazem é a criação de chaves que devem ficar guardadas em BD para serem usadas sempre que necessárias. Por exemplo já fizemos a deduplicação para encontrar os duplicados por domicílio, e vamos ter uma acção de Marketing na empresa que vai envolver uma peça que é extremamente cara, como tal, apenas queremos enviar uma peça para cada domicílio, para que os custos não sejam tão elevados. Indo buscar a chave que está guardada em BD, permite o envio apenas para um dos indivíduos desse domicílio, sendo que a escolha de para qual vai ser feito o envio pode ser efectuada com a ajuda por exemplo da data de nascimento. Vamos apenas enviar para o mais velho.
Esta e muitas outras possibilidades são assim facilmente executadas, sem necessidade de ter preocupações extremas antes de cada campanha.