Falta de qualidade de dados II
12:06Parece que agora que os dados são mais requeridos a falta de qualidade e de ferramentas de controle de qualidade dos mesmos está a vir ao de...
Parece que agora que os dados são mais requeridos a falta de qualidade e de ferramentas de controle de qualidade dos mesmos está a vir ao de cima. Aqui fica mais um exemplo da falta de qualidade, neste caso num banco.
Provavelmente, o que aconteceu foi que o Steve Smith se inscreveu numa campanha e como não estava para dar o nome coloca a expressão "F*** Off". O nome não aparece do nada, não é o "sistema" que coloca um nome. Caso tivesse havido trocas de nomes, não seria apenas ele a queixar-se mas provavelmente vinham as cartas todas devolvidas. Os nomes não iriam corresponder com as moradas.
Mas o que isto mostra é que a qualidade dos dados não foi assegurada e só assim se compreende que tal aconteça. Se por um lado ter qualidade nos dados tem custos, os custos directos e indirectos de não se ter qualidade nos dados é sempre muito superior como se pode ver neste caso.
Como custos directos há um futuro cliente que deixou de o ser, não se sabe se com ele vai arrastar mais clientes seus amigos e qual o "custo" que isto vai trazer para a empresa, é impossível saber. Mas para alem desses custos, há os custos de imagem, que esses são ainda mais difíceis de estimar.
Neste caso, para alem do impacto nos relacionamentos directos e indirectos da pessoa lesada, teve impacto em todos os que leram o jornal e eventualmente em muitos dos relacionamentos destes.
Como se pode evitar que isto aconteça? Simplesmente com normais procedimentos de qualidade de dados, que permitem identificar palavrões nos nomes e moradas. Esta é uma das funcionalidades que um projecto de qualidade de dados deve contemplar.
Juntando este post com o anterior podemos ver que a qualidade de dados engloba muitas vertentes, a verificação, a correcção, a deduplicação
Falta de qualidade de dados
10:52Ao ler uma noticia lembrei-me do post inicial onde falava num problema de qualidade de dados na Dinamarca. O assunto continua em cima da m...
Ao ler uma noticia lembrei-me do post inicial onde falava num problema de qualidade de dados na Dinamarca.
O assunto continua em cima da mesa porque muitas pessoas não sabem o que fazer, nem fazem ideia qual é o seu problema. Sabem que existe, sabem que têm de o resolver, mas como... não se faz a mínima ideia.
Neste caso da noticia a informação certamente que existe, os dados estão é espalhados por diferentes sistemas/ plataforma/ ficheiros e ninguém sabe o que fazer para resolver o problema. É supostamente uma operação herculana e com custos enormes para resolver. Nada mais errado.
Em primeiro lugar os dados não devem ser assim tantos quanto isso, estão é duplicados, triplicados... Segundo, depois de reunidos os dados todos (essa sim deve ser a operação mais complicada), em menos de uma semana certamente que os dados estão tratados e um problema que agora tem um custo que nem se consegue quantificar fica resolvido, por uma ínfima parte desse custo.
Quantos sistemas têm registos duplicados com custos enormes para as empresas e que continuam no dia-a-dia a alimentar as bases de dados com mais e mais duplicados? Há bases de dados em Portugal que devem ter mais registos que a população Portuguesa. É suposto? Dificilmente se consegue justificar que tal aconteça, mas há sempre quem consiga.
É sempre fácil dizer que não se faz porque os custos... mas em muitos casos logo após a implementação dos processos de qualidade de dados o investimento já está pago.
Relativamente à noticia em questão, pelo que mostra podem haver pessoas a usufruir de duas ou mais casas e ter até uma delas sub-arrendada e todos nós a pagar. Pode haver um sem numero de casos que apenas depois de se conseguir "arrumar a casa" é que se consegue ter uma noção mais concreta. Mas tal como disse anteriormente este é um dos casos que assim que o processo de qualidade de dados estiver em funcionamento já haverá retorno.
Deduplicação, desduplicação, identificação de duplicados - Listas e registos
10:21Para terminar vamos desenvolver um pouco o output e como obter esse output. O resultado final, dependendo do fim pretendido, pode ter vári...
Para terminar vamos desenvolver um pouco o output e como obter esse output.
O resultado final, dependendo do fim pretendido, pode ter várias "formas". Pode ser apenas um ficheiro com os registos duplicados e respectivos masters, pode ser um ficheiro apenas com os limpos ou um ficheiro apenas com os duplicados.
O que o software faz é a criação de grupos de duplicados que com uma chave comum que permite o posterior tratamento das bases de dados como por exemplo, com a alteração dos históricos de todas as tabelas dos registos duplicados para o registo master.
Outro ficheiro final de output é um ficheiro apenas com os "limpos", ou seja todos os registos únicos, sem duplicados e com os masters, ou seja apenas um dos duplicados, que pode ser "eleito" tal como nas prioridades das listas.
Por fim temos o ficheiro final apenas com os duplicados.
De todos estes ficheiros e logicamente salvaguardando usos específicos, o mais importante é sem duvida o primeiro que contém todas as informações fundamentais para tratamento dos dados. Com este ficheiro temos os elementos que nos permitem: complementar um registo, alterar tabelas de históricos entre outros.
Com este post fica completo finalmente o tópico da deduplicação.
Deduplicação, desduplicação, identificação de duplicados - Fine Tuning
10:25No fine tuning da deduplicação temos de ter em consideração o inicio, para encontrarmos o meio de alcançarmos o fim pretendido. Ou seja, tem...
No fine tuning da deduplicação temos de ter em consideração o inicio, para encontrarmos o meio de alcançarmos o fim pretendido. Ou seja, temos de saber de onde vamos e para onde vamos. Tipicamente existem 3 tipos de deduplicação a Standard, Overkill e Underkill.
Se falarmos de uma deduplicação normal, a deduplicação standard, depois vamos afinar conforme os resultados que vamos obtendo. Mas podemos ter uma campanha para fazer em que à partida temos 1 milhão de registos, mas sabemos que apenas temos material para enviar para metade desses registos. Como tal poderemos optar por uma deduplicação overkill e dessa forma vamos de forma aleatória ou não, remover registos que à partida não deveriam ser considerados como duplicados, mas como temos excesso de registos, podemos "correr o risco".
Por outro lado, temos uma base de dados que deve ser enviada uma comunicação mesmo para todos os indivíduos, mesmo que um individuo receba mais que uma comunicação, é preferível que haver algum que não receba. Optamos por uma deduplicação underkill, que desta forma a segurança dos duplicados é de 100%.
Em qualquer uma destes tipos de fine tuning, podemos ajustar parâmetros de forma a conseguirmos os melhores resultados, ou aqueles que mais se ajustam ao nosso objectivo final.
Esses parâmetros são as comparações executadas nos campos que podem ser comparações Fonéticas, de Similaridade, Equalização (Código Postal), Proximidade (Numero de porta) e Sinónimos.
Fonéticas o próprio nome é esclarecedor, de similaridade é tomada em conta uma série de factores como por exemplo um V e um U, se estivermos a visualizar algo manuscrito pode facilmente ser similar. Como tal, neste campo podemos aumentar ou diminuir o valor conforme a origem dos dados.
Equalização é usado especialmente no código postal. Temos em Lisboa códigos postais que vão do 1000-001 ao 1990-999, e muitas vezes como não se sabe o código exacto coloca-se simplesmente 1500-000. O que vai acontecer aqui é que todos os registos de Lisboa vão ficar com o mesmo código postal: 1000-000. Desta forma ajuda a encontrar duplicados, mesmo que não tenha sido possível fazer a normalização de algum registo.
Relativamente à proximidade um dos exemplos são os números de porta ou números de telefone. Pode haver pequenas diferenças por exemplo no numero de telefone e assim é possível também encontrar esses registos independentemente de pequenas diferenças nos números que possam existir.
Finalmente temos os sinónimos cujo nome também é esclarecedor.
Está complicado acabar este tema, mas está quase.
Deduplicação, desduplicação, identificação de duplicados - Listas
15:46Neste post vou descrever os diferentes tipos de listas que são possíveis de deduplicar. Tal como tinha dito no post inicial existem as lis...
Neste post vou descrever os diferentes tipos de listas que são possíveis de deduplicar.
Tal como tinha dito no post inicial existem as listas Standard, Externas, Negativas e de Enriquecimento.
As listas Standard são as "nossas" listas, aquelas onde vai incidir o tratamento. Podemos ter uma ou várias listas com prioridades entre elas. Vamos assumir que temos a lista com os clientes da empresa, mas entretanto surgiram outras pequenas listagens de outros clientes porque foi feita a incorporação de outras empresa, ou seja passam a ser nossos clientes também, mas para que se possa ter uma noção concreta do valor desses clientes vamos fazer a incorporação dos mesmos numa listagem única e deduplicada.
Podemos então dizer que os clientes existentes têm prioridade máxima e prioritizar todas as outras listas. Dessa forma no final na listagem de duplicados o master dos duplicados será sempre aquele com a prioridade mais elevada.
O mesmo relativamente às listas externas, que como o nome indica são listas que são por exemplo registos do departamento financeiro e que queremos comparar com os registos do marketing, porque não existe integração entre as duas ferramentas. Mais uma vez as prioridades aqui são válidas.
Um pouco como estas listas externas temos as listas de Enriquecimento que são listas que contêm dados que necessitamos de incorporar nos nossos dados, mas que estão noutras listagens. Por exemplo termos uma lista de clientes sem numero de contribuinte e o departamento financeiro ter uma lista com os NIF's de todos os clientes. Vamos por isso enriquecer a informação inicial com os NIF's dos clientes.
Por fim temos as listas negativas que propositadamente deixei para o fim. Aqui temos os Robinson (pessoas que pediram para não serem contactadas novamente), os "terroristas" e por exemplo os devedores.
Quando se fala de terroristas é mesmo no pior sentido da palavra, mas essa temática já a desenvolvi em outros posts como por exemplo neste.
Deduplicação, desduplicação, identificação de duplicados - Tipos
11:01Vou finalmente iniciar pelos tipos de deduplicacão. O mais habitual é a deduplicacão por indivíduo. Para a execução destas deduplicacões s...
Vou finalmente iniciar pelos tipos de deduplicacão.
O mais habitual é a deduplicacão por indivíduo. Para a execução destas deduplicacões são utilizados os campos que possam de alguma forma distinguir os indivíduos entre si. Toda e qualquer referência pode e deve ser usada. Partindo dos mais comuns como o nome, morada, data de nascimento, BI, mas tudo o que possa ajudar a distinguir indivíduos pode ser utilizado, emails, telefones fixos ou móveis, tudo o que nos possa tornar únicos ou que nos possa distinguir de outros pode ser importante para uma deduplicação.
O output final deste processo será um ficheiro com uma chave que identifica os registos que são duplicados, ou que suspeita que sejam duplicados e uma percentagem de match entre eles. Ou seja, no exemplo abaixo encontramos um grupo de duplicados (234) que é composto por 3 registos em que 2 são precisamente iguais e existe um com uma percentagem de match de 80%.
| Grupo | Percentagem | IDOriginal | Nome | Morada | CodPostal | EndPostal |
|---|---|---|---|---|---|---|
| 234 | 100 | 0035 | Osvaldo Godinho | Rua Poder Local, 14 | 1675-157 | Pontinha |
| 234 | 100 | 0495 | Osvaldo Godinho | Rua Poder Local, 14 | 1675-157 | Pontinha |
| 234 | 080 | 0495 | Osvaldo Gil Godinho | R Poder Local, 14 | 1675 | Pontinha |
Estes valores são meramente exemplificativo e não servem de referência porque dependendo dos pesos que forem colocados a cada um dos campos, teremos valores diferentes. Esses acertos que são uma das fases mais complicadas da deduplicação por norma é diferente de BD para BD. Existem as deduplicações genéricas, mas depois para termos maior precisão são necessárias várias tentativas para conseguirmos o ponto óptimo.
Para além da deduplicação normal por individuo podemos ter por household, ou seja conseguirmos ter a noção de quantas casas temos em BD, independentemente de termos o pai, a mãe e os filhos como nossos clientes, se necessitarmos de enviar uma comunicação dispendiosa para os clientes, podemos enviar apenas uma por casa, tendo essa indicação.
Estes são dois dos exemplos, mas podemos ainda ter a deduplicação por quadro de empresa, para além de deduplicações de outro tipo, tudo o que seja passível de ser deduplicado.
Deduplicação, desduplicação, identificação de duplicados...
12:11Desta vez vou iniciar uma série de post's relativos à deduplicação (foi este o termo que "aprendi" a usar e que uso com mais f...
Desta vez vou iniciar uma série de post's relativos à deduplicação (foi este o termo que "aprendi" a usar e que uso com mais frequência) em modo batch.
Existem alguns acrónimos que por vezes importamos do Marketing para designar as diferentes deduplicações existentes, mais usualmente utilizadas. B2C, B2B e B2H, significando deduplicação por Individuo, por Empresa e por Household. No caso da deduplicação por Empresa pode ter incluída a deduplicação com individuo ou não.
Quanto às listas que podem ser incluídas nestas deduplicações, existem as listas Standard, Externas, Negativas e de Enriquecimento.
Depois podemos ter "afinações" diferentes em cada uma das deduplicações: Idênticos, Standard, Overkill e Underkill.
Dentro de cada uma destas "afinações" temos para cada campo várias formas de comparar os registos: Fonéticas, Similaridade, Equalização (Código Postal), Proximidade (Numero de porta) e Sinónimos.
Por fim temos as Listas de saída, numa deduplicação podemos gerar um ficheiro com os Limpos, um ficheiro com os duplicados e um ficheiro com a lista dos duplicados que inclui para alem dos duplicados os Master's desses duplicados.
Como resultado teremos vários tipos de registos: Único, Mestre, Duplicado e Ambíguo.
O registo Mestre pode ser definido por prioridade, que pode ter como origem: Categoria ou Prioridade da lista, Prioridade ou Completude do registo ou simplesmente pela ordenação.
Tudo assim de seguida pode parecer uma grande confusão, mas vou nos próximos posts desenvolver cada um dos pontos anteriores.
ROI das ferramentas de qualidade de dados II
12:46Segundo um estudo Holandês numa Base de Dados com mais de um milhão de registos, descobriram a existência de um local (Gravenhage), escrito ...
Segundo um estudo Holandês numa Base de Dados com mais de um milhão de registos, descobriram a existência de um local (Gravenhage), escrito de mais de 50 formas diferentes e que esta inconsistência afectou mais de 50% de todos os registos. Com a colocação de um software de validação no ponto de entrada dos dados consegue-se um ROI imediato, com o aumento da velocidade de inserção dos dados, (muitas vezes evitando a criação de duplicados), reduzindo assim os custos com o pessoal. Qualquer organização que tenha por base dados inconsistentes é provável que subestimem o número e o valor dos seus clientes numa certa área. Todas as decisões que forem tomadas com essa base certamente que irão falhar e com custos para a organização.
A colocação de ferramentas para a validação de endereços no ponto de colecta dos dados tem um efeito imediato sobre a qualidade dos dados recolhidos. Os dados são recolhidos de forma mais rápida - os operadores não necessitam de tantos keystrokes para encontrar a informação pretendida. Desta forma se pode reduzir os tempos de espera e de atendimento de clientes, aumentado a satisfação, diminuindo custos com o pessoal. Com o aumento da satisfação dos clientes aumenta o valor da organização em todo o mercado com a partilha de experiências entre os clientes e os seus amigos/contactos.
A limpeza a jusante é sempre menos eficaz que a limpeza na fonte, não se pode identificar com tanta facilidade problemas de qualidade e não tem a oportunidade de dialogar com o cliente como se tem durante a colecta dos dados. A Sirius Decisions criou a regra 1-10-100: "É necessário $1 para verificar um registo na inserção dos dados, $10 para o limpar e deduplicar e $100 se nada for feito, com as ramificações dos erros a serem sentidas repetidamente" (“The Impact of Bad Data on Demand Creation”, Sirius Decisions, January 2009)
Valor da imagem vs qualidade dos dados
11:30Tal como terminei o ultimo post vou continuar neste com uma noticia recente e que nos pode ajudar a mostrar um pouco a dificuldade que há na...
Tal como terminei o ultimo post vou continuar neste com uma noticia recente e que nos pode ajudar a mostrar um pouco a dificuldade que há na criação de métricas para aferir os danos na imagem de uma empresa.
Como muitos puderam ver na TV, existem várias queixas de carros de uma marca de topo que simplesmente arderão. Uma vez que a marca nunca conseguiu dar uma resposta definitiva, a dúvida vai manter-se e ainda que seja dada uma explicação cabal para todos os acontecimentos, esta imagem vai sempre pairar sobre os possíveis compradores de carros da marca. Tanto nos novos compradores da marca como nos que já são clientes e que querem trocar de carro, MAS existe uma dúvida que paira no ar.
Esta é talvez uma das formas mais evidentes de se demonstrar que mesmo que se prove de forma inequívoca que os acontecimentos não são responsabilidade da marca, a imagem pode ficar afectada. Há mesmo algumas marcas que ainda hoje sofrem porque existiu um produto com baixa qualidade e por muito que tenham feito para dar a volta a essa imagem, é muito complicado convencer totalmente todo o mercado.
O problema é a quantificar estes valores e é igualmente complicado quantificar os custos de imagem quando se enviam peças em duplicado, pela existência de registos duplicados, pela devolução de cartas que podem ser muito importantes para os clientes, mas que não chegaram ao destino. Até mesmo na prevenção de fraude com a inserção de moradas inexistentes, evitando assim desperdiçar dinheiro em envios de peças promocionais por vezes bastante caras, para moradas inexistentes. No próximo post vou falar continuar a falar do ROI da qualidade de dados.
ROI das ferramentas de qualidade de dados
12:31Se há momentos em que a qualidade dos dados está em destaque, certamente são estes momentos que vivemos, em que os custos são escrutinados a...
Se há momentos em que a qualidade dos dados está em destaque, certamente são estes momentos que vivemos, em que os custos são escrutinados ao mais ínfimo pormenor. Quando a economia está em alta, ter taxas de devolvidos elevadas é pouco importante, nos momentos como o que vivemos ter 1.000 cartas devolvidas já é um custo que provavelmente muitas empresas olham com outros olhos. Se falarmos de 10.000 então o olhar certamente ainda é mais atento.
O mesmo se passa com o envio de registos duplicados, que tem sempre custos quer seja por envio físico, quer seja por envio por email. Se no caso do envio físico para alem dos custos das peças e custos de correio, existe o outro custo que é comum com o envio por email que são os custos de imagem. Não passa certamente uma imagem muito profissional de uma empresa que envia a mesma comunicação para o mesmo destinatário várias vezes. Pese embora estes custos sejam os mais complicados de contabilizar, são certamente custos a ter em conta.
Os dados da empresa são os pilares que sustentam a organização. Sem eles não há encomendas, nem vendas, nem facturação, nem recebimento. Se algum destes factores fundamentais falhar haverá problemas. Se falhar uma vez há um pequeno problema, se falharem muitas vezes pode ser terminal.
Em alguns casos existe ainda o passo seguinte que é a tentativa de ir recuperar o dinheiro, mas muitas vezes a morada não existe, ou de tal forma está deturpada que impede essa tentativa de recuperação.
Como se resolve este problema? A melhor solução é sempre na entrada dos dados ter uma ferramenta de normalização/correcção/verificação de moradas.
Apenas com estas ferramentas conseguimos maiores percentagens de dados correctos, sempre muito acima dos valores conseguidos com as ferramentas de batch, uma vez que sempre que há uma dúvida o utilizador tem hipótese de escolha. Quando estamos a falar em ferramentas batch se surgir uma morada com "Liberdade, 2", o software não deve escolher entre a Avenida da Liberdade e a Vila da Liberdade. Assinala como sendo um registo dúbio e não faz mais nada. Se estivermos com as aplicações online o utilizador pode escolher qual a correcta, ou porque está a introduzir os seus próprios dados, ou porque é um empregado da empresa que tem o cliente na sua frente ou ao telefone.
Indo finalmente de encontra o titulo do post, qual o ROI das ferramentas de qualidade de dados? É um valor que não é fácil de quantificar, mas existem muitas métricas que podem ajudar, alguns exemplos podem ser encontrados no link, mas existem ainda outras métricas. Depois somando a estes custos existem os valores de imagem que por vezes são incalculáveis.
Questões e sugestões para manter a qualidade de dados - Nuvem / Cloud
11:21É sem dúvida um dos grandes temas do momento e como tal vamos falar um pouco da qualidade de dados na nuvem. É possível? Existem casos de su...
É sem dúvida um dos grandes temas do momento e como tal vamos falar um pouco da qualidade de dados na nuvem. É possível? Existem casos de sucesso?
Para ambas as perguntas a resposta é afirmativa. Falando de Address Management e Deduplicação, que são os meus temas de eleição, há vários casos de sucesso em inúmeras plataformas igualmente na nuvem, como por exemplo o salesforce.com, update.seven, Talend mas igualmente em outras plataformas, mas recorrendo aos serviços na nuvem, como MS Dynamics CRM, Oracle Siebel CRM, SAP Business Suite entre muitos outros.
Segundo as previsões da Gartner em 2015, 10% dos pacotes de implementações MDM serão entregues em forma de SaaS na nuvem.
A passagem das plataformas empresariais para a nuvem, conjuntamente com um mercado laboral onde cada vez é mais complicado encontrar / manter um staf que não dê muitos erros nas inserções de moradas e / ou nomes inseridos, as aplicações de normalização / correcção / verificação / deduplicação de nomes e moradas são cada vez mais essenciais. O mesmo se passa em termos de e-commerce onde moradas mal escritas, com erros de grafia, com erros fonéticos são cada vez mais comuns e pode originar devoluções ou atrasos nas entregas com todos os custos financeiros e de imagem que tal pode acarretar.
Questões e sugestões para manter a qualidade de dados - Fluxos de dados
17:52Um dos pontos fundamentais para conseguir atingir uma qualidade de dados de bom nível é a identificação dos pontos de origem dos fluxos de d...
Um dos pontos fundamentais para conseguir atingir uma qualidade de dados de bom nível é a identificação dos pontos de origem dos fluxos de dados errados dentro da organização. Durante anos as empresas foram aglutinando um numero elevadíssimo de registos defeituosos, inválidos ou incompletos, porque não existe uma real capacidade de verificação das informações. Como tal grandes quantidades de dados errados, imprecisos, redundantes foram-se acumulando até que em muitos casos o que existe é um conjunto incontrolável de bases de dados fragmentadas e com um enorme volume.
Em cima deste pântano, foram colocadas ferramentas de CRM, ERP, BI e como tal, em muitos casos os resultados dessas ferramentas ficaram aquém do esperado.
A criação de métricas de qualidade de dados é apenas um meio para melhorar a qualidade dos dados. A existência de processos de monitorização, a definição de metas é vital para o incremento da qualidade dos dados. A existência de ferramentas de qualidade de dados que ajudem logo no input dos dados, que ajudem na prevenção de entrada de dados errados no sistema, é sem duvida fundamental para que se possa melhorar a qualidade dos dados obtendo dessa forma reduções nos custos, no esforço e tempo gasto. Com isso podemos ter economias de escala, obtendo igualmente melhores resultados nos CRM´s, ERP´s e BI's, maximizando ainda os lucros que se podem retirar destas ferramentas.
Para isso todos os responsáveis pelas diferentes áreas da empresa têm de estar comprometidos com a execução dessas metas. Todos, desde a administração têm de ter consciência que os esforços para a melhoria da qualidade dos dados é uma prioridade-chave para o sucesso do negócio.
Questões e sugestões para manter a qualidade de dados - Abordagens
15:12Nunca é de mais repetir que a falta de qualidade de dados é responsável por danos de milhões de Euros em muitas empresas por esse mundo fora...
Nunca é de mais repetir que a falta de qualidade de dados é responsável por danos de milhões de Euros em muitas empresas por esse mundo fora. Em muitos casos as empresas entram em grandes projectos de CRM e de BI desperdiçando vastos recursos, uma vez que a qualidade dos dados que alimentam essas aplicações continua a ser baixa ou por vezes muito baixa.
Existem casos que a implementação de rotinas de qualidade de dados mascara um pouco os problemas, mas não fazem com que a qualidade dos dados fique a um nível aceitável, não permitem dar o salto em termos de qualidade que os projectos de CRM e de BI necessitam. Dados incorrectos, a longo prazo podem levar à insatisfação dos clientes, baixando a retenção de clientes.
A Qualidade dos Dados é frequentemente abordada sob a forma de funcionários e/ou consultores externos, sendo por norma responsável por 20 a 50% dos projectos de datawarehouse.
Por norma estes projectos ETL executados desta forma, duram semanas e na maior parte dos casos mesmo meses ou anos. Logicamente que esta duração de projectos depende em muito da dimensão da BD. Com estes tempos de tratamento dos dados o normal é que aquando da reintegração dos dados, estes já tenham sido actualizados e com isso não possam ser reintegrados. Outras vezes ainda na reintegração surgem problemas com formatos, tamanhos entre outros. Outra das dificuldades que surgem é que os dados são por norma partilhados por várias plataformas igualmente com diferentes formatos, o que faz com que se perda um pouco da eficácia no tratamento executado.
O tempo de execução pode ser igualmente um problema porque quando se demora seis meses a processar um ficheiro, o mais certo é que no final do processo já existam dados a necessitar novamente de atenção, o que leva a que este projecto seja um projecto infindável.
Existem três aspectos que são fundamentais que são a precisão, a consistência e a antiguidade dos dados. Por vezes as empresas mantêm em BD dados de clientes com os quais não existe nenhum contacto há mais de 5 anos. Estes dados podem não estar precisos, podem não ter consistência e certamente não estão actualizados. Em cerca de 85% dos casos, a insatisfação dos clientes é resultado de dados obsoletos existentes em vários departamentos como registos de cliente redundantes. Registos duplicados são outros dos motivos da fraca qualidade dos dados e ainda ajudam igualmente a aumentar o tamanho da BD.
Dados correctos, no tempo certo, para as pessoas certas são determinantes para a eficiência operacional de qualquer empresa. Devem ser dados correctos a base de tomadas de decisão a todos os níveis, operacional, táctico e estratégico. Qual deve ser então a abordagem a ter? Indo certamente repetir-me, mas considero que a abordagem que preconizo é certamente a abordagem mais correcta e que melhores resultados finais irá obter.
Em vez de se repetir o processo de ETL infinitamente com todos os custos que isso acarreta, deve ser executado esse processo de ETL num prazo relativamente curto, por norma uma a duas semanas, sendo que para grande volume de dados um mês será um valor com margem de segurança.
Simultaneamente a este processo de ETL fazemos a integração dos programas de normalização / actualização/ correcção (Firewall) em todos os pontos de contacto com a BD, para impedir na medida do possivel que "lixo" volte a entrar na BD. Estas ferramentas têm a vantagem de serem usadas transversalmente em toda a organização. Com isto todos os agentes que até aqui eram a principal fonte de erros, passam a ser a principal barreira que impede que dados "sujos" sejam incorporados em BD. Não existe outra forma de ter qualidade de dados, que não seja com o empenho de todos.
Questões e sugestões para manter a qualidade de dados - ROI
12:13Depois de uma interrupção, vou tentar retomar um ritmo de posts mais constante. Existem uma série de questões que são recorrentes acerca d...
Depois de uma interrupção, vou tentar retomar um ritmo de posts mais constante.
Existem uma série de questões que são recorrentes acerca do tema da qualidade dos dados, uma delas é o custo dos projectos de qualidade dos dados vs retorno do investimento.
Os custos dos projectos de qualidade de dados podem ser muito rapidamente recuperados, se forem executados de forma correcta e principalmente de forma empenhada por toda a organização. É uma questão transversal a toda a empresa e que requer a atenção em todos os níveis da pirâmide organizacional. A recuperação financeira do investimento feito com um projecto de qualidade de dados, em muitos casos é facilmente mensurável, mas em muitos outros pode ser difícil de quantificar, porque alguns valores podem não ter valoração mensurável de forma directa.
Relativamente aos que são mensuráveis, temos aqui um pequeno exemplo onde o valor de recuperação de 20% entre registos duplicados e devolvidos está certamente muito abaixo do que será um valor "atingível", mas mesmo com um valor de referencia baixo as economias de custos são consideráveis.
O mesmo exemplo anterior pode ser usado para os que não têm valores mensuráveis. Clientes que recebem comunicações duplicadas por estarem duplicados na base de dados e os clientes que não receberam a comunicação por ter sido devolvida. Estes custos são custos de imagem, que podem custar clientes e que não podem de forma nenhuma ser quantificados porque não há forma de os quantificar, porque as reacções dos clientes podem não ser imediatas e mais que isso muitas vezes não há uma explicação do afastamento de um determinado cliente.
Como tal um projecto de qualidade de dados é facilmente recuperável em termos de investimento, o espaço temporal necessário é que é mais difícil de medir, podendo em alguns casos ter recuperação praticamente imediata.
DQ vs BI ou DQ + BI
11:17Uma discussão interessante que vai surgindo é o que é mais importante, se a Qualidade dos Dados (Data Quality) ou se Business Inteligence. ...
Uma discussão interessante que vai surgindo é o que é mais importante, se a Qualidade dos Dados (Data Quality) ou se Business Inteligence.
Antes de mais considero que a Qualidade de Dados deve existir mesmo sem BI, mas BI não deve existir sem Qualidade de Dados. Se tivermos uma base com dados de qualidade, normalizados, deduplicados, completos e precisos, certamente que com grande facilidade se retira informações pertinentes desses dados, mesmo sem ferramentas de BI. Ao contrario, se tivermos as melhores ferramentas de BI do mundo, mas a base de dados está sem qualidade porque os dados não estão normalizados, existem duplicados, os dados estão incompletos e são pouco precisos, nunca se conseguirá tirar informações válidas dessa informação.
No final e em conclusão não se deve fazer a discussão qual das ferramentas é mais importante, mas pelo contrário o que se deve é somar uma com a outra para que se possa assim ter melhores resultados. As ferramentas de DQ muito úteis, mas apenas em conjunto com as ferramentas de BI se consegue ter os melhores resultados, tal como o inverso também é válido. As ferramentas de Qualidade de Dados podem não ter resultados apresentações tão bonitas para enviar aos quadros superiores das empresas, podem até passar totalmente despercebidas em alguns casos, mas são fundamentais para se conseguir ter os melhores resultados.
Qualidade de dados no Salesforce
11:59Um video com um exemplo do funcionamento das ferramentas de qualidade de dados no Salesforce. http://www...
Um video com um exemplo do funcionamento das ferramentas de qualidade de dados no Salesforce.
|
| http://www.data-quality-on-demand.com/media/en/film/salesforce.swf |
Neste video podemos ver numa primeira fase a normalização das moradas, no caso moradas americanas.
Como se pode ver igualmente no video executar a normalização a mais de uma morada.
Na fase seguinte temos a busca de duplicados dentro da base existentes de registos com a possibilidade de complementarização consoante os melhores dados existentes.
Com integração "plug and play" estas ferramentas apresentam resultados excelentes conforme pode ser demonstrado no demo online, mesmo com os erros comuns de digitação, fonéticos e outros.
Ganhos com Qualidade de dados
12:59Como ponto de partida temos de dividir os esforços para melhoramento da qualidade de dados entre projectos e soluções. Nos projectos poder...
Como ponto de partida temos de dividir os esforços para melhoramento da qualidade de dados entre projectos e soluções.
Nos projectos poderemos ter custos que dificilmente se consegue encontrar benefícios para eles, ou porque os projectos são mal concebidos, complexos e falham o ataque às causas da má qualidade dos dados.
Tradicionalmente as soluções de melhoramento de qualidade de dados têm retorno no investimento e impacto na organização com o aumento nos lucros tanto no aumento da facturação, como na redução de custos e redução de riscos vários.
Quando por exemplo num call center se reduz o numero de teclas necessárias para ter uma morada válida, ou para se encontrar um registo, isso tem um retorno visível e praticamente imediato nos custos. Se no final do dia se conseguir atender mais 10% das pessoas por que as ferramentas de qualidade de dados ajudaram na velocidade de atendimento, isso é facilmente detectável nas métricas do call center.
Por outro lado se nos devolvidos das campanhas, tivermos uma taxa de devolução reduzida relativamente aos dados anteriores, também representa valores mesuráveis e que ajudam a validar a implementação destas soluções.
Muitas vezes perguntam como consegue aferir a qualidade dos dados das empresas. Existem algumas ferramentas que o possibilitam, mas existe uma forma ainda mais simples. Ordenar os diferentes campos que compõem a base de dados e normalmente os erros aparecem de forma "natural". Provavelmente no campo do código postal podem aparecer em alguns casos códigos postais tipo "0000-000". Caso o sistema já esteja preparado para evitar estes casos podem existir muitos "X000-000" ou "X000-999". Os utilizadores encontram sempre forma de "dar a volta" ao sistema.
Por outro lado, ordenando os campos código postal e morada, vão encontrar muitos erros nas moradas, que estão escritas de formas totalmente distintas. Ruas como a Rua Calouste Gulbenkian devem existir versões de todas as formas. E é aqui que existe a distinção entre os projectos e as soluções de melhoria de qualidade de dados. Num projecto no dia seguinte os dados estão correctos, mas uma semana depois já existe "lixo" no sistema. É que se na Rua Calouste Gulbenkian pode não criar muitas duvidas na entrega da correspondência existem outros exemplos em que a escrita pode ser totalmente impeditiva da entrega da mesma.
Não estou com isto a dizer que os projectos de qualidade de dados não devem ser feitos, estou sim a dizer que devem ser complementados com a implementação de soluções de qualidade de dados. Apenas assim conseguimos assegurar a manutenção da qualidade dos dados e mais que isso, a redução dos custos.
Qualidade dos dados para Compliance de confiança e transparente - Vantagens
12:37Finalmente para finalizar esta temática aqui fica o ultimo post com o link para download do withe paper de compliance. Lucre com as Soluçõ...
Finalmente para finalizar esta temática aqui fica o ultimo post com o link para download do withe paper de compliance.
Lucre com as Soluções de Qualidade de Dados da Uniserv para compliance, incluindo:
- Revisão confiável dos dados (Data Cleansing) através da deduplicação automática dos actuais clientes, fornecedores e dados sócio contra listas de embargo nacionais e internacionais (em processamento em batch ou em tempo real)
- São necessários recursos e custos mínimos para garantir o compliance, como resultado de uma deduplicação de dados automatizada
- A protecção da sua competitividade e protecção contra as consequências legais e vendas perdidas causadas por incumprimento
Tal como prometido aqui fica igualmente o link para o white papper referente a esta matéria.
Qualidade dos dados para Compliance de confiança e transparente - Soluções
11:37Soluções de qualidade de dados da Uniserv - o Compliance de confiança com um mínimo de esforço As soluções de qualidade de dados da Uniser...
Soluções de qualidade de dados da Uniserv - o Compliance de confiança com um mínimo de esforço
As soluções de qualidade de dados da Uniserv vão apoiá-lo em garantir o Compliance de forma confiável e transparente, através da máxima qualidade dos dados. Coerência dos dados em formatos normalizados, bem como soluções completas para a correspondência automática dos actuais clientes, fornecedores e parceiros de dados com as listas de embargo proteger você e sua empresa contra as consequências financeiras e jurídicas.
Data Quality Batch Suite para Compliance: A suíte completa de produtos para a verificação em batch totalmente automático para limpeza dos dados do cliente e para a deduplicação automatizada de dados em batch contra listas de embargo (listas de bloqueio).
Data Quality Real-Time Services para Compliance: Para a protecção da qualidade dos seus endereços directamente nos sistemas operativos assim como a deduplicação em tempo real de dados contra listas de bloqueio.
A nossa contribuição para o cumprimento de Compliance: Deduplicação automatizada dos dados do cliente contra as listas de embargo (listas de bloqueio) de forma rápida, com pesquisa tolerante ao erro, com reconhecimento automático de duplicados e de agrupamentos de dados de nome e endereço, validação de dados e aumentando ou sincronizando com outros sistemas são apenas algumas das as funções do DQ Batch Suite e DQ Real Time Services da Uniserv- a nossa contribuição para a observância de confiança de requisitos de Compliance.
