Falta de qualidade de dados II
12:06Parece que agora que os dados são mais requeridos a falta de qualidade e de ferramentas de controle de qualidade dos mesmos está a vir ao de...
Parece que agora que os dados são mais requeridos a falta de qualidade e de ferramentas de controle de qualidade dos mesmos está a vir ao de cima. Aqui fica mais um exemplo da falta de qualidade, neste caso num banco.
Provavelmente, o que aconteceu foi que o Steve Smith se inscreveu numa campanha e como não estava para dar o nome coloca a expressão "F*** Off". O nome não aparece do nada, não é o "sistema" que coloca um nome. Caso tivesse havido trocas de nomes, não seria apenas ele a queixar-se mas provavelmente vinham as cartas todas devolvidas. Os nomes não iriam corresponder com as moradas.
Mas o que isto mostra é que a qualidade dos dados não foi assegurada e só assim se compreende que tal aconteça. Se por um lado ter qualidade nos dados tem custos, os custos directos e indirectos de não se ter qualidade nos dados é sempre muito superior como se pode ver neste caso.
Como custos directos há um futuro cliente que deixou de o ser, não se sabe se com ele vai arrastar mais clientes seus amigos e qual o "custo" que isto vai trazer para a empresa, é impossível saber. Mas para alem desses custos, há os custos de imagem, que esses são ainda mais difíceis de estimar.
Neste caso, para alem do impacto nos relacionamentos directos e indirectos da pessoa lesada, teve impacto em todos os que leram o jornal e eventualmente em muitos dos relacionamentos destes.
Como se pode evitar que isto aconteça? Simplesmente com normais procedimentos de qualidade de dados, que permitem identificar palavrões nos nomes e moradas. Esta é uma das funcionalidades que um projecto de qualidade de dados deve contemplar.
Juntando este post com o anterior podemos ver que a qualidade de dados engloba muitas vertentes, a verificação, a correcção, a deduplicação
Falta de qualidade de dados
10:52Ao ler uma noticia lembrei-me do post inicial onde falava num problema de qualidade de dados na Dinamarca. O assunto continua em cima da m...
Ao ler uma noticia lembrei-me do post inicial onde falava num problema de qualidade de dados na Dinamarca.
O assunto continua em cima da mesa porque muitas pessoas não sabem o que fazer, nem fazem ideia qual é o seu problema. Sabem que existe, sabem que têm de o resolver, mas como... não se faz a mínima ideia.
Neste caso da noticia a informação certamente que existe, os dados estão é espalhados por diferentes sistemas/ plataforma/ ficheiros e ninguém sabe o que fazer para resolver o problema. É supostamente uma operação herculana e com custos enormes para resolver. Nada mais errado.
Em primeiro lugar os dados não devem ser assim tantos quanto isso, estão é duplicados, triplicados... Segundo, depois de reunidos os dados todos (essa sim deve ser a operação mais complicada), em menos de uma semana certamente que os dados estão tratados e um problema que agora tem um custo que nem se consegue quantificar fica resolvido, por uma ínfima parte desse custo.
Quantos sistemas têm registos duplicados com custos enormes para as empresas e que continuam no dia-a-dia a alimentar as bases de dados com mais e mais duplicados? Há bases de dados em Portugal que devem ter mais registos que a população Portuguesa. É suposto? Dificilmente se consegue justificar que tal aconteça, mas há sempre quem consiga.
É sempre fácil dizer que não se faz porque os custos... mas em muitos casos logo após a implementação dos processos de qualidade de dados o investimento já está pago.
Relativamente à noticia em questão, pelo que mostra podem haver pessoas a usufruir de duas ou mais casas e ter até uma delas sub-arrendada e todos nós a pagar. Pode haver um sem numero de casos que apenas depois de se conseguir "arrumar a casa" é que se consegue ter uma noção mais concreta. Mas tal como disse anteriormente este é um dos casos que assim que o processo de qualidade de dados estiver em funcionamento já haverá retorno.
Deduplicação, desduplicação, identificação de duplicados - Listas e registos
10:21Para terminar vamos desenvolver um pouco o output e como obter esse output. O resultado final, dependendo do fim pretendido, pode ter vári...
Para terminar vamos desenvolver um pouco o output e como obter esse output.
O resultado final, dependendo do fim pretendido, pode ter várias "formas". Pode ser apenas um ficheiro com os registos duplicados e respectivos masters, pode ser um ficheiro apenas com os limpos ou um ficheiro apenas com os duplicados.
O que o software faz é a criação de grupos de duplicados que com uma chave comum que permite o posterior tratamento das bases de dados como por exemplo, com a alteração dos históricos de todas as tabelas dos registos duplicados para o registo master.
Outro ficheiro final de output é um ficheiro apenas com os "limpos", ou seja todos os registos únicos, sem duplicados e com os masters, ou seja apenas um dos duplicados, que pode ser "eleito" tal como nas prioridades das listas.
Por fim temos o ficheiro final apenas com os duplicados.
De todos estes ficheiros e logicamente salvaguardando usos específicos, o mais importante é sem duvida o primeiro que contém todas as informações fundamentais para tratamento dos dados. Com este ficheiro temos os elementos que nos permitem: complementar um registo, alterar tabelas de históricos entre outros.
Com este post fica completo finalmente o tópico da deduplicação.
Deduplicação, desduplicação, identificação de duplicados - Fine Tuning
10:25No fine tuning da deduplicação temos de ter em consideração o inicio, para encontrarmos o meio de alcançarmos o fim pretendido. Ou seja, tem...
No fine tuning da deduplicação temos de ter em consideração o inicio, para encontrarmos o meio de alcançarmos o fim pretendido. Ou seja, temos de saber de onde vamos e para onde vamos. Tipicamente existem 3 tipos de deduplicação a Standard, Overkill e Underkill.
Se falarmos de uma deduplicação normal, a deduplicação standard, depois vamos afinar conforme os resultados que vamos obtendo. Mas podemos ter uma campanha para fazer em que à partida temos 1 milhão de registos, mas sabemos que apenas temos material para enviar para metade desses registos. Como tal poderemos optar por uma deduplicação overkill e dessa forma vamos de forma aleatória ou não, remover registos que à partida não deveriam ser considerados como duplicados, mas como temos excesso de registos, podemos "correr o risco".
Por outro lado, temos uma base de dados que deve ser enviada uma comunicação mesmo para todos os indivíduos, mesmo que um individuo receba mais que uma comunicação, é preferível que haver algum que não receba. Optamos por uma deduplicação underkill, que desta forma a segurança dos duplicados é de 100%.
Em qualquer uma destes tipos de fine tuning, podemos ajustar parâmetros de forma a conseguirmos os melhores resultados, ou aqueles que mais se ajustam ao nosso objectivo final.
Esses parâmetros são as comparações executadas nos campos que podem ser comparações Fonéticas, de Similaridade, Equalização (Código Postal), Proximidade (Numero de porta) e Sinónimos.
Fonéticas o próprio nome é esclarecedor, de similaridade é tomada em conta uma série de factores como por exemplo um V e um U, se estivermos a visualizar algo manuscrito pode facilmente ser similar. Como tal, neste campo podemos aumentar ou diminuir o valor conforme a origem dos dados.
Equalização é usado especialmente no código postal. Temos em Lisboa códigos postais que vão do 1000-001 ao 1990-999, e muitas vezes como não se sabe o código exacto coloca-se simplesmente 1500-000. O que vai acontecer aqui é que todos os registos de Lisboa vão ficar com o mesmo código postal: 1000-000. Desta forma ajuda a encontrar duplicados, mesmo que não tenha sido possível fazer a normalização de algum registo.
Relativamente à proximidade um dos exemplos são os números de porta ou números de telefone. Pode haver pequenas diferenças por exemplo no numero de telefone e assim é possível também encontrar esses registos independentemente de pequenas diferenças nos números que possam existir.
Finalmente temos os sinónimos cujo nome também é esclarecedor.
Está complicado acabar este tema, mas está quase.
Deduplicação, desduplicação, identificação de duplicados - Listas
15:46Neste post vou descrever os diferentes tipos de listas que são possíveis de deduplicar. Tal como tinha dito no post inicial existem as lis...
Neste post vou descrever os diferentes tipos de listas que são possíveis de deduplicar.
Tal como tinha dito no post inicial existem as listas Standard, Externas, Negativas e de Enriquecimento.
As listas Standard são as "nossas" listas, aquelas onde vai incidir o tratamento. Podemos ter uma ou várias listas com prioridades entre elas. Vamos assumir que temos a lista com os clientes da empresa, mas entretanto surgiram outras pequenas listagens de outros clientes porque foi feita a incorporação de outras empresa, ou seja passam a ser nossos clientes também, mas para que se possa ter uma noção concreta do valor desses clientes vamos fazer a incorporação dos mesmos numa listagem única e deduplicada.
Podemos então dizer que os clientes existentes têm prioridade máxima e prioritizar todas as outras listas. Dessa forma no final na listagem de duplicados o master dos duplicados será sempre aquele com a prioridade mais elevada.
O mesmo relativamente às listas externas, que como o nome indica são listas que são por exemplo registos do departamento financeiro e que queremos comparar com os registos do marketing, porque não existe integração entre as duas ferramentas. Mais uma vez as prioridades aqui são válidas.
Um pouco como estas listas externas temos as listas de Enriquecimento que são listas que contêm dados que necessitamos de incorporar nos nossos dados, mas que estão noutras listagens. Por exemplo termos uma lista de clientes sem numero de contribuinte e o departamento financeiro ter uma lista com os NIF's de todos os clientes. Vamos por isso enriquecer a informação inicial com os NIF's dos clientes.
Por fim temos as listas negativas que propositadamente deixei para o fim. Aqui temos os Robinson (pessoas que pediram para não serem contactadas novamente), os "terroristas" e por exemplo os devedores.
Quando se fala de terroristas é mesmo no pior sentido da palavra, mas essa temática já a desenvolvi em outros posts como por exemplo neste.
Deduplicação, desduplicação, identificação de duplicados - Tipos
11:01Vou finalmente iniciar pelos tipos de deduplicacão. O mais habitual é a deduplicacão por indivíduo. Para a execução destas deduplicacões s...
Vou finalmente iniciar pelos tipos de deduplicacão.
O mais habitual é a deduplicacão por indivíduo. Para a execução destas deduplicacões são utilizados os campos que possam de alguma forma distinguir os indivíduos entre si. Toda e qualquer referência pode e deve ser usada. Partindo dos mais comuns como o nome, morada, data de nascimento, BI, mas tudo o que possa ajudar a distinguir indivíduos pode ser utilizado, emails, telefones fixos ou móveis, tudo o que nos possa tornar únicos ou que nos possa distinguir de outros pode ser importante para uma deduplicação.
O output final deste processo será um ficheiro com uma chave que identifica os registos que são duplicados, ou que suspeita que sejam duplicados e uma percentagem de match entre eles. Ou seja, no exemplo abaixo encontramos um grupo de duplicados (234) que é composto por 3 registos em que 2 são precisamente iguais e existe um com uma percentagem de match de 80%.
Grupo | Percentagem | IDOriginal | Nome | Morada | CodPostal | EndPostal |
---|---|---|---|---|---|---|
234 | 100 | 0035 | Osvaldo Godinho | Rua Poder Local, 14 | 1675-157 | Pontinha |
234 | 100 | 0495 | Osvaldo Godinho | Rua Poder Local, 14 | 1675-157 | Pontinha |
234 | 080 | 0495 | Osvaldo Gil Godinho | R Poder Local, 14 | 1675 | Pontinha |
Estes valores são meramente exemplificativo e não servem de referência porque dependendo dos pesos que forem colocados a cada um dos campos, teremos valores diferentes. Esses acertos que são uma das fases mais complicadas da deduplicação por norma é diferente de BD para BD. Existem as deduplicações genéricas, mas depois para termos maior precisão são necessárias várias tentativas para conseguirmos o ponto óptimo.
Para além da deduplicação normal por individuo podemos ter por household, ou seja conseguirmos ter a noção de quantas casas temos em BD, independentemente de termos o pai, a mãe e os filhos como nossos clientes, se necessitarmos de enviar uma comunicação dispendiosa para os clientes, podemos enviar apenas uma por casa, tendo essa indicação.
Estes são dois dos exemplos, mas podemos ainda ter a deduplicação por quadro de empresa, para além de deduplicações de outro tipo, tudo o que seja passível de ser deduplicado.
Deduplicação, desduplicação, identificação de duplicados...
12:11Desta vez vou iniciar uma série de post's relativos à deduplicação (foi este o termo que "aprendi" a usar e que uso com mais f...
Desta vez vou iniciar uma série de post's relativos à deduplicação (foi este o termo que "aprendi" a usar e que uso com mais frequência) em modo batch.
Existem alguns acrónimos que por vezes importamos do Marketing para designar as diferentes deduplicações existentes, mais usualmente utilizadas. B2C, B2B e B2H, significando deduplicação por Individuo, por Empresa e por Household. No caso da deduplicação por Empresa pode ter incluída a deduplicação com individuo ou não.
Quanto às listas que podem ser incluídas nestas deduplicações, existem as listas Standard, Externas, Negativas e de Enriquecimento.
Depois podemos ter "afinações" diferentes em cada uma das deduplicações: Idênticos, Standard, Overkill e Underkill.
Dentro de cada uma destas "afinações" temos para cada campo várias formas de comparar os registos: Fonéticas, Similaridade, Equalização (Código Postal), Proximidade (Numero de porta) e Sinónimos.
Por fim temos as Listas de saída, numa deduplicação podemos gerar um ficheiro com os Limpos, um ficheiro com os duplicados e um ficheiro com a lista dos duplicados que inclui para alem dos duplicados os Master's desses duplicados.
Como resultado teremos vários tipos de registos: Único, Mestre, Duplicado e Ambíguo.
O registo Mestre pode ser definido por prioridade, que pode ter como origem: Categoria ou Prioridade da lista, Prioridade ou Completude do registo ou simplesmente pela ordenação.
Tudo assim de seguida pode parecer uma grande confusão, mas vou nos próximos posts desenvolver cada um dos pontos anteriores.
ROI das ferramentas de qualidade de dados II
12:46Segundo um estudo Holandês numa Base de Dados com mais de um milhão de registos, descobriram a existência de um local (Gravenhage), escrito ...
Segundo um estudo Holandês numa Base de Dados com mais de um milhão de registos, descobriram a existência de um local (Gravenhage), escrito de mais de 50 formas diferentes e que esta inconsistência afectou mais de 50% de todos os registos. Com a colocação de um software de validação no ponto de entrada dos dados consegue-se um ROI imediato, com o aumento da velocidade de inserção dos dados, (muitas vezes evitando a criação de duplicados), reduzindo assim os custos com o pessoal. Qualquer organização que tenha por base dados inconsistentes é provável que subestimem o número e o valor dos seus clientes numa certa área. Todas as decisões que forem tomadas com essa base certamente que irão falhar e com custos para a organização.
A colocação de ferramentas para a validação de endereços no ponto de colecta dos dados tem um efeito imediato sobre a qualidade dos dados recolhidos. Os dados são recolhidos de forma mais rápida - os operadores não necessitam de tantos keystrokes para encontrar a informação pretendida. Desta forma se pode reduzir os tempos de espera e de atendimento de clientes, aumentado a satisfação, diminuindo custos com o pessoal. Com o aumento da satisfação dos clientes aumenta o valor da organização em todo o mercado com a partilha de experiências entre os clientes e os seus amigos/contactos.
A limpeza a jusante é sempre menos eficaz que a limpeza na fonte, não se pode identificar com tanta facilidade problemas de qualidade e não tem a oportunidade de dialogar com o cliente como se tem durante a colecta dos dados. A Sirius Decisions criou a regra 1-10-100: "É necessário $1 para verificar um registo na inserção dos dados, $10 para o limpar e deduplicar e $100 se nada for feito, com as ramificações dos erros a serem sentidas repetidamente" (“The Impact of Bad Data on Demand Creation”, Sirius Decisions, January 2009)
Valor da imagem vs qualidade dos dados
11:30Tal como terminei o ultimo post vou continuar neste com uma noticia recente e que nos pode ajudar a mostrar um pouco a dificuldade que há na...
Tal como terminei o ultimo post vou continuar neste com uma noticia recente e que nos pode ajudar a mostrar um pouco a dificuldade que há na criação de métricas para aferir os danos na imagem de uma empresa.
Como muitos puderam ver na TV, existem várias queixas de carros de uma marca de topo que simplesmente arderão. Uma vez que a marca nunca conseguiu dar uma resposta definitiva, a dúvida vai manter-se e ainda que seja dada uma explicação cabal para todos os acontecimentos, esta imagem vai sempre pairar sobre os possíveis compradores de carros da marca. Tanto nos novos compradores da marca como nos que já são clientes e que querem trocar de carro, MAS existe uma dúvida que paira no ar.
Esta é talvez uma das formas mais evidentes de se demonstrar que mesmo que se prove de forma inequívoca que os acontecimentos não são responsabilidade da marca, a imagem pode ficar afectada. Há mesmo algumas marcas que ainda hoje sofrem porque existiu um produto com baixa qualidade e por muito que tenham feito para dar a volta a essa imagem, é muito complicado convencer totalmente todo o mercado.
O problema é a quantificar estes valores e é igualmente complicado quantificar os custos de imagem quando se enviam peças em duplicado, pela existência de registos duplicados, pela devolução de cartas que podem ser muito importantes para os clientes, mas que não chegaram ao destino. Até mesmo na prevenção de fraude com a inserção de moradas inexistentes, evitando assim desperdiçar dinheiro em envios de peças promocionais por vezes bastante caras, para moradas inexistentes. No próximo post vou falar continuar a falar do ROI da qualidade de dados.
ROI das ferramentas de qualidade de dados
12:31Se há momentos em que a qualidade dos dados está em destaque, certamente são estes momentos que vivemos, em que os custos são escrutinados a...
Se há momentos em que a qualidade dos dados está em destaque, certamente são estes momentos que vivemos, em que os custos são escrutinados ao mais ínfimo pormenor. Quando a economia está em alta, ter taxas de devolvidos elevadas é pouco importante, nos momentos como o que vivemos ter 1.000 cartas devolvidas já é um custo que provavelmente muitas empresas olham com outros olhos. Se falarmos de 10.000 então o olhar certamente ainda é mais atento.
O mesmo se passa com o envio de registos duplicados, que tem sempre custos quer seja por envio físico, quer seja por envio por email. Se no caso do envio físico para alem dos custos das peças e custos de correio, existe o outro custo que é comum com o envio por email que são os custos de imagem. Não passa certamente uma imagem muito profissional de uma empresa que envia a mesma comunicação para o mesmo destinatário várias vezes. Pese embora estes custos sejam os mais complicados de contabilizar, são certamente custos a ter em conta.
Os dados da empresa são os pilares que sustentam a organização. Sem eles não há encomendas, nem vendas, nem facturação, nem recebimento. Se algum destes factores fundamentais falhar haverá problemas. Se falhar uma vez há um pequeno problema, se falharem muitas vezes pode ser terminal.
Em alguns casos existe ainda o passo seguinte que é a tentativa de ir recuperar o dinheiro, mas muitas vezes a morada não existe, ou de tal forma está deturpada que impede essa tentativa de recuperação.
Como se resolve este problema? A melhor solução é sempre na entrada dos dados ter uma ferramenta de normalização/correcção/verificação de moradas.
Apenas com estas ferramentas conseguimos maiores percentagens de dados correctos, sempre muito acima dos valores conseguidos com as ferramentas de batch, uma vez que sempre que há uma dúvida o utilizador tem hipótese de escolha. Quando estamos a falar em ferramentas batch se surgir uma morada com "Liberdade, 2", o software não deve escolher entre a Avenida da Liberdade e a Vila da Liberdade. Assinala como sendo um registo dúbio e não faz mais nada. Se estivermos com as aplicações online o utilizador pode escolher qual a correcta, ou porque está a introduzir os seus próprios dados, ou porque é um empregado da empresa que tem o cliente na sua frente ou ao telefone.
Indo finalmente de encontra o titulo do post, qual o ROI das ferramentas de qualidade de dados? É um valor que não é fácil de quantificar, mas existem muitas métricas que podem ajudar, alguns exemplos podem ser encontrados no link, mas existem ainda outras métricas. Depois somando a estes custos existem os valores de imagem que por vezes são incalculáveis.
Questões e sugestões para manter a qualidade de dados - Nuvem / Cloud
11:21É sem dúvida um dos grandes temas do momento e como tal vamos falar um pouco da qualidade de dados na nuvem. É possível? Existem casos de su...
É sem dúvida um dos grandes temas do momento e como tal vamos falar um pouco da qualidade de dados na nuvem. É possível? Existem casos de sucesso?
Para ambas as perguntas a resposta é afirmativa. Falando de Address Management e Deduplicação, que são os meus temas de eleição, há vários casos de sucesso em inúmeras plataformas igualmente na nuvem, como por exemplo o salesforce.com, update.seven, Talend mas igualmente em outras plataformas, mas recorrendo aos serviços na nuvem, como MS Dynamics CRM, Oracle Siebel CRM, SAP Business Suite entre muitos outros.
Segundo as previsões da Gartner em 2015, 10% dos pacotes de implementações MDM serão entregues em forma de SaaS na nuvem.
A passagem das plataformas empresariais para a nuvem, conjuntamente com um mercado laboral onde cada vez é mais complicado encontrar / manter um staf que não dê muitos erros nas inserções de moradas e / ou nomes inseridos, as aplicações de normalização / correcção / verificação / deduplicação de nomes e moradas são cada vez mais essenciais. O mesmo se passa em termos de e-commerce onde moradas mal escritas, com erros de grafia, com erros fonéticos são cada vez mais comuns e pode originar devoluções ou atrasos nas entregas com todos os custos financeiros e de imagem que tal pode acarretar.
Questões e sugestões para manter a qualidade de dados - Fluxos de dados
17:52Um dos pontos fundamentais para conseguir atingir uma qualidade de dados de bom nível é a identificação dos pontos de origem dos fluxos de d...
Um dos pontos fundamentais para conseguir atingir uma qualidade de dados de bom nível é a identificação dos pontos de origem dos fluxos de dados errados dentro da organização. Durante anos as empresas foram aglutinando um numero elevadíssimo de registos defeituosos, inválidos ou incompletos, porque não existe uma real capacidade de verificação das informações. Como tal grandes quantidades de dados errados, imprecisos, redundantes foram-se acumulando até que em muitos casos o que existe é um conjunto incontrolável de bases de dados fragmentadas e com um enorme volume.
Em cima deste pântano, foram colocadas ferramentas de CRM, ERP, BI e como tal, em muitos casos os resultados dessas ferramentas ficaram aquém do esperado.
A criação de métricas de qualidade de dados é apenas um meio para melhorar a qualidade dos dados. A existência de processos de monitorização, a definição de metas é vital para o incremento da qualidade dos dados. A existência de ferramentas de qualidade de dados que ajudem logo no input dos dados, que ajudem na prevenção de entrada de dados errados no sistema, é sem duvida fundamental para que se possa melhorar a qualidade dos dados obtendo dessa forma reduções nos custos, no esforço e tempo gasto. Com isso podemos ter economias de escala, obtendo igualmente melhores resultados nos CRM´s, ERP´s e BI's, maximizando ainda os lucros que se podem retirar destas ferramentas.
Para isso todos os responsáveis pelas diferentes áreas da empresa têm de estar comprometidos com a execução dessas metas. Todos, desde a administração têm de ter consciência que os esforços para a melhoria da qualidade dos dados é uma prioridade-chave para o sucesso do negócio.
Questões e sugestões para manter a qualidade de dados - Abordagens
15:12Nunca é de mais repetir que a falta de qualidade de dados é responsável por danos de milhões de Euros em muitas empresas por esse mundo fora...
Nunca é de mais repetir que a falta de qualidade de dados é responsável por danos de milhões de Euros em muitas empresas por esse mundo fora. Em muitos casos as empresas entram em grandes projectos de CRM e de BI desperdiçando vastos recursos, uma vez que a qualidade dos dados que alimentam essas aplicações continua a ser baixa ou por vezes muito baixa.
Existem casos que a implementação de rotinas de qualidade de dados mascara um pouco os problemas, mas não fazem com que a qualidade dos dados fique a um nível aceitável, não permitem dar o salto em termos de qualidade que os projectos de CRM e de BI necessitam. Dados incorrectos, a longo prazo podem levar à insatisfação dos clientes, baixando a retenção de clientes.
A Qualidade dos Dados é frequentemente abordada sob a forma de funcionários e/ou consultores externos, sendo por norma responsável por 20 a 50% dos projectos de datawarehouse.
Por norma estes projectos ETL executados desta forma, duram semanas e na maior parte dos casos mesmo meses ou anos. Logicamente que esta duração de projectos depende em muito da dimensão da BD. Com estes tempos de tratamento dos dados o normal é que aquando da reintegração dos dados, estes já tenham sido actualizados e com isso não possam ser reintegrados. Outras vezes ainda na reintegração surgem problemas com formatos, tamanhos entre outros. Outra das dificuldades que surgem é que os dados são por norma partilhados por várias plataformas igualmente com diferentes formatos, o que faz com que se perda um pouco da eficácia no tratamento executado.
O tempo de execução pode ser igualmente um problema porque quando se demora seis meses a processar um ficheiro, o mais certo é que no final do processo já existam dados a necessitar novamente de atenção, o que leva a que este projecto seja um projecto infindável.
Existem três aspectos que são fundamentais que são a precisão, a consistência e a antiguidade dos dados. Por vezes as empresas mantêm em BD dados de clientes com os quais não existe nenhum contacto há mais de 5 anos. Estes dados podem não estar precisos, podem não ter consistência e certamente não estão actualizados. Em cerca de 85% dos casos, a insatisfação dos clientes é resultado de dados obsoletos existentes em vários departamentos como registos de cliente redundantes. Registos duplicados são outros dos motivos da fraca qualidade dos dados e ainda ajudam igualmente a aumentar o tamanho da BD.
Dados correctos, no tempo certo, para as pessoas certas são determinantes para a eficiência operacional de qualquer empresa. Devem ser dados correctos a base de tomadas de decisão a todos os níveis, operacional, táctico e estratégico. Qual deve ser então a abordagem a ter? Indo certamente repetir-me, mas considero que a abordagem que preconizo é certamente a abordagem mais correcta e que melhores resultados finais irá obter.
Em vez de se repetir o processo de ETL infinitamente com todos os custos que isso acarreta, deve ser executado esse processo de ETL num prazo relativamente curto, por norma uma a duas semanas, sendo que para grande volume de dados um mês será um valor com margem de segurança.
Simultaneamente a este processo de ETL fazemos a integração dos programas de normalização / actualização/ correcção (Firewall) em todos os pontos de contacto com a BD, para impedir na medida do possivel que "lixo" volte a entrar na BD. Estas ferramentas têm a vantagem de serem usadas transversalmente em toda a organização. Com isto todos os agentes que até aqui eram a principal fonte de erros, passam a ser a principal barreira que impede que dados "sujos" sejam incorporados em BD. Não existe outra forma de ter qualidade de dados, que não seja com o empenho de todos.
Questões e sugestões para manter a qualidade de dados - ROI
12:13Depois de uma interrupção, vou tentar retomar um ritmo de posts mais constante. Existem uma série de questões que são recorrentes acerca d...
Depois de uma interrupção, vou tentar retomar um ritmo de posts mais constante.
Existem uma série de questões que são recorrentes acerca do tema da qualidade dos dados, uma delas é o custo dos projectos de qualidade dos dados vs retorno do investimento.
Os custos dos projectos de qualidade de dados podem ser muito rapidamente recuperados, se forem executados de forma correcta e principalmente de forma empenhada por toda a organização. É uma questão transversal a toda a empresa e que requer a atenção em todos os níveis da pirâmide organizacional. A recuperação financeira do investimento feito com um projecto de qualidade de dados, em muitos casos é facilmente mensurável, mas em muitos outros pode ser difícil de quantificar, porque alguns valores podem não ter valoração mensurável de forma directa.
Relativamente aos que são mensuráveis, temos aqui um pequeno exemplo onde o valor de recuperação de 20% entre registos duplicados e devolvidos está certamente muito abaixo do que será um valor "atingível", mas mesmo com um valor de referencia baixo as economias de custos são consideráveis.
O mesmo exemplo anterior pode ser usado para os que não têm valores mensuráveis. Clientes que recebem comunicações duplicadas por estarem duplicados na base de dados e os clientes que não receberam a comunicação por ter sido devolvida. Estes custos são custos de imagem, que podem custar clientes e que não podem de forma nenhuma ser quantificados porque não há forma de os quantificar, porque as reacções dos clientes podem não ser imediatas e mais que isso muitas vezes não há uma explicação do afastamento de um determinado cliente.
Como tal um projecto de qualidade de dados é facilmente recuperável em termos de investimento, o espaço temporal necessário é que é mais difícil de medir, podendo em alguns casos ter recuperação praticamente imediata.
DQ vs BI ou DQ + BI
11:17Uma discussão interessante que vai surgindo é o que é mais importante, se a Qualidade dos Dados (Data Quality) ou se Business Inteligence. ...
Uma discussão interessante que vai surgindo é o que é mais importante, se a Qualidade dos Dados (Data Quality) ou se Business Inteligence.
Antes de mais considero que a Qualidade de Dados deve existir mesmo sem BI, mas BI não deve existir sem Qualidade de Dados. Se tivermos uma base com dados de qualidade, normalizados, deduplicados, completos e precisos, certamente que com grande facilidade se retira informações pertinentes desses dados, mesmo sem ferramentas de BI. Ao contrario, se tivermos as melhores ferramentas de BI do mundo, mas a base de dados está sem qualidade porque os dados não estão normalizados, existem duplicados, os dados estão incompletos e são pouco precisos, nunca se conseguirá tirar informações válidas dessa informação.
No final e em conclusão não se deve fazer a discussão qual das ferramentas é mais importante, mas pelo contrário o que se deve é somar uma com a outra para que se possa assim ter melhores resultados. As ferramentas de DQ muito úteis, mas apenas em conjunto com as ferramentas de BI se consegue ter os melhores resultados, tal como o inverso também é válido. As ferramentas de Qualidade de Dados podem não ter resultados apresentações tão bonitas para enviar aos quadros superiores das empresas, podem até passar totalmente despercebidas em alguns casos, mas são fundamentais para se conseguir ter os melhores resultados.
Qualidade de dados no Salesforce
11:59Um video com um exemplo do funcionamento das ferramentas de qualidade de dados no Salesforce. http://www...
Um video com um exemplo do funcionamento das ferramentas de qualidade de dados no Salesforce.
http://www.data-quality-on-demand.com/media/en/film/salesforce.swf |
Neste video podemos ver numa primeira fase a normalização das moradas, no caso moradas americanas.
Como se pode ver igualmente no video executar a normalização a mais de uma morada.
Na fase seguinte temos a busca de duplicados dentro da base existentes de registos com a possibilidade de complementarização consoante os melhores dados existentes.
Com integração "plug and play" estas ferramentas apresentam resultados excelentes conforme pode ser demonstrado no demo online, mesmo com os erros comuns de digitação, fonéticos e outros.
Ganhos com Qualidade de dados
12:59Como ponto de partida temos de dividir os esforços para melhoramento da qualidade de dados entre projectos e soluções. Nos projectos poder...
Como ponto de partida temos de dividir os esforços para melhoramento da qualidade de dados entre projectos e soluções.
Nos projectos poderemos ter custos que dificilmente se consegue encontrar benefícios para eles, ou porque os projectos são mal concebidos, complexos e falham o ataque às causas da má qualidade dos dados.
Tradicionalmente as soluções de melhoramento de qualidade de dados têm retorno no investimento e impacto na organização com o aumento nos lucros tanto no aumento da facturação, como na redução de custos e redução de riscos vários.
Quando por exemplo num call center se reduz o numero de teclas necessárias para ter uma morada válida, ou para se encontrar um registo, isso tem um retorno visível e praticamente imediato nos custos. Se no final do dia se conseguir atender mais 10% das pessoas por que as ferramentas de qualidade de dados ajudaram na velocidade de atendimento, isso é facilmente detectável nas métricas do call center.
Por outro lado se nos devolvidos das campanhas, tivermos uma taxa de devolução reduzida relativamente aos dados anteriores, também representa valores mesuráveis e que ajudam a validar a implementação destas soluções.
Muitas vezes perguntam como consegue aferir a qualidade dos dados das empresas. Existem algumas ferramentas que o possibilitam, mas existe uma forma ainda mais simples. Ordenar os diferentes campos que compõem a base de dados e normalmente os erros aparecem de forma "natural". Provavelmente no campo do código postal podem aparecer em alguns casos códigos postais tipo "0000-000". Caso o sistema já esteja preparado para evitar estes casos podem existir muitos "X000-000" ou "X000-999". Os utilizadores encontram sempre forma de "dar a volta" ao sistema.
Por outro lado, ordenando os campos código postal e morada, vão encontrar muitos erros nas moradas, que estão escritas de formas totalmente distintas. Ruas como a Rua Calouste Gulbenkian devem existir versões de todas as formas. E é aqui que existe a distinção entre os projectos e as soluções de melhoria de qualidade de dados. Num projecto no dia seguinte os dados estão correctos, mas uma semana depois já existe "lixo" no sistema. É que se na Rua Calouste Gulbenkian pode não criar muitas duvidas na entrega da correspondência existem outros exemplos em que a escrita pode ser totalmente impeditiva da entrega da mesma.
Não estou com isto a dizer que os projectos de qualidade de dados não devem ser feitos, estou sim a dizer que devem ser complementados com a implementação de soluções de qualidade de dados. Apenas assim conseguimos assegurar a manutenção da qualidade dos dados e mais que isso, a redução dos custos.
Qualidade dos dados para Compliance de confiança e transparente - Vantagens
12:37Finalmente para finalizar esta temática aqui fica o ultimo post com o link para download do withe paper de compliance. Lucre com as Soluçõ...
Finalmente para finalizar esta temática aqui fica o ultimo post com o link para download do withe paper de compliance.
Lucre com as Soluções de Qualidade de Dados da Uniserv para compliance, incluindo:
- Revisão confiável dos dados (Data Cleansing) através da deduplicação automática dos actuais clientes, fornecedores e dados sócio contra listas de embargo nacionais e internacionais (em processamento em batch ou em tempo real)
- São necessários recursos e custos mínimos para garantir o compliance, como resultado de uma deduplicação de dados automatizada
- A protecção da sua competitividade e protecção contra as consequências legais e vendas perdidas causadas por incumprimento
Tal como prometido aqui fica igualmente o link para o white papper referente a esta matéria.
Qualidade dos dados para Compliance de confiança e transparente - Soluções
11:37Soluções de qualidade de dados da Uniserv - o Compliance de confiança com um mínimo de esforço As soluções de qualidade de dados da Uniser...
Soluções de qualidade de dados da Uniserv - o Compliance de confiança com um mínimo de esforço
As soluções de qualidade de dados da Uniserv vão apoiá-lo em garantir o Compliance de forma confiável e transparente, através da máxima qualidade dos dados. Coerência dos dados em formatos normalizados, bem como soluções completas para a correspondência automática dos actuais clientes, fornecedores e parceiros de dados com as listas de embargo proteger você e sua empresa contra as consequências financeiras e jurídicas.
Data Quality Batch Suite para Compliance: A suíte completa de produtos para a verificação em batch totalmente automático para limpeza dos dados do cliente e para a deduplicação automatizada de dados em batch contra listas de embargo (listas de bloqueio).
Data Quality Real-Time Services para Compliance: Para a protecção da qualidade dos seus endereços directamente nos sistemas operativos assim como a deduplicação em tempo real de dados contra listas de bloqueio.
A nossa contribuição para o cumprimento de Compliance: Deduplicação automatizada dos dados do cliente contra as listas de embargo (listas de bloqueio) de forma rápida, com pesquisa tolerante ao erro, com reconhecimento automático de duplicados e de agrupamentos de dados de nome e endereço, validação de dados e aumentando ou sincronizando com outros sistemas são apenas algumas das as funções do DQ Batch Suite e DQ Real Time Services da Uniserv- a nossa contribuição para a observância de confiança de requisitos de Compliance.
Qualidade dos dados para Compliance de confiança e transparente
18:14Hoje em dia o Compliance abrange não só a observância de leis ou regulamentos comerciais, mas também a proibição e obrigação de notificar as...
Hoje em dia o Compliance abrange não só a observância de leis ou regulamentos comerciais, mas também a proibição e obrigação de notificar as autoridades das transacções envolvendo pessoas suspeitas e empresas. Multas severas e a ameaça consequências jurídicas, no caso de não cumprimento. A adequação permanente de clientes, fornecedores e parceiros de dados com as listas de embargo nacional e internacional (listas de bloqueio) é, portanto, uma obrigação para cada empresa. O problema: Má qualidade de dados como resultado de dados incorrectos, inconsistentes pode inviabilizar este processo de harmonização.
Desafios
Dados de clientes e fornecedores inconsistentes - A principal fonte de perigo
Cada transacção comercial deve ser comparada com as listas de embargo. Isso já é bastante difícil com uma base pequena de clientes e de fornecedores, é um verdadeiro desafio com dezenas de milhares ou mesmo milhões de transacções. Mas os custos de buscas de correspondentes feitas de forma manual equivale a muito tempo e dinheiro. O resultado mais comum: a harmonização só é realizada parcialmente ou não de todo, o que pode ter consequências fatais tanto financeiramente como em temos responsabilidade. A confiança dos parceiros e clientes também é afectada se ele tiver feito negócios com pessoas suspeitas - deliberadamente ou inadvertidamente. Existe o perigo de perda de vendas aqui, o que pode ameaçar a existência da sua empresa na pior das hipóteses.
Segurança, sem garantias - Mudando listas de embargo
As listas de embargo próprias também podem ser um desafio para os seus processos de harmonização. Listas actualizadas regularmente exigem a comparação permanente contra a base de dados actual, em constante mutação. E as listas de bloqueio próprias também não são seguras contra inconsistências:
- Suspeitos são listados com aliases e outras informações que podem ser pouco claras
- Convenções específicas de cada país levam a uma variedade de grafias que tornam o processo de identificação mais difícil
- Os dados das pessoas suspeitas alteram conforme a proveniência e de lista para lista, como resultado por exemplo de deslocalizações ou de novas informações
- Os dados foram inseridos de forma incorrecta ou ambígua pelo compilador da lista
Qualidade dos dados é o turbo do Corporate Performance Management (CPM) - Vantagens
15:21Lucre com todas as soluções de Qualidade de Dados da Uniserv para Corporate Performance Management (CPM), incluindo: Excelente qualidade d...
Lucre com todas as soluções de Qualidade de Dados da Uniserv para Corporate Performance Management (CPM), incluindo:
- Excelente qualidade de dados no Business Data Warehouse através da análise dos dados antes da transferência inicial de fontes de dados existentes (Data Profiling) e através do acompanhamento regular (Data Quality Monitoring)
- Revisão confiável dos dados (Data Cleansing) de acordo com regras definidas e combinando-a contra os dados de referência (por exemplo, dados geográficos) no processamento em batch ou em tempo real. Os dados actuais e correctos, como base para uma correspondência precisa e confiável contra alvos de planeamento e indicadores de performance (Key Performance Indicators / KPI)
- Melhoria do desempenho dos vários departamentos e de toda a empresa através da optimização dos processos de negócio rápido
- Previsões realistas para o desenvolvimento das empresas que levam a decisões informadas negócios operacionais e estratégicas
- Reacção mais rápida às novas condições de mercado e desenvolvimentos internos
- Gestão eficaz dos riscos e cumprimento de confiança com os requisitos legais e regulamentos internos por meio de relatórios precisos, completos e transparentes
- Redução de custos através da protecção automática da qualidade dos dados e redução de custos para a fusão e manutenção dos dados armazenados
Qualidade dos dados é o turbo do Corporate Performance Management (CPM) - Soluções
10:42As soluções Uniserv Data Quality para o Corporate Performance Management (CPM) - elevada qualidade dos dados para melhorar o desempenho da s...
As soluções Uniserv Data Quality para o Corporate Performance Management (CPM) - elevada qualidade dos dados para melhorar o desempenho da sua empresa
As soluções de qualidade de dados da Uniserv vão ajudá-lo a gerar indicadores de desempenho precisos através da qualidade de dados máxima e projectar seus processos de negócio de forma mais eficiente e mais flexível, visualizar o desenvolvimento empresarial de forma mais realista e melhorar o desempenho da sua empresa.
Explorer. Qualidade dos dados para o CPM: O Explorer permite que determine o estado real dos seus dados antes da transferência inicial para o Business Data Warehouse.
Batch Suite. Qualidade de dados para CPM: A suite completa de produtos para a transferência em batch totalmente automática a partir de fontes de dados diferentes, a transformação do conteúdo do campo e as estruturas de registo, e da verificação e limpeza de dados durante a transferência para o Business Data Warehouse.
Real-Time Services. Qualidade dos dados para CPM: Para a protecção imediata da sua qualidade de dados durante a transferência de dados para o Data Warehouse em (quase) em tempo real.
Monitor. Qualidade dos dados para CPM: Este monitoriza a qualidade dos dados de acordo com regras de negócio definidas. Alerta sempre que os valores limite especificados sejam ultrapassados.
A nossa contribuição para o sucesso de Corporate Performance Management:
- Profiling de novas fontes de dados, antes da transferência inicial dos dados para o Business Data Warehouse. A transferência dos dados de uma ampla gama de sistemas e, caso seja necessário a reconversão do formato dos dados. Reconhecimento automático de duplicados e de agrupamento de dados de nome e endereço.
- A validação de dados, melhorando as funções e a consolidação e o acompanhamento dos valores-limite para as regras de negócio especificadas complementadas pelas ferramentas de qualidade de dados para CPM. Uniserv DQ Explorer, DQ Batch Suite, DQ Real-Time Services e DQ Monitor são a nossa contribuição para o sucesso do seu sistema CPM. Apenas os dados confiáveis e válidos podem ser condensados em informação e conhecimento que é usado para derivar recomendações para a acção.
Qualidade dos dados é o turbo do Corporate Performance Management (CPM) - Desafios
14:40As soluções de Business Intelligence (BI) são indispensáveis para os decisores das empresas como base para decisões de negócios. Consideran...
As soluções de Business Intelligence (BI) são indispensáveis para os decisores das empresas como base para decisões de negócios. Considerando que estes normalmente usam ferramentas de relatórios para analisar e avaliar acontecimentos passados, a evolução desfavorável e problemas, Corporate Performance Management (CPM) e Business Performance Management (BPM) são abordagens orientadas para o futuro para a optimização operacional e estratégica de processos corporativos. Neste contexto, o planeamento de dados é comparado com os indicadores-chave do processo real, a fim de verificar a eficiência dos processos de negócio e adaptá-los o mais rapidamente possível, sempre com o objectivo de aumentar o desempenho e valor acrescentado da empresa. Não é à toa que a chave do sucesso é a qualidade máxima de dados em Data Warehouse como uma fonte de soluções de CPM.
Dados incorretos, desactualizados ou dados duplicados falsificam importantes figuras-chave
CPM está focada em figuras-chave (Key Performance Indicators / KPI) da empresa. Elas representam o desempenho quantitativo de um departamento ou toda a empresa e formam a base para o permanente acompanhamento, análise e optimização dos processos de negócio. Em contraste com o Business Intelligence, outras dimensões, tais como a satisfação do cliente, o valor de marcas e patentes, ou a motivação dos funcionários desempenham um papel no CPM, e não apenas indicadores financeiros e os tempos de produção. Uma vez que inúmeros sistemas de TI de diferentes departamentos teram que fornecer dados aqui, dados incorrectos, desactualizados ou duplicados podem ter um efeito devastador sobre a precisão e confiabilidade das avaliações.
Indicadores de desempenho inadequados levam a decisões incorrectas
Se os seus indicadores de desempenho são baseados em dados de baixa qualidade no Data Warehouse, resultados incorrectos podem ser obtidos quando os seus objectivos de planeamento são comparados com o desempenho actual da empresa. Isso pode significar que esteja a avaliar incorrectamente o desempenho dos vários departamentos, processos de negócios ou de toda a empresa e realizar a necessária optimização das actividades operacionais ou estratégicas demasiado tarde ou não de todo. Neste caso, as suas previsões podem estar erradas e rapidamente ficará atrás da concorrência. Gestão do risco também é afectado, se avaliar incorrectamente actuais pontos fracos, o que também pode causar dificuldades para cumprir os regulamentos de conformidade.
Falta de confiança no CPM - menor eficiência no planeamento empresarial
Se o sistema de CPM não atender as expectativas dos decisores como resultado da fraca qualidade dos dados e avaliações imprecisas, as excelentes oportunidades oferecidas pelo CPM não podem ser usadas de forma consistente. Mau planeamento e previsões ruins são o resultado inevitável aqui, já que as decisões não são feitas com base em análises de indicadores-chave, mas com base em informações insuficientes ou até no instinto.
Limpeza manual de dados atrasa decisões e aumenta os custos
Se os dados necessários para a análise estão incompletos, incorrectos e inconsistentes no Data Warehouse, têm que ser compilados manualmente, avaliados e preparados em relatórios. Isso impede que sejam comparados rapidamente contra metas planeadas e surjam ajustes nos prazos urgentes dos processos críticos de negócio. É assim gasta uma grande quantidade de dinheiro em recursos de TI que poderiam ser usados por exemplo para projectos de TI críticos para o negócio.
Quando Boas Empresas têm Maus Dados
16:49A percepção que existem problemas na qualidade dos dados é em muitos casos uma realidade nas empresas, a maior dificuldade é a percepção da ...
A percepção que existem problemas na qualidade dos dados é em muitos casos uma realidade nas empresas, a maior dificuldade é a percepção da dimensão do problema.
Aqui surgem dois aspectos que normalmente impedem a percepção da dimensão: uma é a forma e a outra é a vontade de conseguir quantificar problema.
É sempre complicado conseguir uma forma de medir a qualidade ou falta de qualidade dos dados porque não existem métricas exactas que possam ser aplicadas directamente, embora como mostrei nos posts relativos ao conceito, definição de qualidade de dados (Data Quality) e na segunda parte do mesmo, há sempre formas de conseguir quantificar, todos conhecem sintomas que surgem quando a qualidade dos dados não está em condições, porque há sempre qualquer coisa que corre mal devido a essa falta de qualidade de dados. Casos em que uma resposta demora mais tempo que o deveria ser suposto porque houve necessidade de "limpeza" dos dados. Um exemplo simples, uma simples contagem por Concelho é adiada porque afinal nem todos os registos tinham Concelho atribuído, ou porque existiam muitos em que os Concelhos atribuídos estavam errados. E para tal, em vez de se esperar 5 minutos por uma contagem, os dados chegam uma semana depois. Em casos urgentes em que sejam necessários esses dados na hora, quando chegam, já é tarde demais. Depois sim é "ordenada" uma vistoria a todos os dados dos Concelhos, para que não volte a ocorrer tal situação.
Mas muitas vezes o mais complicado é mesmo a vontade de conseguir quantificar o problema. Porquê? Porque isso implica o assumir da existência de um problema. Devido aos afazeres do dia-a-dia, estar a "criar" mais um problema é sempre complicado. Quando aparece um problema especifico fazem-se as necessárias correcções. É um exemplo que dou vezes sem conta, mas é uma pergunta que faço invariavelmente e que tem a mesma resposta também invariavelmente. Para se saber o estado da base de dados pergunto o numero de devolvidos que são recebidos e a resposta é sempre um rotundo "não fazemos a mínima ideia".
Volto a referir para que não tirem conclusões precipitadas das minhas palavras. A perfeição em termos de qualidade de dados é impossível de alcançar, mas é possível minimizar os problemas nos dados numa base permanente e constante, evitando grandes alterações nas condições dos dados.
Novo formulário Demo Online
16:18Depois de uma semana um pouco complicada, aqui estou de volta já praticamente curado e com novidades. Já está disponível o novo formulário...
Depois de uma semana um pouco complicada, aqui estou de volta já praticamente curado e com novidades.
Já está disponível o novo formulário para os testes online, embora ainda não esteja totalmente optimizado, ainda estamos com problemas com a ligação ao Google Maps.
Novidade mesmo é que agora se pode alterar o país de origem da morada que se quer normalizar directamente.
Estão disponíveis todos os países, embora com níveis de normalização totalmente diferentes. Logicamente que o ficheiro de arruamentos de Portugal é muito mais completo que o do Burkina Faso.
Porque falharam os projectos de CRM e porque estão a falhar os projectos de BI?
18:11Infelizmente recomeçamos a ouvir falar no falhanço dos projectos de BI por esse mundo fora, tal como no final dos anos 90 até ao inicio do s...
Infelizmente recomeçamos a ouvir falar no falhanço dos projectos de BI por esse mundo fora, tal como no final dos anos 90 até ao inicio do século se foi ouvindo falar do falhanços dos projectos de CRM, nos quais se investiram milhões e se retiraram tostões. Esta frase foi utilizada no primeiro post aqui deste blog já lá vão quase dois anos e mantém-se actual.
Tenho andado a adiar este post, mas ontem depois de mais algumas mensagens relacionadas com o tema, decidi que finalmente era hora de falar deste tema.
Os valores ainda são muito dispares e vão desde os 70 a 80% apontados pela Gartner, penso que poucos podem duvidar da independência dos estudos da Gartner. Quando falamos de previsões, falham como todos, mas em termos de estudos. por norma são a grande referencia internacional.
Outros ainda falam de 50%, mas são sempre valores elevados que estamos a falar e mais elevados ainda se tivermos em consideração os valores monetários.
Do muito que se pode ler relacionado com o tema por esses sites e blogs, um tema é comum. A Qualidade dos Dados está sempre no top dos motivos que levam ao falhanço dos projectos de BI.
Como estou a colocar números, vamos a mais alguns, pena que já tenham alguns anos, mas continuam certamente muito actuais. Num estudo de 2005 da Business Week chegou-se à conclusão que 43% dos utilizadores dizem não ter a certeza que os dados internos estão correctos, que 77% dizem que más decisões foram tomadas devido à falta de informação e 4 em cada 5 não acredita nas estatísticas das apresentações. Um outro estudo do Data Warehousing Institute diz que a falta de qualidade nos dados dos consumidores custaram às empresas Norte Americanas $611 mil milhões de dólares por ano. No entanto quase metade das empresas inquiridas admitiram que não têm planos para incrementar a qualidade dos dados.
O incremento da qualidade dos dados não é a solução final e absoluta para o sucesso dos projectos de BI, mas ajuda significativamente para evitar o falhanço dos projectos de BI. Não querendo de forma nenhuma colocar a foice em seara alheia, diria que o principal factor para o sucesso, será o factor humano, seguido pela qualidade dos dados.
Conceito, definição de qualidade de dados (Data Quality) - parte II
11:49Tal como prometido no post anterior aqui ficam algumas soluções para minimizar os problemas de qualidade de dados. Vamos ver se consigo ab...
Tal como prometido no post anterior aqui ficam algumas soluções para minimizar os problemas de qualidade de dados.
Vamos ver se consigo abranger todos os tópicos colocados, mas tenho desde já de fazer uma ressalva. A limpeza dos dados é tudo menos um processo estético. Não se deve fazer uma limpeza de dados apenas para que fiquem "mais bonitos", até porque a isso não se deve chamar limpeza de dados, muito menos processo de qualidade de dados. Isto vem na sequência de uma mensagem que recebi e como não quero que restem duvidas acerca deste aspecto venho aqui reiterar a importância dos processos de qualidade de dados.
Vou tentar mostrar como os processos de qualidade de dados podem ajudar a melhorar, não apenas os dados em si, mas especialmente conseguir em primeira analise a melhoria imediata dos dados, de forma a rentabilizar os mesmos, podendo dessa forma ter um retorno no investimento rapidamente.
Muitos são os estudos e todos apontam para valores assustadores de custos. Vamos desde os 5% do PIB Norte-Americano, aos 10% das receitas das empresas Australianas e da Nova Zelândia para alem de muitos outros valores todos eles como foi dito... assustadores.
Em Portugal nunca foi feito nenhum estudo concreto dos valores que a falta de qualidade dos dados nas nossas empresas representam. Provavelmente porque é um problema que se vai adiando, porque os custos não são medidos, como tal não existem. Os devolvidos são colocados num armazém e nem sequer são contados e quando são contados por norma não se faz contas ao custo total desses devolvidos. Fiz uma pequena "calculadora" onde se pode calcular o custo aproximado total destes devolvidos, com valores a que tive acesso de uma campanha de um prospect. Não é nada muito elaborado nem tenta ser. É apenas para que se possa ter uma forma simples de ter uma noção dos custos.
Estes processos de qualidade de dados podem ser mais ou menos complexos dependendo muito não apenas dos problemas existentes, mas também da disponibilidade de mudança da empresa. Idealmente estes processos deveriam iniciar-se com um data profiling.
Nesta primeira fase, será feita uma representação das fontes de dados, com os nomes dos campos, a sua descrição, os máximos e mínimos. Ter uma representação dos valores, mostrando os padrões, com as frequências para que rapidamente se possam detectar erros nos dados existentes. Verificar a informação das tabelas ligadas, a existência de registos órfãos, detecção de sobreposições, verificação dos dados dos campos por entradas válidas, detecção de tabelas não normalizadas, entre outras verificações de todos os campos existentes permitindo assim que se tenha uma noção rapida e concreta de todas as dificuldades existentes. Este trabalho pode ser executado manualmente, mas com a execução destes softwares o tempo de execução é reduzido para 15% em norma.
Numa segunda fase temos os processos batch. Para alem da correcção dos problemas nos dados que tenham sido encontrados anteriormente deverão ser igualmente executadas a normalização de moradas e a procura de duplicados, que são uma ajuda fundamental para incrementar a qualidade dos dados, mas apenas servem para melhorar no imediato essa qualidade. Depois são necessários softwares que mantenham essa qualidade. Caso contrario passados uns meses já se perdeu novamente a confiança nos dados.
Essa terceira fase que deve ser colocada em implementação conjuntamente com esta segunda fase, é constituída pela implementação de softwares online que permitem que todas as interacções entre os utilizadores e a base de dados sejam feitas de forma a manter os dados limpos.
Este processo tem 3 vertentes, uma a normalização/correcção das moradas, impedindo que moradas erradas entrem no sistema, outra vertente a deduplicação/desduplicação dos registos, evitando que registos duplicados entrem em BD e por fim uma monitorização de todos os outros campos da BD, impedindo que erros já detectados voltem a ocorrer.
Todos estes processos já foram de alguma forma aqui demonstrados neste blog. Temos por exemplo o profiling, os processos batch, a parte da normalização/correcção de moradas e finalmente a monitorização.
Conceito, definição de qualidade de dados (Data Quality)
09:43São várias as procuras que aqui chegam com as keywords "definição/conceito de qualidade de dados/data quality". A qualidade de dad...
São várias as procuras que aqui chegam com as keywords "definição/conceito de qualidade de dados/data quality". A qualidade de dados não é um atributo que se consiga definir com um simples sim ou não. É composto por vários parâmetros, uns mensuráveis outros totalmente subjectivos e todos eles podem ser alterados de empresa para empresa, embora existam alguns pontos que são comuns.
Como tal, alguns dos atributos que são mais usados quando se fala de qualidade de dados, são:
- Validade e integridade, os dados existentes estão correctos?
- Acessibilidade, quando são necessários os dados estão disponíveis, ou é necessário fazer vários pedidos até se poder ter acesso aos dados?
- Cobertura, os dados cobrem todos os aspectos do negócio? Podem existir valores absolutos, mas também podem existir valores relativos.
- Pontualidade, Os dados estão sempre disponíveis ou é necessário esperar algum tempo pela sua disponibilização?
- Contexto/Precisão, os dados reproduzem com precisão o que é suposto descreverem?
- Confiabilidade, a todo o momento pode haver confiança nos dados, ou existe alturas do ano em que essa confiança é maior e outras alturas em que é menor?
- Integralidade, os dados contêm toda a informação relevante?
Relativamente a estes atributos, são válidos para praticamente todos os tipos de dados de todos os tipos de industrias, mas aqui e por uma questão de facilidade, vou "puxar a brasa à minha sardinha" e vou centrar os exemplos na área onde tenho maior experiência e maiores exemplos, as moradas e as deduplicações.
Iniciando pela Validade e integridade dos dados, as moradas são um dos casos em que o problema é precisamente esse. Em Portugal muitas empresas têm em muitos registos apenas os 4 dígitos do código postal ou com os 3 últimos dígitos apenas com 000 ou com 999, e muitas vezes com problemas ainda maiores, que já dei como exemplo casos que agora me têm surgido com alguma regularidade, é com 4 dígitos que nada têm a ver com o Endereço Postal. Tenho pelo menos dois fornecedores que neste momento têm na minha morada pessoal, algo como, 2675 LISBOA, tal como dito num post anterior, o mais certo é que, infelizmente, isto foi resultado de um processo de qualidade de dados falhado.
A Acessibilidade é um dos pontos subjectivos. Apenas no dia-a-dia das empresas se pode ter noção da existência/inexistência de problemas de acesso a dados. Embora em algumas organizações seja muito fácil detectar estes problemas. Ainda não há muito tempo estava numa repartição publica e ficou tudo parado porque a pessoa que estava a ser atendida, não sabia o seu código postal e o funcionário não tinha acesso aos códigos postais.
Cobertura é outro dos aspectos subjectivos na maior parte dos casos. Um dos exemplos mais simples é a distribuição geográfica das áreas de negócio. Existem distribuições por Distrito, outras por Concelhos, outras por código postal e é aqui que muitas vezes os problemas de cobertura podem surgir. Novos códigos postais que surgem com novos clientes, podem não estar associados a nenhuma zona.
Quanto à Pontualidade está relacionada não apenas com a acessibilidade como também com a duplicação de registos que existem. Quantas vezes já aconteceu dentro da organização ser necessário uma contagem de registos de uma zona especifica do país e não ser possível fazer essa contagem? Ou porque os dados estavam incorrectos porque essas zonas não estavam atribuídas a todos os registos, ou porque existiam muitos registos duplicados.
Contexto/Precisão, um dos exemplos é o campo da morada que em muitos casos contem outras informações fora de contexto, como o contacto (exemplo: "entregar à D. Alexandra"). Em termos de moradas é possível ter uma noção da precisão dos registos. Dependendo do software, deverá existir um campo em que está colocada a precisão da normalização efectuada e com este campo poderemos saber qual a percentagem total de dados que está normalizado. Temos em Portugal com os nossos softwares clientes a trabalharem com percentagens de qualidade acima dos 93%, o que é um valor excelente. Logicamente que o objectivo é aproximar-mo-nos mais dos 100%, embora sabendo que esse valor é impossível de atingir. Casos como moradas "Casa amarela ao lado da escola Primária" não há street file que resista a estes casos, não sendo como tal possível ter um valor de qualidade como correcto, embora seja um registo que é entregue sem problemas.
Relativamente à Confiabilidade um dos exemplos que me é mais familiar, é se houver a necessidade de enviar uma carta urgente de extrema importância para o cliente, mas não há a certeza que a morada está correcta, porque apenas tem o código postal de 4 dígitos e não se tem a certeza que a morada existe e se a carta irá chegar ao destino. O mesmo relativo aos duplicados, imaginemos um caso extremo em que existe uma queixa já em tribunal de um cliente, mas como existem dois registos em base de dados vai ser feito um contacto com o cliente para lhe oferecer o mesmo produto que motivou a queixa, mas com os dados do outro registo, sem que se tenha noção dessa queixa. Desse momento em diante esse departamento nunca mais vai ter confiança nos dados.
A Integralidade está um pouco relacionada com os pontos anteriores, em que se for necessário por exemplo aceder aos dados de um cliente até que ponto se pode ter a certeza que os dados existentes são de confiança e estão completos. Imaginemos que existe uma queixa por parte do cliente que entretanto já foi resolvida, mas ainda não foi lançada no sistema e é necessário fazer um contacto. Não havendo dados no sistema e não tendo a certeza que essa resolução foi executada com a satisfação do cliente, esse contacto vai ser um contacto sempre feito a medo.
No próximo post vou tentar mostrar como podemos minimizar ao máximo estes problemas.
A Gartner destaca 10 Mitos e Realidades criticas no Master Data Management
12:26Curiosamente depois do post de ontem chegou-me um email com um artigo que acaba por reiterar o que disse. Resumidamente o que a Gartner ve...
Curiosamente depois do post de ontem chegou-me um email com um artigo que acaba por reiterar o que disse.
Resumidamente o que a Gartner vem mostrar são os 10 mitos que o conceito de gestão de dados (MDM) que se iniciou como uma forma de manter as informações actualizadas e uniformes em toda a organização, mas que durante o tempo tem existido alguns equívocos sobre a sua necessidade e implementação. No ponto 9 fala-se precisamente de qualidade de dados.
Mito 1: O MDM é implementar uma tecnologia
Realidade: MDM é muito menos sobre tecnologia e muito mais sobre a compreensão de como os processos de negócios é suposto trabalharem.
Mito 2: MDM é um projecto
Realidade: MDM é implementado como um programa que muda para sempre a maneira como a empresa cria e gere os seus dados. No entanto, para adoptar o MDM vai exigir numerosos projectos distintos.
Mito 3: Não necessitamos de MDM, temos um Enterprise Data Warehouse (EDW)
Realidade: MDM deve / irá abranger a organização em todas as unidades de negócios e processos (incluindo os armazéns de dados operacionais e analíticos).
Mito 4: Implementação de ERP significa que não necessita de MDM
Realidade: Geralmente o Enterprise Resource Planning (ERP), significa uma estratégia empacotada de aplicações de negócio, na maioria das vezes centrada num único grande fornecedor. Está implícito no ERP, mas raramente é realizado para a organização do utilizador, um único processo e modelo de dados em toda a organização.
Mito 5: O MDM é apenas para empresas grandes e complexas
Realidade: O princípio da MDM é aplicada sempre que dois ou mais processos de negócio devem exibir ou partilhar dados. Isto significa que a maioria das organizações têm uma necessidade para a disciplina de MDM, mesmo que não lhe chamem assim, ou se implementaram uma tecnologia separada chamada MDM.
Mito 6: Os metadados são 'a' Chave para MDM
Realidade: Os metadados são essenciais para MDM (e muitos esforços fora do MDM), mas como metadados é aplicado no contexto do MDM difere por domínio, a indústria, forma de uso e estilo de implementação.
Mito 7: MDM é um esforço de TI
Realidade: MDM deve ser conduzido pela empresa, um caso de negócio, e apoiados / habilitados por TI.
Mito 8: MDM é simplesmente muito grande para fazer
Realidade: MDM pode ser e está sendo adoptado por um domínio ou uma província de cada vez, e um caso de uso de cada vez.
Mito 9: MDM é separado da Data Governance e Data Quality (Qualidade de dados)
Realidade: MDM inclui a gestão (dos dados) e a qualidade (de dados) - MDM não pode ser estabelecida sem eles.
Mito 10: Não importa qual fornecedor de tecnologia utilizado - They All 'Do' MDM
Realidade: MDM é complexa, raramente duas organizações têm programas de MDM parecidos. Vendedor de MDM tem a capacidade, de focar na especialização em domínio de dados, na indústria, forma de uso, organização e estilo de execução. Por conseguinte, a seleção do fornecedor é crítica em organizações que buscam encontrar o parceiro certo.
Quando os processos de qualidade de dados estragam os dados
12:20Nestes últimos dias tenho recebido de algumas de empresas, das quais sou cliente pedidos de actualização de morada e cartas com moradas que ...
Nestes últimos dias tenho recebido de algumas de empresas, das quais sou cliente pedidos de actualização de morada e cartas com moradas que me fazem aumentar algumas preocupações.
Dos exemplos que tenho comigo, são 2 cartas, que só não foram devolvidas por "carolice" do carteiro, e uma outra empresa que me pede para reenviar os dados da morada, sinal que ou os perderam, que acho estranho com os processos de backup existentes e que as grandes empresas por norma têm, ou depois de um processo de qualidade de dados, com um normalização /tratamento /higienização de moradas, como lhe queiram chamar, foram adulterados de tal forma que já não é possível que as cartas cheguem ao destino.
Isto preocupa-me duplamente porque se por um lado existem empresas que estão a tratar os meus dados desta forma, a outra preocupação é a imagem que estes falsos processos de normalização /tratamento /higienização vão deixar nas empresas que os fizeram. Isto porque alguns destes até são executados por empresas bem cotadas na nossa "praça".
Como fiz a adaptação de um software para Portugal, sei quais são as principais dificuldades com que nos fomos deparando ao longo desse processo e que vou tentar aqui resumir um pouco para que se possa ter noção do porquê da existência destes problemas. Já lá vão mais de 10 anos mas até aqui pouco mudou. O que existia eram bases de dados de moradas com o histórico de erros. No que consiste esta técnica? Cada vez que se encontra uma rua escrita de forma diferente, essa forma é anexada ao histórico e na próxima vez que surja é corrigida automaticamente. Logicamente que isto é um processo muito complicado e muito falível, como tal não seria uma solução para o problema, mas um remendo. Existia a hipótese de desenvolver internamente uma ferramenta, mas se a roda já foi inventada... Como solução existia a colocação de ferramentas internacionais, mas aí chegados outros problemas surgiram:
- A primeira dificuldade encontrada aquando da busca de um software no mercado internacional foi a disponibilidade de adaptação à realidade Portuguesa. Se por um lado temos especificidades que não se encontram em mais nenhum país da Europa e algumas mesmo do mundo, por outro temos uma dimensão de Portugal que nem sempre permite às grandes multinacionais investir uma vez que podem não ter grandes possibilidades de retorno.
- A falta de informação existente em Portugal relativa a esta matéria. Não existe um organismo ou instituição responsável pelas moradas em Portugal. Assistimos a "crimes" como a numeração que foi colocada na zona da Expo, que não se compreende como é possível num país europeu se permite que tal exista na sua capital. Somos talvez o unico país na Europa que tem na mesma localidade a Rua, Travessa e o Largo da Liberdade entre muitos outros.
Por tudo isto e muito mais, o que recomendo é que antes de investirem em processos de normalização/ tratamento / higienização de moradas, é que peçam um teste a um numero razoável de dados, numero que apenas possa tratado de forma automatizada.
Desta forma, consegue-se separar o trigo do joio, uma vez que já existem algumas empresas a apregoar a normalização /tratamento /higienização de moradas, mas que tem por base pseudo-ferramentas desenvolvida em cima do joelho e que são testadas com os dados dos clientes, com todos os problemas que isso acarreta.
Para finalizar tenho ainda que esclarecer a diferença entre vários conceitos que andam misturados neste tema.
Normalização de dados: A normalização de dados é uma definição um pouco subjectiva. Se por um lado poderemos considerar a Normalização de dados como todo o processo qualidade de dados, existe ainda quem pense que a normalização de dados é colocar todas as Ruas como R., todas as Avenidas como Av. etc.
A normalização /tratamento /higienização de moradas é mais que isso, este processo até acaba por ser o processo mais simples. O mais complicado é a parte da comparação/correcção da morada com o ficheiro de arruamentos de referencia. Aqui sim existem inúmeros problemas que podem surgir. Como exemplo, ruas Alfredo da Costa em Sintra existem 3 ruas diferentes, se não existir um software preparado para estas situações, o mais certo é haver problemas no final.
Como tal, volto a alertar para o teste dos softwares antes de colocarem os dados dos Vossos clientes em risco. São poucas as empresas que têm confiança no seu software, de forma a colocarem no site um demo do mesmo.
O CRM/BI/ERP não dá os resultados esperados. Qual a razão?
12:21Podem existir muitas razões, mas em grande parte dos casos a resposta é simples. Falta de qualidade de dados! Como se pode ter bons resul...
Podem existir muitas razões, mas em grande parte dos casos a resposta é simples. Falta de qualidade de dados!
Como se pode ter bons resultados se os dados, que são os alicerces de toda a estrutura não estão consolidados, têm erros, existe falta de dados essenciais e muitos outros problemas?
A maioria das empresas acha que os seus dados estão excelentes, porque os devolvidos não são contabilizados, são apenas "despejados" para uma arrecadação da empresa, ou chegam aos destinatários apenas porque o carteiro já conhece o nome da pessoa. Mas, estamos a assistir a uma renovação dos carteiros e isso vai levar à existência de mais devolvidos. mais uma vez como voltam para a tal arrecadação, continua a não existir o problema.
Os custos de uma devolução não podem ser contabilizados, porque para alem dos custos dos portes, do envelope, da carta ou peça publicitaria existente no envelope, existem depois outros que são impossíveis de contabilizar. Por exemplo o custo da imagem. Um cliente que não recebe uma comunicação importante, ou que recebe um folheto publicitário várias vezes, pode ser um cliente perdido.
Alguns dos problemas que se encontram muitas vezes e que impedem os sistemas de ter bons resultados são:
- o mesmo cliente existe em vários registos porque não existe um processo fiável de verificação de duplicados, fazendo com que um excelente cliente, seja considerado apenas várias vezes como clientes medianos.
- os dados da morada do cliente não são normalizados/ verificados/ corrigidos, fazendo com que por exemplo não seja atribuído à respectiva área geográfica. Em muitos casos apenas existe o campo do Endereço Postal, não existindo também o campo Localidade, que em Portugal pode ser o suficiente para a devolução de correspondência.
- Como os dados não estão correctos, não é possível geo-referenciar. A georeferenciação é hoje em dia uma ferramenta muito importante para quase todos os negócios.
- existem erros em dados fulcrais por falta de um sistema de monitorização, que impeça esses erros de continuarem no sistema, muitas vezes ad eternum.
- Dados dos vários sistemas não são cruzados porque os sistemas usam ID's diferentes para o mesmo cliente e como tal falta informação no sistema principal para que se possa ter uma melhor noção da situação real.
Tudo isto pode ser ser evitado, tomando alguns cuidados.
- Existir apenas um responsável pelos dados da empresa. A noção que os dados são responsabilidade de todos é sem duvida teoricamente uma boa politica, mas na realidade acaba por desresponsabilizar todos, tendo um efeito contrario na qualidade dos dados.
- Fazer um profiling dos dados de forma a saber quais os erros que existem em BD. Desta forma é possível não apenas corrigir os erros existentes, mas também tomar medidas para prevenir que voltem a ocorrer.
- Fazer uma normalização/ correcção/ verificação dos dados e uma deduplicação de forma a consolidar os dados em modo batch. Desta forma os dados ficam com qualidade.
- Ter a noção que a perfeição em qualidade de dados é impossível de alcançar. Todos os dias trabalhamos para nos aproximar, mas todos os dias há novos dados, dados alterados. O problema mais uma vez é o pensar que os dados estão correctos. Isso nunca acontece. Há formas de minimizar os erros, umas melhores (online), outras com altos e baixos (batch periódico).
- Colocação de um software de monitorização dos dados, para que possam existir alarmes quando um erro está a ser colocado no sistema e não traga problemas posteriormente.
Qualidade de dados BI: Vantagens
17:07Lucre com todas as Soluções de Qualidade de dados da Uniserv para Business Intelligence, incluindo: Excelente qualidde de dados no Busine...
Lucre com todas as Soluções de Qualidade de dados da Uniserv para Business Intelligence, incluindo:
- Excelente qualidde de dados no Business Data Warehouse através da análise dos dados antes da transferência inicial de fontes de dados existentes (Perfil de Dados) e através de um acompanhamento regular (dados de controlo de qualidade)
- Revisão confiável dos dados (Data Cleansing) de acordo com regras definidas e combinando-a contra os dados de referência (por exemplo, endereço, dados geográficos, o índice de número de telefone)
- A consolidação dos dados do cliente, mesmo se não houver um número de referência estável, ou a formação de households, mesmo que esta informação não seja mantida nos sistemas operacionais.
- Ganhar novas dimensões de análise a de avaliação de dados, aumentando os dados do seu cliente, por exemplo com referências geográficas, os indicadores de antecedentes, Códigos do sector, etc e, portanto, informações completamente novas no que diz respeito aos "espaços vazios" no seu mapa de vendas e marketing ou as potencialidades do segmento de clientes individuais
- decisões de negócio e maior capacidade de reagir às mudanças do mercado e novas exigências do sector específico, industrial ou comercial, por meio da elaboração de uma informação correcta, completa e up-to-date e a sua disponibilidade para a gestão e pessoal.
- Alta qualidade de dados como base para o uso eficiente de todos os formatos de análise e visualização da solução de BI, como painéis, cockpits, OLAP e avisos
- De planeamento empresarial mais rápido, mais flexível através de uma visão actual, confiável de todas as áreas da empresa
- previsão mais confiável e orientada para o futuro através do uso de soluções adicionais para aumentar o desempenho da empresa, como Corporate Performance Management
- gestão eficaz dos riscos e cumprimento de confiança com os requisitos legais e regulamentos internos (governamentais, de risco e conformidade) por meio de relatórios precisos, completos e transparentes
- Redução de custos através da protecção automática da qualidade dos dados e redução de custos para a fusão e manutenção dos stocks de dados
Qualidade de dados BI: Soluções
12:26Soluções de Qualidade dos dados da Uniserv para Business Intelligence - elevada qualidade dos dados para uma melhor tomada de decisão Unis...
Soluções de Qualidade dos dados da Uniserv para Business Intelligence - elevada qualidade dos dados para uma melhor tomada de decisão
Uniserv Data Quality Solutions ajuda a tomar as suas decisões de negócio com base em dados fiáveis e actualizados, minimizar os riscos e projectar a gestão operacional e estratégica de negócios de forma mais flexível e mais rapidamente.
Data Quality Explorer para BI: O Explorer permite que determine o estado real dos seus dados antes da transferência inicial para o Business Data Warehouse.
Data Quality Batch Suite para BI: A suite completa de produtos para a transferência batch totalmente automática a partir de fontes de dados diferentes, a transformação do conteúdo do campo e as estruturas de registo, e da verificação e limpeza de dados durante a transferência para o Business Data Warehouse.
Data Quality Real-Time Services para BI: Para a protecção imediata da sua qualidade de dados durante a transferência de dados dos sistemas operacionais para o data warehouse em tempo real.
Data Quality Monitor para BI: Este monitoriza a qualidade dos dados de acordo com regras de negócio definidas. Alerta que se os valores limite especificados são ultrapassados.
A nossa contribuição para a eficiência do Business Intelligence:
- Profiling de novas fontes de dados, antes da transferência inicial dos dados para o Business Data Warehouse. A transferência dos dados de uma grande variedade de flat files e bases de dados, onde a conversão do campo ou formato de gravação é necessária. Reconhecimento automático de duplicados e de agrupamentos de dados de nome e endereço, a fim de fundir, por exemplo dados do cliente no grupo de empresas, mesmo se as delegações funcionam com os dados não sincronizados (sistemas de numeração diferente do cliente), ou uma visão única da família (household) está a ser formada no Data Warehouse, mas esta informação não é fornecida pelos sistemas operativos.
- A validação de dados, melhorando as funções e a consolidação, o acompanhamento dos valores-limite para as regras de negócio especificadas completando a tool box de qualidade dos dados para BDW e BI. O DQ Explorer, DQ Batch Suite, DQ Real-Time Services e o DQ Monitor são a nossa contribuição para o sucesso do uso dos seus sistemas de Business Data Warehouse e BI. Para que informação confiável seja obtida a partir dos dados.
Proximo post: Qualidade de dados BI: Vantagens
Qualidade de dados BI: Desafios
10:27Somente dados de qualidade tornam um Business Data Warehouse (BDW) e Business Intelligence (BI) numa vantagem competitiva real Os tomadore...
Somente dados de qualidade tornam um Business Data Warehouse (BDW) e Business Intelligence (BI) numa vantagem competitiva real
Os tomadores de decisão na gestão, marketing, vendas, finanças, serviços de controle e outros exigem dados e informações actualizados e completos, a fim de serem capazes de monitorizar e analisar as operações de negócios, como base para decisões operacionais e estratégicas bem orientadas. O pré-requisito para isto é uma empresa de escala Business Data Warehouse (BDW), que combina dados e operações de todos os sistemas de TI. Além disso, outras soluções para melhorar o desempenho empresarial (Corporate Performance Management) e para o cumprimento dos regulamentos legais e requisitos internos podem ser usados nesta base (Business Intelligence).
Os dados são analisados ad hoc com o pressionar de um botão ou por um sistema automatizado e disponibilizado para os utilizadores finais e tomadores de decisão numa variedade de tipos de avaliação, tal como os painéis de gestão, relatórios e análises OLAP. Para que isso seja possível, os dados devem estar disponíveis no Business Data Warehouse livres de erros e duplicados, coerentes e de forma padronizada. Em outras palavras: a eficácia de qualquer solução de Business Intelligence depende da qualidade dos dados. Mas muitas vezes esse é precisamente o ponto fraco.
Desafios
Dados incorrectos, desactualizados ou com duplicados - a base para más decisões
Dados incorrectos, desactualizados ou com duplicados em diferentes sistemas de TI é o maior obstáculo para uma análise global, as avaliações confiáveis e soluções relacionados BI como o CPM. Isso também pode significar que você não identifique oportunidades de negócio em tempo útil, uma vez que o comportamento de compra do cliente é analisado de forma incorrecta. Só pode identificar e avaliar os riscos de maneira inadequada e coloca pressão sobre a gestão de risco, já que seus números de vendas estão desactualizados. Também é possível estar a ignorar os pontos fracos de sua empresa, por exemplo, estrangulamento material ou de fornecimento, até que seja tarde demais. Má qualidade dos dados é responsável por isso - com consequências possivelmente fatais, que podem variar de uma queda na receita e perda de quota de mercado para uma ameaça crescente para a competitividade.
Silos Business Intelligence evitam análises de toda a empresa
As soluções de BI ainda são usadas pelos departamentos com seus próprios data marts ou Data Warehouses em muitas empresas e a qualidade dos dados pode, portanto, variar. O resultado: os dados são armazenados de forma redundante, ou em formatos diferentes. E enquanto os dados podem estar correctos numa base de dados, podem estar incorrectos ou desactualizados em outro conjunto de dados. Análises confiáveis em toda a empresa só são possíveis aqui com uma quantidade considerável de correcção manual. Sem mencionar os custos adicionais e a redução da capacidade de reagir aos resultados incertos da análise.
Potenciais do BI não são usados por haver possibilidades limitadas para avaliação
Quanto melhor a qualidade dos dados no Data Warehouse, mais opções de avaliação são abertas para os decisores e outros utilizadores das soluções de BI. Por exemplo, os gestores devem ser capazes de definir níveis individuais de detalhe nos seus painéis. Funcionários do departamento de finanças tem que ser capaz de elaborar relatórios próprios específicos. Os utilizadores devem ser capazes de desenvolver análises de diferentes perspectivas por meio de análises OLAP, por exemplo, números de vendas de acordo com região, grupo de produtos, o volume de vendas, etc, e os indicadores de alerta com base em regras definidas, por exemplo, pouco stock de produtos, deve ser garantido que chega ao pessoal respectivo.
Falta de confiança leva a decisões baseadas na intuição
Se as informações e analises fornecidas levarem várias vezes a más decisões devido à fraca qualidade dos dados, a confiança nas capacidades do sistema de BI fica reduzida. Isto pode significar que as funções de Business Intelligence não são mais utilizadas e são substituídas por uma avaliação subjectiva. Mais más decisões são apenas uma questão de tempo.
Má qualidade dos dados coloca as exigências de conformidade em risco
Inadequada qualidade dos dados coloca o rigor e fiabilidade das avaliações BI em risco. Isto pode ter consequências jurídicas e podem implicar custos elevados para a empresa.
Limpeza de dados manual como um travão sobre as decisões e um gerador de custos
Se dados urgentes não estão completos, sem erros e consistentes, têm que ser compilados, analisados e preparados manualmente. Isto leva a atrasos desnecessários que não deveria ter de pagar, especialmente no caso de decisões de negócio de tempo crítico. E isso custa dinheiro e recursos que podem ser usados muito melhor para outros projectos importantes.
Amanhã as soluções e as vantagens dos nossos sistemas.
Qualidade de dados em e-commerce: Vantagens
09:47Lucre com todas Soluções de Qualidade de Dados da Uniserv para e-commerce e portais da Internet, incluindo: Óptima qualidade dos dados a...
Lucre com todas Soluções de Qualidade de Dados da Uniserv para e-commerce e portais da Internet, incluindo:
- Óptima qualidade dos dados através do acompanhamento permanente na criação inicial de dados e alterações (Data Quality Firewall)
- Revisão confiável dos dados (Data Cleansing) de acordo com as regras definidas e combinando-a contra os dados de referência (por exemplo, endereço, dados geográficos, o índice de número de telefone) no processamento em batch ou em tempo real.
- Entregas rápidas e confiáveis de bens com os clientes satisfeitos, criando laços fortes.
- Baixa os custos de postagem para correspondência em massa por meio de dados de alta qualidade endereço
- Extensas análises do comportamento do consumidor para o uso eficiente dos potenciais upselling e cross-selling numa base up-to-date, corrigida e livre de clientes duplicados e de dados de transacções fiável.
- Fluxo de caixa com receitas de confiança, planeável e uma minimização dos riscos de atrasos nos pagamentos ou não pagamentos por meio de dados precisos de pedido e de clientes
Qualidade de dados em e-commerce: Soluções
12:48Máxima qualidade dos dados para transacções suaves As Soluções de Qualidade de Dados da Uniserv ajudam a operar as suas aplicações de comé...
Máxima qualidade dos dados para transacções suaves
As Soluções de Qualidade de Dados da Uniserv ajudam a operar as suas aplicações de comércio electrónico e compras online com sucesso. Dados correctos, actualizados e consistentes a partir de uma entrada de dados confiável que garanta as entregas de mercadorias, rápido fluxo de caixa, receitas planeáveis e clientes satisfeitos.
Data Quality Batch Suite para CRM: A suite completa de produtos para a verificação em batch totalmente automatizadas e limpeza de dados de clientes em aplicações de comércio electrónico.
Data Quality Real-Time Services para CRM: Para protecção imediata da Qualidade dos seus Dados na entrada de dados nos sistemas on-line pelos seus clientes.
A nossa contribuição para aplicações bem sucedidas de e-Commerce e portais Web: Pesquisa rápida, tolerante ao erro, o reconhecimento automático de duplicados e de agrupamentos de dados por nome e morada, validação de dados e aumento ou sincronização com outros sistemas são apenas algumas das funções do DQ Batch Suite e do DQ Real-Time Services - a nossa contribuição para o sucesso do uso das suas aplicações de e-commerce.
Qualidade de dados em e-commerce: Desafios
16:57Qualidade de Dados no e-commerce mantém o fluxo de caixa em movimento As aplicações de negócios em e-commerce ou aplicações Web portal tê...
Qualidade de Dados no e-commerce mantém o fluxo de caixa em movimento
As aplicações de negócios em e-commerce ou aplicações Web portal têm uma grande diferença de outras aplicações de negócios: a operação e entrada de dados são realizadas directamente pelo cliente ou potencial cliente e não por pessoal treinado. Erros de entrada - intencionais ou acidentais - são uma ocorrência diária. Esses erros afectam a qualidade dos dados e podem ter um impacto significativo nas transacções rápidas, sem sobressaltos e num fluxo de caixa confiável.
DESAFIOS
Endereços incorrectos ou não entregues - os custos sobem, as vendas caem
Existem muitas razões para a existência de endereços incorrectos ou não entregues. Todos têm uma coisa em comum: custos adicionais desnecessários e perda de vendas para as empresas de catálogos por Internet e os operadores das lojas online com entregas pelos correios.
- Evitar erros de digitação que evitem que a mercadoria chegue ao cliente fazendo com que haja elevados custos de pesquisa adicional. Descontos nos portes postais podem ser reduzidos ou cancelados pelo transportador porque os mails em massa incluem um grande número de endereços incorrectos.
- Erros de entrada de dados causados por máscaras de entrada incertas ou não disponíveis que tornam mais difícil a entrada correcta ou forneçam dados de forma incorrecta - este é um problema particular em aplicações internacionais, com estruturas de endereço diferente. Estes têm de ser limpos manualmente com um alto investimento de tempo e custos operacionais. A satisfação do cliente e retenção de clientes também são afectados.
- Entradas incorrectas deliberadamente (endereços fictícios) iniciando processos de expedição, que custam dinheiro e que tem de ser revertido com grande esforço.
- A mercadoria não pode ser entregue como resultado de endereços antigos que não são actualizados pelo cliente, gerando altos custos para devolução e reenvio.
Duplicados - custos adicionais desnecessários, não utilizando up / cross-selling
Vários registos de dados (duplicados) também são problemáticos:
- Logons aos portais da Web são executados sem querer várias vezes e levam à duplicação de dados.
- Criação intencional de novas contas, por exemplo, para comentários indesejados ou ilegais em fóruns, auto-promoção, SPAM ou pedidos que são regularmente não aceites ou não pagos.
Eles não só causam custos para a limpeza dos dados, mas também falsificam a visão única do cliente. Análises por exemplo, em aplicações de CRM são executadas mais dificilmente, e potenciais upsellings e cross-sellings não podem ser usadas de forma rentável.
CRM e qualidade de dados: Soluções e Vantagens
15:48SOLUÇÕES Uniserv Data Quality Soluções para CRM - modular, eficaz, rentável O Data Quality Solutions modular da Uniserv ajudá-lo-à a tra...
Uniserv Data Quality Soluções para CRM - modular, eficaz, rentável
O Data Quality Solutions modular da Uniserv ajudá-lo-à a transformar o Customer Relationship Management num factor de sucesso para a sua empresa com dados correctos, completos e livres de duplicados em vez de ser um causador de custos.
As soluções da Uniserv aumentam o sucesso do CRM analítico, operacional, de comunicação e colaboração. Soluções especiais B2B e B2C asseguram a aplicação eficaz das suas necessidades específicas. E mesmo se você usar um eXtended Relationship Management System (xRM) em vez de um sistema convencional de CRM, as soluções mensuráveis da Uniserv oferecem-lhe um valor acrescentado para os seus dados e processos.
Data Quality Batch Suite para CRM: A suite completa de produtos para a verificação em batch totalmente automatizadas e limpeza de dados de clientes em sistemas de relacionamento com o cliente.
Data Quality Real-Time Services para CRM: Para obter qualidade de dados dos seus registos directamente na entrada dos dados e na alteração de dados de clientes em sistemas de CRM.
A nossa contribuição para o seu sucesso no CRM: Pesquisa rápida, tolerante ao erro, o reconhecimento automático de duplicados e de agrupamentos de dados por nome e morada, validação de dados e aumento ou sincronização com outros sistemas são apenas algumas das funções do DQ Batch Suite e do DQ Real-Time Services - a nossa contribuição para o sucesso do uso do seu sistema de CRM .
VANTAGENS
Lucre com todas as Soluções de Qualidade de dados para CRM da Uniserv, incluindo:
- Óptima qualidade dos dados no sistema de CRM através da análise dos dados durante a transferência de fontes de dados existentes e através do acompanhamento permanente de novas entradas e mudanças (Data Quality Firewall)
- Revisão dos dados (limpeza de dados) de acordo com regras definidas e combinando - a contra os dados de referência (por exemplo, endereço, ...) no processamento em batch ou em tempo real
- Ambiente "Anti - envelhecimento" para os dados do seu cliente / prospect através da integração automática de informações sobre as mudanças de endereço ou de empresa renomeando tanto no B2B e B2C
- A geração automática de uma visão da família (Household) no mercado de B2C
- Os clientes satisfeitos e laços mais fortes com o cliente através de serviço de alta qualidade com base em informações de confiança de clientes.
- Optimizando vendas e planeamento de marketing e as decisões empresariais através informações de up- to-date e a elaboração de relatórios precisos.
- Extensas análises do comportamento do consumidor para o uso potencial e eficaz de upselling e cross-selling
- Campanhas de marketing eficientes e eficazes, através de selecção de endereços orientados ao objectivo e correctos, dados completos para campanhas de mailing.