// API callback
related_results_labels_thumbs({"version":"1.0","encoding":"UTF-8","feed":{"xmlns":"http://www.w3.org/2005/Atom","xmlns$openSearch":"http://a9.com/-/spec/opensearchrss/1.0/","xmlns$blogger":"http://schemas.google.com/blogger/2008","xmlns$georss":"http://www.georss.org/georss","xmlns$gd":"http://schemas.google.com/g/2005","xmlns$thr":"http://purl.org/syndication/thread/1.0","id":{"$t":"tag:blogger.com,1999:blog-4919100574129221590"},"updated":{"$t":"2019-01-03T10:58:21.193+00:00"},"category":[{"term":"qualidade de dados"},{"term":"normalização de dados"},{"term":"limpeza de dados"},{"term":"data quality"},{"term":"data cleansing"},{"term":"deduplicação"},{"term":"desduplicação"},{"term":"validação de dados"},{"term":"tratamento de dados"},{"term":"data validation"},{"term":"duplicados"},{"term":"higienização de dados"},{"term":"Business Intelligence"},{"term":"integração de dados"},{"term":"BI"},{"term":"CRM"},{"term":"código postal"},{"term":"Customer Data Integration"},{"term":"MDM"},{"term":"dataquality"},{"term":"qualidade dados"},{"term":"Master Data Management"},{"term":"anti-terrorismo"},{"term":"SAAS"},{"term":"black list"},{"term":"ETL"},{"term":"Salesforce.com"},{"term":"Software as a Service"},{"term":"normalização"},{"term":"B2B"},{"term":"B2C"},{"term":"data profiling"},{"term":"update.seven"},{"term":"CDI"},{"term":"Microsoft Dynamics CRM"},{"term":"Oracle Siebel"},{"term":"ferramentas de qualidade"},{"term":"Certificação SAP"},{"term":"Migração de dados"},{"term":"complementarização"},{"term":"B2H"},{"term":"CPM"},{"term":"Cloud"},{"term":"Data Migration"},{"term":"ERP"},{"term":"SAP"},{"term":"dados"},{"term":"dq"},{"term":"georeferenciação"},{"term":"Batch"},{"term":"Business Data Warehouse"},{"term":"auditoria da qualidade"},{"term":"Database Marketing"},{"term":"Software como Serviço"},{"term":"Tratamento em massa"},{"term":"geomarketing"},{"term":"BPM"},{"term":"Business Suite"},{"term":"Corporate Performance Management"},{"term":"Service Bureau"},{"term":"Single View of Customer"},{"term":"explorador"},{"term":"explorer"},{"term":"BDW"},{"term":"KPI"},{"term":"SAP R3"},{"term":"e-commerce"},{"term":"qualidade"},{"term":"ASP"},{"term":"DB \/ 2"},{"term":"Data Warehousing"},{"term":"GPS"},{"term":"Gartner"},{"term":"Real Time"},{"term":"Single View of Data"},{"term":"big data"},{"term":"web services"},{"term":"ABAP (SAP)"},{"term":"ADABAS"},{"term":"AIX"},{"term":"Assembler"},{"term":"BTA"},{"term":"C"},{"term":"C + +"},{"term":"CDQ"},{"term":"CICS"},{"term":"CMDM"},{"term":"COM"},{"term":"CORBA"},{"term":"Cobol"},{"term":"EDW"},{"term":"Forrester"},{"term":"HP-UX"},{"term":"Household"},{"term":"IBM z \/ OS"},{"term":"IMS"},{"term":"IMS DB"},{"term":"Java"},{"term":"Linux"},{"term":"META Group"},{"term":"MGM"},{"term":"MVS"},{"term":"MySAP"},{"term":"Nuvem"},{"term":"Online"},{"term":"Oracle"},{"term":"PHP"},{"term":"PL \/ 1"},{"term":"PL \/ SQL"},{"term":"Perl"},{"term":"RDM"},{"term":"ROI"},{"term":"RPG"},{"term":"SQL Server"},{"term":"Siebel"},{"term":"Siemens BS2000"},{"term":"Sun Solaris"},{"term":"Talend"},{"term":"UDS"},{"term":"UTM"},{"term":"VSE"},{"term":"Visual Basic"},{"term":"change management"},{"term":"data governance"},{"term":"data quality monitoring"},{"term":"hadoop"},{"term":"i5\/OS"},{"term":"member get member"},{"term":"xRM"},{"term":"z \/ OS"}],"title":{"type":"text","$t":"Qualidade de Dados \/ Data Quality"},"subtitle":{"type":"html","$t":""},"link":[{"rel":"http://schemas.google.com/g/2005#feed","type":"application/atom+xml","href":"http:\/\/qualidadededados.blogspot.com\/feeds\/posts\/default"},{"rel":"self","type":"application/atom+xml","href":"http:\/\/www.blogger.com\/feeds\/4919100574129221590\/posts\/default\/-\/dq?alt=json-in-script\u0026max-results=6"},{"rel":"alternate","type":"text/html","href":"http:\/\/qualidadededados.blogspot.com\/search\/label\/dq"},{"rel":"hub","href":"http://pubsubhubbub.appspot.com/"},{"rel":"next","type":"application/atom+xml","href":"http:\/\/www.blogger.com\/feeds\/4919100574129221590\/posts\/default\/-\/dq\/-\/dq?alt=json-in-script\u0026start-index=7\u0026max-results=6"}],"author":[{"name":{"$t":"Osvaldo Godinho"},"uri":{"$t":"http:\/\/www.blogger.com\/profile\/13531838994563422670"},"email":{"$t":"noreply@blogger.com"},"gd$image":{"rel":"http://schemas.google.com/g/2005#thumbnail","width":"16","height":"16","src":"https:\/\/img1.blogblog.com\/img\/b16-rounded.gif"}}],"generator":{"version":"7.00","uri":"http://www.blogger.com","$t":"Blogger"},"openSearch$totalResults":{"$t":"7"},"openSearch$startIndex":{"$t":"1"},"openSearch$itemsPerPage":{"$t":"6"},"entry":[{"id":{"$t":"tag:blogger.com,1999:blog-4919100574129221590.post-211787825972528993"},"published":{"$t":"2010-06-16T11:29:00.000+01:00"},"updated":{"$t":"2017-02-10T15:42:27.108+00:00"},"category":[{"scheme":"http://www.blogger.com/atom/ns#","term":"código postal"},{"scheme":"http://www.blogger.com/atom/ns#","term":"data quality"},{"scheme":"http://www.blogger.com/atom/ns#","term":"data validation"},{"scheme":"http://www.blogger.com/atom/ns#","term":"deduplicação"},{"scheme":"http://www.blogger.com/atom/ns#","term":"desduplicação"},{"scheme":"http://www.blogger.com/atom/ns#","term":"dq"},{"scheme":"http://www.blogger.com/atom/ns#","term":"duplicados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"ETL"},{"scheme":"http://www.blogger.com/atom/ns#","term":"limpeza de dados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"normalização de dados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"qualidade de dados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"tratamento de dados"}],"title":{"type":"text","$t":"Ferramentas de qualidade de dados em Portugal"},"content":{"type":"html","$t":"\u003Cp\u003EExistem algumas ferramentas de qualidade de dados que dizem funcionar em Portugal. Algumas dizem ser muito avançadas por terem um dicionário de sinónimos com muitos milhões de entradas. Outras dizem que têm ferramentas internacionais que funcionam para Portugal, apenas necessitam de pequenos ajustamentos consoante a BD a tratar. Mas na realidade quais a diferenças entre as ferramentas existentes no mercado Português?\u003C\/p\u003E \u003Cp\u003EVamos por partes, as que referi em primeiro lugar, são ferramentas que facilmente se percebe as suas limitações. Todos sabemos que a quantidade de erros que é possível dar é totalmente ilimitada. Ou seja por cada BD que seja tratada, certamente que novas \"versões\" das diferentes ruas vão ser criadas. Isto apenas para referir as já existentes. Porque se houver um trabalho de actualização com novas ruas e alterações de ruas, todo um histórico de \"versões\" de erros tem de ser criado. Nunca se conseguem grandes resultados com estas ferramentas, porque simplesmente as actualizações são diárias e virtualmente infinitas.\u003C\/p\u003E \u003Cp\u003EDepois existem ainda outras de origem normalmente Americana ou Anglo-Saxónica e às quais foi \"anexado\" um street file (ficheiro com os arruamentos) e que supostamente, trabalham sem problemas. Aqui temos um outro problema, que são as especificidades de um país como Portugal. Nestes mercados não existem a Rua, Travessa, Largo e Beco da Liberdade, tudo na mesma cidade. Logo aqui em muitos casos existem problemas na identificação\/normalização das ruas.\u003C\/p\u003E \u003Cp\u003EConheço este problema muito bem porque há pouco mais de 10 anos, andei a fazer um estudo para a \"importação\" de ferramentas disponíveis no mercado internacional e foram estes alguns dos problemas com que me deparei e hoje mais de 10 anos depois, continuam actuais como nesse tempo.\u003C\/p\u003E \u003Cp\u003EEntão no final qual a solução?\u003C\/p\u003E \u003Cp\u003EA solução é um misto das duas, ou seja uma ferramenta que consiga \"gerar\" automaticamente esse histórico de erros, contando com mais de uma dezena de algoritmos internos, entre os quais o fuzzy logic, Patricia structure, \u003Cem\u003ELevenshtein\u003C\/em\u003E distance e muitos outros, mas que por outro lado esteja adaptado ao mercado Português. Essa adaptação demorou quase dois anos, mas os resultados finais que conseguimos obter falam por si.\u003C\/p\u003E \u003Cp\u003EA confiança neste software é tão grande que o disponibilizamos na internet para que se possa testar. Mais nenhum outro está disponível desta forma e isso diz um pouco da confiança que se tem nos produtos. Para comprovar o que digo basta fazer um teste \u003Ca href=\"http:\/\/datalab.pt\/index.php\/demos2\" target=\"_blank\" title=\"Qualidade de dados\"\u003Eaqui\u003C\/a\u003E, onde podem testar com uma morada com erros e por exemplo apenas com o código postal de 4 dígitos.\u003C\/p\u003E"},"link":[{"rel":"replies","type":"application/atom+xml","href":"http:\/\/qualidadededados.blogspot.com\/feeds\/211787825972528993\/comments\/default","title":"Enviar comentários"},{"rel":"replies","type":"text/html","href":"http:\/\/qualidadededados.blogspot.com\/2010\/06\/ferramentas-de-qualidade-de-dados-em.html#comment-form","title":"0 Comentários"},{"rel":"edit","type":"application/atom+xml","href":"http:\/\/www.blogger.com\/feeds\/4919100574129221590\/posts\/default\/211787825972528993"},{"rel":"self","type":"application/atom+xml","href":"http:\/\/www.blogger.com\/feeds\/4919100574129221590\/posts\/default\/211787825972528993"},{"rel":"alternate","type":"text/html","href":"http:\/\/qualidadededados.blogspot.com\/2010\/06\/ferramentas-de-qualidade-de-dados-em.html","title":"Ferramentas de qualidade de dados em Portugal"}],"author":[{"name":{"$t":"Osvaldo Godinho"},"uri":{"$t":"http:\/\/www.blogger.com\/profile\/13531838994563422670"},"email":{"$t":"noreply@blogger.com"},"gd$image":{"rel":"http://schemas.google.com/g/2005#thumbnail","width":"16","height":"16","src":"https:\/\/img1.blogblog.com\/img\/b16-rounded.gif"}}],"thr$total":{"$t":"0"}},{"id":{"$t":"tag:blogger.com,1999:blog-4919100574129221590.post-1175034862694411159"},"published":{"$t":"2010-02-03T15:19:00.001+00:00"},"updated":{"$t":"2017-02-10T15:51:26.790+00:00"},"category":[{"scheme":"http://www.blogger.com/atom/ns#","term":"B2B"},{"scheme":"http://www.blogger.com/atom/ns#","term":"B2C"},{"scheme":"http://www.blogger.com/atom/ns#","term":"B2H"},{"scheme":"http://www.blogger.com/atom/ns#","term":"data quality"},{"scheme":"http://www.blogger.com/atom/ns#","term":"dataquality"},{"scheme":"http://www.blogger.com/atom/ns#","term":"deduplicação"},{"scheme":"http://www.blogger.com/atom/ns#","term":"desduplicação"},{"scheme":"http://www.blogger.com/atom/ns#","term":"dq"},{"scheme":"http://www.blogger.com/atom/ns#","term":"duplicados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"qualidade dados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"qualidade de dados"}],"title":{"type":"text","$t":"B2C ou B2H"},"content":{"type":"html","$t":"\u003Cp\u003EPor vezes quando se está a fazer comunicação B2C (business-to-consumer) o que deveria ser feito realmente era comunicação B2H (business-to-household).\u003C\/p\u003E \u003Cp\u003EO dinheiro que se gasta desnecessariamente sempre que é feita uma comunicação offline em criatividade, produção, handling e portes, em material que vai duplicado e triplicado para a mesma casa é um valor que todas as empresas deveriam ter em consideração. A estes custos ainda podemos juntar os devolvidos por moradas mal endereçadas por falta de um software que faça a normalização dos dados.\u003C\/p\u003E \u003Cp\u003ECom a existência de uma chave de household ficamos com a possibilidade de fazer envios, personalizados segundo o target que pretendemos. Se tivermos uma peça que será dirigida apenas às mulheres de uma casa, podemos assim evitar fazer o envio da peça para mãe e filha que constem da nossa BD, mas apenas para aquela que mais se adequar à peça a enviar.\u003C\/p\u003E \u003Cp\u003EA deduplicação feita por household não é fácil de executar, encontramos inúmeras dificuldades, das quais destaco, households que são constituídos por indivíduos com nomes de família diferentes, a existência de moradas que podem ser moradas de trabalho ou residências partilhadas.\u003C\/p\u003E"},"link":[{"rel":"replies","type":"application/atom+xml","href":"http:\/\/qualidadededados.blogspot.com\/feeds\/1175034862694411159\/comments\/default","title":"Enviar comentários"},{"rel":"replies","type":"text/html","href":"http:\/\/qualidadededados.blogspot.com\/2010\/02\/b2c-ou-b2h.html#comment-form","title":"0 Comentários"},{"rel":"edit","type":"application/atom+xml","href":"http:\/\/www.blogger.com\/feeds\/4919100574129221590\/posts\/default\/1175034862694411159"},{"rel":"self","type":"application/atom+xml","href":"http:\/\/www.blogger.com\/feeds\/4919100574129221590\/posts\/default\/1175034862694411159"},{"rel":"alternate","type":"text/html","href":"http:\/\/qualidadededados.blogspot.com\/2010\/02\/b2c-ou-b2h.html","title":"B2C ou B2H"}],"author":[{"name":{"$t":"Osvaldo Godinho"},"uri":{"$t":"http:\/\/www.blogger.com\/profile\/13531838994563422670"},"email":{"$t":"noreply@blogger.com"},"gd$image":{"rel":"http://schemas.google.com/g/2005#thumbnail","width":"16","height":"16","src":"https:\/\/img1.blogblog.com\/img\/b16-rounded.gif"}}],"thr$total":{"$t":"0"}},{"id":{"$t":"tag:blogger.com,1999:blog-4919100574129221590.post-5936389160199695"},"published":{"$t":"2010-01-27T14:13:00.003+00:00"},"updated":{"$t":"2017-02-10T15:52:02.110+00:00"},"category":[{"scheme":"http://www.blogger.com/atom/ns#","term":"data quality"},{"scheme":"http://www.blogger.com/atom/ns#","term":"dataquality"},{"scheme":"http://www.blogger.com/atom/ns#","term":"deduplicação"},{"scheme":"http://www.blogger.com/atom/ns#","term":"desduplicação"},{"scheme":"http://www.blogger.com/atom/ns#","term":"dq"},{"scheme":"http://www.blogger.com/atom/ns#","term":"duplicados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"qualidade dados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"qualidade de dados"}],"title":{"type":"text","$t":"Perguntas feitas pelos responsáveis de projecto relativamente aos projectos de Qualidade de Dados (6ª Questão)"},"content":{"type":"html","$t":"\u003Cp\u003E\u003Cb\u003EQuais são os limites de tolerância que deve ter o projecto?\u003C\/b\u003E\u003C\/p\u003E \u003Cp\u003EPor norma todas as aplicações são parametrizáveis e estes limites devem ser tomados em conta, não de uma forma genérica, mas mais uma vez, com a experiencia adquirida. Tal como foi dito nos pontos anteriores todas as BD's são únicas e como tal têm de ter tratamentos diferenciados. Imaginemos que temos uma BD na qual temos uma deduplicação já testada e experimentada, em que o valor de match tem um valor ideal. Mas entretanto foi criado mais um campo que ajuda na deduplicação dos registos, como tal deveremos mudar os limites para termos a certeza que os duplicados são encontrados.\u003C\/p\u003E \u003Cp\u003EO mesmo se passa relativamente aos parâmetros dos softwares real time. Ao longo do tempo poder-se-á verificar que é necessário fazer acertos porque os utilizadores por exemplo usam mais uma variável que outras para fazer pesquisas. Como tal temos de na parametrização evidenciar essa variável para que os resultados sejam totalmente satisfatórios. Com isto apenas se demonstra que embora os limites devam existir, existe com estas ferramentas sempre a possibilidade de fazer afinações. \u003C\/p\u003E"},"link":[{"rel":"replies","type":"application/atom+xml","href":"http:\/\/qualidadededados.blogspot.com\/feeds\/5936389160199695\/comments\/default","title":"Enviar comentários"},{"rel":"replies","type":"text/html","href":"http:\/\/qualidadededados.blogspot.com\/2010\/01\/perguntas-feitas-pelos-responsaveis-de_27.html#comment-form","title":"0 Comentários"},{"rel":"edit","type":"application/atom+xml","href":"http:\/\/www.blogger.com\/feeds\/4919100574129221590\/posts\/default\/5936389160199695"},{"rel":"self","type":"application/atom+xml","href":"http:\/\/www.blogger.com\/feeds\/4919100574129221590\/posts\/default\/5936389160199695"},{"rel":"alternate","type":"text/html","href":"http:\/\/qualidadededados.blogspot.com\/2010\/01\/perguntas-feitas-pelos-responsaveis-de_27.html","title":"Perguntas feitas pelos responsáveis de projecto relativamente aos projectos de Qualidade de Dados (6ª Questão)"}],"author":[{"name":{"$t":"Osvaldo Godinho"},"uri":{"$t":"http:\/\/www.blogger.com\/profile\/13531838994563422670"},"email":{"$t":"noreply@blogger.com"},"gd$image":{"rel":"http://schemas.google.com/g/2005#thumbnail","width":"16","height":"16","src":"https:\/\/img1.blogblog.com\/img\/b16-rounded.gif"}}],"thr$total":{"$t":"0"}},{"id":{"$t":"tag:blogger.com,1999:blog-4919100574129221590.post-541376453348943604"},"published":{"$t":"2009-11-26T11:47:00.008+00:00"},"updated":{"$t":"2017-02-02T10:27:09.169+00:00"},"category":[{"scheme":"http://www.blogger.com/atom/ns#","term":"complementarização"},{"scheme":"http://www.blogger.com/atom/ns#","term":"dados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"data cleansing"},{"scheme":"http://www.blogger.com/atom/ns#","term":"data validation"},{"scheme":"http://www.blogger.com/atom/ns#","term":"dataquality"},{"scheme":"http://www.blogger.com/atom/ns#","term":"deduplicação"},{"scheme":"http://www.blogger.com/atom/ns#","term":"desduplicação"},{"scheme":"http://www.blogger.com/atom/ns#","term":"dq"},{"scheme":"http://www.blogger.com/atom/ns#","term":"duplicados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"limpeza de dados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"normalização"},{"scheme":"http://www.blogger.com/atom/ns#","term":"qualidade dados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"validação de dados"}],"title":{"type":"text","$t":"Como manter os dados com qualidade"},"content":{"type":"html","$t":"\u003Cp\u003ENo video que se segue podem ver como funcionam as ferramentas de qualidade de dados. Neste caso, podemos ver a versão integrada em SAP(R), em que a Uniserv foi a primeira empresa a nível mundial a receber esta certificação SAP(R). Para além desta versão, estão disponíveis módulos de integração para as mais diferentes configurações, desde o mainframe a módulos de cliente nos mais variados sistemas operativos.\u003C\/p\u003E \u003Cobject height=\"505\" width=\"853\"\u003E\u003Cparam name=\"movie\" value=\"http:\/\/www.youtube.com\/v\/C6ygfeQWdH4\u0026hl=pt_PT\u0026fs=1\u0026rel=0\u0026hd=1\"\u003E\u003C\/param\u003E\u003Cparam name=\"allowFullScreen\" value=\"true\"\u003E\u003C\/param\u003E\u003Cparam name=\"allowscriptaccess\" value=\"always\"\u003E\u003C\/param\u003E\u003Cembed src=\"http:\/\/www.youtube.com\/v\/C6ygfeQWdH4\u0026hl=pt_PT\u0026fs=1\u0026rel=0\u0026hd=1\" type=\"application\/x-shockwave-flash\" allowscriptaccess=\"always\" allowfullscreen=\"true\" width=\"853\" height=\"505\"\u003E\u003C\/embed\u003E\u003C\/object\u003E"},"link":[{"rel":"related","href":"http:\/\/www.datalab.pt\/index.php\/demos-online\/correccaonormalizacao.html","title":"Como manter os dados com qualidade"},{"rel":"replies","type":"application/atom+xml","href":"http:\/\/qualidadededados.blogspot.com\/feeds\/541376453348943604\/comments\/default","title":"Enviar comentários"},{"rel":"replies","type":"text/html","href":"http:\/\/qualidadededados.blogspot.com\/2009\/11\/como-manter-os-dados-com-qualidade.html#comment-form","title":"0 Comentários"},{"rel":"edit","type":"application/atom+xml","href":"http:\/\/www.blogger.com\/feeds\/4919100574129221590\/posts\/default\/541376453348943604"},{"rel":"self","type":"application/atom+xml","href":"http:\/\/www.blogger.com\/feeds\/4919100574129221590\/posts\/default\/541376453348943604"},{"rel":"alternate","type":"text/html","href":"http:\/\/qualidadededados.blogspot.com\/2009\/11\/como-manter-os-dados-com-qualidade.html","title":"Como manter os dados com qualidade"}],"author":[{"name":{"$t":"Osvaldo Godinho"},"uri":{"$t":"http:\/\/www.blogger.com\/profile\/13531838994563422670"},"email":{"$t":"noreply@blogger.com"},"gd$image":{"rel":"http://schemas.google.com/g/2005#thumbnail","width":"16","height":"16","src":"https:\/\/img1.blogblog.com\/img\/b16-rounded.gif"}}],"thr$total":{"$t":"0"}},{"id":{"$t":"tag:blogger.com,1999:blog-4919100574129221590.post-4802865727656000262"},"published":{"$t":"2009-11-26T11:42:00.001+00:00"},"updated":{"$t":"2017-02-02T10:28:57.072+00:00"},"category":[{"scheme":"http://www.blogger.com/atom/ns#","term":"complementarização"},{"scheme":"http://www.blogger.com/atom/ns#","term":"dados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"data cleansing"},{"scheme":"http://www.blogger.com/atom/ns#","term":"data validation"},{"scheme":"http://www.blogger.com/atom/ns#","term":"dataquality"},{"scheme":"http://www.blogger.com/atom/ns#","term":"deduplicação"},{"scheme":"http://www.blogger.com/atom/ns#","term":"desduplicação"},{"scheme":"http://www.blogger.com/atom/ns#","term":"dq"},{"scheme":"http://www.blogger.com/atom/ns#","term":"duplicados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"limpeza de dados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"normalização"},{"scheme":"http://www.blogger.com/atom/ns#","term":"qualidade dados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"validação de dados"}],"title":{"type":"text","$t":"Limpeza de dados"},"content":{"type":"html","$t":"\u003Cp\u003EUm dos primeiros processos necessários para termos qualidade de dados é a Limpeza dos dados (Data Cleansing). Consiste essencialmente na detecção e correcção (ou remoção) de registos que estejam incompletos, incorrectos, sejam irrelevantes, que estejam corrompidos ou imprecisos. Outro dos termos que se podem igualmente aqui aplicar é validação dos dados (Data validation). Embora possam e devam ser usados em conjunto, na maior parte dos casos a validação dos dados é pouco ou nem sequer é usado. Isto apenas faz aumentar os custos de limpeza de dados, uma vez que se os dados forem validados logo na sua entrada é muito mais simples, barato e fiável, que posteriormente normalmente num processo batch.\u003C\/p\u003E \u003Cp\u003EVoltando ao processo de limpeza, mais tarde iremos falar no processo de validação, é um processo que deve envolver a remoção de erros que são comuns, como por exemplo, erros de digitação, fonéticos e outros que possam ocorrer aquando da inserção dos dados em BD. Isto sempre feito comparando os registos contra tabelas de referência, ou através da delimitação de valores, ou com métodos estatísticos, ou outros processos que validem esses dados. Esta validação pode ser mais ou menos restritiva, invalidado por exemplo registos que não tenham código postal.\u003C\/p\u003E \u003Cp\u003ENuma fase posterior temos a remoção de duplicados das BD’s que é outro dos processos fundamentais na limpeza de dados. Esta parte é das partes mais sensíveis uma vez que não existe uma “receita” que sirva todas as BD’s. Todas as BD’s são únicas e como tal o processo de parametrização tem sempre de ser igualmente único. É um processo muito sensível, porque podemos estar a deixar muitos duplicados por encontrar, ou por outro lado podemos estar a dar como duplicados registos que não são de todo duplicados. Esta afinação é dos processos mais morosos e que requer mais conhecimentos em todo o processo de limpeza de dados. Mais uma vez, tudo isto se simplifica quando esta remoção de duplicados é feita aquando da introdução dos dados na BD. Prevenir é sempre melhor que remediar.\u003Cbr \/\u003EDepois de assinalados os duplicados há um processo muitíssimo importante que é o processo de complementarização. Consiste na “associação” de todos os campos, segundo regras pré estabelecidas, a um único registo. Imaginemos que temos 5 duplicados de um dado registo e que apenas em um deles temos o número de telemóvel. Esse dado não pode ser pedido, temos de ter forma de o poder colocar no registo master, que no final do processo irá ter TODAS as informações dispersas por todos os registos duplicados.\u003C\/p\u003E \u003Cp\u003EDepois de cada um destes processos há sempre um outro que tem de decorrer em paralelo que é o processo de verificação da consistência dos dados. Este processo de verificação é de extrema importância para que não se percam dados em nenhuma das fases deste processo.\u003C\/p\u003E"},"link":[{"rel":"related","href":"http:\/\/www.datalab.pt\/index.php\/data-quality\/limpeza\/dq-batch-suite.html","title":"Limpeza de dados"},{"rel":"replies","type":"application/atom+xml","href":"http:\/\/qualidadededados.blogspot.com\/feeds\/4802865727656000262\/comments\/default","title":"Enviar comentários"},{"rel":"replies","type":"text/html","href":"http:\/\/qualidadededados.blogspot.com\/2009\/11\/limpeza-de-dados.html#comment-form","title":"0 Comentários"},{"rel":"edit","type":"application/atom+xml","href":"http:\/\/www.blogger.com\/feeds\/4919100574129221590\/posts\/default\/4802865727656000262"},{"rel":"self","type":"application/atom+xml","href":"http:\/\/www.blogger.com\/feeds\/4919100574129221590\/posts\/default\/4802865727656000262"},{"rel":"alternate","type":"text/html","href":"http:\/\/qualidadededados.blogspot.com\/2009\/11\/limpeza-de-dados.html","title":"Limpeza de dados"}],"author":[{"name":{"$t":"Osvaldo Godinho"},"uri":{"$t":"http:\/\/www.blogger.com\/profile\/13531838994563422670"},"email":{"$t":"noreply@blogger.com"},"gd$image":{"rel":"http://schemas.google.com/g/2005#thumbnail","width":"16","height":"16","src":"https:\/\/img1.blogblog.com\/img\/b16-rounded.gif"}}],"thr$total":{"$t":"0"}},{"id":{"$t":"tag:blogger.com,1999:blog-4919100574129221590.post-5060827380539871281"},"published":{"$t":"2009-11-26T11:15:00.002+00:00"},"updated":{"$t":"2017-02-02T10:31:11.362+00:00"},"category":[{"scheme":"http://www.blogger.com/atom/ns#","term":"dados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"data cleansing"},{"scheme":"http://www.blogger.com/atom/ns#","term":"data validation"},{"scheme":"http://www.blogger.com/atom/ns#","term":"dataquality"},{"scheme":"http://www.blogger.com/atom/ns#","term":"dq"},{"scheme":"http://www.blogger.com/atom/ns#","term":"limpeza de dados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"normalização"},{"scheme":"http://www.blogger.com/atom/ns#","term":"qualidade dados"},{"scheme":"http://www.blogger.com/atom/ns#","term":"validação de dados"}],"title":{"type":"text","$t":"Qualidade de dados, perfeição não existe"},"content":{"type":"html","$t":"\u003Cp\u003EPerfeição não existe na qualidade dos dados. Este é o princípio que temos de nos capacitar antes de tudo. Não existe 100% de qualidade de dados porque todos os dias, há alterações nos dados, quer seja por mudanças de morada por parte de clientes\/potenciais clientes, quer seja porque a rua foi renomeada, quer seja porque passou de Lote a número de polícia definitivo, e tantos outros factores que podem fazer com que os dados deixem de ser dados válidos.\u003C\/p\u003E \u003Cp\u003EQuanto menos lixo entrar na sua base de dados melhor, especialmente nos dias de hoje em que existem ferramentas que impedem entrada de dados “sujos” fazendo a limpeza, normalizando e corrigindo os dados ainda antes de entrarem na BD, sempre que isso seja possível, ou assinalar aqueles que não tendo possibilidades de serem corrigidos automaticamente, suscitem dúvidas relativamente à sua validade.\u003C\/p\u003E \u003Cp\u003EPrevenir é bem melhor que remediar. É muito mais vantajoso e eficiente manter uma base de dados normalizada, e sem duplicados no dia-a-dia, do que anualmente fazer a extracção de TODOS os dados para que se execute um processo de qualidade de dados, para depois voltar a fazer a reintegração dos dados com todos os custos que esse processo envolve. Custos não apenas monetários elevados, mas custos em termos da operação em si, que necessita de um cuidado extremo, para que não se reponham dados que entretanto foram alterados.\u003C\/p\u003E \u003Cp\u003EPor tudo isto a qualidade dos dados é uma coisa que é partilhada pelo marketing, apoio, vendas e quase todos dentro da empresa. Todos são responsaveis pela qualidade dos dados da empres e a todos se deve pedir responsabilidades, mas tem de haver alguém responsável final pela qualidade de dados dentro da empresa e quanto mais acima estiver na pirâmide organizacional da empresa, melhor. Porque esse, por sua vez, tem de ir pedir responsabilidades a quem esteja a falhar.\u003C\/p\u003E"},"link":[{"rel":"related","href":"http:\/\/www.datalab.pt","title":"Qualidade de dados, perfeição não existe"},{"rel":"replies","type":"application/atom+xml","href":"http:\/\/qualidadededados.blogspot.com\/feeds\/5060827380539871281\/comments\/default","title":"Enviar comentários"},{"rel":"replies","type":"text/html","href":"http:\/\/qualidadededados.blogspot.com\/2009\/11\/qualidade-de-dados-perfeicao-nao-existe.html#comment-form","title":"0 Comentários"},{"rel":"edit","type":"application/atom+xml","href":"http:\/\/www.blogger.com\/feeds\/4919100574129221590\/posts\/default\/5060827380539871281"},{"rel":"self","type":"application/atom+xml","href":"http:\/\/www.blogger.com\/feeds\/4919100574129221590\/posts\/default\/5060827380539871281"},{"rel":"alternate","type":"text/html","href":"http:\/\/qualidadededados.blogspot.com\/2009\/11\/qualidade-de-dados-perfeicao-nao-existe.html","title":"Qualidade de dados, perfeição não existe"}],"author":[{"name":{"$t":"Osvaldo Godinho"},"uri":{"$t":"http:\/\/www.blogger.com\/profile\/13531838994563422670"},"email":{"$t":"noreply@blogger.com"},"gd$image":{"rel":"http://schemas.google.com/g/2005#thumbnail","width":"16","height":"16","src":"https:\/\/img1.blogblog.com\/img\/b16-rounded.gif"}}],"thr$total":{"$t":"0"}}]}});