Big Data: Será a qualidade dos dados um requisito ?

Desta vez trago-vos uma reflexão sobre um tema de que muito se fala na atualidade. O "chavão" é o termo "big data". ...

Desta vez trago-vos uma reflexão sobre um tema de que muito se fala na atualidade. O "chavão" é o termo "big data".

Podemos atribuir-lhe muitas definições, defini-lo do ponto de vista tecnológico, do ponto de vista conceptual, etc. Não pretendo compilar aqui uma sua definição. No meu entendimento, refiro-me ao "Big Data" como um conceito que tem como foco o armazenamento de um grande volume de dados, promovendo, apesar do volume, velocidade na sua utilização.

A primeira dúvida que me ocorre é tentar diferenciar este conceito do chamado "mundo relacional" que conhecemos e no qual estruturamos e mapeamos o nosso negócio. As plataformas relacionais visam o armazenamento e uso de informação estruturada em modelos bem definidos e têm um limite na quantidade de dados que armazenam. Falo em limite não no sentido da quantidade que podem armazenar mas sim no equilíbrio entre volume e performance. Também, as plataformas relacionais não são, definitivamente, ideais para armazenamento e consulta de informação não estruturada e, neste aspeto, todos sabemos que se produzem todos os dias Petabytes (notem que já nem sequer falamos em Gibabytes) de informação não estruturada. Vejamos o caso da chamada "Social Media". Sites  como o Facebook, Twitter e outros são disto o perfeito exemplo. Por curiosidade, já quantificamos a importância de um evento social em TPS (Tweets per second - Nº de tweets por segundo). Em 2011, quando a famosa cantora Beyonce anunciou a sua gravidez durante os MTV Video and Music Awards, produziram-se mundialmente 8.868 TPS! São números impressionantes!

Definitivamente, plataformas como o Hadoop vieram alavancar a importância do "Big Data" com a sua escalabilidade, capacidade de armazenamento de informação não estruturada em grandes volumes e alta disponibilidade na consulta da mesma.

Mas, se estas plataformas são tão boas, como fica o "mundo relacional" ? Não se iludam os que pensam que as plataformas relacionais estão condenadas. Eu acho que não. Vieram para ficar e cá continuarão por muitos anos. Vejo o "Big Data" como um irmão mais novo do "mundo relacional". Quando este irmão mais novo crescer, vão trabalhar os dois em equipa e serão imbatíveis. Seguramente, as empresas que melhor os souberem combinar terão grandes vantagens competitivas.

Diz-se que, nas empresas, se aplica a regra dos 20-80 no que toca ao uso de informação, ou seja:

  • Do volume total de dados gerados por todos os sistemas de suporte ao negócio, apenas 20 % destes são, de alguma forma, utilizados em sistemas de BI que visem o suporte á decisão. Os restantes 80% são desprezados, quer porque não trazem valor á tomada de decisão, quer porque não há capacidade de os processar em tempo útil;
  • Na empresa, apenas 20 % de toda a "informação" gerada e em circulação se apresenta num formato estruturado. Os restantes 80% apresentam-se sob uma forma não estruturada (Email's, Folhas de cálculo, etc.). Se aqui ainda contarmos com toda a informação gerada pelo normal funcionamento dos sistemas (ficheiros de log, ficheiros de erros, alertas, etc.) tipicamente numa forma semiestruturada ou não estruturada, facilmente compreendemos que, no "mundo relacional" não há capacidade de armazenar e tratar todo este volume. Mesmo que haja tal capacidade, tentem convencer o vosso director de IT a fazer esses investimentos e verão do que falo!

Os mais atentos perguntarão: "Mas porquê guardar esta "tralha" toda?" e a minha resposta é "Porque um dia poderemos precisar dela!!!". Notem que sublinhei a palavra "poderemos", porque, se realmente precisarmos deles, nessa altura essa informação valerá ouro!

Escrevi, em ar de graça, o último parágrafo com o intuito de vos passar uma ideia. A "tralha" que nos é difícil guardar / processar e que duvidamos que nos seja útil pode "valer ouro" algum dia se soubermos quando procurar e "o que" procurar nela, por isso mais vale começarmos a guardá-la e analisá-la. É precisamente aqui que uma plataforma de "Big Data" é útil. Armazenar grande volume de dados não estruturados e permitir-nos a capacidade de "cavar" neles na tentativa de acharmos algo de útil.

Deixemos o "mundo relacional" continuar a alimentar-nos os sistemas de Suporte ao negócio, de suporte á decisão e outros de uso comum e comecemos a guardar e analisar aqueles dados que não usamos.

Suponhamos que a nossa empresa lança uma campanha para o mercado, com o intuito de vender um novo produto ou serviço. Na era da web, não faz sentido não promover o produto / serviço no nosso site, nas nossas páginas do Facebook ou do Twitter. Porém, lanço as seguintes perguntas:

  • Temos capacidade de saber o que pensam de nós ? 
  • O nosso produto será bom ? tem aceitação ?
  • Quantas pessoas dizem bem ? quais são as críticas para melhorarmos ?

Tudo isto lá está, sob a forma de posts, de "like's" de "share's". Apenas não temos forma de tratar tanto volume (ou potencialmente tanto volume) e muito menos a capacidade de os guardar num formato estruturado. Mas não será essa informação vital para quem decide ? Não serão as opiniões dos nossos "amigos" a forma mais eficaz de "tomar o pulso" ao sucesso da campanha? Eu acho que sim. É por este caminho que o mundo empresarial caminhará e estou convicto que a Qualidade dos dados será um "tema quente" nas plataformas de "Big data".

Quanto maior o volume de dados que guardamos e trabalhamos maior será a procura de soluções que garantam a qualidade dos mesmos. Se já nos é difícil endereçar temas de falta de qualidade dos dados no "mundo relacional" entendo que mais difícil será validar dados em massa em formatos não estruturados ou semiestruturados. Acho que, nos próximos anos, haverá grandes progressos neste tipo de ferramentas e estaremos a falar em garantir a qualidade dos dados em áreas inimagináveis até agora.

Este será um tema a acompanhar nos próximos anos. De uma coisa estou certo: Ainda agora estamos a dar os primeiros passos... 

Sobre a Datalab

A Datalab é uma empresa Portuguesa que atua no mercado das tecnologias de Informação, especializada em Soluções de Qualidade de dados. Saiba mais em www.datalab.pt

You Might Also Like

0 comentários

Flickr Images