Discentes: Gustavo Pinoti
Lorenna de Araujo Martins
Murillo Cuervo Tarôuco

Sumário

Big data, como o nome sugere, é um termo que descreve o imenso volume de dados – estruturados e não estruturados – que impactam os negócios no dia a dia. A quantia de dados em si não importa, mas o que realmente importa é o que as empresas fazes com os dados. Essa quantidade massiva de dados pode ser analisada para a obtenção de insights que levam a melhores decisões e direções estratégicas de negócio.

De maneira mais simples, a ideia também pode ser compreendida como a análise de grandes quantidades de dados para a geração de resultados importantes que em volumes menores, dificilmente seriam alcançados.

Informação é poder, ou seja, se uma empresa souber como utilizar os dados que tem em mãos, poderá entender como melhorar um produto, como criar uma estratégia de marketing mais eficiente, como cortar gastos, como produzir mais em menos tempo, como evitar o desperdício de recursos, como superar um concorrente, como disponibilizar serviços para um cliente especial de maneira satisfatória e muitas outras coisas que podem ser feitas com a grande quantidade de informação.

O conceito de Big Data

O termo “Big Data” em si é relativamente novo, porem o ato de recolher e armazenar grandes quantidades de informações para a eventual análise de dados é bem antigo. Há tempos que departamentos de TI contemplam aplicações de Data Mining, Business Intelligence e CRM (Customer Relationship Management), por exemplo, para tratar justamente de análise de dados, tomadas de decisões e outros aspectos relacionados ao negócio.

A proposta é a de oferecer uma abordagem ampla no tratamento do aspecto cada vez mais caótico dos dados para tornar as referidas aplicações e todas as outras mais eficientes e precisas. Por isso, o conceito considera não somente grandes quantidades de dados, a velocidade e analise e a disponibilização destes, como também a relação com e entre os volumes.

A importância de Big Data

Lidamos com dados desde os primórdios da humanidade, porem atualmente, com os avanços tecnológicos, podemos guardar, organizar e analisar dados muito mais facilmente e muito mais rapidamente.

Este panorama está em constante crescimento. Precisamos apenas imaginar que dispositivos em nossas casas como geladeiras, TVs, lavadoras de roupa, cafeteiras, e muitos outros deverão estar conectados à internet em um futuro próximo. Esta previsão está dentro do que se conhece como Internet das Coisas.

Se pararmos para analisar o que temos agora, já pode-se notar uma grande mudança em relação as décadas anteriores. Se tomarmos como base apenas a internet, basta pensar na quantidade de dados que são gerados diariamente somente nas redes sociais. Basta repararmos na imensa quantidade de sites na web. Podemos fazer compras on-line por meio até do nosso celular, quando o máximo de informatização que as lojas tinham em um passado não muito distante eram sistemas isolados para gerenciar os seus estabelecimentos físicos.

As tecnologias atuais permitiram aumentar exponencialmente a quantidade de informações no mundo, e agora, empresas, governos e outras instituições precisam saber lidar com esse grande aumento de dados. O Big Data serve exatamente para esse propósito, uma vez que as ferramentas computacionais usadas até então para gestão de dados por si só já não podem fazê-lo satisfatoriamente.

A quantidade de dados gerada e armazenada diariamente chegou a um ponto em que ter uma estrutura centralizada de processamento de dados já não faz mais sentido para a quase totalidade de grandes empresas. Como por exemplo o Google, que possui vários data centers para dar conta de suas operações, mas trata todos de maneira integrada.

Os V’s de Big Data

O conceito Big Data se intensificou no início dos anos 2000, quando um famoso analista da área Doug Laney, articulou a definição de Big Data como os três V’s:

· Volume: As organizações coletam dados de uma grande variedade de fontes, e como já foi dito em uma enorme quantidade, que ainda cresce exponencialmente. No passado, armazenar tamanha quantidade de informações teria sido um problema, porém novas tecnologias como o Hadoop tem tornado essa tarefa mais simples.

· Velocidade: Atualmente os dados fluem em uma velocidade sem precedentes, e devem ser tratados em tempo hábil. Tags de RFID, sensores, celulares e contadores inteligentes estão impulsionando a necessidade de lidar com imensas quantidades de dados em tempo real, ou quase real.

· Variedade: Os dados são gerados em todos os tipos de formatos – de estruturados, dados numéricos em bancos de dados tradicionais, até documentos de texto não estruturados, e-mail, vídeo, áudio, dados de cotações da bolsa e transações financeiras. É necessário saber tratar a variedade como parte de um todo – um tipo de dado pode ser inútil se não for associado a outros.

Hoje foram adicionados mais 2 V’s na definição de Big Data:

· Veracidade: Ela também tem que ser considerada, pois não adianta lidar com a combinação dos outros 3 V’s se os dados não forem confiáveis. É necessário que haja processos que garantam o máximo possível a consistência dos dados.

· Valor: A solução de Big Data, apenas se mostrara viável se o resultado trouxer benefícios significativos e que compensem o investimento.

Vale ressaltar que esses aspectos não precisam ser tomados como a definição perfeita. Existem quem acredite que a combinação dos 3 V’s iniciais seja suficiente para transmitir uma noção aceitável de Big Data, estando os 2 novos implícitos nos antigos.

De qualquer forma, os 3 primeiros V’s podem até não oferecer a melhor definição do conceito, mas não estão longe de fazê-lo.

Soluções de Big Data

Além de lidar com volumes extremamente grandes de dados dos mais variados tipos, soluções Big Data também precisam trabalhar com distribuição de processamento e elasticidade, isto é, suportar aplicações com volumes de dados que crescem substancialmente em pouco tempo.

Os bancos de dados “tradicionais”, especialmente os que exploram o modelo relacional, como o MySQL e Oracle, não se mostram adequados a estes requisitos, já que são menos flexíveis.

Isso acontece pois eles se baseiam em uma combinação conhecida como ACID, a sigla em inglês que significa: Atomicity (atomicidade), Consistency (consistência), Isolation (isolamento) e Durability (durabilidade).

· Atomicidade: toda transação só pode ser considerada efetivada se executada completamente;

· Consistência: todas as regras aplicadas ao banco de dados devem ser seguidas;

· Isolamento: nenhuma transação pode interferir em outra que esteja em andamento ao mesmo tempo;

· Durabilidade: uma vez que a transação esteja concluída, os dados consequentes não podem ser perdidos.

Este conjunto de propriedades é muito restritivo para uma solução de Big Data. A elasticidade pode ser inviabilizada pela atomicidade e pela consistência. Dessa forma, é utilizado o conceito de NoSQL, denominação que muitos atribuem à expressão em inglês - Not only SQL (tradução livre para: Não apenas SQL). Resumindo: é uma linguagem própria para se trabalhar com banco de dados relacionais.

Vale lembrar que os bancos de dados tradicionais não se tornaram ultrapassados, pelo contrário, ainda serão usados por muito tempo e continuarão sendo uteis. Mas quando se trata de um Big Data, sendo elástico e muito grande, um NoSQL é mais fácil e menos custoso de ser implementado, por ter propriedades mais flexíveis.

Hadoop

Como já foi dito anteriormente, o Hadoop auxilia no manuseio da grande quantidade de dados que o Big Data processa. Ele é uma plataforma Open Source desenvolvida especialmente para processamento e analise de grandes volumes de dados, sejam eles estruturados ou não. O projeto é mantido pela Apache Foundation, mas conta com a colaboração de várias empresas como Yahoo!, Facebook, Google e IBM.

O projeto teve início mais ou menos em 2003, quando o Google criou um modelo de programação que distribui o processamento a ser realizado entre vários computadores para ajudar o seu mecanismo de busca a ficar mais rápido e livre da necessidade de servidores mais poderosos (e caros). Esta tecnologia recebeu o nome de MapReduce.

Alguns meses depois o Google apresentou o Google File System (GFS). Em poucas palavras o sistema de arquivos é um conjunto de instruções que determina como os dados devem ser guardados, acessados, copiados, alterados, nomeados, eliminados e assim por diante.

Em 2004 uma implementação open source do GFS foi incorporada ao Nutch, um projeto de motor de busca para a Web. No ano seguinte ele também já contava com uma implementação do MapReduce. O Nutch fazia parte de um projeto maior chamado Lucene, e os responsáveis viram o que tinham nas mãos e também poderia ser usado em aplicações diferentes das buscas na Web. Esta percepção levou a criação de outro projeto: o Hadoop, cuja implementação do sistema recebeu o nome de Hadoop Distributed File System (HDFS).

Ele é tido como solução adequada para o Big Data por vários motivos, entre eles ser um projeto Open Source, permitindo a modificação para fins de customização. Ele proporciona economia, já que não existe pagamento de licenças e suporta hardware convencional. Ele conta com recursos de tolerância a falhas. É escalável, havendo necessidade de processamento para suportar maior quantidade de dados, é possível acrescentar computadores sem necessidade de ralizar configurações complexas no sistema. Dentre várias outras funções, ele também pode ser usado em conjunto com banco de dados NoSQL.

Vale frisar que ele é o maior destaque, mas não é a única ferramenta que auxilia Big Datas. É possível encontrar outras soluções compatíveis com NoSQL ou que são baseadas em Massively Parallel Processing (MPP), por exemplo.

Exemplos de Aplicação

Bancos: Ao mesmo tempo em que big data é importante para compreender os clientes e aumentar sua satisfação, é igualmente importante para minimizar os riscos e fraudes enquanto mantem uma conformidade regulatória. Big Data traz ótimos insights, mas também exige que as instituições financeiras estejam um passo à frente, com analises avançadas.

Ensino: Analisando Big Data, educadores podem identificar alunos em risco, assegurar que os estudantes estão progredindo de forma adequada, e podem implementar um sistema melhor de avaliação e apoio aos professores e diretores.

Governo: quando as organizações governamentais são capazes de aproveitar e aplicar analises em Big Data, elas progridem significativamente quando se trata de gerenciar serviços públicos, lidar com o congestionamento ou prevenir a criminalidade. Mas, enquanto existem muitas vantagens com o uso de big data, os governos também devem abordar as questões de transparência e privacidade das informações.

Saúde: Registros de pacientes, planos de tratamento, informações de prescrição, tudo precisa ser feito rapidamente, com precisão e em alguns casos, com suficiente transparência para satisfazer as regulamentações rigorosas desta indústria. Quando grandes quantidades de dados são geridas de forma eficaz, os prestadores de cuidados de saúdes podem descobrir insights escondidos que melhoram o atendimento do paciente.

Manufatura: Fabricantes podem aumentar a qualidade e a produção, minimizando o desperdício – processos que são fundamentais no mercado altamente competitivo de hoje. Com a análise dos dados, podem resolver problemas mais rapidamente e tomar decisões de negócios mais ágeis.

Varejo: A construção de relacionamento com o cliente é fundamental para o setor de varejo. A melhor forma de gerenciar este relacionamento é gerenciando Big Data. Varejistas precisam saber a melhor maneira de vender aos clientes, a maneira mais eficaz de lidar com transações e a maneira mais estratégica de aumentar o número de negócios repetidos. Big Data está presente em todas essas coisas.