Discentes: Gustavo Pinoti
Lorenna de Araujo Martins
Murillo Cuervo Tarôuco
Sumário
Introdução
- O que é Big Data?
Big
data, como o nome sugere, é um termo que descreve o imenso volume de dados –
estruturados e não estruturados – que impactam os negócios no dia a dia. A
quantia de dados em si não importa, mas o que realmente importa é o que as
empresas fazes com os dados. Essa quantidade massiva de dados pode ser
analisada para a obtenção de insights que levam a melhores decisões e direções
estratégicas de negócio.
De
maneira mais simples, a ideia também pode ser compreendida como a análise de
grandes quantidades de dados para a geração de resultados importantes que em
volumes menores, dificilmente seriam alcançados.
Informação
é poder, ou seja, se uma empresa souber como utilizar os dados que tem em mãos,
poderá entender como melhorar um produto, como criar uma estratégia de
marketing mais eficiente, como cortar gastos, como produzir mais em menos
tempo, como evitar o desperdício de recursos, como superar um concorrente, como
disponibilizar serviços para um cliente especial de maneira satisfatória e
muitas outras coisas que podem ser feitas com a grande quantidade de
informação.
O
conceito de Big Data
O
termo “Big Data” em si é relativamente novo, porem o ato de recolher e
armazenar grandes quantidades de informações para a eventual análise de dados é
bem antigo. Há tempos que departamentos
de TI contemplam aplicações de Data Mining, Business Intelligence e CRM (Customer
Relationship Management), por exemplo, para tratar justamente de análise de
dados, tomadas de decisões e outros aspectos relacionados ao negócio.
A
proposta é a de oferecer uma abordagem ampla no tratamento do aspecto cada vez
mais caótico dos dados para tornar as referidas aplicações e todas as outras
mais eficientes e precisas. Por isso, o conceito considera não somente grandes
quantidades de dados, a velocidade e analise e a disponibilização destes, como
também a relação com e entre os volumes.
A
importância de Big Data
Lidamos
com dados desde os primórdios da humanidade, porem atualmente, com os avanços
tecnológicos, podemos guardar, organizar e analisar dados muito mais facilmente
e muito mais rapidamente.
Este
panorama está em constante crescimento. Precisamos apenas imaginar que
dispositivos em nossas casas como geladeiras, TVs, lavadoras de roupa,
cafeteiras, e muitos outros deverão estar conectados à internet em um futuro
próximo. Esta previsão está dentro do que se conhece como Internet das Coisas.
Se
pararmos para analisar o que temos agora, já pode-se notar uma grande mudança
em relação as décadas anteriores. Se tomarmos como base apenas a internet,
basta pensar na quantidade de dados que são gerados diariamente somente nas
redes sociais. Basta repararmos na imensa quantidade de sites na web. Podemos
fazer compras on-line por meio até do nosso celular, quando o máximo de
informatização que as lojas tinham em um passado não muito distante eram
sistemas isolados para gerenciar os seus estabelecimentos físicos.
As
tecnologias atuais permitiram aumentar exponencialmente a quantidade de
informações no mundo, e agora, empresas, governos e outras instituições
precisam saber lidar com esse grande aumento de dados. O Big Data serve
exatamente para esse propósito, uma vez que as ferramentas computacionais
usadas até então para gestão de dados por si só já não podem fazê-lo
satisfatoriamente.
A
quantidade de dados gerada e armazenada diariamente chegou a um ponto em que
ter uma estrutura centralizada de processamento de dados já não faz mais
sentido para a quase totalidade de grandes empresas. Como por exemplo o Google,
que possui vários data centers para dar conta de suas operações, mas trata
todos de maneira integrada.
Os
V’s de Big Data
O
conceito Big Data se intensificou no início dos anos 2000, quando um famoso
analista da área Doug Laney, articulou a definição de Big Data como os três
V’s:
·
Volume:
As organizações coletam dados de uma grande variedade de fontes, e como já foi
dito em uma enorme quantidade, que ainda cresce exponencialmente. No passado,
armazenar tamanha quantidade de informações teria sido um problema, porém novas
tecnologias como o Hadoop tem tornado essa tarefa mais simples.
·
Velocidade:
Atualmente os dados fluem em uma velocidade sem precedentes, e devem ser
tratados em tempo hábil. Tags de RFID, sensores, celulares e contadores
inteligentes estão impulsionando a necessidade de lidar com imensas quantidades
de dados em tempo real, ou quase real.
·
Variedade:
Os
dados são gerados em todos os tipos de formatos – de estruturados, dados
numéricos em bancos de dados tradicionais, até documentos de texto não
estruturados, e-mail, vídeo, áudio, dados de cotações da bolsa e transações
financeiras. É necessário saber tratar a variedade como parte de um todo – um
tipo de dado pode ser inútil se não for associado a outros.
Hoje
foram adicionados mais 2 V’s na definição de Big Data:
·
Veracidade:
Ela também tem que ser considerada, pois não adianta lidar com a combinação dos
outros 3 V’s se os dados não forem confiáveis. É necessário que haja processos
que garantam o máximo possível a consistência dos dados.
·
Valor:
A
solução de Big Data, apenas se mostrara viável se o resultado trouxer
benefícios significativos e que compensem o investimento.
Vale
ressaltar que esses aspectos não precisam ser tomados como a definição
perfeita. Existem quem acredite que a combinação dos 3 V’s iniciais seja
suficiente para transmitir uma noção aceitável de Big Data, estando os 2 novos
implícitos nos antigos.
De
qualquer forma, os 3 primeiros V’s podem até não oferecer a melhor definição do
conceito, mas não estão longe de fazê-lo.
Soluções
de Big Data
Além
de lidar com volumes extremamente grandes de dados dos mais variados tipos,
soluções Big Data também precisam trabalhar com distribuição de processamento e
elasticidade, isto é, suportar aplicações com volumes de dados que crescem
substancialmente em pouco tempo.
Os
bancos de dados “tradicionais”, especialmente os que exploram o modelo
relacional, como o MySQL e Oracle, não se mostram adequados a estes requisitos,
já que são menos flexíveis.
Isso
acontece pois eles se baseiam em uma combinação conhecida como ACID, a sigla em
inglês que significa: Atomicity (atomicidade), Consistency (consistência),
Isolation (isolamento) e Durability (durabilidade).
·
Atomicidade:
toda transação só pode ser considerada efetivada se executada completamente;
·
Consistência:
todas as regras aplicadas ao banco de dados devem ser seguidas;
·
Isolamento:
nenhuma transação pode interferir em outra que esteja em andamento ao mesmo
tempo;
·
Durabilidade:
uma vez que a transação esteja concluída, os dados consequentes não podem ser
perdidos.
Este
conjunto de propriedades é muito restritivo para uma solução de Big Data. A
elasticidade pode ser inviabilizada pela atomicidade e pela consistência. Dessa
forma, é utilizado o conceito de NoSQL, denominação que muitos atribuem à
expressão em inglês - Not only SQL (tradução livre para: Não apenas SQL).
Resumindo: é uma linguagem própria para se trabalhar com banco de dados
relacionais.
Vale
lembrar que os bancos de dados tradicionais não se tornaram ultrapassados, pelo
contrário, ainda serão usados por muito tempo e continuarão sendo uteis. Mas
quando se trata de um Big Data, sendo elástico e muito grande, um NoSQL é mais
fácil e menos custoso de ser implementado, por ter propriedades mais flexíveis.
Hadoop
Como
já foi dito anteriormente, o Hadoop auxilia no manuseio da grande quantidade de
dados que o Big Data processa. Ele é uma plataforma Open Source desenvolvida
especialmente para processamento e analise de grandes volumes de dados, sejam
eles estruturados ou não. O projeto é mantido pela Apache Foundation, mas conta
com a colaboração de várias empresas como Yahoo!, Facebook, Google e IBM.
O
projeto teve início mais ou menos em 2003, quando o Google criou um modelo de
programação que distribui o processamento a ser realizado entre vários computadores
para ajudar o seu mecanismo de busca a ficar mais rápido e livre da necessidade
de servidores mais poderosos (e caros). Esta tecnologia recebeu o nome de
MapReduce.
Alguns
meses depois o Google apresentou o Google File System (GFS). Em poucas palavras
o sistema de arquivos é um conjunto de instruções que determina como os dados
devem ser guardados, acessados, copiados, alterados, nomeados, eliminados e
assim por diante.
Em
2004 uma implementação open source do GFS foi incorporada ao Nutch, um projeto
de motor de busca para a Web. No ano seguinte ele também já contava com uma
implementação do MapReduce. O Nutch fazia parte de um projeto maior chamado
Lucene, e os responsáveis viram o que tinham nas mãos e também poderia ser
usado em aplicações diferentes das buscas na Web. Esta percepção levou a
criação de outro projeto: o Hadoop, cuja implementação do sistema recebeu o
nome de Hadoop Distributed File System (HDFS).
Ele
é tido como solução adequada para o Big Data por vários motivos, entre eles ser
um projeto Open Source, permitindo a modificação para fins de customização. Ele
proporciona economia, já que não existe pagamento de licenças e suporta
hardware convencional. Ele conta com recursos de tolerância a falhas. É
escalável, havendo necessidade de processamento para suportar maior quantidade
de dados, é possível acrescentar computadores sem necessidade de ralizar
configurações complexas no sistema. Dentre várias outras funções, ele também
pode ser usado em conjunto com banco de dados NoSQL.
Vale
frisar que ele é o maior destaque, mas não é a única ferramenta que auxilia Big
Datas. É possível encontrar outras soluções compatíveis com NoSQL ou que são
baseadas em Massively Parallel Processing (MPP), por exemplo.
Exemplos
de Aplicação
Bancos: Ao
mesmo tempo em que big data é importante para compreender os clientes e
aumentar sua satisfação, é igualmente importante para minimizar os riscos e
fraudes enquanto mantem uma conformidade regulatória. Big Data traz ótimos
insights, mas também exige que as instituições financeiras estejam um passo à
frente, com analises avançadas.
Ensino:
Analisando Big Data, educadores podem identificar alunos em risco, assegurar
que os estudantes estão progredindo de forma adequada, e podem implementar um
sistema melhor de avaliação e apoio aos professores e diretores.
Governo: quando
as organizações governamentais são capazes de aproveitar e aplicar analises em
Big Data, elas progridem significativamente quando se trata de gerenciar
serviços públicos, lidar com o congestionamento ou prevenir a criminalidade.
Mas, enquanto existem muitas vantagens com o uso de big data, os governos
também devem abordar as questões de transparência e privacidade das
informações.
Saúde: Registros
de pacientes, planos de tratamento, informações de prescrição, tudo precisa ser
feito rapidamente, com precisão e em alguns casos, com suficiente transparência
para satisfazer as regulamentações rigorosas desta indústria. Quando grandes
quantidades de dados são geridas de forma eficaz, os prestadores de cuidados de
saúdes podem descobrir insights escondidos que melhoram o atendimento do
paciente.
Manufatura: Fabricantes
podem aumentar a qualidade e a produção, minimizando o desperdício – processos
que são fundamentais no mercado altamente competitivo de hoje. Com a análise
dos dados, podem resolver problemas mais rapidamente e tomar decisões de
negócios mais ágeis.
Varejo: A
construção de relacionamento com o cliente é fundamental para o setor de
varejo. A melhor forma de gerenciar este relacionamento é gerenciando Big Data.
Varejistas precisam saber a melhor maneira de vender aos clientes, a maneira
mais eficaz de lidar com transações e a maneira mais estratégica de aumentar o
número de negócios repetidos. Big Data está presente em todas essas coisas.
Nenhum comentário:
Postar um comentário