UEMG –
Universidade do Estado de Minas Gerais – Unidade de Frutal
Sistemas
de Informação – 5º Período
Banco de
Dados II
Prof. Dr.
Geraldo Corrêa Nunes
Alunos:
Fábio Diniz, Jonathas Corrêa Alves, Ramon Luiz Sposito, Rodrigo Bertucci do
Amaral, Wanner Martins de Menezes
TEMA: MINERAÇÃO DE DADOS
DEFINIÇÃO DE MINERAÇÃO DE DADOS
A mineração de dados é o processo de
descoberta de informações acionáveis em grandes conjuntos de dados. A mineração
de dados usa análise matemática para derivar padrões e tendências que existem
nos dados. Normalmente, esses padrões não podem ser descobertos com a
exploração de dados tradicional pelo fato de as relações serem muito complexas
ou por haver muitos dados.
Quando se minera os dados, é possível
encontrar grandes quantidades de anomalias, erros e defeitos que podem ser
concertados para que não venha trazer danos ao sistema, ajudando assim na
tomada de decisões e dando vantagens estratégicas
A definição clássica do termo Mineração de
Dados vem do pesquisador FAYYAD et al. (1996):
“processo, não trivial, de extração de informações implícitas,
previamente desconhecidas e potencialmente úteis, a partir dos dados
armazenados em um banco de dados”, ou seja, buscar por informações em uma base
de dados com os mais variados atributos e assuntos.
Mineração de Dados busca encontrar padrões
nos dados, e estes padrões são das mais variadas formas. Há um clássico exemplo
das fraldas e cervejas. Você acha que alguma pessoa iria imaginar em comprar
cervejas e fraldas ao mesmo tempo toda vez que fosse ao supermercado? Pois isso
é um padrão identificado e está ligado a minerar dados. A definição que mais
pode se adequar ao tema é “A Mineração de Dados também conhecida como
“garimpagem dos dados” é o processo de extração de informações, sem conhecimento
prévio em um grande banco de dados, das características dos dados, e seu uso
são para tomada de decisões”.
IMPORTANCIA DA MINERAÇÃO DE DADOS
O volume de dados produzido está dobrando a
cada dois anos. Dados não-estruturados compõem sozinhos 90% do universo
digital. Porém, mais informação não significa necessariamente mais conhecimento.
A mineração de dados nos permite filtrar todo o ruído caótico e repetitivo,
entender o que é relevante e, então, fazer bom uso dessa informação para
avaliar os prováveis resultados.
Na atualidade empresas estão investindo mais
na automação do software, pelo fato de agilizar os níveis estratégico e
gerencial para as tomadas de decisões, pois esses softwares armazenam os dados
de forma duplicadas dentro do datawarehouse para relatórios complexos. Os
softwares que possuem o BI (Business Intelligence) fazem com que o setor que
irá tomar as decisões, consiga observar nos relatórios as informações
necessárias para poder avaliar o resultado que eles esperam, dependendo o grau
de complexidade ou quantidade de informações armazenadas dentro do banco, esses
relatórios podem demorar dias, semanas ou meses.
TECNOLOGIAS, FERRAMENTAS E TÉCNICAS
Data Mining ou Mineração de dados, como uma
disciplina combinada, representa uma variedade de métodos ou técnicas
utilizadas em diferentes capacidades analíticas que abordam uma gama de
necessidades organizacionais, respondem diferentes tipos de perguntas e usam
diferentes níveis de regras para se chegar a uma decisão.
Modelagem descritiva
A modelagem descritiva revela
semelhanças compartilhadas ou agrupamentos em dados históricos para determinar
as razões por trás do sucesso ou fracasso, como a categorização de clientes por
preferências por produtos ou emoções. Algumas destas técnicas são:
·
Clustering – agrupar registros semelhantes juntos.
·
Detecção de
anomalias – a
identificação de valores discrepantes multidimensionais.
·
Regras de
associação – a detecção
de relações entre os registros.
·
Análise de
componentes principais – a detecção
de relações entre as variáveis.
·
Agrupamento de
afinidades – agrupamento
de pessoas com interesses comuns ou objetivos semelhantes (por ex., pessoas que
compram X muitas vezes compram Y e, possivelmente, Z).
Modelagem preditiva
A modelagem
preditiva vai mais fundo para
classificar eventos no futuro ou estimar resultados desconhecidos – por
exemplo, usando escoragem de crédito para determinar a probabilidade que um
indivíduo tem de quitar um empréstimo. A modelagem preditiva também ajuda a
descobrir insights para situações como a probabilidade de um cliente migrar de
operadora ou seja, previsão ao churn, resposta para determinada campanha ou
padrões de crédito. Algumas destas técnicas são:
·
Modelos
de Regressão – modelos matemáticos que medem relação entre
uma variável dependente e uma série de variáveis independentes.
·
Redes
neurais – programas de computador que detectam padrões,
fazem previsões e aprendem.
·
Árvores
de decisão – diagramas que permitem representar e avaliar
problemas que envolvem decisões sequenciais, colocando em destaque os riscos e
os resultados financeiros identificados nos diversos cursos de ação.
·
Máquinas
de vetores de suporte – modelos de aprendizagem supervisionados que analisam os dados e
reconhecem padrões, usado para classificação e análise de regressão.
Modelagem prescritiva
A modelagem
prescritiva olha para as
variáveis internas, externas e restrições para recomendar um ou mais cursos de
ação – por exemplo, determinar a melhor oferta de marketing a ser enviada para
cada cliente. Algumas destas técnicas são:
·
Análise
preditiva aliada às regras – o desenvolvimento de regras If/Then de
padrões e previsão de resultados.
·
Otimização
do marketing – simulando a combinação de mídias mais vantajosa em tempo real para sua
empresa obtenha o maior ROI possível.
Com o crescimento de dados não estruturados a partir da
web, campos de comentários, livros, e-mail, PDFs, áudio e outras fontes de
texto, a adoção da mineração de texto como uma disciplina relacionada à
mineração de dados também tem crescido significativamente. Você precisa ter a
habilidade de analisar, filtrar e transformar com sucesso os dados não
estruturados para incluí-los em modelos preditivos e realizar previsões com
mais precisão.
Por fim, você não deve olhar para a mineração de dados
como uma área e autônoma porque o pré-processamento (preparação de dados,
exploração de dados) e o pós-processamento (validação do modelo, escoragem,
monitoramento do desempenho do modelo) são igualmente essenciais.
Modelagem preditiva
A modelagem
preditiva vai mais fundo para
classificar eventos no futuro ou estimar resultados desconhecidos – por
exemplo, usando escoragem de crédito para determinar a probabilidade que um indivíduo
tem de quitar um empréstimo. A modelagem preditiva também ajuda a descobrir
insights para situações como a probabilidade de um cliente migrar de operadora
ou seja, previsão ao churn, resposta para determinada campanha ou padrões de
crédito. Algumas destas técnicas são:
·
Modelos
de Regressão – modelos matemáticos que medem relação entre
uma variável dependente e uma série de variáveis independentes.
·
Redes
neurais – programas de computador que detectam padrões,
fazem previsões e aprendem.
·
Árvores
de decisão – diagramas que permitem representar e avaliar
problemas que envolvem decisões sequenciais, colocando em destaque os riscos e
os resultados financeiros identificados nos diversos cursos de ação.
·
Máquinas
de vetores de suporte – modelos de aprendizagem supervisionados que analisam os dados e
reconhecem padrões, usado para classificação e análise de regressão.
USOS DA MINERAÇÃO DE DADOS E EXEMPLOS NO MUNDO REAL
Uso nas comunicações
Nesse setor, define-se como desafio
identificar e entender grupos de clientes, determinando perfis, interesses e
comportamentos.
Em um mercado sobrecarregado e de
concorrência é apertada, as respostas estão muitas vezes nos dados de seus
consumidores. A empresa multimídia Sanoma utiliza
modelos analíticos para dar sentido a milhões de transações por semana, prever
o comportamento do cliente e oferecer campanhas altamente segmentadas e
relevantes.
Uso em
seguros
As seguradoras cada vez usam mais a técnica
de mineração de dados, cruzando os hábitos de um cliente e metrificando a ocorrência
de acidentes fatais. A partir dessa métrica, consegue-se definir se o cliente é
um bom plano para a seguradora.
Com o know-how analítico, as seguradoras
podem resolver problemas complexos relativos à fraude, compliance,
gerenciamento de riscos e atrito com os clientes, previnir cancelamentos, ou
churn. Usando o SAS para fixar preços de produtos em seus negócios pessoais e
comerciais, o OneBeacon Insurance Group melhorou seu índice de perda em 2 a 4
pontos e reduziu o tempo levado para construir modelos.
Uso na Educação
Com visualizações unificadas e voltadas para
os dados do progresso dos alunos, os educadores podem prever o desempenho dos
alunos antes que eles entrem na sala de aula – e desenvolver estratégias de
intervenção para mantê-los no caminho certo. Mais de 4.000 professores e 350
administradores no Plano Independent School
District podem acessar rapidamente os dados
dos alunos e prever as conquistas. Muitas das escolas do distrito estão com 90%
de desempenho.
Uso na Manufatura
Alinhar os planos de fornecimento com as
previsões da demanda é essencial, assim como a detecção precoce de problemas,
garantia de qualidade e investimento no valor da marca. A Volvo analisa mais de
100 parâmetros em seus veículos para prever o desgaste, evitar o tempo de
inatividade não planejado do cliente e prever possíveis criando assim, um tempo
de resposta mais rápido.
Uso em Serviços Financeiros
Algoritmos automatizados ajudam os bancos a
obter uma melhor visão dos riscos de mercado, detectar fraudes mais rápido,
gerenciar obrigações de conformidade regulatória e obter ótimos retornos sobre
seus investimentos em marketing. O HSBC tem usado técnicas de mineração de
dados para reduzir significativamente a incidência de fraudes em dezenas de
milhões de contas de cartão de débito e crédito.
Uso no Varejo
Grandes bancos de dados de clientes detêm
insights ocultos que podem ajudá-lo a melhorar as relações com os clientes,
otimizar campanhas de marketing e prever vendas. A Staples veicula
cerca de 1.500 campanhas em multicanais anualmente com base em 25 milhões de
registros de clientes. A análise dos dados dessa geração de campanhas mostrou
uma taxa de retorno de 137%.
Uso no Governo
Armadas com os dados corretos, as agências
podem tomar decisões mais rápido para manter os cidadãos seguros, reduzir o
peso que a fraude está colocando em programas governamentais e entrar em
sintonia com o sentimento do público. O HM Revenue & Customs do Reino Unido precisava de uma
solução de analytics de dados para ajudar a identificar a evasão fiscal e fraudes
significativas. O Analytics ajudou a agência a localizar bilhões de dólares em
receitas fiscais adicionais.
Uso em Assistência Médica
Com o analytics em ambiente de big data, as
seguradoras de saúde podem reduzir as reclamações de fraudes, integridades de
pagamentos, os prestadores de serviços hospitalares podem melhorar ao resultado
dos pacientes, e os pacientes podem receber cuidados mais acessíveis e seguros.
A Blue Cross and Blue Shield of North Carolina usou modelos preditivos para
determinar o potencial de readmissão do paciente em risco para que ela pudesse
interagir mais com os pacientes antes da alta. O modelo de dados supera
corretamente a probabilidade em 400% na identificação dos pacientes.
PERSPECTIVA
DA MINERAÇÃO DE DADOS
Exemplo: HP
Com o analytics em ambiente de big data, as
seguradoras de saúde podem reduzir as reclamações de fraudes, integridades de
pagamentos, os prestadores de serviços hospitalares podem melhorar ao resultado
dos pacientes, e os pacientes podem receber cuidados mais acessíveis e seguros.
A Blue Cross and Blue Shield of North Carolina usou modelos preditivos para
determinar o potencial de readmissão do paciente em risco para que ela pudesse
interagir mais com os pacientes antes da alta. O modelo de dados supera
corretamente a probabilidade em 400% na identificação dos pacientes.
FONTES
https://mineracaodedados.wordpress.com/2012/06/24/o-curioso-caso-da-aplicacao-da-mineracao-de-dados-no-setor-de-seguros-pessoais/
http://blog.mjv.com.br/data-mining-para-alavancar-a-sua-estrategia-de-marketing
http://www.sas.com/pt_br/insights/analytics/mineracao-de-dados.html
http://www.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-INF_001-09.pdf
https://msdn.microsoft.com/pt-br/library/ms174949.aspx
FONTES
https://mineracaodedados.wordpress.com/2012/06/24/o-curioso-caso-da-aplicacao-da-mineracao-de-dados-no-setor-de-seguros-pessoais/
http://blog.mjv.com.br/data-mining-para-alavancar-a-sua-estrategia-de-marketing
http://www.sas.com/pt_br/insights/analytics/mineracao-de-dados.html
http://www.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-INF_001-09.pdf
https://msdn.microsoft.com/pt-br/library/ms174949.aspx