Upload
ambiente-livre
View
408
Download
2
Embed Size (px)
DESCRIPTION
Palestra Ministrada no FTSL 2014 pela Rafaela Raganham Por que esse nome está cada dia mais presente no ambiente de Tecnologia da Informação.
Citation preview
Big Data, o que é isso? O que é isso?
Rafaela Raganham
● Formada em Sistemas de Informação, pela Faculdades Integradas do Brasil (Unibrasil).
● MBA Business Intelligence (Positivo)● Palestrante FISL, FTSL, SFD e Solisc
Desempenha funções de análise e desenvolvimento de sistemas desde 2008, atualmente trabalha na Ambiente Livre Tecnologia onde presta serviços de desenvolvimento, customizações e consultoria em sistemas open source.
Ecosistema
Todo mundo está falando sobre Big Data
Nossa sociedade está deixando para trás uma pegada digital.As pessoas estão vivendo em linha e todos estamos expressando nossas atitudes, gostos, desgostos, opiniões e perspectivas.
Indivíduos com smartphones e sites de redes sociais continuarão a impulsionar o crescimento de dados exponencialmente
• 90% dos dados no mundo de hoje foram criados nos últimos dois anos
• Previsão IDC: O universo global de dados irá dobrar a cada dois anos, chegando a 40 mil exabytes ou de 40 trilhões de GB até 2020
• Internet Archive tem em torno de 2 petabytes de dados, e está crescendo a uma taxa de 20 terabytes por mês.
• 30 bilhões de conteúdos foram adicionados ao Facebook
• 2 bilhões de vídeos são vistos no Youtube
• 2,5 quintilhões de bytes de dados é criado
● Então o que é BIG DATA ?!
"Big Data é a capacidade de uma empresa para armazenar, processar e acessar todos os dados de que necessita para funcionar, tomar decisões, reduzir riscos, e servir os clientes." - Forrester
"Big Data, em geral, é definido como alto volume, velocidade e variedade ativos de informação que exigem formas eficazes e inovadoras de custos de processamento de informações para uma melhor percepção e tomada de decisão." - Gartner
"Big data são os dados caracterizados por três atributos: volume, variedade e velocidade." - IBM
"Big data são os dados caracterizados por quatro atributos principais: volume, variedade, velocidade e valor." - Oracle
\
\
Byte: um grão de arroz
\
\
Byte: um grão de arroz
Kilobyte: xícara de arroz
\
\
Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
\
\
Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
\
\
Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios com containers
\
\
Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios com containers
Petabyte: Estado de Manhattan
\
\
Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios de containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste
\
\
Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios de containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste Zettabyte: Oceano Pacífico
\
\
Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios de containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste Zettabyte: Oceano Pacífico
Yottabyte: A TERRA
\Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios de containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste Zettabyte: Oceano Pacífico
Yottabyte: A TERRA
Hobbyist
\Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios com containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste Zettabyte: Oceano Pacífico
Yottabyte: A TERRA
Desktop
Hobbyist
\Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios com containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste Zettabyte: Oceano Pacífico
Yottabyte: A TERRA
Internet
Desktop
Hobbyist
\Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios com containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste Zettabyte: Oceano Pacífico
Yottabyte: A TERRA
Hobbyist
Big Data
Desktop
Internet
\Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios de containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste Zettabyte: Oceano Pacífico
Yottabyte: A TERRA
Volume refere-se a grande quantidade de dados gerados a cada segundo.Isso faz com que a maioria dos conjuntos de dados sejam muito grandes para armazenar e analisar usando a tecnologia de banco de dados tradicional.
Novas ferramentas de Big Data utilizam sistemas distribuídos de modo que podemos armazenar e analisar os dados entre bancos de dados que estão espalhados em qualquer lugar do mundo
Velocidade refere-se à velocidade com que os novos dados são gerados e a velocidade com que se move em torno de dados. Basta pensar em mensagens de mídia social que se tornam viral em segundos. A tecnologia nos permite agora a analisar os dados enquanto ele está sendo gerado (por vezes referido como inMemory analytics), sem nunca colocá-lo em bases de dados
Variedade refere-se aos diferentes tipos de dados que podemos agora utilizar. No passado, apenas eram usados dados estruturados cuidadosamente armazenados em bancos de dados relacionais.
80% dos dados do mundo são não-estruturados (texto, imagens, vídeo, voz, etc) com grande tecnologia de dados, podemos agora analisar e reunir dados de diferentes tipos, tais como mensagens, conversas de mídia social, fotos, dados do sensor , vídeo ou gravações de voz.
Veracidade refere-se a confiabilidade dos dados. Com muitas formas de grandes qualidades e precisão dos dados são menos controláveis (basta pensar em posts no Twitter com hash tags, abreviações, erros de digitação e linguagem coloquial, bem como a confiabilidade e a precisão do conteúdo), mas agora a tecnologia permite-nos trabalhar com este tipo de dados .
Veracidade
Valor! Ter acesso a big data não é bom a menos que possamos transformá-lo em valor. As empresas estão começando a gerar valores incríveis com Big Data
Valor
Compreensão e segmentação de clientes
Entendimento e otimização de processos de negócios
● Quantificação pessoal e otimização de desempenho
● Melhorar a Saúde e Saúde Pública
● Melhorando o desempenho Sports
● Melhorar a Ciência e Investigação
● Otimização de máquinas e dispositivos de desempenho
● Melhorar a segurança e aplicação da lei.●
● Melhorar e optimizar Cidades e Países●
● Negociação financeira
• Compreensão e segmentação de clientes•
• O grande objetivo, em muitos casos, é a criação de modelos preditivos
•
• → Empresas de seguros de automóveis entender o quão bem os seus clientes realmente podem conduzir
• → Campanhas eleitorais do governo podem ser otimizada utilizando grandes análise de dados
•
• Entendimento e otimização de processos de negócios
• Big data também é cada vez mais utilizada para otimizar processos de negócios. Os varejistas são capazes de otimizar suas ações com base em previsões geradas a partir de dados de mídia social, as tendências de pesquisa na web e previsões meteorológicas.
•
● Quantificação pessoal e otimização de desempenho•
• Podemos nos beneficiar dos dados gerados a partir de dispositivos portáteis, tais como relógios inteligentes ou pulseiras inteligentes
•
• A outra área em que nos beneficiamos com grandes análises de dados é encontrar o amor. A maioria dos sites de namoro online aplicam ferramentas de big data e algoritmos para nos encontrar os pefis mais adequados.
•
• Melhorar a Saúde e Saúde Pública
• Técnicas de Big Data já estão sendo usados para monitorar bebês em uma unidade de bebê prematuro e doente especialista. Ao registrar e analisar cada batida do coração e padrão de cada bebê respirando, o aparelho foi capaz de desenvolver algoritmos que agora podem prever infecções 24 horas antes de qualquer sintoma físico aparecer
● Melhorando o desempenho Sports•
• Usando a análise em vídeo que monitoram o desempenho de cada jogador em um jogo de futebol ou de beisebol nos permitem obter feedback (via smartphones e servidores em nuvem) nos jogos e como melhorá-los. Muitas equipes desportivas de elite também acompanham os atletas fora do ambiente esportivo - usando a tecnologia inteligente para monitorar a nutrição e sono, assim como as conversas de mídia social para monitorar o bem-estar emocional.
•
•
•
•
•
•
• Copa do Mundo 2014 - Seleção Alemanha
Treino - Em 10 minutos de treino, 10 jogadores geram mais de 7 milhões de dados que são processados em tempo real
Jogo – Com o histórico de dados coletados nos treinos o técnico pode saber quando um jogador chegou ao seu limite físico
Pós treino e jogo – Cada jogador recebe acesso a curtos clipes de sua participação nos jogos além do seu desempenho físico e média da equipe
→ Magazine Luiza investe em projeto de Big Data, a niciativa busca direcionar recomendações de produtos em tempo real para seus clientes.
→ Netshoes - Mercado de e-commerce, que permitia e facilitava trabalhar com muita inteligência as informações
→Petrobras - Otimização e Monitoramento da ProduçãoAnálise preditiva para a Logistica de Armazenamento
→ Inpe
Um cientista de dados representa uma evolução do papel de negócios ou analista de dados
O que define o cientista de dados e o que o diferencia é forte visão de negócios, juntamente com a capacidade de comunicar os resultados, tanto para negócios e líderes de TI de uma forma que pode influenciar a forma como uma organização se aproxima de um desafio empresarial. Bons cientistas de dados não vão apenas resolver problemas de negócios, eles vão escolher os problemas certos que têm o maior valor para a organização.
Habilidades para um bom cientista de dados
CuriosidadeCriatividadeFocoAtenção aos detalhes
O cientista de dados, vive em três mundos:
● Negócios● TI● Matemática
É possível visualizar no LinkedIn que muitas das vagas para “data scientist” requerem um “full stack engineer”, alguém que domina todo o processo de ciência de dados.
Muitos das melhores e mais conhecidas ferramentas de dados disponíveis são grandes projetos de código aberto. O mais conhecido deles é o Hadoop, o que está gerando toda uma indústria de serviços e produtos relacionados.
HadoopMapReduceCassandraHbaseMongoDBMahoutPigZookeeper
Como começar um projeto Big Data?
● Problema. Determine quais são os problemas que você pretende resolver.
● Impacto. Entenda como esses problemas vão impactar no seu negócio. É a sua equipe que vai estar fazendo a entrada de dados e análise ? Como é que este problema afeta a sua organização?
● Os critérios de sucesso. Como você mede o sucesso? Quais são as principais métricas que você precisa para acompanhar todo este processo?
● Impacto. O que você precisa entender claramente é que se este problema fosse resolvido, o que significaria para sua empresa? Este é tipicamente um dos passos mais importantes, uma vez que ajuda a determinar o que, como e quando você deve avançar com este projeto
● Cloud. Decida onde a solução deve estar, se deve ser uma nuvem, solução híbrida, etc.
● Requisitos de dados. Avalie sua exigência de dados e entenda quais dados são necessários para resolver este problema. É dados que você já tem? É de dados que você deve buscar?
● Identificar lacunas. Você tem pessoal suficiente para resolver este problema? Eles são capazes de resolver este problema? Você vai precisar de hardware ou software?
● Abordagem ágil. Comece com uma pré-produção ou uma implementação piloto. Defina os objetivos e metas e divida em partes gerenciáveis.
● http://www1.folha.uol.com.br/infograficos/2014/07/84881-futebol-bigdata.shtml
● http://oss-institute.org/latest-news/781-4-hot-open-source-big-data-projects
● http://www.bigdata-startups.com/open-source-tools/
● http://www.itforum365.com.br/noticias/detalhe/19927/habilidades-para-um-bom-cientista-de-dados
● http://pt.slideshare.net/dwellman/what-is-big-data-24401517
● http://pt.slideshare.net/conniedinnella/what-is-big-data-28714627?related=1
● http://www.ikanow.com/8-proven-steps-to-starting-a-big-data-analytics-project/
Contatos
Www.ambientelivre.com.br/blogs/rafaela
Www.ambientelivre.com.br