Upload
alessandro-binhara
View
264
Download
2
Embed Size (px)
DESCRIPTION
Atualmente o facebook recebe diariamente cerca de 380 milhões de fotos por dia, isso significa um custo de milhares de computadores para conseguir armazenar esse volume de dados. Mas por que o facebook, google e outros mantem serviço gratuitos se tem um custo alto para operar esses serviços? Conheça um pouco da tecnologia por trás desse serviços, a legalidade do armazenamento e rastreamento dos dados, e por que essa empresa investem tanto para dar um serviço de graça.
Citation preview
Alessandro Binhara
Data Scientist & Mobile ExpertMestre em Tecnologia (UTFPR)Bacharel em TIC, Técnico Eletrônica (CEFET-PR)Mono Hacker desde 2003Fundador Projeto MonoBrasilLinguagens Fluente: C#, Java, PIG, PHP, Ruby., ...BigData: Hadoop, MapReduce Mahout, Hbase, Cassandra, Hive, Sqoop,Consultor Autorizado Xamarin
Armazena ?
Vende ?
Empresta?
Espiona ?
Divulga?
Não faz nada?
• Seus contatos
• Seus comentários
• Suas mensagens
• Seus postes
• Sua Localização
• Quanta informação o facebook sa
http://www.extremetech.com/extreme/178777-facebooks-facial-recognition-software-is-now-as-accurate-as-the-human-brain-but-what-now
DeepFace pode olhar para duas fotos , e independentemente da iluminação ou do ângulo, pode-se dizer com precisão 97,25 % se as fotos contêm o mesmo rosto. Os seres humanos podem executar a mesma tarefa com precisão 97,53 %.Usa IA com redes neurais , consiste em um grupo de neurônios nove camadas profundas , e em seguida um processo de aprendizagem que vê a criação de 120 milhões de conexões (sinapses) entre esses neurônios , com base em um corpus de quatro milhões de fotos de rostos
• Em janeiro de 2011• “As pessoas celebraram o ano novo no Facebook enviando um número
recorde de fotos – 750 milhões somente no fim de semana!”, comunicou a diretora via Twitter, nesta terça-feira (4/1).
• Simples, todos os dias o facebook recebe mais de 200 milhões de fotos!!!
• Como armazena e consegue processar tudo isso???
• O cientista de dados é um especialista em análise de informações. A característica mais importante desse profissional é a capacidade analítica. Por isso, quem tem uma sólida formação em matemática e lógica, como engenheiros, economistas, estatísticos e matemáticos, é forte candidato a se sair bem na carreira.
• “Ter um consistente background em matemática é fundamental, senão a pessoa tem que suar muito para preencher a lacuna", Fundação Getúlio Vargas do Rio de Janeiro (FGV-RJ), 2011.
Salário mediano anual em
milhares de dólares dividido
pelos grupos identificados. Fonte: O'Reilly.
• O Apache Hadoop é um projeto desenvolvimento como open-source software para escalável , confiável e com processamento distribuído. Um sistema escalável e confiável para armazenamento compartilhado e análises. Ele automaticamente trata da replicação de dados e das falhas em cada nó. Ele faz o trabalho duro, o desenvolvedor pode se concentrar em processamento da lógica de dados Permite que os aplicativos usem petabytes de dados em paralelo.
O que é Hadoop ?
Por que ? • Requisitos
• 500M+ usuário únicos por mês
• Bilhões de eventos interessantes por dia
• Necessidade de scalabilidade massiva
• PB’s de storage, milhares de arquivos, 1000’s de nós
• Necessidade de ter baixo custo• Uso de hardware comum
• Compartilhar recursos com vários projetos
• Fornecer escala quando necessário
• Precisa de infraestrutura confiável• Deve ser capaz de lidar com falhas -
hardware, software, networking
• A falha é esperada, e não uma exceção
• Transparente para as aplicações• muito caro para construir confiabilidade em
cada aplicação
• A infra-estrutura do Hadoop prove essas capacidade.
Hadoop no FaceBook• Cluster em produção
• 4800 cores, 600 máquina, 16GB por máquina
• 8000 cores, 1000 máquinas, 32 GB por máquina
• 4 SATA discos de 1 TB por máquina
• 2 níveis de rede hierárquica, 40 máquinas por rack
• Total do tamanho do cluster 2 PB, projetado para 12 PB no Q3 2009
• Em 2010 - A 1100-machine cluster with 8800 cores and about 12 PB raw storage.
• Atualmente eles moveram 30PB de para um novo Cluster
• Todos os dias o Facebook recebe 380milhões de novas fotos
• Atualmente o Yahoo tem um cluster com mais de 42mil máquinas de teste
HDFS – Hadoop File System
• Inspirado em GFS• Projetado para
trabalhar com arquivos muito grandes• Executado
em hardware commodity• Streaming de acesso a
dados• Replicação e localidade
HDFS- MapReduce Data Flow
HDP: Enterprise Hadoop Distribution
Hortonworks Data Platform (HDP)
Enterprise Hadoop
• A única 100% open source e completa
• Classe empresarial, provado e testado em escala
• Ecossistema endossado para garantir a interoperabilidade
Caso você leia todos os contratos vai gastar 180h
Seria um 1mês inteiro de trabalho por ano.
Segundo ... WallStret jornal:
“Consumidores perdem 250bilhões de dólares ao ano com clausulas escondidas em letras pequenas”
• Você da não exclusivamente, irrevogavelmente, perpétuo, ilimitado, transferível sublicenciável, livre de roaylties para copiar, preparar trabalhos derivados de, molhorar, distribuir, publicar , manter,....
• O Linkedin se apropria de tudo para sempre.
• O Instagram se dá ao direito de vender as suas fotos sem compensação posteriores para uso comerciais.
• Para que fim essas informações seriam usadas ?
• E se as empresa fizesse mau uso dessas informações?
• E se o governo utiliza-se dessa informações para espionagem ?
• Somente por causa dos termos de uso e condições...
• Quanto vale essa informação ?
• Você está disposto a fornecer tuas informações para receber um cachorro quente de graça?
• O Licenciamento do Iphone não menciaona a possibilidade de grampear seu telefone .
• Mas o contrato da AT&T menciona :
• Para “Investigar, prevenir ou reagir em relação atividades ilegais”
Sistema de Recomendação• Sistema de Recomendação de Produtos
• Vitrines inteligentes para lojas online
• Aumento em 60% o volume de faturamento das lojas
• Cluster com 70nós
• Mais de 1.5 milhões de transações por segundo
• Em 2001 , Mais de um dúzia leis fora criadas nos EUA para proteger a privacidade dos usuários... Mas....7 meses depois ...
• Todas as leis foram revogadas
• ou abandonadas
Em Assinatura do Ato PatriotaA lei permite a vigilância de todas as comunicações, email, internet, telefones, etc...
• Uso de Cookies anônimos no passado
• Mudanças para cookies que podem ser identificados.
• Os termos do google mudaram e lá está escrito ”..apesar de anônimos os dados, usuários podem ser identificados quanto tiver necessidade.”
• Em 2009, facebook tornou padrão como público no facebook.
• Mesmo que você delete algo, continua lá.
• Google Esta cruzando todos os dados na internet
• Empresas de cartão de crédito estão usando para definir limite de crédito. Caso de pessoas nos EUA que tiveram seus limites de cartão reduzidos
• Bancos usam para aprovar ou não a abertura de contas.
• Um caso de um cidadão que começou a receber promoções de produto para gestantes. E foi indignado a loja.
• Empresa de seguro estão usando seus hábitos de compras, exemplo: Se você costuma comprar bebidas alcoólicas você apresenta um risco maior
• Empresa de GPS
• Vendendo os hábitos dos motoristas para a policia local para chegar em casa mais rápido
• A policia passou a colocar radares e fiscalizar essas rodas
• Aplicando multas aos motoristas
• Governo dos EUA esta digitalizando todas as informações disponíveis.
• Eles podem prever o que esta acontecendo no país e fora.
• NSA é 3X maior que a CIA
• E muito mais secreto que a CIA
O Carrier IQ é, em sua essência, um software que registra TODOS os dados relacionados ao seu comportamento de uso de um celular. Abriu o site do banco? Digitou palavrão no SMS? O Carrier IQ sabe. Abriu um site pornográfico? Ele também sabe.
O Logging Test App, para Android, é o mais conhecido, pois oferece tanto a função de identificação quanto a de remoção. O Voodoo Carrier IQ Detector apenas localiza a posição do famigerado software em seu aparelho -função esta também exercida pelo Carrier IQ Detector.
[email protected]@binharawww.azuris.com.brwww.gucrossmobile.com.brwww.facebook.com/gucrossmobilewww.monobrasil.com/gux.html