23
Revisão de Dados Eletrônicos - Desafios e Oportunidades 14/11/2013 II Congresso Brasileiro de Computação Forense - Mackenzie Osvaldo Aranha Neto [email protected]

Congresso cf analise_de_dados vshare

Embed Size (px)

Citation preview

Page 1: Congresso cf analise_de_dados vshare

Revisão de Dados Eletrônicos - Desafios e Oportunidades

14/11/2013

II Congresso Brasileiro de Computação Forense - Mackenzie

Osvaldo Aranha [email protected]

Page 2: Congresso cf analise_de_dados vshare

2

Índice Cenário

Introdução, Histórico e Desafios

Conceitos: E-discovery

Etapas (pre-processing, processing, hosting, review etc)

Soluções / Novas formas de análise: Text Categorization, Deception Theory,...

Page 3: Congresso cf analise_de_dados vshare

3

1

Page 4: Congresso cf analise_de_dados vshare

4

Cenário

2

Page 5: Congresso cf analise_de_dados vshare

5

Cenário

3 4

5

Page 6: Congresso cf analise_de_dados vshare

6

Introdução e Histórico E-Discovery

Foco em acesso e revisão de arquivos

Início EUA com lei específica (pós SOX)

Benefícios: Maior agilidade e controle

Centralização e real-time

Suporte a grande volume de dados

Page 7: Congresso cf analise_de_dados vshare

7

Introdução e Histórico Histórico no Brasil

Demanda recente

Antes existia apenas a CF

Adoção por consultorias

Desafios:

Pouca mão de obra especializada

Ferramentas inapropriadas para grandes volumes

Questão das palavras-chaves – “Segue propina”

6

Page 8: Congresso cf analise_de_dados vshare

Dados DisponíveisDados ColetadosDados RevisadosDados Relevantes

8

Conceitos

Page 9: Congresso cf analise_de_dados vshare

eDiscovery Reference Model

Gerenciamento da Informação Identificação

Preservação

Coleta

Processamento

Revisão

Análise

Produção Apresentação

VolumeRelevãncia

Fases do Electronic Discovery

9

Page 10: Congresso cf analise_de_dados vshare

Fase I: Onde estão os dados? Fase II: Coleta e Preservação de dados

Fase III: Preparação e Pré-Processamento Fase IV: Importação de dados e Indexação

Etapas

10

Page 11: Congresso cf analise_de_dados vshare

Analytic Forensic Technology

11

ALGUMAS PREMISSAS Apresentação estruturada dos resultados filtrados;

Marcação de documentos com categorização (labels);

Filtragem de resultados pendentes de aprovação da 2ª. revisão (2nd level review);

Ambiente User friendly

Trilha de auditoria / log de histórico.

Custos

Prazos

Conhecimentos técnicos

Etapas – Visão Geral

PROBLEMAS

Page 12: Congresso cf analise_de_dados vshare

Exemplo : Coleta de 10.000 emails

Filtro 1: Período de 2 semanas entre 1

Novembro e 14 de Novembro e sem

duplicados: 1.000 emails

Filtro 2: Somente emails com

@vendor.com500 emails

Filtro 3: Aplicação de

palavras chaves

Novas Formas: Early Case Assessment

12

Page 13: Congresso cf analise_de_dados vshare

Novas Formas: Visualization Tools

13

7

98

Page 14: Congresso cf analise_de_dados vshare

14

Novas Formas: Dynamic Review / Text Categorization

Grupo de Documentos

Humanos revisam e criam rótulos para uma pequena parte

Ferramentas definem categorias de rótulos para o restante

Alguns pontos importantes: Validação Adequação à realidade Custos Prazo Necessidade de automação

Page 15: Congresso cf analise_de_dados vshare

15

Novas Formas: Predictive Coding / Analytics - Modelo atual“Ensinando a base”

“Previsão ”

Bases históricas de e-mails

Bases de dados artificiais

Base de Dados (Legado)

Comparação“Não revisados”

Relevantes e Falsos Positivos

Page 16: Congresso cf analise_de_dados vshare

16

Novas Formas: Predictive Coding / Deception Theory – Nova proposta”Treinamento”

“Previsão (Scoring)”

Casos Positivos

Casos NegativosAlgoritmo

Modelo de Classificação

Previsões de classificação

(Scores)

E-mails do mundo real.“Não revisados”

Revisão e CQ

Page 17: Congresso cf analise_de_dados vshare

17

Predictive Coding / Deception Theory – Nova proposta

2 - Categorizar

3 - Definir Pontuação

4- Validar5 - Interagir

1- Submeter

Page 19: Congresso cf analise_de_dados vshare

Analytic Forensic Technology

19

Ganhos de produtividade indiscutíveis

Novas tecnologias ainda sendo aprimoradas (Linguística computacional, “Spotting Substitution”) e implantadas nas ferramentas

Novas funcionalidades sendo implantadas (Contagem de vezes que uma palavra foi digitada ou seguida de outra, tamanho, etc)

Dúvidas quanto a eficácia das novas metodologias (Busca por “conceitos utilizando taxonomias, ontologias,etc). Ainda pouco utilizado com dados reais (Enron)

Ainda muito custoso e pouco utilizado no Brasil

Conclusões Necessidade de combinação com outras

tecnologias. Ex. Deduplicação, análise de redes sociais, etc

Dificuldade de explicar para C-level, na corte e para o jurídico brasileiro

Necessidade de maior integração do campo acadêmico com empresas

Ainda não há um “produto de pratileira”. Necessidade de customização

Grandes desafios com análises de imagens e números. Ex Planilhas, e com dados “na nuvem”

Ainda uma longa estrada pela frente....

Page 20: Congresso cf analise_de_dados vshare

Dúvidas???

20

10

Page 22: Congresso cf analise_de_dados vshare

1 - http://youpix.com.br/news/o-que-acontece-em-1-minuto-na-internet-veja-aqui-o-infografico-de-2013/2 - http://www.datacenterknowledge.com/archives/2011/05/09/the-mobile-cloud-what-it-is-why-it-matters/3 - http://www.afterschoolafrica.com/6844/scholarships-for-african-developing-deadline-march/4 - http://newhiteboard.com/2013/03/18/kip-steele-how-to-save-money-on-your-2013-startup/5 - http://ncicl.org/article/7166 - http://www.cartoonstock.com/directory/s/spam_email.asp7 – http://infosthetics.com/archives/2009/12/help_us_review_visualization_software_and_tools.html8 - http://www.toprankblog.com/2010/08/6-facebook-search-engine-data-visualization-tools/9 - http://www.poynter.org/how-tos/digital-strategies/115906/how-to-use-fun-and-free-data-visualization-tools-for-online-storytelling/10 - http://pamigarcia.com/wp-content/uploads/2012/10/duvidas.jpg

22

Figuras

Page 23: Congresso cf analise_de_dados vshare

Obrigado!!!!

[email protected]