Upload
osvaldo-neto
View
256
Download
0
Embed Size (px)
Citation preview
Revisão de Dados Eletrônicos - Desafios e Oportunidades
14/11/2013
II Congresso Brasileiro de Computação Forense - Mackenzie
Osvaldo Aranha [email protected]
2
Índice Cenário
Introdução, Histórico e Desafios
Conceitos: E-discovery
Etapas (pre-processing, processing, hosting, review etc)
Soluções / Novas formas de análise: Text Categorization, Deception Theory,...
3
1
4
Cenário
2
5
Cenário
3 4
5
6
Introdução e Histórico E-Discovery
Foco em acesso e revisão de arquivos
Início EUA com lei específica (pós SOX)
Benefícios: Maior agilidade e controle
Centralização e real-time
Suporte a grande volume de dados
7
Introdução e Histórico Histórico no Brasil
Demanda recente
Antes existia apenas a CF
Adoção por consultorias
Desafios:
Pouca mão de obra especializada
Ferramentas inapropriadas para grandes volumes
Questão das palavras-chaves – “Segue propina”
6
Dados DisponíveisDados ColetadosDados RevisadosDados Relevantes
8
Conceitos
eDiscovery Reference Model
Gerenciamento da Informação Identificação
Preservação
Coleta
Processamento
Revisão
Análise
Produção Apresentação
VolumeRelevãncia
Fases do Electronic Discovery
9
Fase I: Onde estão os dados? Fase II: Coleta e Preservação de dados
Fase III: Preparação e Pré-Processamento Fase IV: Importação de dados e Indexação
Etapas
10
Analytic Forensic Technology
11
ALGUMAS PREMISSAS Apresentação estruturada dos resultados filtrados;
Marcação de documentos com categorização (labels);
Filtragem de resultados pendentes de aprovação da 2ª. revisão (2nd level review);
Ambiente User friendly
Trilha de auditoria / log de histórico.
Custos
Prazos
Conhecimentos técnicos
Etapas – Visão Geral
PROBLEMAS
Exemplo : Coleta de 10.000 emails
Filtro 1: Período de 2 semanas entre 1
Novembro e 14 de Novembro e sem
duplicados: 1.000 emails
Filtro 2: Somente emails com
@vendor.com500 emails
Filtro 3: Aplicação de
palavras chaves
Novas Formas: Early Case Assessment
12
Novas Formas: Visualization Tools
13
7
98
14
Novas Formas: Dynamic Review / Text Categorization
Grupo de Documentos
Humanos revisam e criam rótulos para uma pequena parte
Ferramentas definem categorias de rótulos para o restante
Alguns pontos importantes: Validação Adequação à realidade Custos Prazo Necessidade de automação
15
Novas Formas: Predictive Coding / Analytics - Modelo atual“Ensinando a base”
“Previsão ”
Bases históricas de e-mails
Bases de dados artificiais
Base de Dados (Legado)
Comparação“Não revisados”
Relevantes e Falsos Positivos
16
Novas Formas: Predictive Coding / Deception Theory – Nova proposta”Treinamento”
“Previsão (Scoring)”
Casos Positivos
Casos NegativosAlgoritmo
Modelo de Classificação
Previsões de classificação
(Scores)
E-mails do mundo real.“Não revisados”
Revisão e CQ
17
Predictive Coding / Deception Theory – Nova proposta
2 - Categorizar
3 - Definir Pontuação
4- Validar5 - Interagir
1- Submeter
EDRM - http://www.edrm.net/
http://www.aceds.org/
http://www.gartner.com/technology/reprints.do?id=1-1FYV205&ct=130610&st=sb
http://homepage.psy.utexas.edu/HomePage/Faculty/Pennebaker/Reprints/Tausczik&Pennebaker2010.pdf
http://homepages.inf.ed.ac.uk/ballison/pdf/sanaz_lrec08.pdf
http://www.cs.columbia.edu/~julia/papers/Hancocketal08.pdf
http://www.iula.upf.edu/materials/050603vazquez.pdf
http://cklixx.people.wm.edu/teaching/m2999-3f.pdf
18
Referências
Analytic Forensic Technology
19
Ganhos de produtividade indiscutíveis
Novas tecnologias ainda sendo aprimoradas (Linguística computacional, “Spotting Substitution”) e implantadas nas ferramentas
Novas funcionalidades sendo implantadas (Contagem de vezes que uma palavra foi digitada ou seguida de outra, tamanho, etc)
Dúvidas quanto a eficácia das novas metodologias (Busca por “conceitos utilizando taxonomias, ontologias,etc). Ainda pouco utilizado com dados reais (Enron)
Ainda muito custoso e pouco utilizado no Brasil
Conclusões Necessidade de combinação com outras
tecnologias. Ex. Deduplicação, análise de redes sociais, etc
Dificuldade de explicar para C-level, na corte e para o jurídico brasileiro
Necessidade de maior integração do campo acadêmico com empresas
Ainda não há um “produto de pratileira”. Necessidade de customização
Grandes desafios com análises de imagens e números. Ex Planilhas, e com dados “na nuvem”
Ainda uma longa estrada pela frente....
Dúvidas???
20
10
EDRM - http://www.edrm.net/
http://www.aceds.org/
http://www.gartner.com/technology/reprints.do?id=1-1FYV205&ct=130610&st=sb
http://homepage.psy.utexas.edu/HomePage/Faculty/Pennebaker/Reprints/Tausczik&Pennebaker2010.pdf
http://homepages.inf.ed.ac.uk/ballison/pdf/sanaz_lrec08.pdf
http://www.cs.columbia.edu/~julia/papers/Hancocketal08.pdf
http://www.iula.upf.edu/materials/050603vazquez.pdf
http://cklixx.people.wm.edu/teaching/m2999-3f.pdf
21
Referências
1 - http://youpix.com.br/news/o-que-acontece-em-1-minuto-na-internet-veja-aqui-o-infografico-de-2013/2 - http://www.datacenterknowledge.com/archives/2011/05/09/the-mobile-cloud-what-it-is-why-it-matters/3 - http://www.afterschoolafrica.com/6844/scholarships-for-african-developing-deadline-march/4 - http://newhiteboard.com/2013/03/18/kip-steele-how-to-save-money-on-your-2013-startup/5 - http://ncicl.org/article/7166 - http://www.cartoonstock.com/directory/s/spam_email.asp7 – http://infosthetics.com/archives/2009/12/help_us_review_visualization_software_and_tools.html8 - http://www.toprankblog.com/2010/08/6-facebook-search-engine-data-visualization-tools/9 - http://www.poynter.org/how-tos/digital-strategies/115906/how-to-use-fun-and-free-data-visualization-tools-for-online-storytelling/10 - http://pamigarcia.com/wp-content/uploads/2012/10/duvidas.jpg
22
Figuras
Obrigado!!!!