Flisol 2016 fidelis - Curitiba - PR - Brazil

Como consumir e minerar dados abertos com Software Livre

Marcos Vinicius Fidelis

Palestrante

Professor da UTFPR na graduação desde 1996, e Analista de Informática da UEPG desde 1991.

Pesquisador e usuário do WEKA (atual Pentaho Data Mining) desde 1999.

Entusiasta de Software Livre e Código Aberto desde 2007.

Na UEPG é Coordenador de Projetos na Área de Gestão Acadêmica, e em 2009 implantou os Frameworks Grails e JasperReports utilizados no Sistema de Gestão Acadêmica.

Na UTFPR, entre outros softwares, adota o PostgreSQL e Pentaho.

Participou como palestrante nos seguintes eventos de Software Livre: FISL, Flisol, FTSL, Latinoware e PentahoDay.

Roadmap

● Open Data ● Internet of Things● Data Mining● Knowledge Database Discovery● Classification● Pentaho Data Mining – WEKA● ARFF, Explorer, Experimenter● Pentaho Data Integration – Kettle● Hands on● Conclusion

Uma revolução de dados para quem?

● A crescente disponibilidade de dados digitais e de tecnologias de dados levou muitos grupos da sociedade civil, governos e organizações internacionais a falar de uma “revolução de dados”. Mas que tipos de projetos políticos, modelos de cidadania e formas de ação irá a tal revolução de dados permitir? E a quem irá, em última análise, servir?

Dados Abertos

Que são dados abertos?

“Dados abertos são aqueles que podem ser usados, reutilizados e distribuídos livremente por qualquer pessoa – no máximo exigindo-se que a fonte seja citada ou que os dados sejam divulgados com a mesma licença.”

Quais tipos de Dados Abertos?

● Geográficos: dados utilizados na criação de mapas (desde a localização de estradas e construções até topografia e limites)

● Culturais: dados sobre obras culturais e artefatos (por exemplo títulos e autores – geralmente coletados e mantidos por galerias, bibliotecas, arquivos e museus)

● Científicos: dados produzidos como parte de pesquisas científicas, desde astronomia até zoologia.

● Financeiros: dados como contas governamentais (receitas e despesas) e informações sobre mercados financeiros (títulos ações, etc).

● Estatísticos: dados produzidos por serviços de estatísticas, como censo e indicadores socioeconômicos.

● Clima: os vários tipos de informações utilizadas para compreender e prever o clima e o tempo.

● Ambiente: Informações relacionadas ao meio ambiente, como presença e nível de poluentes, a qualidade dos rios e oceanos.

● Transporte: dados como horários, rotas e estatísticas pontuais.

Portais de Dados abertos

Internet of things - IoT

Por que Dados Abertos?

● Transparência● Liberando valor social e comercial● Participação e engajamento● e ainda ...

Plataforma Pentaho

O que é Mineração de Dados?

● é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados.

● É formada por um conjunto de ferramentas e técnicas que através do uso de algoritmos de aprendizagem ou classificação baseados em redes neurais e estatística, são capazes de explorar um conjunto de dados, extraindo ou ajudando a evidenciar padrões nestes dados e auxiliando na descoberta de conhecimento. Esse conhecimento pode ser apresentado por essas ferramentas de diversas formas: agrupamentos, hipóteses, regras, árvores de decisão, grafos, etc.

Fases do Processo de Descoberta de Conhecimento (Knowledge Discovery in Databases)

KDD – Knowledge Database Discovery

● KDD inclui atividades multidisciplinares (IA, BD, Estatística e Visualização de Dados)

● Os padrões identificados nos dados devem ser válidos em dados novos e possuir o mesmo grau de confiança. Estes padrões são considerados conhecimento novo

● Um padrão para ser classificado como conhecimento deve ser novo, útil e compreensível, permitindo melhorar o entendimento de um problema ou um procedimento de tomada de decisão

● Torture os dados até confessarem!

WEKA - Histórico

● Existem três versões do Weka– Weka 3.4 - ramo estável que foi criado em 2003 para corresponder com o que está descrito na segunda

edição do livro Witten e Frank Data Mining (publicado 2005) . Recebe apenas correções de bugs.

– Weka 3.6 - ramo estável que foi criado em meados de 2008 para corresponder com o que está descrito na 3ª edição do Witten, Frank e Hall - livro Data Mining (publicado em janeiro de 2011) . Recebe apenas correções de bugs.

– Weka 3.7 – versão de desenvolvimento . Esta é uma continuação da versão 3.6 Recebe correções de bugs e novos recursos. (última 3.7.12 mai/2015)

● Anteriormente– 1992 – submissão do projeto ao governo de NZ (Ian Witten)

– 1993 – aprovado pelo governo

– 1994 – Primeira versão (principalmente em C)

– 1996 – Primeira versão pública – WEKA 2.1

– 1997 – Convertido para Java

– 1998 – WEKA 3 (completamente Java)

– 2006 – O projeto foi incorporado ao Pentaho

Tarefas mais comuns de DM

• Classificação: aprendizado de uma função que mapeia um dado em uma de várias classes conhecidas.

• Regressão (predição): aprendizado de uma função que mapeia um dado em um valor real.

• Agrupamento (clustering): identificação de grupos de dados onde os dados tem características semelhantes entre si e os grupos tem características diferentes.

• Sumarização: descrição do que caracteriza um conjunto de dados (ex. conjunto de regras).

• Detecção de desvios ou outliers: identificação de dados que deveriam seguir um padrão mas não o fazem.

Construindo um modelo (classificador)

O que tenho disponível?

● 100+ algoritmos de classificação● 75 para pré-processamento de dados● 25 para apoiar o processo de Seleção de Atributos● 20 para agrupamento, regras de associação, etc

● E muitas outras contribuições como AIS, AC e AG

Arquivo ARFF

% 1. Title: Iris Plants Database

%

% 2. Sources:

% (a) Creator: R.A. Fisher

% (b) Donor: Michael Marshall (MARSHALL%[email protected])

% (c) Date: July, 1988

%

@RELATION iris

@ATTRIBUTE sepallength NUMERIC

@ATTRIBUTE sepalwidth NUMERIC

@ATTRIBUTE petallength NUMERIC

@ATTRIBUTE petalwidth NUMERIC

@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}

@DATA

5.1,3.5,1.4,0.2,Iris-setosa

4.9,3.0,1.4,0.2,Iris-setosa

4.7,3.2,1.3,0.2,Iris-setosa

4.6,3.1,1.5,0.2,Iris-setosa

5.0,3.6,1.4,0.2,Iris-setosa

5.4,3.9,1.7,0.4,Iris-setosa

● @relation <relation-name>● @attribute <attribute-name> <datatype>

– numeric

– <nominal-specification>

– string

– date [<date-format>]

– Ex: @ATTRIBUTE timestamp DATE "yyyy-MM-dd HH:mm:ss"

● Sparse ARFF files– @data

– 0, X, 0, Y, "class A" 0, 0, W, 0, "class B"

– @data

– {1 X, 3 Y, 4 "class A"} {2 W, 4 "class B"}

Weka – Explorer

Classificador J48 (C4.5) – Árvore de Decisão

Output source code

Experimenter

● permite a comparação de diferentes estratégias de aprendizagem.

● Para problemas de classificação e regressão● Resultados escritos em um arquivo ou base de dados● Opções de avaliação: cross-validation, curva de

aprendizagem, hold-out● Pode ser executado com diferentes configurações de

parâmetros● Teste de significância acoplado

Experimenter

Experimenter

PDI & PDM

Onde utilizar DM?

● Quanto mais direcionados os anúncios, mais eficaz você pode ser

● Buscando padrões úteis em dados de vendas, políticas públicas, medicina, seguros, esportes e etc.

● Analisar os dados de sensores, internet das coisas.

Mudando o jeito de gerenciar o negócio

● Uma fase é o BI utilizando ETL e ferramentas analíticas para suporte a decisão

● Outra fase é utilizar o BI antes de acontecer os problemas, prever problemas, e/ou utilizar os sistemas de apoio a decisão baseados em aprendizagem de máquina junto aos sistemas transacionais.

Data Mining e privacidade

● Data Mining busca PADRÕES e não PESSOAS.

● Soluções técnicas podem limitar a invasão de privacidade– Substituir informações sigilosas com um id anônimo

– Fornecer saídas aleatórias

– Utilizar rótulos em instâncias que escondam o real significado.

Hands on with WEKA

Vamos ver na prática como funciona!

Advanced Data Mining with Weka

Aprendendo mais sobre Data Mining

https://weka.waikato.ac.nz/advanceddataminingwithweka

Aprendendo mais sobre Data Mining

● http://weka.pentaho.com/ ● http://www.cs.waikato.ac.nz/ml/weka/ ● Mineração de Dados - Conceitos, Aplicações e Experimentos com

Weka – http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf

● Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems)

● KDnuggets– news, software, jobs, courses,…

– www.KDnuggets.com

● ACM SIGKDD – data mining association– www.acm.org/sigkdd

Contato

Obrigado a todos!

Prof. Marcos Vinicius Fidelis

[email protected]

mailto:[email protected]

Data & Analytics

Flisol 2016 fidelis - Curitiba - PR - Brazil