1a Edição
Ficha catalográfica elaborada na fonte pela Biblioteca Dante
Alighieri
UNIASSELVI – Indaial.
Impresso por:
177 p.; il.
1. Banco de dados. - Brasil. Centro Universitário Leonardo Da
Vinci.
CDD 005.74
Estamos iniciando o estudo da disciplina Business Intelligence na
Prática: Modelagem Multidimensional e Data Warehouse. Esta
disciplina objetiva proporcionar uma imersão de conceitos teóricos
e principalmente práticos de como construir sistemas de Business
Intelligence proporcionan- do um poder decisório nas
organizações.
Este livro conta com diversos recursos didáticos externos, por
isso, recomendamos fortemente que você realize todos os exemplos e
exercícios para um aproveitamento excepcional da disciplina.
Aproveitamos a opor- tunidade para destacar a importância de
desenvolver as autoatividades, lembrando que elas não são
opcionais, visto que objetivam a fixação dos conceitos
apresentados. Em caso de dúvida na realização das atividades, su-
gerimos que você entre em contato com seu tutor externo ou com a
tutoria da UNIASSELVI, não prosseguindo nas atividades sem ter
sanado todas as dúvidas que, eventualmente, poderão surgir.
Neste contexto, o livro de Business Intelligence na Prática está
divi- dido em três unidades de estudo. A Unidade 1 tratará dos
assuntos Progra- mação para Big Data, tipos de dados e
armazenamento e Data Warehouse. Na Unidade 2 estudaremos sobre OLAP
x OLTP, extração, transformação e carga e, por fim, transformações
na prática. Já a Unidade 3 abordará sobre modelagem
multidimensional, operações e servidores OLAP e ferramentas de
dashboards.
Bom estudo! Sucesso na sua trajetória acadêmica e
profissional!
IV
Você já me conhece das outras disciplinas? Não? É calouro? Enfim,
tanto para você que está chegando agora à UNIASSELVI quanto para
você que já é veterano, há novi- dades em nosso material.
Na Educação a Distância, o livro impresso, entregue a todos os
acadêmicos desde 2005, é o material base da disciplina. A partir de
2017, nossos livros estão de visual novo, com um formato mais
prático, que cabe na bolsa e facilita a leitura.
O conteúdo continua na íntegra, mas a estrutura interna foi
aperfeiçoada com nova diagra- mação no texto, aproveitando ao
máximo o espaço da página, o que também contribui para diminuir a
extração de árvores para produção de folhas de papel, por
exemplo.
Assim, a UNIASSELVI, preocupando-se com o impacto de nossas ações
sobre o ambiente, apresenta também este livro no formato digital.
Assim, você, acadêmico, tem a possibilidade de estudá-lo com
versatilidade nas telas do celular, tablet ou computador. Eu mesmo,
UNI, ganhei um novo layout, você me verá frequentemente e surgirei
para apre- sentar dicas de vídeos e outras fontes de conhecimento
que complementam o assunto em questão.
Todos esses ajustes foram pensados a partir de relatos que
recebemos nas pesquisas institu- cionais sobre os materiais
impressos, para que você, nossa maior prioridade, possa continuar
seus estudos com um material de qualidade.
Aproveito o momento para convidá-lo para um bate-papo sobre o Exame
Nacional de De- sempenho de Estudantes – ENADE. Bons estudos!
NOTA
V
VI
Olá, acadêmico! Iniciamos agora mais uma disciplina e com ela um
novo conhecimento.
Com o objetivo de enriquecer seu conhecimento, construímos, além do
livro que está em suas mãos, uma rica trilha de aprendizagem, por
meio dela você terá contato com o vídeo da disciplina, o objeto de
aprendizagem, materiais complemen- tares, entre outros, todos
pensados e construídos na intenção de auxiliar seu
crescimento.
Acesse o QR Code, que levará ao AVA, e veja as novidades que
preparamos para seu estudo.
Conte conosco, estaremos juntos nesta caminhada!
LEMBRETE
VII
UNIDADE 1 - INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
.......1
TÓPICO 1 - BIG DATA – A EXPLOSÃO DOS DADOS
....................................................................3
1 INTRODUÇÃO
.......................................................................................................................................3
2 A EXPLOSÃO DOS DADOS
................................................................................................................3
UNIDADE 2 - BUSINESS INTELLIGENCE NA PRÁTICA: EXTRAÇÃO,
TRANSFORMAÇÃO E CARGA
.................................................................................55
TÓPICO 1 - OLAP x OLTP
.....................................................................................................................57
1 INTRODUÇÃO
.....................................................................................................................................57
2 OLAP VS OLTP
.....................................................................................................................................58
RESUMO DO TÓPICO
1........................................................................................................................65
AUTOATIVIDADE
.................................................................................................................................66
SEMÂNTICO
....................................................................................................................................96
RESUMO DO TÓPICO
3......................................................................................................................104
AUTOATIVIDADE
...............................................................................................................................105
TÓPICO 1 - MODELAGEM MULTIDIMENSIONAL
...................................................................109
1 INTRODUÇÃO
...................................................................................................................................109
2 MODELAGEM MULTIDIMENSIONAL
.......................................................................................109
OBJETIVOS DE APRENDIZAGEM
PLANO DE ESTUDOS
A partir do estudo desta unidade, você deverá ser capaz de:
• contextualizar sobre big data e volume de dados;
• conhecer sobre o papel dos usuários na geração de dados;
• saber mais sobre conceitos de Business Intelligence;
• ter uma visão geral sobre projetos de Business
Intelligence;
• aprender sobre os tipos de dados;
• conhecer o conceito de Data Warehouse;
• refletir sobre as arquiteturas de Data Warehouse
existentes.
Esta unidade de ensino contém três tópicos. No final de cada um
deles você encontrará autoatividades que contribuirão para a
apropriação dos conteúdos.
TÓPICO 1 – BIG DATA – A EXPLOSÃO DOS DADOS
TÓPICO 2 – TIPOS DE DADOS E ARMAZENAMENTO
TÓPICO 3 – INTRODUÇÃO AO DATA WAREHOUSE
Preparado para ampliar seus conhecimentos? Respire e vamos em
frente! Procure um ambiente que facilite a concentração, assim
absorve- rá melhor as informações.
CHAMADA
2
3
1 INTRODUÇÃO
Há 20 anos era muito custoso ter um computador e poucos tinham
acesso a ele. Os que tinham utilizavam internet discada e no máximo
56 kbps/s. Se você nasceu antes dos anos 2000, provavelmente
conhecia bem o barulhinho para se conectar à internet discada, aos
que desconhecem, para se conectar, era preciso ter uma linha
telefônica, que ficava ocupada durante a utilização da internet.
Para acompanhar as revoluções tecnológicas, eram vendidas revistas
sobre o assunto nas bancas de jornais.
Em paralelo a isso, a internet vivia sua primeira revolução nos
anos 2000. Enquanto usuários se preocupavam com o Bug do Milênio,
as gigantes da tecno- logia começavam a ter seus primeiros
problemas de armazenamento. As gigantes da computação, como Google
e Amazon, foram obrigadas a desenvolver suas próprias soluções para
armazenar seu volume de dados, que passavam de cente- nas de
Terabytes. Em 2009, devido à dimensão desse problema, houve uma
reu- nião com os grandes nomes do armazenamento de dados em busca
de soluções.
O volume de dados era tão grande que diversas tecnologias estavam
em ascensão: a Google com o Big Table, a Amazon com o DynamoDB e o
Facebook já aparecendo no cenário com suas próprias tecnologias.
Você já parou para pensar qual é o seu papel durante essa explosão
de dados?
2 A EXPLOSÃO DOS DADOS
Você tem noção da quantidade de informação que você gera
diariamente? Seja pelas mídias sociais, aplicativos de mensagens ou
até mesmo softwares espe- cíficos, diariamente produzimos uma
grande massa de dados.
Durante muitos anos, os usuários foram apenas consumidores de
informa- ção e conteúdo. Um programa de TV, tradicionalmente,
mensurava sua audiência pelo ibope e o número de pessoas assistindo
em capitais. Hoje, enquanto um pro- grama é transmitido, as pessoas
comentam sobre ele na internet, com isso, além do envolvimento do
público, também é possível aproveitar os dados fornecidos.
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA
WAREHOUSE
4
Todos os comentários sobre determinado programa formam uma grande
base de dados, sob o qual é possível extrair conhecimento,
principalmente saber se as pessoas estão ou não gostando do que
está sendo transmitido.
FIGURA 1 – INTERAÇÃO COM REDES SOCIAIS
FONTE: http://bit.ly/2IeY0QX. Acesso em: 1º jan. 2020.
É claro que o uso de smartphones não é o único responsável pela
geração de dados em larga escala no mundo. Com a utilização de
smartwatches, pulsei- ras, sensores de precisão, entre os mais
diversos tipos de conectados, o volume de dados aumentou
significativamente, complementado pela grande variedade de tipos de
dados.
O número de dispositivos conectados à Internet, incluindo as
máquinas, sensores e câmeras que compõem a Internet das Coisas
(IoT), continua crescendo a um ritmo constante. Uma nova previsão
da International Data Corporation (IDC) estima que haverá 41,6
bilhões de dispositivos conectados à IoT, gerando 79,4 zet- tabytes
(ZB) de dados em 2025. À medida que o número de dispositivos IoT
co- nectados aumenta, a quantidade de dados gerados por esses
dispositivos também cresce. Alguns desses dados são pequenos e
intermitentes, indicando uma única métrica de integridade de uma
máquina, enquanto grandes quantidades de dados podem ser geradas
por câmeras de vigilância por vídeo usando a visão computa- cional
para analisar multidões de pessoas, por exemplo (SEGINFO,
2020).
Após você compreender o seu papel na geração de dados no seu
cotidia- no, definiremos, a seguir, o conceito de Big Data.
Big Data é um grande volume de dados, coletado das mais variadas
fontes e tipos de dados, em que se deseja extrair insights com
velocidade, armazenando
TÓPICO 1 | BIG DATA – A EXPLOSÃO DOS DADOS
5
dados com veracidade, sob o qual se permite extrair informação com
valor. Esses cinco itens em destaque são definidos como os 5 Vs do
Big Data (volume, varia- das/variedade, velocidade, veracidade e
valor).
Big Data não trata apenas da dimensão volume, como parece à pri-
meira vista, mas existe também uma variedade imensa de dados, não
estruturados, dentro e fora das empresas (coletados das mídias
sociais, por exemplo), que precisam ser validados (terem veracidade
para se- rem usados) e tratados em velocidade adequada para terem
valor para o negócio. A fórmula é, então, Big Data = volume +
variedade + veloci- dade + veracidade, gerando valor (TAURION, 2013
p. 19).
FIGURA 2 – OS Vs DE BIG DATA
FONTE: https://brunovasconcelos.me/2018/02/26/o-que-e-big-data/.
Acesso em: 1º jan. 2020.
O volume de dados disponível mais do que dobra a cada dois anos e
os algoritmos aperfeiçoam-se rapidamente, ao passo que, em razão
quase inversa- mente proporcional, os custos de armazenamento
decrescem. Técnicas de análise de dados, antes acessíveis apenas às
agências de espionagem, laboratórios de pes- quisa e grandes
conglomerados comerciais são, paulatinamente, democratizadas
(MAYER-SCHONBERGER; CUKIER, 2014).
Quando falamos do papel de Big Data nas organizações, não estamos
fala- mos apenas em gerar um grande volume de dados, mas sim de
utilizar estes dados para gerar conhecimento organizacional para
tomada de decisões estratégicas, sen- do que, para isso, muitas
vezes, utilizamos técnicas de Business Intelligence.
2.1 BUSINESS INTELLIGENCE
Iniciamos nosso estudo falando do grande volume de dados e da sua
im- portância para as organizações. No entanto, a preocupação com o
armazenamen- to e a extração de conhecimento é algo secular, visto
que se nos aprofundarmos iremos parar em 18.000 a.C., os quais
nossos ancestrais utilizavam ossos de ba-
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA
WAREHOUSE
6
buíno para fazer operações matemáticas cravadas (armazenadas) em
paredes das cavernas. Podemos, também, utilizar como exemplo os
desenhos rupestres que foram feitos há mais de 40.000 anos e que
serviram para armazenar dados sobre a história humana.
FIGURA 3 – ARMAZENAMENTO DE DADOS NO PASSADO
FONTE: O autor
Quando trazemos essa reflexão para a história recente, caminhamos
para os anos 1980, quando muita coisa aconteceu no mundo da
computação, princi- palmente no que tange à revolução dos
computadores pessoais e dos sistemas operacionais. No mundo dos
dados não foi diferente, muita coisa aconteceu nes- sa década que
impactam na nossa vida até hoje.
Um destaque especial para os nomes de Edgar Frank Codd e Richard
Mil- ler Devens. Codd, em seu artigo “A relational model of data
for large shared data banks”, publicado em 1983, explica que sua
arquitetura para armazenamento de dados relacionais, utilizada
majoritariamente em todas as organizações, serve como base para o
desenvolvimento de novas tecnologias de bancos de dados. Já Devens,
em seu livro “Cyclopaedia of commercial and business anecdotes”,
publicado em 1864, descreve que a iniciativa de coletar dados e a
capacidade de extrair informação nos resultados coletados auxilia
as organizações em suas tomadas de decisão. Para ele, Business
intelligence é a capacidade de coletar in- formações e reagir a
elas.
O conceito de Business Intelligence é utilizado para definir todo o
conjun- to de tecnologias e processos utilizados na coleta,
organização, análise, compar- tilhamento e monitoramento de dados,
com ênfase para dar suporte a decisões estratégicas. Ainda assim,
houve diversos autores que trouxeram suas definições para o termo
Business Intelligence, o grande ponto é que como Business Intelli-
gence tem como base à coleta de dados para a geração de informações
organiza- cionais, é um termo que já sofreu e pode sofrer mutações,
conforme o cenário dos dados mudam no mundo.
TÓPICO 1 | BIG DATA – A EXPLOSÃO DOS DADOS
7
A seguir, o conceito, a definição e os objetivos de Business
Intelligence na perspectiva de alguns autores.
QUADRO 1 – DEFINIÇÕES DE BUSINESS INTELLIGENCE
Um sistema automático para disseminar informação para vários
setores de qualquer empresa, utilizando máquinas de processamento
de dados (compu- tadores), autoabstração e autocodificação de
documentos e criando perfis para cada ponto de ação da organização
por palavra padrão (LUHN, 1958). É a aplicação de um conjunto de
técnicas e ferramentas que são propostas para auxiliar na
administração de um negócio e na tomada de decisões (SANTOS, 2009).
Pode ser definido como o apoio de modelos matemáticos e
metodologias de análise que explorem os dados disponíveis para
gerar informação e conheci- mento para processos de tomada de
decisões complexas (VERCELLIS, 2009). Refere-se às aplicações e
tecnologias para consolidar, analisar e oferecer acesso a grandes
quantidades de dados, para ajudar os usuários a tomarem melhores
de- cisões empresariais e estratégicas. As aplicações de BI
oferecem visões históricas, atuais e previsíveis das operações de
negócio (RAINER; CEGIELSKI, 2011). De forma mais ampla, pode ser
entendido como a utilização de variadas fontes de informação para
definir estratégias de competitividade nos negócios da em- presa.
Podem ser incluídos nesta definição os conceitos de estruturas de
dados, representadas pelos bancos de dados tradicionais, data
warehouse e data marts, criados objetivando o tratamento relacional
e dimensional de informações, bem como as técnicas de data mining
aplicadas sobre elas, buscando correlações e fatos “escondidos”
(BARBIERI, 2011). Une dados, tecnologia, análises e conhecimento
humano para otimizar decisões nos negócios e ultimamente tem
dirigido o sucesso das empresas. Programas de BI usualmente
combinam um Data Warehouse empresarial (EDW) e uma pla- taforma de
ferramentas de BI para transformar dados em informações usáveis
para o negócio (TDWI, 2013). Refere-se à coleção de SIs e de
tecnologias que dão suporte à tomada de decisão gerencial ou
operacional – controle pelo fornecimento de informações nas ope-
rações internas e externas (TURBAN; VOLONIMO, 2013).
Em alguns momentos deste livro você se deparará com os termos:
“suporte à tomada de decisão gerencial”, “suporte às decisões da
organização” ou algo relacionado a empresas, muitas vezes esse tipo
de aplicação só existe em grandes corporações. Por isso, é muito
importante frisar que esses conceitos foram cunhados porque tais
tecnolo- gias surgiram dentro de empresas, no entanto, o emprego de
tais tecnologias se aplica a qualquer setor. Por exemplo, uma ONG
pode ter um sistema de Business Intelligence para saber quais os
melhores locais para fazer ações de reflorestamento ou um líder
comunitá- rio pode ter um sistema de Business Intelligence para
monitorar o rendimento das crianças de uma comunidade na
escola.
IMPORTANTE
8
É um termo guarda-chuva que inclui aplicações, infraestrutura e
ferramentas e as melhores práticas que permitem acesso e análise de
informações para promo- ver e otimizar decisões e performance
(GARTNER, 2013). Refere-se às aplicações e tecnologias que são
utilizadas para coletar, acessar e analisar dados e informações de
apoio à tomada de decisão (BALTZAN; PHILLIPS, 2012). É o processo
de transformação de dados brutos em informações utilizáveis para
maior efetividade estratégica, insights operacionais e benefícios
reais para o processo de tomada de decisão nos negócios (DUAN; XU,
2012).
FONTE: Adaptado de Botelho e Razzolini Filho (2014)
Conforme vimos, Business Intelligence pode ser assimilado de
diversas maneiras, mas ao analisar tais definições, é possível
compreender que essa ferra- menta utiliza os dados da organização
para dar suporte à tomada de decisões, ou seja, Business
Intelligence é o processo de utilizar os dados em favor da organi-
zação, extraindo conhecimento e insights a partir deles. Vamos
entender melhor como ele se aplica na prática?
2.2 BUSINESS INTELLIGENCE – MECANISMOS PRÁTICOS
Agora que você compreendeu os conceitos e a definição de Business
In- telligence, falaremos um pouco de como isso acontece na
prática. De modo geral, para entender como um sistema de BI
funciona, torna-se essencial a compreensão de seus elementos. Para
isso, precisamos conhecer o tripé da gestão de sistemas
inteligentes: dados, informação e conhecimento.
FIGURA 4 – DADOS, INFORMAÇÃO E CONHECIMENTO
FONTE: <http://bit.ly/2VFdINl>. Acesso em: 1º jan.
2020.
TÓPICO 1 | BIG DATA – A EXPLOSÃO DOS DADOS
9
• Dados: são fatos de um mundo real, que estão armazenados em algum
lugar, mas que não possuem sentido, pode-se dizer que o dado é a
informação em sua forma bruta, ou seja, ainda não lapidada. Segundo
Valentim (2002), dados são simples observações sobre o estado do
mundo.
• Informação: são dados dotados de relevância e propósito; são
dados organiza- dos de modo significativo, ou seja, que possuem
algum sentido, é aquilo que leva à compreensão (VALENTIM,
2002).
• Conhecimento: vem de discernimento, prática e experiência de
vida. O conhe- cimento é extraído a partir dos dados e informações
armazenadas, sendo aqui- lo que não pode ser visto por uma
perspectiva humana, mas sim extraída. Na visão de Valentim (2002),
o conhecimento é uma informação valiosa da mente humana. Inclui
reflexão, síntese e contexto.
No cenário de BI, nosso objetivo é justamente coletar dados de uma
ou várias fontes, armazená-los em uma estrutura organizada que
permita extrair in- formação e executar algoritmos que permitam
gerar conhecimento.
Para compreender melhor, vejamos o exemplo a seguir:
A AgroGama é uma empresa que gerencia um conjunto de fazendas e
consta com diversos sócios, entre eles donos das terras e
acionistas. Os equipa- mentos utilizados durante o plantio são
todos da indústria agro 4.0, ou seja, as colheitadeiras
inteligentes emitem relatório dos grãos colhidos diretamente para
um servidor; com isso, é possível saber a qualidade dos produtos,
bem como a quantidade. Também há o uso de um sistema de informação
em cada fazenda para controle de funcionários, animais e da
produção interna. Os gestores da em- presa agora precisam que seja
desenvolvido um sistema de Business Intelligence que permita que se
obtenham informações gerenciais sobre todas as fazendas para que se
possa obter insights e tomar decisões.
Com base nesse texto, para aplicarmos o BI, faremos alguns
questiona-
mentos:
• Onde estão os dados?
R.: Os dados são oriundos dos sensores, dos aplicativos e dos
sistemas já utiliza- dos. São exemplos de dados: soja, feijão,
3.00, 4000, alto, médio, baixo.
• Onde está a informação?
R.: A informação acontece visto que há estrutura nesses dados,
permitindo com que tenham sentido. Por exemplo: o feijão custa R$
4,50 o kg na venda, a fazenda X produz 4000 kg de soja por
mês.
• Onde está o conhecimento?
R.: O conhecimento acontecerá a partir de perguntas que não podem
ser formula- das a partir dos dados armazenados. Por exemplo: “Qual
a fazenda mais produti- va?” é uma questão que pode ser respondida
a partir da análise dos dados. O co-
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA
WAREHOUSE
10
nhecimento vai além, permitindo retornar coisas como “Todas as
quintas-feiras, se a temperatura subir e chover a mais do que 30
mm, haverá baixa na produção” ou “Todas as fazendas que produzem
milho e soja, mas não tem gado, têm uma produção abaixo da
média”.
Note que, nesse exemplo, falamos sobre o que é feito, mas não como
é feito. Do ponto de vista de tecnologias empregadas, não há uma
exatidão para que haja um cenário de Business Intelligence, é
importante que os dados sejam coletados, que tenha-se uma estrutura
sólida de armazenamento e que possamos extrair conhecimento em cima
do que foi armazenado.
FIGURA 5 – EXEMPLO DE ARQUITETURA DE UM SISTEMA DE BUSINESS
INTELLIGENCE
FONTE: Siteware (2020, s.p.)
No geral, cada implementação de um Business Intelligence tem três
pilares:
• Coleta de dados: no primeiro momento, todas as informações e
dados da em- presa são coletados e analisados. São determinadas
características como: pro- dutividade, oportunidades, reputação
etc.
TÓPICO 1 | BIG DATA – A EXPLOSÃO DOS DADOS
11
• Organização e análise: os dados e informações recolhidos e
analisados são or- ganizados em bancos de dados. Para facilitar a
visualização dos gestores, po- de-se apresentá-los visualmente, com
o auxílio de ferramentas e plataformas.
• Ação e monitoramento: os responsáveis tomam decisões baseadas nas
infor- mações analisadas e monitoram seus resultados.
Não existe uma arquitetura geral para o desenvolvimento de uma
arqui- tetura de Business Intelligence, o importante é que a
arquitetura contenha os pi- lares de um sistema de BI.
Excel - a Eterna Ferramenta de Business Intelligence
O Microsoft Excel se torna quase imbatível quando o tema é geração
de relatórios, neste exato momento, milhares de pessoas estão
gerando relatórios no Excel enquanto outras milhares estão
estudando como fazê-lo.
O Visicalc, desenvolvido por Dan Bricklin, conhecido como o “pai
das planilhas eletrôni- cas”, foi o precursor das planilhas
eletrônicas e também pela utilização dos computadores pessoais.
Naquela época, os computadores existentes custavam cerca de R$ 15
mil, tam- bém não existia a Internet (pelo menos não como a
conhecemos hoje) e havia poucos softwares de gestão. Com toda essa
explanação, para que se comprava um computador? As planilhas
eletrônicas justificavam o investimento, pois além de armazenarem
os dados sobre a gestão das empresas, tornaram-se as primeiras
ferramentas de inteligência de negócios e suporte à decisão.
Estamos em 2020, passaram-se mais de 30 anos desde a criação das
planilhas e há uma imensidão de ferramentas computacionais para
gestão de empresas e suporte à decisão. Por que, então, o Excel
ainda é tão utilizado? São diversos fatores que fazem da ferramen-
ta obter tanto número de usuários, o principal com certeza é a
sinergia do Pacote Office com o sistema operacional Windows, que
apenas na versão 10 alcançou 270 milhões de usuários em todo
mundo.
A ferramenta é imensamente utilizada pelas empresas para os mais
diversos tipos de funcio- nalidades. Independentemente do porte ou
segmento da organização, é uma ferramenta al- tamente difundida no
ambiente empresarial, pois oferece infinitas possibilidades para
manter os processos automatizados e organizados. Os recursos do
Excel permitem que o usuário faça cálculos complexos,
principalmente aqueles que envolvem a área financeira de um
negócio. Além disso, é possível criar uma planilha de gastos, uma
planilha para controlar o fluxo de caixa, calcular preços dos
produtos e serviços oferecidos pela empresa, registrar os
pagamentos, toda a parte contábil da organização, entre outras
funcionalidades.
Um outro fator muito impactante no uso da ferramenta é o fato de as
empresas comu- mente utilizarem softwares ERP para realizar a
gestão de todos os processos organizacio- nais, por exemplo, o SAP.
Este tipo de software é informalmente chamado de “engessado”, pois,
ao invés de se adaptar às rotinas da empresa, é a empresa que se
adapta ao funcio- namento do software.
Muitas vezes, as empresas precisam gerar relatórios específicos que
atendam às suas ne- cessidades particulares e estes relatórios não
são fornecidos pelo software ERP, a empresa, então, pode até fazer
uma requisição e solicitar que seja implementado, mas isso
envol-
NOTA
12
FONTE: O autor
Uma vez tendo acesso aos dados através de planilhas, estes são
integrados, também em planilhas, cabendo à empresa gerar seus
próprios relatórios, importando várias planilhas, consolidando,
explorando e utilizando os mais diversos recursos.
FONTE: Adaptado de: NOGUEIRA, R. Análise de dados usando
dashboards. Indaial: UNIASSELVI, 2019.
ve tempo e alto custo. Em contrapartida, os ERPs fornecem diversos
relatórios sobre os módulos (financeiro, comercial, gestão,
estoque, entre outros) e estes mesmos relatórios podem ser
importados no formato de planilhas eletrônicas.
FIGURA 6 – EXEMPLO DE GERAÇÃO DE RELATÓRIOS COM O EXCEL
Nesse momento, você deve estar se perguntando: “Mas se eu já tenho
domí- nio de Excel, então eu já sei tudo sobre BI?”. A grande
questão é que o Excel é uma ferra- menta de relatórios, sob a qual
os seus usuários gastam muito tempo preparando os dados para poder
extrair informações sobre ele. Lembrando que um cenário de BI deve
fazer a coleta, o armazenamento e a apresentação dos dados, de
forma automática.
INTERESSANTE
13
Neste tópico, você aprendeu que:
• Big data é composto por volume, velocidade, variedade, veracidade
e valor.
• Como usuário, você tem um importante papel na geração de um
grande volu- me de dados.
• A evolução da tecnologia, bem como o surgimento de novas
tecnologias, como IoT, geram um conjunto expressivo de dados,
implicando na Big Data.
• Business Intelligence é um termo que foi cunhado no final dos
anos 1980, mas vinga até hoje; é um termo que já sofreu e pode
sofrer mutações, conforme o cenário dos dados mudam no mundo.
• Para ter um cenário de Business intelligence, é necessário ter
coleta, armazena- mento e processos que permitam sua análise.
RESUMO DO TÓPICO 1
1 Leia o texto a seguir:
O Sistema de Apoio à Decisão (SAD) e Business Intelligence (BI), a
partir de da- dos do ambiente organizacional, seja interno e/ou
externo, os transformam em informações na forma de relatórios,
gráficos, tabela e indicadores, permitindo uma análise e um
diagnóstico do ambiente e dos processos e proporcionando aos
gestores condições de antecipar o futuro e reduzir riscos e
incertezas na tomada de decisão.
Sobre Business Intelligence, assinale a alternativa CORRETA:
FONTE: SILVA, R. A. da; SILVA, F. C. A.; GOMES, C. F. S. O uso do
Business Intelligence (BI) em sistema de apoio à tomada de decisão
estratégica. Revista GEINTEC - Gestão, Inovação e Tecnologias, v.
6, n. 1, p. 2780-2798, 2016.
a) O desenvolvimento de Business Intelligence pode acontecer apenas
em grandes corporações.
b) O desenvolvimento de Business Intelligence acontece apenas na
teoria. c) O desenvolvimento de Business Intelligence pode
acontecer em qualquer
organização. d) O desenvolvimento de Business Intelligence acontece
apenas em organiza-
ções do ramo agrícola.
2 Big Data é o termo em Tecnologia da Informação que trata sobre
grandes con- juntos de dados que precisam ser processados e
armazenados. O conceito do Big Data se iniciou com 5 Vs:
Velocidade, Volume, Veracidade, Valor e Varie- dade. Um sistema de
IoT coleta dados de diversos dispositivos: áudio, vídeo, texto,
binários. Sobre em qual V o IoT está relacionado, assinale a
alternativa CORRETA:
a) Volume. b) Velocidade. c) Valor. d) Variedade.
Para as próximas questões, considere o cenário a seguir:
“Você integrará à equipe o desenvolvimento de um sistema de
Business In- telligence para Smart Home. O sistema tem como
objetivo coletar dados de uma casa inteligente, que já está
funcionando normalmente, no entanto, cada dispositivo está
independente. Também deve permitir que o usuário tenha um Dashboard
com todas as informações da casa e de seus dispositivos
pessoais”.
AUTOATIVIDADE
15
FONTE:
<https://product.haleema.me/project/smart-home-dashboard/>.
Acesso em: 29 fev. 2020.
3 Considerando o cenário do dispositivo indicado e sabendo que os
dados são a forma mais bruta da informação, assinale a alternativa
CORRETA que apre- senta exemplo(s) de dados sobre esse cenário: a)
TV, Relógio, 1, 2000.23, 30 ºC, 200 Mhz. b) Relatório de
dispositivos que mais consomem energia. c) Previsão do consumo de
energia para o próximo dia. d) Não é possível ter dado neste
cenário.
4 Considerando o cenário do dispositivo indicado e sabendo que a
informação traz organização e sentido aos dados armazenados,
assinale a alternativa COR- RETA que apresenta exemplo(s) de
informações sobre esse cenário: a) TV, Relógio, 1, 2000.23, 30 ºC,
200 Mhz. b) Relatório de dispositivos que mais consomem energia. c)
Previsão do consumo de energia para o próximo dia. d) Não é
possível ter informação neste cenário.
16
5 Considerando o cenário do dispositivo indicado e sabendo que o
conheci- mento é adquirido a partir dos dados armazenados, sendo
experiências e práti- cas além da informação, assinale a
alternativa CORRETA que apresenta exem- plo(s) de conhecimento
sobre esse cenário: a) TV, Relógio, 1, 2000.23, 30 ºC, 200 Mhz. b)
Relatório de dispositivos que mais consomem energia. c) Previsão do
consumo de energia para o próximo dia. d) Não é possível ter dado
neste cenário.
17
DE ARMAZENAMENTO
UNIDADE 1
1 INTRODUÇÃO
Quando falamos sobre Business Intelligence e sobre Big Data,
falamos que tais tecnologias dependem diretamente de um item para
existir: o dado. Logo, para que possamos armazená-lo, manutení-lo e
analisá-lo é necessário tê-lo ar- mazenado e preparado.
Por isso se torna interessante que você tenha conhecimento sobre os
da- dos, como gerá-los, como consumi-los e como tratá-los. Para
isso, é importante conhecer os tipos de dados.
Durante este tópico você estudará os tipos de dados que se dividem
entre não estruturados, semiestruturado e estruturados. No contexto
de desenvolvi- mento de sistemas, os dados estruturados são
maioria, no entanto, dada a explo- são de dados que discutimos no
mundo, a maioria dos dados são semiestrutura- dos e não
estruturados.
FIGURA 8 – SMARTHOME DASHBOARD
18
2 DADOS ESTRUTURADOS Quando se lê dados estruturados, logo
assume-se que este dado possui
uma estrutura e isso está correto. No entanto, no contexto dos
tipos de dados, dizer que um dado é estruturado significa dizer que
ele possui uma estrutura criada para o seu armazenamento.
Precisamente, significa dizer que esta estrutu- ra foi criada
anteriormente à existência dos dados, ou seja, um dado estruturado
é aquele que já tem uma estrutura antes mesmo do dado
existir.
Os tipos estruturados são:
• Dados organizados em blocos semânticos (relações). • Dados de um
mesmo grupo. • Dados que possuem as mesmas descrições (atributos).
• Dados que possuem descrições para todas as classes de um grupo
apresentam
o mesmo formato (esquema). • Dados que são tradicionalmente
mantidos em um SGBD e são chamados de
estruturados por manterem a mesma estrutura de representação
(rígida), pre- viamente projetada (esquema).
Os Sistemas Gerenciadores de Bancos de Dados – SGBDs – são
softwares utilizados para armazenar e manutenir os dados.
Um sistema gerenciador de banco de dados (SGBD) é uma coleção de
programas que permite aos usuários criar e manter um banco de da-
dos. O SGBD é, portanto, um sistema de software de propósito geral
que facilita os processos de definição, construção, manipulação e
com- partilhamento de bancos de dados entre vários usuários e
aplicações. A definição de um banco de dados implica especificar os
tipos de da- dos, as estruturas e as restrições para os dados a
serem armazenados em um banco de dados (ELMASRI et al. 2005, p.
10).
Aqui temos um ponto importante, pois quando cunhou-se a
terminologia SGBD só existia um tipo estrutura de banco de dados
conhecida: os bancos de dados relacionais. Atualmente são diversos
os tipos de gerenciadores de bancos de dados, os chamados NoSQL
(Not Only SQL - Não Apenas AQL).
Os SGBDs do tipo NoSQL contêm diversos tipos de estruturas de
armaze-
namento como: orientado a grafos, orientado a documentos,
chave-valor, orienta- do a grafos, orientado a colunas, entre
muitos outros que surgem a cada momen- to. O ponto nesse momento é
que os bancos de dados não relacionais (NoSQL) são de diversos
tipos e muitos deles não contemplam uma estrutura prévia de
armazenamento.
Por isso dizemos que os dados estruturados se referem aos sistemas
ge- renciadores de bancos de dados relacionais – SGBDR. Lembrando
que, na defini- ção de um dado estruturado, a estrutura deve
existir antes de o dado ser inserido. Vamos compreender como isso
funciona na prática?
TÓPICO 2 | TIPOS DE DADOS E EXEMPLOS DE ARMAZENAMENTO
19
Tendo com objetivo executar um exemplo prático, precisamos utilizar
um SGBDR, nesse caso utilizaremos o PostgreSQL para construção do
exemplo, no entanto, os comandos utilizados são ANSI-SQL e devem
funcionar em todos os SGBDRs.
Para instalar o PostgreSQL na sua máquina, você pode obter os
insta- ladores e os arquivos binários no site
https://www.postgresql.org/download/. No entanto, nesse primeiro
momento, vamos utilizar uma opção em nuvem, o ElephantSQL.
O ElephantSQL é uma ferramenta on-line para criação e manutenção de
bancos de dados PostgreSQL, a ferramenta pode ser acessada em:
https://www. elephantsql.com/. Na tela de acesso inicial são
apresentadas diversas opções, com diversos espaços em disco, bem
como um preço associado.
Em sua opção FREE, o ElephantSQL permite criar um banco de dados de
até 20 Mb de maneira gratuita sem a necessidade de fornecer dados
de cartão de crédito, sendo essa opção utilizada para construir os
exemplos desta Unidade.
FIGURA 9 – ELEPHANTSQL
FONTE: O autor
No ElephantSQL do navegador é possível executar comandos de acesso
aos dados pela aba Browser. Será nessa caixa de texto que
executaremos os co- mandos para execução do nosso exemplo.
20
Primeiramente, é bom saber que os SGBDRs se comunicam por uma mes-
ma linguagem, denominada SQL (Structured Query Language - Linguagem
de Consulta Estruturada). A SQL pode ser dividida em dois
tipos:
• DML (Data Definition Language - Linguagem de Definição de Dados):
a lin- guagem de definição está relacionada à definição da
estrutura de um banco de dados, a partir dela que são definidas as
estruturas, as tabelas e os campos, bem como a manutenção da
estrutura.
• DML (Data Manipulation Language - Linguagem de Manipulação de
Dados): a linguagem de manipulação está relacionada aos dados; a
partir do momento que a estrutura é criada, será possível com uma
DML inserir, excluir, atualizar e consultar dados em um SGBD.
Note que em sua definição, os dados estruturados devem ter uma
estrutu- ra definida antes da inserção dos dados, justamente o que
acontece com a DML. Vejamos um exemplo de comandos que criam
estruturas, em específico, o Qua- dro 2 cria uma tabela.
QUADRO 2 – DDL - CRIANDO UMA TABELA
create table aluno ( id_pessoa integer primary key, nome
varchar(100), cpf varchar(11) )
FONTE: O autor
Uma vez tendo criado a tabela pelo comando do Quadro 2, para
entender o conceito de um dado estruturado, execute os comandos
mostrados pelo Quadro 3, digitando cada comando na sequência, linha
por linha.
QUADRO 3 – DML - INSERINDO REGISTROS
insert into aluno (id_pessoa, nome, cpf) values (1,"Rodrigo",
"51255584896"); insert into aluno (id_pessoa, nome, cpf) values
(2,"João", "125555848969"); insert into aluno (id_pessoa, nome,
cpf, sexo) values (3,"Luiz", "125528848969", "M"); insert into
aluno (id_pessoa, nome, cpf, idade) values (4,"Maria",
"125578948969", 35);
FONTE: O autor
Ocorreu tudo bem durante a execução? O que aconteceu nas linhas 3 e
4? Repare que ao executar essas linhas aconteceu um erro, o erro
indica que os campos idade e sexo não existem, o que é verdade,
pois a estrutura de um banco de dados não pode ser alterada durante
sua execução. Caso se deseje inserir uti- lizando esses campos,
deve-se alterar a estrutura da tabela.
TÓPICO 2 | TIPOS DE DADOS E EXEMPLOS DE ARMAZENAMENTO
21
QUADRO 4 – DML E DML - ALTERANDO TABELA E INSERINDO REGISTROS
alter table aluno add sexo varchar(1); alter table aluno add idade
integer;
insert into aluno (id_pessoa, nome, cpf, sexo) values (3,'Luiz',
'12552884896', 'M'); insert into aluno (id_pessoa, nome, cpf,
idade) values (4,'Maria', '25578948969', 35);
FONTE: O autor
Agora que pudemos compreender mais do conceito de dados estrutura-
dos e como esse conceito funciona na prática, na próxima seção será
visto sobre os dados semiestruturados.
3 DADOS SEMIESTRUTURADOS Não há como ter metade de um banco de
dados com estrutura e outra
sem. Quando falamos de bancos de dados semiestruturados, estamos
falando de um tipo de dados que não tem estrutura definida
previamente.
Os dados semiestruturados permitem alteração da estrutura em tempo
de execução, isto significa que campos podem ser adicionados ou
removidos a qualquer momento.
Os tipos semiestruturados são:
• Dados em sua maioria da Web. • Dados que apresentam uma
organização bastante heterogênea. • A alta heterogeneidade
dificulta as consultas a estes dados. • Os dados semiestruturados
são dados em que o esquema de representação está
presente (de forma explícita ou implícita).
Conforme já discutimos, a Web e os dispositivos IoT são grandes
respon- sáveis pela geração de dados no mundo. A grande
característica desses dados é o fato de terem uma estrutura
dinâmica, que pode ser alterada em execução.
Conhecendo um pouco sobre o conceito de dados semiestruturados,
veja- mos alguns exemplos deste tipo de dados.
3.1 DOCUMENTO XML
O XML (eXtensive Markup Language - Linguagem de Marcação Exten-
sível) é uma linguagem de marcação que tem uma estrutura muito
similar ao HTML (Hypertext Markup Language - Linguagem de Marcação
de Hipertexto).
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA
WAREHOUSE
22
Tanto o XML quanto o HTML têm sua organização e sintaxe dada por
<tags>. A principal diferença é que o HTML é utilizado para
criação e exibição de conteúdo na Web, enquanto o XML é utilizado
para armazenamento de dados.
O XML é recomendado pela W3C para a criação de documentos com dados
organizados hierarquicamente. Vejamos um exemplo de um documento
XML.
QUADRO 5 – EXEMPLO DE XML
<?xml version="1.0" ?> <pedidos> <pedido id="1">
<produto id="1"> <descricao>Jaleco</descricao>
<preco>3.50</preco>
<quantidade>3</quantidade> </produto>
</pedido>
</pedidos>
Para validar se a sintaxe do documento anterior está correta, basta
usar o seguinte validador:
https://www.w3schools.com/xml/xml_validator.asp. Criare- mos,
agora, um outro documento, baseado no anterior, mas utilizando
recursos de dados semiestruturados.
QUADRO 6 – ADICIONANDO ELEMENTOS AO XML
<?xml version="1.0" ?> <pedidos> <pedido id="1">
<produto id="1"> <descricao>Jaleco</descricao>
<preco>3.50</preco>
<quantidade>3</quantidade> </produto> <produto
id="2"> <descricao>Jaleco</descricao>
<quantidade>3</quantidade>
<totalproduto>10,5</totalproduto> </produto>
</pedido>
</pedidos> FONTE: O autor
23
Note que alteramos a estrutura do documento passando a mesma infor-
mação que há em pedido 1 para o pedido 2, dito isto, você percebe
que ambos produtos contêm a mesma informação, mas estruturada de
maneira diferente. Qual o problema disso? O grande problema será na
hora de consumir esses da- dos, afinal a mesma consulta não
retornará para a mesma informação.
O XML compreende um padrão adotado pelo W3 Consortium, que possi-
bilita a troca de dados na Internet, além de representar dados
semiestruturados. Uma grande quantidade de dados é atualmente
publicada em páginas HTML (ALMEIDA, 2002).
Documentos XML são tradicionalmente utilizados para integração
entre sistemas, nas quais organizações utilizam esse tipo de
documento para enviar e receber dados. Tendo em vista validar dados
nessa troca de informação, existem a DTD XMLSchema, que são
mecanismos para conferir se os XMLs seguem um padrão definido
durante a troca.
3.2 ARQUIVOS CSV
Os documentos deste tipo se assemelham muito a tabelas ou a um
docu- mento Excel. O termo “CSV” tem como significado Comma
Separated Values, ou seja, é um arquivo separado por vírgula (ou
ponto e vírgula). Assim como o XML, este é um formato de arquivo
que permite realizar o intercâmbio de dados entre sistemas que
utilizam SGBDs diferentes.
QUADRO 7 – CSV
FONTE: O autor
Leia o artigo “DTDs versus XML schema: a practical study”, dos
autores Geert Jan Bex, Frank Neven e Jan Van den Bussche.
Disponível em: https://www.researchgate.
net/publication/2938069_DTDs_versus_XML_schema_a_practical_study.
24
Os documentos deste tipo têm grande importância nesse curso, pois
mui- tas bases de dados públicas disponibilizam seus dados nesse
formato.
3.3 JSON
O formato JSON é um dos mais utilizados na Web para troca de
informa- ções, seja em aplicações de interoperabilidade ou até
mesmo para desenvolver aplicações Ajax (Asynchronous Javascript and
XML, em português “Javascript Assíncrono e XML”).
JSON significa “Javascript Object Notation”, do qual nada mais é
que o formato leve ideal para transferência/intercâmbio de dados.
Isto se dá pelo fato de sua estrutura ser igual a um objeto da
linguagem javascript (FILLIPI, 2017).
A seguir, um exemplo de como é a estrutura de um documento JSON
para realizar o armazenamento de produtos.
QUADRO 8 – JSON
[ { “cliente”: “João Fernandes”, “produto”: “Jaleco”,
“valor_total”: “3.5”, “metodo”: “cartão”, “promocao”:”sim” }
]
FONTE: O autor
A dinâmica de alteração de elementos de um documento JSON é muito
similar ao XML, a cada novo elemento pode-se alterar a estrutura.
Perceba que ao inserir o novo elemento em produto, ainda que a
estrutura tenha ficado próxima, o elemento promoção foi removido,
bem como os elementos produto e método foram alterados para que
recebam um array com vários produtos.
TÓPICO 2 | TIPOS DE DADOS E EXEMPLOS DE ARMAZENAMENTO
25
QUADRO 9 – ALTERAÇÃO DE UM DOCUMENTO JSON
[ { “cliente”: “João Fernandes”, “produto”: “Jaleco”,
“valor_total”: “3.5”, “metodo”: “cartão” }, { “cliente”: “João
Henrique”, “produto”: [“Jaleco”,”lentes”,”óculos”], “valor_total”:
“256.78”, “metodo”: [“cartão”, “dinheiro”] } ]
FONTE: O autor
3.4 BSON - MONGODB
A seção sobre MongoDb pode ser considerada uma continuação da abor-
dagem com JSON, uma vez que o sistema de armazenamento do Mongodb é
baseado em BSON, uma versão binária do JSOn como o
conhecemos.
O MongoDB é um banco de dados NoSQL de código aberto sob a li-
cença GNU AGPL v3.0, escrito em C++, orientado a documentos e livre
de schemas. Seu nome é derivado da expressão em inglês humongous,
que pode ser traduzido como “enorme” ou “monstruoso”. O Mon- goDB
inicialmente foi desenvolvido como um componente de serviço pela
empresa 10gen em outubro de 2007, passando a ser um software open
source em 2009. Atualmente, o MongoDB é um dos mais popula- res
banco de dados NoSQL (senão o mais popular) e está na versão 2.6. O
projeto ainda é mantido pela 10gen que oferece suporte comercial e
demais serviços (NASCIMENTO, 2020, p. 15).
Para obter o instalador no MongoDB em seu computador, você pode
aces- sar o link: https://www.mongodb.com/download-center. Uma vez
instalado, va- mos colocar em prática, antes disso, é preciso
compreender que o MongoDB é NoSQL e em uma associação com os bancos
de dados relacionais seus elementos principais são:
• Banco de Dados (SGBDR) → Banco de Dados (MongoDB). • Tabelas
(SGBDR) → Coleções (MongoDB). • Linhas (SGBDR) → Documentos
(MongoDB).
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA
WAREHOUSE
26
O primeiro passo é criar o seu banco de dados, para isso, no
terminal do MongoDB digite Use BDLoja. Com este comando, você
criará um banco de da- dos chamado loja.
Uma vez criado um banco de dados, o processo de criação de uma
collec- tion é dinâmica e aqui conseguiremos ver a definição de
dados semiestruturados na prática, ao contrário dos bancos de dados
relacionais, em que se deve primei- ramente criar uma tabela e,
posteriormente, inserir dados a ela.
Repetiremos no MongoDB os mesmos dados utilizados inseridos em
JSON, veja como ficará o código completo.
QUADRO 10 – COMANDOS MONGODB
co","lentes","óculos"], valor_total: 256.78, metodo: ["cartão",
"dinheiro"] }) 4 db.CollectionProduto.find()
FONTE: O autor
Ao executar o código mostrado no Quadro 10, na linha 1 você criará
o banco de dados. Na linha 2, a Collection é criada e o primeiro
pedido é inserido, na linha 3, o segundo pedido é inserido. Por
fim, na linha 4, é executada uma consulta que retornará todos os
elementos da CollectionProduto. O resultado es- perado será algo
como mostra a Figura 10.
FIGURA 10 – MONGODB
FONTE: O autor
27
4 DADOS NÃO ESTRUTURADOS Você aprendeu que os dados estruturados
são aqueles que têm uma estru-
tura criada antes do armazenamento dos dados e que os dados
semiestruturados vão definindo a estrutura do banco de dados
conforme os dados vão sendo inse- ridos. O que esses dois tipos têm
em comum? Para cada dado armazenado você sabe o que ele é, você
reconhece o valor, o nome, o preço, isso significa estrutura. Já os
dados não estruturados são aqueles que não possuem nenhuma
estrutura, nem prévia, nem criada em execução.
Os tipos não estruturados são:
• São os dados que não possuem uma estrutura definida. • São os
dados que estruturas são descritas implicitamente. • A maioria dos
dados na Web são deste tipo.
Os dados não estruturados são aqueles em que há a necessidade de um
pré-processamento para que haja uma compreensão dos dados
armazenados. Em geral, os dados não estruturados são textos, áudios
e imagens.
Vamos pegar o exemplo de uma imagem: como saber o que há em uma
imagem? Nós como humanos temos esse conhecimento, mas para que o
compu- tador possa compreender, no geral, uma imagem é quebrada
pixel a pixel, para cada pixel são coletados metadados sobre cada
pixel, por exemplo: cor, curva, profundidade.
Tendo como objetivo obter mais conhecimento, bem como poder
executar o MongoDB, você poderá acessar:
https://docs.mongodb.com/manual/tutorial/. O site possui um guia
completo sobre os principais comandos do MongoDB e também um
terminal on-line em que você poderá executar seus comandos.
DICAS
28
FONTE:
<https://gartic.com.br/t4nk_b0y/desenho-livre/super-mario-pixels-2>.
Acesso em: 1º jan. 2020.
Os textos também são amplamente utilizados em cenários de gestão do
conhecimento, no entanto, são compreensíveis para os humanos, mas
não para a máquina.
Para que se possam realizar operações de sistemas inteligentes
utilizando dados de textos, utilizam-se técnicas que convertem
textos para linguagem de máquina. A técnica mais conhecida é
denominada Bag-of-Words, que consiste em transformar um texto em um
conjunto de dados binários.
A Figura 12 traz um exemplo de um texto em sua forma inteira e sua
trans- crição para Bag-of-words, à esquerda os textos completos e à
direita as palavras e suas ocorrências na forma de Bag-of-words.
Note que a partir da transformação em Bag-of-words, o texto agora
tem uma estrutura e a partir deste momento po- derá ser
compreendido pela máquina.
29
FONTE:
<https://www.quora.com/What-is-the-bag-of-words-algorithm>.
Acesso em: 1º jan. 2020.
Neste tópico, você aprendeu que:
• Os dados são divididos em estruturados, não estruturados e
semiestruturados. • Os dados estruturados têm uma estrutura
predefinida e são tradicionalmente
SBGDR. • A estrutura dos dados semiestruturados são definidas no
decorrer da execu-
ção; são exemplos de dados semiestruturados: XML, CSV, JSON e
MongoDb (BSON).
• Os dados não estruturados não têm nenhuma estrutura; são exemplos
de da- dos não estruturados: imagens, textos, áudios e
vídeos.
31
1 Os dados são o novo petróleo, são essenciais para a implementação
de um sistema de Business Intelligence. Observe a figura a
seguir.
FIGURA 13 – TIPO DE DADO
FONTE: O autor
Assinale a alternativa CORRETA que apresenta o tipo de dado
contemplado pela imagem anterior:
a) É um dado do tipo estruturado. b) É um dado do tipo
semiestruturado. c) É um dado do tipo não estruturado. d) Nenhuma
das alternativas.
2 Os dados são o novo petróleo, são essenciais para a implementação
de um sistema de Business Intelligence. Observe o quadro a
seguir.
QUADRO 11 – TIPO DE DADO
Os Lusíadas Os Lusíadas é uma obra de poesia épica do escritor
português Luís Vaz de Camões, considerada a "epopeia portuguesa por
excelência". Provavelmen- te concluída em 1556, foi publicada pela
primeira vez em 1572 no período literário do Humanismo, três anos
após o regresso do autor do Oriente.
FONTE: O autor
AUTOATIVIDADE
32
Assinale a alternativa CORRETA que apresenta o tipo de dado
contemplado pelo quadro anterior:
a) É um dado do tipo estruturado. b) É um dado do tipo
semiestruturado. c) É um dado do tipo não estruturado. d) Nenhuma
das alternativas.
3 Os dados são o novo petróleo, são essenciais para a implementação
de um sistema de Business Intelligence. Observe o quadro a
seguir.
QUADRO 12 – TIPO DE DADO
CREATE TABLE Pessoa ( ID int, Nome varchar(255), Sonrenome
varchar(255), Endereco varchar(255), Cidade varchar(255) );
FONTE: O autor
Assinale a alternativa CORRETA que apresenta o tipo de dado
contemplado pelo quadro anterior:
a) É um dado do tipo estruturado. b) É um dado do tipo
semiestruturado. c) É um dado do tipo não estruturado. d) Nenhuma
das alternativas.
4 Os dados são o novo petróleo, são essenciais para a implementação
de um sistema de Business Intelligence. Observe o quadro a
seguir.
QUADRO 13 - TIPO DE DADO
{ nome:"João", Idade: 20, Sexo: 'M', Cursos:["Big Data", "IoT" ,
"ADS"]}; FONTE: O autor
Assinale a alternativa CORRETA que apresenta o tipo de dado
contemplado pelo quadro anterior:
a) É um dado do tipo estruturado. b) É um dado do tipo
semiestruturado. c) É um dado do tipo não estruturado. d) Nenhuma
das alternativas.
33
5 Os dados são o novo petróleo, são essenciais para a implementação
de um sistema de Business Intelligence. Observe o quadro a
seguir.
QUADRO 14 – TIPO DE DADO
<bilhetee> <data> <dia>12</dia>
<mês>11</mês> <ano>2020</ano> </data>
<para>José</para> <de>Maria</de>
<título>Lembrete</título> <corpo>Ir ao
cinema</corpo> </bilhete>
FONTE: O autor
Assinale a alternativa CORRETA que apresenta o tipo de dado
contemplado pelo quadro anterior:
a) É um dado do tipo estruturado. b) É um dado do tipo
semiestruturado. c) É um dado do tipo não estruturado. d) Nenhuma
das alternativas.
34
35
UNIDADE 1
1 INTRODUÇÃO
Durante esta Unidade estudamos diversos itens, começamos com uma
reflexão sobre a explosão dos dados e com o grande volume de dados
que há no mundo atualmente. Discorremos pelos tipos de dados e em
como funcionam e passamos pelos conceitos essenciais de Business
Intelligence e como ele deve ser implementado.
Durante o desenvolvimento de um sistema de Business Intelligence
não há particularidades técnicas, como é o caso do desenvolvimento
de sistemas, que são compostos de todo um conjunto de metodologias
e documentos. Quando falamos em desenvolver um Business
Intelligence na prática, estamos falando de um sistema que
consolidará os dados da empresa de tal modo que permitirá dar
suporte à tomada de decisões. O ideal de um sistema é que contemple
os pilares de Business Intelligence.
FIGURA 14 – PILARES DO BUSINESS INTELLIGENCE
FONTE: <https://www.goedert.com.br/business-intelligence/>.
Acesso em: 1º jan. 2020.
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA
WAREHOUSE
Para a implementação de um processo de inteligência de negócios
dentro de uma organização existem diversas ferramentas, no entanto,
são poucas as ar- quiteturas e metodologias. Isso acontece porque a
principal arquitetura para um projeto de BI está dando certo há
quase 40 anos. Vamos aprender mais sobre ela.
2 DATA WAREHOUSE
Data Warehouse é um termo que nasceu nos anos 1970 e tem sua
paterni- dade dividida entre Ralph Kimball e Bill Inmon, autores
que diferem em pontos específicos, mas que convergem na importância
do seu desenvolvimento para alcançar a eficiência em um projeto de
Business Intelligence. Data Warehouse tem como tradução literal
Armazém de Dados e seu objetivo é realmente esse.
FIGURA 15 – RALPH KIMBALL E BILL INMON
FONTE: O autor.
Segundo Nogueira (2019), Bill Inmon começou a discutir os
principais fatores em torno do Data Warehouse e o termo já começou
a existir a partir dos anos 1970. In- mon trabalhou extensivamente
na aprimoração de suas experiências em todas as formas de modelagem
de dados relacionais. O trabalho de Bill Inmon como pioneiro do
Data Warehouse foi o livro intitulado “Building the Data
Warehouse”, um dos principais sobre tecnologia sobre
desenvolvimento de projetos de dados na prática. Ralph Kimball, com
a publicação de “The Data Warehouse Toolkit”, divide com Inmon a
paternidade dos concei- tos sobre o que é um Data Warehouse.
IMPORTANTE
O data warehouse é o processo de coletar dados de sistemas de banco
de dados herdados e de transações e transformá-los em informações
organizadas em um formato amigável para incentivar a análise de
dados e apoiar a tomada de
TÓPICO 3 | INTRODUÇÃO AO DATA WAREHOUSE
37
decisões de negócios baseada em fatos. O processo que envolve a
transformação de dados de seu formato original em um armazenamento
de dados dimensional representa pelo menos 70% do tempo, esforço e
despesa da maioria dos projetos de data warehouse (KIMBALL;
CASERTA, 2011).
De modo geral, você pode compreender o Data Warehouse como um
grande banco de dados analíticos, que é alimentado pelas mais
diversas fontes de dados de uma empresa e tem a missão de integrar
todos eles.
Em sua definição do conceito de Data Warehouse, Kimball e Ross
(2011) afirmam que data warehouse é um sistema que extrai, limpa,
conforma e entrega os dados de origem em um armazenamento de dados
dimensional e, em seguida, suporta e implementa consultas e
análises para fins de tomada de decisão.
Inmon (2005), por sua vez, traz uma definição mais completa, na
qual um Data Warehouse é formado por uma coleção de dados,
orientado a um assunto, integrado, com tempo variável e não
volátil, para suporte ao gerenciamento dos processos de tomada de
decisão. Segundo Nogueira (2019), esses itens significam:
• Orientado a assunto: uma vez notando-se a necessidade da
implementação de um Data Warehouse em uma organização, este terá um
tema e um objeto de análise. Um Data Warehouse é orientado a
assunto pelo fato de que este sempre estará relacionado a um tema,
o qual consultas serão realizadas. Isso significa que ele sempre
será direcionado a um tema, seja vendas, financeiro, fiscal ou
compras. Ainda neste livro falaremos sobre o tema data mart, que é
quando podemos ter vários assuntos integrados.
• Integrado: nesta Unidade falamos sobre diversos tipos de dados
(XML, JSON, CSV, SGBDR), ou seja, uma das principais
características de um Data Warehou- se é a integração. Um Data
Warehouse pode integrar vários sistemas internos que usam SGBD e ao
mesmo tempo integrar com redes sociais via JSON, fazen- do dessa
dinâmica nas fontes de dados sua principal característica, bem como
um dos principais desafios.
• Variável em relação ao tempo: o fator temporal é, na maioria dos
casos, de- terminante na análise dos dados armazenados em um Data
Warehouse. Desse modo, a cada carga de um novo conjunto de dados,
este será associado com um determinado tempo. Vejamos a importância
do tempo, por exemplo: em um Data Warehouse de ações, na bolsa de
valores obtém-se os meses nos quais há uma maior queda nas ações e
os meses em que há um número maior de vendas. Sendo assim, é
necessário que os dados de Data Warehouse sejam ar- mazenados em
relação ao tempo.
• Não volátil: este fator também está relacionado ao tempo, uma vez
que todo registro que é inserido em um Data Warehouse é associado a
um tempo. Não devem haver exclusões, por isso é não volátil. Isso
não significa que o registro não constará como removido, mas que
haverá duas ocorrências, uma primeira na data de sua inserção
indicando que existiu e uma segunda indicando a data que foi
removido.
38
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA
WAREHOUSE
Quando analisamos as duas definições como um todo, podemos perceber
que o Data Warehouse é tratado como um grande banco de dados
analítico, ali- mentado pelas mais diversas fontes de dados da
organização.
Uma vez conhecendo melhor as definições e os conceitos,
entenderemos um pouco mais sobre as principais arquiteturas
utilizadas.
2.1 ARQUITETURA PROPOSTA POR INMON
Agora que conhecemos um pouco mais sobre o conceito de um Data Wa-
rehouse e seu papel dentro de uma organização, nos aprofundaremos
em como ele pode ser implementado. Quando falamos em arquitetura,
estamos falando de uma visão geral de como um Data Warehouse se
comportará.
FIGURA 16 – ARQUITETURA DE BILL INMON
FONTE: Adaptada de Carvalho (2010)
Nesta figura, os elementos representam:
• Dados operacionais e externos: o termo dados operacionais remete
aos dados dos sistemas transacionais utilizados pela empresa
(sistema de venda, de gestão etc.) que utilizam sistemas
gerenciadores de banco de dados. Os dados externos são dados da
Web, dispositivos externos ou até mesmo de sistemas de
terceiros.
• Extração dos Dados, Limpeza dos Dados e Carga dos Dados:
refere-se ao processo de tratamento dos dados, que devem ser
preparados para serem ar- mazenados. Como há a possibilidade de
existirem dados externos, essa etapa também é responsável por fazer
a integração destes. Por fim, os dados são car- regados no Data
Warehouse.
TÓPICO 3 | INTRODUÇÃO AO DATA WAREHOUSE
39
• Data Warehouse e Data Marts: são os locais onde os dados são
armazenados em si. A diferença é que os data marts são setoriais,
remetem-se a setores da empresa, Marketing, por exemplo. Já o Data
Warehouse pode ser compreendi- do como a consolidação de todos os
data marts.
• Sistemas de Entrega de Informações: referem-se a mecanimos para
fornecer dados para aplicações terceiras, como um web service que
permite a realização de consultas.
• Aplicações e Ferramentas: são os meios de visualização e consumo
dos dados armazenados; a partir das ferramentas, os dados
armazenados em um Data Warehouse são utilizados para a produção de
informação e conhecimento.
Uma característica da abordagem de Inmon está relacionada à
estratégia de modelagem de dados proposta pelo autor, tal
estratégia é denominada Snow- Flake. O modelo SnowFlake é muito
próximo do que é conhecido da modelagem tradicional de banco de
dados, ainda que seja orientado a consultas, o modelo de Inmon
aplica a normalizado, por isso as tabelas formam ramificações no
formato de flocos de neve (SnowFlake).
FIGURA 17 – MODELO FLOCO DE NEVE
FONTE: Adaptada de Nogueira (2019)
40
2.2 ARQUITETURA PROPOSTA POR KIMBALL
A arquitetura de um Data Warehouse mostra o comportamento e os ele-
mentos essenciais para que um cenário de Business Intelligence
possa acontecer e dar suporte à decisão.
Em uma abordagem similar ao que vimos anteriormente, a arquitetura
proposta por Kimball tem sido amplamente utilizada pela literatura
e em pro- jetos reais. A Figura a seguir mostra uma visão geral do
funcionamento desta arquitetura.
FIGURA 18 – ARQUITETURA DE KIMBALL
FONTE: Adaptada de Kimball e Ross (2011)
Pode-se dizer que a arquitetura proposta por Kimball e Ross (2011)
é com- posta por camadas de dados: fontes de dados, área de
trabalho, área de apresen- tação e ferramentas de acesso aos dados.
Tais camadas podem ser descritas como:
• Fontes Provedoras: um Data Warehouse é composto por dados
oriundos dos sistemas transacionais de uma organização, mas também
pode receber dados externos. Esta camada contém todos os dados
possíveis de serem armazenados no Data Warehouse (banco de dados
relacional, orientado a objetos, não estru- turados, textual, Web
etc.) que serão armazenados no modelo multidimensio- nal
desenvolvido, permitindo que sejam realizadas as análises.
TÓPICO 3 | INTRODUÇÃO AO DATA WAREHOUSE
41
• Área de Trabalho: será aqui que o maior esforço computacional
deverá acon- tecer, cerca de 80% do tempo do projeto deve ser gasto
na área de trabalho, visto que são realizados os processos de
integração das fontes de dados, bem como as transformações
necessárias para armazenar os dados de acordo com o modelo definido
para Data Warehouse. Nesta camada são realizados os prin- cipais
procedimentos da chamada ETL (Extract, Transform and Load -
Extração Transformação e Carga).
• Área de Apresentação de Dados: esta camada é responsável pela
criação do Data Warehouse em si, não somente do armazenamento, mas
de mecanismos para o consumo de dados com ênfase na sua principal
tarefa: análise dos dados.
• Ferramentas de Acesso aos Dados: essa camada será responsável por
consu- mir os dados de um Data Warehouse, gerando informação e
conhecimento. Será aqui que as ferramentas de visualização de dados
farão uso do servidor para submeter requisições de acesso aos dados
armazenados.
Assim como visto anteriormente, Kimball tem sua proposta de uma mo-
delagem para os dados que serão armazenados no Data Warehouse. O
modelo proposto por Kimball é denominado modelo estrela, o nome se
dá justamente pelo formato que as tabelas ficam dispostas. Ao
contrário do modelo SnowFlake, o modelo estrela não apresenta
normalização dos dados. A Figura 18 mostra um exemplo do modelo
estrela.
FIGURA 19 – MODELO ESTRELA
Você pode notar que as duas abordagens são próximas, com algumas
particularidades em suas arquiteturas, apesar dos modelos
oferecerem modelos diferentes.
A principal diferença entre as modelagens é que apesar do modelo
floco de neves oferecer mais integridade aos dados, ele será mais
custoso. O modelo estrela, por sua vez, atende à ideia de um banco
de dados analítico. Com poucas tabelas, permite que as consultas
sejam executadas de maneira mais rápida.
No que se refere às arquiteturas, você não precisa se apegar,
afinal pode adaptar a arquitetura dependendo do problema a ser
desenvolvido. No caso de Nogueira (2017), por exemplo, no
desenvolvimento de uma aplicação de coleta de notícias em tempo
real, que coleta notícias e armazena em um sistema de Data
Warehouse determinado Newsminer, para fazer a coleta, a análise e a
implemen- tação de algoritmos de machine learning ele utilizou uma
arquitetura proposta por ele mesmo.
FIGURA 20 – EXEMPLO DE ARQUITETURA
FONTE: Adaptado de Nogueira (2017)
Em um sistema para coleta de dados da rede social Twitter, tendo
como objetivo utilizar algoritmos de machine learning para analisar
os sentimentos so- bre os candidatos à eleição em 2018, Suter et
al. (2019) propõe uma arquitetura de Data Warehouse para realizar o
armazenamento dos textos, bem como da sua recuperação.
TÓPICO 3 | INTRODUÇÃO AO DATA WAREHOUSE
43
FONTE: Adaptado de Suter et al. (2019)
LEITURA COMPLEMENTAR
da evasão universitária
Introdução
A evasão escolar tem se mostrado um problema que impacta a educação
sob variadas perspectivas e afeta os discentes, as instituições de
ensino, os siste- mas de ensino e a sociedade em geral. De outro
lado, ferramentas de Business Intelligence são amplamente
utilizadas nos mais diversos cenários de suporte à decisão como uma
oportunidade de organização de dados e eventos, em especial para a
projeção de cenários e possibilidades futuras.
No ensino superior, a evasão é um problema que atinge até mesmo o
ce- nário internacional, afetando os resultados dos sistemas
educacionais, além dis- so, são desperdícios sociais, acadêmicos e
econômicos (PRIM; FÁVERO, 2012). Um levantamento realizado pelo
Ministério da Educação e Cultura (MEC) com dados do censo relativos
ao ano de 2015 revelou um crescimento nas taxas de desistências dos
cursos de ingresso, na avaliação do fluxo de alunos entre 2010 e
2014. Em 2010, 11,4% dos alunos abandonaram o curso para o qual
foram admiti- dos. Em 2014, esse número chegou a 49%.
Para tanto, este trabalho tem por finalidade de estudo a
implementação de um banco de dados multidimensional com a
utilização de dashboards intera- tivos, a fim de compilar os dados
relevantes à evasão do Curso de Bacharelado de Sistemas de
Informação (BSI) do Instituto Federal Catarinense de uma forma
organizada e analítica para a gestão do Campus, permitindo a
realização de con- sultas por diversas perspectivas do perfil
acadêmico; coletar e analisar dados re-
44
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA
WAREHOUSE
ferentes à evasão dos alunos do curso de Bacharelado em Sistemas de
Informação do Instituto Federal Catarinensepor meio de um banco de
dados multidimensio- nal que permita o desenvolvimento de
dashboards interativos.
Revisão de literatura
Sabendo que o principal objetivo deste trabalho é análise dos dados
refe- rente à evasão dos alunos do curso de Bacharelado em Sistemas
de Informação por meio de um banco de dados multidimensional,
buscou-se os principais tra- balhos da literatura atual que
realizaram tal integração. O trabalho de Alves et al. (2016),
aborda uma solução para os gestores do Centro Universitário de
Patos de Minas – UNIPAM uma ferramenta de auxílio, para que o
gestor possa realizar a tomada de decisão de forma mais segura e
mais estruturada através de dados analisados, sendo essa solução o
uso de Balanced Scorecard (BSC) e Business In- telligence
(BI).
Para a obtenção das informações, os autores buscaram, previamente,
jun- to à instituição, os índices de abandono de curso por curso e
por centro, forma de ingresso por forma de evasão, perfil
geográfico de alunos que abandonam cursos e o coeficiente de
rendimento de alunos que abandonam um curso.
De acordo com os campos supracitados e necessários para análise, as
fon- tes de dados usadas no trabalho são baseadas em planilhas
geradas pela DTIC – Diretoria de Tecnologia de Informação e
Comunicação da UNIRIO. Então, com o auxílio da ferramenta de BI
Tableau, foi possível gerar o primeiro indicador mais generalizado
e mostrar a porcentagem de evasão de alunos de Ampla Concorrên- cia
em cada curso por semestre, desde 2010. O trabalho foi dado como
prioridade ao fato “Evasão”, mas com o uso e aplicação de uma
ferramenta BI, os usuários conseguem analisar muitos outros fatos
relevantes para a instituição, como mobi- lidade entre cursos,
transferências externas, entre outros.
Metodologia
Para atingir os objetivos propostos neste trabalho, primeiramente
foi rea- lizado um estudo e análise, através de uma pesquisa de
campo, de todos os alu- nos matriculados nas turmas de 2010 a 2018
do Curso de Bacharelado de Sistemas de Informação e, em um âmbito
geral, foi identificando o perfil de cada aluno para apontar o
provável motivo da evasão dos alunos.
Para levantar as causas da evasão, foi aplicado um questionário aos
acadê- micos evadidos, acadêmicos que estão cursando e aos
acadêmicos que já conclu- íram o curso. As perguntas foram
elaboradas com o auxílio de outras pesquisas e questionários
aplicados em outros estudos semelhantes, em que algumas ques- tões
foram reescritas e adaptadas para fins de desenvolvimento dos
dashboards e do data warehouse.
TÓPICO 3 | INTRODUÇÃO AO DATA WAREHOUSE
45
ARQUITETURA
O questionário foi desenvolvido na plataforma de formulários do
Goo- gle Drive. Então foi gerado um link do questionário e
encaminhado via e-mail aos acadêmicos do curso, entre os meses de
setembro a outubro do ano de 2018, tendo como base de dados
informações fornecidas pelo Registro Escolar da Ins- tituição em
estudo e a coordenação do curso de Bacharelado em Sistemas de In-
formação por meio de uma solicitação escrita autorizada garantindo
o sigilo das informações. Junto aos links dos questionários também
foi encaminhado uma breve explicação do estudo enfatizando a sua
relevância não apenas para o curso de Bacharelado em Sistemas de
informação, mas sim para o desenvolvimento educacional da
Instituição em estudo.
Depois de feita a coleta e análise dos dados destes questionários,
foi de- senvolvido o banco de dados multidimensional, para então
compilar os dados e gerar os índices de evasão do curso de BSI com
o uso das ferramentas de Business Intelligence. A fonte de dados da
arquitetura tem como base o arquivo em forma- to .csv e para que as
informações dos questionários sejam armazenadas de acordo com o
modelo multidimensional e os dados disponibilizados para as
aplicações, a coleta dos questionários é realizada previamente, bem
como seu pré-processa- mento, compondo a etapa de ETL, ou área de
trabalho.
Em seguida, na área de apresentação é feita a carga dos dados
pré-pro- cessados no Data Warehouse e utilizada a ferramenta de
acesso aos dados Power BI para gerar os dashboards, contendo os
índices e a efetivação das operações de OLAP do banco, conforme
ilustrado na Figura - Arquitetura. Tendo como premis- sa que o
modelo estrela é a estrutura básica de um modelo de dados
multidimen- sional, este também foi utilizado na modelagem
multidimensional deste projeto, no qual sua composição típica
possui uma grande entidade central denominada fato e um conjunto de
entidades menores denominadas dimensões, arranjadas ao redor dessa
entidade central, o qual forma uma estrela.
O modelo multidimensional (ver figura a seguir) representa o
projeto lógi- co do banco multidimensional para a descoberta de
fatores determinantes da eva- são do curso estudado. Para sua
implementação foi utilizado a abordagem HOLAP (Hybrid Online
Analytical Processing) por intermédio de um servidor
PostgreSQL.
46
M O
47
Resultados e discussão
A modelagem multidimensional permite que as consultas de um banco
de dados sejam realizadas de maneira mais intuitiva e flexível pelo
usuário, além de possibilitar a obtenção de um desempenho superior,
no que se refere às con- sultas e análise de grandes volumes de
dados.
O data warehouse foi populado de acordo com as respostas obtidas
pelo questionário aplicado aos alunos, sendo assim, podemos fazer
um gerenciamento das informações em que os dados estão organizados
dentro de tabelas e definidas as relações entre estas tabelas.
Deste modo, pode-se extrair ou até mesmo combi- nar os dados de
diversas tabelas, obtendo uma consulta ampla de informações.
O primeiro indicador gerado é mais generalizado com o intuito de
mos- trar os dados de perfil dos alunos, conforme mostra a figura a
seguir.
PERFIL ALUNO
As dimensões foram dispostas nos filtros para dinamizar e
flexibilizar os resultados. Dessa maneira, é possível selecionar um
dos status do aluno (ativo, formado e/ou evadido) ou por uma turma
em específico, o qual gerará as métri- cas de idade, gênero,
quantos alunos de cada status participaram da pesquisa, a cidade e
estado, com localização geográfica, em que cada aluno morava quando
fez o processo seletivo para o curso e se ele mudou de endereço
devido ao ingres- so no curso.
48
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA
WAREHOUSE
Pode-se observar que 74,4% dos alunos que participaram da pesquisa
são do gênero masculino e com uma faixa etária predominante de 18 a
25 anos de idade, sendo boa parte do estado de Santa Catarina e
mais especificamente da cidade de Instituto Federal Catarinense,
onde é localizado o campus que disponibiliza o curso.
A próxima figura exibe os indicadores de um perfil explorando a
dimen- são “social” dos alunos, em que é considerado como análise o
meio de transporte que o aluno utiliza (para os ativos) ou
utilizava (para os formados e evadidos) para chegar ao Campus, a
forma como realizou o ensino médio, quantas horas diárias o aluno
trabalha e a renda familiar. Como exemplo de indicador, tem-se qual
o meio de transporte mais utilizado pelo aluno de uma determinada
turma.
PERFIL SOCIAL
Obtemos que a maioria dos alunos (62,79%