19
SmartMail| Entidade Promotora: Parceiros: 1/2 Projeto em curso com o apoio de: Processos Estatísticos Descritivos e Inferenciais Análise do Estado da Arte

Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

Embed Size (px)

DESCRIPTION

O nome do projeto SMART Mail encontra-se profundamente ligado ao seu objetivo principal; uma utilização ágil, produtiva e sobretudo mais inteligente do email, enquanto canal privilegiado de comunicação corporativa ou em lazer.Para atingir tais benefícios será necessário conceptualizar e desenvolver novas ferramentas e interfaces que agilizem todo este processo de gestão, assim como, acrescentem mais-valias, sob a forma de métricas ou gráficos para o utilizador ser auxiliado numa utilização e gestão eficiente do seu email.Utilizadores habituais de email deparam-se frequentemente com situações em que os seus emails, por si só, oferecem pouca informação. Sistemas de gestão de email por vezes oferecem dados adicionais mas estes tendem a evidenciar informação superficial ou imediatamente aparente.Através de determinados cálculos estatísticos, torna-se possível encontrar relações e conclusões que de outro modo não seriam visíveis, encontrando-se implícita (i) nas mensagens, (ii) intervenientes, (iii) organizações, (iv) eixo temporal e / ou (v) combinação destas variáveis envolvidas no envio de emails. Incluído no âmbito do projeto SMART Mail, este documento vai apresentar dois tipos de estatísticas (descritiva e inferencial), os conceitos necessários à sua compreensão e exemplos de aplicações destes no domínio do email, de passível futura aplicação no decurso das atividades de “Conceção” e “Desenvolvimento” do protótipo SMART Mail.

Citation preview

Page 1: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

1/2 Projeto em curso com o apoio de:

Processos Estatísticos Descritivos e Inferenciais Análise do Estado da Arte

Page 2: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

2/2 Projeto em curso com o apoio de:

Índice Introdução ............................................................................................................................................ 2

Processos Estatísticos Descritivos ........................................................................................................ 3

Definição ........................................................................................................................................... 3

Construtores Matemáticos .............................................................................................................. 3

Análise Univariada ........................................................................................................................ 3

Análise Bivariada .......................................................................................................................... 6

Processos Estatísticos Inferenciais ....................................................................................................... 8

Definição ........................................................................................................................................... 8

Construtores Matemáticos .............................................................................................................. 8

Estimação ..................................................................................................................................... 9

Teste de Hipótese ......................................................................................................................... 9

Estado da Arte .................................................................................................................................... 11

Aplicabilidade ao domínio do email ................................................................................................... 12

Aplicabilidade da estatística descritiva .......................................................................................... 12

Mecanismos de sugestão dos contactos mais relevantes ......................................................... 12

Taxas de distribuição de email ................................................................................................... 12

Deteção de relevância de conversações .................................................................................... 13

Aplicabilidade da estatística inferencial ......................................................................................... 13

Classificação de organizações .................................................................................................... 13

Deteção de eventos .................................................................................................................... 14

Monitorização e gestão de contactos ........................................................................................ 14

Adequação ao negócio ....................................................................................................................... 16

Comunicação com empresas ......................................................................................................... 16

Comunicação com consumidores .................................................................................................. 16

Referências ......................................................................................................................................... 17

Page 3: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

2/2 Projeto em curso com o apoio de:

Introdução O nome do projeto SMART Mail encontra-se profundamente ligado ao seu objetivo principal; uma

utilização ágil, produtiva e sobretudo mais inteligente do email, enquanto canal privilegiado de

comunicação corporativa ou em lazer.

Para atingir tais benefícios será necessário conceptualizar e desenvolver novas ferramentas e

interfaces que agilizem todo este processo de gestão, assim como, acrescentem mais-valias, sob a

forma de métricas ou gráficos para o utilizador ser auxiliado numa utilização e gestão eficiente do

seu email.

O presente documento enquadra-se na atividade “Linha investigação 1: Processos estatísticos

descritivos e inferenciais” do projeto SMART Mail, constituindo resultado documental das tarefas

“Investigação do estado da arte sobre a linha de investigação de processos estatísticos

descritivos”, “Investigação do estado da arte sobre a linha de investigação de processos

estatísticos inferenciais” e “Experimentação e teste de abordagens atuais de processos estatísticos

declarativos e inferenciais”.

Utilizadores habituais de email deparam-se frequentemente com situações em que os seus emails,

por si só, oferecem pouca informação. Sistemas de gestão de email por vezes oferecem dados

adicionais mas estes tendem a evidenciar informação superficial ou imediatamente aparente.

Através de determinados cálculos estatísticos, torna-se possível encontrar relações e conclusões

que de outro modo não seriam visíveis, encontrando-se implícita (i) nas mensagens, (ii)

intervenientes, (iii) organizações, (iv) eixo temporal e / ou (v) combinação destas variáveis

envolvidas no envio de emails. Incluído no âmbito do projeto SMART Mail, este documento vai

apresentar dois tipos de estatísticas (descritiva e inferencial), os conceitos necessários à sua

compreensão e exemplos de aplicações destes no domínio do email, de passível futura aplicação

no decurso das atividades de “Conceção” e “Desenvolvimento” do protótipo SMART Mail.

Page 4: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

2/2 Projeto em curso com o apoio de:

Processos Estatísticos Descritivos

Definição A estatística descritiva é o domínio da matemática que permite descrever e resumir dados através

de parâmetros para obter tendências superficiais. No entanto, superficiais não implica que os

resultados obtidos não sejam valiosos. Quando deparado com grandes quantidades de dados em

bruto, um estaticista pode usar técnicas e processos para ordenar e classificá-los, permitindo a

extração de informação que de outro modo não seria fácil, ou de todo possível, obter. [1] [2]

Construtores Matemáticos Para estudar a estatística de dados, é necessário analisar, compreender e classificar a natureza dos

dados. Com esse fim, são utilizadas variáveis. Uma variável representa um único aspeto de um

conjunto de dados e é necessária para transformar conceitos, por vezes abstratos ou difusos, em

valores discretos e fáceis de estudar. Por exemplo, pode-se definir a variável “Hora de envio de

email” para estabelecer a que horas um contacto envia emails a um recipiente.

Análise Univariada A base da estatística descritiva baseia-se em estudar apenas uma variável. Uma variável pode ser

estudada de forma a conhecer os seus três aspetos principais: a distribuição, a tendência central e

a dispersão dos dados.

Distribuição

A distribuição consiste na lista de pontos de dados ou categorias de uma variável. Continuando o

exemplo que foi iniciado na introdução desta secção, podemos tomar a nossa variável “Hora de

envio de email” e criar uma categoria por cada hora do dia. Assim, torna-se possível associar cada

email recebido a uma hora e ficar a conhecer em que períodos de tempo um certo contacto envia

mais ou menos emails. A Figura 1 mostra um gráfico de barras duplo. O eixo das abcissas (X)

representa as horas do dia e o eixo das ordenadas (Y) refere-se ao volume de emails recebidos. As

barras com um tom mais claro mostram os emails recebidos de todos os contactos e as barras

mais escuras referem-se aos emails recebidos de um contacto específico. A partir deste gráfico

podemos ver como os dados encontram-se dispersos, ou por outras palavras, o volume de emails

recebidos a cada hora.

Page 5: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

2/2 Projeto em curso com o apoio de:

Figura 1 – Comparação da dispersão diária de emails de um contacto com todos os emails recebidos

Tendência Central

Quando se estudam dados, é frequente querer conhecer onde se situa o “centro” dos dados.

Todavia, não existe um único centro mas sim três: a moda, a mediana e a média. A Figura 1 será

usada para melhor dar a conhecer cada uma das medidas. A moda é a mais simples das três,

referindo-se apenas ao valor / categoria com maior frequência. Na Figura 1 esta seria a categoria

das 16h, quando o maior número de emails foi recebido.

A mediana refere-se ao valor / categoria que tem um número igual de outros valores / categorias,

respetivamente, de cada um dos seus lados, ou seja, o valor / categoria que esteja exatamente no

meio do conjunto ordenado de todos os valores. No caso de o conjunto de dados ter um número

par de elementos, levando a que existam dois elementos válidos, a mediana será o resultado do

cálculo da média dos dois elementos.

O cálculo da média não é utilizado só nessas circunstâncias, contudo. A média é frequentemente a

mais valiosa das três medidas de tendência central já que esta permite conhecer o conjunto de

dados com um único número. Ao somar a frequência de todos os valores / categorias e dividir a

soma obtida pelo tamanho do conjunto de dados obtém-se um valor que representa todos os

dados. Esta medida é valiosa porque permite conhecer factos como quantos emails se podem

esperar a uma certa hora ou aumentos / diminuições na frequência de trocas de emails com um

contacto ao longo do tempo, por exemplo. No entanto, a média pode ser fortemente influenciada

por outliers, valores drasticamente diferentes da maioria dos outros valores, o que leva a que

médias calculadas não representem com precisão a maioria dos dados, ou os dados relevantes. Há

que notar que um outlier não é inerentemente disruptivo e pode conter informação

extremamente importante, o que significa que estes não devem ser automaticamente ignorados

ou rejeitados. É mais importante que se entenda o significado de outliers para que não haja perdas

de informação.

No exemplo corrente, utilizando a Figura 1 como suporte, temos o volume de emails recebidos de

um contacto específico e a soma dos emails de todos os contactos. Ao calcular a média de cada

um destes conjuntos de dados podemos comparar os volumes de emails de forma mais direta e

Page 6: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

2/2 Projeto em curso com o apoio de:

objetiva e saber empiricamente por quantos emails um contacto é responsável (envio e receção).

Alternativamente, ao dividir o volume de emails de cada hora pelo número de dias decorridos

num intervalo temporal, pode-se descobrir a média de emails trocados num determinado período

de tempo. Se for mantido um registo destas médias torna-se possível quantificar crescimentos e

diminuições de tráfego de um contacto.

Dispersão

As medidas de dispersão contemplam as variações das frequências registadas e não as frequências

em si. A amplitude dos dados é por vezes valiosa já que permite fazer comparações entre valores /

categorias ou até conjuntos de dados diferentes. Para melhor exemplificar a amplitude pode-se

definir uma variável “Número de emails recebidos por dia”. Ao observar dois contactos, um

utilizador de email pode determinar o comportamento de cada um e adaptar a sua forma de

interação / comunicação.

Neste exemplo, a amplitude de emails recebidos do primeiro contacto é reduzida e, por isso, o

utilizador espera receber sempre um número semelhante de emails todos os dias e planeia o seu

dia de acordo com essa informação. O segundo contacto, por contraste, pode passar dias sem

enviar emails mas também é capaz de enviar grandes quantidades num só dia e assim a sua

amplitude no âmbito desta variável é muito alta e o utilizador de email pode preparar a sua caixa

de correio para filtrar automaticamente os emails enviados por esse contacto no caso de ser

recebido um grande volume de mensagens. Devido ao facto da amplitude ser extremamente

sensível a outliers, este cálculo tem de ser executado com cuidado para que o resultado seja válido

e minimamente interessante para o contexto a que pertence.

A medida de dispersão mais comum, no entanto, é o desvio padrão. Para falar desta medida

também se deve falar da variância, já que o desvio padrão se obtém de calcular a raiz quadrada da

variância. [3]

Figura 2 - Fórmula da Variância

A Figura 2 contém a fórmula para calcular a variância. A fórmula consiste em calcular uma média

com os quadrados das diferenças de cada valor e a média dos valores. Ao calcular a raiz quadrada

do valor obtido obtém-se o desvio padrão, um valor que permite estabelecer intervalos ou

subgrupos de dados. Em distribuições de dados (aproximadamente) normais, em que os dados

estão distribuídos de forma (aproximadamente) simétrica, criam-se intervalos partindo da média e

subtraindo ou somando o desvio padrão, uma ou mais vezes, para obter os limites mínimos e

máximos, respetivamente. Continuando com distribuições de dados normais, 68% dos dados está

Page 7: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

2/2 Projeto em curso com o apoio de:

contido no intervalo de um desvio padrão e 99.7% dos dados está no intervalo entre três desvios

padrões, [2] [4] [5] como ilustrado na Figura 3.

Figura 3 - A regra de 68-95-99.7

Análise Bivariada Por vezes torna-se necessário estudar a relação entre duas variáveis e nesses casos as medidas

apresentadas na secção anterior não são suficientes. Para estudar relações de variáveis utilizam-se

a correlação e a covariância, muitas vezes apresentadas graficamente de modo a entender

intuitivamente as diferenças gerais, tipicamente através de scatterplots ou tabelas de distribuição

de probabilidade conjunta. Os resultados deste tipo de análises permitem encontrar ligações entre

os dados mas é importante salientar que a correlação não implica causalidade, ou seja, o facto de

existir uma relação não implica que uma das variáveis dependa da outra.

Concretamente, se numa caixa de email hipotética as variáveis “tempo de resposta” e “qualidade

de resposta” mostrarem uma correlação positiva, ou seja, se respostas mais rápidas tendem a ser

mais bem compostas, não se pode assumir que respostas rápidas sejam mais bem compostas.

Antes de se poder calcular a correlação, no entanto, é necessário calcular a covariância. Existem

algumas variações mas a Figura 4 contem a fórmula base que consiste em calcular a média dos

produtos da diferença entre cada valor de uma variável e da média dessa mesma variável. É

semelhante ao cálculo da variância com a diferença de o produto ser entre os dados de ambas as

variáveis em vez de com os dados da mesma variável (ou o quadrado da diferença dos valores e da

média).

Figura 4 - Fórmula base da Covariância

Page 8: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

2/2 Projeto em curso com o apoio de:

O cálculo de correlação de Pearson abaixo utiliza a covariância calculada e divide-a pelo produto

dos desvios padrão de cada variável, ou seja, o resultado da variância é normalizado para tornar os

resultados mais simples de analisar e comparar.

Figura 5 - Formula de Correlação de Pearson

Ambos os cálculos indicam a existência ou ausência de ligação entre as duas variáveis mas a

correlação tende a ser mais usada já que os resultados da covariância não são facilmente

entendidos, de forma análoga à preferência de utilização do desvio padrão sobre a utilização da

variância.

Também é importante notar que existem cálculos de correlação que não usam a fórmula de

Pearson. Por exemplo, um teste de correlação inferencial baseia-se no conceito de distribuição

condicional.

Page 9: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

2/2 Projeto em curso com o apoio de:

Processos Estatísticos Inferenciais

Definição A estatística inferencial trata de permitir conhecer o mesmo tipo de informação que a estatística

descritiva dá a conhecer mas em contextos em que não temos toda a informação ou a garantia da

qualidade dos dados. Quando só se possui uma porção da totalidade dos dados que se pretendem

estudar, torna-se necessário formular hipóteses consoante essa porção, ou amostra, e extrapolar

para a totalidade dos dados, ou população. Aplicar a uma população os resultados obtidos de

estudar uma amostra acarreta algum risco, valores aproximados e uma quantidade não nula de

erro, o que significa que os resultados obtidos com estes processos não serão idênticos aos reais.

Contudo, com alguma margem de tolerância de variações como estas, os resultados obtidos com

estes processos são valiosos e podem revelar informação importante, informação não contida nos

dados iniciais mas nas relações entre si [1] [2]

Construtores Matemáticos Na secção de construtores matemáticos dos processos de estatística descritiva, os aspetos

essenciais foram mencionados e explicados de forma a dar a entender o tipo de resultados que se

podem obter e como estes podem ser interpretados. Todos os cálculos feitos nesse domínio têm

como pressuposto que o conjunto de dados a ser estudado contém a totalidade dos dados

relevantes ao estudo, ou seja, que um estaticista que estude o problema tenha acesso a todos os

dados do estudo e não apenas a uma subsecção destes. A estatística inferencial é um domínio da

estatística que se aplica aos casos onde a estatística descritiva não se pode aplicar, por outras

palavras, a casos onde só existe acesso a uma amostra da população.

Em casos como estes, como o acesso aos dados é limitado, os cálculos têm acesso somente aos

dados da amostra e posteriormente é necessário extrapolar resultados que sejam aproximados

dos valores reais da população, ou seja, os dados da população são inferidos. Para que estes

cálculos sejam possíveis, dado o grau de incerteza nos cálculos, é necessário recorrer a intervalos

de confiança. Estes intervalos são definidos por um conjunto de valores candidatos e por um nível

de confiança, uma percentagem tipicamente igual a 90%, 95% ou 99%, que indica a confiança de o

valor alvo estar dentro do intervalo. É importante realçar que a confiança nunca chega a 100%, o

que significa que um intervalo de confiança poderá não conter o valor verdadeiro do parâmetro

em questão num dado problema.

A inferência estatística engloba duas principais tarefas: estimativas e testes de hipótese. [3] [6]

Ambas partilham objetivos, servindo dois propósitos diferentes, e ambas são valiosas em vários

Page 10: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

2/2 Projeto em curso com o apoio de:

domínios. Em particular no domínio do email, estas técnicas podem ser utilizadas para inferir

relações e encontrar informação que de outra forma não seria evidente. Por exemplo, ao longo de

um período de tempo um utilizador de email pode trocar mensagens com dois contactos

importantes. Com alguns cálculos é possível determinar se as trocas de mensagens com o primeiro

contacto influenciam a frequência de envio de mensagens para o segundo contacto.

Como brevemente mencionado na secção de Análise Bivariada dos Processos Estatísticos

Descritivos, a correlação também pode ser calculada no contexto da estatística inferencial. A

informação crucial da correlação dada na secção mencionada também se aplica neste contexto,

por isso a correlação não será explorada com muita profundidade nesta secção.

Estimação Quando a lidar com amostras, não é possível obter resultados para a população diretamente a

partir dos dados da amostra. Tal como referido anteriormente, é feita uma extrapolação para ter

informação sobre a população mas este processo pode resultar em resultados incorretos. Assim,

são utilizados estimadores para obter valores próximos dos corretos, ou estimativas, e conseguir

completar quaisquer cálculos necessários.

Um estimador é normalmente representado com o caracter do parâmetro desejado marcado com

um acento circunflexo, tal como , e pode ser tanto pontual ou intervalar, ou seja, pode oferecer

um único valor ou um intervalo de valores, na forma de um intervalo de confiança.

Nem todos os emails trocados entre um utilizador e um contacto podem estar acessíveis num

determinado momento. À medida que o tempo passa emails podem ser apagados e diferentes

contas de email podem ser utilizadas, o que leva a que nem todas as mensagens possam ser

acedidas para ter o conjunto completo de dados. Todas essas mensagens tiveram um efeito na

relação das duas pessoas, e potencialmente noutras relações, e seria vantajoso poder contar com

a totalidade das mensagens, apesar de algumas estarem indisponíveis. Recuperar esse tipo de

informação não é uma opção válida mas deduzir alguma da informação de um utilizador permite

executar cálculos que produzam resultados relevantes.

Teste de Hipótese Quando é necessário conhecer um aspeto da população, por vezes informação que nem está

diretamente acessível como a média ou o desvio padrão, um teste de hipótese apresenta-se como

apropriado. [7] Um teste de hipótese começa com um ambiente, e.g. como a caixa de correio de

um CEO onde cada contacto tem um certo grau de importância, e com uma pergunta, tal como “O

contacto mais importante é o que envia mais emails?”.

Para ter uma resposta a essa pergunta é formulada uma ideia para ser testada, neste caso seria

“Um contacto é importante se enviar 10 mensagens por dia.”. Posteriormente é proposta a

hipótese nula e a hipótese alternativa. A hipótese nula assume o oposto da ideia enquanto a

Page 11: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

2/2 Projeto em curso com o apoio de:

hipótese alternativa propõe uma alternativa, esta sendo a própria ideia. Com ambas as hipóteses

formuladas, assume-se que a hipótese nula é verdadeira e adota-se uma estratégia de redução ao

absurdo. Se a hipótese nula for rejeitada, a ideia inicial é aceite e é dado um resultado que

consiste de um intervalo de confiança que indica a hipótese aceite e o grau de confiança

associado.

Page 12: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

2/2 Projeto em curso com o apoio de:

Estado da Arte Na área de estatística descritiva não existe nenhuma descoberta ou teoria recente que altere a

forma em como se descrevem e analisam conjuntos de dados de forma superficial. As

metodologias não têm sofrido alterações e continuam a ser pilares essenciais em investigações e

análises de diversos domínios, tal como em análises de desempenho em vários desportos,

comparações de estado de saúde de pacientes, estudo de hábitos sociais / culturais, entre outros.

Na área da estatística inferencial, no entanto, existem bastantes esforços de estaticistas para

expandir o conjunto de ferramentas de inferência estatística. Advances in Statistics [8] é um

journal que publica artigos de investigação de qualquer área da estatística. Neste journal é

possível encontrar artigos recentes (desde 2014) com algumas das abordagens mais inovadoras no

domínio da estatística.

Especificamente, Zhenmin Chen e Tieyong Hu desenvolveram um teste [9] que oferece melhores

resultados do que o teste de Kolmogorov–Smirnov (o teste mais usado até hoje para comparar

duas amostras de dados) em distribuições de dados em V ou para amostras pequenas.

No entanto, muitos aspetos mantém-se constantes. Não têm sido feitos muitos desenvolvimentos

matemáticos na base da estatística descritiva mas usos da estatística descritiva têm vindo a

aumentar em número. [10] Nomeadamente, no tratamento de pacientes de cancro nos Estados

Unidos da América, usos inovadores de estatísticas auxiliam na escolha de abordagens ao nível da

personalização dos tratamentos deste grave problema de saúde. [11]

Em 2013 foi levado a cabo o International Year of Statistics, um evento cujo propósito era

promover a importância do cálculo estatístico a outras comunidades, tal como outras

comunidades científicas, organizações e governos. [12] Esse evento levou à criação do World of

Statistics [13], uma rede global de organizações que visa continuar os esforços do evento de 2013

e continuamente investir no crescimento da estatística como área de estudo e emprego, orientada

especialmente para pessoas mais novas.

Page 13: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

2/2 Projeto em curso com o apoio de:

Aplicabilidade ao domínio do email

Aplicabilidade da estatística descritiva Apesar de já terem sido utilizados exemplos relativos a email neste documento, nesta secção vão

ser discutidas com mais detalhe algumas possíveis aplicações mais concretas das técnicas

mencionadas anteriormente. Cada uma destas aplicações, por si só, não é suficiente para

classificar corretamente os emails recebidos por um utilizador, mas em conjunto permitem

determinar quão importante um email é e mostrar a um utilizador de email quais mensagens

requerem mais atenção em cada momento.

Mecanismos de sugestão dos contactos mais relevantes Decidir qual o mais valioso de dois contactos pode ser uma tarefa difícil e dispendiosa ao tentar

comparar os atributos de cada, dificuldade que aumenta drasticamente quando se deseja

comparar dez, cinquenta ou cem contactos. Como referido na definição de estatística descritiva, o

propósito deste tipo de estatística é descrever e resumir grandes quantidades de dados.

Certos elementos de um contacto, por si só, podem ser resumidos de forma simples, tal como o

tempo médio de resposta. Um contacto com que um utilizador tenha conversas de hora a hora é

potencialmente um contacto mais importante do que outro cujas conversas podem ter pausas de

dias ou semanas. Outro elemento que pode ser resumido de forma simples é o intervalo de horas

de contacto. Um contacto que envie a maioria dos seus emails depois do horário normal de

trabalho pode ter requisitos diferentes de outros contactos e necessitar de respostas céleres,

tornando-o num contacto de alta prioridade.

Com esses e outros fatores considerados, é possível transformar todos os dados de um contacto

num único número que resume a sua relevância e a forma em como emails por este enviados

devem ser tratados. Ao realçar emails enviados por contactos com um alto nível de importância,

um utilizador pode rápida e facilmente determinar quais os emails com maior probabilidade de

serem importantes. Permitir a um utilizador distinguir um pedido urgente de um gerente e uma

newsletter mensal de um serviço que utiliza, imediatamente e sem confusão, pode ajudá-lo a

poupar muito tempo a longo prazo.

Taxas de distribuição de email À medida que progressivamente mais emails são recebidos, padrões começam a surgir. Estes

padrões permitem determinar quais os intervalos de tempo onde é mais provável que novos

emails cheguem. Assim é possível criar expectativas sobre quando novos emails poderão chegar e

delinear períodos onde se espera que novos emails sejam, ou não, recebidos.

Page 14: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

2/2 Projeto em curso com o apoio de:

Assim, emails cuja hora de receção seja muito diferente das médias esperadas podem-se

considerar importantes e receber exposição adicional de modo a que não sejam perdidos no

conjunto de todos os emails recebidos diariamente.

Deteção de relevância de conversações O grau de relevância de uma conversa depende da frequência e volume de emails trocados e pode

ser medido com o número médio de emails trocados por semana. À medida que progressivamente

mais emails são adicionados a uma conversa num período de tempo, mais ativa esta se torna.

Consequentemente, emails recebidos pertencentes a uma conversa de email muito ativa podem-

se considerar muito importantes.

Isto significa que emails pertencentes a uma conversa importante podem ser realçados de forma a

que um utilizador de email nunca perca informação crítica relativamente a um tópico relevante

atualmente. De forma relacionada, novos emails associados a uma conversa inativa podem

confundir um utilizador que pode nem se recordar do tema da conversação. Aí seria vantajoso

oferecer notas informativas ao utilizador para contextualizar o email e permitir ao utilizador

rapidamente tomar uma decisão sobre como lidar com o novo email.

Aplicabilidade da estatística inferencial A estatística inferencial é usada atualmente em inúmeros domínios, projetos e tarefas, devido às

deduções que permite tirar. No domínio do email é possível conceptualizar algumas formas de

utilização de estatística inferencial para auxiliar com a gestão inteligente de emails.

Este tipo de cálculos é incerto por natureza, até certo ponto. Isto significa que existe um risco

inerente de quaisquer resultados obtidos com processos estatísticos inferenciais serem incorretos.

Por isso, quaisquer sistemas que incluam estatística inferencial nos seus processos de tomadas de

decisão devem ser construídos de forma a tolerar erros e de aprender com o tempo de modo a

melhorar.

Classificação de organizações Na secção dos testes de hipótese, a determinação da importância de um contacto foi o foco do

exemplo dado. Nesse exemplo falou-se de um teste de hipótese que tentava encontrar uma

ligação entre tempo de resposta e importância do contacto. Através de testes como esse,

deduções sobre diversos aspetos de um contacto podem ser tiradas. O mesmo se pode fazer com

organizações.

O valor de uma organização pode depender de vários fatores, tal como o número de conversas

ativas, o tempo decorrido desde o primeiro contacto e o valor dos contactos associados. Se o valor

de uma organização fosse simplesmente igual à soma do valor dos contactos associados,

Page 15: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

2/2 Projeto em curso com o apoio de:

organizações compostas por muitos contactos de pouco valor poderiam potencialmente tornar-se

mais valiosas do que organizações com um pequeno número de contactos valiosos.

Classificar uma organização requer testar as suas propriedades, e as propriedades dos seus

membros, e comparar os resultados recebidos com os obtidos de outras organizações. Isto

significa aplicar testes de hipótese e analisar correlações. O mesmo teste de hipótese aplicado a

duas organizações de valor aparentemente semelhante, mas amostras de dados

significativamente diferentes, pode levar a resultados diferentes, ou seja, a conclusões e

classificações diferentes. E mesmo que os resultados sejam semelhantes, pode existir suficiente

número de diferenças para que as classificações atribuídas não devam ser iguais, o que significa

que a correlação não pode ser ignorada.

Declarar uma organização como muito ou pouco valiosa é uma tarefa complexa, especialmente

porque o valor pode mudar à medida que o tempo passa. Simultaneamente, caso um utilizador de

email adicione um novo contacto e o associe a uma organização previamente conhecida, o grau de

importância desse contacto pode ser automaticamente ajustado de modo a refletir a importância

da organização a que pertence.

Deteção de eventos Num ambiente empresarial, um gestor de projetos tem habitualmente de lidar com problemas e

questões que surgem à medida que diferentes equipas desenvolvem o seu trabalho e comunicam

entre si. No entanto, de entre as centenas de emails trocados que podem incluir o gestor, é

possível que apenas um pequeno número seja realmente importante e exija toda sua atenção. Por

exemplo, no caso de surgir um evento que requeira uma solução de forma urgente, emails que

mencionem esse novo problema deveriam ser realçados.

Diferenciar os emails importantes dos restantes requer análise de vários dados tal como o próprio

corpo do email, os contactos associados e a conversa a que pertence. A frequência com que certas

palavras surgem entre várias mensagens ou a existência de palavras chave pré determinadas

podem ser provas da existência de um evento importante. À medida que progressivamente mais

provas são adquiridas, mais robusta se torna a decisão de alertar ou não o utilizador da existência

de algum evento que requer a sua atenção.

Monitorização e gestão de contactos Contactos duplicados são um problema comum com caixas de email. Com o tempo, um utilizador

tende a acumular muitos diferentes contactos de email, e por vezes vários contactos podem-se

referir à mesma pessoa. Isto leva a que haja desorganização e informação desnecessariamente

espalhada ou repetida. Uma sequência de testes de hipótese podem revelar contactos

potencialmente duplicados e sugerir a um utilizador que sejam feitas alterações / ações de

convergência.

Page 16: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

2/2 Projeto em curso com o apoio de:

Com os mesmos testes é possível também sugerir grupos de contactos. Quando vários contactos

mostram ter atributos idênticos ou semelhantes, pode ser sugerido ao utilizador que seja criado

um grupo que os inclua. Grupos podem ser tão simples como membros da mesma família ou co

fundadores de uma empresa. Ao agrupar contactos desta forma, um utilizador pode mais

facilmente reconhecer contactos, mais facilmente enviar emails para múltiplos recipientes ou

manter registo da composição de equipas dinâmicas, como os colaboradores associados a um

novo projeto dentro da sua empresa.

Page 17: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

2/2 Projeto em curso com o apoio de:

Adequação ao negócio Os benefícios de cálculo estatístico no funcionamento interno de empresas já foram mencionados

neste documento. Mas com acesso a estes cálculos, empresas podem melhorar a sua

comunicação externa também, seja ela com empresas ou consumidores.

Comunicação com empresas Uma boa comunicação entre empresas pode ser difícil de manter, especialmente quando

consideradas todas as peças móveis numa única empresa. Equipas dentro de uma mesma

empresa podem ser criadas ou dissolvidas, colaboradores podem mudar de equipa, a gestão pode

mudar e até as prioridades da empresa podem sofrer alterações. Outras empresas podem não

acompanhar as mudanças que acontecem na empresa em questão e podem desejar mudar a

forma como interagem com esta.

Assim, um serviço que automatize parte da classificação de outras empresas, e de contactos que aí

pertençam, torna-se valioso por libertar utilizadores de email de ter de atribuir muito tempo a

gerir contactos e emails. Deste modo, os colaboradores de cada uma das empresas envolvidas

numa transação de negócios podem-se concentrar em garantir que o trabalho que realizam é bem

executado e não em gerir a sua caixa de correio.

Comunicação com consumidores Uma empresa que lide com consumidores diretamente tende a desejar reconhecer quais os seus

clientes mais valiosos, seja em que domínio for. Clientes recorrentes, com uma subscrição a um

serviço ou potenciais novos clientes têm valores diferentes e isto significa que poderão pedir ou

merecer tratamento especializado ou prioritário. As técnicas mencionadas ao longo deste

documento podem ser usadas para rápida e facilmente distinguir os diferentes tipos de clientes.

A secção de apoio técnico de uma empresa de telecomunicações, por exemplo, poderá decidir

atribuir um valor de relevância a diferentes clientes e encaminhar pedidos de clientes mais

importantes para técnicos de apoio mais experientes de forma a aumentar a probabilidade de o

cliente terminar o pedido de apoio satisfeito. Novos clientes podem ser classificados como tal de

modo a que qualquer técnico que os atenda assim o saiba e se prepare para assistir de forma

apropriada.

Page 18: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

2/2 Projeto em curso com o apoio de:

Referências

[1] “Descriptive and Inferential Statistics,” Laerd Statistics, [Online]. Available:

https://statistics.laerd.com/statistical-guides/descriptive-inferential-statistics.php.

[2] W. M. Trochim, “Descriptive Statistics,” Research Methods Knowledge Base, 2006. [Online].

Available: http://www.socialresearchmethods.net/kb/statdesc.php.

[3] P. L. Ferreira, “Estatística Descritiva e Inferencial,” Faculdade de Economia da Universidade de

Coimbra, 2005. [Online]. Available:

https://estudogeral.sib.uc.pt/bitstream/10316/9961/1/AP200501.pdf.

[4] B. Narasimhan, “The Normal Distribution,” Department of Statistics of Stanford University, 22

07 1996. [Online]. Available:

http://statweb.stanford.edu/~naras/jsm/NormalDensity/NormalDensity.html.

[5] “The 68-95-99.7 Rule For Normal Distributions,” State University of New York, [Online].

Available: http://www.oswego.edu/~srp/stats/6895997.htm.

[6] D. Lane, “Inferential Statistics,” [Online]. Available:

http://davidmlane.com/hyperstat/A29136.html.

[7] S. Khan, “Hypothesis testing and p-values,” Khan Academy, 2 11 2010. [Online]. Available:

https://www.khanacademy.org/math/probability/statistics-inferential/hypothesis-

testing/v/hypothesis-testing-and-p-values.

[8] “Advances in Statistics,” Hindawi, [Online]. Available:

http://www.hindawi.com/journals/as/contents/.

[9] T. H. Zhenmin Chen, “Statistical Test for Bivariate Uniformity,” Hindawi, 19 10 2014. [Online].

Available: http://www.hindawi.com/journals/as/2014/740831/.

[10] “ABC Statistics,” [Online]. Available: http://studymore.org.uk/glonumst.htm.

[11] W. N. R. Marie Davidian, “Strength in Numbers: How Statistics Are Driving Personalized

Cancer Care,” North Carolina State University, [Online]. Available:

http://www.futureofpersonalhealth.com/prevention-and-treatment/strength-in-numbers-

how-statistics-are-driving-personalized-cancer-care.

Page 19: Processos Estatísticos Descritivos e Inferenciais - Investigação Preliminar

SmartMail| Entidade Promotora: Parceiros:

2/2 Projeto em curso com o apoio de:

[12] “2013: Social Science History: Time line for the history of society, science and social science,”

[Online]. Available: http://studymore.org.uk/sshtim.htm#2013.

[13] "The World of Statistics Homepage," The World of Statistics, [Online]. Available:

http://www.worldofstatistics.org/.

[14] “New England Symposium on Statistics in Sports,” NESSIS, 2012. [Online]. Available:

http://www.nessis.org/index.html.