Estimativas inesperadas para o valor esperadow3.impa.br/~rimfo/apresentacoes/UFMG_coloquio.pdfResumo...

Preview:

Citation preview

Estimativas inesperadas para o valor esperado

Roberto Imbuzeiro Oliveira

Colóquio da Matemática - UFMG http://arxiv.org/abs/1509.05845

MatthieuLerasle

(CNRS/Nice)

LucDevroye(McGill)

Colaboradores

GáborLugosi

(ICREA/UPF)

Amostras e valores esperados

Valores esperados

Qual é a altura média de um brasileiro?

Quantos anos de sobrevida, em média, depois de um transplante de coração?

Qual o gasto médio de energia elétrica das casas na sua vizinhança?

Valores esperados

Matematicamente, estas são perguntas sobre valores esperados ou esperanças: médias possivelmente ponderadas sobre populações.

Definição formal

Definicao:

Se P e medida de probabilidade sobre R,µP :=

RR xP(dx) = EP(X)

e o valor esperado ou esperanca de P.

Para que esperanças?

Grande parte dos problemas da Estatística corresponde a estimar valores esperados, seja como fim em si, seja como meio para algum outro fim.

Estimativas quase ótimas tem aplicações nos mais variados campos.

Estimar via amostras

Em geral supõe-se que a distribuição P não é conhecida, mas que é possível obter n amostras independentes e identicamente distribuídas de P.

Estimar via amostras

Xn1 = (X1, . . . , Xn) =d Pn se

8A1, . . . , An ⇢ R mensuraveisP(

Tni=1{Xi 2 Ai}) =

Qni=1 P(Ai).

Estimar via amostras

Nosso objetivo: como estimar o valor esperado a partir das amostras de modo a minimizar a chance de erros grandes.

Definições e hipóteses

Hipótese principal

Desvio padrão finito, o mesmo que segundo momento finito.

Um dos objetivos é comparar com a aproximação Gaussiana que vem do Teorema Central do Limite.

Desvio padrão

Valor esperado:

µP = EP(X).

Desvio padrao:

a raız quadrada da variancia,�2P := EP[(X � µP)2].

Estimadores e erroEstimador: uma funcao mensuravel

bEn : Rn ! R.

Desejo: | bEn(Xn1 )� µP| ⌧ 1.

Escala dos erros (Catoni)

Se Xn1 =d P

n, na melhor das hipoteses,

| bEn(Xn1 )� µP| ⇡ �P/

pn

P desconhecida

Formalizamos isto dizendo que P é um elemento arbitrário de uma família de distribuições.

Maior interesse em famílias grandes (“não paramétricas”).

Enunciado formalDados: Famılia P de distribuicoes sobre Rcom desvio padrao finito. Tamanho de amostra n.

Objetivo: Encontrar estimador

bEn,

�min,n menor possıvel e r = r(�) menor possıvel

tais que, se � 2 [�min,n, 1), P 2 P e Xn1 =d P

n:

P⇣| bEn(Xn

1 )� µP| > r(�) �Ppn

⌘ �.

Enunciado formalDados: Famılia P de distribuicoes sobre Rcom desvio padrao finito. Tamanho de amostra n.

Objetivo: Encontrar estimador

bEn,

�min,n menor possıvel e r = r(�) menor possıvel

tais que, se � 2 [�min,n, 1), P 2 P e Xn1 =d P

n:

P⇣| bEn(Xn

1 )� µP| > r(�) �Ppn

⌘ �.

Queremos grande (não paramétrica)

Enunciado formalDados: Famılia P de distribuicoes sobre Rcom desvio padrao finito. Tamanho de amostra n.

Objetivo: Encontrar estimador

bEn,

�min,n menor possıvel e r = r(�) menor possıvel

tais que, se � 2 [�min,n, 1), P 2 P e Xn1 =d P

n:

P⇣| bEn(Xn

1 )� µP| > r(�) �Ppn

⌘ �.

Problema não-assintótico

Enunciado formalDados: Famılia P de distribuicoes sobre Rcom desvio padrao finito. Tamanho de amostra n.

Objetivo: Encontrar estimador

bEn,

�min,n menor possıvel e r = r(�) menor possıvel

tais que, se � 2 [�min,n, 1), P 2 P e Xn1 =d P

n:

P⇣| bEn(Xn

1 )� µP| > r(�) �Ppn

⌘ �.

Exponencialmente pequeno!

Enunciado formalDados: Famılia P de distribuicoes sobre Rcom desvio padrao finito. Tamanho de amostra n.

Objetivo: Encontrar estimador

bEn,

�min,n menor possıvel e r = r(�) menor possıvel

tais que, se � 2 [�min,n, 1), P 2 P e Xn1 =d P

n:

P⇣| bEn(Xn

1 )� µP| > r(�) �Ppn

⌘ �.

Escala dos erros (Catoni)

Breve resumo dos resultados

Resumo dos resultados

Em muitos casos dá para obter estimadores com erros de ordem sub Gaussiana (que é a melhor possível).

Isto vale para classes enormes, como a de todas as distribuições com desvio padrão 1.

O interessante é que os estimadores ótimos nunca são o estimador óbvio.

Dados: Famılia P de distribuicoes sobre Rcom desvio padrao finito. Tamanho de amostra n.

Objetivo: Encontrar estimador

bEn,

�min,n menor possıvel e r = r(�) menor possıvel

tais que, se � 2 [�min,n, 1), P 2 P e Xn1 =d P

n:

P⇣| bEn(Xn

1 )� µP| > r(�) �Ppn

⌘ �.

Subgaussiano?

Dados: Famılia P de distribuicoes sobre Rcom desvio padrao finito. Tamanho de amostra n.

Objetivo: Encontrar estimador

bEn,

�min,n menor possıvel e r = r(�) menor possıvel

tais que, se � 2 [�min,n, 1), P 2 P e Xn1 =d P

n:

P⇣| bEn(Xn

1 )� µP| > r(�) �Ppn

⌘ �.

Subgaussiano?r(�) = LP

p1 + ln(1/�)

�min,n = CP e�cP n.

LP , CP e cP so dependem de P.

Um resultadoFamılia: P [�1,n,�2,n]

2 = distribuicoes com

desvio padrao no intervalo [�1,n,�2,n].

Teorema: Defina Rn := �2,n/�1,n.

Se supn Rn < +1, entao ha �min,n ⇡ e�cn,

e n0, L finitos tais que, para qualquer n � n0,

9 bEn com P✓| bEn(Xn

1 )� µP| >L�P

p1+ln(1/�)pn

◆ �

sempre que � 2 [�min,n, 1) e Xn1 vem de P [�1,n,�2,n]

2 .

Nada disso funciona se supn Rn = +1 e �min,n ! 0.

Outro resultadoFamılia: P2+↵,⌘ = distribuicoes com

EP[|X � µP|2+↵] (⌘n �P)

2+↵.

Teorema: Para ↵ 2 (0, 2], existem c↵,⌘ ⇡ ⌘�2↵/(2+↵),

L > 0 e �min,n ⇡ e�c↵,⌘npara os quais

9 bEn com P✓| bEn(Xn

1 )� µP| >L�P

p1+ln(1/�)pn

◆ �

sempre que � 2 [�min,n, 1) e Xn1 vem de P2+↵,⌘.

Nada disso funciona se �min,n tem expoente muito menor.

Mais resultados

Constantes quase ótimas no caso de curtose limitada.

Resultados de impossibilidade quando o desvio padrão é infinito.

Observações

Artigo de Olivier Catoni (2013) é base. Propôs noção mais fraca de estimador e obteve resultados positivos e negativos.

Nossa contribuição: formulação mais forte e muitos resultados dos dois tipos, para diversas famílias.

Muita coisa continua em aberto.

A média empírica não serve

ou: Chebyshev contra Gauss

O estimador óbvio

bEn(Xn1 ) :=

1

n

nX

i=1

Xi, a media empırica.

Propriedades

Melhor estimador possível para a família (paramétrica) de distribuições Gaussianas.

Muito ruim para famílias mais gerais, embora assintoticamente tudo seja Gaussiano.

Caso Gaussiano

Distribuicao Gaussiana

com media µ e desvio padrao � > 0.

Pµ,�(A) :=

RA

e� (x�µ)2

2�2p2⇡ �

dx

Caso Gaussiano

Função cumulativa da Gauss padrão.

�(r) :=

Z r

�1

e

� x

2

2dxp

2⇡

�1(1� �) ⇠

p2 ln(1/�) for � ⌧ 1.

Caso GaussianoTeorema (Catoni):

Fixe � > 0, � 2 (0, 1);r(�) := �

�1(1� �) ⇡

p2 ln(1/�).

Entao para qualquer estimador

bEn

supXn1 =dPµ,�

P⇣±(

bEn(Xn1 )� µ) > �p

nr(�)

⌘� �.

Igualdade quando o estimador e a media empırica.

Assintótica?

Teorema Central do Limite (De Moivre/Laplace/Kolmogorov/Lindberg/…): Quando n cresce, o comportamento da média empírica se aproxima cada vez mais do caso Gaussiano.

No entanto, em termos não-assintóticos, a média empírica está bem longe do caso Gaussiano.

Chebyshev

Desigualdade de Chebyshev:P�2 :=todas as P com �P = � > 0.

Dados qualquer � 2 (0, 1) e qualquer P 2 P�2 ,

se Xn1 = P

n, entao:

P⇣�� 1

n

Pni=1 Xi � µP

�� > �Ppn �

⌘ �.

Chebyshev

Desigualdade de Chebyshev:P�2 :=todas as P com �P = � > 0.

Dados qualquer � 2 (0, 1) e qualquer P 2 P�2 ,

se Xn1 = P

n, entao:

P⇣�� 1

n

Pni=1 Xi � µP

�� > �Ppn �

⌘ �.

Para Gaussianas seria

⇡�P

pln(1/�)pn

Chebyshev

Desigualdade de Chebyshev:P�2 :=todas as P com �P = � > 0.

Dados qualquer � 2 (0, 1) e qualquer P 2 P�2 ,

se Xn1 = P

n, entao:

P⇣�� 1

n

Pni=1 Xi � µP

�� > �Ppn �

⌘ �.

Catoni: este é o comportamento ótimo da média empírica para esta

família de P’s.

Não-assintótica?

Chebyshev é essencialmente a melhor desigualdade para a média empírica se você supõe apenas desvio padrão finito.

O mesmo vale sob hipóteses mais fortes (por exemplo 3os e 4os momentos finitos).

Há alguém melhor que a média empírica?

Um pouco de história

Catoni foi o primeiro a formular o problema de estimadores ótimos, com uma definição um pouco diferente de estimador.

Exemplo de resultadoDados: P�

2 = todas as distribuicoes

com desvio padrao �.

Teorema (Catoni):

Se �min,n = e�"n/4, L =

p2 + ",

8�min,n < � < 1 9 bEn,� tal que,

para toda P 2 P�2 , se Xn

1 =d P

n,

P⇣| bEn(Xn

1 )� µ| > Lpln(2/�) �p

n

⌘ �.

Exemplo de resultadoDados: P�

2 = todas as distribuicoes

com desvio padrao �.

Teorema (Catoni):

Se �min,n = e�"n/4, L =

p2 + ",

8�min,n < � < 1 9 bEn,� tal que,

para toda P 2 P�2 , se Xn

1 =d P

n,

P⇣| bEn(Xn

1 )� µ| > Lpln(2/�) �p

n

⌘ �.

Desvio padrão conhecido.

Pode trocar por cota pro 4o. momento (curtose).

Exemplo de resultadoDados: P�

2 = todas as distribuicoes

com desvio padrao �.

Teorema (Catoni):

Se �min,n = e�"n/4, L =

p2 + ",

8�min,n < � < 1 9 bEn,� tal que,

para toda P 2 P�2 , se Xn

1 =d P

n,

P⇣| bEn(Xn

1 )� µ| > Lpln(2/�) �p

n

⌘ �.

Constante L quase ótima!

Exemplo de resultadoDados: P�

2 = todas as distribuicoes

com desvio padrao �.

Teorema (Catoni):

Se �min,n = e�"n/4, L =

p2 + ",

8�min,n < � < 1 9 bEn,� tal que,

para toda P 2 P�2 , se Xn

1 =d P

n,

P⇣| bEn(Xn

1 )� µ| > Lpln(2/�) �p

n

⌘ �.

Estimador depende do do parâmetro de confiança

desejado!

Porque isto não é bom

Se você quer confiança alta, sua única garantia é que a probabilidade de um erro enorme é baixa.

Não diz nada sobre a magnitude do erro em eventos mais típicos.

Porque isto não é bom

Aplicações dos resultados de Catoni e outros semelhantes (Bubeck et al., Brownlees et al., Hsu/Sabato) sofrem por causa desta dependência.

Resultados melhores?

De fato, nossos resultados são diferentes.

Mostramos que há estimadores independentes da confiança na maior parte das situações, mas não em todas.

A mediana das médias

Mediana das médias

Uma construção simples e surpreendente de estimadores sub-Gaussianos que dependem da confiança.

Funciona para todas as distribuições com desvio padrão finito.

Implícita em muitos artigos (Nemirovski/Yudin, Alon/Matias/Szégedy, Levin, Jerrum/Sinclair, Hsu…).

Mediana das médiasDados: P2 = todas as distribuicoes

com desvio padrao finito.

Teorema (folclore):

Se �min,n = e�n/8, L = 2

p2e,

8�min,n < � < 1 9 bEn,� tal que,

para toda P 2 P2, se Xn1 =d P

n,

P⇣| bEn,�(Xn

1 )� µ| > Lp

1 + ln(1/�) �Ppn

⌘ �.

Mediana das médiasDados: Xn

1 = (X1, . . . , Xn) =d P

n

Blocos: quebre {1, 2, 3, . . . , n} em blocos disjuntos

B1, . . . , Bb, todos de tamanho n/b. Aqui b ⇡ ln(1/�).

Tome as medias dos blocos: Y` :=bn

Pi2B`

Xi.

Mediana das medias: para calcular

bEn,�(Xn1 )

ordene Y1, Y2, . . . , Y` e tome o valor do meio.

Análise

RµPµP � L�P

rb

nµP + L�P

rb

n

Intervalo

Análise

RµPµP � L�P

rb

nµP + L�P

rb

n

Queremos: mediana de Y1, . . . , Yb no intervalo.

Suficiente: mais da metade dos Y` no intervalo.

Análise

RµPµP � L�P

rb

nµP + L�P

rb

n

Y` =bn

Pi2B`

Xi com Xi i.i.d. P.

Logo E(Y`) = µP, Var(Y`) =b�2

Pn .

Análise

RµPµP � L�P

rb

nµP + L�P

rb

n

Chebyshev) P(Y` 62 I) L�2, 1 ` b.

Blocos sao disjuntos, logo eventos independentes.

Análise

RµPµP � L�P

rb

nµP + L�P

rb

n

Conclusao:

P(mais da metade das Y` fora de I)e cotada por probabilidade binomial.

Para L, b bem escolhidos,

P(Bin(b, L�2) e�b �

Um de nossos resultados

Saber o desvio…Famılia: P [�1,n,�2,n]

2 = distribuicoes com

desvio padrao no intervalo [�1,n,�2,n].

Teorema: Defina Rn := �2,n/�1,n.

Se supn Rn < +1, entao ha �min,n ⇡ e�cn,

e n0, L finitos tais que, para qualquer n � n0,

9 bEn com P✓| bEn(Xn

1 )� µP| >L�P

p1+ln(1/�)pn

◆ �

sempre que � 2 [�min,n, 1) e Xn1 vem de P [�1,n,�2,n]

2 .

Nada disso funciona se supn Rn = +1 e �min,n ! 0.

Saber o desvio…Famılia: P [�1,n,�2,n]

2 = distribuicoes com

desvio padrao no intervalo [�1,n,�2,n].

Teorema: Defina Rn := �2,n/�1,n.

Se supn Rn < +1, entao ha �min,n ⇡ e�cn,

e n0, L finitos tais que, para qualquer n � n0,

9 bEn com P✓| bEn(Xn

1 )� µP| >L�P

p1+ln(1/�)pn

◆ �

sempre que � 2 [�min,n, 1) e Xn1 vem de P [�1,n,�2,n]

2 .

Nada disso funciona se supn Rn = +1 e �min,n ! 0.

Intervalos de confiançaUse a mediana das médias. Obtenha um intervalo de confiança de comprimento sub Gaussiano.

bI�(Xn1 ) :=

bEn,�(Xn

1 )±L�2,n

p1+ln(1/�)pn

|bI�(Xn1 )| (const.)�P

p1 + ln(1/�)/

pn.

P(µP 2 bI�(Xn1 )) � 1� �.

Um lema de intervalos

Lemma: I1, I2, . . . , IK random nonempty closed intervals.

Assume µ 2 R, P (µ 62 Ik) 2

�k, 1 k K.

Set

ˆK := min{k K : \Kj=kIj 6= ;}.

Let

bE :=midpoint of \Kj=K

Ij .

Then 81 k K : P⇣| bE � µ| > |Ik|

⌘ 2

1�k.

Esboço da provaI1, I2, . . . , IK random nonempty closed intervals.Set K := min{k K : \K

j=kIj 6= ;}.Let bE :=midpoint of \K

j=KIj .

Assume 8j � k, µ 2 Ij .

Obtain, \Kj=kIj 6= ;, so K k.

Hence bE, µ 2 Ik under the assumption.

) P⇣| bE � µ| > |Ik|

Pj�k P (µ 62 Ij).

Outros usos do lemaFamılia: P2+↵,⌘ = distribuicoes com

EP[|X � µP|2+↵] (⌘n �P)

2+↵.

Teorema: Para ↵ 2 (0, 2], existem c↵,⌘ ⇡ ⌘�2↵/(2+↵),

L > 0 e �min,n ⇡ e�c↵,⌘npara os quais

9 bEn com P✓| bEn(Xn

1 )� µP| >L�P

p1+ln(1/�)pn

◆ �

sempre que � 2 [�min,n, 1) e Xn1 vem de P2+↵,⌘.

Nada disso funciona se �min,n tem expoente muito menor.

Construa intervalos de confiança a partir de “quantis de médias.”

Cotas de Barry-Essen aparecem na análise.

Resultados negativosFamılia: P [�1,n,�2,n]

2 = distribuicoes com

desvio padrao no intervalo [�1,n,�2,n].

Teorema: Defina Rn := �2,n/�1,n.

Se supn Rn < +1, entao ha �min,n ⇡ e�cn,

e n0, L finitos tais que, para qualquer n � n0,

9 bEn com P✓| bEn(Xn

1 )� µP| >L�P

p1+ln(1/�)pn

◆ �

sempre que � 2 [�min,n, 1) e Xn1 vem de P [�1,n,�2,n]

2 .

Nada disso funciona se supn Rn = +1 e �min,n ! 0.

Resultados negativosFamılia: P [�1,n,�2,n]

2 = distribuicoes com

desvio padrao no intervalo [�1,n,�2,n].

Teorema: Defina Rn := �2,n/�1,n.

Se supn Rn < +1, entao ha �min,n ⇡ e�cn,

e n0, L finitos tais que, para qualquer n � n0,

9 bEn com P✓| bEn(Xn

1 )� µP| >L�P

p1+ln(1/�)pn

◆ �

sempre que � 2 [�min,n, 1) e Xn1 vem de P [�1,n,�2,n]

2 .

Nada disso funciona se supn Rn = +1 e �min,n ! 0.

Distribuições de Poisson com variâncias pequenas e bem diferentes.

Com certa probabilidade (não muito baixa), as amostras se parecem muito e qualquer

estimador se confunde.

Porque R grande é ruim

Family: P [c/n,R c/n]Po

, Poisson random variables

with very small means c/n µP

Rc/n.

Recall mean=variance for Poisson!

Xn1

:= sample with mean c/n, SX := X1

+ · · ·+Xn.

Y n1

:= sample with mean Rc/n, SY := Y1

+ · · ·+ Yn.

Porque R grande é ruim

Xn1 := sample with mean c/n, SX := X1 + · · ·+Xn.

Y n1 := sample with mean Rc/n, SY := Y1 + · · ·+ Yn.

Assume good estimator

bEn with constant L.

P⇣n bE(Y n

1 ) � Rc/2⌘� 1� e1�

Rc4L2

In particular, P⇣n bE(Y n

1 ) � Rc/2 | SY = Rc⌘⇡ 1.

Porque R grande é ruim

Xn1 := sample with mean c/n, SX := X1 + · · ·+Xn.

Y n1 := sample with mean Rc/n, SY := Y1 + · · ·+ Yn.

Assume good estimator

bEn with constant L.

P⇣n bE(Y n

1 ) � Rc/2⌘� 1� e1�

Rc4L2

In particular, P⇣n bE(Y n

1 ) � Rc/2 | SY = Rc⌘⇡ 1.

Same for X as for Y! (Sample sum is sufficient statistic)

Porque R grande é ruim

P⇣n bE(Xn

1 ) � Rc/2 | SX = Rc⌘⇡ 1.

So P⇣n bE(Xn

1 ) � Rc/2⌘� P (SX = Rc) ⇡ e�R lnRc

On the other hand, the prob. should be ⇡ e�R2 cL2

by the sub-Gaussian estimation property

)( for R large

Outras ideias

Curtose limitada: técnicas de processos empíricos e desigualdades de concentração dão constantes quase ótimas.

Ideia do estimador: escolha estimadores preliminares da média e variância e trunque a amostra de acordo com eles! Mostre que, se os preliminares não são muito ruins, isso funciona bem.

Conclusão

Conclusão

Estudamos e obtivemos resultados sobre um problema que já devia ter sido resolvido há muito tempo.

Métodos bastante elementares levam a resultados surpreendentes.

Métodos menos elementares também são necessários…

Em abertoConstantes ótimas na maioria dos casos (importante na prática).

Quais são os desvios ótimos dos estimadores para classes que não são sub-Gaussianas?

Estimadores de distribuição realmente indistinguível da Gaussiana, fora de eventos de probabilidade extremamente baixa.

Novas aplicações?

Obrigado! (referências nos próximos slides)

Nosso preprint

http://arxiv.org/abs/1509.05845

Artigos de Catoni

J.-Y. Audibert & O. Catoni. "Robust linear least squares regression.” Ann. Stat. 39 no. 5 (2011)

O. Catoni. "Challenging the empirical mean and empirical variance: A deviation study.” Ann. Inst. H. Poincaré Probab. Statist. 48 no. 4 (2012) [nossa base]

Mediana das médiasD. Hsu http://www.inherentuncertainty.org/2010/12/robust-statistics.html (Ver também Levin, L. "Notes for Miscellaneous Lectures.” arXiv:cs/0503039)

N. Alon, Y. Matias & M. Szégedy. "The Space Complexity of Approximating the Frequency Moments." J. Comput. Syst. Sci. 58 no. 1 (1999)

A. Nemirovski & D. Yudin. Problem complexity and method efficiency in optimization. Wiley (1983).

AplicaçõesC. Brownlees, E. Joly & G. Lugosi. "Empirical risk minimization for heavy-tailed losses.” To appear in Ann. Stat.

S. Bubeck, N. Cesa-Bianchi & G. Lugosi. “Bandits with heavy tail.” IEEE Transactions on Information Theory 59 no. 11 (2013)

D. Hsu & S. Sabato. "Loss minimization and parameter estimation with heavy tails.” arXiv:1307.1827. Abstract in ICML proceedings (2014).