23
TEST APPROSSIMATI DI TIPO t PER IL PROBLEMA DI BEHRENS-FISHER: L’EFFETTO DI ALCUNI CRITERI SULLA STIMA DEI GRADI DI LIBERTÀ Eugenio Brentari, Maurizio Carpita, Livia Dancelli * Dipartimento Metodi Quantitativi Università di Brescia Vengono confrontati tre criteri di denominazione dei due campioni che possono essere abbinati a due test alternativi al classico test approssimato di tipo t di Welch, che viene comunemente utilizzato nell’ambito del problema di Behrens-Fisher bivariato. La valutazione è effettuata sulla base dei risultati di una simulazione condotta su una casistica estremamente ampia e controllando l’impatto dei tre criteri sull’ampiezza effettiva dei test. L’analisi condotta porta all’individuazione di una semplice regola operativa che consente di scegliere il test più opportuno da applicare nella specifica situazione. 1. INTRODUZIONE Date due popolazioni indipendenti normalmente distribuite X j ~ ( ) N j j μ σ , 2 j = 1, 2 il problema di Behrens-Fisher si presenta quando, volendo sottoporre a verifica il sistema d’ipotesi H H 0 1 : : μ μ μ μ 1 2 1 2 = (oppure μ 1 > μ 2 o μ 1 < μ 2 ) (1.1) non si conosce il rapporto ρ σ σ = 2 2 1 2 e si dispone di due campioni bernoulliani di ridotte numerosità n j estratti in via indipendente. Su tali campioni siano definite le usuali statistiche media aritmetica campionaria X j e varianza corretta campionaria S j 2 . In due recenti lavori Brentari, Carpita e Dancelli (1995, 1997) hanno studiato le caratteristiche della classe di test che si ha impiegando la nota statistica V X X S n S n = + 1 2 1 2 1 2 2 2 (1.2) e approssimandone la distribuzione con quella della variabile casuale (v.c.) t di Student con i seguenti gradi di libertà (g.d.l.) * Il lavoro è frutto di una stretta collaborazione tra gli autori che hanno redatto insieme l’introduzione, il paragrafo 2 e le conclusioni. Il paragrafo 3 è ascrivibile a E. Brentari, il paragrafo 4 a L. Dancelli, il paragrafo 5 a M. Carpita.

Test approssimati di tipo t per il problema di Behrens-Fisher: l’effetto di alcuni criteri sulla stima dei gradi di libertà

Embed Size (px)

Citation preview

TEST APPROSSIMATI DI TIPO t PER IL PROBLEMA DI BEHRENS-FISHER:

L’EFFETTO DI ALCUNI CRITERI SULLA STIMA DEI GRADI DI LIBERTÀ

Eugenio Brentari, Maurizio Carpita, Livia Dancelli*

Dipartimento Metodi Quantitativi Università di Brescia

Vengono confrontati tre criteri di denominazione dei due campioni che possono essere abbinati a due test alternativi al classico test approssimato di tipo t di Welch, che viene comunemente utilizzato nell’ambito del problema di Behrens-Fisher bivariato. La valutazione è effettuata sulla base dei risultati di una simulazione condotta su una casistica estremamente ampia e controllando l’impatto dei tre criteri sull’ampiezza effettiva dei test. L’analisi condotta porta all’individuazione di una semplice regola operativa che consente di scegliere il test più opportuno da applicare nella specifica situazione.

1. INTRODUZIONE

Date due popolazioni indipendenti normalmente distribuite X j ~ ( )N j jµ σ, 2 j = 1, 2 il problema

di Behrens-Fisher si presenta quando, volendo sottoporre a verifica il sistema d’ipotesi

HH

0

1

::µ µ

µ µ1 2

1 2

=

⎧⎨⎩

(oppure µ1 > µ2 o µ1 < µ2)

(1.1)

non si conosce il rapporto ρ σ σ= 22

12 e si dispone di due campioni bernoulliani di ridotte

numerosità nj estratti in via indipendente. Su tali campioni siano definite le usuali statistiche media

aritmetica campionaria X j e varianza corretta campionaria S j2 .

In due recenti lavori Brentari, Carpita e Dancelli (1995, 1997) hanno studiato le caratteristiche

della classe di test che si ha impiegando la nota statistica

V X XSn

Sn

=−

+

1 2

12

1

22

2

(1.2)

e approssimandone la distribuzione con quella della variabile casuale (v.c.) t di Student con i

seguenti gradi di libertà (g.d.l.)

* Il lavoro è frutto di una stretta collaborazione tra gli autori che hanno redatto insieme l’introduzione, il paragrafo 2 e

le conclusioni. Il paragrafo 3 è ascrivibile a E. Brentari, il paragrafo 4 a L. Dancelli, il paragrafo 5 a M. Carpita.

2

( )( )

b rn

rn

n fr

n f

ω

ω

ω=

+⎛

⎝⎜

⎠⎟

+

1

11 2

2

12

1

2

22

2

(1.3)

dove f nj j= −1. Nella (1.3) ω r rappresenta la realizzazione campionaria dello stimatore

ω ωR S S= 22

12 di ρ, essendo [ )ω ∈ ∞0; un peso determinato in modo tale che ω R soddisfi

particolari proprietà.

Nel caso ω = ω1 = 1 la (1.3) fornisce la stima dei g.d.l. proposta in letteratura da Fairfield-Smith

(1936), Welch (1938) e Satterthwaite (1946). La corrispondente procedura di verifica è stata

oggetto di recenti nuovi approfondimenti (Best e Rayner, 1987; Moser e Stevens, 1989).

Imponendo che ω R soddisfi la condizione di non distorsione, Brentari et al. (1995) hanno

ottenuto il seguente peso

ω 21

1

2=

−ff

. (1.4)

Nello stesso lavoro, dalla condizione di minimo errore quadratico medio, hanno ricavato

( )( )

ω 32 1

1 2

42

=−

+

f ff f

. (1.5)

I tre pesi soddisfano la relazione d’ordine ω1 > ω2 > ω3.

I test che impiegano ω1, ω2 e ω3 sono stati rispettivamente denominati test V1, V2 e V3 e, nel loro

complesso, test di tipo V.

In particolare il test V3 presenta analogie con quello introdotto da Ames e Webster (1991) i quali,

imponendo la condizione di minimo errore quadratico medio per 1 ( )ωR , hanno ricavato

( )( )

ω =+

f ff f2 1

1 2

24

.

Come si può osservare, tale peso corrisponde al reciproco della (1.5) se si inverte la

denominazione delle numerosità campionarie. Di conseguenza, fissato un livello di significatività

nominale α, al test di Ames e Webster applicato alla configurazione (n1, n2, ρ) corrisponde un

livello di significatività effettivo α* uguale a quello associato al test V3 per la configurazione (n2,

n1, 1/ρ).

I test V2 e V3 sono stati introdotti nel tentativo di correggere la tendenza di V1 a presentare

ampiezze effettive superiori ad α. Dai risultati riportati in Brentari et al. (1995, 1997), dove si è

3

condotta un’analisi comparativa su un ampio spettro di configurazioni, emerge che V2 e V3 sono

tendenzialmente più conservativi di V1, con una trascurabile perdita di potenza. Il test V3 è risultato

però troppo conservativo.

Come si rileva dalle espressioni (1.4) e (1.5), ogni peso fornisce in generale due diversi risultati

in corrispondenza delle configurazioni (n1, n2, ρ) e (n2, n1, 1/ρ), cosa che evidentemente non accade

per il peso ω1=1 associato a V1. Di conseguenza, per i test V2 e V3 la differente denominazione dei

due campioni porta in generale ad avere due diversi g.d.l. e due diverse ampiezze effettive. Dal

punto di vista operativo l’impiego di questi test può risultare quindi più gravoso per il fatto di dover

necessariamente operare una scelta tra le due possibili configurazioni. Il problema è stato affrontato

in Brentari et al. (1997) e in quell’occasione si sono individuati tre criteri di denominazione dei

campioni che consentono di scegliere tra le due possibilità quella più vantaggiosa per migliorare

l’aderenza di α* ad α. Nel presente lavoro tali criteri vengono sperimentati su un’ampia casistica di

configurazioni sufficientemente rappresentativa della gamma di situazioni che si possono presentare

nella realtà. L’obiettivo è quello di valutarne comparativamente l’efficacia al fine di definire una

procedura ispirata al principio di produrre una sostanziale aderenza del livello di significatività

effettivo a quello nominale senza introdurre inutili appesantimenti negli aspetti operativi.

Il lavoro presenta la seguente articolazione.

Nel paragrafo 2 sono contenuti brevi richiami metodologici che riguardano essenzialmente i tre

criteri di denominazione dei due campioni. Nel paragrafo 3 viene condotta un’indagine esplorativa

intesa ad individuare un campione ragionato di configurazioni che rappresenti adeguatamente le

situazioni in cui il test V1 può manifestare un comportamento critico. Questi risultati costituiscono il

punto di partenza per l’analisi svolta nel paragrafo 4 dove si valuta qual è il vantaggio che si può

ottenere adottando a turno uno dei tre criteri. Nel paragrafo 5 si mostra perché la procedura più

adeguata sembra quella di utilizzare una variante di V1 basata su un impiego combinato di tale test e

del test V2 con l’applicazione di un criterio. Da ultimo, nel paragrafo 6 vengono ripercorsi i punti

salienti dell’intera analisi e prospettata la linea di ricerca futura.

2. CRITERI PER LA DENOMINAZIONE DEI DUE CAMPIONI

In questo paragrafo sono brevemente richiamati i tre criteri di denominazione dei due campioni

presentati in Brentari et al. (1997).

Il primo criterio è stato individuato sperimentalmente osservando i risultati ottenuti in

corrispondenza di un ampio spettro di configurazioni (n1, n2, ρ). Per ciascuna di queste è stato

4

possibile valutare il livello di significatività effettivo α * dei tre test di tipo V secondo una

procedura di calcolo numerico per la quale si rinvia a Brentari et al. (1995).

In particolare, si è osservato che l’impiego del seguente

Criterio 1. Nominare i due campioni in modo che sia soddisfatta la condizione n1 ≤ n2

produce un miglioramento in termini di aderenza di α* ad α per i test V2 e V3, anche se il secondo

conferma la tendenza ad essere troppo conservativo. Non è comunque sempre garantito che, data

una configurazione (n1, n2, ρ), l’applicazione del criterio 1 comporti per i test V2 e V3 un livello di

significatività effettivo necessariamente inferiore a quello di V1.

Gli altri due criteri si basano invece su considerazioni di carattere metodologico che sono state

svolte analizzando il comportamento, al variare di ω , della funzione ( )b rω definita nella (1.3). Tali

criteri tengono quindi conto, oltre che della numerosità dei due campioni, anche della particolare

realizzazione campionaria r di R . Essi consentono di ottenere per V2 e V3 un’ampiezza effettiva

sempre inferiore a quella di V1. Ovviamente la correzione comporta un miglioramento se si produce

un avvicinamento al livello α nominale.

Fissata la configurazione empirica (n1, n2, r ), la funzione ( )b rω presenta un unico massimo in

corrispondenza di

ω*=f nf n r2 2

1 1

. (2.1)

L’andamento di ( )b rω è quindi tale da poter fissare i due criteri che seguono (la giustificazione

metodologica è fornita in Brentari et al., 1997).

Criterio 2. Data la configurazione empirica ( )n n r1 2, , , se risulta ω*≥ 1 si mantiene tale

configurazione. Per contro, se risulta ω*< 1 si adotta la configurazione

( )n n r2 1 1, , / .

Il terzo criterio propone invece un confronto tra i g.d.l. che si ricavano dalla (1.3) per le varie

scelte di ω .

Criterio 3. Calcolare i g.d.l. in corrispondenza delle configurazioni ( )n n r1 2, , e ( )n n r2 1 1, , /

assumendo il peso ω 2 (o ω 3 ) e scegliere quelli che risultano inferiori a ( )b rω 1 . Se

per entrambe le configurazioni i g.d.l. risultano inferiori a ( )b rω 1 , scegliere quelli

più prossimi.

5

I tre criteri sono ordinati in funzione della minore o maggiore difficoltà operativa che

comportano. Si osservi comunque che anche l’applicazione del criterio 3 non risulta particolarmente

complessa.

In Brentari et al. (1997) si è inoltre messo in evidenza che, mentre il criterio 1 non consente di

istituire alcun ordinamento tra le ampiezze effettive che i tre test di tipo V assumono per la stessa

configurazione, per gli altri due criteri ciò risulta possibile e quindi, almeno da questo punto di

vista, potrebbero essere ritenuti preferibili. Si tratta quindi di valutare comparativamente se l’effetto

prodotto dalla loro adozione sull’ampiezza effettiva dei test V2 e V3 comporti un miglioramento tale

da giustificarne l’impiego.

La valutazione di α * in corrispondenza dei criteri 1 e 2 potrebbe essere affidata a tecniche di

calcolo numerico, così come si è fatto nei precedenti lavori. Questa via appare invece problematica

quando si opti per il criterio 3. Per questo motivo nella presente indagine le sperimentazioni sono

state condotte facendo ricorso alla simulazione di tipo Monte Carlo che, per ragioni di

confrontabilità, è stata adottata per tutti e tre i criteri.

3. ANALISI PRELIMINARE ALLA SCELTA DELLE CONFIGURAZIONI

Per valutare l’efficacia dei tre criteri conviene sperimentarli in corrispondenza dei casi in cui V1

non manifesta un buon comportamento ed è quindi utile cercare di migliorarne l’affidabilità facendo

intervenire le correzioni apportate dai test V2 e V3. Per identificare queste situazioni è stata condotta

un’indagine esplorativa attraverso la quale si sono prese in considerazione le 1.215 configurazioni

generate dai seguenti abbinamenti di numerosità campionarie e di valori di ρ :

n n1 2, : da 6 a 30 con passo 3;

ρ : , , , , , , ,1 15 2 3 4 5 7 10e con i rispettivi reciproci.

Il limite inferiore fissato per n1 e n2 corrisponde alla numerosità campionaria minima che

permette di ottenere dalla (1.5) ω 3 0> , mentre per n1, n2 > 30 in genere si fa ricorso

all’approssimazione normale.

I valori fissati per ρ costituiscono ovviamente una scelta arbitraria attraverso la quale si è

cercato di rappresentare alcune delle situazioni più frequenti evitando, ad esempio, di considerare

casi in cui le due popolazioni a confronto presentino un’eccessiva sperequazione in termini di

variabilità.

6

Con la tecnica della simulazione si sono valutate le ampiezze effettive α * dei tre test di tipo V

assumendo per la verifica d’ipotesi (1.1) l’alternativa bilaterale e fissando il livello di significatività

nominale α = 0 05, 1.

Dopo aver calcolato gli scostamenti relativi percentuali

aii= −

⎝⎜

⎠⎟ ⋅

α *

,0 051 100 , i V V V= 1 2 3, ,

questi sono stati classificati nei seguenti tre blocchi di configurazioni, al fine di valutare l’influenza

sui test dell’eventuale squilibrio tra le numerosità campionarie:

a) n1 15> e n2 15> : campioni di elevate dimensioni non molto distanti tra loro;

b) n1 15≤ e n2 15≤ : campioni di ridotte dimensioni non molto distanti tra loro;

c) n1 15> e n2 15≤ oppure n1 15≤ e n2 15> : campioni di dimensioni piuttosto distanti tra loro.

I risultati sono esposti nelle tabelle che seguono. Per ciascuno dei tre test sono riportati lo

scostamento percentuale minimo (Min) e massimo (Max), nonché le frequenze assolute e

percentuali che si ottengono classificando gli ai nelle tre classi [Min; -1), [-1; 1], (1: Max]. In

questo modo si è inteso raggruppare nella classe centrale i casi con ampiezze effettive α * che

possono essere considerate uguali al livello di significatività nominale α = 0 05, dato che i risultati

sono stati ottenuti con la simulazione. Di conseguenza, la prima classe accorpa i casi con α α* < e

la terza classe quelli con α α*> .

V1 V2 V3

Min - 2,0 -2,2 - 3,2 Max 2,2 2,4 3,4

fr fr % fr fr % fr fr % [Min ; -1) 27 7,20 31 8,27 85 22,67 [-1; 1] 323 86,13 315 84,00 207 55,20 (1; Max] 25 6,67 29 7,73 83 22,13

Totale configurazioni 375 100,00 375 100,00 375 100,00

Tabella I.a. Caso n1 15> e n2 15>

* La simulazione è stata condotta anche per α = 0 10, ed ha portato a risultati sostanzialmente analoghi che pertanto

non vengono presentati. Alcune verifiche preliminari hanno suggerito di fissare il numero delle replicazioni svolte per ciascuna delle configurazioni considerate in 500.000. I programmi sono stati scritti in linguaggio Fortran impiegando la routine di generazione di numeri pseudo-casuali RNNOA della libreria IMSL. Queste caratteristiche valgono per tutte le simulazioni presentate nel seguito del lavoro.

7

V1 V2 V3

Min - 7,2 - 9,8 - 30,6 Max 9,0 12,0 25,0

fr fr % fr fr % fr fr % [Min ; -1) 81 33,75 111 46,25 149 62,08 [-1; 1] 73 30,42 64 26,67 14 5,83 (1; Max] 86 35,83 65 27,08 77 32,09

Totale configurazioni 240 100,00 240 100,00 240 100,00

Tabella I.b. Caso n1 15≤ e n2 15≤

V1 V2 V3

Min - 3,4 - 8,8 - 32,4 Max 11,0 12,2 22,2

fr fr % fr fr % fr fr % [Min ; -1) 74 12,33 165 27,50 286 47,67 [-1; 1] 262 43,67 268 44,67 104 17,33 (1; Max] 264 44,00 167 27,83 210 35,00

Totale configurazioni 600 100,00 600 100,00 600 100,00

Tabella I.c. Caso n1 15> e n2 15≤ oppure n1 15≤ e n2 15>

Si rileva quanto segue.

Tabella I.a. Caso: n1 15> e n2 15> .

Quando entrambi i campioni hanno numerosità elevate, quindi non molto distanti tra loro, il test

V1 mostra un comportamento decisamente buono. Infatti, dei 375 casi che cadono in questo blocco

l’86,13% appartiene alla classe centrale (per la quale si valuta α α* = ) e la rimanente frazione si

ripartisce equamente nelle altre due classi (α α* < e α α*> ). I valori ottenuti per Min = -2 e

Max = 2,2 confermano che in queste situazioni le elevate numerosità dei due campioni finiscono per

esercitare sulla determinazione di α * un’influenza maggiore di quella di ρ . Va infatti ricordato

che per ogni coppia di numerosità appartenente a ciascun blocco la sperimentazione ha riguardato

l’intera gamma dei valori di ρ presentata all’inizio del paragrafo.

Anche il test V2 manifesta un buon comportamento con risultati che sono molto prossimi a quelli

di V1 : 84% dei casi nella classe centrale, Min = -2,2; Max = 2,4.

Per il test V3 invece i casi della classe centrale scendono al 55,2% e aumenta il range tra i valori

estremi: Min = -3,2; Max = 3,4.

8

Tabella I.b. Caso: n1 15≤ e n2 15≤ .

Quando entrambi i campioni hanno ridotte numerosità, quindi non molto distanti tra loro, il

comportamento di V1 non appare altrettanto buono. La classe centrale accorpa solo il 30,42% dei

casi mentre i rimanenti sono quasi equidistribuiti nelle altre due classi. Evidentemente in queste

situazioni il ruolo esercitato da ρ diviene più influente. Anche i valori ottenuti per Min = -7,2 e

Max = 9 indicano un peggioramento.

Analoghe considerazioni possono essere svolte per il test V2 per il quale si rileva che il dato

della classe centrale è leggermente più basso di quello di V1 (26,67%) ma i restanti casi si

concentrano maggiormente nella prima classe (α α*< ). Il range tra i valori estremi è di poco più

ampio:

Min = -9,8 e Max = 12.

Ancora una volta è il test V3 a mostrare il comportamento peggiore. La classe centrale accorpa

solo il 5,83% dei casi, mentre il 62,08% si concentra nella prima classe (α α*< ). Anche i valori

estremi risultano sensibilmente distanti da zero: Min = -30,6 e Max = 25.

Tabella I.c. Caso: n1 15> e n2 15≤ oppure n1 15≤ e n2 15> .

Quando i campioni hanno dimensioni abbastanza sbilanciate tra loro, il comportamento del test

V1 sembra migliore rispetto al caso b), concentrando il 43,67% dei casi nella classe centrale. Questa

percentuale è praticamente la stessa della terza classe (α α*> ) ed è circa la metà di quella

osservata nella situazione a). Lo scarto minimo ai si avvicina leggermente a zero (Min = -3,4) ma

quello massimo se ne allontana maggiormente (Max = 11). Pare dunque che la tendenza di V1 ad

essere poco conservativo si manifesti soprattutto in corrispondenza di numerosità fortemente

sbilanciate.

In queste situazioni il test V2 concentra un’analoga frequenza di casi nell’intervallo centrale

(44,67%) ma con il vantaggio che i casi rimanenti si equidistribuiscono nelle altre due classi. Si

rileva inoltre un leggero miglioramento nel valore minimo (Min = -8,8) mentre il massimo resta

pressoché invariato.

Anche il test V3 mostra un lieve miglioramento rispetto al caso b). La frequenza di casi nella

classe centrale non supera comunque il 17,33%, con il 47,67% che si concentra invece nella prima

classe (α α*< ). I valori estremi risultano ancora sensibilmente distanti da zero.

L’analisi preliminare condotta ha consentito di mettere in evidenza che uno sbilanciamento tra le

numerosità dei due campioni esercita un’influenza negativa sul comportamento dei tre test di tipo V,

producendo un sensibile allontanamento del livello di significatività effettivo da quello nominale.

9

Un effetto analogo lo si osserva quando i due campioni sono entrambi di ridotte dimensioni. Le

situazioni riconducibili al caso a) non sembrano invece interessanti per valutare l’efficacia dei tre

criteri di denominazione dei due campioni e verranno quindi escluse dall’analisi successiva.

4. EFFETTO DELL’APPLICAZIONE DEI CRITERI SUI TEST V2 E V3

La seconda fase dell’indagine ha riguardato la valutazione dell’impatto che i tre criteri richiamati

nel paragrafo 2 hanno sui test V2 e V3 , al fine di:

• verificare se essi apportano un apprezzabile miglioramento in termini di aderenza di α * ad α

quando V1 non manifesta un buon comportamento;

• stabilire fra di loro un ordine di preferenza.

Come si è già avuto modo di sottolineare, il principio a cui ci si ispira è quello di non introdurre

inutili complicazioni nella procedura operativa a meno che il miglioramento prodotto sia di una

certa rilevanza.

Sulla scorta delle indicazioni emerse dall’analisi precedente, nella scelta delle configurazioni su

cui avviare questa fase dell’indagine ci si è affidati al criterio di mantenere i soli casi di numerosità

appartenenti ai blocchi b) e c), affinando però il passo di variazione di n1 e n2 ; si è anche deciso

di aumentare il numero di valori di ρ . Si è quindi posto:

n n1 2, : da 6 a 30 con passo 1, esclusi i casi n n1 2 15, > ;

ρ : 1 e 1,5 , 2, 3, . . . , 9, 10 con i rispettivi reciproci.

In questo modo si individuano 8.400 configurazioni sulle quali si sono analizzati tramite

simulazione gli effetti prodotti dall’applicazione dei tre criteri. Come in precedenza, dalle ampiezze

simulate si sono ricavati gli scostamenti percentuali ai . Questi sono stati raggruppati in classi di

ampiezza 1% e presentati nei prospetti e nei grafici delle Figg. 1-4 che seguono. Nella parte

inferiore dei prospetti compaiono anche i seguenti indici riassuntivi: scostamento percentuale

minimo (Min) e massimo (Max), valore medio (Media) e scarto quadratico medio (S.q.m.). Viene

inoltre riportata la distribuzione degli ai nelle tre classi [Min; -1), [-1; 1], (1: Max] già utilizzate in

precedenza. Nelle successive valutazioni si farà spesso riferimento anche all’intervallo [-4; 4],

perché si ritiene che in esso ricadano scostamenti di α * da α accettabili nella pratica.

10

Senza criteri • 8.400 configurazioni

V1 V2 V3

< -8 0,00 0,52 12,31 -8 |⎯ - 7 0,02 0,83 2,05 -7 |⎯ - 6 0,07 0,88 2,51 -6 |⎯ - 5 0,24 1,44 3,43 -5 |⎯ - 4 0,48 1,80 4,29 -4 |⎯ - 3 1,02 3,14 6,76 -3 |⎯ - 2 3,95 6,32 9,08 -2 |⎯ - 1 11,99 13,20 11,38 -1 |⎯ 0 23,33 26,80 9,36 0 |⎯| 1 17,70 16,02 4,48 1 ⎯| 2 14,88 8,73 3,44 2 ⎯| 3 9,10 6,10 3,94 3 ⎯| 4 5,56 3,92 4,67 4 ⎯| 5 4,20 2,74 4,23 5 ⎯| 6 3,07 2,35 3,02 6 ⎯| 7 1,90 1,49 2,38 7 ⎯| 8 1,18 1,23 1,94

> 8 1,30 2,50 10,74

Totale 100,00 100,00 100,00

Min -7,40 -10,20 -32,20 Max 10,60 12,40 25,20

Media 0,99 0,29 -0,94 S.q.m. 2,48 3,10 8,29

[Min ; -1) 17,77 28,14 51,81 [-1; 1] 41,04 42,82 13,83

(1; Max] 41,19 29,04 34,36

Totale 100,00 100,00 100,00

Figura 1. Distribuzioni degli scostamenti percentuali delle ampiezze effettive α * da α = 0,05 dei test V1, V2 e V3

La Fig. 1 mostra i risultati ottenuti per i tre test nel caso in cui non sia applicato alcun criterio di

denominazione dei due campioni e rappresenta il termine di confronto per le altre situazioni.

I grafici e le tabelle confermano sostanzialmente le caratteristiche dei tre test già emerse nelle

precedenti analisi. In particolare, si rileva che per V1 la percentuale di configurazioni per le quali il

livello di significatività effettivo risulta superiore a quello nominale è pari al 41,19%. Tale

percentuale è decisamente più contenuta per V2 (29,04%) ed è inferiore anche per V3 (34,36%). La

sopravalutazione di α si manifesta però in modo difforme per i tre test: per V1 gli scostamenti

ai > 4 rappresentano l’11,65% dei casi, per V2 tale percentuale è leggermente inferiore (10,31%),

mentre per V3 è circa il doppio (22,31%).

0

5

10

15

20

25

30

35

< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8

V1

0

5

10

15

20

25

30

35

< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8

V2

0

5

10

15

20

25

30

35

< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8

V3

11

Criterio 1 • 4.305 configurazioni

Figura 2. Distribuzioni degli scostamenti percentuali delle ampiezze effettive α * da α = 0,05 dei test V2 e V3

La Fig. 2 riguarda i soli test V2 e V3 , essendo riferita al sottoinsieme delle 4.305 configurazioni

che in ottemperanza dell’applicazione del criterio 1 soddisfano la disuguaglianza n n1 2≤ . Tenuta

presente la simmetria dei valori assegnati a n1, n2 e ρ, questo produce l’effetto il dimezzare gli 8.190

casi con n n1 2≠ , mentre restano invariati i 210 con n n1 2= .

Se si confrontano gli istogrammi di V2 e V3 delle Figg. 1 e 2, si rileva immediatamente che

l’applicazione del criterio 1 riduce visibilmente l’incidenza dei casi in cui si ha α α*> . Infatti per

V2 la percentuale passa dal 29,04% al 9,06% e per V3 dal 34,36% al 10,66%. Come si è già avuto

modo di osservare, la frequenza dei casi di V1 che cadono nella stessa classe è decisamente più

elevata (41,19%). Il miglioramento apportato va però valutato anche in relazione alle conseguenze

che si hanno sul numero delle configurazioni per le quali il livello di significatività effettivo risulta

inferiore ad α in modo apprezzabile. Si osserva che, mentre per V2 la percentuale di scostamenti

ai < −4 passa dal 5,47% al 9,92%, quella di V3 sale dal 24,59% al 43,34%. Inoltre, mentre per V2

aumentano sensibilmente i casi α α* = (che passano dal 42,82% al 53,24%), per V3 si osserva un

V2 V3 < -8 1,02 23,02

-8 |⎯ - 7 1,60 3,58 -7 |⎯ - 6 1,63 4,27 -6 |⎯ - 5 2,56 5,69 -5 |⎯ - 4 3,11 6,78 -4 |⎯ - 3 5,18 10,06 -3 |⎯ - 2 8,50 12,03 -2 |⎯ - 1 14,10 11,78 -1 |⎯ 0 30,94 7,69 0 |⎯| 1 22,30 4,44 1 ⎯| 2 5,53 3,09 2 ⎯| 3 1,74 2,25 3 ⎯| 4 0,72 1,81 4 ⎯| 5 0,39 0,98 5 ⎯| 6 0,30 0,67 6 ⎯| 7 0,12 0,51 7 ⎯| 8 0,12 0,37

> 8 0,14 0,98

Totale 100,00 100,00

Min -10,20 -32,20 Max 11,00 21,40

Media -1,03 -5,38 S.q.m. 2,30 7,43

[Min ; -1) 37,70 77,21 [-1; 1] 53,24 12,13

(1; Max] 9,06 10,66

Totale 100,00 100,00

0

5

10

15

20

25

30

35

< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8

V2

0

5

10

15

20

25

30

35

< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8

V3

12

lieve peggioramento (dal 13,83% al 12,13%). Anche dopo l’applicazione del criterio 1 il test V2 si

riconferma dunque migliore di V3 .

Criterio 2 • 8.400 configurazioni

Figura 3. Distribuzioni degli scostamenti percentuali delle ampiezze effettive α * da α = 0,05 dei test V2 e V3

La Fig. 3 presenta gli istogrammi che si ottengono in seguito all’applicazione del criterio 2 sui

test V2 e V3 . L’effetto più immediato è quello di una netta riduzione dei casi α α*> : per V2 questi

rappresentano solo il 2,17% (con nessun ai > 4 ) e sono addirittura ridotti a zero per V3 . Come in

precedenza però si osserva un incremento delle situazioni in cui la correzione apportata produce

un’eccessiva riduzione di α * . Per V2 il fenomeno è ancora contenuto: se si considerano gli

scostamenti ai < −4 , si passa dalla percentuale del 9,92% che si ha con l’applicazione del criterio 1

al 12,13%. Per V3 la percentuale sale dal 43,34% al 50,17%. I valori caratteristici riportati

confermano ancora una volta il cattivo comportamento di V3 . Dal prospetto riportato in Fig. 1 si

V2 V3

< -8 1,58 25,42 -8 |⎯ - 7 1,63 4,14 -7 |⎯ - 6 2,14 5,26 -6 |⎯ - 5 2,92 6,58 -5 |⎯ - 4 3,86 8,77 -4 |⎯ - 3 5,95 12,26 -3 |⎯ - 2 10,25 15,71 -2 |⎯ - 1 18,67 15,15 -1 |⎯ 0 33,17 6,46 0 |⎯| 1 17,67 0,23 1 ⎯| 2 2,13 0,00 2 ⎯| 3 0,04 0,00 3 ⎯| 4 0,00 0,00 4 ⎯| 5 0,00 0,00 5 ⎯| 6 0,00 0,00 6 ⎯| 7 0,00 0,00 7 ⎯| 8 0,00 0,00

> 8 0,00 0,00

Totale 100,00 100,00

Min -14,60 -33,80 Max 2,20 0,80

Media -1,56 -6,55 S.q.m. 2,17 6,49

[Min ; -1) 47,00 93,31 [-1; 1] 50,83 6,69

(1; Max] 2,17 0,00

Totale 100,00 100,00

0

5

10

15

20

25

30

35

< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8

V2

0

5

10

15

20

25

30

35

< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8

V3

13

può invece rilevare che V1 concentra nello stesso intervallo ai < −4 una percentuale molto bassa di

casi (0,81%).

Criterio 3 • 8.400 configurazioni

Figura 4. Distribuzioni degli scostamenti percentuali delle ampiezze effettive α * da α = 0,05 dei test V2 e V3

Da ultimo, la Fig. 4 presenta gli istogrammi ottenuti con l’applicazione del criterio 3. Si rileva

immediatamente che il profilo dei due grafici non risulta sostanzialmente alterato rispetto a quelli

della Fig. 3. Anche i valori riportati nel prospetto non sono sensibilmente diversi. Se ne deduce che,

all’interno degli 8.400 casi considerati, sono scarsamente rappresentati quelli in cui i g.d.l. calcolati

per le due configurazioni (n1, n2, ρ) e (n2, n1, 1/ρ) risultano entrambi inferiori a ( )b rω 1 . D’altro

canto la gamma di configurazioni scelte è piuttosto ampia e può essere considerata sufficientemente

rappresentativa delle situazioni reali. Ciò porta a ritenere che l’adozione del criterio 3 non apporti in

definitiva un sostanziale vantaggio rispetto agli altri due che sono di più semplice impiego.

Per riassumere, dai risultati ottenuti emergono le indicazioni che seguono.

V2 V3

< -8 1,49 23,64 -8 |⎯ - 7 1,64 4,10 -7 |⎯ - 6 2,12 5,10 -6 |⎯ - 5 2,90 6,73 -5 |⎯ - 4 3,74 9,10 -4 |⎯ - 3 5,94 12,43 -3 |⎯ - 2 10,29 16,04 -2 |⎯ - 1 18,77 15,92 -1 |⎯ 0 33,26 6,70 0 |⎯| 1 17,68 0,26 1 ⎯| 2 2,13 0,00 2 ⎯| 3 0,04 0,00 3 ⎯| 4 0,00 0,00 4 ⎯| 5 0,00 0,00 5 ⎯| 6 0,00 0,00 6 ⎯| 7 0,00 0,00 7 ⎯| 8 0,00 0,00

> 8 0,00 0,00

Totale 100,00 100,00

Min -14,00 -31,60 Max 2,20 0,80

Media -1,54 -6,14 S.q.m. 2,15 5,97

[Min ; -1) 46,89 93,04 [-1; 1] 50,94 6,96

(1; Max] 2,17 0,00

Totale 100,00 100,00

0

5

10

15

20

25

30

35

< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8

V2

0

5

10

15

20

25

30

35

< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8

V3

14

Il test V1 presenta una certa tendenza a sopravalutare il livello di significatività nominale, ma nel

complesso può essere considerato abbastanza buono. Non va infatti dimenticato che questa seconda

sperimentazione ha riguardato blocchi di numerosità appositamente selezionate per fare emergere le

situazioni di maggiore squilibrio tra α * e α . Ciò nonostante l’87,53% degli scostamenti è risultato

compreso nell’intervallo [-4; 4], che può ritenersi di ampiezza abbastanza contenuta.

Se, per venire incontro all’esigenza di disporre di un test più conservativo, si adotta V2 senza

l’applicazione di un criterio di denominazione dei due campioni, non si osserva un apprezzabile

miglioramento in termini di aderenza di α * ad α . Il test V3 è invece addirittura sconsigliabile in

quanto produce un eccessivo allontanamento da α in entrambe le direzioni.

L’adozione dei tre criteri di denominazione dei due campioni migliora in generale il

comportamento di entrambi i test V2 e V3 in corrispondenza di quelle situazioni in cui anche questi

sono non conservativi, riducendone il livello di significatività effettivo. Ciò si accompagna però ad

un incremento dei casi in cui la riduzione è eccessiva. Il fenomeno è abbastanza contenuto per V2 ,

mentre risulta molto accentuato per V3 .

Il cattivo comportamento mostrato in generale da V3 suggerisce di escludere questo test

dall’analisi successiva. Si tenga presente che, per le considerazioni richiamate in premessa, le

osservazioni svolte per V3 sono direttamente attribuibili anche al test di Ames e Webster. Infatti, i

gruppi considerati in questo lavoro sono stati formati in modo da garantire che, data la

configurazione (n1, n2, ρ), risulti sempre rappresentata anche la corrispondente (n2, n1, 1/ρ).

Per quanto riguarda il problema di stabilire un ordine di priorità tra i tre criteri in base all’effetto

che essi producono in termini di aderenza di α * ad α, tenuto conto degli aspetti operativi, si è

osservato che il criterio 3 non porta un sostanziale vantaggio rispetto ai primi due. Tra questi non

sono invece emerse per ora chiare indicazioni di preferenza, in quanto entrambi producono un buon

miglioramento nelle situazioni in cui V1 sopravaluta α. Si è però visto che questo risultato lo si

realizza a scapito di un lieve aumento della percentuale di casi in cui ai < −4 . Va però precisato che

le valutazioni fin qui condotte hanno riguardato esclusivamente la numerosità dei due campioni,

senza tenere in alcun conto il rapporto tra le varianze delle due popolazioni. Poiché il criterio 2

differisce dal criterio 1 per il fatto di considerare oltre alla dimensione dei due campioni

l’informazione fornita dalla stima di ρ, utili indicazioni possono essere ricavate tenendo conto

anche di tale aspetto. Per questo motivo, nel paragrafo che segue si concentrerà l’attenzione sul test

V1 e sul test V2 abbinato al criterio 2, nel seguito indicato con V c2 2( ) .

15

5. IL TEST V1 MODIFICATO

Per avere indicazioni circa il comportamento di V1 e V c2 2( ) al variare delle numerosità dei due

campioni e del rapporto tra le varianze, si è proceduto a riclassificare gli scostamenti relativi ai

ottenuti in precedenza per i due test al fine di individuare blocchi di configurazioni che accorpano

situazioni sufficientemente omogenee. Si è dapprima considerata una partizione abbastanza minuta

dei valori assunti da φ = n n2 1 e ρ σ σ= 22

12 e si è ricavata per ciascuno dei due test una tabella a

doppia entrata (che per motivi di brevità non viene riportata) che ha permesso l’individuazione dei

due blocchi a) e b) che seguono.

a) Per φ < 1 e ρ ≥ 1 oppure φ > 1 e ρ ≤ 1 il comportamento di V1 risulta sensibilmente peggiore di

quello di V c2 2( ) , con una accentuata tendenza a sopravalutare α .

La Fig. 5 che segue mostra gli istogrammi relativi alle 4.290 configurazioni che ricadono in

questo blocco, accompagnati dai consueti valori caratteristici. Si può osservare che mentre per

V1 la frazione di scostamenti ai > 4 raggiunge il 21,52%, per V c2 2( ) allo stesso intervallo non

appartiene alcun caso. Contestualmente V c2 2( ) manifesta anche un numero estremamente ridotto

di ai < −4 (3,38%).

In situazioni di questo tipo il test V c2 2( ) sarebbe dunque da preferirsi al test V1 .

16

Blocco a) φ ρ φ ρ< ≥ > ≤1 1 1 1, ,oppure 4.290 configurazioni

Figura 5. Distribuzioni degli scostamenti percentuali delle ampiezze effettive α * da α = 0,05 dei test V1 e V2 (c2 )

b) Per φ ≥ 1 e ρ > 1 oppure φ ≤ 1 e ρ < 1 oppure φ ρ= = 1 è invece il test V1 a manifestare un

comportamento migliore. Come si può vedere dalla Fig. 6, dove sono classificate le restanti

4.110 configurazioni che cadono in questo blocco, gli scostamenti ai relativi a V1 sono molto

concentrati intorno allo zero, con una distribuzione che è quasi simmetrica; i casi ai < −4 sono

l’1,41% mentre quelli ai > 4 l’1,37%. L’istogramma ottenuto per V c2 2( ) presenta invece

un’accentuata asimmetria negativa. Il numero di casi ai < −4 è pari al 21,27%.

V1 V2(c2)

< -8 0,00 0,56 -8 |⎯ - 7 0,00 0,33 -7 |⎯ - 6 0,02 0,44 -6 |⎯ - 5 0,12 0,72 -5 |⎯ - 4 0,09 1,33 -4 |⎯ - 3 0,33 2,38 -3 |⎯ - 2 0,58 5,73 -2 |⎯ - 1 1,98 13,17 -1 |⎯ 0 4,90 32,24 0 |⎯| 1 20,30 39,00 1 ⎯| 2 23,99 4,03 2 ⎯| 3 16,29 0,07 3 ⎯| 4 9,88 0,00 4 ⎯| 5 7,72 0,00 5 ⎯| 6 5,71 0,00 6 ⎯| 7 3,43 0,00 7 ⎯| 8 2,24 0,00

> 8 2,42 0,00

Totale 100,00 100,00

Min -6,60 -13,00 Max 10,60 2,20

Media 2,46 -0,61 S.q.m. 2,31 1,53

[Min ; -1) 3,12 24,66 [-1; 1] 25,20 71,24

(1; Max] 71,68 4,10

Totale 100,00 100,00

0

5

10

15

20

25

30

35

40

< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8

V 1

0

5

10

15

20

25

30

35

40

< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8

V 2 (c2 )

17

Blocco b) φ ρ φ ρ φ ρ≤ < ≥ > = =1 1 1 1 1, ,oppure o 4.110 configurazioni

Figura 6. Distribuzioni degli scostamenti percentuali delle ampiezze effettive α * da α = 0,05 dei test V1 e V2 (c2 )

In definitiva, dai risultati ottenuti si traggono le seguenti indicazioni. Il test V1 presenta un

comportamento non adeguato - con sopravalutazione del livello di significatività nominale - quando

per stimare la varianza più elevata si hanno pochi g.d.l., ovvero si dispone di un numero ridotto di

osservazioni. Il risultato trova riscontro in quanto riportato anche da altri autori (cfr. ad es.

Davenport e Webster, 1972, pag. 558). In corrispondenza di queste configurazioni che appaiono

critiche per V1 , la correzione che apporta il test V c2 2( ) ne migliora sensibilmente il comportamento

Nelle altre situazioni non sembra invece opportuno modificare il test V1 .

Nella pratica, una possibile scelta pare quindi quella di effettuare un uso combinato dei due test

in base alle indicazioni fornite dal parametro φ (ovvero dal confronto tra le due numerosità

campionarie) e dalla stima campionaria di ρ (ovvero dal confronto tra le varianze corrette

campionarie). Nella Fig. 7 che segue, si sono accorpate le informazioni ricavate in corrispondenza

delle 4.290 configurazioni ricomprese nel blocco a) che prevedono l’utilizzo del test V c2 2( ) e delle

V1 V2(c2)

< -8 0,00 2,65 -8 |⎯ - 7 0,05 2,99 -7 |⎯ - 6 0,12 3,92 -6 |⎯ - 5 0,36 5,21 -5 |⎯ - 4 0,88 6,50 -4 |⎯ - 3 1,75 9,68 -3 |⎯ - 2 7,47 14,96 -2 |⎯ - 1 22,43 24,40 -1 |⎯ 0 34,99 22,29 0 |⎯| 1 22,58 7,25 1 ⎯| 2 5,38 0,15 2 ⎯| 3 1,58 0,00 3 ⎯| 4 1,05 0,00 4 ⎯| 5 0,54 0,00 5 ⎯| 6 0,32 0,00 6 ⎯| 7 0,32 0,00 7 ⎯| 8 0,07 0,00

> 8 0,12 0,00

Totale 100,00 100,00

Min -7,40 -14,60 Max 9,20 1,40

Media -0,55 -2,55 S.q.m. 1,54 2,29

[Min ; -1) 33,07 70,32 [-1; 1] 57,57 29,54

(1; Max] 9,36 0,14

Totale 100,00 100,00

0

5

10

15

20

25

30

35

40

< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8

V 1

0

5

10

15

20

25

30

35

40

< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8

V 2 (c2 )

18

4.110 del blocco b) a cui si applica il test V1 . Ciò ovviamente può fornire solo una prima

indicazione dei risultati che si potrebbero ottenere dall’uso combinato dei due test, poiché l’insieme

degli 8.400 casi risulta individuato dal parametro ρ e non dalla sua stima campionaria.

8.400 configurazioni

Figura 7. Distribuzione degli scostamenti percentuali delle ampiezze effettive α * da α = 0,05 ottenuta accorpando

il blocco a) di V1 e il blocco b) di V c2 2( )

La distribuzione mostra una dispersione molto contenuta attorno allo zero, ossia una buona

aderenza del livello di significatività effettivo a quello nominale: la frazione di casi ai < −4

rappresenta solo il 2,43% e quella dei casi ai > 4 lo 0,66%. Risulta molto elevata la percentuale di

casi compresi nei limiti [-1; 1]: 64,55% contro il 41,04% di V1 e il 50,83% di V c2 2( ) .

I risultati ottenuti appaiono quindi estremamente incoraggianti e, dal punto di vista operativo,

conducono alla formulazione della seguente regola:

Se le numerosità dei due campioni sono uguali adottare il test V1 altrimenti,

V1 e V c2 2( )

< -8 0,29 -8 |⎯ - 7 0,19 -7 |⎯ - 6 0,29 -6 |⎯ - 5 0,55 -5 |⎯ - 4 1,11 -4 |⎯ - 3 2,07 -3 |⎯ - 2 6,58 -2 |⎯ - 1 17,70 -1 |⎯ 0 33,58 0 |⎯| 1 30,96 1 ⎯| 2 4,69 2 ⎯| 3 0,81 3 ⎯| 4 0,51 4 ⎯| 5 0,26 5 ⎯| 6 0,15 6 ⎯| 7 0,15 7 ⎯| 8 0,04

> 8 0,06

Totale 100,00

Min -13,00 Max 9,20

Media -0,58 S.q.m. 1,53

[Min ; -1) 28,77 [-1; 1] 64,55

(1; Max] 6,68

Totale 100,00 0

5

10

15

20

25

30

35

40

< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8

19

i) nominare i due campioni in modo che sia soddisfatta la condizione n1 < n2 e

ii) adottare il test V1 se s s12

22< oppure

iii) adottare il test V2 se s s12

22≥ .

E’ ora facile rendersi conto che la semplice regola operativa appena fornita soddisfa sia il criterio

1 sia il criterio 2 e consente quindi di impiegare direttamente il test V2 senza ulteriori aggravi

operativi. Infatti, se si verificano le condizioni previste al punto i) (ovvero φ > 1) e al punto iii)

(ovvero r ≤ 1) per l’intervento di V2 , la (2.1) soddisfa necessariamente la disuguaglianza

ωφ

* = = × >f nf n r

ff r

2 2

1 1

2

1

1 .

La complessa analisi condotta in questo e nei due precedenti lavori ha portato in definitiva ad un

risultato di estrema semplicità operativa potenzialmente in grado di correggere la tendenza di V1 ad

essere non conservativo. In sostanza, rispetto alla procedura tradizionale su cui è basato l’impiego

del test V1 , la modifica suggerita introduce due accorgimenti molto semplici da applicare che

consistono nel denominare opportunamente i due campioni in modo che sia soddisfatta una

relazione d’ordine tra le rispettive numerosità e quindi di far intervenire il peso ω 2 nella (1.3) solo

quando alla varianza corretta campionaria più elevata corrisponde la numerosità più piccola. A tale

proposito, non va dimenticato che il confronto tra le stime delle varianze delle due popolazioni è

comunque soggetto a fluttuazioni di campionamento. Questo importante aspetto esula dagli obiettivi

del presente lavoro, ma rimane un problema aperto che dovrà essere affrontato in successivi

approfondimenti con i quali si studierà quale effetto produca l’impiego delle varianze campionarie

sulla funzione di potenza effettiva del nuovo test, che viene denominato test V1 modificato.

6. CONCLUSIONI

Nel corso di una complessa indagine avviata nel 1995 gli autori del presente lavoro hanno

analizzato la possibilità di pervenire ad una soddisfacente soluzione del problema di Behrens-Fisher

muovendo dalla considerazione di una classe di test a cui appartiene quello basato sulla nota

statistica V di Fairfield-Smith, Welch e Satterthwaite. Come è noto, la distribuzione di V viene

20

approssimata con quella della v.c. t di Student a cui si assegnano determinati g.d.l. che sono

funzione, oltre che delle numerosità campionarie, del rapporto ρ σ σ= 22

12 . Poiché tale parametro

non è noto, nella prassi corrente viene stimato facendo ricorso al tradizionale stimatore R basato sul

rapporto tra le corrispondenti varianze corrette campionarie. Il test che ne deriva (qui indicato come

test V1 ) presenta la tendenza a sopravalutare il livello di significatività nominale. La ricerca

condotta ha preso le mosse da un suggerimento di Ames e Webster (1991) di introdurre un

correttivo associando ad R un peso ω che soddisfi una particolare proprietà. Imponendo la

proprietà di non distorsione e di minimo errore quadratico medio sullo stimatore ω R si sono

ricavati i due test V2 e V3 . Questi, a differenza di V1 , presentano la caratteristica di non essere

indifferenti alla diversa denominazione dei due campioni, nel senso che il loro livello di

significatività effettivo α * è in generale diverso se la configurazione (n1, n2, ρ) viene rovesciata in

(n2, n1, 1/ρ). La ricerca si è quindi indirizzata verso l’individuazione di appropriati criteri operativi

per la denominazione dei due campioni con l’obiettivo di garantire una migliore aderenza di α * ad

α. Si sono così individuati tre possibili criteri, che sono stati sperimentati sui test V2 e V3 . Le

verifiche condotte indicano che il test V3 non manifesta comunque un buon comportamento, poiché

in genere risulta eccessivamente conservativo. Il test V2 , quando applicato con il criterio 2, ha

invece prodotto buoni risultati. Nella fase conclusiva dell’analisi si è affrontato il problema di come

utilizzare tale test, ovvero se sia preferibile proporlo come un test alternativo a V1 o se sia da

privilegiare un utilizzo “combinato” dei due test. L’idea di base era infatti quella di continuare ad

utilizzare il test tradizionale in quelle situazioni in cui questo manifesta un buon comportamento. Le

indicazioni emerse al riguardo dall’esperienza condotta sono coerenti con quanto già segnalato da

altri autori: il comportamento di V1 è soddisfacente quando per stimare la varianza più grande si

dispone dei g.d.l. più elevati, ovvero quando il campione che fornisce tale stima è quello di

maggiori dimensioni. Nella situazione opposta, il test V1 presenta una forte tendenza a

sopravalutare α e sarebbe preferibile far intervenire il test V2 con il criterio 2. Si è però anche

osservato che in tali circostanze il criterio è automaticamente verificato se si adotta la seguente

semplice regola operativa:

1) si denominano i due campioni in modo da rispettare la condizione n1 ≤ n2;

2) si introduce il peso ( ) ( )ω 2 1 13 1= − −n n nell’espressione (1.3) dei g.d.l. da assegnare alla v.c. t

di Student solo se alla varianza corretta campionaria più elevata corrisponde la numerosità più

piccola. In tutti gli altri casi si adotta il peso ω 1 1= previsto per V1 .

21

Il test basato su questa procedura è stato denominato test V1 modificato. Le prime indicazioni sul

miglioramento che esso comporta rispetto all’impiego del test tradizionale sono estremamente

incoraggianti, ma vanno analizzate più approfonditamente in quanto la decisione prevista al punto

2) si basa sul confronto tra stime di σ 12 e σ 2

2 e va quindi valutato l’effetto prodotto dalle

fluttuazioni di campionamento sulla funzione di potenza del nuovo test. L’approfondimento di

questo aspetto formerà oggetto di un successivo lavoro.

Lavoro finanziato con fondi MURST 60% e 40%.

22

RIFERIMENTI BIBLIOGRAFICI

Ames M.H., Webster J.T., 1991, On estimating approximate degrees of freedom, The American Statistician, 45, 1, 45-50.

Best D.J., Rayner J.C.W., 1987, Welch's approximate solution of the Behrens-Fisher problem, Technometrics, 29, 2, 205-210.

Brentari E., Carpita M., Dancelli L., 1995, Alcune soluzioni del problema di Behrens-Fisher basate sull’impiego della t di Student, Quaderni di Statistica e Matematica Applicata alle Scienze Economico-Sociali, XVII, 1, 25-55.

Brentari E., Carpita M., Dancelli L., 1997, Su una classe di soluzioni approssimate di tipo t del problema di Behrens-Fisher, in corso di pubblicazione sulla rivista Statistica.

Davenport J.M., Webster J.T., 1972, Type-I error and power of a test involving a Settherthwaite’s approximate F-statistic, Technometrics, 14, 555-569.

Fairfield-Smith H., 1936, The problem of comparing the results of two esperiments with unequal errors, Journal of the Council for Scientific and Industrial Research, 9, 211-212.

Moser B. K., Stevens G.R., Watts C.L., 1989, The two sample t test versus Satterthwaite's approximate F test, Communications in Statistics, Series A - Theory and Methods, 18, 3963-3975.

Satterthwaite F.E., 1946, An approximate distribution of estimates of variance components, Biometrics, 2, 110-114.

Welch B.L., 1938, The significance of the difference between two means when the population variances are unequal, Biometrika, 29, 350-362.

23

Titolo in inglese e abstract

APPROXIMATED t TESTS FOR THE BEHRENS-FISHER PROBLEM: THE EFFECT OF SOME CRITERIA ON THE ESTIMATE OF THE DEGREES OF FREEDOM

This article deals with the Welch’s approximated t test (test V1 ) for the bivariate Behrens-Fisher

problem. The test V1 is recommended by several statisticians but is not acceptable to others because

it is slightly positive biased. Following a suggestion by Ames and Webster (1991), in previous

works the authors have derived two competitor tests (tests V2 and V3 ) adopting two weighted

estimators of the variance ratio ρ in the usual expression of the degrees of freedom related to V1 .

Given two samples of size n1 and n2 , the actual significance level α * of the two tests V2 and V3

generally differs for the (n1, n2, ρ) and the (n2, n1, 1/ρ) patterns. The authors have derived three

criteria (named c1 , c2 and c3 ) to make the proper choice in labelling n1 and n2 that provide a better

control on α * .

In this study a simulation is performed in order to compare the three criteria and to evaluate which

of them provides a better performance of tests V2 and V3 . The results indicate that only the test V2

can be considered a real competitor of V1 when adopted together with the c2 criterion.

The authors’ conclusion is that a relevant gain may be attained using both V1 and V2 and choosing

among them the test to apply in the specific case on the basis of very simple rule which can produce

a very high control of the actual significance level.