TEST APPROSSIMATI DI TIPO t PER IL PROBLEMA DI BEHRENS-FISHER:
L’EFFETTO DI ALCUNI CRITERI SULLA STIMA DEI GRADI DI LIBERTÀ
Eugenio Brentari, Maurizio Carpita, Livia Dancelli*
Dipartimento Metodi Quantitativi Università di Brescia
Vengono confrontati tre criteri di denominazione dei due campioni che possono essere abbinati a due test alternativi al classico test approssimato di tipo t di Welch, che viene comunemente utilizzato nell’ambito del problema di Behrens-Fisher bivariato. La valutazione è effettuata sulla base dei risultati di una simulazione condotta su una casistica estremamente ampia e controllando l’impatto dei tre criteri sull’ampiezza effettiva dei test. L’analisi condotta porta all’individuazione di una semplice regola operativa che consente di scegliere il test più opportuno da applicare nella specifica situazione.
1. INTRODUZIONE
Date due popolazioni indipendenti normalmente distribuite X j ~ ( )N j jµ σ, 2 j = 1, 2 il problema
di Behrens-Fisher si presenta quando, volendo sottoporre a verifica il sistema d’ipotesi
HH
0
1
::µ µ
µ µ1 2
1 2
=
≠
⎧⎨⎩
(oppure µ1 > µ2 o µ1 < µ2)
(1.1)
non si conosce il rapporto ρ σ σ= 22
12 e si dispone di due campioni bernoulliani di ridotte
numerosità nj estratti in via indipendente. Su tali campioni siano definite le usuali statistiche media
aritmetica campionaria X j e varianza corretta campionaria S j2 .
In due recenti lavori Brentari, Carpita e Dancelli (1995, 1997) hanno studiato le caratteristiche
della classe di test che si ha impiegando la nota statistica
V X XSn
Sn
=−
+
1 2
12
1
22
2
(1.2)
e approssimandone la distribuzione con quella della variabile casuale (v.c.) t di Student con i
seguenti gradi di libertà (g.d.l.)
* Il lavoro è frutto di una stretta collaborazione tra gli autori che hanno redatto insieme l’introduzione, il paragrafo 2 e
le conclusioni. Il paragrafo 3 è ascrivibile a E. Brentari, il paragrafo 4 a L. Dancelli, il paragrafo 5 a M. Carpita.
2
( )( )
b rn
rn
n fr
n f
ω
ω
ω=
+⎛
⎝⎜
⎞
⎠⎟
+
1
11 2
2
12
1
2
22
2
(1.3)
dove f nj j= −1. Nella (1.3) ω r rappresenta la realizzazione campionaria dello stimatore
ω ωR S S= 22
12 di ρ, essendo [ )ω ∈ ∞0; un peso determinato in modo tale che ω R soddisfi
particolari proprietà.
Nel caso ω = ω1 = 1 la (1.3) fornisce la stima dei g.d.l. proposta in letteratura da Fairfield-Smith
(1936), Welch (1938) e Satterthwaite (1946). La corrispondente procedura di verifica è stata
oggetto di recenti nuovi approfondimenti (Best e Rayner, 1987; Moser e Stevens, 1989).
Imponendo che ω R soddisfi la condizione di non distorsione, Brentari et al. (1995) hanno
ottenuto il seguente peso
ω 21
1
2=
−ff
. (1.4)
Nello stesso lavoro, dalla condizione di minimo errore quadratico medio, hanno ricavato
( )( )
ω 32 1
1 2
42
=−
+
f ff f
. (1.5)
I tre pesi soddisfano la relazione d’ordine ω1 > ω2 > ω3.
I test che impiegano ω1, ω2 e ω3 sono stati rispettivamente denominati test V1, V2 e V3 e, nel loro
complesso, test di tipo V.
In particolare il test V3 presenta analogie con quello introdotto da Ames e Webster (1991) i quali,
imponendo la condizione di minimo errore quadratico medio per 1 ( )ωR , hanno ricavato
( )( )
ω =+
−
f ff f2 1
1 2
24
.
Come si può osservare, tale peso corrisponde al reciproco della (1.5) se si inverte la
denominazione delle numerosità campionarie. Di conseguenza, fissato un livello di significatività
nominale α, al test di Ames e Webster applicato alla configurazione (n1, n2, ρ) corrisponde un
livello di significatività effettivo α* uguale a quello associato al test V3 per la configurazione (n2,
n1, 1/ρ).
I test V2 e V3 sono stati introdotti nel tentativo di correggere la tendenza di V1 a presentare
ampiezze effettive superiori ad α. Dai risultati riportati in Brentari et al. (1995, 1997), dove si è
3
condotta un’analisi comparativa su un ampio spettro di configurazioni, emerge che V2 e V3 sono
tendenzialmente più conservativi di V1, con una trascurabile perdita di potenza. Il test V3 è risultato
però troppo conservativo.
Come si rileva dalle espressioni (1.4) e (1.5), ogni peso fornisce in generale due diversi risultati
in corrispondenza delle configurazioni (n1, n2, ρ) e (n2, n1, 1/ρ), cosa che evidentemente non accade
per il peso ω1=1 associato a V1. Di conseguenza, per i test V2 e V3 la differente denominazione dei
due campioni porta in generale ad avere due diversi g.d.l. e due diverse ampiezze effettive. Dal
punto di vista operativo l’impiego di questi test può risultare quindi più gravoso per il fatto di dover
necessariamente operare una scelta tra le due possibili configurazioni. Il problema è stato affrontato
in Brentari et al. (1997) e in quell’occasione si sono individuati tre criteri di denominazione dei
campioni che consentono di scegliere tra le due possibilità quella più vantaggiosa per migliorare
l’aderenza di α* ad α. Nel presente lavoro tali criteri vengono sperimentati su un’ampia casistica di
configurazioni sufficientemente rappresentativa della gamma di situazioni che si possono presentare
nella realtà. L’obiettivo è quello di valutarne comparativamente l’efficacia al fine di definire una
procedura ispirata al principio di produrre una sostanziale aderenza del livello di significatività
effettivo a quello nominale senza introdurre inutili appesantimenti negli aspetti operativi.
Il lavoro presenta la seguente articolazione.
Nel paragrafo 2 sono contenuti brevi richiami metodologici che riguardano essenzialmente i tre
criteri di denominazione dei due campioni. Nel paragrafo 3 viene condotta un’indagine esplorativa
intesa ad individuare un campione ragionato di configurazioni che rappresenti adeguatamente le
situazioni in cui il test V1 può manifestare un comportamento critico. Questi risultati costituiscono il
punto di partenza per l’analisi svolta nel paragrafo 4 dove si valuta qual è il vantaggio che si può
ottenere adottando a turno uno dei tre criteri. Nel paragrafo 5 si mostra perché la procedura più
adeguata sembra quella di utilizzare una variante di V1 basata su un impiego combinato di tale test e
del test V2 con l’applicazione di un criterio. Da ultimo, nel paragrafo 6 vengono ripercorsi i punti
salienti dell’intera analisi e prospettata la linea di ricerca futura.
2. CRITERI PER LA DENOMINAZIONE DEI DUE CAMPIONI
In questo paragrafo sono brevemente richiamati i tre criteri di denominazione dei due campioni
presentati in Brentari et al. (1997).
Il primo criterio è stato individuato sperimentalmente osservando i risultati ottenuti in
corrispondenza di un ampio spettro di configurazioni (n1, n2, ρ). Per ciascuna di queste è stato
4
possibile valutare il livello di significatività effettivo α * dei tre test di tipo V secondo una
procedura di calcolo numerico per la quale si rinvia a Brentari et al. (1995).
In particolare, si è osservato che l’impiego del seguente
Criterio 1. Nominare i due campioni in modo che sia soddisfatta la condizione n1 ≤ n2
produce un miglioramento in termini di aderenza di α* ad α per i test V2 e V3, anche se il secondo
conferma la tendenza ad essere troppo conservativo. Non è comunque sempre garantito che, data
una configurazione (n1, n2, ρ), l’applicazione del criterio 1 comporti per i test V2 e V3 un livello di
significatività effettivo necessariamente inferiore a quello di V1.
Gli altri due criteri si basano invece su considerazioni di carattere metodologico che sono state
svolte analizzando il comportamento, al variare di ω , della funzione ( )b rω definita nella (1.3). Tali
criteri tengono quindi conto, oltre che della numerosità dei due campioni, anche della particolare
realizzazione campionaria r di R . Essi consentono di ottenere per V2 e V3 un’ampiezza effettiva
sempre inferiore a quella di V1. Ovviamente la correzione comporta un miglioramento se si produce
un avvicinamento al livello α nominale.
Fissata la configurazione empirica (n1, n2, r ), la funzione ( )b rω presenta un unico massimo in
corrispondenza di
ω*=f nf n r2 2
1 1
. (2.1)
L’andamento di ( )b rω è quindi tale da poter fissare i due criteri che seguono (la giustificazione
metodologica è fornita in Brentari et al., 1997).
Criterio 2. Data la configurazione empirica ( )n n r1 2, , , se risulta ω*≥ 1 si mantiene tale
configurazione. Per contro, se risulta ω*< 1 si adotta la configurazione
( )n n r2 1 1, , / .
Il terzo criterio propone invece un confronto tra i g.d.l. che si ricavano dalla (1.3) per le varie
scelte di ω .
Criterio 3. Calcolare i g.d.l. in corrispondenza delle configurazioni ( )n n r1 2, , e ( )n n r2 1 1, , /
assumendo il peso ω 2 (o ω 3 ) e scegliere quelli che risultano inferiori a ( )b rω 1 . Se
per entrambe le configurazioni i g.d.l. risultano inferiori a ( )b rω 1 , scegliere quelli
più prossimi.
5
I tre criteri sono ordinati in funzione della minore o maggiore difficoltà operativa che
comportano. Si osservi comunque che anche l’applicazione del criterio 3 non risulta particolarmente
complessa.
In Brentari et al. (1997) si è inoltre messo in evidenza che, mentre il criterio 1 non consente di
istituire alcun ordinamento tra le ampiezze effettive che i tre test di tipo V assumono per la stessa
configurazione, per gli altri due criteri ciò risulta possibile e quindi, almeno da questo punto di
vista, potrebbero essere ritenuti preferibili. Si tratta quindi di valutare comparativamente se l’effetto
prodotto dalla loro adozione sull’ampiezza effettiva dei test V2 e V3 comporti un miglioramento tale
da giustificarne l’impiego.
La valutazione di α * in corrispondenza dei criteri 1 e 2 potrebbe essere affidata a tecniche di
calcolo numerico, così come si è fatto nei precedenti lavori. Questa via appare invece problematica
quando si opti per il criterio 3. Per questo motivo nella presente indagine le sperimentazioni sono
state condotte facendo ricorso alla simulazione di tipo Monte Carlo che, per ragioni di
confrontabilità, è stata adottata per tutti e tre i criteri.
3. ANALISI PRELIMINARE ALLA SCELTA DELLE CONFIGURAZIONI
Per valutare l’efficacia dei tre criteri conviene sperimentarli in corrispondenza dei casi in cui V1
non manifesta un buon comportamento ed è quindi utile cercare di migliorarne l’affidabilità facendo
intervenire le correzioni apportate dai test V2 e V3. Per identificare queste situazioni è stata condotta
un’indagine esplorativa attraverso la quale si sono prese in considerazione le 1.215 configurazioni
generate dai seguenti abbinamenti di numerosità campionarie e di valori di ρ :
n n1 2, : da 6 a 30 con passo 3;
ρ : , , , , , , ,1 15 2 3 4 5 7 10e con i rispettivi reciproci.
Il limite inferiore fissato per n1 e n2 corrisponde alla numerosità campionaria minima che
permette di ottenere dalla (1.5) ω 3 0> , mentre per n1, n2 > 30 in genere si fa ricorso
all’approssimazione normale.
I valori fissati per ρ costituiscono ovviamente una scelta arbitraria attraverso la quale si è
cercato di rappresentare alcune delle situazioni più frequenti evitando, ad esempio, di considerare
casi in cui le due popolazioni a confronto presentino un’eccessiva sperequazione in termini di
variabilità.
6
Con la tecnica della simulazione si sono valutate le ampiezze effettive α * dei tre test di tipo V
assumendo per la verifica d’ipotesi (1.1) l’alternativa bilaterale e fissando il livello di significatività
nominale α = 0 05, 1.
Dopo aver calcolato gli scostamenti relativi percentuali
aii= −
⎛
⎝⎜
⎞
⎠⎟ ⋅
α *
,0 051 100 , i V V V= 1 2 3, ,
questi sono stati classificati nei seguenti tre blocchi di configurazioni, al fine di valutare l’influenza
sui test dell’eventuale squilibrio tra le numerosità campionarie:
a) n1 15> e n2 15> : campioni di elevate dimensioni non molto distanti tra loro;
b) n1 15≤ e n2 15≤ : campioni di ridotte dimensioni non molto distanti tra loro;
c) n1 15> e n2 15≤ oppure n1 15≤ e n2 15> : campioni di dimensioni piuttosto distanti tra loro.
I risultati sono esposti nelle tabelle che seguono. Per ciascuno dei tre test sono riportati lo
scostamento percentuale minimo (Min) e massimo (Max), nonché le frequenze assolute e
percentuali che si ottengono classificando gli ai nelle tre classi [Min; -1), [-1; 1], (1: Max]. In
questo modo si è inteso raggruppare nella classe centrale i casi con ampiezze effettive α * che
possono essere considerate uguali al livello di significatività nominale α = 0 05, dato che i risultati
sono stati ottenuti con la simulazione. Di conseguenza, la prima classe accorpa i casi con α α* < e
la terza classe quelli con α α*> .
V1 V2 V3
Min - 2,0 -2,2 - 3,2 Max 2,2 2,4 3,4
fr fr % fr fr % fr fr % [Min ; -1) 27 7,20 31 8,27 85 22,67 [-1; 1] 323 86,13 315 84,00 207 55,20 (1; Max] 25 6,67 29 7,73 83 22,13
Totale configurazioni 375 100,00 375 100,00 375 100,00
Tabella I.a. Caso n1 15> e n2 15>
* La simulazione è stata condotta anche per α = 0 10, ed ha portato a risultati sostanzialmente analoghi che pertanto
non vengono presentati. Alcune verifiche preliminari hanno suggerito di fissare il numero delle replicazioni svolte per ciascuna delle configurazioni considerate in 500.000. I programmi sono stati scritti in linguaggio Fortran impiegando la routine di generazione di numeri pseudo-casuali RNNOA della libreria IMSL. Queste caratteristiche valgono per tutte le simulazioni presentate nel seguito del lavoro.
7
V1 V2 V3
Min - 7,2 - 9,8 - 30,6 Max 9,0 12,0 25,0
fr fr % fr fr % fr fr % [Min ; -1) 81 33,75 111 46,25 149 62,08 [-1; 1] 73 30,42 64 26,67 14 5,83 (1; Max] 86 35,83 65 27,08 77 32,09
Totale configurazioni 240 100,00 240 100,00 240 100,00
Tabella I.b. Caso n1 15≤ e n2 15≤
V1 V2 V3
Min - 3,4 - 8,8 - 32,4 Max 11,0 12,2 22,2
fr fr % fr fr % fr fr % [Min ; -1) 74 12,33 165 27,50 286 47,67 [-1; 1] 262 43,67 268 44,67 104 17,33 (1; Max] 264 44,00 167 27,83 210 35,00
Totale configurazioni 600 100,00 600 100,00 600 100,00
Tabella I.c. Caso n1 15> e n2 15≤ oppure n1 15≤ e n2 15>
Si rileva quanto segue.
Tabella I.a. Caso: n1 15> e n2 15> .
Quando entrambi i campioni hanno numerosità elevate, quindi non molto distanti tra loro, il test
V1 mostra un comportamento decisamente buono. Infatti, dei 375 casi che cadono in questo blocco
l’86,13% appartiene alla classe centrale (per la quale si valuta α α* = ) e la rimanente frazione si
ripartisce equamente nelle altre due classi (α α* < e α α*> ). I valori ottenuti per Min = -2 e
Max = 2,2 confermano che in queste situazioni le elevate numerosità dei due campioni finiscono per
esercitare sulla determinazione di α * un’influenza maggiore di quella di ρ . Va infatti ricordato
che per ogni coppia di numerosità appartenente a ciascun blocco la sperimentazione ha riguardato
l’intera gamma dei valori di ρ presentata all’inizio del paragrafo.
Anche il test V2 manifesta un buon comportamento con risultati che sono molto prossimi a quelli
di V1 : 84% dei casi nella classe centrale, Min = -2,2; Max = 2,4.
Per il test V3 invece i casi della classe centrale scendono al 55,2% e aumenta il range tra i valori
estremi: Min = -3,2; Max = 3,4.
8
Tabella I.b. Caso: n1 15≤ e n2 15≤ .
Quando entrambi i campioni hanno ridotte numerosità, quindi non molto distanti tra loro, il
comportamento di V1 non appare altrettanto buono. La classe centrale accorpa solo il 30,42% dei
casi mentre i rimanenti sono quasi equidistribuiti nelle altre due classi. Evidentemente in queste
situazioni il ruolo esercitato da ρ diviene più influente. Anche i valori ottenuti per Min = -7,2 e
Max = 9 indicano un peggioramento.
Analoghe considerazioni possono essere svolte per il test V2 per il quale si rileva che il dato
della classe centrale è leggermente più basso di quello di V1 (26,67%) ma i restanti casi si
concentrano maggiormente nella prima classe (α α*< ). Il range tra i valori estremi è di poco più
ampio:
Min = -9,8 e Max = 12.
Ancora una volta è il test V3 a mostrare il comportamento peggiore. La classe centrale accorpa
solo il 5,83% dei casi, mentre il 62,08% si concentra nella prima classe (α α*< ). Anche i valori
estremi risultano sensibilmente distanti da zero: Min = -30,6 e Max = 25.
Tabella I.c. Caso: n1 15> e n2 15≤ oppure n1 15≤ e n2 15> .
Quando i campioni hanno dimensioni abbastanza sbilanciate tra loro, il comportamento del test
V1 sembra migliore rispetto al caso b), concentrando il 43,67% dei casi nella classe centrale. Questa
percentuale è praticamente la stessa della terza classe (α α*> ) ed è circa la metà di quella
osservata nella situazione a). Lo scarto minimo ai si avvicina leggermente a zero (Min = -3,4) ma
quello massimo se ne allontana maggiormente (Max = 11). Pare dunque che la tendenza di V1 ad
essere poco conservativo si manifesti soprattutto in corrispondenza di numerosità fortemente
sbilanciate.
In queste situazioni il test V2 concentra un’analoga frequenza di casi nell’intervallo centrale
(44,67%) ma con il vantaggio che i casi rimanenti si equidistribuiscono nelle altre due classi. Si
rileva inoltre un leggero miglioramento nel valore minimo (Min = -8,8) mentre il massimo resta
pressoché invariato.
Anche il test V3 mostra un lieve miglioramento rispetto al caso b). La frequenza di casi nella
classe centrale non supera comunque il 17,33%, con il 47,67% che si concentra invece nella prima
classe (α α*< ). I valori estremi risultano ancora sensibilmente distanti da zero.
L’analisi preliminare condotta ha consentito di mettere in evidenza che uno sbilanciamento tra le
numerosità dei due campioni esercita un’influenza negativa sul comportamento dei tre test di tipo V,
producendo un sensibile allontanamento del livello di significatività effettivo da quello nominale.
9
Un effetto analogo lo si osserva quando i due campioni sono entrambi di ridotte dimensioni. Le
situazioni riconducibili al caso a) non sembrano invece interessanti per valutare l’efficacia dei tre
criteri di denominazione dei due campioni e verranno quindi escluse dall’analisi successiva.
4. EFFETTO DELL’APPLICAZIONE DEI CRITERI SUI TEST V2 E V3
La seconda fase dell’indagine ha riguardato la valutazione dell’impatto che i tre criteri richiamati
nel paragrafo 2 hanno sui test V2 e V3 , al fine di:
• verificare se essi apportano un apprezzabile miglioramento in termini di aderenza di α * ad α
quando V1 non manifesta un buon comportamento;
• stabilire fra di loro un ordine di preferenza.
Come si è già avuto modo di sottolineare, il principio a cui ci si ispira è quello di non introdurre
inutili complicazioni nella procedura operativa a meno che il miglioramento prodotto sia di una
certa rilevanza.
Sulla scorta delle indicazioni emerse dall’analisi precedente, nella scelta delle configurazioni su
cui avviare questa fase dell’indagine ci si è affidati al criterio di mantenere i soli casi di numerosità
appartenenti ai blocchi b) e c), affinando però il passo di variazione di n1 e n2 ; si è anche deciso
di aumentare il numero di valori di ρ . Si è quindi posto:
n n1 2, : da 6 a 30 con passo 1, esclusi i casi n n1 2 15, > ;
ρ : 1 e 1,5 , 2, 3, . . . , 9, 10 con i rispettivi reciproci.
In questo modo si individuano 8.400 configurazioni sulle quali si sono analizzati tramite
simulazione gli effetti prodotti dall’applicazione dei tre criteri. Come in precedenza, dalle ampiezze
simulate si sono ricavati gli scostamenti percentuali ai . Questi sono stati raggruppati in classi di
ampiezza 1% e presentati nei prospetti e nei grafici delle Figg. 1-4 che seguono. Nella parte
inferiore dei prospetti compaiono anche i seguenti indici riassuntivi: scostamento percentuale
minimo (Min) e massimo (Max), valore medio (Media) e scarto quadratico medio (S.q.m.). Viene
inoltre riportata la distribuzione degli ai nelle tre classi [Min; -1), [-1; 1], (1: Max] già utilizzate in
precedenza. Nelle successive valutazioni si farà spesso riferimento anche all’intervallo [-4; 4],
perché si ritiene che in esso ricadano scostamenti di α * da α accettabili nella pratica.
10
Senza criteri • 8.400 configurazioni
V1 V2 V3
< -8 0,00 0,52 12,31 -8 |⎯ - 7 0,02 0,83 2,05 -7 |⎯ - 6 0,07 0,88 2,51 -6 |⎯ - 5 0,24 1,44 3,43 -5 |⎯ - 4 0,48 1,80 4,29 -4 |⎯ - 3 1,02 3,14 6,76 -3 |⎯ - 2 3,95 6,32 9,08 -2 |⎯ - 1 11,99 13,20 11,38 -1 |⎯ 0 23,33 26,80 9,36 0 |⎯| 1 17,70 16,02 4,48 1 ⎯| 2 14,88 8,73 3,44 2 ⎯| 3 9,10 6,10 3,94 3 ⎯| 4 5,56 3,92 4,67 4 ⎯| 5 4,20 2,74 4,23 5 ⎯| 6 3,07 2,35 3,02 6 ⎯| 7 1,90 1,49 2,38 7 ⎯| 8 1,18 1,23 1,94
> 8 1,30 2,50 10,74
Totale 100,00 100,00 100,00
Min -7,40 -10,20 -32,20 Max 10,60 12,40 25,20
Media 0,99 0,29 -0,94 S.q.m. 2,48 3,10 8,29
[Min ; -1) 17,77 28,14 51,81 [-1; 1] 41,04 42,82 13,83
(1; Max] 41,19 29,04 34,36
Totale 100,00 100,00 100,00
Figura 1. Distribuzioni degli scostamenti percentuali delle ampiezze effettive α * da α = 0,05 dei test V1, V2 e V3
La Fig. 1 mostra i risultati ottenuti per i tre test nel caso in cui non sia applicato alcun criterio di
denominazione dei due campioni e rappresenta il termine di confronto per le altre situazioni.
I grafici e le tabelle confermano sostanzialmente le caratteristiche dei tre test già emerse nelle
precedenti analisi. In particolare, si rileva che per V1 la percentuale di configurazioni per le quali il
livello di significatività effettivo risulta superiore a quello nominale è pari al 41,19%. Tale
percentuale è decisamente più contenuta per V2 (29,04%) ed è inferiore anche per V3 (34,36%). La
sopravalutazione di α si manifesta però in modo difforme per i tre test: per V1 gli scostamenti
ai > 4 rappresentano l’11,65% dei casi, per V2 tale percentuale è leggermente inferiore (10,31%),
mentre per V3 è circa il doppio (22,31%).
0
5
10
15
20
25
30
35
< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8
V1
0
5
10
15
20
25
30
35
< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8
V2
0
5
10
15
20
25
30
35
< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8
V3
11
Criterio 1 • 4.305 configurazioni
Figura 2. Distribuzioni degli scostamenti percentuali delle ampiezze effettive α * da α = 0,05 dei test V2 e V3
La Fig. 2 riguarda i soli test V2 e V3 , essendo riferita al sottoinsieme delle 4.305 configurazioni
che in ottemperanza dell’applicazione del criterio 1 soddisfano la disuguaglianza n n1 2≤ . Tenuta
presente la simmetria dei valori assegnati a n1, n2 e ρ, questo produce l’effetto il dimezzare gli 8.190
casi con n n1 2≠ , mentre restano invariati i 210 con n n1 2= .
Se si confrontano gli istogrammi di V2 e V3 delle Figg. 1 e 2, si rileva immediatamente che
l’applicazione del criterio 1 riduce visibilmente l’incidenza dei casi in cui si ha α α*> . Infatti per
V2 la percentuale passa dal 29,04% al 9,06% e per V3 dal 34,36% al 10,66%. Come si è già avuto
modo di osservare, la frequenza dei casi di V1 che cadono nella stessa classe è decisamente più
elevata (41,19%). Il miglioramento apportato va però valutato anche in relazione alle conseguenze
che si hanno sul numero delle configurazioni per le quali il livello di significatività effettivo risulta
inferiore ad α in modo apprezzabile. Si osserva che, mentre per V2 la percentuale di scostamenti
ai < −4 passa dal 5,47% al 9,92%, quella di V3 sale dal 24,59% al 43,34%. Inoltre, mentre per V2
aumentano sensibilmente i casi α α* = (che passano dal 42,82% al 53,24%), per V3 si osserva un
V2 V3 < -8 1,02 23,02
-8 |⎯ - 7 1,60 3,58 -7 |⎯ - 6 1,63 4,27 -6 |⎯ - 5 2,56 5,69 -5 |⎯ - 4 3,11 6,78 -4 |⎯ - 3 5,18 10,06 -3 |⎯ - 2 8,50 12,03 -2 |⎯ - 1 14,10 11,78 -1 |⎯ 0 30,94 7,69 0 |⎯| 1 22,30 4,44 1 ⎯| 2 5,53 3,09 2 ⎯| 3 1,74 2,25 3 ⎯| 4 0,72 1,81 4 ⎯| 5 0,39 0,98 5 ⎯| 6 0,30 0,67 6 ⎯| 7 0,12 0,51 7 ⎯| 8 0,12 0,37
> 8 0,14 0,98
Totale 100,00 100,00
Min -10,20 -32,20 Max 11,00 21,40
Media -1,03 -5,38 S.q.m. 2,30 7,43
[Min ; -1) 37,70 77,21 [-1; 1] 53,24 12,13
(1; Max] 9,06 10,66
Totale 100,00 100,00
0
5
10
15
20
25
30
35
< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8
V2
0
5
10
15
20
25
30
35
< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8
V3
12
lieve peggioramento (dal 13,83% al 12,13%). Anche dopo l’applicazione del criterio 1 il test V2 si
riconferma dunque migliore di V3 .
Criterio 2 • 8.400 configurazioni
Figura 3. Distribuzioni degli scostamenti percentuali delle ampiezze effettive α * da α = 0,05 dei test V2 e V3
La Fig. 3 presenta gli istogrammi che si ottengono in seguito all’applicazione del criterio 2 sui
test V2 e V3 . L’effetto più immediato è quello di una netta riduzione dei casi α α*> : per V2 questi
rappresentano solo il 2,17% (con nessun ai > 4 ) e sono addirittura ridotti a zero per V3 . Come in
precedenza però si osserva un incremento delle situazioni in cui la correzione apportata produce
un’eccessiva riduzione di α * . Per V2 il fenomeno è ancora contenuto: se si considerano gli
scostamenti ai < −4 , si passa dalla percentuale del 9,92% che si ha con l’applicazione del criterio 1
al 12,13%. Per V3 la percentuale sale dal 43,34% al 50,17%. I valori caratteristici riportati
confermano ancora una volta il cattivo comportamento di V3 . Dal prospetto riportato in Fig. 1 si
V2 V3
< -8 1,58 25,42 -8 |⎯ - 7 1,63 4,14 -7 |⎯ - 6 2,14 5,26 -6 |⎯ - 5 2,92 6,58 -5 |⎯ - 4 3,86 8,77 -4 |⎯ - 3 5,95 12,26 -3 |⎯ - 2 10,25 15,71 -2 |⎯ - 1 18,67 15,15 -1 |⎯ 0 33,17 6,46 0 |⎯| 1 17,67 0,23 1 ⎯| 2 2,13 0,00 2 ⎯| 3 0,04 0,00 3 ⎯| 4 0,00 0,00 4 ⎯| 5 0,00 0,00 5 ⎯| 6 0,00 0,00 6 ⎯| 7 0,00 0,00 7 ⎯| 8 0,00 0,00
> 8 0,00 0,00
Totale 100,00 100,00
Min -14,60 -33,80 Max 2,20 0,80
Media -1,56 -6,55 S.q.m. 2,17 6,49
[Min ; -1) 47,00 93,31 [-1; 1] 50,83 6,69
(1; Max] 2,17 0,00
Totale 100,00 100,00
0
5
10
15
20
25
30
35
< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8
V2
0
5
10
15
20
25
30
35
< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8
V3
13
può invece rilevare che V1 concentra nello stesso intervallo ai < −4 una percentuale molto bassa di
casi (0,81%).
Criterio 3 • 8.400 configurazioni
Figura 4. Distribuzioni degli scostamenti percentuali delle ampiezze effettive α * da α = 0,05 dei test V2 e V3
Da ultimo, la Fig. 4 presenta gli istogrammi ottenuti con l’applicazione del criterio 3. Si rileva
immediatamente che il profilo dei due grafici non risulta sostanzialmente alterato rispetto a quelli
della Fig. 3. Anche i valori riportati nel prospetto non sono sensibilmente diversi. Se ne deduce che,
all’interno degli 8.400 casi considerati, sono scarsamente rappresentati quelli in cui i g.d.l. calcolati
per le due configurazioni (n1, n2, ρ) e (n2, n1, 1/ρ) risultano entrambi inferiori a ( )b rω 1 . D’altro
canto la gamma di configurazioni scelte è piuttosto ampia e può essere considerata sufficientemente
rappresentativa delle situazioni reali. Ciò porta a ritenere che l’adozione del criterio 3 non apporti in
definitiva un sostanziale vantaggio rispetto agli altri due che sono di più semplice impiego.
Per riassumere, dai risultati ottenuti emergono le indicazioni che seguono.
V2 V3
< -8 1,49 23,64 -8 |⎯ - 7 1,64 4,10 -7 |⎯ - 6 2,12 5,10 -6 |⎯ - 5 2,90 6,73 -5 |⎯ - 4 3,74 9,10 -4 |⎯ - 3 5,94 12,43 -3 |⎯ - 2 10,29 16,04 -2 |⎯ - 1 18,77 15,92 -1 |⎯ 0 33,26 6,70 0 |⎯| 1 17,68 0,26 1 ⎯| 2 2,13 0,00 2 ⎯| 3 0,04 0,00 3 ⎯| 4 0,00 0,00 4 ⎯| 5 0,00 0,00 5 ⎯| 6 0,00 0,00 6 ⎯| 7 0,00 0,00 7 ⎯| 8 0,00 0,00
> 8 0,00 0,00
Totale 100,00 100,00
Min -14,00 -31,60 Max 2,20 0,80
Media -1,54 -6,14 S.q.m. 2,15 5,97
[Min ; -1) 46,89 93,04 [-1; 1] 50,94 6,96
(1; Max] 2,17 0,00
Totale 100,00 100,00
0
5
10
15
20
25
30
35
< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8
V2
0
5
10
15
20
25
30
35
< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8
V3
14
Il test V1 presenta una certa tendenza a sopravalutare il livello di significatività nominale, ma nel
complesso può essere considerato abbastanza buono. Non va infatti dimenticato che questa seconda
sperimentazione ha riguardato blocchi di numerosità appositamente selezionate per fare emergere le
situazioni di maggiore squilibrio tra α * e α . Ciò nonostante l’87,53% degli scostamenti è risultato
compreso nell’intervallo [-4; 4], che può ritenersi di ampiezza abbastanza contenuta.
Se, per venire incontro all’esigenza di disporre di un test più conservativo, si adotta V2 senza
l’applicazione di un criterio di denominazione dei due campioni, non si osserva un apprezzabile
miglioramento in termini di aderenza di α * ad α . Il test V3 è invece addirittura sconsigliabile in
quanto produce un eccessivo allontanamento da α in entrambe le direzioni.
L’adozione dei tre criteri di denominazione dei due campioni migliora in generale il
comportamento di entrambi i test V2 e V3 in corrispondenza di quelle situazioni in cui anche questi
sono non conservativi, riducendone il livello di significatività effettivo. Ciò si accompagna però ad
un incremento dei casi in cui la riduzione è eccessiva. Il fenomeno è abbastanza contenuto per V2 ,
mentre risulta molto accentuato per V3 .
Il cattivo comportamento mostrato in generale da V3 suggerisce di escludere questo test
dall’analisi successiva. Si tenga presente che, per le considerazioni richiamate in premessa, le
osservazioni svolte per V3 sono direttamente attribuibili anche al test di Ames e Webster. Infatti, i
gruppi considerati in questo lavoro sono stati formati in modo da garantire che, data la
configurazione (n1, n2, ρ), risulti sempre rappresentata anche la corrispondente (n2, n1, 1/ρ).
Per quanto riguarda il problema di stabilire un ordine di priorità tra i tre criteri in base all’effetto
che essi producono in termini di aderenza di α * ad α, tenuto conto degli aspetti operativi, si è
osservato che il criterio 3 non porta un sostanziale vantaggio rispetto ai primi due. Tra questi non
sono invece emerse per ora chiare indicazioni di preferenza, in quanto entrambi producono un buon
miglioramento nelle situazioni in cui V1 sopravaluta α. Si è però visto che questo risultato lo si
realizza a scapito di un lieve aumento della percentuale di casi in cui ai < −4 . Va però precisato che
le valutazioni fin qui condotte hanno riguardato esclusivamente la numerosità dei due campioni,
senza tenere in alcun conto il rapporto tra le varianze delle due popolazioni. Poiché il criterio 2
differisce dal criterio 1 per il fatto di considerare oltre alla dimensione dei due campioni
l’informazione fornita dalla stima di ρ, utili indicazioni possono essere ricavate tenendo conto
anche di tale aspetto. Per questo motivo, nel paragrafo che segue si concentrerà l’attenzione sul test
V1 e sul test V2 abbinato al criterio 2, nel seguito indicato con V c2 2( ) .
15
5. IL TEST V1 MODIFICATO
Per avere indicazioni circa il comportamento di V1 e V c2 2( ) al variare delle numerosità dei due
campioni e del rapporto tra le varianze, si è proceduto a riclassificare gli scostamenti relativi ai
ottenuti in precedenza per i due test al fine di individuare blocchi di configurazioni che accorpano
situazioni sufficientemente omogenee. Si è dapprima considerata una partizione abbastanza minuta
dei valori assunti da φ = n n2 1 e ρ σ σ= 22
12 e si è ricavata per ciascuno dei due test una tabella a
doppia entrata (che per motivi di brevità non viene riportata) che ha permesso l’individuazione dei
due blocchi a) e b) che seguono.
a) Per φ < 1 e ρ ≥ 1 oppure φ > 1 e ρ ≤ 1 il comportamento di V1 risulta sensibilmente peggiore di
quello di V c2 2( ) , con una accentuata tendenza a sopravalutare α .
La Fig. 5 che segue mostra gli istogrammi relativi alle 4.290 configurazioni che ricadono in
questo blocco, accompagnati dai consueti valori caratteristici. Si può osservare che mentre per
V1 la frazione di scostamenti ai > 4 raggiunge il 21,52%, per V c2 2( ) allo stesso intervallo non
appartiene alcun caso. Contestualmente V c2 2( ) manifesta anche un numero estremamente ridotto
di ai < −4 (3,38%).
In situazioni di questo tipo il test V c2 2( ) sarebbe dunque da preferirsi al test V1 .
16
Blocco a) φ ρ φ ρ< ≥ > ≤1 1 1 1, ,oppure 4.290 configurazioni
Figura 5. Distribuzioni degli scostamenti percentuali delle ampiezze effettive α * da α = 0,05 dei test V1 e V2 (c2 )
b) Per φ ≥ 1 e ρ > 1 oppure φ ≤ 1 e ρ < 1 oppure φ ρ= = 1 è invece il test V1 a manifestare un
comportamento migliore. Come si può vedere dalla Fig. 6, dove sono classificate le restanti
4.110 configurazioni che cadono in questo blocco, gli scostamenti ai relativi a V1 sono molto
concentrati intorno allo zero, con una distribuzione che è quasi simmetrica; i casi ai < −4 sono
l’1,41% mentre quelli ai > 4 l’1,37%. L’istogramma ottenuto per V c2 2( ) presenta invece
un’accentuata asimmetria negativa. Il numero di casi ai < −4 è pari al 21,27%.
V1 V2(c2)
< -8 0,00 0,56 -8 |⎯ - 7 0,00 0,33 -7 |⎯ - 6 0,02 0,44 -6 |⎯ - 5 0,12 0,72 -5 |⎯ - 4 0,09 1,33 -4 |⎯ - 3 0,33 2,38 -3 |⎯ - 2 0,58 5,73 -2 |⎯ - 1 1,98 13,17 -1 |⎯ 0 4,90 32,24 0 |⎯| 1 20,30 39,00 1 ⎯| 2 23,99 4,03 2 ⎯| 3 16,29 0,07 3 ⎯| 4 9,88 0,00 4 ⎯| 5 7,72 0,00 5 ⎯| 6 5,71 0,00 6 ⎯| 7 3,43 0,00 7 ⎯| 8 2,24 0,00
> 8 2,42 0,00
Totale 100,00 100,00
Min -6,60 -13,00 Max 10,60 2,20
Media 2,46 -0,61 S.q.m. 2,31 1,53
[Min ; -1) 3,12 24,66 [-1; 1] 25,20 71,24
(1; Max] 71,68 4,10
Totale 100,00 100,00
0
5
10
15
20
25
30
35
40
< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8
V 1
0
5
10
15
20
25
30
35
40
< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8
V 2 (c2 )
17
Blocco b) φ ρ φ ρ φ ρ≤ < ≥ > = =1 1 1 1 1, ,oppure o 4.110 configurazioni
Figura 6. Distribuzioni degli scostamenti percentuali delle ampiezze effettive α * da α = 0,05 dei test V1 e V2 (c2 )
In definitiva, dai risultati ottenuti si traggono le seguenti indicazioni. Il test V1 presenta un
comportamento non adeguato - con sopravalutazione del livello di significatività nominale - quando
per stimare la varianza più elevata si hanno pochi g.d.l., ovvero si dispone di un numero ridotto di
osservazioni. Il risultato trova riscontro in quanto riportato anche da altri autori (cfr. ad es.
Davenport e Webster, 1972, pag. 558). In corrispondenza di queste configurazioni che appaiono
critiche per V1 , la correzione che apporta il test V c2 2( ) ne migliora sensibilmente il comportamento
Nelle altre situazioni non sembra invece opportuno modificare il test V1 .
Nella pratica, una possibile scelta pare quindi quella di effettuare un uso combinato dei due test
in base alle indicazioni fornite dal parametro φ (ovvero dal confronto tra le due numerosità
campionarie) e dalla stima campionaria di ρ (ovvero dal confronto tra le varianze corrette
campionarie). Nella Fig. 7 che segue, si sono accorpate le informazioni ricavate in corrispondenza
delle 4.290 configurazioni ricomprese nel blocco a) che prevedono l’utilizzo del test V c2 2( ) e delle
V1 V2(c2)
< -8 0,00 2,65 -8 |⎯ - 7 0,05 2,99 -7 |⎯ - 6 0,12 3,92 -6 |⎯ - 5 0,36 5,21 -5 |⎯ - 4 0,88 6,50 -4 |⎯ - 3 1,75 9,68 -3 |⎯ - 2 7,47 14,96 -2 |⎯ - 1 22,43 24,40 -1 |⎯ 0 34,99 22,29 0 |⎯| 1 22,58 7,25 1 ⎯| 2 5,38 0,15 2 ⎯| 3 1,58 0,00 3 ⎯| 4 1,05 0,00 4 ⎯| 5 0,54 0,00 5 ⎯| 6 0,32 0,00 6 ⎯| 7 0,32 0,00 7 ⎯| 8 0,07 0,00
> 8 0,12 0,00
Totale 100,00 100,00
Min -7,40 -14,60 Max 9,20 1,40
Media -0,55 -2,55 S.q.m. 1,54 2,29
[Min ; -1) 33,07 70,32 [-1; 1] 57,57 29,54
(1; Max] 9,36 0,14
Totale 100,00 100,00
0
5
10
15
20
25
30
35
40
< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8
V 1
0
5
10
15
20
25
30
35
40
< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8
V 2 (c2 )
18
4.110 del blocco b) a cui si applica il test V1 . Ciò ovviamente può fornire solo una prima
indicazione dei risultati che si potrebbero ottenere dall’uso combinato dei due test, poiché l’insieme
degli 8.400 casi risulta individuato dal parametro ρ e non dalla sua stima campionaria.
8.400 configurazioni
Figura 7. Distribuzione degli scostamenti percentuali delle ampiezze effettive α * da α = 0,05 ottenuta accorpando
il blocco a) di V1 e il blocco b) di V c2 2( )
La distribuzione mostra una dispersione molto contenuta attorno allo zero, ossia una buona
aderenza del livello di significatività effettivo a quello nominale: la frazione di casi ai < −4
rappresenta solo il 2,43% e quella dei casi ai > 4 lo 0,66%. Risulta molto elevata la percentuale di
casi compresi nei limiti [-1; 1]: 64,55% contro il 41,04% di V1 e il 50,83% di V c2 2( ) .
I risultati ottenuti appaiono quindi estremamente incoraggianti e, dal punto di vista operativo,
conducono alla formulazione della seguente regola:
Se le numerosità dei due campioni sono uguali adottare il test V1 altrimenti,
V1 e V c2 2( )
< -8 0,29 -8 |⎯ - 7 0,19 -7 |⎯ - 6 0,29 -6 |⎯ - 5 0,55 -5 |⎯ - 4 1,11 -4 |⎯ - 3 2,07 -3 |⎯ - 2 6,58 -2 |⎯ - 1 17,70 -1 |⎯ 0 33,58 0 |⎯| 1 30,96 1 ⎯| 2 4,69 2 ⎯| 3 0,81 3 ⎯| 4 0,51 4 ⎯| 5 0,26 5 ⎯| 6 0,15 6 ⎯| 7 0,15 7 ⎯| 8 0,04
> 8 0,06
Totale 100,00
Min -13,00 Max 9,20
Media -0,58 S.q.m. 1,53
[Min ; -1) 28,77 [-1; 1] 64,55
(1; Max] 6,68
Totale 100,00 0
5
10
15
20
25
30
35
40
< -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 > 8
19
i) nominare i due campioni in modo che sia soddisfatta la condizione n1 < n2 e
ii) adottare il test V1 se s s12
22< oppure
iii) adottare il test V2 se s s12
22≥ .
E’ ora facile rendersi conto che la semplice regola operativa appena fornita soddisfa sia il criterio
1 sia il criterio 2 e consente quindi di impiegare direttamente il test V2 senza ulteriori aggravi
operativi. Infatti, se si verificano le condizioni previste al punto i) (ovvero φ > 1) e al punto iii)
(ovvero r ≤ 1) per l’intervento di V2 , la (2.1) soddisfa necessariamente la disuguaglianza
ωφ
* = = × >f nf n r
ff r
2 2
1 1
2
1
1 .
La complessa analisi condotta in questo e nei due precedenti lavori ha portato in definitiva ad un
risultato di estrema semplicità operativa potenzialmente in grado di correggere la tendenza di V1 ad
essere non conservativo. In sostanza, rispetto alla procedura tradizionale su cui è basato l’impiego
del test V1 , la modifica suggerita introduce due accorgimenti molto semplici da applicare che
consistono nel denominare opportunamente i due campioni in modo che sia soddisfatta una
relazione d’ordine tra le rispettive numerosità e quindi di far intervenire il peso ω 2 nella (1.3) solo
quando alla varianza corretta campionaria più elevata corrisponde la numerosità più piccola. A tale
proposito, non va dimenticato che il confronto tra le stime delle varianze delle due popolazioni è
comunque soggetto a fluttuazioni di campionamento. Questo importante aspetto esula dagli obiettivi
del presente lavoro, ma rimane un problema aperto che dovrà essere affrontato in successivi
approfondimenti con i quali si studierà quale effetto produca l’impiego delle varianze campionarie
sulla funzione di potenza effettiva del nuovo test, che viene denominato test V1 modificato.
6. CONCLUSIONI
Nel corso di una complessa indagine avviata nel 1995 gli autori del presente lavoro hanno
analizzato la possibilità di pervenire ad una soddisfacente soluzione del problema di Behrens-Fisher
muovendo dalla considerazione di una classe di test a cui appartiene quello basato sulla nota
statistica V di Fairfield-Smith, Welch e Satterthwaite. Come è noto, la distribuzione di V viene
20
approssimata con quella della v.c. t di Student a cui si assegnano determinati g.d.l. che sono
funzione, oltre che delle numerosità campionarie, del rapporto ρ σ σ= 22
12 . Poiché tale parametro
non è noto, nella prassi corrente viene stimato facendo ricorso al tradizionale stimatore R basato sul
rapporto tra le corrispondenti varianze corrette campionarie. Il test che ne deriva (qui indicato come
test V1 ) presenta la tendenza a sopravalutare il livello di significatività nominale. La ricerca
condotta ha preso le mosse da un suggerimento di Ames e Webster (1991) di introdurre un
correttivo associando ad R un peso ω che soddisfi una particolare proprietà. Imponendo la
proprietà di non distorsione e di minimo errore quadratico medio sullo stimatore ω R si sono
ricavati i due test V2 e V3 . Questi, a differenza di V1 , presentano la caratteristica di non essere
indifferenti alla diversa denominazione dei due campioni, nel senso che il loro livello di
significatività effettivo α * è in generale diverso se la configurazione (n1, n2, ρ) viene rovesciata in
(n2, n1, 1/ρ). La ricerca si è quindi indirizzata verso l’individuazione di appropriati criteri operativi
per la denominazione dei due campioni con l’obiettivo di garantire una migliore aderenza di α * ad
α. Si sono così individuati tre possibili criteri, che sono stati sperimentati sui test V2 e V3 . Le
verifiche condotte indicano che il test V3 non manifesta comunque un buon comportamento, poiché
in genere risulta eccessivamente conservativo. Il test V2 , quando applicato con il criterio 2, ha
invece prodotto buoni risultati. Nella fase conclusiva dell’analisi si è affrontato il problema di come
utilizzare tale test, ovvero se sia preferibile proporlo come un test alternativo a V1 o se sia da
privilegiare un utilizzo “combinato” dei due test. L’idea di base era infatti quella di continuare ad
utilizzare il test tradizionale in quelle situazioni in cui questo manifesta un buon comportamento. Le
indicazioni emerse al riguardo dall’esperienza condotta sono coerenti con quanto già segnalato da
altri autori: il comportamento di V1 è soddisfacente quando per stimare la varianza più grande si
dispone dei g.d.l. più elevati, ovvero quando il campione che fornisce tale stima è quello di
maggiori dimensioni. Nella situazione opposta, il test V1 presenta una forte tendenza a
sopravalutare α e sarebbe preferibile far intervenire il test V2 con il criterio 2. Si è però anche
osservato che in tali circostanze il criterio è automaticamente verificato se si adotta la seguente
semplice regola operativa:
1) si denominano i due campioni in modo da rispettare la condizione n1 ≤ n2;
2) si introduce il peso ( ) ( )ω 2 1 13 1= − −n n nell’espressione (1.3) dei g.d.l. da assegnare alla v.c. t
di Student solo se alla varianza corretta campionaria più elevata corrisponde la numerosità più
piccola. In tutti gli altri casi si adotta il peso ω 1 1= previsto per V1 .
21
Il test basato su questa procedura è stato denominato test V1 modificato. Le prime indicazioni sul
miglioramento che esso comporta rispetto all’impiego del test tradizionale sono estremamente
incoraggianti, ma vanno analizzate più approfonditamente in quanto la decisione prevista al punto
2) si basa sul confronto tra stime di σ 12 e σ 2
2 e va quindi valutato l’effetto prodotto dalle
fluttuazioni di campionamento sulla funzione di potenza del nuovo test. L’approfondimento di
questo aspetto formerà oggetto di un successivo lavoro.
Lavoro finanziato con fondi MURST 60% e 40%.
22
RIFERIMENTI BIBLIOGRAFICI
Ames M.H., Webster J.T., 1991, On estimating approximate degrees of freedom, The American Statistician, 45, 1, 45-50.
Best D.J., Rayner J.C.W., 1987, Welch's approximate solution of the Behrens-Fisher problem, Technometrics, 29, 2, 205-210.
Brentari E., Carpita M., Dancelli L., 1995, Alcune soluzioni del problema di Behrens-Fisher basate sull’impiego della t di Student, Quaderni di Statistica e Matematica Applicata alle Scienze Economico-Sociali, XVII, 1, 25-55.
Brentari E., Carpita M., Dancelli L., 1997, Su una classe di soluzioni approssimate di tipo t del problema di Behrens-Fisher, in corso di pubblicazione sulla rivista Statistica.
Davenport J.M., Webster J.T., 1972, Type-I error and power of a test involving a Settherthwaite’s approximate F-statistic, Technometrics, 14, 555-569.
Fairfield-Smith H., 1936, The problem of comparing the results of two esperiments with unequal errors, Journal of the Council for Scientific and Industrial Research, 9, 211-212.
Moser B. K., Stevens G.R., Watts C.L., 1989, The two sample t test versus Satterthwaite's approximate F test, Communications in Statistics, Series A - Theory and Methods, 18, 3963-3975.
Satterthwaite F.E., 1946, An approximate distribution of estimates of variance components, Biometrics, 2, 110-114.
Welch B.L., 1938, The significance of the difference between two means when the population variances are unequal, Biometrika, 29, 350-362.
23
Titolo in inglese e abstract
APPROXIMATED t TESTS FOR THE BEHRENS-FISHER PROBLEM: THE EFFECT OF SOME CRITERIA ON THE ESTIMATE OF THE DEGREES OF FREEDOM
This article deals with the Welch’s approximated t test (test V1 ) for the bivariate Behrens-Fisher
problem. The test V1 is recommended by several statisticians but is not acceptable to others because
it is slightly positive biased. Following a suggestion by Ames and Webster (1991), in previous
works the authors have derived two competitor tests (tests V2 and V3 ) adopting two weighted
estimators of the variance ratio ρ in the usual expression of the degrees of freedom related to V1 .
Given two samples of size n1 and n2 , the actual significance level α * of the two tests V2 and V3
generally differs for the (n1, n2, ρ) and the (n2, n1, 1/ρ) patterns. The authors have derived three
criteria (named c1 , c2 and c3 ) to make the proper choice in labelling n1 and n2 that provide a better
control on α * .
In this study a simulation is performed in order to compare the three criteria and to evaluate which
of them provides a better performance of tests V2 and V3 . The results indicate that only the test V2
can be considered a real competitor of V1 when adopted together with the c2 criterion.
The authors’ conclusion is that a relevant gain may be attained using both V1 and V2 and choosing
among them the test to apply in the specific case on the basis of very simple rule which can produce
a very high control of the actual significance level.