48
\\284 \\ Algoritmi Genetici per l'Evoluzione di Modelli Lineari Metodologia ed Applicazioni di Marcello Galli* Tommaso Minerva** Novembre 1999 * Università degli Studi di Modena e Reggio Emilia Dipartimento di Economia Politica Via Berengario, 51 41100 Modena (Italia) e-mail:[email protected] ** Università degli Studi di Modena e Reggio Emilia Dipartimento di Economia Politica Via Berengario, 51 41100 Modena (Italia) e-mail:[email protected]

Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

  • Upload
    others

  • View
    11

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

\\284 \\

Algoritmi Genetici per l'Evoluzione di Modelli Lineari Metodologia ed Applicazioni

di

Marcello Galli* Tommaso Minerva**

Novembre 1999

* Università degli Studi di Modena e Reggio Emilia Dipartimento di Economia Politica Via Berengario, 51 41100 Modena (Italia) e-mail:[email protected]

** Università degli Studi di Modena e Reggio Emilia Dipartimento di Economia Politica Via Berengario, 51 41100 Modena (Italia) e-mail:[email protected]

Page 2: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari
Page 3: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

Algoritmi Genetici per l' Evoluzione di Modelli Lineari Metodologia ed Applicazioni

Marcello GALLI e Tommaso MINERV A

Riassunto

In questo lavoro vengono proposte alcune tecniche computazionali per il riconoscimento di modelli statistici cercando di fornire una risposta alla problematica della selezione del "miglior" modello statistico da utilizzare in una indagine predittiva. Vengono analizzate le tre fasi della selezione di un modello statistico: selezione delle variabili, individuazione della relazione funzionale tra le variabili e dei parametri a questa associati e stima del valore dei parametri. La selezione delle variabili procede, solitamente, mediante tecniche step-by-step in cui di volta in volta viene introdotta o eliminata una variabile alla volta valutandone, mediante criteri opportuni, la capacità esplicativa. Nel lavoro qui presentato viene proposto un approccio alternativo. Utilizzando tecniche numeriche proprie dell'Intelligenza Artificiale (algoritmi evolutivi, adattivi, decisionali) ed in particolare utilizzando algoritmi ibridi (integrazione tra Algoritmi Genetici e Logica Fuzzy) sono state affrontate le seguenti problematiche: come scegliere le variabili da utilizzare nell'ambito di un modello lineare multivariato, come selezionare i regressori nell'ambito di un modello AR ed ARMA ed infine auale criterio utilizzare per confrontare la bontà di due o più modelli. Per le prime due sono state proposte soluzioni basate sugli Algoritmi Genetici mentre per la terza si è proposto un criterio di valutazione basato sulla Logica Fuzzy. Le tecniche sono state valutate su insiemi di dati sperimentali o su dati simulati di cui si è fornito l'algoritmo di simulazione utilizzato. Un attento confronto con le tecniche standard è stato condotto nei casi più significativi evidenziando un significativo aumento delle performances predittive con l'utilizzo delle tecnologie implementate nell' ambito dello studio descritto da questa trattazione. Infine si è proceduto ad applicare gli algoritmi sviluppati a due casi reali: Previsioni del Livello di Marea della Laguna Veneziana e Analisi della Disoccupazione in Emilia Romagna evidenziando notevoli miglioramenti rispetto ad analoghe indagini condotte con tecniche classiche.

Page 4: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari
Page 5: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

l. TECNICHE DI SELEZIONE DI UN MODELLO STATISTICO

La fase più operativa della statistica è diretta alla costruzione di un modello per descrivere, comprendere, prevedere, simulare e controllare un fenomeno reale. Per tali finalità diviene centrale la struttura logica e formale del modello di regressione mediante il quale si esplicita una relazione funzionale tra ciò che si intende spiegare (l'effetto, la risposta, il risultato) e quello che può esserne causa. Un modello statistico è una rappresentazione semplificata, analogica e necessaria della realtà derivata da osservazioni sperimentali oltre che da deduzioni logiche. L'aspetto dialettico nella costruzione di un modello statistico deriva dalle opposte esigenze di semplificare la struttura senza perdere in fedeltà, e tale conflitto è ineliminabile. Infatti, tutti i modelli sono intrinsecamente sbagliati: essi sono parzialmente e provvisoriamente utili, e sono destinati a essere sostituiti con l'avanzare del progresso scientifico e l'affinamento della conoscenza. Ciò che realmente conta non è la validità antologica delle relazioni accertate ma l'efficacia comparata in rapporto agli obiettivi. È l'obiettivo, infatti, che rende utile, efficace e temporaneamente valido il modello.

La costruzione di un modello si concretizza attraverso fasi successive: specificazione, stima e verifica del modello statistico. Non è un caso che la specificazione sia l'aspetto più delicato e importante dell'intera procedura; dalla sua correttezza, infatti, dipendono la validità e l'efficacia di tutte le fasi successive.

La specificazione di un modello statistico inizia con l'esplicitare un legame tra i fenomeni di interesse nel modo seguente:

(l)

dove Y è la variabile da spiegare (variabile dipendente) mentre X1,X2, ... Xp (variabili esplicative) sono variabili prescelte per spiegare Y, grazie alla funzione f

Tale relazione deriva dalla interazione tra conoscenze a priori e risultati sperimentali, e poiché non esistono settori scientifici ove è lecito ipotizzare un legame di natura strettamente deterministica, a tale relazione dovrà essere associata una componente stocastica. Pertanto (nell'ipotesi di componente additiva dell'errore) la specificazione di un modello statistico spesso assume la forma:

(2)

in cui è necessario fare opportune ipotesi sulla distribuzione di E.

Attente procedure di specificazione del modello sono essenziali per un corretto impiego delle informazioni empiriche disponibili. La ricerca di specificazione del modello si articola in diverse fasi: scelta della forma funzionale (lineare o non lineare e, in quest' ultimo caso, di quale classe di funzioni), scelta delle variabili (lista delle variabili d'interesse e distinzione fra variabili endogene e esogene) e individuazione del corretto numero di variabili.

Tale ricerca solleva importanti problemi circa la scelta delle variabili esplicative per un modello (problema del!' individuazione del corretto modello statistico). Diviene fondamentale, infatti, stabilire univocamente quali variabili sono significative e quali ridondanti per spiegare il fenomeno Y, ali' interno del quadro teorico accettato dagli studiosi di quel determinato settore.

Caratteristica comune alle varie tecniche utilizzate in questo tipo di ricerca è la definizione aprioristica dei tre seguenti elementi:

l) definizione del modo per muoversi nello spazio dei modelli; 2) specificazione di un criterio di valutazione del modello; 3) modalità del termine della ricerca;

Page 6: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

Negli anni si sono affermate diverse strategie (vedi [DrSm66]) per effettuare la scelta del modello "migliore". Tra queste citiamo:

a) Tutti i modelli possibili. b) Backward elimination. c) Forward selection. d) Stepwise regression. e) Stagewise regression.

La problematica inerente alla selezione del modello non si riferisce soltanto alla scelta delle dimensioni di un modello, ma anche a come valutare differenti modelli e sulla base di quali indicatori preferirne uno piuttosto che un altro.

La ricerca non può essere omologata a test di ipotesi, così come avviene nella fase di verifica del modello statistico, in quanto deriva da ipotesi separate, cioè da famiglie di distribuzioni di cui una non è un caso particolare dell'altra.

Si preferisce piuttosto, dati più modelli completamente generali per gli stessi dati, minimizzare un opportuno indice, espresso in funzione dei parametri del modello, tenuto conto di due comportamenti opposti: al crescere del numero dei parametri di un determinato modello la varianza dei residui diminuisce (poiché migliora l'adattamento), ma aumentano i vincoli imposti dagli stessi parametri (e quindi peggiora la parsimonia). I criteri di selezione cercano quindi di rappresentare una soluzione bilanciata tra complessità (maggior adattamento) e parsimonia (maggior rappresentatività delle variabili). In linea di massima si tratta di funzioni di verosimiglianza penalizzate, in cui ali' aumentare della complessità del modello si associa un termine di penalizzazione crescente.

Rientrano a pieno titolo in questa filosofia i seguenti indicatori:

• L'indice di determinazione multipla corretto (adjusted R2) introdotto nel 1961 da Theil

[The61 ]:

(3)

Dove:

ESS

-) n- p -l R- =1---'-­

TSS

n-1

ESS ="'"cv- )') 2 (devianza dei residui= Error Sum of Squares); L-l ~l l

11

TSS = L(Y;- y) 2 (devianza totale= Total Sum of Squares); l

n = numero di osservazioni; p = numero di variabili;

• L'indice di Mallows introdotto nel 1973 [Mal73] e definito da:

(4) RSS

CP(p) =-2-1 -(n-2p);

S"

dove: RSSi = somma dei quadrati dei residui (Regression Sum of Squares) o devianza della

regressione;

Page 7: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

p = numero dei parametri del modello;

n= numero di osservazioni;

? I;'cÈ;)z . . . 'd . . d ll . S-p = = vananza stimata sm resi m m un mo e o con p parametn. n- p-I

Ei = Y -XB;

B = (XX)- 1 X'Y (stimatore dei minimi quadrati);

• L'indice AIC (Asymptotic ln(ormation Criterion) proposto nel 1973 da Akaike [Akai73] e così definito:

(5) AIC(p) = nlog(S~)+2(p);

Nonostante di questo indicatore esistano varianti certamente preferibili e sia stato spesso criticato poiché sovraparametrizza il modello "ottimale", rimane sempre quello più utilizzato.

(6)

(7)

L 'indicatore AICC (Corrected AIC) presentato da Hurvich e T sai nel 1989 [HuTs89] che rappresenta l'indice AIC corretto:

? n AICC(p) == nlog(S-p) + 2 (p);

n-p-2

L 'indice BIC (Bayesian ln(ormation Criterio n) proposto anche questo da Akaike nel 1978 [Akai78] definito da:

[ nS~ l [n(SJ-S~) BIC(p) ==(n- p)log - 1- + p!og 1

n-p p

che rappresenta una modifica dell'indice AIC per tener conto della riduzione di S~ rispetto a sJ (dove s<f indica la varianza delle n osservazioni).

• L'indicatore di Schwarz [Schw78] proposto nel 1978 e approssimativamente equivalente al criterio BIC [Prie81]:

(8) SJC(p) = nlog(S~)+ p!og(n);

• L'indice RIS proposto nel 1978 da Rissanen [Rissa78] e così definito:

(9) RJS(p) = nlog(S 2) +(p+ l)log(n + 2) + 21og(p +l);

• L'indicatore di HAN proposto da Hannan e Qui nn nel 1979 [HaQu79]:

(lO) HAN(p) = nlog(S 2) + 2p1og(n);

Page 8: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

Tutti i precedenti criteri sono asintoticamente equivalenti 1, con una tendenza alla sovraparametrizzazione per l' AIC e una tendenza alla sottoparametrizzazione per l'HAN.

Ritornando alle altre fasi per la costruzione del modello statistico bisogna osservare che la stima dei parametri di un modello può essere affrontata riconducendo tale problema allo schema più consolidato della teoria della stima mentre la verifica del modello statistico si concretizza in una serie articolata di decisioni inferenziali, spesso formalizzabili mediante il test delle ipotesi, orientate alla discussione critica del risultato ottenuto nella fase di stima. Se la verifica non conduce al rifiuto del modello stimato, allora tale modello può essere utilmente applicato; in caso contrario, occorre ripercorrere le tappe di specificazione-stima-verifica alla ricerca di un modello più soddisfacente.

2. TECNICHE COMPUTAZIONALI

L'enorme sviluppo dell'universo computazionale ha favorito l'affermarsi delle discipline appartenenti al campo del "Soft Computing" nel tentativo di creare sistemi automatici in grado di elaborare delle informazioni a supporto di processi decisionali, individuando quindi caso per caso la strategia da seguire. È allora in questo contesto che si può anche parlare di una sorta di "Intelligenza Art~ficiale" 2 , evitando però di enfatizzare il termine Intelligenza. Non siamo infatti di fronte a una sorta di "miracolo" umano. Siamo semplicemente di fronte a un modo nuovo di "vedere" le cose, a una nuova possibile strada da seguire per giungere alla soluzione "ottima" di un dato problema, strada che sembra voler riproporre l'itinerario seguito dalla mente umana (anche se bisogna tenere ben presente che il cervello umano è una realtà ancora non del tutto conosciuta). I passi che si stanno muovendo portano allora verso tentativi di replicare il contesto decisionale umano (Logica Fuzzy) nel tentativo di considerare le diverse sfumature del mondo ed il contesto evolutivo umano (Algoritmi Genetici) dove si afferma il concetto di sopravvivenza dell'individuo migliore, introducendo, quindi, il concetto di elaborazione parallela e non più seriale. Queste tecnologie sono state e vengono anche oggi utilizzate in ambito statistico in contrasto con le più convenzionali tecniche classiche.

Gli Algoritmi Genetici [Holl75, Gold89, Davi91, Mit96] costituiscono una classe di tecnologie di ricerca probabilistica che si ispirano all'evoluzione biologica. L'algoritmo fornisce uno strumento per l'interrogazione di insiemi molto estesi di dati e per analizzare relazioni funzionali complesse. Il processo di ricerca si basa su una versione simulata dell'evoluzione in senso darwiniano, nella quale una popolazione di soluzioni candidate vengono manipolate e condizionate, per mezzo di una strategia artificialmente generata di sopravvivenza dei soggetti più adatti dal punto di vista evolutivo.

Gran parte del lavoro effettuato dagli statistici viene dedicato alla costruzione di modelli, alla stima dei loro parametri, nonché alla convalidazione dei modelli stessi. La maggior parte del lavoro della statistica applicata viene intrapreso attraverso considerazioni e restrizioni di tipo matematico e computazionale . Così, per esempio, continuità e differenziabilità della forma funzionale di un modello sono requisiti artificiali imposti per una più facile e pronta disponibilità dei metodi di stima. Gli Algoritmi Genetici rimuovono tali ipotesi permettendo di trovare soluzioni ottimali in quasi totale assenza di restrizioni imposte. Qui studieremo in particolare il loro comportamento nei problemi di identificazione di modelli di regressione lineare e di modelli autoregressivi lineari.

1 Anche se sono parecchi gli statistici che ritengono più validi i criteri SIC e BIC.

2 Con il termine "Intelligenza Artificiale " si intende di norma una vera e propria disciplina atta a studiare i fondamenti teorici, i

metodi principali, i criteri di progettazione e la costruzione di programmi che possano permettere al calcolatore di svolgere attività tipicamente umane, e di renderlo capace di sostituirsi allo stesso uomo nell'affrontare una molteplicità di problemi, nello stesso modo in cui egli li avrebbe affrontati, ottimizzando però il raggiungimento dei risultati.

Page 9: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

Nei Sistemi Fuzzy [Zade84, DuPr80] viene abbandonata la tipica logica matematica bivalente, dove non esistono vie di mezzo tra il vero e il falso, il bianco e il nero, il giusto e lo sbagliato, a favore di una logica multivalente in cui sono ammesse le varie sfumature tra i due estremi.

Tale logica, che discende dalla Teoria degli Insiemi Sfumati, fornisce un meccanismo per consentire ai sistemi preposti ai processi decisionali di gestire informazioni caratterizzate da un basso grado di precisione. Se ne desume che tale logica non può essere un algoritmo né una classe di algoritmi come nel caso delle due precedenti tecnologie. Come tale, non costituisce in modo intrinseco uno strumento di automazione, ma piuttosto serve a facilitare la definizione degli ambiti di determinate forme di processo decisionale che potrebbero rendersi necessarie quando un sistema si trova a dover interagire con il mondo esterno. In particolare, la Logica Fuzzy costituisce uno strumento flessibile attraverso il quale un sistema può allo stesso tempo ricevere istruzioni e dare spiegazioni all'utente sulle azioni intraprese. Un loro approccio verrà considerato soltanto allo scopo di definire, per un determinato modello statistico, quali e quanti parametri considerare sulla base di varie e contrastanti informazioni e valutazioni.

3. SELEZIONE DI UN MODELLO LINEARE

In questa sezione viene presentato un esempio di modello lineare cercando di affrontare la problematica inerente alla sua specificazione sia attraverso le tecniche classiche più comuni, sia attraverso tecniche computazionali "intelligenti".

Il problema può essere posto nei seguenti termini:

'dato l'insieme X= {x1,x2 , ... ,xn} di variabili indipendenti, di cui disponiamo k osservazioni, e la

variabile dipendente Y, si tratta di determinare tra tutti i possibili sottoinsiemi propri e impropri di X (èhe sono , escludendo il solo modello vuoto, 2n -l) quello che meglio degli altri specifica il modello in esame.

Se Y = f(x,G,t) rappresenta il modello scelto, che in ipotesi di additività dell'errore E può

scriversi Y=f(x,0)+E, in cui xrappresenta l'insieme delle variabili indipendenti scelte per "spiegare" la Y. Supponendo ora che la relazione f che lega le variabili indipendenti a quella dipendente sia tipo lineare (univariato o multivariato) il problema successivo sarà quello di determinare i coefficienti dei parametri e attraverso le solite procedure dei minimi quadrati o di massima verosimiglianza.

Quindi, se in generale il problema prevede la risoluzione dei tre seguenti sottoproblemi:

• selezionare f • selezionare x • determinare e

nel caso specifico sarà determinante la selezione di x (date le ipotesi fatte su f, sul calcolo di e e sulla distribuzione della componente stocastica).

A questo proposito si è osservato che le difficoltà da risolvere riguardano sia il numero di variabili da scegliere (o meglio quali variabili scegliere) sia i criteri coi quali effettuare questa scelta. Basiamo le nostre considerazioni su un insieme di dati relativo a misure di spettri di assorbimento a 21 frequenze diverse di radiazione elettromagnetica di 264 campioni ematici. A queste misure viene associata la misura dei diversi indici del livello di colesterolo nel sangue. In particolare supponendo di voler tarare uno strumento che da misure di assorbimento (variabili indipendenti) riesca a determinare il livello di colesterolo (variabile dipendente, Y) ci si chiederà

Page 10: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

"Quali sono le frequenze tra le 21 disponibili che determinano il valore di Y ? ". Il dataset completo e' disponibile all' interno della Toolbox Statistics di Matlab. Per poter rispondere a tale domanda è necessario spiegare le tecniche attraverso le quali si è cerca di risolvere il problema.

Come primo approccio è stato utilizzata una tecnica "Stepwise" con controllo interattivo [Bra97] che permette in modo manuale di selezionare o eliminare dall'insieme complessivo di variabili a disposizione quelle più o meno significative valutate sulla base del p-value valutato con un t-test.

Purtroppo questo tipo di procedura, come detto, funziona manualmente e non permette assolutamente di generare in modo completamente automatico l'insieme di variabili rilevanti (cioè, nel caso specifico, quelle frequenze che sono in grado di determinare il valore del livello di colesterolo nel sangue). Successivamente sono state valutate e confrontate tecniche stepwise automatizzate. E' necessario premettere, pero', che questo campione di dati presenta problemi di multicollinearità (cioè le variabili esplicative sono fra loro fortemente correlate) rendendo il confronto fra le diverse tecniche ancora più interessante.

Backward elimination method: questa procedura ad ogni iterazione scarta tra i regressori non significativi quello meno significativo, fermandosi quando tutte le variabili rimaste sono significative (vedi [DrSm66]). Con la stessa tecnica di procedimento (dal modello più ampio al modello più ristretto) si è poi cercato di generalizzare tale metodo al fine di poter utilizzare altri criteri. Si è così sviluppato un algoritmo che prevedesse l'eliminazione di quelle variabili che, una volta "tolte", migliorano più delle altre il modello in base a un determinato indicatore.

Gli indicatori utilizzati sono quelli esposti nelle sezioni: R 2, !P, AIC, A/CC, BIC, SIC, RIS e

HAN. Criterio di stop sarà quindi il peggioramento del modello (sulla base di tali indici) ali 'ulteriore "mossa" successiva.

Forward selection method: questa tecnica consiste nell'inserire una variabile per volta al modello a seconda del suo coefficiente parziale di correlazione fino a che la successiva variabile inserita risulti essere non significativa (vedi [DrSm66]). Allo stesso modo di quanto fatto per il programma "Backward", anche in questo caso si è cercato di utilizzare questa procedura anche attraverso altri criteri. L' approccio in questione prevede di inserire in modo iterativo la variabile che più di ogni altra migliora la "bontà" del modello in base ali' indicatore prescelto. Il processo avrà termine quando, inserendo qualunque ulteriore variabile, il modello ha comunque un peggioramento complessivo.

L'intero "data-set" (264 campioni di sangue) è stato suddiviso in tre parti:

• Training set (l'esatta metà dei campioni di sangue); • Validation set (un quarto dell'intero set di dati); • Test set (la rimanente parte).

Nonostante diverse siano state le modalità attraverso cui sono state suddivise le percentuali di questi campioni (provando a "rimescolare" l'intero data-set ma sempre attribuendo il 50% dei dati al training set e il 25% rispettivamente al validation e al test set) non si sono avvertiti significativi cambiamenti nei risultati mostrati.

Per quanto riguarda il "training" set si può dire che esso costituisce quell'insieme di dati sul quale si è effettuata la regressione lineare con lo scopo di calcolare i coefficienti delle variabili selezionate.

Il "validation" invece costituisce quell'insieme di dati sul quale si sono calcolati gli indici utilizzati come criterio di valutazione della bontà del modello.

Sul "test" set invece si è valutato l' R 2 della regressione e gli indici di adattamento. I risultati ottenuti sono indicati nelle due tabelle di seguito riportate in cui nella prima colonna

della tabella, "metodo" indica il tipo di programma utilizzato per ottenere i risultati, nella seconda colonna "criterio" indica quale indice di riferimento si è utilizzato (p-value indica semplicemente

Page 11: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

che si è utilizzato il metodo "backward elimination" su esposto, P _corr invece indica l'utilizzo del "Forward selection" puro), nella terza colonna è stato inserito l' R 2 calcolato sul test se t, nella quarta colonna viene riportato il valore della stima dello scarto quadratico medio previsivo, nella quinta colonna è evidenziato il numero di variabili scelte dal programma per quel tipo di criterio, NV, (dimensione del modello ottimo) e nell'ultima colonna viene indicato quante variabili tra quelle scelte risultano statisticamente non significative sulla base del t-test, NV,.

Per quanto concerne i criteri: p-value e P _corr sono già stati spiegati, Theil è l'indice di determinazione multipla corretto o R2

, RSQ rappresenta l' R 2, AIC è l'indice di Akaike

(Asymptotic Information Criterion), AICC è l'indicatore AIC corretto, BIC coincide con il "Bayesian Information Criterion", SIC sta a indicare l'indice di Schwarz, RIS quello di Rissanen e HAN quello proposto da Hannan e Quinn.

METODO CRITERIO RSQtest MSEP NV NVt Backward p-value 0.788 5.85 12 -

Backward Theil 0.808 5.36 14 5 Backward RSQ 0.808 - 18 Il Backward AIC 0.781 4.62 Il 6 Backward AICC 0.781 4.62 Il 6 Backward BIC 0.781 4.62 Il 6 Backward SIC 0.781 4.62 11 6 Backward RIS 0.781 4.62 11 6 Backward HAN 0.746 4.82 7 -

Forward P corr 0.736 4.76 2 -

Forward Theil 0.757 4.24 2 -

Forward RSQ 0.763 4.22 3 l Forward AIC 0.757 4.24 2 -

Forward AICC 0.757 4.24 2 -

Forward BIC 0.757 4.24 2 -

Forward SIC 0.757 4.24 2 -

Forward RIS 0.757 4.24 2 -

Forward HAN 0.757 4.24 2 -

Tabella l. Risultati ottenuti con la tecnica di selezione Stepwise sia Backward che Forward sul campione di dati considerato.

Nella tabella 2 sono invece rappresentati i risultati ottenuti con una procedura di "Stepwise" interattivo e i dati relativi al modello saturo (completo di tutte le 21 frequenze).

METODO CRITERI RSQtest MSEP N.V. N_t

Stepwise MANUALE 0.736 4.76 2 -

Modello completo --------------- 0.790 5.94 21 14

Tabella 2. Risultati ottenuti con la tecnica "Stepwise" (eliminazione manuale delle variabili) e con il modello completo.

Dali' esame di questi risultati si possono trarre alcune conclusioni: la presenza di variabili fortemente correlate rende sicuramente preferibile in generale i risultati ottenuti con la tecnica "forward" rispetto a quelli ottenuti con la tecnica "backward". Infatti, nonostante l' R 2 presenti valori leggermente più bassi, la dimensione del modello è decisamente inferiore (e questo in parte spiega un minore R 2

) con la totalità delle variabili statisticamente significative (eccetto il caso in cui si è scelto come criterio di ottimizzazione l' R2

, che presenta una sola variabile non

Page 12: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

significativa in base al test statistico t a 0.95). Inoltre anche lo scarto quadratico medio è decisamente minore a conferma della maggiore "bontà" dei modelli.

Premesso questo, analizziamo i risultati dei diversi criteri di scelta:

• Con le tecniche "backward" la scelta di utilizzare il p-value come criterio, e quindi di giudicare la bontà del modello sulla base della sola significatività delle variabili in base al test-t, non risulta convincente in quanto lo scarto quadratico medio previsivo della regressione risulta assai più alto rispetto agli altri (MSE = 5.85) e il numero di variabili selezionate non è inferiore (N.V. = 12) sebbene queste siano ovviamente tutte significative. Il criterio di scelta complessivamente migliore per l'utilizzo di questo programma sembra essere, nonostante la presenza di ben sei variabili non significative sulla base del test-t, il metodo che sfrutta come criterio di scelta l'indice HAN che seleziona un modello di dimensione inferiore e con uno scarto quadratico minore. Per quanto riguarda gli indicatori AIC, A/CC, BIC, SIC e RISi risultati sono i medesimi.

• Utilizzando la tecnica "forward" , come già detto, i risultati migliorano.

Confrontando i singoli criteri bisogna osservare che nella maggior parte di essi i risultati sono tutti uguali con eccezione del caso identificato come "P _corr" che risulta essere il peggiore sia in termini di R 2 che di scarto quadratico medio previsivo. L' R 2 come criterio di scelta permette di ottenere risultati leggermente migliori sia in termini di R 2 che di scarto quadratico medio previsivo.

Concludendo possiamo affermare che, utilizzando le tecniche classiche modificate per introdurre la scelta attraverso indicatori differenti da quelli generalmente proposti nelle tecniche pure di "backward elimination" e "forward selection" ("p-value" nel "backward" e "P _corr" nel "forward"), si ottengono risultati migliori. Inoltre, i risultati evidenziati nella tabella 2 mostrano che le procedure automatizzate qui implementate migliorano i risultati sia rispetto al modello completo (prevedibile a causa della forte correlazione tra le variabili) sia rispetto a una procedura "Stepwise" interattiva.

3. l. IL MODELLO LINEARE GENETICAMENTE EVOLUTO

Tutte quante le tecniche classiche finora presentate soffrono di due difetti non trascurabili che le rendono fortemente criticabili:

l. Includono (o escludono) tutte, infatti, una variabile per volta "costruendo" un modello finale in funzione dell'ordine della sequenza attraverso la quale viene fatta la scelta. Se si confrontano i risultati ottenuti con le due tecniche viste è possibile rendersi immediatamente conto di quanto questa "dipendenza dalla sequenza" sia importante. Multicollinearità a parte, infatti, a priori sarebbe stato lecito aspettarsi i medesimi risultati con lo stesso criterio per entrambe le procedure. Ma così non è stato.

2. Viene meno la possibilità da parte dell'operatore (avendo automatizzato la procedura) di selezionare manualmente quelle variabili che, indipendentemente dal peggioramento o miglioramento globale del modello, la teoria sottostante giudichi imprescindibili.

La necessità di costruire un algoritmo efficiente e che permetta di selezionare un modello che non dipenda dalla sequenza delle variabili scelte, ci porta a provare a costruire un algoritmo genetico.

Page 13: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

Gli algoritmi genetici [Holl75, Gold89, Davi91, Mit96] costituiscono una classe di tecnologie di ricerca probabilistica che si ispirano ali' evoluzione biologica. La Fig. l rappresenta il ciclo evolutivo dell'algoritmo genetico che costituisce il meccanismo centrale di ricerca. L'algoritmo imita l'evoluzione naturale attraverso il cambiamento (o evoluzione) ripetuto di una popolazione di soluzioni candidate nel tentativo di trovare la soluzione ottimale.

L'evoluzione artificiale è paragonabile a un allevamento. Ci sono mutamenti casuali nella popolazione ma è l'allevatore a decidere di volta in volta quali sono le caratteristiche interessanti che devono essere selezionate. Questo tipo di evoluzione si dice pertanto diretta per distinguerla da quella naturale (indiretta) in cui gli individui sono migliori se in generale sopravvivono e si adattano ai mutamenti che possono avvenire n eli' ambiente.

... Soluzioni

l ...

Scartate

... Popolazione ...

'''"'"''>'" '"' '"<·~

~,

Valutazione Selezione

' Ho.

Alterazione i :...._ .....

Figura l. Ciclo evolutivo di un Algoritmo Genetico.

Scopo del nostro algoritmo è quello di determinare tra le 21 frequenze dei nostri campioni quali riescano a determinare il livello di colesterolo nel sangue.

Si codificheranno pertanto le 21 frequenze in una sola stringa, che rappresenta un potenziale individuo (cromosoma) della popolazione corrispondente a una determinata generazione dell'algoritmo, la quale, sulla base del principio darwiniano di sopravvivenza dell'individuo migliore, e quindi di quello che ottiene la migliore prestazione in base ali' indicatore prescelto, evolverà e fornirà le variabili che meglio valutino il livello di colesterolo nel sangue.

Di conseguenza nella nostra rappresentazione a ogni individuo sarà associato un possibile modello statistico.

La rappresentazione dell'individuo è riportata in Fig. 2.

l l l o l

Figura 2. Rappresentazione del!' individuo utilizzato nel nostro algoritmo.

Ogni stringa è suddivisa in 21 celle (geni), ognuna delle quali può trovarsi in uno dei due stati acceso-spento: O o l (allele).

Page 14: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

Ogni gene corrisponde a una frequenza diversa, se il corrispondente allele avrà valore l allora significherà che quella frequenza sarà inclusa nel nostro modello, se invece avrà valore O significherà che sarà esclusa.

All'individuo rappresentato in Fig. 2 corrisponderà, dunque, il seguente modello:

(Il)

La popolazione iniziale viene generata in modo casuale. Il numero di individui e di generazioni massime potrà essere definito a piacimento (nel caso in esame sotto riportato si è scelto di generare una popolazione di l 00 individui con un numero massimo di generazioni pari a l 00). Quando la popolazione è stata codificata può iniziare il ciclo evolutivo dell'algoritmo genetico.

Ogni stringa della popolazione viene poi valutata secondo una "funzione di Fitness" che indica il suo grado di adattamento e che costituisce il criterio in base al quale dete1minare la probabilità di sopravvivenza dell'individuo nella generazione successiva. La ricerca dell'individuo migliore sarà fatta cercando il cromosoma (stringa) con fitness maggiore.

Nel nostro caso, per ogni individuo della popolazione si procederà a stimare i parametri effettuando una regressione lineare sul campione di dati inserito nel training-set. Il passo successivo corrisponde al calcolo degli indici sul validation-set. Il valore di questi indicatori, normalizzati su !l'intera popolazione in un intervallo compreso tra O e 2, costituisce il valore attribuito dalla nostra funzione di fitness. Una volta determinati i valori di fitness dei singoli individui, si procederà a manipolare geneticamente questi cromosomi.

È questa la cosiddetta fase della selezione: si costruisce una popolazione intermedia che, una volta applicate le procedure di clonazione, crossover (ricombinazione) e mutazione, fornirà la popolazione della generazione successiva. Gli individui cui corrisponde un valore di fitness migliore dovrebbero essere selezionati con una probabilità maggiore, nel pieno rispetto della teoria della selezione naturale. Il procedimento di selezione risulta di fondamentale importanza poiché è lo strumento attraverso cui si cerca di convergere verso la soluzione migliore.

Con la procedura di clonazione una frazione della popolazione, selezionata casualmente in base alle probabilità attribuite dai rispettivi valori di fitness, viene passata alla generazione successiva senza subire alcun cambiamento.

Il crossover consiste in una versione artificiale della riproduzione sessuata. Se due individui possiedono valori elevati di fitness, allora I' algoritmo esplora I' eventualità che una combinazione dei loro geni possa far scaturire una progenie con caratteristiche di fitness ancora maggiore. Gli individui con elevati valori di fitness hanno un'alta probabilità di riprodursi, mentre gli individui caratterizzati da fitness scarsa dovrebbero avere una bassa probabilità di riprodursi.

Se il crossover rappresenta il mezzo attraverso il quale spostarsi all'interno dello spazio in base alle informazioni passate, la mutazione rappresenta l'innovazione. In concreto si tratta di modificazioni casuali nella struttura genetica degli individui (ovviamente con un basso tasso di probabilità). La mutazione permette perciò di esplorare nuove aree della superficie di risposta.

Una volta applicati gli operatori biologici e generata una nuova popolazione, il processo viene ripetuto finché non converge (tutte le unità della popolazione saranno uguali) oppure finché non venga violato qualche parametro fisso di controllo (come per esempio un numero prefissato di generazwm o non venga trovato quell'individuo in grado di soddisfare l'obiettivo inizialmente prefissato ).

Nel caso specifico in esame il criterio di ottimizzazione sarà soddisfatto soltanto quando si raggiungerà un numero di generazioni pari a 100 (che garantisce la convergenza così come verificato manualmente).

Gli altri parametri fissati nel programma sono le percentuali di mappatura dell'algoritmo. L'80% degli individui della popolazione (i migliori) vengono predisposti all'incrocio con altri individui. La probabilità di effettuare l'incrocio è ancora dell'SO%. L'incrocio scelto è del tipo "single point

Page 15: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

crossover" che porta all'effettuazione di un solo taglio per ogni stringa nelle ricombinazioni. Non ci sono individui clonati tranne quelli per cui non avviene l'incrocio, che passano alla generazione successiva. Il restante 20% di individui della generazione successiva viene generato e reinserito casualmente. La probabilità di una possibile mutazione nei cromosomi di ogni individuo è di circa il 3%.

Bisogna infine ricordare che per ottenere uno snellimento generale della procedura un semplificazione dei calcoli i dati in input (il dataset "choles") sono stati normalizzati nell'intervallo compreso tra -1 e l.

Nella tabella 3 sono riportati i risultati ottenuti con questo programma3.

METODO CRITERIO RSQtest MSEP N.V. N t GALMS RSQ 0.804 5.13 15 7 GALMS A/C 0.808 3.87 5 -

Tabella 3. Risultati ottenuti con il programma GALMS (Genetic Algoritm for Linear Mode] Selection).

Così come era prevedibile aspettarsi, otteniamo risultati decisamente migliori rispetto ai due programmi precedenti.

I problemi connessi alla forte correlazione tra le variabili esplicative, qui non influenzano in modo decisivo la dimensione del modello selezionato. Gli algoritmi genetici, lavorando in modo parallelo, ottimizzano una procedura che seleziona le variabili contemporaneamente e non in sequenza.

Il programma, inoltre, ottimizza il valore dell'indicatore scelto senza preoccuparsi del numero di variabili selezionate e della loro significatività. È questo il motivo per cui ci troviamo di fronte a modelli di dimensioni maggiori rispetto a quelli ottenuti con la tecnica "Forward" e di dimensioni inferiori rispetto a quelli ottenuti con la tecnica "Backward".

Comunque, l'aver implementato una procedura la cui ottimizzazione risulta essere indipendente dalla sequenza di scelta, permette di ottenere modelli più efficienti da un punto di vista predittivo.

N o n possono certamente essere definiti sbalorditivi i risultati ottenuti con il criterio RSQ (soprattutto se confrontati con quelli ottenuti con il medesimo criterio utilizzando l' approccio "Forward"), ma certamente ottimi sono i risultati ottenuti con il criterio AI C.

Si ottiene, infatti, un modello con 5 variabili esplicative tutte significative con uno scarto quadratico previsivo medio inferiore di oltre mezzo punto rispetto a tutti i modelli esaminati finora.

Tale impostazione non elimina né affronta i problemi connessi all'automazione della procedura. Abbiamo, infatti, sempre a che fare con un programma che lavora completamente in modo

automatico senza tenere in alcuna considerazione la teoria sottostante che l'utente potrebbe voler imporre o vincolare.

Ricordiamo infatti che in generale il problema della selezione del miglior modello statistico richiede pur sempre un compromesso tra l'automazione di una procedura che sia universalmente utilizzabile e il giudizio personale e soggettivo dell'utente interessato a tale analisi.

Un tentativo di risolvere questo tipo di problematica è stato fatto utilizzando un algoritmo che deriva le condizioni di ottimizzazione sulla base delle conoscenze soggettive e oggettive possedute a priori dall'utente.

Per far ciò si è impiegata la cosiddetta "Logica Fuzzy'' e si è costruito un criterio per la selezione di un modello che denomineremo "sfumato".

3 Siccome questo tipo di procedura impiega parecchie risorse in termini di tempo, non si è sperimentata l'analisi per tutti gli indicatori utilizzati in precedenza, ma soltanto per i più rappresentativi. L' AIC si è rivelato un indicatore molto adatto (in quanto ha sempre ottenuto un MSEP più basso) a questo tipo di analisi.

Page 16: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

3. 2. IL MODELLO GENETICAMENTE EVOLUTO "SFUMATO"

La Logica Sfumata (Fuzzy Logic) [Zade84, DuPr80] discende dalla "Teoria degli Insiemi Sfumati" [Zade65], intesa a sistematizzare la precedente idea di logica a valori infiniti, e fornisce un meccanismo per consentire ai sistemi preposti ai processi decisionali di gestire informazioni caratterizzate da un basso grado di precisione.

L'uomo è in grado di manipolare concetti imprecisi, come "abbastanza piccolo", "piuttosto grande", o "molto recente"; in concreto, la logica sfumata è un tentativo di consentire agli elaboratori elettronici di ragionare e contemporaneamente giustificare le proprie azioni in modo altrettanto flessibile. La logica tradizionale "Booleana" preclude in modo assoluto la appartenenza non totale a un insieme. La logica sfumata, invece, consentendo un'appartenenza parziale e specificando operazioni sugli insiemi basate sugli insiemi stessi così definiti, fornisce una struttura grazie alla quale operare una forma di ragionamento automatizzato molto più trasparente, e potenzialmente più raffinato.

La logica convenzionale utilizza insiemi con confini rigidi: questo significa che vi è una transizione istantanea da un insieme ali' altro. Qualsiasi processo decisionale basato su questo tipo di confini deve pertanto gestire cambiamenti di stato bruschi e istantanei, che potrebbero divenire oltremodo artificiosi nella costruzione di modelli per il funzionamento del mondo reale.

La logica sfumata rimuove i confini rigidi attraverso l'uso di funzioni di appartenenza agli insiemi. Le funzioni di appartenenza indicano il grado di appartenenza a un insieme sfumato restituendo un valore che può variare tra O (per indicare un'appartenenza nulla) e l (per indicare appartenenza totale).

La Logica Sfumata, non può essere considerata, quindi, uno strumento di automazione né un algoritmo, ma piuttosto un mezzo attraverso cui poter facilitare la definizione degli ambiti di determinate forme di processo decisionale.

In tale contesto, si è pensato di costruire un indicatore (che si chiamerà FIS: "Fuzzy Inference System") ottenuto mediante l'utilizzo di questi criteri.

Esaminando i risultati ottenuti coi programmi "Backward", "Forward" e "GALMS", ci si può facilmente rendere conto della necessità di voler trovare un modello che presenti contemporaneamente le seguenti caratteristiche:

l) R 2 c::=::::> alto (tendente a 1). 2) Numero di variabili del modello (dimensione) c::=::::> basso. 3) Variabili non significative (con t-test< ta) c::=::::> basso (tendente a 0).

Lavorando nel!' ambito del!' approccio Fuzzy si riesce facilmente a utilizzare come funzione di fitness un indicatore ( FIS) che permetta di ottimizzare i tre parametri posti sopra (in antitesi tra loro) e di considerare tutte le altre valutazioni soggettive eventualmente poste dall'operatore.

Per comprendere meglio l'importanza di tutto questo si supponga di affrontare il problema della selezione delle variabili esplicative che "spieghino" il livello di altezza degli individui.

Quale giudizio di bontà si dovrebbe attribuire a un modello qualora, tra le variabili selezionate, non sia presente la variabile "altezza dei genitori" ?

È ovvio che avendo la possibilità di giudicare il ~odello scelto mediante un indicatore che ritenga vincolante ai fini del giudizio di bontà l'inserimento di questa variabile, anche procedure automatizzate non produrrebbero gli inconvenienti generalmente a queste associabili.

Questo è il motivo per cui si ritiene doveroso implementare questo tipo di procedura. La Logica Fuzzy si basa sulla descrizione del grado di appartenenza delle variabili a un insieme

Fuzzy. Pertanto, se ritorniamo all'esempio simulato del campione di dati del file "choles", la logica sfumata si occuperà di assegnare a ogni variabile di input, lungo l'intero spazio dei valori assunti dalla variabile stessa (il cosiddetto "Universe of Discourse" ), vari insiemi sfumati.

Page 17: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

Quindi, se l'Universe of Discourse della variabile di input R 2 è l'insieme [0,1], si procederà a suddividerlo in alcuni insiemi sfumati i cui confini precisi di transizione vengono rimossi (vedi a riguardo la Fig. 3). Agli insiemi sfumati così definiti vengono collegati quantificatori linguistici (nel caso della Fig. 3 : "BASSO", "MEDIO-BASSO", "MEDIO", "MEDIO-ALTO", "ALTO") allo scopo di rendere più agevole l'interpretazione dei risultati, oltre che per facilitare le modalità di definizione degli insiemi.Una volta definiti gli insiemi sfumati, qualsiasi valore discreto di R 2

misurato nel mondo reale può essere convertito in termini sfumati. La Fig. 3 mostra come il valore 0.15 si posiziona sull'universo definito per la variabile "R 2

".

Utilizzando le funzioni di appartenenza, si ottengono appartenenza parziali per gli insiemi "BASSO" e "MEDIO-BASSO" con valori rispettivamente di 0.4 e 0.6 ( R 2 (0.15) = 0.4 l BASSO , 0.6 l MEDIO-BASSO).

FIS Variables

:·F-,\11.; {/'v)\;

R2 ()bj\1 -~\~/\</·; .!....:::::~/ ··~'

~·l,,ar ..

:>::~<i pvar

input variable "R2"

Figura 3. Universe of Discourse di R 2 e relativi insiemi sfumati, coi rispettivi quantificatori linguistici.

Lo stesso procedimento deve essere applicato alle altre variabili di input (numero di variabili del modello e variabili non significative) e alla variabile di output (l'indicatore di bontà del modello che restituisce un valore compreso tra O e l).

Il processo di inferenza è poi definito tramite l 'uso di una base di regole di produzione (relazioni logiche) nella forma "SE X EIO Y EIO ... ALLORA Z". Questa metodologia è direttamente compatibile con le basi di regole comunemente utilizzate per i sistemi esperti (con la sola differenza che nei sistemi esperti gli input devono ricadere sempre in un insieme definito e distinto che possa rendere vera la regola mentre in quelli sfumati possono appartenere a più di un insieme, rendendo vere determinate regole, ma "in una certa misura"). Per esempio: " Se R 2 è alto" E "numero di variabili è basso" E "numero di variabili non significative è nullo" ALLORA "il modello è ottimo". Dopo aver definito l'insieme complessivo delle 75 regole (5 x 5 x 3 : prodotto del numero di quantificatori linguistici utilizzati per le variabili di input) MATLAB restituisce una struttura (Fis.fis) che ricevendo in input il valore discreto di ciascuna delle tre variabili di input, restituisce il valore (come detto compreso tra o e l) di confronto della bontà del modello.

Tale valore costituisce il criterio di scelta delle variabili esplicative del modello e verrà di seguito chiamato FIS (Fuzzy Inference System).

Il processo inferenziale tipico dei sistemi sfumati, quindi, consentendo di effettuare ragionamenti sulla base di tali appartenenze parziali e integrato da un modello di "desfumatura", tende a far ritornare il sistema a uno stato di valori discreti.

Applicando tale sistema ai tre programmi visti nei paragrafi precedenti si sono ottenuti i risultati mostrati nella tabella 4.

Page 18: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

METODO CRITERIO RSQrest MSEP N.V. N t Backward FIS 0.799 5.27 13 4 Forward FIS 0.757 4.24 2 -

GALMS FIS 0.772 4.12 2 -

Tabella 4. Risultati ottenuti con il criterio FIS sul campione di dati utilizzato.

Molto interessante è l'analisi dell'andamento dell'indice FIS al variare degli indicatori utilizzati per costruirlo (per poter rappresentare tale andamento su un grafico a tre dimensioni si è dovuto porre il numero di variabili complessive del modello costante, vedi Fig. 4).

Il ciclo iterativo dei programmi ha come criterio di stop l'eventuale peggioramento del modello e, se si parte dal modello nullo (programma "Forward"), la forte correlazione presente tra le variabili esplicative tende a farsi sentire immediatamente (essendo l'indice stesso costruito su tali informazioni) peggiorando il modello stesso. In questo modo il valore dell' R2 non fa in tempo a crescere che l'algoritmo ha terminato il ciclo. Questo è il motivo per cui l' R,:,, (RSQtesr) è

relativamente basso nel programma in questione rispetto al programma "Backward".

0.6

0.5

1- 0.4 o

0.3

U- ~,

.L

0:1

o

R2 pvar

Figura 4. Andamento dell'indice FIS al variare di R 2 e pvar (costante N_ var pari al suo valore medio).

Viceversa, ma sempre per lo stesso motivo, utilizzando il programma Backward (partendo quindi dal modello completo con l'eliminazione di volta in volta di una variabile) l' R 2 già alto non scende così velocemente da ridurre immediatamente la bontà complessiva del modello (anzi, aumenta durante le prime iterazioni). In tal caso, infatti, l'algoritmo effettua ben 8 ( 21- 13 = 8) cicli prima di fermarsi. In Fig. 5 è possibile notare l'andamento dell'indice al variare di R 2 e di N_var (in questo caso si è posto costante il numero di parametri non significativi) e l'andamento dello stesso indice al variare di pvar e N_ var (costante R 2

).

Page 19: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

OA

> 0.3 g

0.2

0.1

Figura 5. Andamento del!' indice FIS al variare di R 2 e N_ var (costante pvar pari al suo valore medio) e al variare di

pvar e N_var (costanteR2 pari al suo valore medio).

Non sono certamente i risultati ottenuti con queste due metodologie quelli più interessanti dal punto di vista tecnico in quanto gli stessi risultati si erano già ottenuti con altri indicatori (almeno per quanto concerne il programma "forward", ma risultati molto simili si erano ottenuti anche nel programma "Backward").

Merita invece un approfondimento il risultato ottenuto con l'Algoritmo Ibrido4.

Così come la maggior parte delle applicazioni pratiche che utilizzano sistemi ibridi, anche questo tipo di algoritmo è stato appositamente studiato per trarre vantaggio dai rispettivi punti di forza delle due metodologie.

In questo caso si è così tentato di risolvere il duplice problema che sta alla base delle procedure classiche automatizzate: la necessità di avere un risultato che non dipendesse dalla sequenza di scelta delle variabili esplicative (a questo pone rimedio l'algoritmo genetico) e la necessità di evitare di costruire procedure completamente automatizzate che non tenessero in alcuna considerazione le valutazioni aprioristiche dell'utente (a ciò provvede la Logica Fuzzy).

I risultati così ottenuti sono molto buoni in quanto la dimensione del modello selezionato è bassa (due sole variabili selezionate entrambe significative), Rr~sr è alto (0.772) e lo scarto quadratico medio previsivo è basso (4.12).

Da un punto di vista previsivo, forse è da preferire il risultato ottenuto con il programma "GALMS" applicato al criterio AIC, ma se l'obiettivo è quello di scegliere un modello che risulti semplice senza rinunciare alle buone capacità previsive, la scelta deve cadere su questo criterio (FIS).

D'altronde, non si può universalmente stabilire se una delle due procedure è migliore dell'altra. La scelta dovrà effettuarsi in base alle necessità e agli scopi della ricerca.

È necessario fare un 'ultima considerazione per quanto riguarda il tempo impiegato nell'esecuzione dei programmi. Lavorando con un processore Pentium II a 400 Mhz, il tempo computazionale necessario per eseguire tutti i 2.097.151 ( 221 -1) possibili modelli sarebbe di circa 116 ore e 30 minuti (circa cinque modelli per ogni secondo).

Il programma "Backward" impiega per eseguire l'intero programma circa un minuto e 30 secondi, il programma "Forward" impiega 12 secondi mentre il programma "GALMS" impiega circa 23 secondi per eseguire una generazione di 100 individui (quindi complessivamente impiega circa 38 minuti).

È evidente quindi che lavorando con gli algoritmi genetici il tempo complessivamente impiegato è notevolmente maggiore rispetto a quello impiegato con gli altri tipi di programmi.

4 Gli "Intelligent Hybrid System" o sistemi intelligenti ibridi [GoKh95] utilizzano più tecnologie intelligenti contemporaneamente.

Nel caso della simulazione sopra esposta si è utilizzata la Logica Fuzzy contemporaneamente agli Algoritmi Genetici.

Page 20: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

Questo può disincentivare l'utilizzo di tali tecniche che, comunque, complessivamente rispondono meglio alle attese del ricercatore essendo migliori in termini di efficienza e robustezza. Inoltre, portando a convergenza l'algoritmo, il tempo impiegato risulta ridotto di circa 200 volte rispetto a quello impiegato per la verifica di tutti i modelli (tempo richiesto applicando la strategia "Ali possible").

4. SELEZIONE DEL MODELLO PER SERIE STORICHE

Nel caso di serie temporali si ricorre a modelli lineari in cui l'eventuale componente non lineare viene introdotta come un termine perturbativo. In questo paragrafo viene affrontata la problematica della selezione di un modello per l' analisi di serie storiche utilizzando un approccio evolutivo analogo a quanto descritto nel paragrafo precedente. Lo strumento viene testata su serie storiche simulate.Tutti i modelli presentati vengono definiti esclusivamente come processi stocastici5

.

Se X (t) è il valore del processo stocastico al tempo t (t= l, ... ,n) un processo autoregressivo (AR) è

definito dalla relazione che collega X (t) ai valori precedenti:

(12)

dove é1

(t= l, ... , n) è una successione dì variabili casuali incorrelate con media O e varianza costante ? O'i.

La scelta di un processo autoregressìvo potrebbe perciò essere giustificata dall'esigenza di "spiegare" X (t) collegandolo ai valori precedenti con un sistema di pesi <I>1, <I> 2 , ... ,<P P •

Tale procedura consente un rapido "aggiornamento" delle previsioni man mano che si aggiungono nuove osservazioni alla serie. Fissato p, il problema di stimare in una serie storica il vettore <P=( <I>1,<P2 ... ,<PP) viene risolto con il

metodo dei minimi quadrati (o con la stima di massima verosimiglianza) così come previsto nel modello lineare precedente. Il problema fondamentale, pertanto, è quello di fissare l'ordine p del processo ARche si ritiene ben adeguato a rappresentare la realtà dei fenomeni. Per semplificare la notazione utilizzata indichiamo l'ordine del processo tra parentesi (per esempio un modello autoregressivo del quinto ordine verrà indicato con AR(5) ) e indichiamo il numero dei parametri diversi da zero con un apice (se il modello presenta solo tre dei cinque parametri diversi da zero verrà indicato pertanto con la notazione AR3(5) ). Il problema quindi non è soltanto quello di determinare l'ordine del processo, ma anche quello di determinare il numero di elementi del vettore <P= C <I> 1, <I> 2 ... , <P P) diversi da O.

Pertanto il modello:

(/ 3)

identifica un processo autoregressivo del settimo ordine e viene così indicato: AR3(7). Nonostante queste differenze di notazione, in termini di problematica generale, l'analisi del modello AR non si discosterà affatto da quella riguardante il modello lineare vista in precedenza. Si dovranno risolvere, quindi, sia il problema del metodo utilizzato per la selezione dei parametri, sia quello inerente il criterio da applicare (con il metodo scelto). In questa analisi si simuleranno delle

5 Ogni variabile in un processo stocastico è una variabile casuale e le osservazioni evolvono nel tempo in base a determinate

distribuzioni di probabilità. L'importanza dei processi stocastici in tali applicazioni è riconosciuta universalmente. Oggi, infatti, non è più consentito trattare con rigore una serie storica senza concepirla, nello stesso tempo, come "realizzazione" finita di un processo stocastico la cui struttura interna è e rimane fondamentalmente ignota al ricercatore.

Page 21: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

serie storiche, quindi la struttura del modello sarà nota, e si tenterà mediante un algoritmo geneticamente evoluto di dare una risposta ai quesiti posti. Il passo successivo è la simulazione di processi ARMA (autoregressivi- media mobile). Una classe di processi stocastici può formarsi introducendo ai modelli AR un numero finito di ritardi nella media mobile. Il modello può essere così rappresentato:

(14)

dove (p,q) rappresenta l'ordine del modello ARMA. Anche per questa classe di modelli verrà utilizzata la notazione sopra presentata con le stesse osservaz10m. Il modello:

(15)

viene indicato con la notazioneARMA2·1(5,2).

4. l. L'ALGORITMO GATS

Vengono simulate alcune serie temporali (circa 200 complessivamente, ripartite tra processi AR e processi ARMA) generate da modelli il cui ordine viene stabilito casualmente in un intervallo [1,10], per quanto riguarda quelli AR, e negli intervalli ([1,10],[1,10]), per quanto riguarda i modelli ARMA. Il termine di errore addizionato, generato casualmente da una distribuzione N( O, l), viene moltiplicato per un coefficiente costante pari a 0.2. Le serie così simulate sono ammesse poi alla fase successiva di analisi e stima solamente se il processo da esse generato risulta essere stazionario. La struttura del programma ricalca quella vista per il modello lineare nel capitolo precedente con le poche variazioni dettate dalle diverse esigenze. La codifica degli individui associati alle popolazioni viene quindi modificata soltanto nella sua lunghezza: la stringa associata al modello AR è rappresentata in Fig. 6, mentre quella associata al modello ARMA è rappresentata in Fig. 7. La lunghezza delle stringhe corrisponde all'ordine massimo associato ai due tipi di modelli. Nella stringa associata al modello ARMA le prime IO celle individuano i ritardi nella variabile esplicativa, mentre le celle dall'undicesima alla ventesima individuano i ritardi nella media mobile.

o o o l o o o o

Figura 6. Rappresentazione dell'individuo utilizzato nell'algoritmo per indicare i modelli autoregressivi simulati.

Alla stringa rappresentata in Fig. 6 corrisponde pertanto il modello AR\6):

( 16)

Page 22: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

AR MA o o o l l l o o o l o o o l o l o l l l o l o l

Figura 7. Rappresentazione dell'individuo utilizzato nell'algoritmo per indicare i modelli ARMA simulati ..

Alla stringa rappresentata in Fig. 7 corrisponde, invece, il modello ARMA3"4 (9, l O):

(17)

Come detto, prima si sono simulati processi autoregressivi di ordine massimo l O, poi processi autoregressivi-media mobile di ordine massimo (10, 10) e infine si è tentato di "trovare" la struttura del modello sottostante alla serie storica mediante l'uso di un Algoritmo Genetico. La scelta del modello più appropriato è stata fatta utilizzando l'indicatore AIC in termini previsivi. Per far ciò si è suddiviso il campione di dati generato (l'intero "data-set") in tre gruppi distinti: II training set contenente il 40% dell'intero campione, il validation set contenente un restante 40% e il test set contenente il restante 20%. Il primo è stato applicato per la stima dei parametri del modello corrispondente all'individuo i­esimo della popolazione, sul secondo viene valutato il criterio di fitness dell' algoritmo genetico utilizzando i parametri del modello determinati sulla base dei valori del training set. Sul terzo si è calcolato l'A/C previsivo (una volta stimato il modello è stato infatti possibile prevedere i valori futuri). Si è scelto di adottare l'A/C in quanto complessivamente si era mostrato un buon indicatore in tutte le situazioni in cui era stato utilizzato (per l'analisi critica dei vari indicatori implementabili come criteri di scelta del modello si vedano, infatti, i capitoli precedenti), e inoltre è un indice di raffronto molto utilizzato per la valutazione dei modelli statistici basati su serie temporali6

.

Per quanto riguarda la struttura parametrica dell'Algoritmo Genetico e il criterio di ottimizzazione, nulla è mutato rispetto al modello lineare esaminato in precedenza: uguali sono le dimensioni della popolazione, uguali i cicli iterativi massimi da compiere (MAXGEN), uguali le altre percentuali di mappatura. Nelle tabelle 5 e 6 sono rappresentati i risultati ottenuti divisi in base all'ordine del modello statistico corrispondente. Nella tabella 5 vengono evidenziati i risultati ottenuti con le simulazioni di modelli autoregressivi: nella prima colonna è indicato l'ordine del modello; nella seconda è riportata la percentuale di simulazioni generate con modelli di ordine indicato nella prima colonna che l'algoritmo ha correttamente previsto; nella terza colonna è invece indicata la percentuale di modelli che non è stata correttamente individuata, ma il programma ha selezionato un modello avente AIC minore a causa del minore S2 (si tratta generalmente di modelli sovraparametrizzati); nella quarta colonna è indicata la percentuale di quei modelli non correttamente selezionati, ma che presentano un valore di AIC più basso dovuto al minor numero di parametri presenti nel modello da stimare; nella quinta colonna sono riportate le percentuali degli errori commessi dal programma in quanto l'algoritmo non riesce a convergere verso la soluzione; nell'ultima colonna è indicato il totale.

6 Ricordiamo che l'A/C è definito come: AIC(p) = nlog(S~) + 2(p).

Page 23: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

Modello Modello non Modello non Modello non MODELLO correttamente identificato identificato identificato TOTALE

identificato (modello (modello (errore del proposto con S2 proposto con programma)

minore) AIC minore) AR(l) 100% (3) - - - 100% (3) AR(2) 100% (3) - - - 100% (3) AR(3) 50% (3) 50% (3) - - 100% (6) AR(4) 100% (7) - - - 100% (7) AR(S) 90% (9) 10% (l) - - 100r1c: (I 0) AR(6) 86% (6) - 14% (l) - 100% (7) AR(7) 100% (7) - - - !00% (7) AR(8) 64% (14) 18% (4) 18% (4) - 100% (22) AR(9) 92% (23) 4% (l) 4% (l) - 100% (25)

AR(lO) 88% (30) 3% (l) 6% (2) 3% (l) 100% (34) TOTALE 85% ([05) 8% (l O) 6% (8) I ex, l I) 100% (124)

Tabella 5. Risultati ottenuti sulle simulazioni di modelli AR ..

Nelle colonne 2-6, in parentesi, sono riportati valori assoluti delle simulazioni associate alle percentuali indicate.

Nella tabella 6 vengono presentati i risultati relativi alle simulazioni di modelli ARMA con le medesime indicazioni viste per la tabella 5. Nelle tabelle 7 e 8, invece, vengono mostrati gli stessi risultati delle tabelle 5 e 6 suddivisi però in base alla dimensione del modello generatore della serie storica corrispondente. Nella tabella 7 rientrano i modelli AR mentre nella tabella 8 quelli ARMA. Com'è possibile osservare dalle tabelle presentate, i modelli selezionati non coincidono sempre con il modello utilizzato per la simulazione in quanto l'algoritmo converge verso una soluzione ottimale differente. La causa di questo inconveniente è duplice: i modelli sovraparametrizzati a volte abbassano l' s~

più di quanto si aumenti il termine 2p, mentre modelli sottoparametrizzati a volte abbassano il termine 2p più di quanto possa crescere l' s~. In secondo luogo, tale indicatore viene calcolato sulle

previsioni effettuate e non sul campione di dati su cui vengono stimati i parametri. Queste previsioni non possono includere un termine di errore così come capita sui dati di confronto delle stesse: la conseguenza è che, se la componente di errore è molto "forte", l'algoritmo può stimare un modello differente che però in termini di AIC previsivo risulta migliore. Quindi tutti i modelli stimati non correttamente, riportati in colonna tre e quattro non devono considerarsi, pertanto, errori del programma o difetti dell'algoritmo che non riesce a convergere, ma problemi connessi all'uso di indicatori non sempre efficienti o all'errore stocastico aggiunto alla se ne. Per meglio comprendere quanto possa essere importante questa affermazione, vengono di seguito presentati alcuni esempi di modelli simulati , stimati e previsti dal programma.

Page 24: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

Modello Modello non Modello non Modello non MODELLO correttamente identificato identificato identificato TOTALE

identificato (modello (modello (errore del proposto con S2 proposto con programma)

minore) AIC minore) ARMA(l,l) l 00% (3) - - - l oocy,) (3) ARMA(2,2) 25% (l) 50% (2) 25% (l) - 100% (4) ARMA(3;3) 20% (2) 40% (4) 40% (4) - lOOéì~) (10) ARMA(4,4) - 100% (4) - - lOO(k (4) ARMA(5;5) - 100% (4) - - 100% (4) ARMA(6,6) - 100% (5) - - 100% (5) ARMA(7,7) - 50% (3) 50% (3) - 100% (6) ARMA(8,8) - 100% (4) - - 100% (4) ARMA(9,9) - 100% (4) - - lOO(ìb (4)

ARMA(10,10) - 100% (4) - - 100% (4) ARMA(1,2) 100% (4) - - - 100% (4) ARMA(1,3) 80% (4) 20% (l) - - 100% (5) ARMA(1,4) 50% (3) 33% (2) 17%(1) - 100% (6) ARMA(l,S) 50% (2) 50% (2) - - lOO(k (4)

ARMA(2,1) 100% (6) - - - 100% (6) ARMA(2,3) 60% (3) 20% (l) 20% (l) - 1 oo(x, (5) ARMA(2,4) - 100% (8) - - J00c/r) (8) ARMA(2,5) 25% (2) 75% (6) - - 100% (8) TOTALE 32CJ(, (30) 57% (54) 11% (lO) - 100% (94)

Tabella 6. Risultati ottenuti sulle simulazioni di modelli ARMA.

Modello Modello non Modello non Modello non MODELLO correttamente identificato identificato identificato TOTALE

identificato (modello (modello (errore del proposto con S2 proposto con programma)

minore) AIC minore) AR1 95% (19) 5% (l) - - 100% (20) AR2 75% (15) IO% (2) 15% (3) - lOO% (20) AR3 90% (18) 5% (l) 5% (!) - 10fYk (20) AR4 90% (18) 5% (l) 5% (!) - [()()tlc (20) AR5 80% (16) 15% (3) 5% (l) - 100% (20) AR6 79% (19) 13% (3) 4% (l) 4% (l) lOO(Yc (24)

TOTALE 85% ( 105) 8% (11) 6éJr, (7) l% ( l) 100% ( l24)

Tabella 7. Risultati ottenuti sulle simulazioni di modelli AR.

Page 25: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

Modello Modello non Modello non Modello non MODELLO correttamente identificato identificato identificato TOTALE

identificato (modello (modello (errore del proposto con S2 proposto con programma)

minore) AIC minore) ARMA(l,l) 60% (9) 40% (6) - - lOO% (15) ARMA(1,2) 47% (7) 47% (7) 6% (l) - 100% (15) ARMA(2,1) 40% (6) 47% (7) 13% (2) - lOO(ì'c, (15) ARMA(2,2) 33% (5) 47% (7) 20% (3) - 100% (15) ARMA(3,1) 20% (3) 67% (lO) 13% (2) - lOO% (15) ARMA(3,2) - 89% (17) 11% (2) - 100% (19)

TOTALE 32% (30) 57 c'lo (54) l l% (lO) - 100% (94)

Tabella 8. Risultati ottenuti sulle simulazioni di modelli ARMA.

La Fig. 8 mostra con il colore rosso il test-set di una serie storica generata dal seguente modello:

(18) X (t)= 0.3X (t- 3)- 0.3SX(t -6) + 0.4X(t- 8)- 0.25X(t -9)- 0.3X(t -lO)+ é 1

con il colore blu, invece, vengono evidenziate le previsioni ottenute con il "migliore" dei modelli stimati:

(19) X (t)= 0.261X (t- 3)- 0.376X (t- 6) + 0.304X (t- 8)- 0.281X (t- 9)- 0.209X (t -10)

-------------- VALORI OSSERVATI

-------------- VALORI PREVISTI

-2

-3L_~J_~~~~L-~J_~~----L-~J_~~------L-~_j

o 10 20 30 40 50

Test-Set

60 70 80 90 100

Figura 8. Previsioni vs valori reali (osservati) di una serie storia generata da un modello autoregressivo del decimo ordine.

Come si può notare l'algoritmo converge correttamente verso il modello generatore della serie storica in quanto questo minimizza l'A/C previsivo. La differenza riscontrata nei coefficienti parametrici è causata dal termine di errore del modello generatore. In questo caso l'algoritmo identifica correttamente il modello: AR5

( 10).

Page 26: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

2-

1.5

& g o

+ j'. +

"' (/) (1)

< ~ < "' & g,

-0.5 m < g:

-1

-"1.5

-2 o 10 20 30 40 50 60 70 80 90 100

Figura 9. Previsioni (stimate= blu, modello corretto = verde) vs valori osservati (rosso) di una serie storia generata da un modello autoregressivo del nono ordine.

In Fig. 9 è invece rappresentata la serie storica (in rosso) generata con il modello AR5(9):

(20) x (t)= -0.4X (t -l)+ 0.3X(t- 2) + 0.4X(t -5) + 0.3X (t -7) + 0.3X (t -9) +Et

In blu("+") sono evidenziate le previsioni stimate con il modello selezionato, AR4(9):

(21) X (t)= -0.359 X (t -l)+ 0.343X (t- 5) + 0.137 X (t -7) + 0.348X (t- 9)

In questo caso l'algoritmo non converge correttamente verso il modello generatore della serie storica poiché non è quello che minimizza l' AJC previsivo: l'algoritmo seleziona il modello "migliore" dal punto di vista previsivo. Nella Fig. 9 è possibile vedere anche le previsioni stimate se il modello fosse stato correttamente individuato (in colore verde). Le previsioni risulterebbero notevolmente peggiorate se fosse stato selezionato questo modello. La causa di questo, come detto, può essere imputata al termine di errore (o eventualmente all'indicatore utilizzato che, in questo caso, sottoparametrizzerebbe il modello). Se per i modelli AR il problema non è molto rilevante, così come si evidenzia nella tabella 5 (in cui 1'85% dei modelli simulati è correttamente identificato), per i modelli ARMA non si può dire lo stesso. Il problema non è affatto trascurabile: spesso (in quasi il 70% dei casi) l'algoritmo tende a convergere verso il minimo AIC che non corrisponde a quello del modello utilizzato per la simulazione (vedi tabella 5).

Le Figg. l O e l l mostrano le previsioni stimate sulle serie storiche generate da un modello ARMA. In particolare la Fig. 10 mostra con il colore rosso il test-set di una serie storica generata con il seguente modello:

Page 27: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

(22) X (t)= 0.3X (t- 3)- 0.4X (t- 5) + 0.2X (t -7) + E1 + O.llE1_ 2 - O. 15E1_ 6

mentre con il colore blu sono evidenziate le previsioni ottenute con il migliore dei modelli stimati:

(23) X (t)= 0.27 X (t- 3)- 0.4X (t- 5) + 0.22X (t -7) + E1 +O. IE1_ 2 - 0.!2Et-6

L'algoritmo converge correttamente verso il modello generatore della serie storica in quanto questo minimizza l'A/C previsivo.

In Fig. 11 è invece rappresentato il test set di una sere storica (in colore rosso) generata dal seguente modello:

(24) X (t) = -O.!X (t- 8) + E1 + 0.35E1_ 1

In verde sono evidenziate le previsioni ottenute con il modello previsivo selezionato dall'algoritmo:

(25) X (t)= -0.38X (t -l)+ 0.05X (t- 8) + E1 + 0.06E1_ 3

In blu invece vengono mostrate le previsioni ottenibili se l'algoritmo avesse correttamente individuato il modello generatore della serie storica. Anche in questo caso l'algoritmo seleziona un modello migliore per quanto riguarda l' AIC preVISlVO.

-1.5

-2'----~--~------'------•------~---~--~----L--~----0 1 o 20 30 40 50 60 70 80 90 1 00

Figura 10. Previsioni (blu) vs valori osservati (rosso) di una serie storia generata da un modello ARMA u(7 ,6).

Page 28: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

Figura 11. Previsioni (stimate= verde, modello corretto= blu) vs valori osservati (rosso) di una serie storia generata da un modello ARMA.

Ulteriore approfondimento può effettuarsi esaminando le matrici di confusione dei risultati ottenuti utilizzando diversi criteri di selezione: AIC, BIC e SIC.

AR l 2 3 4 5 6 l 95% 15% 2 5% 75% 5% 3 5% 90% 5% 5% 4 5% 5% 90% 4% 5 5% 80% 5% err. 6 IO% 79% 7 5% 8% 8 9 4% lO

Tabella 9. Indicatore utilizzato : AIC (esperimenti complessivi circa 170).

AR l 2 3 4 5 6 l 100% 50% 25% 2 50% 20% IO% 3 50% 66% 20% 20% 4 5% err. 33% 30% 30% 5 40% 20% 6 40% 7 8 9 lO

Tabella 10. Indicatore utilizzato : SIC (esperimenti complessivi 60).

Page 29: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

AR l 2 3 4 5 6 l 2 100% 20+10err.% 3 70% 33% 20% 10% 4 20% 66% 50% 30% 5 20% 10% 30% 6 20% 10% 7 20% 20% 8 40% 9 lO

Tabella 11. Indicatore utilizzato : BIC (esperimenti complessivi circa 60).

Nelle tre tabelle, in colonna sono indicati il tipo dì modello AR utilizzato per la simulazione dei dati (dove per tipo si intende il numero di parametri che caratterizzano il modello indipendentemente dalla posizione occupante all'interno dei l O campi utilizzabili). In riga, invece, è rappresentato il tipo di modello identificato dal programma GATS. "Err." indica la percentuale di modelli non stimata correttamente. Cioè le posizioni dei coefficienti nel modello non sono corrette indipendentemente dal numero degli stessi.

Utilizzando come indicatore il SIC si ha un a netta tendenza alla sottoparametrizzazìone (ad eccezione degli AR( l), ovviamente) che si accentua sempre più aumentando il numero di parametri utilizzati nel modello di simulazione. I risultati ottenuti con l'indicatore BIC, invece, mostrano un sovraparemetrìzzazìone quando l'ordine del modello utilizzato è basso (come l' AR(l)) mentre mostrano una sottoparametrìzzazìone quando il modello utilizzato per la simulazione si complica.

'Molto più stabili verso il modello effettivamente utilizzato sono i risultati ottenuti utilizzando l' AIC. In questo caso si ha una tendenza variabile in ugual misura a sovraparametrizzare o sottoparametrizzare il modello. Soltanto aumentando il numero dei parametri (AR(5) e AR(6)) si ha un maggiore tendenza alla sovraparametrizzazione rispetto alla sottoparametrizzazione. Complessivamente il numero di modelli correttamente individuato risulta notevolmente maggiore utilizzando l' AIC (oltre l' 80 %) rispetto a quanto accade utilizzando gli altri due indicatori (circa il 50%). La percentuale di modelli stimati in cui il valore dell'indicatore (AIC, BIC, SIC) risulta inferiore a quello del modello utilizzato per la simulazione (il modello non è correttamente identificato ma la procedura porta alla scelta di un modello comunque migliore in termini dell'indicatore utilizzato rispetto a quello utilizzato per la simulazione) è superiore al 99%.

5. APPLICAZIONE DELLE TECNICHE EVOLUTIVE DI SELEZIONE DEL MODELLO

In questo capitolo verranno presentati due esempi pratici di implementazione di alcuni degli strumenti esaminati precedentemente. Verranno analizzate le problematiche da affrontare nella scelta del modello migliore per gli scopi che l'utente si propone in due casi tra loro molto differenti.

Il primo esempio si riferisce all'individuazione di un modello operativo previsionale del livello di marea della laguna veneta. I dati sì riferiscono all' anno 1984. Il secondo riguarda la selezione di un modello che spieghi la durata in mesi del livello di disoccupazione rilevato in Emilia Romagna (sulla base dei dati raccolti dall'ISTAT e riferiti al periodo primo trimestre 1993- primo trimestre 1995).

Non vengono proposte soluzioni efficienti e ottimali per tutti i problemi che sì devono affrontare, ma solo alcuni aspetti dì questi e come utilizzare gli strumenti esaminati per rìsolverli. Sì tratta

Page 30: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

pertanto di un'analisi volta a mostrare come le diverse tecniche strumentali perfezionate in questa trattazione possano interagire quando la situazione che si presenta ne permette l'utilizzo.

5. l. MODELLO PREVISIONALE DELLE MAREE DI VENEZIA

Il singolare andamento delle maree nel mare Adriatico ha, da molti anni, attratto fisici e meteorologi impegnandoli in più direzioni per la realizzazione di schemi numerici in grado di interpretare il più fedelmente possibile il livello di marea. Elemento di particolare attrazione si è dimostrato il fenomeno dell'acqua alta che interessa principalmente le lagune venete, soprattutto quella di Venezia con l'allagamento del centro storico e delle isole. Questo evento provoca, da molti anni, danni rilevanti agli operatori economici veneziani, ai trasporti pubblici e privati, alla viabilità pedonale, all'attività portuale e da ultimo, ma non meno importante, causa condizioni di vita insalubri.

Gli studi per la previsione del livello di marea sono iniziati con la formulazione fisico­matematica del fenomeno mareale impostando le relazioni matematiche (equazioni dell'idrodinamica) dell'interazione aria-mare attraverso le condizioni iniziali e al contorno. Si ottiene così la distribuzione nel tempo e nello spazio di alcune variabili quali per esempio la velocità di corrente e il livello marino. Questo metodo, nonostante la buona affidabilità nella previsione, ha dimostrato ben presto grossi limiti, come la necessità di conoscere in tempo reale alcuni parametri meteomarini o la necessità di un potente mezzo di calcolo per ottenere velocemente i risultati. Negli ultimi anni quindi si sono seguite strade alternative, apparentemente più superficiali, fondate non più sulla formulazione idrodinamica (metodo deterministico) ma su schemi per lo più empirici i cui risultati si sono rivelati interessanti grazie all'applicazione delle teorie statistiche (metodo empirico-statistico). L'esistenza delle sesse (oscillazioni libere del mare) con un periodo di 22 ore per la frequenza fondamentale, suggerisce l'autoregressione, o l'uso dei livelli osservati nelle ore precedenti come predittori. In altre parole, questo significa che se l'Adriatico fosse già in oscillazione, se non ci fossero nuovi disturbi e se non ci fosse smorzamento, il suo livello risulterebbe lo stesso di 22 ore prima. A questo si aggiunge il fattore meteorologico: sia la pressione atmosferica (effetto barometro) che il vento col suo trascinamento hanno effetti notevoli; poiché il vento dipende soprattutto dalla pressione l' inclusione dei dati di pressione tiene conto, in prima approssimazione, anche dei possibili effetti del vento.

Anche la dipendenza non lineare tra la velocità del vento e il suo impatto sul mare può essere approssimata con la linearità, almeno come tentativo tuttavia la validità di queste approssimazioni si potrà giudicare solo dalla bontà dei risultati.

Una parte piuttosto consistente del fenomeno mareale viene generata dalle forze gravitazionali e poiché queste sono attualmente ben definite, l'analisi tecnica verrà basata soltanto sulla parte non astronomica del fenomeno.

Il modello è strutturato su un massimo di 182 predittori: : si cerca tra tutti i possibili 2 182-1 modelli quello "migliore" per ogni anticipo previsivo effettuato (1, 3, 6, 9, 12, 15 e 24 ore).

L'insieme dei predittori è così suddiviso: 132 livelli di marea osservata a Venezia, all'indietro nel tempo, da una certa ora T ali' ora T -131 (cosiddetti parametri marini), 50 valori di pressione atmosferica osservati a Bari, Falconara, Genova, Pesaro, Pescara, Ravenna, Rimini, Teramo, Trieste, Venezia, ogni 3 ore dal tempo T al tempo T -12 (cosiddetti parametri metereologici).

Lo schema si presenta così:

(26) ~I ~ (T) ) ~J ~K (T) hr = . a Xhr_ + . bkxPc·r-'kl +r 1=0 1 1 J=l k=O J. J, -'

dove: • T = tempo in cui viene effettuata la previsione;

Page 31: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

• 1 = anticipo previsivo in ore che si vuole ottenere; • hr+r = livello di marea previsto per il tempo T più il numero di ore di anticipo 1 ;

• a/n= coefficienti relativi alla marea a Venezia dello schema regressivo con i=0, ... ,131

(massimo 132 coefficienti per ogni anticipo di previsione 1 );

• hr-i = livelli di marea osservati a Venezia al tempo T-i (dal tempo T al tempo T-131 a seconda

dei coefficienti selezionati); • h)~k = coefficienti dello schema regressivo per le pressioni atmosferiche registrate nelle stazioni j

(}=1,2, ... ,10; nell'ordine Bari, Falconara, Genova, Pesaro, Pescara, Ravenna, Rimini, Teramo, Trieste e Venezia) relativi alle 5 osservazioni triorarie k (k=0,1,2,3,4) di pressione atmosferica (sono state utilizzate massimo 5 osservazioni triorarie di pressione dal tempo T al tempo T-12 per ognuna delle 10 stazioni metereologiche);

• P;.r-3k = pressioni atmosferiche registrate a Bari, Falconara, Genova, Pesaro, Pescara, Ravenna,

Rimini, Teramo, Trieste e Venezia (indice j) nelle ore T, T-3, .. . , T- l 2.

I coefficienti (ai e h;.k) sono quindi, complessivamente, 182.

Per ogni anticipo 1 la specificazione del modello "migliore" avviene mediante l'utilizzo di Algoritmi Genetici (utilizzando l' algoritmo di selezione del modello lineare "GALMS" con l'introduzione della componente autoregressa). Il programma seleziona tra i 182 predittori quelli che specificheranno il modello "migliore". Come criterio di fitness e' stato utilizzato l' AIC calcolato sulle previsioni.

I coefficienti vengono calcolati sulla base dei dati di marea e pressione osservati n eli' anno 1984 tra l'l/l /84 e il 19110/84 (training set) secondo i metodi statistici classici (stima OLS). In fase previsionale lo schema proposto è stato utilizzato per l'anno 1984 tra il 19/10/84 e il 31/12/84 (test set). A livello sperimentale è stato protratto il valore di 1 fino a 24 ore (assumendo, come detto sopra, i valori l, 3, 6, 9, 12, 15, 24).

La codifica dell'algoritmo prevede pertanto l'utilizzo di una stringa costituita da 182 celle, ognuna delle quali può assumere valore O o l (O indicherà l'esclusione di quel predittore dal modello, l indicherà invece l'inclusione).

Si è provveduto quindi a confrontare, per tutti i casi di alta marea (in cui il livello di marea astronomica sommato alla componente metereologica risulta superiore ai l 00 centimetri di altezza) verificatisi dal 23 settembre 1984 al 31 dicembre 1984, l'indicazione del modello previsivo con l'effettivo azionamento o meno delle sirene per valori di marea superiori a 11 O centimetri.

Nelle Fig. 12-14 vengono presentati i risultati previsivi generali ottenuti con un'anticipazione previsiva di un'ora.

Page 32: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

Valori Osservati c__ ___ v_a_lo-ri _st-im_a_ti _ __j --•

-40 ~---~-------'-----'---..L_ o 200 400 600 800 1000 1200 1400 1600 1800

Valori

Figura 12. Valori previsti vs valori osservati con un'anticipazione previsiva di un'ora ottenuta con modello lineare (previsioni effettuate dal19/10/84 ore 04.00 al31112/84 ore 24.00).

50

40

30

20

10

o

--1 o

Valori Stimati Valori Osservati

-20L__------~------'--------~------~---------~---~ 650 700 750 800

Valori 850 900 950

Figura 13. Valori previsti vs valori osservati con un'anticipazione previsiva di un'ora (previsioni effettuate dal 15/11184 ore 5.00 al 27111184 ore 17.00) ottenuta con modello lineare.

Page 33: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

GRAFICO DEl RESIDUI 10

5 -

l o -l

-5 J

-1J l

_________j o 200 400 600 800 1000 1200 1400 1600 1800

RESIDUI/VALORI OSSERVATI 6 -

4

2

o

-4 o 200 400 600 1400 1600 1800

Figura 14. Residui ottenuti sulla previsione a un'ora (previsioni effettuate dal 19/10/84 ore 4.00 al 31112/84 ore 24.00) ottenuta con modello lineare.

Sono stati successivamente presi m esame, per tutti i casi di alta marea (almeno 100 cm.) verificatisi dal 23 settembre 1984 al 31 dicembre 1984, il livello previsto dai modelli sopra esposti e il relativo valore di raffronto osservato.

Nelle tabelle che seguono, nella prima riga sono elencati i valori degli anticipi previsti rispetto al giorno e all'ora riportati sopra ad ognuna di esse; nella seconda riga vengono mostrati i li velli di marea previsti per ogni anticipo previsivo; nella terza riga vengono valutati, per ogni anticipazione oraria, se le sirene di allarme, che a Venezia devono suonare ogni volta che si prevede un livello di marea superiore a 11 O cm., sarebbero state azionate correttamente.

I risultati mostrano una buona capacità previsiva del modello e spesso si presentano migliori dei sistemi di riferimento concretamente utilizzati a Venezia. Non sempre però i valori previsti si avvicinano ai valori osservati, soprattutto quando l'anticipo supera le 3 ore. Molto indicative sono, infatti, le tabelle e le figure sugli andamenti previsivi che mostrano come il modello usato rilevi i picchi di minimo e di massimo senza ritardi temporali (così come avveniva, invece, con le previsioni di tipo finanziario). In particolare le due tabelle relative al giorno 23/09/84 evidenziano questa caratteristica mostrando un livello di marea inferiore ai 11 O cm con ben 24 ore di anticipo (a Venezia, invece, sono suonate le sirene di allarme poiché il modello previsivo utilizzato ha fallito).

Page 34: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

Giorno: 23/09/84 ore 20.00. Valore di raffronto osservato: l 03 cm

Ore_prev. l 3 6 9 12 15 24 Valore 102.5 cm 102.9 cm 97.6 cm 95.9 cm 86.1 cm 87.5 cm 75.6 cm Confronto Corretto Corretto Corretto Corretto Corretto Corretto Corretto

Giorno: 23/09/84 ore 22.00. Valore di raffronto osservato: l 05 cm

Ore prev. l 3 6 9 12 15 24 Valore 107.0 cm 104.4 cm 96.7 cm 96.2 cm 90.3 cm 86.7 cm 77.9 cm Confronto Corretto Corretto Corretto Corretto Corretto Corretto Corretto

Giorno: 20/11/84 ore 9.00. Valore di raffronto osservato: 115 cm

Ore prev. l 3 6 9 12 15 24 Valore 112.2 cm 106.5 cm 101.9 cm 98.9 cm 97.9 cm 102.3 cm 105.4 cm Confronto Corretto Non corretto Non corretto Non corretto Non corretto N o n corretto Non corretto

Giorno: 21/11184 ore 9.00. Valore di raffronto osservato: 119 cm

Ore prev. l 3 6 9 12 15 24 Valore 117.3 cm 119.9 cm 113.9 cm 119.1 cm 119.6 cm 122.5 cm 116.5 cm Confronto Corretto Corretto Corretto Corretto Corretto Corretto Corretto

Giorno: 22/11184 ore 9.00. Valore di raffronto osservato: 111 cm

Ore prev. l 3 6 9 12 15 24 Valore 111.1 cm 113.0 cm 103.9 cm 108.1 cm 106.6 cm 107.9 cm 104.8 cm Confronto Corretto Corretto Non corretto Non corretto Non corretto Non corretto Non corretto

Giorno: 23/11/84 ore 10.00. Valore di raffronto osservato: 103 cm

Ore_prev. l 3 6 9 12 15 24 Valore 102.8 cm 101.9 cm 99.4 cm 101.8 cm 90.2 cm 94.9 cm 98.2 cm Confronto Corretto Corretto Corretto Corretto Corretto Corretto Corretto

Giorno: 24111/84 ore 10.00. Valore di raffronto osservato: 100 cm

Ore prev. l 3 6 9 12 15 24 Valore 100.0 cm 97.8 cm 92.9 cm 91.7cm 92.0 cm 87.1 cm 89.0 cm Confronto Corretto Corretto Corretto Corretto Corretto Corretto Corretto

Tabella 12. Previsione del livello di marea a diverse anticipazioni orarie: i risultati.

5. 2. ANALISI SUL LIVELLO DI DISOCCUPAZIONE IN EMILIA ROMAGNA

In questo paragrafo vengono prese in esame le strategie implementate per la determinazione dei parametri di un modello statistico impiegato per spiegare correttamente il livello di disoccupazione mensile rilevato in Emilia Romagna.

Page 35: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

I valori osservati e i parametri utilizzabili si riferiscono a un'indagine condotta da M. Lalla e F. Pattarin [LaPa99] su dati forniti dall'Istituto Centrale di Statistica (ISTAT) per la regione Emilia Romagna, dal primo trimestre 1993 al primo trimestre 1995. L'indagine è stata effettuata su un campione di 655 soggetti in cerca di occupazione, con un'età maggiore o uguale a 15 anni.

Il campione è stato suddiviso in tre sottogruppi: persone che hanno perso l'occupazione precedente per licenziamento, dimissioni o scadenza del contratto di lavoro a termine (disoccupati); persone che entrano per la prima volta nel mercato del lavoro e non hanno mai cercato in precedenza un'attività lavorativa (nuovi ingressi); persone che hanno smesso un'attività lavorativa e per un certo periodo di tempo non hanno più cercato un impiego uscendo così dalle forze di lavoro e ora hanno ricominciato a cercare un lavoro (rientri).

Per ogni componente della famiglia degli intervistati in età lavorativa sono stati rilevati la condizione professionale, notizie sull'attività stessa, durata della disoccupazione in corso e caratteristiche individuali che potrebbero influenzarla. Queste informazioni riguardano dati di carattere anagrafico, grado di istruzione dell'intervistato, componenti della famiglia, attività e periodi di disoccupazione precedenti, disponibilità, aspettative e abilità professionali, tipo di occupazione trovata dopo un periodo di disoccupazione e azioni compiute durante il periodo di disoccupazione.

Ponendo y uguale alla durata del periodo di disoccupazione espresso in mesi, il modello lineare può così rappresentarsi:

(27) Y ="'n G·X • L--i=1 l l '

dove n corrisponde al numero dei parametri relativi a ogni domanda fatta agli intervistati, in questo caso il massimo è 53; a; rappresenta il coefficiente stimato per ogni variabile esplicativa

utilizzata (x;).

Pertanto x; costituisce il vettore riga dei regressori utilizzati relativi alle caratteristiche personali,

famigliari e del mercato del lavoro attuale sopra accennate. La scelta dei regressori è stata effettuata utilizzando i programmi "Backward", "Forward" e

quello di selezione genetica ("GALMS") analizzati nel quarto capitolo. L'utilizzo di un modello lineare per rappresentare la durata della disoccupazione richiede

l'inserimento del!' intero se t di dati nel training se t. Il motivo per cui è stata presa questa decisione è da ricercare nell'uso di alcune variabili "dummy" tra quelle esplicative. L'uso di questo tipo di variabili, infatti, potrebbe causare l'inserimento dell'intero campione rappresentativo della variabile stessa nel test set ponendo non pochi problemi nel momento in cui si devono stimare i parametri del modello. Inoltre, l'alta variabilità della y (con valori compresi tra 0.1 e 100.5) non perdona un eventuale sbilanciamento del numero di dati rappresentativi per quelle "dummy" tra il training e il test set7

.

I risultati ottenuti sono mostrati in tabella 13. Nella prima colonna, "metodo" indica il tipo di programma utilizzato per ottenere i risultati, nella seconda colonna "criterio" indica quale indice di riferimento è stato utilizzato, nella terza colonna è evidenziato il numero di variabili scelte dal programma per quel tipo di criterio (dimensione del modello ottimo), nella quarta colonna viene riportato il valore della stima dello scarto quadrati co medio e nell'ultima colonna è stato inserito l' R 2

.

7 I problemi aumenterebbero maggiormente se si prevedesse il campionamento dei dati in tre gruppi: training, validation e test set.

Page 36: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

METODO CRITERIO DIMENSIONE SQM R2

Backward AIC 17 12.6916 0.1321 Backward BIC 14 12.8349 0.1122 Backward HAN 14 12.8349 0.1122 Backward SIC 14 12.8349 0.1122 Backward p-value 11 12.9091 0.1021 Forward A! C 18 12.6890 0.1323 Forward HAN 4 13.3109 0.0731 Forward S/C 6 13.1292 0.0931 Forward P corr 8 13.9866 0.0118 GALMS A! C 27 12.6532 0.1372 GALMS BIC 20 13.6334 0.0771 GALMS SIC 16 13.0012 0.0890

Tabella 13. Risultati ottenuti col modello lineare.

Il modello migliore sia in termini di scarto quadratico medio che di R2 è quello ottenuto con il programma GALMS utilizzando come criterio selettivo l' AIC.

Un attento esame della distribuzione dei residui mostra una forte non linearità con evidenti effetti di eteroschedasticità.

Siccome i modelli statistici di durata sono espressi con funzioni di azzardo (hazard function) 8 si è utilizzato il seguente modello:

(28)

dove h(t) esprime la probabilità che si fuoriesca dalla situazione di disoccupazione nell'istante che va da t a t + dt, h) t) la probabilità di transizione iniziale o funzione di rischio base (cioè la probabilità di transizione da uno stato di disoccupazione ad uno di occupazione indipendentemente

dai valori assunti dalle variabili esplicative), expci,;=I a1x1) esprime l'impatto dei regressori

selezionati su h(t). Si è scelta la forma log-lineare del modello a rischi proporzionali (modello di Cox) in quanto è

una delle più utilizzate.

Indicando con y la durata della disoccupazione si può scrivere:

(29)

In questo modo si rende possibile il campionamento dei dati in tre gruppi (training set, validation sete test set) in quanto la variabilità della y viene ridotta sensibilmente (valori compresi tra -2.3 e +4.6) e con esso l'effetto delle "dummy" (rendendo possibile la stabilità del modello anche in caso di campionamento non bilanciato).

I risultati ottenuti sono riassunti in tabella 14. Anche in questo caso si è lavorato con i programmi "Backward", "Forward" e di selezione genetica come sopra.

8 Se X è un numero aleatorio che rappresenta la durata di un certo fenomeno (per esempio il tempo di vita dell'oggetto di studio) e k

una data temporale, la funzione di azzardo è definita come h(k) = P(X = k l X;::: k). Tale funzione esprime la probabilità di

morte dell'oggetto nel giorno k, data la sopravvivenza tìno all'inizio del giorno k.

Page 37: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

METODO CRITERIO DIMENSIONE SQM R2

Backward AIC 20 0.8932 0.1484 Backward BIC 25 0.8881 0.1584 Backward HAN 14 0.9162 0.1016 Backward SIC 16 0.9034 0.1271 Backward p-value 7 0.9213 0.0941 Forward HAN 14 0.9162 0.1016 Forward SIC 16 0.9137 0.1073 Forward P corr 5 1.1279 0.0880 GALMS SIC 10 1.1773 0.1640

Tabella 14. Risultati ottenuti col modello esponenziale (linearizzato).

Confrontando i dati delle tabelle si nota come il modello esponenziale ottenuto dalla selezione genetica utilizzando come criterio selettivo l'indicatore SIC sia il migliore in assoluto in termini di R2 (sebbene presenti uno scarto quadratico medio più alto).

Prima di trarre conclusioni sull'analisi svolta esaminiamo le variabili scelte per questo modello e la coerenza dei segni dei coefficienti calcolati.

Il modello seleziona 10 parametri (tutti significativi), che sono: • L'età e l'età ·al quadrato degli individui intervistati, i cui coefficienti hanno segno opposto

(rispettivamente 1.220 e- 0.162), compensandosi così vicendevolmente; • Il numero dei componenti della famiglia di età inferiore ai 5 anni, che presenta un coefficiente

negativo (- 0.219) facilmente spiegabile col fatto che in famiglie con bambini piccoli la ricerca di un lavoro cresce sensibilmente la necessità di mantenere i figli;

• Il numero dei componenti della famiglia, con coefficiente positivo (0.118) giustificato dal fatto che la durata della disoccupazione aumenta per le persone che vivono in famiglie numerose poiché vi è un fenomeno di compensazione con gli altri componenti;

• La condizione professionale finale, che indica se l'individuo fa parte del sottogruppo dei disoccupati in base alla definizione data in precedenza (appartengono alla forza lavoro). Il coefficiente negativo di questa variabile (- 0.243) è facilmente spiegabile in quanto un'individuo che non abbia mai smesso di cercare un lavoro è destinato a ricevere un'offerta più velocemente;

• L'uscita dal mercato del lavoro; questo parametro, che indica se l'individuo è stato messo fuori dal mercato del lavoro, mostra un coefficiente negativo (- 0.222) evidenziando che colui che è uscito da questo mercato può trovare un impiego più velocemente;

• L'uscita dal settore agricolo o edile, che indica se l'ultima attività è stata svolta nei due settori menzionati e presenta un coefficiente negativo (- 0.545) a dimostrazione che chi esce da questi settori si inserisce meglio nel mercato del lavoro;

• La preferenza del lavoro nel comune di residenza, che presenta un coefficiente positivo (0.304) il quale indica che quanto maggiori sono le richieste di questo tipo tanto più difficile è trovare un lavoro;

• Il percepimento di un sussidio, che sorprendentemente mostra un coefficiente negativo(- 0.361) evidenziando una certa concordanza con alcuni studi in questo settore [Nic79], [Gro90], [NaSt93]. D'altronde il sussidio potrebbe incentivare la non ricerca del lavoro fino a quando la scadenza del diritto a percepirlo è lontana; quando invece si avvicina, la ricerca potrebbe diventare più frenetica e l'accettazione dei posti di lavoro eventualmente offerti meno vincolata (coerentemente con la teoria del job -search).

Page 38: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

• L'entrata nel settore agricolo o edile, con un coefficiente positivo (0.284) che dimostra che colui che ha in precedenza trovato un lavoro in questi settori presenta un periodo di disoccupazione maggiore.

L'analisi della funzione di ripartizione campionaria e teorica dei residui ottenuti utilizzando questo modello mostra un netto miglioramento del modello esponenziale rispetto a quello lineare puro.

Molto utili per una valutazione dei risultati sono anche i valori dei test di adattamento di Kolmogorov e di Cramér e von Mises dei tre modelli sopra studiati riportati in tabella 15.

Modello Criterio selettivo Test di Test di Kolmogorov Cramér e von Mises

Lineare AIC 0.1441 4.55

Esponenziale S/C 0.0439 0.3135

Tabella 15. Risultati dei test di adattamento sui tre modelli esaminati (valori calcolati per alpha = 0.05).

Questi mostrano un progressivo miglioramento di adattamento alla distribuzione ipotizzata passando dal modello lineare a quello esponenziale.

Per il modello esponenziale è stato valutato anche l'indice di concordanza, c, considerando tutte le possibili coppie di osservazioni relative al test-set [Har84]. Per ogni data coppia la previsione si dice concordante se ali' osservazione con una durata prevista maggiore corrisponde una durata osservata effettivamente più elevata. L'indice c corrisponde alla proporzione di concordanze su tutte le coppie possibili. Un indice c=0.5 rappresenta, quindi, un livello di concordanza associato ad un modello non predittivo, mentre un indice c=l rappresenta un modello perfettamente predittivo (almeno dal punto di vista della concordanza). L'indice di concordanza per il modello esponenziale è risultato pari a 0.58.

6. CONCLUSIONI

In questo lavoro sono state presentate alcune possibili soluzioni alle problematiche inerenti alla selezione del modello statistico lineare multi variato orientato alla previsione.

Mentre la stima dei parametri associati al modello statistico prescelto avviene utilizzando gli approcci classici, per quanto concerne la determinazione del miglior set di regressori (quanti e quali) da fornire come input al modello si sono confrontati gli approcci classici con algoritmi evolutivi.

Si è visto che le tecniche classiche ("backward elimination" e "forward selection") soffrono di imposizioni strutturali (dipendenza dalla sequenza) e vincoli di carattere fisico la cui automazione li rende criticabili sotto più punti di vista.

Gli Algoritmi Genetici rimuovono le imposizioni strutturali (e con esse si eliminano i problemi connessi alla dipendenza dalla sequenza) valutando ogni soluzione rispetto alle proprie capacità di descrivere la soluzione del problema in esame sottoposta a un criterio di selezione e propagata alla "iterazione" successiva per mezzo di operatori che emulano la selezione genetica. Il processo evolutivo converge verso la migliore soluzione entro un criterio di stop preimposto.

Tutti gli algoritmi proposti sono stati testati su un particolare set di dati (valori di colesterolo ematico) che ha mostrato come l' approccio computazionale qui proposto risulti effettivamente più efficiente (non soltanto teoricamente). Sono stati valutati diversi criteri per la selezione del modello

Page 39: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

e infine si è implementato un esempio semplice di sistema ibrido affiancando all'Algoritmo Genetico un criterio di scelta basato sulla Logica Fuzzy.

I risultati ottenuti, in ambito lineare, sono stati mteressanti nonostante si sia sperimentato un algoritmo piuttosto semplice di cui si rende necessario un approfondimento per un'analisi più accurata.

L' approccio evolutivo e' stato utilizzato anche nell' ambito dell' analisi delle serie storiche. L'Algoritmo Genetico anche in questo caso ha risposto ottimamente alle aspettative. I modelli simulati sono stati correttamente specificati nella maggioranza dei casi e, quando questo non è avvenuto, è stato comunque scelto un modello che ha ottimizzato la procedura (AIC minore). Anche in questo caso sono stati valutati diversi criteri di selezione (AIC, BIC, SIC). Se l'obietti v o finale era verificare il funzionamento degli Algoritmi Genetici e mettere a punto uno

strumento che fosse in grado di prevedere correttamente anche in presenza di una componente di errore stocastica, i risultati sono sicuramente confortanti. Soltanto l'l o/o dei modelli simulati è stato scelto in modo errato senza la convergenza dell'algoritmo verso l'ottimo (minimo valore assunto dali' AIC). I risultati esposti nel paragrafo 4 mostrano che lo strumento utilizzato ha, complessivamente, buone capacità previsive.

Tutte le tipologie di algoritmi utilizzati sono stati testati su un largo set di dati simulati prima di essere applicati alla soluzione di problemi di natura finanziaria, ambientale e sociale.

In particolare, per quanto concerne questi ultimi due problemi, gli strumenti ottenuti sono stati applicati a due casi sperimentali riguardanti la previsione del livello di marea a Venezia del 1984 e il livello di disoccupazione registrato in Emilia Romagna tra il 1993 e il 1995.

I risultati forniti sia dalle simulazioni che dalle analisi sperimentali sono sicuramente interessanti sebbene spesso non è stato possibile approfondire le analisi per brevità o per i limiti computazionali imposti dalle macchine. I metodi utilizzati hanno comunque permesso di accertare alcune tendenze di tipo operativo: la sostituzione di persone esperte con tecnologie informatiche deve essere considerato solo in caso estremo, mentre lo scopo principale per cui si ricorre a tali tecniche è quello di incrementare l'efficienza e di migliorare i livelli di coerenza ed affidabilità dei processi decisionali sfruttando nel migliore dei modi i dati e le informazioni a disposizione; le procedure automatizzate con metodologie evolutive si sono rivelate più efficienti e robuste, nella generalità dei casi, rispetto a quelle classiche (anch'esse automatizzate)9

.

9 Si ricorda infine che tutti gli strumenti implementati sono stati scritti in linguaggi MATLAB utilizzando, quando possibile, le

funzioni inserite nei seguenti toolbox: Statistic toolbox, Genetic Algorithm toolbox e System Identification toolbox. Si è lavorato in

ambiente Unix su macchine "Sun Ultrasparc2" (che permette una migliore approssimazione di calcolo rispetto ai PC con gli attuali

sistemi operativi).

Page 40: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

l BIBLIOGRAFIA

[Akai69]

[Akai73]

[Akai78]

[AV96] [Bra97] [BrLa94) [CaPT86]

[Chi95]

[CLL96)

[Davi91) [DrSm66]

[DuPr80] [GoKh95] [Gold89]

[Goli94]

[Gre97] [Gro90]

[Hair95) [HaQu79)

[Har84)

[Har93] [Holl75]

[Holl95] [Hod97] [HPS84]

[HuTs89]

[HuTS98]

[LaPa99]

[Lju95l [Mal73] [MiPo97]

[Mit96] [NaSt93]

[Nic79]

Akaike A., Statistica! predictor identification, Annals of the Institute of Statistica! Mathematics 22, pp. 203-217, 1969. Akaike A., Information theory and an extension of the maximum likelihood principle. In B.N. Petrov and F. Csai ed. "2"d International Symposium on Information Theory", pp. 267-281, Akademia Kiado, Budapest, 1973. Akaike A., A Bayesian analysis of the minimum A!C procedure, Annals of the institute of Statistica! Mathematics 30, partA, pp. 9-14, 1978. AAVV., Using MATLAB, The Math Works Inc., Natick, 1996. Bradley J., Statistic Toolbox User's Guide, The Math Works Inc., Natick, 1997. Bremer R.H., Langevin G.J., The Genetic Algorithmfor ident!fying the structure ofaf!xed mode!, 1994. Canestrelli P., Pastore F., Tommasin A., Sviluppi di un modello operativo previsionale dellee maree di Venezia e revisione di casi rilevanti, Comune di Venezia, Assessorato ai Trasporti e Servizi Pubblici, 1986. Chipperfield A., Fleming P., Pohlheim H., Fonseca C., Genetic Algorithm Toolbox User's Guide, University of Sheffield, 1995. Chatetjee S., Laudato M., Lynch L.A., Genetic algorithms and their statistica! applications: an introduction, Computational Statistics & Data Analysis 22, pp. 633-651, 1996. L.Davis, Handbook of Gene tic Algorithm, V an Nostrand Reinhold, Ne w York, 1991. N.R.Draper, H. Smith, Applied Regression Analysis, Wiley series in probability and mathematical statistics, J. Wiley & Sons, New York, 1966. Dubois D., Prada H., Fuzzy Sets and System: Theory and Application, Academic Press, San Diego, l 980. Goonatilake S., Khebbal S., !ntelligent Hybrid System, John Wiley, Chichester 1985. Goldberg D.E., Genetic Algorithms in search, optimization, and machine learning, Addison-Wesley Publishing Corporation Inc., Reading (Mass.), 1989. Golinelli R., Metodi Econometrie-i di base per l'analisi delle serie storiche: alcune applicazioni pratiche sul personal computer, Cluep, Bologna, 1994. Greene W.H., Econometrie analysis, McMillan, New York, 1997. Groot W., The Effects of Benefit and Duration Dependence on Re-Employment Probabilities, Economie Letters, 32, 4, pp. 37 l -376, 1990. Hair Joseph F. Jr., Multivariate data analysis: with readings, Prentice-Hall, Englewood Cliffs, 1995. Hannan E.J., Quinn B.G. The determination of the order of an autoregression, Journal of the Royal Statistica! Society, B 41, pp. 190-195, 1979. Han·e] et al., Regression modelling strategies for improved prognostic predictions, Statistics in Medicine, 3, pp. 143-152, 1984. Harvey A.C., Time Series Mode l, Harvester Wheatsheaf, New York, 1993. Holland J. H., Adaptation in Natura! and Artijicial Systems, University of Michigan Press, AnnArbor, 1975. J.H.Holland, Hidden Order, Reading, Addison Wesley Publishing Corporatin, Inc, 1995. Hodges E. M., Applications of Gene tic Algorithms in T ime Series Analysis, 1997. Hendry D.F., Pagan A.R., Sargan J.D., Dynamic Specification, in Griliches Z., Intriligator M.D. (a cura di), Handbook of Econometrics, vol. II, North Holland, 1984. Hurvich C.M., Tsai C.L., Regression and time series mode! selection in small samples, Biometrika 76, pp. 297-307, 1989. Hurvich C.M., Tsai C.L., Simonoff J.S., Smoothing parameter selection in nonparametric regression using an improved Akaike information criterion, J of the Royal Society B (Statistica! metodology) 60, pp. 271-293, 1998. Lalla M., Pattarin F., Alcuni modelli per l'analisi delle durate complete e incomplete della disoccupazione: il caso Emilia-Romagna, W orking P a per n. 11, Dipartimento di Scienze Statistiche Università degli Studi di Padova, 1999. Ljung L., System Jdentification Toolbox User's Guide, The Math Works Inc., Natick, 1995. Mallows C.L., Some comments on Cp, Technometrics 15, pp. 661-675, 1973. T.Minerva, I.Poli, Genetic Algorithms to identify Time Series Models", Applied Stochastic Processes, Convegno di Capri, 1997. M.Mitchell, An Jntroduction t o Gene tic Algorithms, Massachusetts, MIT Press, 1996. Narendranathan W., Stewart M.B., Modelling the Probability of Leaving Unemployment: competing Risks Models with Flexible Base-line Hazards, J. of the Royal Statistica! Society C (Applied Statistics), 42, pp. 63-83, 1993. Nickel S., The Effect of Unemployment and Related Benefits on the Duration of Unemployment, Economie Journal 89, pp. 63-83, 1979.

Page 41: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

[Orsi95] [Picc74]

[Picc90] [Picc98] [Prie81] [QuTs98]

[Rissa78] [Schw78] [SeSr90]

[ShTs98]

[The61] [The67] [Whi92] [Zade65] [Zade84] [Zade94]

Orsi R., Probabilità e inferenza statistica, Il Mulino, Bologna, 1995. Piccolo D., Analisi delle serie temporali: i processi autoregressivi del secondo ordine, Centro di specializzazione e ricerche economico-agrarie per il mezzogiorno, Portici, 1974. Piccolo D., Introduzione all'analisi delle serie storiche, La Nuova Scientifica, Roma, 1990. Piccolo D., Statistica, Il Mulino, Bologna, 1998. Priestley M.B., Spectral Analysis and Time Series, Vols. l e 2, Academic Press, Ne w York, 1981. McQuarrie Allan D.R., Tsai Chih-Ling, Regression and Time Series Model Selection, World Scientific, Singapore, 1998. Rissanen J., Modeling by Shortest Data Description, Automatica 14, pp. 465-471, 1978. Schwarz G., Estimating the dimension of a mode l, Anna1s of Statistics 6, pp. 461-464, 1978. Se n A., Srivastava M., Regression Analysis. Theory, Methods and Aplications, Springer-Verlag, Ne w York, 1990. Shi P., Tsai Chih-Ling, A note on the unification of the Akaike information criterion, J. of the Royal Statistica! Society B (Statistica! Metodology) 60, pp. 551-558, 1998. Theil H, Economie Foprecasts and Policy, North-Holland Pubi. Co., Amsterdam, 1961. Theil H, Economics and Information Theory, North-Holland Pubi. Co., Amsterdam, 1967. White D., Sofge D., Handbook of Intelligent Contro[, New York, V an Nostrand Reinhold, 1992. Zadeh L.A., Fuzzy Sets, Information and Contro!, Vol.8, pp. 338-353, 1965. Zadeh L.A., Making Computers Think Like People, IEEE Spectrum, Vol. 21 :8, pp. 26-32, 1984. Zadeh L.A., Fuzzy Logic and Sojt Computing: Issues, Contentions and Perspectives, In:,IIZUKA '94:3'd International Conference on Fuzzy Logic, Neural Nets and Soft Computing, pp. 1-2, lisuka, Japan 1994.

Page 42: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari
Page 43: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

l.

2

3.

4.

5.

6.

7.

8.

9.

IO.

Il.

12.

13.

14.

15.

16

17.

18.

19.

20.

21

22.

23.

24

25.

26.

27

28.

Maria Cristina Marcuzzo [ 1985] "Yoan Viole! Robinson (1903-1983)", pp. 134

Sergio Lugaresi (1986] "Le imposte nelle teorie del sovrappiù", pp. 26

Massimo D' Angelillo e Leonardo Paggi [ 1986] socialdemocrazie europee. Quale riformismo?", pp. 158

"PC! e

Gian Paolo Caselli e Gabriele Pastrello (1986] "Un suggerimento hobsoniano su terziario ed occupazione: il caso degli Stati Uniti 196011983", pp. 52

Paolo Bosi e Paolo Silvestri (1986] "La distribuzione per aree disciplinari dei fondi destinati ai Dipartimenti, Istituti e Centri dell'Università di Modena: una proposta di riforma", pp. 25

Marco Lippi (1986] "Aggregations an d Dynarnic in One-Equation Econometrie Mode! s", pp. 64

Paolo Silvestri [1986] "Le tasse scolastiche e universitarie nella Legge Finanziaria 1986", pp. 41

Mario Forni (1986] "Storie familiari e storie di proprietà. Itinerari sociali nell'agricoltura italiana del dopoguerra", pp. 165

Sergio Paba [1986 ] "Gruppi strategici e concentrazione nell'industria europea degli elettrodomestici bianchi", pp. 56

Nerio Naldi [1986] "L'efficienza marginale del capitale nel breve periodo", pp. 54

Fernando Vianello (1986] "LabourTheoryof Value", pp. 31

Piero Ganugi (1986] "Risparmio forzato e politica monetaria negli economisti italiani tra le due guerre", pp. 40

Maria Cristina Marcuzzo e Annalisa Rosselli (1986] "The Theory ofthe Gold Standard and Ricardo's Standard Comodity", pp. 30

Giovanni Solinas (1986] "Mercati del lavoro locali e carriere di lavoro giovanili", pp. 66

Giovanni Bonifati (1986] "Saggio dell'interesse e domanda effettiva. Osservazioni sul cap. 17 della Generai Theory", pp. 42

Marina Murat [I 986] "Betwin old and new classica! macroeconomics: notes on LejonhufVud's notion of full information equilibrium", pp. 20

Sebastiano Brusco e Giovanni Solinas [1986] "Mobilità occupazionale e disoccupazione in Emilia Romagna", pp. 48

Mario Forni (1986] "Aggregazione ed esogeneità", pp. 13

Sergio Lugaresi [1987] "Redistribuzione del reddito, consumi e occupazione", pp. 17

Fiorenzo Sperotto (1987] "L'immagine neopopulista di mercato debole nel primo dibattito sovietico sulla pianificazione", pp. 34

M. Cecilia Guerra [1987] "Benefici tributari nel regime misto per i dividendi proposto dalla commissione Sarcinelli: una nota critica", pp. 9

Leonardo Paggi [I 987] "Contemporary Europe an d Modern America: Theories of Modemity in Comparative Perspective", pp. 38

Fernando Vianello [1987] "A Critique of Professar Goodwin's 'Critique ofSraffa'", pp. 12

Fernando Vianello (1987] "Effective Demand and the Rate of Profits. Some Thoughts on MaiX, Kalecki and Sraffa", pp. 41

Anna Maria Sala [1987] "Banche e territorio. Approccio ad un tema geografico-economico", pp. 40

Enzo Mingione e Giovanni Mottura trasformazione e nuovi profili sociali qualche elemento di discussione", pp. 36

(I 987] "Fattori di nell'agricoltura italiana:

Gwvanna Procacci [ 1988] "The State and Soci al Contro! in Italy During the First W or! d War", pp. 18

Massimo Matteuzzi e Annamaria Simonazzi [1988] "Il debito pubblico", pp. 62

29.

30.

31.

32.

33.

34.

35.

36.

37.

38.

39.

40.

41.

42.

43.

44.

45.

46.

47.

48.

49.

50.

51.

52.

53.

54.

55.

56.

Maria Cristina Marcuzzo (a cura di) [1988] "Richard F. Kahn. A discipline ofKeynes", pp. 118

Paolo Bosi [1988] "MICROMOD. Un modello dell'economia italiana per la didattica della politica fiscale", pp. 34

Paolo Bosi (1988] "Indicatori della politica fiscale. Una rassegna e un confronto con l'aiuto di MICROMOD", pp. 25

Giovanna Procacci [ 1988] "Protesta popolare e agitazioni operaie in Italia 1915-1918", pp. 45

Margherita Russo [ 1988] "Distretto Industriale e servizi. Uno studio dei trasporti nella produzione e nella vendita delle piastrelle", pp. 157

Margherita Russo (1988] "The effect of technical change on skill requirements: an empirica! analysis", pp. 28

Carlo Grillenzoni [1988] "Identification, estimations ofmultivariate transfer functions", pp. 33

Neri o Naldi (1988] "'Keynes' concept of capitai", pp. 40

Andrea Ginzburg [1988] "locomotiva Italia?", pp. 30

Giovanni Mottura [1988] "La 'persistenza' secolare. Appunti su agricoltura contadina ed agricoltura familiare nelle società industriali", pp. 40

Giovanni Mottura [1988] "L'anticamera dell'esodo. I contadini italiani della 'restaurazione contrattuale' fascista alla riforma fondiaria", pp. 40

Leonardo Paggi (1988] "Americanismo e riformismo. La socialdemocrazia europea nell'economia mondiale aperta". pp. 120

Annamaria Simonazzi (1988] "Fenomeni di isteresi nella spiegazione degli alti tassi di interesse reale", pp. 44

Antonietta Bassetti (1989] "Analisi dell'andamento e della casualità della borsa valori", pp. 12

Giovanna Procacci [ 1989] "State coercion and worker solidarity in Italy (1915-1918): the mora! an d politica! content of soci al unrest", pp. 41

Carlo Alberto Magni [1989] "Reputazione e credibilità di una minaccia in un gioco bargaining", pp. 56

Giovanni Mottura [ 1989] "Agricoltura familiare e sistema agroalimentare in Italia", pp. 84

Mario Forni [1989] "Trend, Cycle and 'Fortuitous cancellation' a Note on a Paper by Nelson and Plosser". pp. 4

Paolo Bosi , Roberto Golinelli , Anna Stagni [ 1989] "Le origini del debito pubblico e il costo della stabilizzazione", pp. 26

Roberto Golinelli [1989] "Note sulla struttura e sull'impiego dei modelli macroeconometrici", pp. 21

Marco Lippi [1989] "A Shorte Note on Cointegration and Aggregation", pp. Il

Gian Paolo Caselli e Gabriele Pastrello [1989] "The Linkage between Tertiary and Industriai Sector in the !tali an Economy: 1951-1988. From an External Dependence to an Intemational One", pp. 40

Gabriele Pastrello (1989] "Francois quesnay· dal Tableau Zig-zag al Tableau Formule: una ricostruzione". pp. 48

Paolo Silvestri [1989] "Il bilancio dello stato", pp. 34

Tim Mason [1990] "Tre seminari di storia sociale contemporanea", pp. 26

Michele Lalla [1990] "The Aggregate Escape Rate Analysed throught the Queueing Mode!". pp. 23

Paolo Silvestri [1990] ''Sull'autonomia finanziaria dell'univemtà", pp. Il

Paola Bettolini, Enrico Giovannetti [1990] "Uno studio di 'filiera' nell'agroindustria. Il caso del Parmigiano Reggiano", pp. 164

Page 44: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

57.

58.

59.

60.

61.

62.

63.

64.

65.

66.

Paolo Bosi, Roberto Golinelli, Anna Stagni [1990] "Effetti macroeconomici, settoriali distributivi dell'armonizzazione dell'IV A", pp. 24

Michele Lalla [1990] "Modelling Employment Spells from Emilia Labour Force Data", pp. 18

Andrea Ginzburg [1990] "Politica Nazionale e commercio internazionale", pp. 22

Andrea Giommi [1990] "La probabilità individuale di risposta nel trattamento dei dati mancanti", pp. 13

Gian Paolo Caselli e Gabriele Pastrello [ 1990] "The servi ce sector in planned economies. Past experiences and future prospectìves", pp. 32

Giovanni Solinas [1990] "Competenze, grandi industrie e distretti industriali,. Il caso Magneti Marelli", pp. 23

Andrea Ginzburg [1990] "Debito pubblico, teorie monetarie e tradizione civica nell'Inghilterra del Settecento", pp. 30

Mario Forni [1990] "Incertezza, informazione e mercati assicurativi: una rassegna", pp. 37

Mario Forni [1990] "Misspecification in Dynamic Models", pp. 19

Gian Paolo Caselli e Gabriele Pastrello [1990] "Service Sector Growtb in CPE's: An Unsolved Dilemma", pp. 28

67. Paola Bertolini [1990] "La situazione agro-alimentare nei paesi ad economia avanzata", pp. 20

68

69

70.

71.

72

73

74.

75.

76

78.

Paola Bertolini [1990] "Sistema agro-alimentare in Emilia Romagna ed occupazione", pp. 65

Enrico Giovannetti [1990] "Efficienza ed innovazione: il modello "fondi e flussi" applicato ad una filiera agro-industriale", pp. 38

Margherita Russo [1990] "Cambiamento tecnico e distretto industriale: una verifica empirica", pp. 115

Margherita Russo [I 990] "Distretti industriali in teoria e in pratica: una raccolta di saggi", pp. 119

Paolo Silvestri [1990] " La Legge Finanziaria. Voce dell'enciclopedia Europea Garzanti", pp. 8

Rita Paltrinieri [1990] "La popolazione italiana: problemi di oggi e di domani", pp. 57

Enrico Giovannetti [ 1990] "Illusioni ottiche negli andamenti delle Grande= distributive: la scala mobile e !"appiattimento' delle retribuzioni in una ricerca", pp. 120

Enrico Giovannetti [1990] "Crisi e mercato del lavoro in un distretto industriale: il bacino delle ceramiche. Sez r·, pp. !50

Enrico Giovannetti [1990] " Crisi e mercato del lavoro in un distretto industriale: il bacino delle ceramiche. Sez. If', pp. 145

Antonietta Bassetti e Costanza Torrìcelli riqualificazione dell'approccio bargaining portafoglio", pp. 4

[1990] "Una alla selezioni di

77 Antometta Bassetti e Costanza Torricelli [1990] "Il portafoglio ottimo come soluzione di un gioco bargaining", pp. 15

79 Mario Forni [1990] "Una nota sull'errore di aggregazione", pp. 6

80

81

82

83.

84

Francesca Bergamini [1991] "Alcune considerazioni sulle soluzioni di un gioco bargaining", pp. 21

Michele Grillo e Michele Polo [1991] "Politica! Exchange and the allocation ofsurplus: a Mode! of Two-party competition", pp. 34

Gian Paolo Caselli e Gabriele Pastrello [1991] "The 1990 Polish Recession: a Case ofTruncated Multiplier Process", pp. 26

Gian Paolo Caselli e Gabriele Pastrello [ 1991] "Polish firrns: Pricate Vices Pubblis Virtues", pp. 20

Sebastiano Brusco e Sergio Paba [ 1991] "Connessioni, competenze e capacità concorrenziale nell'industria della Sardegna", pp. 25

85.

86.

87.

88.

89.

90.

91.

92.

93.

94.

95.

96.

97.

98.

99.

100.

101.

102.

103.

104.

105.

106.

107.

108.

109.

Claudio Grimaldi, Rony Hamaui, Nicola Rossi [1991] "Non Marketable assets an d hauseholds' Portfolio Choice: a Case of Study of Italy", pp. 3 8

Giulio Righi, Massimo Baldini, Alessandra Brambilla [1991] "Le misure degli effetti redistributivi delle imposte indirette: confronto tra modelli alternativi", pp. 47

Roberto Fanfani, Luca Lanini [1991] "Innovazione e servizi nello sviluppo della meccanizzazione agricola in Italia", pp. 35

Antonella Caiumi e Roberto Golinelli [1992] "Stima e applicazioni di un sistema di domanda Almost Idea! per l'economia italiana", pp. 34

Maria Cristina Marcuzzo [1992] "La relazione salari-occupazione tra rigidità reali e rigidità nominali". pp. 30

Mario Biagioli [1992] "Employee financial participation in enterprise results in Italy'', pp. 50

Mario Biagioli [1992] "Wage structure, relative prices and intemational competitiveness", pp. 50

Paolo Silvestri e Giovanni Solinas [1993] "Abbandoni, esiti e carriera scolastica. Uno studio sugli studenti iscritti alla Facoltà di Economia e Commercio dell'Università di Modena nell'anno accademico 1990/1991 ", pp. 30

Gian Paolo Caselli e Luca Martin e Ili [1993] "Italian GPN growth 1890-1992: a unit root or segmented trend representatin?", pp. 30

AngelaPo!iti [1993] "La rivoluzione fraintesa. I partigiani emiliani tra liberazione e guerra fredda, 1945-1955", pp. 55

Alberto Rinaldi [1993] "Lo sviluppo dell'industria metalmeccanica in provincia di Modena: 1945-1990", pp. 70

Paolo Emilio Mistrulli [1993] "Debito pubblico, intermediari fmanziari e tassi d'interesse: il caso italiano", pp. 30

Barbara Pistoresi [1993] "Modelling disaggregate and aggregate labour demand equations. Cointegration analysis of a Iabour demand function for the Main Sectors ofthe Italian Economy: 1950-1990", pp. 45

Giovanni Bonifati [1993] "Progresso tecnico e accumulazione di conoscenza nella teoria neoclassica della crescita endogena. Una analisi critica del modello di Romer", pp. 50

Marcello D'Amato e Barbara Pistoresi [1994] "The relationship(s) among Wages, Prices, Unemployment and Productivity in Italy", pp 30

Mario Forni [ 1994] "Consumption Volatility and In come Persistence in the Perrnanent In come Mode!'', pp. 30

Barbara Pistoresi [ 1994] "Using a VECM to characterise the relative importance of permanent and transitority components", pp. 28

Gian Paolo Caselli and Gabriele Pastrello [1994] "Polish recovery form the slump to an old dilemma", pp. 20

Sergio P ab a [ 1994] "Imprese visibili, accesso al mercato e organizzazione della produzione", pp. 20

Giovanni Bonifati [1994] "Progresso tecnico, investimenti e capacità produttiva", pp. 30

Giuseppe Marotta [1994] "Credit view and trade credìt evidence from Italy", pp. 20

Margherita Russo [ 1994] "Uni t of investigation for !oca! econonHC development policies", pp. 25

Luigi Brighi [1995] "Monotonicity and the demand theory of the weak axioms", pp. 20

Mario Forni e Lucrezia Reichlin [1995) "Modelling the 1mpact of teclmological change across sectors and over time m manufactoring", pp. 25

Marcello D'Amato and Barbara Pistoresi [1995] "Modelling wage growth dynamics in Italy: 1960-1990", pp. 38

110. Massimo Baldini [1995) "INDIMOD. Un modello di microsimulazione per lo studio delle imposte indirette", pp. 37

Page 45: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

III.

112.

113.

114.

115.

116

117.

118.

119.

120

12!

122.

123

124.

125

126

127

128.

129

130

131

132.

133

134

135

Paolo Basi [1995] "Regionalismo fiscale e autonomia tributaria: l'emersione di un modello di consenso", pp. 38

Massimo Baldini [1995] "Aggregati o n Factors and Aggregati an Bias in Consumer Demand", pp. 33

Costanza Torricelli [1995] "The informati an in the term structure of interest rates. Can stocastic models help in resolving the puzzle?'' pp. 25

Margherita Russo [1995] "Industriai complex, pale de développement, distretto industriale. Alcune questioni sulle unità di indagine nell'analisi dello sviluppo." pp. 45

Angelika Moryson [ 1995] "50 J ahre Deutschland. 1945 - !995" pp. 21

Paolo Basi [ 1995] "Un punto di vista macroeconomico sulle caratteristiche di lungo periodo del nuovo sistema pensionistico italiano." pp. 32

Gian Paolo Caselli e Salvatore Curatolo [1995] "Esistono relazioni stimabili fra dimensione ed efficienza delle istituzioni e crescita produttiva? Un esercizio nello spirito di D.C. North." pp. Il

Mario Forni e Marco Lippi [1995] "Permanent incarne, heterogeneity and the errar correction mechanism." pp. 21

Barbara Pistoresi [1995] "Co-movements and convergence in international output. A Dynamic Principal Components Analysis" pp. 14

Mario Forni e Lucrezia Reichlin [ 1995] "Dynamic common factors in large cross-section" pp. 17

Giuseppe Marotta [1995] "Il credito commerciale in Italia: una nota su alcuni aspetti strutturali e sulle implicazioni di politica monetaria" pp. 20

Giovanni Bonifati [ 1995] "Progresso tecnico, concorrenza e decisioni di investimento: una analisi delle determinanti di lungo periodo degli investimenti" pp. 25

Giovanni Bonifati [ 1995] "Cambiamento tecnico e crescita endogena: una valutazione critica delle ipotesi del modello di Romer" pp. 21

Barbara Pistoresi e Marcello D'Amato (1995] "La riservatezza del banchiere centrale è un bene o un male? ,Effetti dell'informazione incompleta sul benessere in un modello di politica monetaria." pp. 32

Barbara Pistoresi (1995] "Radici unitarie e persistenza: l'analisi uni variata delle fluttuazioni economiche." pp. 33

Barbara Pistoresi e Marcello D'Amato (1995] "Co-movements m European rea! outputs" pp. 20

Antonio Ribba (1996] "Ciclo economico, modello lineare-stocastico, forma dello spettro delle variabili macroeconomiche" pp. 31

Carlo Alberto Magni [ 1996] "Repeatable and una tantum rea! options a dynamic programming approach" pp. 23

Carlo Alberto Magni (1996] "Opzioni reali d'investimento e interazione competitiva: programmazione dinamica stocastica m optimal stopping'' pp. 26

Carlo Alberto Magni (1996] "Vaghezza e logica fuzzy nella valutazione di un'opzione reale" pp. 20

GJUseppe Marotta [ !996] "Does trade credi t redistribution thwart monetary policy? Evidence from Italy" pp. 20

Mauro Dell'Amico e Marco Trubian (1996] "Almost-optimal solution oflarge weighted equicut problems" pp. 30

Carlo Alberto Magni [ 1996] "Un esempio di investimento industriale con tnterazwne competitiva e avversione al rischio" pp. 20

Marghenta Russo, Peter Bòrkey, Emilio Cube!, François Lévèque, Francisco Mas (1996] "Local sustainability and competitiveness: the case ofthe cerami c tile industry" pp. 66

Margherita Russo [1996] "Camionetta tecnico e relazioni tra imprese" pp. 190

136 David Avra Lane, !rene Poli, Michele Lalla, Alberto Roverato [ 1996] "Lezioni di probabilità e inferenza statistica" pp. 288

137.

138.

139.

140.

141.

142.

143.

144.

145.

146.

147.

148.

149.

150.

!51

152.

!53.

154.

155.

!56.

!57.

158.

!59.

160.

161

162.

David Avra Lane, !rene Poli, Michele Lalla, Alberto Roverato [1996] "Lezioni di probabilità e inferenza statistica- Esercizi svolti­"pp. 302

Barbara Pistoresi [1996] "Is an Aggregate Errar Correction Mode! Representative ofDisaggregate Behaviours? An exarnple" pp. 24

Luisa Malaguti e Costanza Torricelli [ 1996] "Monetary policy and the term structure of interest rates" , pp. 30

Mauro Dell'Amico, Martine Labbé, Francesco Maffioli [1996] "Exact solution ofthe SONET Ring Loading Problem", pp. 20

Mauro Dell'Amico, R.J.M. Vaessens (1996] "Fiow and open shop scheduling on two machines with transportation times and machine­independent processing times in NP-hard, pp. l O

M. Dell'Amico, F. Maffioli, A Sciomechen (1996] "A Lagrangean Heuristic far the Pirze Col!ecting Travelling Salesman Problem", pp. 14

Massimo Baldini [1996] "Inequality Decomposition by Income Source in Italy - 1987- 1993", pp. 20

Graziella Bertocchi (1996] "Trade, Wages, and the Persistence of Underdevelopment" pp. 20

Graziella Bertocchi an d Fabio Canova [ !996] "Di d Colonization matter for Growth? An Empirica] Exploration into the Historical Causes of Africa's Underdevelopment" pp. 32

Paola Bettolini (1996] "La modemization de l'agricolture italienne et le cas de I'Emilie Romagne" pp. 20

Enrico Giovannetti (1996] "Organisation industri elle et développement !oca!: le cas de l' agroindutrie in Emilie Romagne" pp. 18

Maria Elena Bontempi e Roberto Golinelli [ 1996] "Le determinanti del leverage delle imprese: una applicazione empirica ai setton industriali dell'economia italiana" pp. 31

Paola Bertolini (1996] "L'agriculture et la politique agricole i tali enne face aux recents scenarios", pp. 20

Enrico Giovannetti (1996] "Il grado di utilizzo della capacità produttiva come misura dei costi di transazione: una rilettura di 'Nature ofthe Firm' di R. Coase", pp. 75

Enrico Giovannetti (1996] "Il I0 ciclo del Diploma Umversitario Economia e Amministrazione delle Imprese", pp 25

Paola Bertolini, Enrico Giovannetti, Giulia Santacaterina (1996] "Il Settore del Verde Pubblico. Analisi della domanda e valutazione economica dei benefici", pp. 35

Giovanni Solinas (1996] "Sistemi produttivi del Centro-Nord e del Mezzogiorno. L'industria delle calzature", pp. 55

Tindara Addabbo (1996] "Married Women's Labour Supply in Italy in a Regional Perspective", pp. 85

Paolo Silvestri, Giuseppe Catalano, Cristina Bevilacqua ( 1996] "Le tasse universitarie e gli interventi per il diritto allo studio: la prima fase di applicazione di una nuova normativa" pp. !59

Sebastiano Brusco, Paolo Bertassi, Margherita Russo [ 1996] "L'industria dei rifiuti urbani in Italia", pp. 25

Paolo Silvestri, Giuseppe Catalano (1996] "Le risorse del sistema universitario italiano: finanziamento e governo" pp. 400

Carlo Alberto Magni [1996] "Un semplice modello di opzione di differimento e di vendita in ambito discreto", pp. l O

Tito Pietra, Paolo Siconolfi (1996] "Fully Revealing Equilibria m Sequential Economies with Asset Markets" pp. 17

Tito Pietra, Paolo Siconolfi [ 1996] "Extrinsic Uncertamty and tbe Informational Role ofPrices" pp. 42

Paolo Berteli a Farnetti [ 1996] "Il negro e il rosso Un precedente non esplorato dell'integrazione afroamericana negli Stati Uniti'' pp. 26

David Lane [1996] "Is what is good far each best forali? Learning [rom others in the information contagion mode!" pp. 18

Page 46: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

163

164.

165

166.

167.

168

169

170

171

172.

173

174.

175.

176

177.

178

179

180.

181

182.

183

184

185

186

187.

Antonio Ribba [1996] "A note on the equivalence oflong-run and short-run identifying restrictions in cointegrated systems" pp. IO

Antonio Ribba [1996] "Scomposizioni permanenti-transitorie m sistemi co integrati con una applicazione a dati italiani" pp. 23

Mario Forni, Sergio Paba [1996] "Economie Growth, Social Cohesion and Crime" pp. 20

Mario Forni, Lucrezia Reichlin [1996] "Let's gel rea!: a factor analytical approch to disaggregated business cycle dynarnics" pp. 25

Marcello D'Amato e Barbara Pistoresi [1996] "So many Italies: Statistica! Evidence on Regional Cohesion" pp. 31

Elena Bonfiglioli, Paolo Bosi, Stefano Toso [1996] "L'equità del contributo straordinario per l'Europa" pp. 20

Graziella Bertocchi, Michael Spagat [1996] "Il ruolo dei licei e delle scuole tecnico-professionali tra progresso tecnologico. conflitto sociale e sviluppo economico" pp. 37

Gianna Boero, Costanza Torricelli [1997] "The Expectations Hypothesis of the Term Structure of Interest Rates: Evidence for Gerrnany" pp. 15

Mario Forni, Lucrezia Reichlin [1997] "National Policies and Local Economies: Europe and the US" pp. 22

Carlo Alberto Magni [1997] "La trappola del Roe e la tridimensionalità del V an in un approccio sistemi co", pp. 16

Mauro Dell'Amico [ 1997] "A Linear Time Algorithm for Scheduling Outforests with Communication Delays on Two or Three Processar" pp. 18

Paolo Bosi [1997] "Aumentare l'età pensionabile fa diminuire la spesa pensionistica? Ancora sulle caratteristiche di lungo periodo della riforma Dini" pp. 13

Paolo Bosi e Massimo Matteuzzi [1997] "Nuovi strumenti per l'assistenza sociale" pp 31

Mauro Dell'Amico, Francesco Maffioli e Marco Trubian [1997] "New bounds for optium traffic assignment in satellite communicatìon" pp. 21

Carlo Alberto Magni (1997] "Paradossi, inverosimiglianze e contraddizioni del V an: operazioni certe" pp. 9

Barbara Pistoresi e Marcello D'Amato [ 1997] "Persistence of relative unemployment rates across i tali an regions" pp. 25

Margherita Russo, Franco Cavedoni e Riccardo Pianesani [1997] "Le spese ambientali dei Comuni in provincia di Modena, 1993-1995" pp. 23

Gabriele Pastrello (1997] "Time and Equilibrium, Two Elisive Guests in the Keynes-Hawtrey-Robertson Debate in the Thirties" pp. 25

Luisa Malaguti e Costanza Torricelli (1997] "The Interaction Between Monetary Policy and the Expectation Hypothesis of the Terrn Structure of Interest rates in a N-Period Rational Expectation Mode!" pp. 27

Mauro Dell'Amico [1997] "On the Continuous Relaxation of Packing Problems- Technical Note" pp.

Stefano Bordoni [ 1997] "Prova di Idoneità di Informatica Dispensa Esercizi Excel 5" pp 49

Francesca Bergamini e Stefano Bordoni [ 1997] "Una verifica empirica di un nuovo metodo di selezione ottima di portafoglio" pp. 22

Gian Paolo Caselli e Maurizio Battini [ 1997] "Following the tracks of atkinson and micklewright the changing distribution of incarne an d earnings in poland !Ì"om 1989 to 1995" .pp 21

Mauro De li' Amico e Francesco Matìiol i [ 1997] "Combining Linear and Non-Linear Objectives in Spanning T ree Problems" pp. 21

Gianni Ricci e Vanessa Debbia [1997] "Una soluzione evolutiva in un gioco differenziale di lotta di classe" pp.14

188 Fabio Canova e Eva Ortega [1997] "Testing Calibrated Generai Equihbrium Mode!" pp 34

189.

190.

191.

192.

193.

194.

195.

196.

197.

198.

199.

200.

201.

202.

203.

204.

205.

206.

207.

208.

209.

210.

Fabio Canova (1997] "Does Detrending Matter for the Determination of the Reference Cycle and the Selection of Tuming Points?" pp. 35

Fabio Canova e Gianni De Nicolò (1997] "The Equity Premium and the Risk Free Rate: A Cross Country, Cross Maturity Examination" pp. 41

Fabio Canova e Angel J. Ubide [ 1997] "Intemational Business Cycles, Financial Market and Household Production" pp. 32

Fabio Canova e Gianni De Nicolò (1997] "Stock Returns, Term Structure, Inflation and Rea! Activity: An International Perspective" pp. 33

Fabio Canova e Morten Ravn (1997] "The Macroeconomic Effects of German Unificati an: Rea! Adjustmentsand the Welfare State" pp. 34

Fabio Canova (1997] "Detrending and Business Cycle Facts" pp 40

Fabio Canova e Morten O. Ravn (1997] "Crossing the Rio Grande Migrations, Business Cycle and the Welfare State" pp. 37

Fabio Canova e Jane Marrinan (1997] "Sources and Propagation of International Output Cycles: Common Shocks or Transmission?" pp. 41

Fabio Canova e Albert Marce! [1997] "The Poor Stay Poor: Non­Convergence Across Countries and Regions" pp. 44

Carlo Alberto Magni (1997] "Un Criterio Strutturalista per la Valutazione di Investimenti" pp. 17

Stefano Bordoni (1997] "Elaborazione Automatica dei Dati" pp. 60

Paolo Bertella Farnetti [ 1997] "The United States an d the Ongins of European Integration" pp. 19

Paolo Basi (1997] "Sul Controllo Dinamico di un Sistema Pensionistico a Ripartizione di Tipo Contributivo" pp 17

Paola Bertolini [ 1997] "European Uni o n Agri cultura! Policy· Problems an d Perspectives" pp 18

Stefano Bordoni (1997] "Supporti Informatici per la Ricerca delle soluzioni di Problemi Decisionali" pp30

Carlo Alberto Magni (1997] "Paradossi, Inverosimiglianze e Contraddizioni del V an: Operazioni Aleatorie" pplO

Carlo Alberto Magni (1997] "Tir, Roe e Van: Distorsioni linguistiche e Cognitive nella Valutazione degli Investimenti" pp 17

Gisella Facchinetti, Roberto Ghise l li Ricci e Silvia Muzzioli [ 1997] "New Methods Far Ranking Triangular Fuzzy Numbers: An Investment Choice" pp 9

Mauro Dell'Amico e Silvano Martello [1997] "Reduction of the Three-Partition Problem" pp 16

Carlo Alberto Magni (1997] "IRR, ROE and NPV: a System1c Approach" pp. 20

Mauro Dell'Amico, Andrea Lodi e Francesco Maftloli [ 1997] "Solution of the cumulative assignment problem WJtb a well­structured tabu search method" pp. 25

Carlo Alberto Magni [1997] "La definizione d1 investimento e criterio del Tir ovvero: la realtà inventata" pp.16

211. Carlo Albero Magni [1997] "Critica alla definizione classica di investimento: tm approccio sistemi co" pp 17

212.

213.

214.

215.

Alberto Roverato [1997] "Asymptntic prinr lo posterior analysis !èn graphical gaussian models" pp.8

Tindara Addabbo (1997] "Povertà nel 1995 analisi stat1ca e dinamica sui redditi familiari" pp 64

Gian Paolo Caselli e Franca Manghi [ 1997] "La transizione da piano a mercato e il modello di Ising" pp 15

Tindara Addabbo [1998] "Lavoro non pagato e reddito esteso un'applicazione alle famiglie italiane in cui entrambi i coniug1 sono lavoratori dipendenti" pp 54

Page 47: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

216.

217.

218

219.

220.

221

222.

223.

224

225

226

227

228.

229

230.

Tindara Addabbo (1998] "Probabilità di occupazione e aspettative individuali" pp 36

Lara Magnani [ 1998] "Transazioni, contratti e organizzazioni: una chiave di lettura della teoria economica dell'organizzazione pp 39

Michele Lalla, Rosella Molinari e Maria Grazia Modena [ 1998] "La progressione delle carriere: i percorsi in cardiologia" pp 46

L ara Magnani [ 1998] "L'organizzazione delle transazioni di subfomitura nel distretto industriale" pp 40

Antonio Ribba [1998] "Recursive V AR orderings and identification of permanent an d transitory shocks" pp 12

Antonio Ribba [1998] "Granger-causality and exogeneity in cointegrated Var models" pp 5

Luigi Brighi e Marcello D'Amato (1998] "Optimal Procurement in Multiproduct Monopoly'' pp 25

Paolo Bosi, Maria Cecilia Guerra e Paolo Silvestri [ 1998]"La spesa sociale nel comune Modena" Rapporto intermedio pp 37

Mario Forni e Marco Lippi [ 1998] "On the Microfoundations of Dynamic Macroeconomics" pp 22

Roberto Ghise !li Ricci [ 1998] "Nuove Proposte di Ordinamento di Numeri Fuzzy.Una Applicazione ad un Problema di Finanziamento pp 7

Tommaso Minerva [1998] "Internet Domande e Risposte" pp 183

Tommaso Minerva (1998] "Elementi di Statistica Computazione. Parte Prima: .Il Sistema Operativo Unix ed il Linguaggio C" pp. 57

Tommaso Minerva and !rene Poli (1998] "A Gennetic Algorithms Selection Method for Predictive Neural Nets and Linear Modenls" pp. 60

Tommaso Minerva and !rene Poli [1998] "Building an ARMA Mode! by using a Genetic Algorithm" pp. 60

Mauro Dell'Amico e Paolo Toth [1998] "Algorithms and Codes for Dense Assignment Problems: the State ofthe Art" pp 35

231. Ennio Cavazzuti e Nicoletta Pacchiarotti [1998] "How to play an hotelling game in a square town" pp 12

232

233

234

235.

236

237

238.

239.

2411

241

242

Alberto Roverato e !rene Poli (1998] "Un algoritmo genetico per la selez10ne di modelli grafici" pp Il

Marcello D'Amato e Barbara Pistoresi [ 1998] "Delegation of Monetary Policy to a Centrai Banker with Private Infom1ation'' pp 15

Graziella Bertocchi e Michael Spagat [ 1998] "The Evolution of Modem Educatwnal Systems. Technical vs. Generai Educat1on, Distribut10nal Conflict, and Growth" pp 31

Andrè Durnas [ 1998] "Le systeme monetaire E uropeen" p p 24.

Gianna Boero, Gianluca Di Lorenzo e Costanza Torricelli [ 1998] "The influence of short rate predictability and monetary policy on tests of the expectations hypothesis: some comparative evidence" pp 30

Carlo Alberto Magni [1998] "A systemic rule for investment dec1sions: generalizations of the traditional DCF criteria and new concept10ns" pp 30

Marcello D'Amato e Barbara Pistoresi [ 1998] "Interest Rate Spreads Between Italy and Germany: 1995-1997" pp 16

Paola Bertolini e Alberto Bertacchini [1998] "Il distretto di lavorazioni carni suine in provincia di Modena" pp 29

Costanza Torricelli e Gianluca Di Lorenzo (1998] "Una nota sui fondamenti matematico-finanziari della teoria delle aspettative della struttura della scadenza" pp. 15

Christophe Croux, Mario Fomi e Lucrezia Reichlin [1998] "A Measure of Comovement for Economie Indicators: Theory and Empirics"pp 23

Carlo Alberto Magni [1998] "Note sparse sul dilemma del pngwmero (e non solo) pp 13

243.

244.

245.

246.

247.

248.

249.

250.

251.

252.

253.

254.

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

Gian Paolo Caselli (1998] The future ofmass consumption society m the former planned economies: a m acro approach p p 21

Mario Forni, Mare Hallin, Marco Lippi e Lucrezia Reichlin [ 1998] "The generalized dynamic factor mode!: identification and estimati an p p 35.

Carlo Alberto Magni [1998] "Pictures, language and research: the case offinance and financial mathematics" pp 35.

Luigi Brighi [1998] "Demand and generalizedmonotonicity" pp 21

Mario Forni e Lucrezia Reichlin [ 1998] "Risk and potential insurance in Europe" pp 20.

Tommaso Minerva, Sandra Paterlini e !rene Poli [ 1998] "A Genet1c Algorithm for predictive Neural Network Design (GANNIJ) A Financial Application" pp 12.

Gian Paolo Caselli Maurizio Battini [1998] "The Changmg Distribution ofEarnings in Poland from 1989 to 1996 pp. 9.

Mario Forni, Sergio Paba [ 1998] "Industria! Districts, Soci al Environment and Local Growth" Evidence from ltaly pp. 27.

L ara Magnani [ 1998] "Un'analisi del distretto industriale fondata sulla moderna teoria economica dell'organizzazione" pp. 46.

Mario Forni, Lucrezia Reich!in (1998] "Federai Policies and Local Economies: Europe and the US" pp. 24.

Luigi Brighi [ 1998] "A Case of Opti mal Regulation whit Multidimensional Private Infom1ation" pp 20

Barbara Pistoresi, Stefania Luppi [1998] "Gli investimenti diretti esteri nell'America Latina e nel Sud Est Asiatico: 1982-1995" pp 27

PaolaMengoli, Margherita Russo [1998] "Technical and Vocational Education and Training in Italy: Structure and Changes at National and Regional Leve!" pp 25.

Tindara Addabbo [1998] "On-the-Job Search a Microeconometric Analysis on Italian Data" pp. 29.

Lorenzo Bertucelli [1999] "Il paternalismo industriale' una discussione storiografica" pp.21.

Mario Forni e Marco Lippi (1999] "The generalized dynamic factor mode!: representation theory" pp. 25.

Andrea Ginzburg e Annamaria Simonazzi [1999] "Foreign debt cycles and the 'Gibson Paradox' · an interpretati ve hypothesis" pp 38.

Paolo Bosi [ 1999] "La riforma della spesa per assistenza dalla Commissione Onofri ad oggi: una valutazione in corso d'opera" pp 56.

Marcello D'Amato e Barbara Pistoresi [ 1999] "Go an d soothe the row. Delegation of monetary policy under private information" pp 23.

Michele Lalla [1999] "Sampling, Maintenance, anù Weightmg Schemes for Longitudinal Surveys a Case Study of the Textile an d Clothing Industry" pp. 27.

Pederzoli Chiara e Torricelli Costanza [ 1999] "Una rassegna su1 metodi di stima del Value at Risk (Var)"

Paolo Bosi, Maria Cecilia Guerra e Paolo Silvestri [ 1999] "La spesa sociale di Modena. La valutazione della condizione economica" pp 74.

Graziella Bertocchi e Michael Spagat [1999] "The Politics Co­optation" pp 14.

Giovanni Bonifati [ 1999] "The Capacity to Generate Investment. An analysis ofthe long-term determinants of investnnent" pp.22.

Tindara Addabbo e Antonella Caiumi (1999] "Extended Incarne ami Inequality by Gender in Italy" pp. 40

Antonella Caiumi e Federico Perali [ 1999] "Children and lntrahousehold Dìstribution of Resources: An Estimate of the Sharing Rule ofltalian Households" pp 24

Vincenzo Atella, Antonella Caiumi e Federico Ferali [1999] "Una scala di equivalenza non vale l'altra" pp.23

Page 48: Algoritmi Genetici per l'Evoluzione di Modelli Lineari ...merlino.unimo.it/campusone/web_dep/materiali_discussione/0284.pdf · Algoritmi Genetici per l'Evoluzione di Modelli Lineari

270 Tito Pietra e Paolo Siconolti [1999] "Volwne of Trade and Revelation oflnformation" pp. 33.

271 Antonella Picchio [ 1999] "La questione del lavoro non pagato nella produzione di servizi nel nucleo domestico (Household)" pp. 58.

272 Margherita Russo [1999] "Complementary Innovations and Generative Re!ationships in a Small Business Production System: the Case ofKervit" pp.27.

273 André Dumas [1999] "L'Economie de la drouge" pp. 12.

274 Andrè Dwnas [1999] "L'Euro à J'heure actuelle" pp. 12.

275 Michele Lalla Gisella Facchìnetti [ 1999] "La valutazione dell'attività didattica: un confronto tra scale dì misura e insiemi sfocati" pp.32.

276 Mario Biagioli [1999] "Formazione e valorizzazione del capitale umano: un'indagine sui paesi dell'Unione Europea" pp.21.

277 Mario Biagio!i [ 1999] "Disoccupazione, formazione del capitale umano e determinazione dei salari individuali: un'indagine su microdati nei paesi dell'Unione Europea" pp.15.

278 Gian Paolo Caselli Giulia Bruni [1999] Il settore petrolifero russo, ìl petrolio del Mar Caspio e gli interessi geopolitici nell'area" pp. 28.

279 Luca Gambetti [1999] "The Rea! Effect ofMonetary Policy: a New Var Identificati an Procedure" pp.22.

280 Marcello D'Amato Barbara Pistoresi [1999] "Assessing Potential Targets for Labour Market Reforms in Italy" pp. 8.

281 Gian Paolo Caselli Giulia Bruni e Francesco Pattarin [1999] "Gaddy and Ickes Mode! of Russi an Barter Economy: Some Critìcisms and Considerations" pp. l O.

282 Silvia Muzzioli Costanza Torricelli [1999] "A Mode! far Prìcing an Option wìth a Fuzzy Payoff" pp. 13.

283 Antonella Caìumi Federico Perali [1999] "Povertà e Welfare ìn Italia in Relazione alla Scelta della Scala dì Equivalenza" pp.25.