Comparazione sistemi di apprendimento - C4.5 e ITI

8/7/2019 Comparazione sistemi di apprendimento - C4.5 e ITI

1/21

Comparazione tra sistemi di apprendimento:

il caso di C4.5 e ITI

Davide Aresta

Esame di Intelligenza ArtificialeCorso di laurea in Informatica Magistrale

Universit degli Studi di Bari

1


2/21

Indice generale

Capitolo 1.Introduzione........................................................................................................................3

Capitolo 2.Sistemi di apprendimento...................................................................................................3

2.1C4.5.............................................................................................................................................3

2.2ITI...............................................................................................................................................4

Capitolo 3.Data set...............................................................................................................................4

3.1Credit Approval...........................................................................................................................5

3.2Car Evaluation Database.............................................................................................................7

Capitolo 4.Preparazione ed esecuzione................................................................................................8

4.1K-fold cross validation................................................................................................................9Capitolo 5.Analisi dei dati e interpretazione dei risultati.....................................................................9

5.1Credit Approval ........................................................................................................................10

5.2Car Evaluation Database ..........................................................................................................16

Capitolo 6.Conclusioni.......................................................................................................................21

2


3/21

Capitolo 1. Introduzione

Lo scopo principale di questo documento quello di esaminare approfonditamente le differenze tra

due sistemi di apprendimento che fanno riferimento alla famiglia di algoritmi che generano alberi di

decisione. In seguito verranno elencate e approfondite le peculiarit dei sistemi presi in esame, idata set utilizzati per compararli e i risultati dei test statistici effettuati sui risultati, al fine di

scoprire particolari comportamenti delle due soluzioni proposte.

Capitolo 2. Sistemi di apprendimento

I sistemi di apprendimento utilizzati sono, nella fattispecie, due generatori di alberi di decisione :

C4.5 ed Incremental Tree Inducer (ITI). In breve, un albero di decisione descrive una struttura ad

albero dove i nodi foglia rappresentano le classificazioni e le ramificazioni l'insieme delle propriet

che portano a quelle classificazioni. Di conseguenza ogni nodo interno risulta essere una macro-

classe costituita dall'unione delle classi associate ai suoi nodi figli. Il predicato che si associa ad

ogni nodo interno (sulla base del quale avviene la ripartizione dei dati) chiamato condizione di

split.

Un'altra caratteristica in comune fra C4.5 e ITI quella di avere un formato di rappresentazione dei

dati di training uguale che ha portato a pochi cambiamenti nella struttura dei data set e, quindi, ha

facilitato l'intera comparazione.

2.1 C4.5

C4.5 un sistema di apprendimento, come precedentemente scritto, appartenente alla famiglia deigeneratori di alberi di decisione. L'algoritmo alla base di questo sistema stato inventato da Ross

Quinlan che, a sua volta, aveva gi creato il sistema di apprendimento ID3. In seguito, stata

rilasciata una versione successiva a C4.5 col nome di C5 o See5.

Principalmente C4.5 costruisce alberi di decisione da dati di esempio (training data) e sfrutta per

l'elaborazione un'importante caratteristica: l'entropia dell'informazione. I dati di training sono

rappresentati da un insiemeE=e1,e2,... di esempi gi classificati. Ogni esempio ei=x1,x2,... non

altro che un vettore dovex1,x2,... rappresentano gli attributi o le caratteristiche proprie dell'esempio.

3


4/21

A questi attributi viene aggiunto un insieme di classi C=c1,c2,... dove c1,c2,... rappresentano le classi

a cui ogni esempio appartiene.

Essendo un generatore di alberi di decisione, C4.5 implementa anche ilpruning utile

all'alleggerimento dell'albero prodotto dalla computazione che non influisce direttamente sulla

bont del modello stesso.

A corredo del generatore di alberi fornito anche un generatore di regole (C4.5rules) che crea un

insieme di regole a partire da un albero precedentemente prodotto con C4.5.

2.2 ITI

Incremental Tree Inducer, come dice lo stesso nome, un sistema di apprendimento per la

generazione di alberi di decisione con sviluppo incrementale. Proprio quest'ultima caratteristica

molto importante, perch permette al sistema di sviluppare una soluzione man mano che viene

fornita nuova conoscenza, senza ricostruire l'albero da zero. In verit possibile, tramite appositi

comandi, utilizzare ITI anche in modalit batch (in seguito verranno presentate le differenze

prestazionali dei due modalit di esecuzione del sistema).

Come per C4.5, anche ITI tratta dati di tipo simbolico piuttosto che numerico ed capace di

effettuare ilpruning e trattare i valori omessi dei traning set.

Capitolo 3. Data set

I data set utilizzati per la comparazione tra i due sistemi sono Car evaluation database (CAR) e

Credit Approval (CRX). La scelta caduta su questi due data set poich presentano delle

caratteristiche particolarmente utili al fine della comparazione. possibile vedere a confronto lecaratteristiche in dettaglio dei due data set:

Nome data set Credit Approval Car Evaluation Database

Numero istanze 690 1728

Numero classi 2 4

Numero attributi 15 6

Tipo attributi Nominale e simbolico Nominale

4


5/21

Valori mancanti Si (5%) No

Tabella 1: confronto delle caratteristiche dei data set

Come si pu evincere dalla tabella 1, i data set hanno una numerosit di istanze diversa (anche se

non molto marcata), un numero di classi simile, ma un numero di attributi diverso. Ci che

distingue maggiormente il data set Credit Approval l'assenza di alcuni valori del training set e la

presenza di due tipi di attributi, invece che del solo tipo nominale del data set Car Evaluation

Database.

3.1 Credit Approval

Come suggerisce lo stesso nome, il data set Credit Approval tratta dei dati di carte di credito a cuiper son stati sostituiti i valori reali con altri fittizi per mantenere l'anonimato sugli stessi. Il data set

interessante poich ha un buon mix di attributi di tipo continuo, nominale con piccoli valori e

nominale con valori pi grandi ed ha anche dei missing values.

Gli attributi sono cosi fatti:

Nome Attributo Valori possibili

A1 b, a

A2 continuous

A3 continuous

A4 u, y, l, t

A5 g, p, gg

A6 c, d, cc, i, j, k, m, r, q, w, x, e, aa, ff

A7 v, h, bb, j, n, z, dd, ff, o

A8 continuous

A9 t, fA10 t, f

A11 continuous

A12 t, f

A13 g, p, s

A14 continuous

A15 continuous

A16 (attributo di classe) +,-

Tabella 2: confronto dei tipi di attributi utilizzati dai data set

5


6/21

I missing values, invece, rappresentano il 5% dell'intero data set e sono cosi distribuiti tra gli

attributi:

Nome Attributo Quantit di valori mancantiA1 12

A2 12

A4 6

A5 6

A6 9

A7 9

A14 13

Tabella 3: nel data set Credit Approval alcune istanze non sono complete o completamentemancanti

La distribuzione delle istanze nelle classi cosi composta:

Classe Numero di istanze appartenenti Percentuale

+ 307 44,50%

- 383 55,50%

Tabella 4: distribuzione delle istanze in base alle loro classi

3.2 Car Evaluation Database

Le informazioni contenute in questo data set sono utili alla rappresentazione modellare di alcuni

modelli di auto secondo delle caratteristiche ben precise che fanno riferimento agli attributi stessi

del data set. stato ricavato da un modello di decisione preesistente utile allo studio del

comportamento di DEX ( un programma interattivo per lo sviluppo di modelli di decisioni multi-

attributo qualitativi).

Ecco le caratteristiche del data set in tabella:

6


7/21

Nome Attributo Valori possibili

buying v-high, high, med, low

maint v-high, high, med, low

doors 2, 3, 4, 5-more

persons 2, 4, morelug_boot small, med, big

safety low, med, high

Tabella 5 : caratteristiche in dettaglio del data set CAR

La distribuzione delle istanze per classi (o categorie predittive) cosi composta:

Classe Numero di istanze appartenenti Percentuale

Unacc 1210 70,023%

Acc 384 22,222%

good 69 3,993%

v-good 65 3,762%

Tabella 6: distribuzione delle istanze per classe

7


8/21

Capitolo 4. Preparazione ed esecuzione

Uno dei due data set ha avuto bisogno di qualche modifica prima di poterlo utilizzare: ITI

interpretava male alcuni degli attributi contenuti nel data set Car Evaluation Database e, quindi, stato necessario apportare dei piccoli cambiamenti alle istanze. stata, quindi, necessaria una

sostituzione di alcuni valori numerici (2,3,4,5) con valori simbolici (two,three,four,five) per far si

che ITI leggesse correttamente il contenuto del data set e l'esecuzione andasse a buon fine.

I sistemi di apprendimento sono stati utilizzati nelle loro ultime versioni disponibili:

C4.5 versione R8

ITI versione 3.10

Entrambi i sistemi sono stati compilati e utilizzati in ambiente Linux (Ubuntu 10.10 x86).

Sia C4.5 e ITI utilizzano lo stesso formato di dati, anche se ITI ha bisogno di una strutturazione

diversa per quanto riguarda i nomi dei file. Ad esempio, per C4.5, i file necessari devono presentarsi

in questo modo:

[nome_file].names

[nome_file].data

[nome_file].test

per ITI, invece, i file devono essere rinominati in questo modo, in sottocartelle differenti:

names

[nome_file].data

[nome_file_test].data

8


9/21

4.1 K-fold cross validation

Al fine di confrontare i due sistemi si ricorsi all'utilizzo della tecnica nota come k-fold cross

validation: un metodo statistico per validare modelli predittivi; il data set viene diviso in k

sottoinsiemi. Ogni volta viene scelto un k sottoinsieme del data set principale come test set, mentre i

dati di training vengono ricavati dalle istanze degli altri sottoinsiemi rimanenti; i sistemi di

apprendimento prima elaborano il training set, poi eseguono il proprio algoritmo sul test set (istanze

di dati non comuni, ovviamente, al training set) per verificare quanto precisa la classificazione dei

sistemi stessi. Il tutto viene ripetuto k volte visto che i sottoinsiemi sono k.

9


10/21

Capitolo 5. Analisi dei dati e interpretazione dei risultati

In questa sezione saranno presentati i risultati delle computazioni dei due sistemi di apprendimento

su entrambi i data set e, in seguito, l'interpretazione di ci che stato prodotto dagli stessi sistemi.

L'interpretazione dei risultati sar effettuata attraverso l'utilizzo del test statistico che prende il nome

di test di Wilcoxon-Mann-Whitney o anche soltanto test di Wilcoxon: un test di tipo non

parametrico utile a verificare se due campioni statistici appartengono alla stessa popolazione. In

particolare, in questo caso, serve a sottolineare se ci sono differenze sostanziali tra i due sistemi di

apprendimento in quanto a precisione nella classificazione dei dati di test nel merito dell'esecuzione

della 10-fold cross validation. Sono stati, inoltre, memorizzati i tempi di esecuzione degli algoritmi

per ogni fold (tramite l'utilizzo del comando time in Linux) cosi da poter confrontare le prestazioni

in ordine di efficienza dei due sistemi di apprendimento. Pi precisamente il valore tempo registrato

rappresentato dalla media dei valori dati in output dal comando time (real) eseguito 3 volte per

ogni fold.

Saranno, inoltre, utilizzati dei grafici di tipo istogramma che mettono in risalto i risultati ottenuti e

riassunti in tabelle e si utilizzer il software statistico R al fine di portare a compimento i test

statistici e disegnare i box plot utili, anch'essi, alla interpretazione dei risultati.

Un'altra nota importante da considerare la modalit di calcolo dell'accuratezza di classificazione

dei due sistemi di apprendimento: mentre ITI fornisce un sistema automatico per calcolare

l'accuracy, per quanto riguarda C4.5, quest'ultima stata calcolata manualmente. La formula

utilizzata per il calcolo dell'accuratezza la seguente:

Accuratezza foldX=istanzeclassificate correttamente

istanzetotali

Ovviamente, la media calcolata dal calcolo dell'accuratezza di tutti i fold sar poi confrontata con la

media dei dati di accuracy prodotte da ITI.

5.1 Credit Approval

L'esecuzione della 10-fold cross validation utilizzando C4.5 sul data set Credit Approval ha portato

ai seguenti risultati:

10


11/21

Numero Fold Accuracy Tempo di esecuzione

1 82,456% 0,060s

2 83,319% 0,022s

3 82,456% 0,036s

487,691% 0,021s

5 79,796% 0,028s

6 92,530% 0,053s

7 77,292% 0,058s

8 90,033% 0,023s

9 80,687% 0,034s

10 84,864% 0,036s

Medie 84,112% 0,037s

Tabella 7: accuratezza di C4.5 e data set CRX (Credit Approval).

Si pu notare da subito come i tempi di elaborazione dei 10 fold da parte di C4.5 siano molto rapidi

a fronte delle dimensioni di 690 (622 per il training e 68 per il test circa per ogni fold) istanze

presenti nel data set in esame.

Vediamo come si comporta, invece, ITI in modalit incrementale:


1 73,529% 0,35s

2 82,353% 0,358s

3 73,529% 0,326s

4 82,609% 0,37s

5 75,362% 0,349s

6 81,159% 0,435s

7 76,812% 0,336s

8 82,857% 0,392s

9 81,429% 0,384s

10 82,857% 0,371s

Medie 79,250% 0,367s

Tabella 8: i risultati di ITI (incremental mode) con CRX.

Si possono fare subito due deduzioni: la prima indica che C4.5 , per questo data set, ha un

11


12/21

comportamento migliore di ITI per quanto riguarda l'accuratezza dei risultati; la media dice

chiaramente che C4.5 classifica correttamente pi del'84% delle istanze del data set, mentre ITI si

ferma al 79% circa. La seconda deduzione ci fa capire come l'approccio incrementale di ITI paghi

sotto l'aspetto delle prestazioni intese come tempo di elaborazione: C4.5 mediamente pi veloce di

ITI di 0,32 secondi.Essendo questi risultati platealmente a favore di C4.5, per pura curiosit, ma, anche per confermare

che sia la natura incrementale di ITI a sfavorirlo, nel confronto prestazionale stata eseguita la 10-

fold cross validation utilizzando ITI in modalit fast(modalit batch).

I risultati sono i seguenti:


1 73,529% 0,039s

2 82,353% 0,03s

3 73,529% 0,037s

4 82,609% 0,03s

5 75,362% 0,031s

6 81,159% 0,042s

7 76,812% 0,038s

8 82,857% 0,04s9 81,429% 0,038s

10 82,857% 0,028s

Medie 79,250% 0,0353s

Tabella 9: i valori di accuratezza di ITI in modalit batch. I tempi si riducono drasticamente.

L'accuratezza rimane la stessa, ma i tempi di esecuzione scendono di dieci volte: basta dare

un'occhiata alle due medie temporali:

Media tempo di esecuzione ITI incremental 0,367s

Media tempo di esecuzione ITI batch 0,0353s

Le prestazioni in ordine di tempo di ITI si avvicinano, in modalit batch, molto a quelle di C4.5.

Il grafico sotto riportato mette in risalto i risultati riportati in tabella per quanto riguarda

l'accuratezza.

12


13/21

Pu essere, inoltre, utile vedere come cambiano le prestazioni di C4.5 e ITI (batch); possibile farlo

guardando il grafico sotto riportato.

13

Illustrazione 1: il grafico mette a confronto i valori di accuratezza di C4.5 e di ITI. Il valore medio

rappresentato dalle linee colorate semitrasparenti.

1 2 3 4 5 6 7 8 9 10

0,000

10,000

20,000

30,000

40,000

50,000

60,000

70,000

80,000

90,000

100,000

Accuracy C4.5 - ITI

Credit Approval

C4.5

ITI

Fold

Accuracy

Illustrazione 2: in verde rappresentato il valore massimo rilevato, in giallo il minimo.

1 2 3 4 5 6 7 8 9 10

0

0,2

0,4

0,6

0,8

1

1,2

C4.5 - ITI

Accuracy/Time Credit Approval

C4.5

ITI

Fold

Valorinormaliz

zati


14/21

I valori rappresentati nell'illustrazione 2 mostrano le prestazioni di C4.5 e di ITI in ordine di

accuratezza/tempo di esecuzione; i valori, poi, sono stati normalizzati al massimo del risultato

ottenuto (Fold 4 in questo caso), ed , inoltre, rappresentata la media attraverso l'utilizzo delle linee

che attraversano l'intero grafico. facile evincere come C4.5 vinca, seppur di poco, per

accuratezza e per tempo di esecuzione il confronto con ITI.

Passiamo all'analisi dei box plot:

Uno sguardo rapido alla illustrazione 3, sopra riportata, mette in risalto la diversa distribuzione dei

dati di accuratezza provenienti dai due sistemi di apprendimento: C4.5 ha una forbice pi ampia di

valori restituiti, non ci sono outliers, e la mediana pari a 83,088%; ITI, invece, ha un range di

valori pi ristretto, una distribuzione dei valori massimi pi vicina al valore della mediana

(81,294%),ma anch'esso non presenta outliers.

14

Illustrazione 3: box plot raffigurante la distribuzione dei valori diaccuratezza calcolati da C4.5 e ITI


15/21

C4.5 ITI

Minimo 78,260% 73,529%

Massimo 92,753% 82,857%

Mediana 83,088% 81,294%

Media 84,480% 79,250%

Tabella 10: dettaglio accuratezza dei fold per il data set CRX

Dalla tabella possibile dedurre quale possa essere un risultato del test di Wilcoxon: esiste una

piccola possibilit che l'ipotesi nulla H0 (ipotesi che ci suggerisce che non c' alcuna differenza

sostanziale tra i valori rilevati di accuratezza fra i due campioni statistici) non venga rigettata, vista

la vicinanza di valori della mediana per entrambi i sistemi di apprendimento.

Il Wilcoxon test, effettuato utilizzando l'applicazione R, smentisce parzialmente le ipotesi fatte in

precedenza: il p-value registrato minore (seppure di pochissimo) della soglia di confidenza (fissata

di default a 0.05), quindi, c' differenza statisticamente significativa di prestazioni, in ordine di

accuratezza, di C4.5 rispetto ad ITI, almeno per quanto riguarda questo data set; l'ipotesi nulla H0,

quindi, rigettata, anche se di poco, e viene accettata l'ipotesi di test H 1 che stabilisce la differenza

statistica fra i due campioni.

5.2 Car Evaluation Database

Ecco, in tabella 11, i risultati della 10-fold cross validation per il secondo data set preso in esame. I

risultati si riferiscono al sistema di apprendimento C4.5.

15

> wilcox.test(Dataset$V1, Dataset$V2, correct=FALSE)

Wilcoxon rank sum test

data: Dataset$V1 and Dataset$V2

W = 76.5, p-value = 0.04467


16/21


1 94,152% 0,029s

2 92,397% 0,027s

3 93,604% 0,03s

491,279% 0,029s

5 94,186% 0,023s

6 86,705% 0,016s

7 90,229% 0,022s

8 92,528% 0,029s

9 92,528% 0,032s

10 91,954% 0,019s

Medie 91,956% 0,026s

Tabella 11: valori di accuratezza per C4.5 e data set CAR

Dopo aver notato come l'accuratezza media di classificazione delle istanze di questo data set superi

il 90% in C4.5, importante analizzare quale sia il comportamento di ITI (in modalit

incrementale) in questo caso.


1

95,906% 0,156s2 98,256% 0,15s

3 93,023% 0,165s

4 97,674% 0,15s

5 97,093% 0,153s

6 95,954% 0,16s

7 93,678% 0,151s

8 97,126% 0,168s

9 98,276% 0,148s10 91,954% 0,163s

Medie 96,359% 0,156s

Tabella 12: valori di accuratezza di ogni fold per ITI e data set CAR

La differenza di media di accuratezza nella classificazione delle istanze fra i due sistemi pari quasi

al 5%; ci viene confermato dal grafico sottostante.

16


17/21

Ci sono pochi dubbi guardando questo grafico: ITI pi preciso di C4.5. La pecca di ITI, per,

il fatto che abbia tempi lunghi di computazione in modalit incrementale, visto che la differenza tra

le medie di tempo di calcolo fra i due sistemi per questo data set pari a 0,13 secondi circa.

Anche in questo caso, non solo per curiosit, ma per dovere di precisione, ho effettuato una

misurazione delle prestazioni in ordine di accuratezze e di tempo di ITI in versione batch.


1 95,906% 0,033s

2 98,256% 0,03s

3 93,023% 0,033s

4 97,674% 0,034s

5

97,093% 0,03s6 95,954% 0,033s

7 93,678% 0,032s

8 97,126% 0,021s

9 98,276% 0,019s

10 91,954% 0,025s

Medie 96,359% 0,029s

Dalla tabella sovrastante facilmente deducibile come i tempi di ITI eseguito in modalit batch

17

Illustrazione 4: accuratezza per ogni fold riscontrata per questo secondo data set.

1 2 3 4 5 6 7 8 9 10

80

82

84

86

88

90

92

94

96

98

100

Accuracy C4.5 - ITI

Car evaluation dataset

C4.5

ITI

Fold

Accuracy%


18/21

siano direttamente confrontabili con quelli di C4.5. In aggiunta, le prestazioni riguardanti

l'accuratezza non cambiano; il prossimo grafico mette a confronto C4.5 e ITI (batch) misurando le

prestazioni in ordine di accuratezza su tempo.

I valori rappresentati in grafico sono normalizzati al massimo valore di accuracy/time risultante dai

due sistemi (in questo caso il fold 6 di C4.5). Dal grafico si evidenzia come le prestazioni in

relazione al tempo diano una spinta a C4.5, visto che la media superiore (seppur di pochissimo) a

quella fatta registrare da ITI.

Tralasciando ITI in modalit batch, utile considerare soltanto i valori di accuratezza restituiti

direttamente dai sistemi: i seguenti box plot forniscono una maggiore prospettiva di come sono

distribuiti i dati.

18

Illustrazione 5: il grafico confronta il rapporto accuratezza/tempo di esecuzione per il data setCAR. Le medie premiano C4.5 anche in questo confronto

1 2 3 4 5 6 7 8 9 10

0

0,2

0,4

0,6

0,8

1

1,2

C4.5 - ITI (batch)

Accuracy/Time - Car evaluation dataset

C4.5

ITI

Fold

Valorenormal i

zzato


19/21

Le mediane dei risultati di accuratezza dei due sistemi sono molto lontane, cosi come la forbice di

valori rappresentati nel grafico. Il valore della mediana per C4.5 intorno al 93% ,mentre presente

un outlier con valore al di sotto del 88%; ITI, invece, ha una mediana molto vicina al 97%, una

concentrazione di valori pi verso l'alto nel suo range e un outlier con valore vicina al 93%.

I valori di outlier sono dati dal risultato del fold 6 per C4.5 (con 86,705%) e dal risultato di

accuratezza del fold 3 per ITI (con 93,023%).Le differenze sono abbastanza evidenti, come possibile vedere in tabella 13.

C4.5 ITI

Minimo 86,705% 93,186%

Massimo 94,186% 98,276%

Mediana 92,463% 96,823%

Media 91,957% 96,354%

Tabella 13: confronto dei dettagli sulla distribuzione dei valori di accuratezza dei due sistemi a

confronto.

19

Illustrazione 6: il grafico a scatola e baffi offre una panoramica ottimalesulla distribuzione dei dati rilevati.


20/21

Non resta che confermare tutti i nostri sospetti sulle differenze sostanziali tra i risultati prodotti dai

due sistemi di apprendimento utilizzando un test statistico come il Wilcoxon.

L'ipotesi H0, come per il caso precedente, suppone che la differenza tra i due campioni in termini di

accuratezza statisticamente non importante (cio il risultato del p-value, ricavato dal test, sar

inferiore alla soglia di confidenza fissata a 0,05). Se l'ipotesi H 0 rigettata, allora si riterr valida

l'ipotesi H1 per cui i due campioni sono statisticamente differenti in modo significativo.

Come previsto rigettiamo l'ipotesi H0 in virt del fatto che il p-value risultante dal test di Wilcoxon

di molto inferiore alla soglia di confidenza.

In definitiva, il comportamento di ITI per quanto riguarda l'accuratezza delle classificazioni delle

istanze del data set corrente risultato migliore di C4.5.

Capitolo 6. Conclusioni

Alla luce dell'analisi dei risultati, dei grafici e dei test statistici si pu stabilire che il comportamento

dei due sistemi di apprendimento dipende da vari fattori relativi ai data set quali:

Numerosit delle istanze

Numero di attributi

Numero di classi

Valori mancanti

In caso di valori mancanti e poche istanze, C4.5 ha dimostrato di comportarsi meglio di ITI, quindi,

si suppone, che quei data set con queste caratteristiche siano meglio digeriti dalla creazione di

Ross Quinlan. Un numero maggiore di istanze, senza valori mancanti, e un numero di classi

maggiore oltre che un unico tipo di attributi, favorisce, invece, ITI.

In generale, per, considerando la variabile tempo, la soluzione C4.5 si comporta meglio di ITI,

poich quest'ultimo , di default, utilizzato in modalit incrementale. Anche in modalit batch, in

20

> wilcox.test(Dataset$V1, Dataset$V2, correct=FALSE)

Wilcoxon rank sum test

data: Dataset$V1 and Dataset$V2

W = 5, p-value = 0.0006666


21/21

verit, C4.5 mostra comunque prestazioni migliori in ordine di tempo: questo un dettaglio da non

trascurare, poich, per data set di dimensioni maggiori, i tempi si allungano anche di molto e risulta

essenziale ridurre al minimo l'influenza di questa variabile.

21

Documents

Comparazione sistemi di apprendimento - C4.5 e ITI