19
Accuratezza della Failure Analysis in sistemi complessi: verso un algoritmo di coalescenza ottimale Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica relatore Ch.mo prof. Domenico Cotroneo correlatore Ing. Antonio Pecchia candidato Marianna Nacar Matr. 885/565 Accuratezza della Failure Analysis in sistemi complessi: verso un algoritmo di coalescenza ottimale Anno Accademico 2011/2012

tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

tesi di laurea specialistica

relatore

Ch.mo prof. Domenico Cotroneo

correlatore

Ing. Antonio Pecchia

candidato

Marianna Nacar

Matr. 885/565

Accuratezza della Failure Analysis

in sistemi complessi:

verso un algoritmo di coalescenza ottimale Anno Accademico 2011/2012

Page 2: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

Log-Based Field Failure Data Analysis (FFDA)

■ Log:

• traccia di esecuzione di un sistema

• testo in lingua naturale o strutturati

• su file o database relazionale

■ Scopo: • dinamiche di error/failure

• dependability bottlenecks

• availability, MTBF, …

system

raw

logs

MANIPULATION

ANALYSIS

Page 3: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

1167655228 c238 DEV c238__+BEGIN_HARDWARE_ERROR_STATE_AT_CPE

1167655228 c238 DEV c238__+Platform_PCI_Component_Error_Info_Section

1167655229 c238 DEV c238__+_PCI_Component_Error_Detail:

__Component_Info:_Vendor_Id_=%_%,_Device_Id_=%_%,_Class_Code_=%_%,_Seg/Bus/Dev/Func_=%_%/%/%/

1167657137 c238 DEV c238__+BEGIN_HARDWARE_ERROR_STATE_AT_CPE

1167657137 c238 DEV c238__+END_HARDWARE_ERROR_STATE_AT_CPE

1167657137 c238 DEV c238__+Platform_PCI_Component_Error_Info_Section

1167657140 c238 DEV c238__+BEGIN_HARDWARE_ERROR_STATE_AT_CPE

1167657141 c238 DEV c238__+Platform_PCI_Component_Error_Info_Section

1167657141 c238 DEV c238__+_PCI_Component_Error_Detail:

__Component_Info:_Vendor_Id_=%_%,_Device_Id_=%_%,_Class_Code_=%_%,_Seg/Bus/Dev/Func_=%_%/%/%/%

1167657141 c238 DEV c238__+_Platform_Specific_Error_Detail:

[... omissis ... ] +1160 entries more!

timestamp, node, type text-message

Un esempio: il fallimento di una scheda PCI

Le notifiche degli errori possono essere ridondanti …

Page 4: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

T1 T2

t

Coalescenza

T3

T1 T2 T3 T4

T1 T2 T3 T4

t

T5

t

Collision

Truncation

Page 5: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

t

t

t

NODE 1

NODE 2

NODE 3

system log

T1 T2 T3 T4

t

Sistemi multi-nodo

T5

F1

F2

F5

F4

F3

T1

T2 T3

T4

t

T5

Page 6: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

Contributo

F* = FWi + cWi

- tWi

Verso un algoritmo di Coalescenza ottimale

#Tuple ≈ #Fallimenti reali

Valutazione della distorsione introdotta da collisions e

truncations sulle misure di dependability (MTBF)

Page 7: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

Tuple heuristic

La scelta della W è critica per

ottenere misure accurate!

“Knee rule”

[1] Esempio: first(T4)-last(T3)=248s (>W = 240s)

(Tuple3) 1167657137 c238 DEV c238__+BEGIN_HARDWARE_ERROR_STATE_AT_CPE 1167657137 c238 DEV c238__+END_HARDWARE_ERROR_STATE_AT_CPE

1167657137 c238 DEV c238__+Platform_PCI_Component_Error_Info_Section

(Tuple4) 1167657550 c238 DEV c238__+BEGIN_HARDWARE_ERROR_STATE_AT_CPE

1167657550 c238 DEV c238__+Platform_PCI_Component_Error_Info_Section

1167657550 c238 DEV c238__+_PCI_Component_Error_Detail:

__Component_Info:_Vendor_Id_=*,_Device_Id_=*,_Class_Code_=*,_Seg/Bus/Dev/Func_=*

first(Ti) : timestamp prima entry nella i-esima tupla

last(Ti) : timestamp ultima entry nella i-esima tupla

[1] J.P. Hansen, D.P. Siewiorek. “Models for time coalescence in event logs”. Proc. Int’l Symposium on Fault-Tolerant Computing, pages 221-227, 1992

Approccio

Page 8: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

Soluzione proposta

Calcolo ttWi

:

F* = FW∞ + cW∞

- tW∞

tW∞ = 0

F* = FW∞ + cW∞

ttWi

= FWi + cWi

- F*

Tupling modificato

W∞

Modifica Raggruppamenti

T1 T2 T3 T4

T1 T2

T3 T4

[2] A. Pecchia, D. Cotroneo, Z. Kalbarczyk, R. Iyer: Improving LogBased Field Failure Data Analysis of Multi-Node Computing Systems International Conference on

Dependable Systems and Networks (DSN), pp 97-108, 2011

[2]

Page 9: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

Definizione di W∞

Legato ai tempi di gestione della macchina

Può essere fornito dagli amministratori

Può essere calcolato dai dati

W∞ = 360 min

DEF . : date due tuple A e B contenenti alerts generati dallo stesso

nodo X, tale fenomeno si considera una truncation se la distanza

temporale tra A e B è inferiore a W∞

Page 10: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

Distorsione introdotta: Mean Time Between Failures (MTBF)

T : tupling T* : euristica proposta All’aumentare di W :

T T*

MTBF ↑ cost

# tuple ↓ cost

Wi T count MTBF(h) T* count MTBF(h)

240 276 3,62 133 7,49

300 265 3,77 133 7,49

600 238 4,20 133 7,49

900 225 4,44 134 7,43

1800 182 5,50 134 7,43

3600 152 6,58 134 7,43

7200 121 8,24 132 7,55

14400 61 16,48 130 7,66

21600 45 22,47 130 7,66

Coefficiente di variazione

T T*

CV 0,7 0,01

0

5

10

15

20

25

0 5000 10000 15000 20000

MTB

F (h

)

Cwin (sec)

T

T*

Page 11: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

Conclusioni

F* = FW + cW – tW

Ridotta sensibilità alla W

Sviluppo metodologia per l’individuazione dei fenomeni di

truncation

Sviluppi futuri

Validazione per più supercalcolatori

Indagine per l’individuazione di W∞

Page 12: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

Grazie per l’attenzione…

…domande?

Page 13: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

Approfondimenti

Page 14: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

Determinazione dei fenomeni di collision

t(ei) : timestamp

h(ei) : nodo che ha generato ei

m(ei) : messaggio

Ni : # tuple contenenti ei

Nj : # tuple contenenti ej

Ni,j : # tuple contenenti ei ed ej

N : # tuple totali

Esempio: t(ej)-t(ej)=220s (<W = 240s)

(ei) 1174245458 master NET stream_eof connection to *

is bad remote service may be

down message may be corrupt or

connection may have been

dropped remotely. Node state to

down

(ej) 1174245678 c324 PRO +BEGIN HARDWARE ERROR STATE AT

CMC

P(ei , ej)

P(ei ) P(ej) lift(ei , ej) = P(ei )=Ni/N P(ej)=Nj/N P(ei, ej)=Nij/N

[2] A. Pecchia, D. Cotroneo, Z. Kalbarczyk, R. Iyer: Improving LogBased Field Failure Data Analysis of Multi-Node Computing Systems International Conference on

Dependable Systems and Networks (DSN), pp 97-108, 2011

[2]

Page 15: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

Analisi dei fenomeni di truncation

Esempio: first(T4)-last(T3)=248s (>W = 240s)

(Tuple3) 1167657137 c238 DEV c238__+BEGIN_HARDWARE_ERROR_STATE_AT_CPE

1167657137 c238 DEV c238__+END_HARDWARE_ERROR_STATE_AT_CPE

1167657137 c238 DEV c238__+Platform_PCI_Component_Error_Info_Section

(Tuple4) 1167657550 c238 DEV c238__+BEGIN_HARDWARE_ERROR_STATE_AT_CPE

1167657550 c238 DEV c238__+Platform_PCI_Component_Error_Info_Section

1167657550 c238 DEV c238__+_PCI_Component_Error_Detail:

__Component_Info:_Vendor_Id_=*,_Device_Id_=*,_Class_Code_=*,_Seg/Bus/Dev/Func_=*

first(Ti) : timestamp prima entry nella i-esima tupla

last(Ti) : timestamp ultima entry nella i-esima tupla

W∞

W (time)

#tr

un

ca

tio

ns

F* = FW∞ + cW∞

- tW∞

tW∞ = 0

ttWi

= FWi + cWi

- F*

Page 16: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

Caso di studio

Periodo di monitoraggio : 3 mesi

Architettura :

Formato degli error events (syslog) : Timestamp

Name

Type

Msg

W0 = 240 sec

T=276

I. Analisi di sensitività W0

II. Tupling calcolo Fwi

III. Tupling modificato calcolo cWi

Page 17: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

Caso di studio: definizione di W∞ e calcolo dei tsWi

Legato ai tempi di gestione della macchina

Può essere fornito dagli amministratori

Può essere calcolato dai dati

individuazione possibili truncations

calcolo interarrivi

CDF

W∞ = 360 min

Wi Fi tsi ci F*

i = Fi + ci - tsi

240 276 153 12 135

300 265 142 13 136

600 238 120 16 134

900 225 109 19 135

1800 182 90 41 133

3600 152 78 56 130

7200 121 59 73 135

14400 61 10 78 129

21600 45 0 85 130

DEF . : date due tuple A e B contenenti alerts generati dallo stesso

nodo X, tale fenomeno si considera una truncation se la distanza

temporale tra A e B è inferiore a W∞

Page 18: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

Confronto ttWi

e tsWi

Calcolo ttWi

:

F* = FW∞ + cW∞

- tW∞

tW∞ = 0

Wi Fi ci F* tti

240 276 12 130 158

300 265 13 130 148

600 238 16 130 124

900 225 19 130 114

1800 182 41 130 93

3600 152 56 130 78

7200 121 73 130 64

14400 61 78 130 9

21600 45 85 130 0

tsi

153

142

120

109

90

78

59

10

0

F* = FW∞ + cW∞

ttWi

= FWi + cWi

- F*

Page 19: tesi di laurea specialistica Accuratezza della Failure Analysis in … · 2018. 3. 12. · Facoltà di Ingegneria Corso di Studi in Ingegneria Informatica tesi di laurea specialistica

Accuratezza della Failure Analysis in sistemi complessi:

verso un algoritmo di coalescenza ottimale

Facoltà di Ingegneria

Corso di Studi in Ingegneria Informatica

Soluzione proposta

Si parte dal raggruppamento ottenuto con l’algoritmo di tupling

modificato :

1. Valutazione degli interarrivi tra tuple contenenti entry generate dallo

stesso nodo

2. Selezione degli interarrivi inferiori a W∞ ed ordinamento in senso

crescente

3. Risoluzione delle prime truncations mediante l’unione delle tuple