Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
tesi di laurea specialistica
relatore
Ch.mo prof. Domenico Cotroneo
correlatore
Ing. Antonio Pecchia
candidato
Marianna Nacar
Matr. 885/565
Accuratezza della Failure Analysis
in sistemi complessi:
verso un algoritmo di coalescenza ottimale Anno Accademico 2011/2012
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
Log-Based Field Failure Data Analysis (FFDA)
■ Log:
• traccia di esecuzione di un sistema
• testo in lingua naturale o strutturati
• su file o database relazionale
■ Scopo: • dinamiche di error/failure
• dependability bottlenecks
• availability, MTBF, …
system
raw
logs
MANIPULATION
ANALYSIS
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
1167655228 c238 DEV c238__+BEGIN_HARDWARE_ERROR_STATE_AT_CPE
1167655228 c238 DEV c238__+Platform_PCI_Component_Error_Info_Section
1167655229 c238 DEV c238__+_PCI_Component_Error_Detail:
__Component_Info:_Vendor_Id_=%_%,_Device_Id_=%_%,_Class_Code_=%_%,_Seg/Bus/Dev/Func_=%_%/%/%/
1167657137 c238 DEV c238__+BEGIN_HARDWARE_ERROR_STATE_AT_CPE
1167657137 c238 DEV c238__+END_HARDWARE_ERROR_STATE_AT_CPE
1167657137 c238 DEV c238__+Platform_PCI_Component_Error_Info_Section
1167657140 c238 DEV c238__+BEGIN_HARDWARE_ERROR_STATE_AT_CPE
1167657141 c238 DEV c238__+Platform_PCI_Component_Error_Info_Section
1167657141 c238 DEV c238__+_PCI_Component_Error_Detail:
__Component_Info:_Vendor_Id_=%_%,_Device_Id_=%_%,_Class_Code_=%_%,_Seg/Bus/Dev/Func_=%_%/%/%/%
1167657141 c238 DEV c238__+_Platform_Specific_Error_Detail:
[... omissis ... ] +1160 entries more!
timestamp, node, type text-message
Un esempio: il fallimento di una scheda PCI
Le notifiche degli errori possono essere ridondanti …
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
T1 T2
t
Coalescenza
T3
T1 T2 T3 T4
T1 T2 T3 T4
t
T5
t
Collision
Truncation
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
t
t
t
NODE 1
NODE 2
NODE 3
system log
T1 T2 T3 T4
t
Sistemi multi-nodo
T5
F1
F2
F5
F4
F3
T1
T2 T3
T4
t
T5
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
Contributo
F* = FWi + cWi
- tWi
Verso un algoritmo di Coalescenza ottimale
#Tuple ≈ #Fallimenti reali
Valutazione della distorsione introdotta da collisions e
truncations sulle misure di dependability (MTBF)
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
Tuple heuristic
La scelta della W è critica per
ottenere misure accurate!
“Knee rule”
[1] Esempio: first(T4)-last(T3)=248s (>W = 240s)
(Tuple3) 1167657137 c238 DEV c238__+BEGIN_HARDWARE_ERROR_STATE_AT_CPE 1167657137 c238 DEV c238__+END_HARDWARE_ERROR_STATE_AT_CPE
1167657137 c238 DEV c238__+Platform_PCI_Component_Error_Info_Section
…
(Tuple4) 1167657550 c238 DEV c238__+BEGIN_HARDWARE_ERROR_STATE_AT_CPE
1167657550 c238 DEV c238__+Platform_PCI_Component_Error_Info_Section
1167657550 c238 DEV c238__+_PCI_Component_Error_Detail:
__Component_Info:_Vendor_Id_=*,_Device_Id_=*,_Class_Code_=*,_Seg/Bus/Dev/Func_=*
…
first(Ti) : timestamp prima entry nella i-esima tupla
last(Ti) : timestamp ultima entry nella i-esima tupla
[1] J.P. Hansen, D.P. Siewiorek. “Models for time coalescence in event logs”. Proc. Int’l Symposium on Fault-Tolerant Computing, pages 221-227, 1992
Approccio
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
Soluzione proposta
Calcolo ttWi
:
F* = FW∞ + cW∞
- tW∞
tW∞ = 0
F* = FW∞ + cW∞
ttWi
= FWi + cWi
- F*
Tupling modificato
W∞
Modifica Raggruppamenti
T1 T2 T3 T4
T1 T2
T3 T4
[2] A. Pecchia, D. Cotroneo, Z. Kalbarczyk, R. Iyer: Improving LogBased Field Failure Data Analysis of Multi-Node Computing Systems International Conference on
Dependable Systems and Networks (DSN), pp 97-108, 2011
[2]
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
Definizione di W∞
Legato ai tempi di gestione della macchina
Può essere fornito dagli amministratori
Può essere calcolato dai dati
W∞ = 360 min
DEF . : date due tuple A e B contenenti alerts generati dallo stesso
nodo X, tale fenomeno si considera una truncation se la distanza
temporale tra A e B è inferiore a W∞
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
Distorsione introdotta: Mean Time Between Failures (MTBF)
T : tupling T* : euristica proposta All’aumentare di W :
T T*
MTBF ↑ cost
# tuple ↓ cost
Wi T count MTBF(h) T* count MTBF(h)
240 276 3,62 133 7,49
300 265 3,77 133 7,49
600 238 4,20 133 7,49
900 225 4,44 134 7,43
1800 182 5,50 134 7,43
3600 152 6,58 134 7,43
7200 121 8,24 132 7,55
14400 61 16,48 130 7,66
21600 45 22,47 130 7,66
Coefficiente di variazione
T T*
CV 0,7 0,01
0
5
10
15
20
25
0 5000 10000 15000 20000
MTB
F (h
)
Cwin (sec)
T
T*
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
Conclusioni
F* = FW + cW – tW
Ridotta sensibilità alla W
Sviluppo metodologia per l’individuazione dei fenomeni di
truncation
Sviluppi futuri
Validazione per più supercalcolatori
Indagine per l’individuazione di W∞
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
Grazie per l’attenzione…
…domande?
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
Approfondimenti
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
Determinazione dei fenomeni di collision
t(ei) : timestamp
h(ei) : nodo che ha generato ei
m(ei) : messaggio
Ni : # tuple contenenti ei
Nj : # tuple contenenti ej
Ni,j : # tuple contenenti ei ed ej
N : # tuple totali
Esempio: t(ej)-t(ej)=220s (<W = 240s)
(ei) 1174245458 master NET stream_eof connection to *
is bad remote service may be
down message may be corrupt or
connection may have been
dropped remotely. Node state to
down
(ej) 1174245678 c324 PRO +BEGIN HARDWARE ERROR STATE AT
CMC
P(ei , ej)
P(ei ) P(ej) lift(ei , ej) = P(ei )=Ni/N P(ej)=Nj/N P(ei, ej)=Nij/N
[2] A. Pecchia, D. Cotroneo, Z. Kalbarczyk, R. Iyer: Improving LogBased Field Failure Data Analysis of Multi-Node Computing Systems International Conference on
Dependable Systems and Networks (DSN), pp 97-108, 2011
[2]
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
Analisi dei fenomeni di truncation
Esempio: first(T4)-last(T3)=248s (>W = 240s)
(Tuple3) 1167657137 c238 DEV c238__+BEGIN_HARDWARE_ERROR_STATE_AT_CPE
1167657137 c238 DEV c238__+END_HARDWARE_ERROR_STATE_AT_CPE
1167657137 c238 DEV c238__+Platform_PCI_Component_Error_Info_Section
…
(Tuple4) 1167657550 c238 DEV c238__+BEGIN_HARDWARE_ERROR_STATE_AT_CPE
1167657550 c238 DEV c238__+Platform_PCI_Component_Error_Info_Section
1167657550 c238 DEV c238__+_PCI_Component_Error_Detail:
__Component_Info:_Vendor_Id_=*,_Device_Id_=*,_Class_Code_=*,_Seg/Bus/Dev/Func_=*
…
first(Ti) : timestamp prima entry nella i-esima tupla
last(Ti) : timestamp ultima entry nella i-esima tupla
W∞
W (time)
#tr
un
ca
tio
ns
F* = FW∞ + cW∞
- tW∞
tW∞ = 0
ttWi
= FWi + cWi
- F*
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
Caso di studio
Periodo di monitoraggio : 3 mesi
Architettura :
Formato degli error events (syslog) : Timestamp
Name
Type
Msg
W0 = 240 sec
T=276
I. Analisi di sensitività W0
II. Tupling calcolo Fwi
III. Tupling modificato calcolo cWi
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
Caso di studio: definizione di W∞ e calcolo dei tsWi
Legato ai tempi di gestione della macchina
Può essere fornito dagli amministratori
Può essere calcolato dai dati
individuazione possibili truncations
calcolo interarrivi
CDF
W∞ = 360 min
Wi Fi tsi ci F*
i = Fi + ci - tsi
240 276 153 12 135
300 265 142 13 136
600 238 120 16 134
900 225 109 19 135
1800 182 90 41 133
3600 152 78 56 130
7200 121 59 73 135
14400 61 10 78 129
21600 45 0 85 130
DEF . : date due tuple A e B contenenti alerts generati dallo stesso
nodo X, tale fenomeno si considera una truncation se la distanza
temporale tra A e B è inferiore a W∞
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
Confronto ttWi
e tsWi
Calcolo ttWi
:
F* = FW∞ + cW∞
- tW∞
tW∞ = 0
Wi Fi ci F* tti
240 276 12 130 158
300 265 13 130 148
600 238 16 130 124
900 225 19 130 114
1800 182 41 130 93
3600 152 56 130 78
7200 121 73 130 64
14400 61 78 130 9
21600 45 85 130 0
tsi
153
142
120
109
90
78
59
10
0
F* = FW∞ + cW∞
ttWi
= FWi + cWi
- F*
Accuratezza della Failure Analysis in sistemi complessi:
verso un algoritmo di coalescenza ottimale
Facoltà di Ingegneria
Corso di Studi in Ingegneria Informatica
Soluzione proposta
Si parte dal raggruppamento ottenuto con l’algoritmo di tupling
modificato :
1. Valutazione degli interarrivi tra tuple contenenti entry generate dallo
stesso nodo
2. Selezione degli interarrivi inferiori a W∞ ed ordinamento in senso
crescente
3. Risoluzione delle prime truncations mediante l’unione delle tuple