PDRS_SKRIPTA_2011

Pouzdanost i Dijagnostika Računalnih Sustava

Pitanja za pismeni ispit

Ivan Podoreški

Ivan Lalid

Danijel Vrgoč

Ivijan Hađija

Zoran Dalid

Neven Draškovid

Ivana Marinid

Boris Grgid

Filip Jurid

Goran Luketid

Tihomir Kit

Ivan Kvolik

Podoreški 1-26 1.1 Primjeri sustava sa zahtjevima na visoku pouzdanost

FTMP –za kontrolu letjelica

ESS – Electronic switching system, za telefonske centrale, 2 minute nedostupnosti godišnje, manje od

0.1% pogrešno odrađenih poziva, MTTR=4sata

SARGOS – Search and rescue ground operation station, dostupnost 99%, MMTR = 100h

1.2 Pouzdanost i troškovi održavanja

1.3 Izvori pogrešaka i otkrivanje kvarova prema fazama životnog vijeka

Faza životnog vijeka Izvor pogreške Tehnika otkrivanja kvarova

Specifikacija i dizajn Dizajn algoritma

Formalna specifikacija

Simulacije

Provjere konzistentnosti

Prototip Dizajn algoritma

Ožičenje i montaža

Timing

Kvar komponenti

Simulacije/testiranje

odgovora

Proizvodnja Ožičenje i montaža

Kvar komponenti

Testiranje sustava

Dijagnostika

Radni vijek Kvar komponenti

Greške operatera

Okoliš

Dijagnostika

1.4 Statički elektricitet kao uzrok kvarova ESD komponenti (Electrostatic Sensitive Devices)

ESD je bilo koja komponenta koju može oštetiti statički naboj koji se stvara na ljudima, alatu itd.

Primjeri takvih komponenti su:

- MOSFET tranzistori

- CMOS čipovi

- TTL čipovi

- Laserske diode

Do kvarova dolazi radi elektrostatskog pražnjenja što je zapravo prijenos električnog naboja između

dvaju tijela različitih potencijala. Eliminiranje opasnosti od ovakvih kvarova postiže se uzemljivanjem

operatera, opreme i uređaja koji su osjetljivi.

1.5 Kvarovi koji nastaju pri pakovanju u kučište komponente

1.6 Oštedenja CMOS komponenata

Klasifikacija oštedenja Postotak

Površina 38%

Oksid 32%

Bulk 7%

Difuzija 6%

Metalizacija 8%

Ulazno izlazni krugovi 9%

1.7 Oštedenja bipolarnih komponenata

Klasifikacija oštedenja Postotak

Površina 16%

Oksid 14%

Bulk 7%

Difuzija 8%

Metalizacija 51%

Ulazno izlazni krugovi 4%

1.8 Pojam toleriranja kvarova.

Toleriranje kvarova jest mogudnost sustava da nastavi sa radom

1.9 Definicija kvara

Kvar je odstupanje od namijenjene funkcionalnosti sustava

1.10 Uzroci kvarova

- Anomalije uređaja

- pogreške u projektiranju

- pogreške u proizvodnji

- pogreške operatera

- utjecaj okoline

1.11 Početci pojave toleriranja kvarova i prve tehnike

Sustavi s vakuumskim cijevima: - skloni greškama

Korištene tehnike:

Kodovi za detekciju greške (eng. error detection codes)

Ponavljanje instrukcije(eng. instruction retry)

Dijagnostika

1.12 Kakva je uloga zalihosti koda u otkrivanju pogrešaka?

Kodni rječnik sastoji se od ispravnih riječi i dodatnih riječi koje služe za otkrivanje greške. Kada bi

kodni rječnik sadržavao samo ispravne riječi, nikada ne bismo mogli znati je li došlo do pogreške, dok

se kod postojanja zalihost odmah kod pojave riječi zna da je došlo do greške.

1.13 Toleriranje kvarova kod računala SAPO 1962.

- Česti kvarovi i greške radi niske kvalitete komponenti.

- Opsežna detekcija i mogudnost oporavka od kvarova

- 3 procesora čiji rezultati idu na voter (sklop za glasanje)

1.14 TMR konfiguracija i uloga blokova

TMR je oblik N-modularne redundancije u kojemu tri sustava izvode isti proces i taj rezultat šalju na

sustav za glasanje tzv. Voter kako bi se proizveo jedinstven izlaz. Ako bilo koji od tri sustava ispadne,

druga dva mogu grešku ispraviti i maskirati kvar.

1.15 Kad se pojavljuju aplikacije s visokim troškovima kvara i zahtjevima za automatskim oporav

kom, navedi primjere?

60ih godina 20. stoljeda. Tamo gdje je nedostupno ili skupo vršiti popravke

Primjeri su računalom upravljane svemirske letjelice, telefonski sustavi upravljani računalom

1.16 Sustav Orbital Astronomic Observatory

Računalom sa diskretnim tranzistorima

- Svaki tranzistor učetverostručen

- Ako bi prestao raditi, drugi bi preuzeli njegove logičke funkcije

Ovaj pristup nije bio primjenjiv na integrirane krugove jer tamo ne postoji nezavisnost kvara

Ako su sva 4 elementa na istom komadu silicija, kvar bi ih sve oštetio

1.17 Misija Apollo

- Računalo za vođenje

- Trostruka modularna redundancija (TMR)

- 3 procesora izvode isti program

- Rezultati se vode na sklop za izglasavanje

- Time se isključuje greška jednog procesora

- Podaci se zapisuju u 2 memorije i kodiraju

- Procesori čitaju iz druge memorije ukoliko prva zakaže

1.18 Sustav ESS

- Electronic Switching System

- Sustav komutacije u telefoniji razvijen u Bell Laboratories

- Zahtjev na raspoloživost: dva sata “downtime-a” u 40 godina rada

- 2 računala izvode isti program

- Rezultati se uspoređuju

- U slučaju neslaganja provodi se dijagnostika

1.19 Sustav STAR

- Self Test And Repair

- Razvijen u JPL (Jet Propulsion Lab)

- Za duge misije u svemiru bez održavanja

- Računalo podijeljeno u funkcijske jedinice –zalihost u dijelovima

- Svaka jedinica sposobna otkriti interni kvar

- Uključivanje rezerve u slučaju potrebe

1.20 Koncepcije pouzdanosti i toleriranja kvarova 60-ih godina.

- Trostruka zalihost s izglasavanjem (eng.triplication with voting)

- Dvostruka zalihost s uspoređivanjem (eng. duplication with comparison)

- Samotestirajude jedinice (eng. self-checking units)

- “Backup sparing”

1.21 Koncepcije pouzdanosti i toleriranja kvarova 70-ih godina

- Višeprocesorski sustav za toleriranje kvarova (eng. fault-tolerant multiprocessor – FTMP)

- Softverski implementirano toleriranje kvarova (eng.software implemented fault tolerance –

SIFT)

1.22 Sustav FTMP

- Ima više procesora i memorija spojenih na 5 sabirnica preko tzv. čuvara sabirnice (eng. Bus

guardians)

- 3 procesora i 3 memorije se dinamički spajaju u trokut da bi izvodili isti proračun (eng. triad)

- Sklopovi-čuvari u procesorima obavljaju izglasavanje na temelju podataka koji stižu iz

dodijeljenih memorija

- Ako dođe do kvara čuvari imaju 2 valjane kopije podataka pa trijada može nastaviti s radom

- U slučaju kvara, druga trijada šalje naredbe čuvarima sabirnice da dodijele novi procesor,

memoriju ili sabirnicu u trijadu zahvadenu kvarom

1.23 Sustav SIFT

- Računala su potpuno međusobno povezana serijskom vezom

- Softverska sinkronizacija procesom izglasavanja

- Računala periodički razmjenjuju sustavska vremena i usvajaju zajedničku vrijednost

- Korisnički procesi se odvijaju u približno istim vremenima

- Rezultati se vode na ostale procesore gdje se obavlja softversko izglasavanje

1.24 Čuvari sabirnice (bus guardian) konfiguracija

1.25 Logička struktura SIFT sustava

1.26 Usporedba FTMP sustava i SIFT sustava

FTMP ima 2 prednosti pred SIFT-om:

- Hardversko izglasavanje je brže

- Maskirajuda redundancija – FTMP je softverski transparentan, dok SIFT zahtijeva

redundantne programe

SIFT je važan istraživački doprinos:

- Mogudnost da jedno vrijeme izvodi neredundantne programe, a zatim se prebaci na

reduntantne

- Ima prednost u komercijalnim sustavima

Lalić 27-52

1.27 Računalni sustav upravljanja Space Shuttle-om 4 računala rade istovremeno, a peto je rezerva, glasanje se vrši na kontrolnim aktuatorima Primarna računala izvode isti program koji je razvio IBM, Rezervno računalo se pokrede u slučaju kritične pogreške i izvodi potpuno drugačiji program razvijen u Rockwell-u Sustav je nadišao početne probleme nekompatibilnosti dva programa i sada radi zadovoljavajude 1.28 Razlozi ubrzanog razvoja sustava koji toleriraju kvarove Rastuda ovisnost javnosti o računalnim sustavima –kvarovi postaju nedopustivi Pad ekonomske cijene hardvera – jeftinija implementacija hardverske redundancije 1.29 Toleriranje kvarova u LAN strukturama Pružaju veliku raspoloživost, Koriste standardan hardver Korisnik se spaja na jedno računalo i izvodi svoj program, a podaci su duplicirani U slučaju kvara spaja se na drugo računalo inastavlja izvoditi svoj program

1.30 Informacijski sustav AIPS Advanced Information Processing System, Proširenje FTMP-a Spaja grupu lokacija na kojima se vrši procesiranje na sabirničku strukturu trostruke redundancije Sabirnica može biti sklopovski komutirana čime se toleriraju fizička oštedenja Svaka lokacija može imati drugačiji oblik redundancije ili ju ne mora ni imati – selektivna redundancija Sinkronizacija postoji među računalima jedne lokacije, Dvije lokacije nisu međusobno sinkronizirane Izglasavanje u sustavu je hardversko 1.31 Bududnost sustava s toleriranjem kvarova Kompleksni distribuirani sustavi Modni procesori dolaze u obliku čipa – veliki broj procesora u tvorbama višerazinskog hijerarhijskog sustava Toleriranje kvarova na razne načine i na različitim mjestima u sustavu 1.32 Računala u autonomnim sustavima U njima de ugrađeni sustav toleriranja kvarova donositi odluke umjesto čovjeka i inicirati popravke – automatizirani serviser Redundantni skupovi računala su ugrađeni u raznim podsustavima i kontroliraju redundantne elektromehaničke uređaje Takva lokalna računala su odgovorna za toleriranje kvarova samo u svojem podsustavu, ali mogu ovisiti i o višoj razini u hijerarhiji 1.33 Hijerarhija mehanizama za oporavak Lokalni softver za oporavak iz kvara u pojedinom podsustavu Lokalni softver i hardver za oporavak iz kvara u računalima pojedinog podsustava Softver na visoko-razinskim kontrolnim i upravljačkim računalima za oporavak od kvara nekog od podsustava Softver i hardver za oporavak od kvara u kontrolnim i upravljačkim računalima 1.34 Hardverska koncepcija toleriranja kvarova Razvoj sustava obično proizlazi iz skupa korisničkih specifikacija na arhitekturu Uključujudi zahtjeve na toleriranje kvarova Arhitektura se potom razrađuje (eng. refine) i dijeli na podsustave Svaki podsustav obavlja specifičnu funkciju Podsustavi se dalje dijele i dodaje se zaštitna zalihost u obliku detekcije kvara i mehanizama za oporavak 1.35 Metodologija samotestiranja-SCCM moduli Razvoj samotestirajudeg računala donosi porast od samo 10% u kompleksnosti hardvera Razlog leži u memoriji kao osnovici logike Zbog pravilne strukture memorije, kvarovi se mogu otkriti sa svega nekoliko dodatnih bitova po memorijskoj riječi Razvijeni su samotestirajudi sklopovi (eng. Selfchecking checkers) koji ispituju i sebe i druge sklopove 1.36 Intelovo rješenje za samodijagnostičke module i fukcijska provjera zalihosti Čipovi su duplicirani Svaki čip sadrži set komparatora izlaza Kontrolna linija označava da li čip služi za generiranje izlaza (aktivni čip) ili služi za provjeru aktivnog čipa Oba čipa imaju iste ulaze i obavljaju iste logičke funkcije, ali samo aktivni daje izlaz U slučaju neslaganja izlaza, čip koji vrši provjeru blokira izlaz aktivnog čipa

1.37 Vrijeme kašnjenja detekcije kvara Vrijeme kašnjenja detekcije kvara (eng. Detection latency time) Vrijeme od pojave do otkrivanja kvara kroz promatranje njegovih učinaka Tri vrijednosti: � trenutačno (eng. instantaneous – I) � pravovremeno (eng. error-concurrent – EC) � nepravovremeno (eng. nonconcurrent – NC) Pravovremeno vrijeme kašnjenja označava da je kvar otkriven prije širenja logičke greške izvan mjesta nastanka Samotestirajudi moduli iskazuju pravovremeno, ali ne i trenutačno vrijeme kašnjenja NSC moduli mogu raditi kroz više ciklusa prije nego se otkrije greška, uzrokujudi masivnu propagaciju zbog greške 1.38 Načini toleriranja kvara unutar redundantnog skupa modula Trostruka modularna redundancija s izglasavanjem

� Hibridna redundancija – kada se pričuvnim modulom može zamijeniti pokvareni modul unutar TMR skupa Duplikacija i usporedba (s naknadnom identifikacijom pokvarenog modula) Zamjena pričuvom (eng. standby replacement)

Ukoliko modul sam može otkriti unutarnji kvar Prednost je što rezerva ne mora raditi i ima malu vjerojatnost kvara, a mana što nije sposoban otkriti sve kvarove

1.39 Potreba za nezavisnošdu kvarova Sustavi su dizajnirani tako da toleriraju kvar na jednom modulu Spomenute tehnike zakazuju u slučaju kvara koji zahvada više modula istodobno Problem prikrivenih kvarova (eng. lurking faults):

Moguda je nezavisna pojava 2 kvara u različitim vremenima i različitim modulima koji rezultiraju simultanom pojavom greške u nekom podatku Jedan od kvarova može prodi neopaženo, ako se pojavi u logičkim sklopovima koji se rijetko koriste

1.40 Prikriveni kvarovi Problem prikrivenih kvarova (eng. lurking faults): � Moguda je nezavisna pojava 2 kvara u različitim vremenima i različitim modulima koji rezultiraju simultanom pojavom greške u nekom podatku � Jedan od kvarova može prodi neopaženo, ako se pojavi u logičkim sklopovima koji se rijetko koriste Promjenom u računskim stanjima neki drugi kvar može uzrokovati naknadnu pojavu greške zbog prikrivenog kvara � Na taj se način čini kao da je u modulu nastao međuovisan kvar � Rješenje je u periodičkom testiranju svakog modula da bi se locirali prikriveni kvarovi i očuvala nezavisnost � Do rješenja se dolazi kombinacijom arhitekture, dizajna logike toleriranja kvarova i dizajna procedura za testiranje krugova 1.41 Računalna cjelovitost (Integrity) U svrhu postizanja računske cjelovitosti, uz kašnjenje zbog oporavka od kvara, potrebno je obaviti barem:

� 2 računanja sa samotestiranjem � 3 računanja bez samotestiranja

� U slučaju kvara na jednom računalu, drugo nastavlja s operacijama bez kašnjenja

U prošlosti hardverski neisplativo Bilo je rezervirano samo za vremenski kritične operacije

1.42 Računalo Stratus Koristi parove samotestirajudih procesora Oba procesora izvode isti program istovremeno 4 para procesora 68000:

2 para izvode upravljačke programe 2 para izvode korisničke programe

Jedan par služi kao “backup” drugome 1.43 Točke oporavka (rollback points) Zahtjev za računskom cjelovitošdu se u mnogim primjenama može ispustiti

Koristi se jeftinija “standby” redundancija jer oporavak ne treba biti trenutačan Računalo periodički sprema računska stanja kao točke oporavka (eng. rollback points) U slučaju tranzijentnog kvara, povratak na zadnju točku oporavka i nastavak rada “Backup” računalo također može nastaviti računanje pribavivši zadnju točku oporavka

1.44 Zahtjevi u sustavima stvarnog vremena U sustavima stvarnog vremena treba uzeti u obzir kašnjenje pri oporavku � “Standby” sustav ne može jamčiti računsku cjelovitost ukoliko se izgube ulazi ili zaborave izlazi tijekom programskog “rollback-a”

Potreban poseban hardver koji sprema ulaze u vremenu od zadnje točke oporavka do nastanka kvara � Računska cjelovitost se lako održava uz skupi hardver kroz tehnike maskiranja kvara (TMR ili dupliciranje) 1.45 Pokrivanje kvarova (Fault coverage) Pokrivanje kvarova (eng. fault coverage) c je mjera koliko dobro mehanizmi toleriranja kvara rade

� Predstavlja uvjetnu vjerojatnost da de se sustav uspješno oporaviti u slučaju nastanka kvara � Razina pokrivanja kvarova odražava kritičnost aplikacije za koju se koristi računalo

� Osjetljiv parametar na duži period � Nakon N kvarova vjerojatnost ispravnog rada je ograničena na cN, bez obzira na ugrađenu sklopovsku zalihost

1.46 Tipovi (Klase) aplikacija SIFT i FTMP su zahtijevali gotovo savršeno pokrivanje kvarova (c=0.999999)

� Postignuto maskirajudom redundancijom � Jeftinija tehnika se zasniva na pravilnoj strukturi računalne logike

� Korištenje kodova za detekciju grešaka � 32-bitna memorija sa detekcijom dvostrukih i ispravljanjem jednostrukih grešaka zahtijeva dodatnih bitova

2.1 Definicija pouzdanosti Pouzdanost, u svom najjednostavnijem obliku, znači vjerojatnost da se kvar nede pojaviti u određenom vremenskom razdoblju. •Definicija pouzdanosti naglašava 4 elementa:

�vjerojatnost, �predviđenu zadadu, �vrijeme i �radne uvjete.

2.2 Kvarovi i vrste kvarova kvar je djelomičan ili totalni gubitak ili promjena karakteristika uređaja (ili sustava) na takav način da je njegovo funkcioniranje ozbiljno narušeno ili potpuno zaustavljeno •neke komponente imaju dobro definirane kvarove, neke ne • kvarovi se, opdenito, mogu podijeliti u različite grupe ovisno o prirodi kvara •početni kvarovi, slučajni i period trošenja 2.3 Kvarovi tijekom životnog vijeka (krivulja kade)

2.4 Uzroci kvarova i nepouzdanosti • Loš dizajn (komponente ili sustava) • Pogrešan način proizvodnje • Nedostatak znanja ili iskustva • Složenost sustava • Loš način održavanja • Krutost i kompleksnost organizacije • Ljudske pogreške 2.5 Ljudska pouzdanost Pogreške uzrokovane ljudskim faktorom mogu biti zbog: �nedostatka razumijevanja opreme �nedostatka razumijevanja procesa �nepažnja

�zaboravnost �loša procjena �nedostatak ispravnih radnih postupaka i uputa i �psihička nestabilnost 2.6 Osnovni zadaci u analizi pouzdanosti Osnovni zadaci u analizi pouzdanosti bi bili:

�procjena pouzdanosti sustava i sigurnosnih karakteristika �objektivna usporedba specifičnih karakteristika nekog alternativnog dizajna �otkrivanje slabih točaka (ili podsustava) u dizajnu i procjena njihovog doprinosa ukupnoj pouzdanosti sustava

Vrgoč 53-78

53. Procedura za analizu pouzdanosti

definiranje ciljeva pouzdanosti i kriterija

određivanje matematičkih modela, osnovnih komponenata i učestalosti popravaka

skupljanje karakteristika komponenata i podsustava uzimajudi u obzir različite stresove kao

što su toplinski, električni itd.

numerička procjena matematičkih modela

usporedba rezultata

razvoj alternativnog dizajna ako se ciljevi pouzdanosti ne dostignu

54. Metode za povedanje pouzdanosti

metoda poboljšanja dijelova

djelotvoran i kreativan dizajn

pojednostavljenje sustava

korištenje boljih komponenata nego je potrebno

strukturalna redundancija

održavanje i popravak

55. Tehnike zalihosti (redundancije)

Prednosti:

bilo koji stupanj pouzdanosti se može postidi (ako dostupni resursi dopuštaju)

povedanje pouzdanosti po upotrijebljenoj rezervnoj jedinici je vedi kad se upotrijebe

optimalne tehnike redundancije

dizajn kroz redundanciju zahtijeva od dizajnera manje znanja o dijelovima

pruža brzo rješenje

ova se metoda može upotrijebiti ako sve druge zakažu

Vrste:

aktivna (vruda)

u pripravi (engl. standby, hladna)

komponentna redundancija

sistemska redundancija

56. Pouzdanost i troškovi

Sl. Pouzdanost (x-os), troškovi (y-os)

57. Pouzdanost komponenti iz testnih podataka

Vjerojatnost ispravnosti:

( ) ( )

( )

( ) - broj ispravnih komponenata

( ) - broj neispravnih komponenata

N - ukupni broj komponenata

58. Učestalost kvara z(t)

( )

( )

( )

59. Srednje vrijeme do kvara MTTF

MTTF je jednak za sve komponente koje su identične u dizajnu i rade pod istim radnim

uvjetima

∑

gdje je vrijeme kvara pojedine komponente

∫ ( )

60. Konstantni model hazarda

( )

gdje je konstanta neovisna o vremenu.

Dijelovi sa konstantnom učestalosti kvarova de imati slijededu pouzdanost i pripadne funkcije:

( ) promijena neispravnosti

( ) vjerojatnost ispravnosti

( ) vjerojatnost neispravnosti

Srednje vrijeme do kvara:

∫

Sl. Pouzdanost komponenti s konstantom učestalosti kvara

61. Linearni model hazarda

Najjednostavniji vremenski ovisan model i ima oblik z(t) = bt, t > 0

( )

( )

62. Weibullov model hazarda

Model nelinearnog intenziteta kvara.

Kumulativan funkcija distribucije: ( )

Pouzdanost: ( )

Funkcija gustode: ( )

- parametar oblika

- parametar veličine

Intenzitet kvarova ( ) ( )

( )

DFR (Decreasing Failure Rate)

CFR (Constant Failure Rate)

IFR (Increasing Failure Rate)

Krivulja kade jednostavan je dijagram intenziteta kvarova ovisno o vremenu. Tokom životnog vijeka

proizvoda stupanj kvarenja proizvoda može varirati kako proizvod prolazi kroz različite faze života. Te

faze su:

Dječji period – kvarovi koji se pojavljuju uzrokovani su lošim dizajnom, te se

otklanjaju kako dizajn sazrijeva.

Starost – broj kvarova se povedava uslijed starenja i trošenja uređaja

Optimum korištenja (područje konstantnog intenziteta kvara) – intenzitet kvara dobiva

se proračunom po nekom modelu.

Kombinacija ove tri faze života (krivulje) daje krivulju kade. Krivulja kade prikazuje intenzitet

kvara uređaja kroz njegov životni vijek.

63. Gamma model

( )

( ) ( )

( )

( ) ∑( )

( )

( ) ( )

a – pozitivni cijeli broj, - pozitivna konstanta

za a=1 radi se o jednoj komponenti

za a>1 z(t) se povedava, a za a=1 postaje model konstantne učestalosti

64. Pouzdanost serijskog spoja komponenata

Učinkovit rad sustava ovisi o pravilnom radu svih n komponenata

Funkcija pouzdanosti: ( ) ( ) ( )... ( ) ∏ ( ) 1

Srednje vrijeme do kvara sustava:

∫ ( )

∑

∑

Pouzdanost serijskog kvara s identičnim komponentama:

65. Pouzdanost paralelnog spoja komponenata

Ispravan rad bilo koje komponente dovodi do ispravnosti sustava

( ) ∏ ( )

∏[ ( )]

( ) [ ( )] - vrijedi ako sve komponente u sustavu imaju jednaku pouzdanost

za m=2:

66. Pouzdanost x od m sustava

Zahtjev: k do m komponente u paralelnom sustavu moraju uvijek biti raspoložive.

Vjerojatnost da de k do m komponenta raditi ispravno je:

( ) ( ) ( )

pri čemu je ( ) ( ) binomni koeficijent

∫ ( )

( )

∑

za k = 1 sustav postaje paralelni sustav, a za k = m sustav postaje serijski sustav

m-k komponente su redundantne komponente i dodaju se u svrhu povedanja pouzdanosti

sustava

komponente k nazivamo osnovnim komponentama

Nepouzdanost k od m sustava

( ) ∑ ( )

( )

67. Pouzdanost kombiniranih serijsko-paralelnih sustava

logički dijagram nadomješta dijagram sustava sa nekoliko jednostavnih paralelnih putova

između IN i OUT terminala

svaki put sadrži elemente o čijem djelovanju ovisi uspješno funkcioniranje sustava

za uspješni rad sustava potreban je barem jedan neprekidni put između IN i OUT terminala

68. Stablo pogrešaka (Fault Tree, FT)

za analizu pouzdanosti kompleksnih sustava

zasniva se na događajima koji dovode do kvara sustava

stablo pogrešaka (FT) je dijagram svih mogudih događaja pogrešaka, njihovih logičkih

kombinacija i njihovih odnosa sa kvarom sustava

pogreške na najnižoj razini sustava se predstavljaju na dnu stabla, a pogreška sustava se

nalazi na vrhu stabla

događaji na najnižoj razini su poznati pod nazivom "osnovni događaji“

vjerojatnosti kvarova osnovnih događaja kombiniraju se kako bi se dobile vjerojatnosti kvarov

a srednjih događaja i naposlijetku glavni događaj, kvar sustava

69. Srednje vrijeme između dva kvara MTBF

Srednje vrijeme rada sustava između 2 kvara, dobije se kao integral

∫ ( )

U modelima pouzdanosti se najčešde uzima da pouzdanost opada eksponencijalno s vremenom

( ) ( - intenzitet kvara)

∫

70 3.2 Srednje vrijeme detekcije MTTD

Srednje vrijeme između detekcije 2 kvara. (nema formule)

71. Srednje vrijeme do popravka MTTR

Kad sustav otkaže zbog kvara, provodi se popravak, ako sustav uopde pripada u grupu sustava koji se

popravljaju. Vrijeme potrebno za popravak se izražava kao:

– intenzitet održavanja

72. Prikaz događaja pri on-line detekciji i off-line popravku

MTBF (Mean Time Between Failure) – srednje vrijeme između kvarova

MTTD (Mean Time To Detection) – Srednje vrijeme detekcije

MTTR (Mean Time To Repair) – Srednje vrijeme do popravka

73. Primjeri intenziteta kvarova nekih elektroničkih komponenata

74. Raspoloživost računalnog sustava

Raspoloživost sustava predstavlja vjerojatnost da de sustav biti u stanju obaviti zahtijevanu zadadu, tj.

da de biti raspoloživ u bilo kojem trenutku unutar predviđenog radnog vijeka:

75. Intenzitet održavanja

Kad sustav otkaže zbog kvara, provodi se popravak, ako sustav uopde pripada u grupu sustava koji se

popravljaju. Vrijeme potrebno za popravak se izražava kao:

– intenzitet održavanja

76. Intenzitet kvarova po MIL-HDBK-217

( )

77. Faktor učenja

Označava se s . Za integrirane krugove dobivene potpuno novom proizvodnjom iznosi 10, a inače je

1 (manje je bolje).

78. Faktor kvalitete

Označava se s , odnosi se na kvalitetu proizvodnog procesa i postupak umjetnog starenja.

Vrijednosti se kredu od 1 do 300 u ovisnosti o razini kvalitete komponente kako je to prikazano u

tablici:

Hađija 79-104

79. 3.11 Temperaturni utjecaj na intenzitet kvarova FAKTOR πT

- temperaturni utjecaj, koji ovisi o temperaturi okoline i o tehnologiji. Za bipolarne tehnologije, a posebno za TTL slijedi:

- tj. predstavlja temperaturu spoja za najgori slučaj, također se može i ocijeniti:

- Ta je temperatura okoline, a K je 13 za čip sa više od 30 logičkih sklopova, a inače je 5 Vrijednost faktora πT:

Temperatura

ambijenta MOS TTL

25 C 0,16 0,17

40 C 0,56 0,35

80. 3.12 Utjecaj okoline na intenzitet kvarova FAKTOR πE

- je faktor utjecaja okoline koji je vedi što su uvjeti okoline lošiji

Vrijednost faktora πE:

81. 3.13 Utjecaj broja pinova na intenzitet kvarova FAKTOR πP

- faktor utjecaja broja nožica integriranog kruga Utjecaj broja nožica izražen faktorom πP:

- složenost integriranog kruga se izražava pomodu faktora C1 i C2 koji ovise o gustodi pakovanja i broju funkcija gdje su vrijednosti iz tablice NG, NT i B ovisne o integriranom krugu

82. 3.14 Faktor složenosti FAKTORI SLOŽENOSTI C1 I C2

- složenost integriranog kruga se izražava pomodu faktora C1 i C2 koji ovise o gustodi pakovanja i broju funkcija gdje su vrijednosti iz tablice NG – broj logičkih sklopova, NT – broj tranzistora, B – broj bita ovisne o integriranom krugu

83. 3.15 Tehnike za izbjegavanje kvarova PROMJENA OKOLINE i PROMJENA KVALITETE - tehnike za izbjegavanje kvarova smanjuju vjerojatnost tranzijentnih kvarova - cilj je postidi manji intenzitet kvarova kod sustava kako je određeno s modelom 217

- korigiranjem neke ili obje od ovih veličina, može se smanjiti intenzitet kvarova - to se postiže odabirom komponenti bolje kvalitete ili hlađenjem komponenti kako bi se spustila temperatura 84. 3.16 Utjecaj prisilnog hlađenja PROMJENA OKOLINE -dva su faktora u izrazu za intenzitet kvarova koja su povezana s okolinom: πE označava opdenito uvjete okoline, dok se na πT može utjecati - πT je rezultat temperature okoline i topline stvorene na čipu zbog potrošnje energije - problem se rješava s uvođenjem hlađenja komponenti, npr. freonsko hlađenje, ugradnja ventilatora na samu komponentu - čest problem su „vrude točke“ na pločicama sklopa koje se dogode na onim mjestima gdje zrak ne dođe do komponente da prenese toplinu u okolinu Dizajn rashladnog sustava DEC VAX-11/780:

- da se minimalizira temperatura zraka blizu pločice sklopa, napajanja su smještena u dnu kudišta, udaljeni su od logičkih ploča - sustav za puhanje daje filtrirani zrak iz okoline - zrak je usmjeren preko pločice sklopa na način da prolazi preko samo jedne pločice prije nego bude ispušten 85. 3.17 Utjecaj kvalitete komponenata PROMJENA KVALITETE - mijenja faktor πQ - najjednostavnija implementacija je kupnja komponenata visoke pouzdanosti ali to je skuplje riješenje dva su rješenja problema: a) in house screening b) specifikacija visoko pouzdanih komponenata samo za ona područja gdje bi to bilo najekonomičnije 86. 3.18 Poboljšanje pouzdanosti u VIDAR/TRV 22900B sustavu Poboljšanje pouzdanosti u VIDAR/TRV 22900B sustavu za naplatu pretplate:

87. 3.19 Nepouzdanost sustava Q = 1 – R (nepouzdanost sistema = 1 – pouzdanost) - nepouzdanost je vjerojatnost da de se kvar pojaviti u određenom vremenskom periodu pod određenim uvjetima (vjerojanost = između 0 i 1) 88. 3.20 Neraspoloživost sustava - komplement raspoloživosti - vjerojatnost da sustav nede raditi u određenoj vremenskoj točki (da nede raditi X sati) 89. 3.21 Program za analizu pouzdanosti RELEX - Relex programski paket je potpuno integriran skup alata za određivanje pouzdanosti - Relex obavlja predviđanje pouzdanosti i analizu električke, elektroničke, mehaničke i elektromehaničke opreme - Relex također pruža mogudnost slijedede mogudnosti:

predviđanje pouzdanosti (Reliability Prediction)

blok dijagram pouzdanosti (Reliability Block Diagram)

optimizacija i simulacija sustava (OpSim)

Weibullova analiza

FMEA, FMECA (Failure Mode and Effects Analysis) analiza

analiza pomodu stabla kvarova (Fault Tree Analysis)

analiza pomodu stabla događaja (Event Tree Analysis)

Markovljeva analiza

predviđanje održavljivosti (Maintainability Prediction)

analiza troškova životnog ciklusa (Life Cycle Cost Analysis) - za više informacija pročitati LV1 90. 3.22 Povijesni razvoj pouzdanosti računalnih sustava - između prvog i drugog svjetskog rata – avioni sa više motora

pitanje uspješnog korištenja u nekoj misiji - 1930. – podaci o otkazima putničkih aviona - 1944. – relejno računalo Bell

kodovi za detekciju pogreške

dvostruko računanje s usporedbom rezultata - 1951. – Univac 1

ispitivanje pariteta

2 ALU i usporedba rezultata - 1960. – ESS Bell, IBM 360

sistematski pristup dizajnu pouzdanih sustava u industriji

TANDEM - 1970. – razvoj mikrotehnologije

kompanije čiji je proizvod pouzdani sustav - 1971. – Technical Committee on Fault-tolerant Computing u okviru IEEE

Intel 4004 91. 3.23 Što je uvjetovalo postavljanje zahtjeva za bolju pouzdanost Trendovi koji su uvjetovali razvoj tehnike za postizanje bolje pouzdanosti: - zahtjevna okolina

industrijski pogoni, elektromagnetski utjecaji, loše napajanje - novi korisnici

nepoznavanje sustava – sustav mora tolerirati neznanje operatera - rastudi troškovi održavanja i popravaka - veličina sustava

više komponenti, veda vjerojatnost otkazivanja 92. 3.24 Primjena sustava s toleriranjem kvarova 54% - online obrada podataka; 16% - komunikacije; 12% - vlada i vojska; 11% - procesno upravljanje; 6% - razvoj software-a; 1% - laboratorijske primjene

93. 3.25 Faze u razvoju sustava

Faza Izvori grešaka Tehnike

detekcije

grešaka

Specifikacija i dizajn Dizajn algoritma

Formalna

specifikacija

Simulacija

Provjera

konzistentnosti

Prototip Dizajn algoritma

Ožičenje i sklapanje

Timing

Kvar komponente

Testiranje odziva

Proizvodnja Ožičenje i sklapanje

Kvar komponente

Testiranje

sustava

Dijagnostika

Instalacija Sklapanje

Kvar komponente

Testiranje

sustava

Dijagnostika

Radni vijek Kvar komponente

Greška operatera

Promijene u okolini

Dijagnostika

94. 3.26 Sklopovski pristup pojmu kvara ISPAD KVAR POGREŠKA (FAILURE FAULT ERROR) - ISPAD – neispravnost, zatajenje = fizikalna promjena na komponenti, sklopu ili vrijednosti parametara - KVAR – nedostatak, pogreška = kvarno stanje logičkih varijabli koje odstupa od zahtijevanih vrijednosti - GREŠKA – očitovanje kvarnog stanja u programu ili građi podataka

95. 3.27 Programski pristup pojmu kvara KVAR POGREŠKA ISPAD (FAULT ERROR FAILURE) - KVAR – neispravnost komponente ili u dizajnu sustava - GREŠKA – krivo stanje varijable uzrokovano kvarom - ISPAD – (sustava) ponašanje sustava odstupa od onog navedenog zahtjevima FAULT DEFECT/BUG ERROR MISTAKE (propust, zabuna) FAILURE CRASH (pad, lom, ispad) 96. 3.28 Tipovi kvarova prema pojavljivanju - trajni (hard) – permanentni – rezultat nepovratnog procesa oštedenja i sl. - povremeni ili intermitentni – slučajni, neredoviti – ovisno o nestabilnom hardware-u ili promjenjivim stanjima hardware-a ili software-a

mogu se ponoviti ako se ponove okolnosti - prolazni ili tranzijentni (soft) – uzrokovani su privremenim stanjem u okolini, nema fizikalne pojave defekta, teško se otkrivaju - 80-90% kvarova su intermitentni i tranzijentni 97. 3.29 Izvori kvarova

98. 3.30 Intenzitet kvarova tijekom životnog ciklusa sustava

99. 3.31 Događaji iz 1990. u vezi s ispadima računala - siječanj – AT&T telefonska mreža

9h zastoja Chicago New York

„ne šalji mi poruku“ greška software-a - veljača – Airbus A320 (pad)

Bangalore, Indija

fly-by-wire

potpuno elektronički cockpit bez mehaničke povratne veze - računala 10-9 grešaka/sat (0.001 fpmh) 100. 3.32 Kriteriji računalstva s toleriranjem kvarova - potpuna tolerancija – izvodi sve zadatke ispravno u prisustvu određenog skupa kvarova

zadaci obavljeni u skladu sa zahtjevima

rezultati bez grešaka

vrijeme izvršavanja u zahtijevanim granicama

raspoloživa memorija za izvođenje svakog zadatka ostaje iznad zahtijevane minimalne veličine

- djelomična tolerancija 101. 3.33 Cjelovitost u komponentama – INTEL 432 PRIMJER SUSTAVA SA TOLERANCIJOM KVAROVA - chipovi u modu WORKER/CHECKER - jednostavna sinkronizacija i usklađivanje - nedostatak:

nema izlaza iz rezervnog dijela sklopa pa se ne može procijeniti izlazne podatke

građe na bazi ovakvih chipova još nisu prihvadene od stručnjaka

102. 4.1 Akceleracijski faktor pri testiranju Testiranje životnog ciklusa i polja podataka: - testiranje životnog ciklusa uključuje manji broj komponenata u kontroliranoj okolini - često je temperatura povišena da bi ubrzala mehanizme kvarova

- translacijski faktor je tada upotrijebljen da izjednači jedan sat pri povišenoj temperaturi sa brojem sati u ambijentu - translacijski faktor je obično derivacija iz Arrheniusove jednakosti, gdje je: R = konstantno vrijeme reakcije A = konstanta Ea = energija aktiviranja u elektrovoltima K = Boltzmannova konstanta T = apsolutna temperatura - ovi akceleracijski faktori su često podijeljeni u područja gdje ima dosta potkrepljujudih podataka 103. 4.2 Energija aktiviranja - zbog eksponencijalne funkcije u Arrhenuisovoj jednakosti akceleracijski faktori postaju dosta veliki - zbog toga postoji mala suglasnost u uzetoj energiji aktiviranja - uzeta je vrijednost od 0.23 do 1.92 eV - temperaturni faktor modela MIL-HDBK-217B pretpostavlja energiju aktiviranja od 0.41 eV dok model MIL-STD-883A pretpostavlja 1.02 eV - uzima se u obzir konverzija od 125 oC do 50 oC - odnos ovih faktora za ova dva modela iznosi 62 - to znači faktor od 62 u predikciji vremena kvara (frekvenciji otkaza), za iste podatke testa životnog ciklusa 104. 4.3 Ovisnost akceleracijskog faktora o temperaturi - slika predstavlja modele promjenjivih akceleracijskih faktora Ovisnost akceleracijskog faktora vremena kvara o temperaturi:

Objašnjenje slike:

1. 1= Segment grafa od 25oC do 125oC je baziran na podacima životnog rada komponente. Segment iznad toga je baziran na pohranjenim podacima dobivenim pri povišenoj temperaturi.

Graf odgovara Ea = 0.41 eV. 2. 2 = Proračunato iz modela MIL-HDBK-217B 1974. godine.

Graf odgovara Ea = 0.41 eV i primjenjiv je na svu bipolarnu digitalnu logiku (osim ECL) u normalnom režimu rada.

3. 3 = Proračunato iz modela MIL-HDBK-217B 1974. godine. Graf odgovara Ea = 0.41 eV i primjenjiv je na sve MOS, sve linearne i bipolarne ECL uređaje u

normalnom režimu rada. 4. 4 = Proračunato iz modela MIL-HDBK-217B 1974. godine. Graf modela MIL-HDBK-217B je

graf Bell Telephone laboratorija i kao takav se pridodaje pohrani i radnoj vrijednosti i primarno iznosi inverziju mehanizma kvarova.

Graf odgovara Ea= 1.02 eV. 5. 5 = Krivulja je rezultat crtanja vremena kvara , duplo za svakih +Δ10oC. 6. 6 = Svi podaci stvaraju padanje grafa u dvjema granicama. Granice odgovaraju Ea = 0.23 eV (za niži dio grafa) i Ea = 1.92 eV (za viši dio grafa).

Ćalić 105-130

105. Modulsko vrijeme

Inženjeri obično nadomještaju sustav sa zamjenskom pločom (modulom). Zbog malog broja kvarova

po modulu uveden je koncept zvan „modulsko vrijeme“. Modulsko vrijeme dopušta da se podaci iz

svih modula kombiniraju. Ako ima k-modula koji rade kroz neko vrijeme onda je:

gdje je ti iznos vremena kada radi i-ti modul.

106. Tipovi događaja

Događaji mogu biti trojaki:

- Sigurni događaji (vjerojatnost 1)

- Nemogudi događaji (vjerojatnost 0)

- Slučajni događaji (vjerojatnost između 0 i 1)

107. Vjerojatnost događaja

Vjerojatnost događaja je definirana kao granična vrijednost odnosa broja povoljnih događaja prema

broju svih mogudih događaja:

108. Relativna učestalost događaja

Relativna učestalost događaja (pogreške) predstavlja omjer broja nepovoljnih događaja (pogrešaka)

prema broju svih mogudih događaja:

109. Vjerojatnost zavisnih događaja

Vjerojatnost zavisnih događaja predstavlja vjerojatnost odigravanja događaja B pod uvjetom da se

ved odigrao događaj A:

110. Vjerojatnost nezavisnih događaja

Vjerojatnost nezavisnih događaja predstavlja vjerojatnost u kojoj odigravanje jednog od događaja (B)

ne zavisi od odigravanja drugog događaja (A), te je vjerojatnost odigravanja i A i B dana izrazom:

111. Ukupna vjerojatnost događaja

Totalna (ukupna) vjerojatnost nekog događaja A je vjerojatnost događaja A, no izračunata preko

uvjetnih vjerojatnosti tog događaja:

112. Funkcija raspodjele F(x)

Ako je X = (x1, x2, …, xn) slučajna varijabla, tada funkcija F(x) predstavlja funkciju raspodjele slučajne

varijable X, a njome je izražena vjerojatnost da slučajna varijabla X može poprimiti vrijednosti jednake

ili manje od x.

Svojstva:

- poznata kao integralna funkcija raspodjele

- poprima vrijednosti: F(-∞) = 0 i F(+∞) = 1

- neopadajuda

- neprekidna sa desne strane

113. Gustoda raspodjele f(t)

Ako prema funkciji raspodjele nacrtamo krivulju, pri čemu na tom grafu horizontalna os predstavlja

vrijednost varijable X, tada dobivamo prikaz funkcije gustode raspodjele slučajne varijable X koja

predstavlja vjerojatnost svih mogudih događaja, te ukupna površina ispod te krivulje iznosi 1.

114. Intenzitet ispada, računanje u elektrotehnici

Intenzitet ispada λ(t) je vjerojatnost da de jedan element ili cijeli sustav, koji je radio bez ispada do

vremena t, ispasti iz rada u periodu [t, t+dt].

Zbog problema primjene teorije pouzdanosti na složene sustave u elektrotehnici, intenzitet ispada λ

se računa prema:

115. Prikaz stanja složenog sustava

Kako je normalno funkcioniranje komponenata kontinuiran proces, a pojava ispada diskontinuirana,

kao rezultat se mogu pojaviti samo 2 moguda stanja (uređaj radi ili je u kvaru). Zbog toga je mogude

stanje složenog sustava prikazati kombinacijom nula i jedinica (nula – ne radi, 1 - radi).

U tablici, m predstavlja pojedinu komponentu u sustavu, a h predstavlja broj mogudih stanja sustava,

a njihov odnos je:

H = 2m

h m1 m2 m3

1 0 1 0

2 0 1 1

3 0 0 0

4 0 0 1

5 1 1 0

6 1 1 1

7 1 0 0

8 1 0 1

Ako se svakom od 2m mogudih stanja pripišu odgovarajude vjerojatnosti nastanka, tada se putem

sumiranja vjerojatnosti pojave pojedinih ispada može odrediti vjerojatnost ispada sustava i na taj

način utvrditi stanje koje ima najvedu vjerojatnost ispada sustava.

116. Funkcija stanja sustava (Booleova funkcija)

Stanje sustava od više elemenata može se opisati pomodu funkcije stanja ili Booleove funkcije. Ova

funkcija omogudava da se polja Karnaughove matrice ispune pomodu 0 i 1 putem analize stanja

sustava. Booleova funkcija definira stanja u kojima sustav ispada kada ispadnu elementi 1 i 2 (u

stupcima 1 i 2 označeno 0) ili 3 i 4 (u drugom retku).

Element 1 2 3 4

stanje sustava

0 0 2 2

2 2 0 0

117. Primjer složenog sustava Sl. 6

Slika 6. Složeni sustav:

1. Uklopnik

2. Magnetska pumpa

3. Magnetski ventil

4. Magnetski ventil

5. Cjevovod

Pouzdanost ovakvog sustava je:

118. Stablo grešaka i shema sustava prema Sl. 6

Stablo grešaka: Ekvivalentna shema sustava:

119. Podjela multiprocesora

Podjela multiprocesora:

- multiprocesori sa zajedničkom memorijom

- multiprocesori sa podijeljenom memorijom

Multiprocesori sa zajedničkom memorijom se sastoje od mnoštva procesorskih elemenata koji se

preko spojne mreže spajaju na mnoštvo adresibilnih modula globalne memorije.

120. Tipovi spojnih mreža

Tipovi spojnih mreža:

- cross-bar

- multiple-bus (višesabirna)

- višefazne međuspojne mreže

121. M*N crossbar sustav

Multiprocesor sa M procesorskih elemenata i N memorijskih modula nazivamo M*N sustavom. Na

slici je prikazana M*N crossbar arhitektura. Kako je u crossbar-u potrebno M*N spojnih elemenata,

ova spojna mreža nije prikladna za izgradnju vedih sustava.

122. Multiprocesor s višestrukim sabirnicama

Slika prikazuje M*N*B multiple-bus arhitekturu sa M procesorskih elemenata, N memorijskih modula

i B sabirnica, uz uvjet B ≤ min(M,N). Multiple-bus sustavi su atraktivnije izvedbe od crossbar sustava,

ali su prikladni samo za sustave srednje veličine od nekoliko desetaka procesora.

123. Višefazna međuspojna mreža

Višefazna međuspojna mreža (eng. Multistage Interconnection Network), tj. MIN je jeftina struktura

za velike sustave sa zajedničkom memorijom. N*N MIN se sastoji od logan stanja a*a spojnih

elemenata, gdje je a maleni broj (uglavnom 2 ili 4). Svako stanje mreže ima N/a spojeva. Na slici je

prikazan specifičan tip MIN-a poznat kao „leptirasta“ mreža.

124. Trodimenzionalna hiper-kocka

Multiprocesori sa podijeljenom memorijom sastoje se od mreže procesora od kojih svaki ima svoju

lokalnu memoriju. Načini spajanja kod ovakvih sustava su: prsteni, stabla, mreže i hypercube. Na slici

je prikazana trodimenzionalna hypercube arhitektura.

125. Koraci u izradi modela

Model je apstraktna slika sustava dobivena uz određene pretpostavke u tri koraka:

- definicija: točno definiranje sustava i svrhe modeliranja

- parametrizacija: definiranje ulaznih i izlaznih parametara modela

- procjena: posljednji korak modeliranja koji se obavlja ili analitičkim tehnikama ili simulacijom

126. Analitičke tehnike za procjenu modela

Razlikujemo 4 vrste analitičkih tehnika:

- blok-dijagram bla

- stabla pogreški

- Markov modele

- „petri“ mreže

127. Tehnike za procjenu pouzdanosti

Razlikujemo četiri tehnike za procjenu pouzdanosti:

- terminalna pouzdanost

- multiterminalna pouzdanost

- task-based pouzdanost

- pouzdanost mreže

128. Terminalna pouzdanost crossbar sustava

Terminalna pouzdanost je vjerojatnost da postoji bar jedan vod između određena dva terminala.

Greška se javlja u slučaju kvara terminala ili kada ne postoji nijedan vod između 2 terminala. Ako

pouzdanost cross-point spoja označimo sa RSW(t), terminalna pouzdanost crossbar sustava je:

TR(t) = Rp(t)*Rm(t)*RSW(t)

gdje su Rp(t) i Rm(t) redom pouzdanosti procesora i memorije.

129. Multiterminalna pouzdanost crossbar sustava

Višeterminalna pouzdanost radi sa podskupom terminala i definirat demo je kao vjerojatnost da je

dani podskup terminala (čvorova) potpuno povezan sa simultanom komunikacijom. Za MxN crossbar

sustav potrebno je x*y operativnih crosspoint veza da bi se x procesora povezalo sa y memorija.

Pouzdanost sustava je:

MTR(t) = Rpx(t)*Rm

y(t)*RSWx*y(t) , 1 ≤ x ≤ M i 1 ≤ y ≤ N

130. Pouzdanost zasnovana na zadacima (Task based)

Task-based pouzdanost M*N crossbar-a definiramo kao:

Rx-bar(t) je pouzdanost cijelog 16*16 crossbar sustava

Doprinos bus strukture za pouzdanost sustava je 1-(1-Rb(t))B. Zamjenom izraza Rx-bar(t) u prethodnoj

jednadžbi dobivamo bus-based pouzdanost.

Analiza task-based pouzdanosti za MIN i Hypercube multiprocesore je izrazito teška zbog njihove

složenosti pa demo je preskočiti.

Drašković 131-156

131. Pouzdanost mreže

Pouzdanost mreže je vjerojatnost ispravnog rada cijele mreže tj. za jednolinijske mreže je to

vjerojatnost da su svi procesori i memorije u sustavu povezani, dok je kod višelinijskih sustav

uspješan čak i kad neka od komponenti ima grešku (tj ne radi ispravno ili uopde).

132. Distribuirano upravljanje vedim postrojenjem

133. Apstrakcija čvora

Zadatci koji se izvode na čvoru (nodu) stvaraju klaster, unutar kojeg komuniciraju putem zajedničke

memorije. Klasteri međusobno komuniciraju porukama – iz toga slijedi da je klaster apstrakcija

funkcije čvora a zadatak apstrakcija funkcije procesora (obje apstrakcije se programiraju u jezicima

visoke definicije npr. MODUL 2).

134. Struktura cikličkog posluživanja ulaza i izlaza

Ciklički I/O preiodično skenira sve urađeje, bez obzira da li oni zahtjevaju obradu ili ne. Takav pristup

zadovoljava stvarno vremenske zahtjeve u zahtjevnim okruženjima.

Kontroler sabirnice periodično adresira I/O uređaje i šalje adrese rastudim redoslijedom.

135. Posluživanje ulaza i izlaza vođeno događajima

I/O vođen događajima dopušta uređajima da šalju podatke po potrebi, te bolje koriste ''bandwidth'' i

podržavaju povedanje broja uređaja. Uređajima se pristupa na zahtjev procesora. Kada neki uređaj

detektira zahtjev, on može odmah pristupiti sabirnici i slati/primati podatke.

136. Usporedba cikličkih i događajima vođenih operacija

137. Pojam ovisnosti sustava

Pojam ovisnosti označava kvalitetu usluge koju sustav osigurava pri normalim i “pogrešivim” stanjima

rada. Pojam ovisnosti obuhvada pouzdanost, raspoloživost i održavljivost, te ostale kvalitete sustava.

138. Načini otkaza sustava

Sustav može otkazati na više načina, no 2 su najbitnija – davanje pogrešnog izlaza i potpuni prestanak

rada (bilo kratkoročno ili za stalno).

139. Načini ponašanja sustava (cjelovito i postojano)

Cjelovitost je vjerojatnost da izlazni podatci računalnog sustava budu točni ili da ih uopde nema.

Postojanost je vjerojatnost da de računalni sustav nastaviti sa funkcijom za koju je namjenjen, iako se

privremeno netočni podatci mogu pojaviti u slučaju pogreške.

140. Usporedba kontinuiranih i sekvencijalnih postrojenja

Kontinuirano postrojenje Sekvencijalno postrojenje

Modelirano (diskretnom) kontinuiranom

funkcijom prijelaza poput Laplaceove ili

ztransformacije

Modelirano FSMom ili Petrijevom mrežom.

Podnosi kratko narušavanje integriteta, ne

tolerira dug gubitak funkcija

Ne tolerira narušava nje integriteta, podnosi

relativno dug gubitak funkcije.

Zahtjeva postojanost Zahtjeva cjelovitost

Kontinuirana postrojenja se najčešde programiraju kao ciklički sistemi, dok sekvencijalna kao

događajem vođeni. U slučaju greške u radu kontrolora, reakcija na novo stanje ovisi o vrsti

postrojenja.

141. Zahtjevi za ovisnost – Krojenje zalihosti

Krojenje zalihosti se vrši jer se ovisnost može postidi samo povedanjem pouzdanosti komponenti ili

uvođenjem zalihosti. Količina zalihosti treba biti na minimumu kako bi se smanjila cijena, potrošnja,

intervali popravka i raspoloživosti.

142. Zahtjevi za ovisnost – Miješanje zalihosti

Zalihost se treba uvoditi samo gdje je potrebna (zbog cjene), treba prepoznati važnost pojedinih

funkcija procesnog kontrolnog sustava te zbog toga dijelovi sustava sa različitim stupnjem zalihosti

trebaju surađivati.

143. Zahtjevi za ovisnost – Podesivost

Uvođenjem zalihosti treba što manje poremetiti postojedu, neredundantnu strukturu. Nakon prve

instalacije sustava, treba biti mogude podešavati zalihost, ali tako da promjene što manje utječu na

ponašanje ved postojedih dijelova.

144. Zahtjevi za ovisnost – Održavljivost

koncept zalihosti treba izbjegavati rješenja koja zahtjevaju komplicirano održavanje. Zalihost je

kratkoročna korist ako plan izrade ovisnosti nije uračunao popravke.

145. Zahtjevi za ovisnost – Skladna degradacija

Potpuni gubitak nekog resursa smije utjecat samo na one funkcije koje koriste taj uređaj, dok ostale

moraju biti sposobne nastaviti funkcionirati normalno.

146. Aktivna-topla pričuva – workby (shema)

Dvije ili više identičnih jedinica vrši iste proračune istovremeno.

147. Aktivna pričuva – prednosti i nedostatci

Prednosti – zamjena je gotovo trenutna, izlazi jedinica se mogu uspoređivati, operacija sinkronizacije

je transparentna programeru.

Nedostatci – zahtjeva dodatno sklopovlje za sinkronizaciju i detekciju pogreške, programer treba

definirati odgovarajude pristupe za svaki unos i tip događaja, proces sinkronizacije i usporedbe

smanjuje brzinu obrade i brzinu odziva.

148. Hladna pričuva - standby (shema)

Glavna jedinica izvršava obradu, dok pomodna može

izvršavati neke druge funkcije.

149.) Hladna pričuva – prednosti i nedostatci

Prednosti – rezerva je slobodna za druge zadatke ako nije u upotrebi, odziv je brži jer nema potrebe

za sinkronizacijom, mala vjerojatnost da de ista pogreška zadesiti obje jedinice obrade.

Nedostatci – pogon je bez kontrole za vrijeme prekapčanja, oporavak traje dugo jer se moraju obaviti

svi proračuni od mjesta prije kvara (chekpointa), podatci koji se izmjenjuju za vrijeme oporavka mogu

biti izgubljeni u slučaju pad asustava.

150. Hladna pričuva kod mikroprocesora

Glavna i pripravna jedinica su potpuno identične ali fizički odvojene.

151. Dijagram sigurnog rada uređaja

152. Sheme cjelovitog, postojanog i kombiniranog ponašanja

153. Kombinacija cjelovitosti i postojanosti

Ukoliko je je vrijeme potrebno za rekonfiguraciju približno jednako 0, ovakva računala su jako

pouzdana, ali uz funkcijsku redundanciju zahtjevaju i redundanciju sklopova. Klasična implementacija

je sustav “2 od 3” gdje 3 sinkronizirana računala rade paralelno i uspoređuju rezultate pomodu sklopa

za glasanje.

154. Postojanost – primjer centraliziranog upravljanja Brown Boveri Becontrol

Ovaj sustav se koristi za nadzor telekontrolnih sustava (npr distribucija energije). Cilj je zadržati

vrijeme pada sustava na manje od nekoliko minuta u godini.

155. Dijagram stanja za Duplex standby

156. Glavne strukture ovisnosti

Marinić 157-182

157. Opda upravljačka shema pogona toplane

158. Povratna veza u upravljanju toplane

Nisko propusni filtar se koristi za eliminaciju šuma koji je prisutan u energijskim pogonima

Kontroler blok sadrži više kontrolera koji su upravljani blokom za odlučivanje (na slici označeno sa D)

159. Ovisnost složenosti bloka za odlučivanje

Nivo složenosti bloka za odlučivanje ovisi o:

količini prikupljenih podataka

količini mjerenih podataka

broju paralelnih kontrolera

željenom nivou inteligencije i zaključivanja

160. Kritični sustavi

u kritičnim sustavima kao što su nuklearne elektrane ili avioni pribjegava se upotrebi trostruke zalihosti ili cijelim pričuvnim sustavima

na manje kritičnim sustavima kao što je toplana, može se pribjedi nešto jednostavnijim rješenjima jer operator može intervenirati u slučaju kvara

vrlo je bitno osigurati pravovremeno izvješdivanje operatera kao i samostalno prebacivanje pogona u sigurno stanje

ukupno 85 modula po jedinici sa velikim brojem ventila i prigušnica potrebno je nadzirati preko 1000 analognih i 3000 digitalnih signala

161. Kriterij postupnog smanjenja učinkovitosti

u cilju smanjivanja računalne greške i postizanja postepene degradacije razvijena je arhitektura sa 20 DEC11/73 računala povezana mrežnim Ethernet sučeljem

nadzor i upravljanje je tako izvedeno da kvarom bilo kojeg računala pogon nastavlja raditi

arhitektura zadovoljava kriterij postupnog smanjenja učinkovitosti: o format prikaza podataka može se prilagoditi zahtjevima o dodatno računalo se može dodati da bi se proširila funkcionalnost o zamjena sklopovskih ili programskih modula olakšana je bez prekida rada pogona

162. Siguran sustav povratne veze

da bi se ostvario siguran sustav povratne veze neophodno je ispuniti slijedede uvjete:

ulaz podataka u računalo

izlaz naredbi prema upravljačkim elementima pogona

implementacija kontrolnih algoritama

sučelje za operatora

163. Glavni poslovi upravljačkog procesora

glavni poslovi koje obavlja kontrolni procesor su: o pretvara podatke u inženjerske jedinice i pridjeljuje im vrijednost o ulazne vrijednosti dobivene od operatora prenosi A/D pretvornicima o prebacuje pogon iz automatskog u ručni režim u slučaju greške o alarmira operatora u slučaju prekida povratne veze o prikuplja prošle vrijednosti varijabli i prikazuje ih na zahtjev operatora o implementira kontrolne algoritme i izračunava potrebne pomake aktuatora o sučelje prema PLC modulima i provjera izlaznih grešaka o Watchdog vlastita provjera od ulaska u mrtvu petlju

164. Sustav ESS

Electronic Switching System

Računalo za komutaciju u telefonskim sustavima

Razvijeno od AT&T Bell Laboratories

Temelji se na dupliciranju svih kritičnih komponenti (upravljačke jedinice, memorija,...)

Sustav koristi glavni skup podsustava

Duplicirani skup je u stanju “tople pričuve” ili radi sinkrono s glavnim skupom

No.5 ESS koristi 3B20D procesor

Otkrivanje grešaka: o Usporedba rezultata oba skupa podsustava (No.1 ESS) o Korištenje samotestirajudih modula koji su duplicirani sami po sebi (No.3 i No.5 ESS)

Visoki zahtjevi na raspoloživost – dozvoljena 2 sata “downtime-a” u 40 godina

165. Sustav SEL88

Razvijen u Systems Engineering Laboratories

Memorijski moduli s 4 porta na koje su spojeni 2 para CPU-a i DMA I/O procesor

Dijeljena memorija u kojoj su smješteni podaci koje koriste programi sa oba procesora

Provjera pariteta

“Watchdog” timer za detekciju zastoja

166. Tandem multiprocesor

975.g. – novi pristup multiprocesorskoj arhitekturi o Eliminira “master/slave” odnose među procesorima o Podržava dvostruke veze među podsustavima o “Online” popravak i zamjena pokvarenih komponenti bez utjecaja na izvođenje

programa

Značajke: o Replikacija procesora o I/O kontroleri s dvostrukim pristupom o Redundantno napajanje

TANDEM NONSTOP SUSTAV o 2 do 16 procesora o Svaki procesor ima vlastitu memoriju i I/O kanal o Dynabus – paralelni sustav sabirnica za o međuprocesorsku komunikaciju velikom brzinom o Diskovi povezani na dva kontrolera

Pristup podacima kada i procesor i kontroler zakažu o “Disk mirroring”

2 identične kopije podataka na 2 nezavisna diska

o Svaki procesor ima svoju kopiju operativnog sustava o Zastoji procesora se izbjegavaju periodičkim slanjem “I’m alive” poruka preko

Dynabus sabirnice ostalim procesorima o “Checkpointing” – ključni mehanizam oporavka

Za svaki aktivni proces postoji pričuvni proces u stanju čekanja u drugom procesoru

Primarni proces periodički šalje “checkpoint” poruke koje definiraju stanje procesa na ključnim točkama

U slučaju da je primarni proces zakazao, operativni sustav aktivira pričuvni proces koji nastavlja od zadnje ključne točke

o Sustav poruka Međuprocesna komunikacija samo preko poruka Izolacija korisničkih procesa od detalja konfiguracije sustava

Korisnički proces koji zahtjeva podatke na disku šalje poruku procesu logičkog kontrolera diska, a operativni sustav iz tablice resursa čita pravu lokaciju traženog procesa

Osnova za „online“ popravak

167. Računalo Stratus

„pair and spare“ arhitektura (parovi i zamjene)

Glavne funkcije su replicirane 4 puta

Svaki podsustav ima dvojnika – zamjenu o Oba samotestirajudi (parovi identičnih funkcija koje primaju identične ulaze) o Izlazni komparatori generiraju signal greške kada se izlazi podsustava razlikuju o Međusobno sinkronizirani

Ukoliko jedan podsustav otkrije interni kvar, drugi nastavlja s radom bez zastoja

CPU dovodi podsustav nakon popravka u puni sinkronizam s dvojnikom o Npr. Popravljeni memorijski podsustav de kopirati sadržaj funkcionalne memorije

Prednosti:

o Ovaj pristup ne zahtjeva oporavak nakon kvara jer posao nastavlja zamjenski podsustav o Nema potrebe za posebnim pristupom programiranju

168. Računalo Synapse

Više procesora 68000 čvrsto povezanih preko 32-bitne paralelne sabirnice na dijeljenu memoriju o Neki procesori su specijalizirani za I/O, dok se drugi bave procesiranjem o Kada završe s poslom, procesori pretražuju redove zadataka u glavnoj memoriji i sami si

dodjeljuju posao

N+1 o Jedan dodatni procesor u odnosu na broj potrebnih za procesiranje zadatka osigurava

istu razinu toleriranja kvarova kao u 2N shemi gdje je procesor dupliciran

Procesori zaduženi za procesiranje imaju 16 KB brze „cache“ memorije da bi se smanjilo opteredenje memorijske sabirnice

Posebna shema „posjedovanja“ dijeljenih podatkovnih struktura o Zahtjevi procesora za čitanjem se rješavaju dodjeljivanjem kopije podataka o U slučaju zahtjeva za pisanjem, procesor dobiva dozvolu za posjedovanje, a podatak se

premješta iz glavne memorije u „cache“ procesora o Ukoliko drugi procesor zatraži pristup podatku koji ved posjeduje neki procesor, vlasnik

podatka daje kopiju u slučaju zahtjeva za čitanjem ili generira „busy“ poruku o Vlasnici podataka nadziru sabirnicu radi zahtjeva na podatke koje posjeduju

Pogreške procesora se obrađuju kroz polutransparentni sustav „checkpointa-a“ o Korisnici moraju podijeliti svoj program na manje jedinice prema određenim pravilima o Sustav automatski umede ključne točke između njih

169. Računalo AURAGEN

Arhitektura konceptualno slična Tandem-ovoj

Hardverska i softverska poboljšanja

Sustav izgrađen oko više grozdova (clusters) povezanih na 32-bitnu paralelnu sabirnicu

Svaki grozd sadrži najmanje 3 procesora 68010 o 2 procesora izvode korisničke zadatke i globalne sustavske procese o Tredi procesor sučeljem prema sustavskoj sabirnici i izvršava vedinu funkcija jezgre

operativnog sustava

Za toleriranje kvarova koristi se varijacija koncepta „checkpoint-a“ o Nakon što su primarni i pričuvni proces dovedeni u isto stanje (sinkronizirani), pričuvni

proces: Sprema sve poruke koje je primio primarni proces Vodi evidenciju broja poruka koje je primarni proces odaslao od zadnje

sinkronizacije

o U slučaju da primarni proces zakaže, pričuvni očitava sve spremljene ulazne poruke i potiskuje izlazne poruke koje je primarni ved odaslao dok je funkcionirao

o Nama potrebe za umetanjem „checkpoint-a“ u kod

170. Smanjena osjetljivost na kvarove

Zadaci obavljeni u skladu sa zahtjevima

Rezultati bez greške

Izvršavanje na vrijeme

Veličina memorije iznad donje granice

171. Oblici zalihosti sustava

sklopovska

programska

vremenska

informacijska

172. Statička zalihost

“NMR”/glasovanje

Kodovi za ispravljanje (Hamming, SEC/DED, ostali)

Logika za prekrivanje o preplitanje o kodiranje stanja

173. Dinamička zalihost

tehnike: o udvostručavanje s rekonfiguracijom o “NMR” s rekonfiguracijom o Backup sparing o Skladna degradacija o Rekonfiguracija o Oporavak (recovery)

174. Hibridna zalihost

Kombinacija statičke i dinamičke

175. Trostruka modularna zalihost

176. Vremenska zalihost

Udvostručavanje spremišta podataka

Može biti dosta otežano, ovisi o složenosti softvera

Rollback program

177. Točke za provjeru (Checkpointing)

Stanje sustava u specifičnim trenucima

Rollback – programski

Izbor točaka ovisi o očekivanim kvarovima o Rijetko: predug rollback o Često: gubi vrijeme na spremanje

178. Dijagram pouzdanosti TMR sustava

179. Dijagram pouzdanosti dvostrukog sustava

180. Programska zalihost

Udvostručavanje spremišta podataka

Može biti dosta otežano, ovisi o složenosti softvera

181. Zalihost kodova

Postiže se dodavanjem bitova -> masking redundancy

PRIMJENA:

pohranjivanje podataka u RAM, DISK,TRAKU

prijenos podataka MEM > CPU

182. Ciklički polinomski kodovi

KLASE.: o Single error correction codes o Burst error correction codes o Independent error correction codes o Multiple error correction codes

PRIMJERI: o IBM650 – CPU – bikvinarni kod (2 od 7)

Otkriva neparan broj pogrešaka o IBM7070 – SUSTAV – kod “2 od 5” sa paritetnim ispravljanjem o IBM1300 – DISK JEDINICA – ciklički kod za otkrivanje paketa grešaka, zaštitni bitovi na

kraju svakog zapisa o IBM2400 – MAG. TRAKA – CRC zaštita

Grgić 183-208

183. Backward i forward oporavak

"Backward" recovery- nastavak rada na točku neposredno prije pojave kvara

Ponavljanje (Retry)

Checkpointing

Journaling

"Forward" recovery – ako postrojenje dozvoljava nastavak rada

Pred – 06A

184. Kvarovi logičkih sklopova

Kratki spoj na 0 (stuck-at-0)

Kratki spoj na 1 (stuck-at-1)

185. Kritični i podkritični kvarovi logičkih sklopova

Primjer: NAND sklop de uvijek dati 1 na izlazu ako je ulaz kratko spojen na 0 -> kritični kvar!

Tip sklopa Kritični kvar Podkritični kvar

AND 1 -> 0 0 -> 1

OR 0 -> 1 1 -> 0

NOT 0 ->1, 1 ->0 Nema

NAND 1 ->0 0 ->1

186. Logika maskiranja

U mreži AND sklopova, kvar de se širiti do zadnjeg sklopa. Ako dodamo OR sklopove između AND

sklopova, kvar se može zaustaviti na slijededem sklopu. Tako dizajniran sklop je tolerantan na

kvarove. Kvar u jednom sloju se maskira na sljededem.

187. Redundancija prema Piercu

Da se korigira t kritičnih kvarova, redundantnost sklopa treba biti: ( ) , gdje je B broj

ulaza svakog redundantnog sklopa.

188. N-modularna zalihost

N identičnih modula sa sklopom za odabir (Voter).

Sklop za odabir na ulazu daje signal koji se pojavio na najviše ulaza

Barem N=3 – osnovni TMR sustav (triple modular redundancy)

189. Pouzdanost TMR sustava

(

( ))

(

)

- Pouzdanost sklopa za glasovanje

- pouzdanost jednog modula

190. Pouzdanost N-modularnog sustava

Proširuje se koncept pouzdanosti TMR sustava :

∑ ( )( )

191. Kaskadiranje TMR sustava

Prednost: može podnijeti više kvarova nego veliki modul u 3 primjerka

Problem: pouzdanost sklopa za odabir

192. Pouzdanost TMR u ovisnosti o pouzdanosti modula i glasača

Pred-06B

193. Tehnike dinamičke zalihosti

Rekonfiguracija

Hladna pričuva

NMR tehnika

Hibridna redundantnost

Degradacija

194. Rekonfiguracija

Isključuje se neispravan modul iz sustava.

Predstavlja osnovu dinamičke redundancije

Jako ovisna o mogudnosti otkrivanja kvara

Potrebna korektna detekcija neispravnog modula

Pouzdanost ovisi o broju modula koji se mogu isključiti iz sustava u slučaju kvara

195. Detekcija neispravnosti kod hladne pričuve

Postoji nekoliko načina detekcije neispravnog modula:

Dijagnostički program (self-diagnostic program)

Interna dijagnostika ugrađena u modul

Vanjska arbitraža

196. Pouzdanost hladne pričuve

Jednostavan model pouzdanosti: ( ( ))

- pouzdanosti kontrolne jedinice

C – kombinirani faktor uspješne detekcije kvara

197. Hibridna redundancija u hladnoj pričuvi

Elementi:

N identičnih modula

S rezervnih modula

Detektor neslaganja ( disagreement detector)

Preklopnik (Switch select)

Sklop za odabir (Voter)

Sustav može tolerirati do N/2 pokvarenih modula

198. Pouzdanost hibridnog sustava hladne pričuve

∑

( )

( )( )

199. Degradacija u sustavu

Polazi se od činjenice da je bolje da sustav radi nekako nego nikako u slučaju kvara. Dodatna

redundancija se koristi prilikom rada. U slučaju rada se pretpostavlja da de sustav i dalje raditi i

zadovoljavati potrebni minimum performansi.

Pred -06C

200. Hladna pričuva s detekcijom kvarova u modulima

Asinkroni mod – rezerva ne mora raditi pri pojavi pogreške

Popravlja se postojanost (persistency)

Cjelovitost (integrity) se ne poboljšava

Pohrana – osvježavanje rezervne jedinice u kontrolnim točkama periodički

U slučaju kvara :

o ponavljanje na rezervi

o Povratak na glavnu jedinicu nakon otklanjanja kvara

o Pri prekapčanju je pogon bez kontrole

201. Topla pričuva – aktivna rezerva s detekcijom kvarova u modulima

Tijesna sinkronizacija (smještaj u blizini)

Ulazi se usklađuju

Nema pohranjivanja

Rezerva stalno aktivna

Workby povedava postojanost (rezerva stalno aktivna)

Cjelovitost sama po sebi, zbog udvajanja i usporedbe

Pogon stalno pod kontrolom

202. Intel 432 unutrašnja shema

203. Dvostruki dualni kontroler

Kako bi se povedala pouzdanost računala za procesnu kontrolu, dodaje se još jedno identično

računalo. N-ade različitog stupnja zalihosti mogu se spajati kako bi se dobio sustav zahtijevane

pouzdanosti. To zahtijeva da se monade, dijade, trijade itd. međusobno povezuju odgovarajudim

kanalima kao što je vidljivo iz slike.

204. X-spoj, dualni dvostruki čvor

Na kraju slike jednonitni dio se sastoji od pogona i njegovih pridruženih senzora i aktuatora. Ulazi i

izlazi pogona se prenose dvostrukom I/O sabirnicom koja čini prvu trijadu. Kontrola sabirnica se vrši

kontrolerom s četverostrukom zalihošdu koji čini tetradu (grupu od četiri). Kontroleri sabirnice su

povezani na dualno računalo koje čini drugu trijadu.

205. Opravdanost X-spoja

206. Dijagram pouzdanosti i izraz za pouzdanost X- spoja

207. I/O konekcija – shema (koncept)

208. Samoprovjeravajuda procesorska ploča (gornji-procesorski dio)

Jurić 209-218

209. 6.26 Samoprovjeravajuda procesorska ploča (donji-memorijski dio)

210. 6.27 Samoprovjeravajude jedinice grupirane u čvor C

211. 6.28 Jednoprocesorski C čvor

212. 6.29 Zahtjevi na procesni sustav

Osnovni zahtjevi (prema Krupp Atlas Elektronik):

-komforna uslužna periferija

-pregledno programersko mjesto

-dugoročna logistika

-visoka radna sigurnost i dugotrajan rad bez smetnji

-paralelan rad za više aktivnosti

-kratka vremena odgovora u svim situacijama

-rukovanje velikim količinama podataka

-modularna sposobnost nadogradnje za nadolazede zadatke

213. 6.30 Raspoloživost i izvršivost procesnog računala

214. 6.31 Višeprocesorski sustav MPR 1300

215. 6.32 Višeprocesorski sinkroni dupleks sustav MPR 1300-SD

216. 6.33 Preklapajuda transputer trijada

217. 7.1 Tehnike (razredi) visoke pouzdanosti

U ovu skupinu tehnika za otkrivanje kvarova ubrajamo sve one tehnike, (sustave) koji mogu otkriti

sve kvarove klase, koja odgovara klasi tehnike. (Znači unutar ove skupine nalazi se mnogo podskupina

koje se razlikuju u klasi kvarova.) To je ujedno i viši zahtjev za pouzdanost tehnike.

218. 7.2 Tehnike otkrivanja kvarova (dijagnostike)

U ovoj skupini se nalaze tehnike za koje postoji određena vjerojatnost da nede otkriti kvar. Ta

vjerojatnost se može odrediti iz višeg zahtjeva za pouzdanost, uzimajudi prosjek iznosa pouzdanosti

tehnika za sve klase kvarova , podijeljeno s vjerojatnošdu događaja kvara svake klase. Tako da vidimo

da je taj iznos dosta teško dobiti.

Tehnike izbjegavanja tj. otkrivanja kvara, nastoje smanjiti vjerojatnost pojave kvara, tj. ispada

sustava. Te tehnike imaju veliki značaj kod sustava u kojima se često pojavljuju kvarovi koje je teško

izbjedi , tj. kod sustava sa neizbježnim kvarovima. Ključ tih tehnika je zalihost ili redundancija, višak

sklopova, programa, raznih izvora.., tako da možemo imati sustav sa dvostrukom zalihosti

(udvostručeni sustav), trostrukom .. .

Za takve tehnike, veliku važnost ima specifikacija sustava, tj. izbor komponenti, jer ona diktira

izvedbu , a tako i cijenu takovih sustava. Osim specifikacije, veliku važnost nosi i sustav za

diagnostiku. Diagnostika se najčešde prikazuje kao termin “diagnostička rezolucija”, što predstavlja

mjeru dijagnosticiranja i ona je obavezna u mnogim sustavima za otklanjanje kvara i teško ju je

odrediti bez podataka o specifikaciji. No iako se dijagnosticiranje i izvođenje tehnike plača , može se

desiti da na kraju dobijemo informacije koje su često neodređene i sumnjive.

Luketić 219-234

219. 7.3 Detekcija udvostručavanjem

Duplikacija je najjednostavnija tehnika detekcije kvara. Pod pojmom duplikacije smatramo dvije

identične jedinice , kopije koje istovremeno rade , te kada se pojavi ispad na jednoj jedinici

jednostavnom komparacijom na posebnoj jedinici, komparatoru (tzv.matcher) uspoređuju se signali

(rezultati) iz obje jedinice , te zbog neslaganja rezultata se detektira kvar , tj. ispad sustava.

220. 7.4 Tehnike zamijeni i usporedi

Tehnika se koristi za važne strukture podataka u memoriji i u drugim područjima u računalu.

Postoji dvije kopije iste riječi, ali jedna kopija (npr. kopija br.2) ima svoja dva byta obrnuta.

Otkrivanje greške podrazumijeva zamjenu bytova glavne kopije (kopije br. 1.) te uspoređivanje sa

kopijom br.2. Ako postoji neslaganje u bitovima , pojavila se greška.

221. 7.5 Udvostručavanje komplementarnih sklopova

Jedna kopija je u svezi sa drugom, a iste greške vjerovatno će potaći različite kvarove tako da će

detekcija tih grešaka biti moguća. To se može jednostavnije predočiti kao sustav u kojemu se isti

signal prima na dva različita primača. Ako se izlazi iz primača (antene) ne slažu , otkrili smo da tu

postoji greška.

222. 7.6 Udvostručavanje na razini sabirnica Sperry-Univac 1100/60

Računala koriste usporedbu na sabirnicama za svoje instrukcijske procese. Procesor može biti

podijeljen na dva podprocesora , a svaki od njih dupliciran. Jedan podprocesor upravlja glavnom

sabirnicom , a drugi dupliciranom sabirnicom. Obje jedinice rade na isti način , sa istim podacima. Na

kraju ciklusa podaci se uspoređuju te ako nastane neslaganje javlja se prekid operacija

223. 7.7 Kodovi za detekciju

Koncept kodova je jednostavan: za grupu od svih mogućih kombinacije simbola , samo jedna

podgrupa predstavlja valjanu informaciju i ta podgrupa se naziva kodna riječ. Kodovi su oblik

redundancije informacija. Duplikacija se može prikazati kao kod , čiji elementi su dvije riječi

sastavljene od dva identična simbola. Kodne tehnike detekcije kvara rade tako da provjeravaju dali je

izlaz valjana kodna riječ.

224. 7.8 Prostorni oblik 3-bitnovne riječi

Svaki rub kocke predstavlja razliku u jednom bitu između susjednih riječi u prostoru.

Razmotrimo kod uzet iz tog prostora u kojem sve kodne riječi imaju neparan broj jedinica. To su

označene riječi □ na slici. Minimalna razlika između dvije riječi je u 2 bita, a bilo koja riječ koja se

razlikuje od druge za jedan bit je nekodna riječ. Razlika u jednom bitu između kodnih riječi

predstavlja jednobitnu grešku (tzv. single-bit error). Pomoću tog koda ( zvanog neparna paritetnost),

moguće je otkriti bilo koju jednobitnu grešku. Neoznačene točke te grupe formiraju drugi kod sa istom

mogućnošću pronalaženja jednobitne greške

225. 7.9 M od N kodovi

M-broj "1"

N-broj bitova cijele kodne riječi

M od N kodovi, (M/N kod) sastoje se od N bitne kodne riječi u kojoj M bitova su jedinice.Npr. 2/4

kod ima 6 mogućih kodnih riječi {1100,1010,1001,0101,001,0110}. Taj kod detektira sve jednostavne

i neke složenije greške. Nedostaci: za sustav za paralelnu detekciju kvara dekodiranje je vrlo složeno,

zahtjev za visokom redundancijom.

226. 7.10 Paritetni kodovi

Imati parnu paritetnost ( even parity) znači da dana grupa bitova ima paran broj “1” , a neparna

paritetnost (odd parity), podrazumjeva neparan broj “1”. Paritetni kodovi imaju dodatni posebni bit

(extra bit) u svakoj grupi bitova , tako da krajnja riječ ima parnu ili neparnu paritetnost. Paritetni

kodovi su linearno odvojivi kodovi i daju “on line” detekciju greške. Paritetni kodovi su pogodni za

serijsku detekciju greške

227. 7.11Tipovi paritetnih zaštita

Bit-per-word (bit po riječi): jedan paritetni bit je dodan cijeloj podatkovnoj riječi. To je najjeftiniji

oblik detekcije kvara, jer zahtjeva minimum redundancije i jedan višelinijski paritetni ulaz. Može biti

korišten za kodiranje i detekciju pogreške, ako je informacija primljena i prenesena. Ovakvi kodovi

mogu detektirati sve jednobitne greške, i sve greške sa neparnim brojem bitova.

Bit-per byte parity ( paritetnost bit po baytu): podrazumijeva dodavanje dodatnog bita svakom

baytu podatka. Ovi kodovi otkrivaju sve greške u jednom bitu i greške sa neparnim brojem bitova u

svakom baytu. Neki mikroprocesori koriste tu tehniku u svojoj memoriji. Promjenjiva parna i neparna

paritetnost bytova podatkovne riječi, daje poboljšanu mogućnost otkrivanja greške.

Interlaced parity (paritivnost sa unutrašnjom vezom među nekim bitovima): i-paritetnih

bitova je dodano podatkovnoj riječi. Svaki paritetni bit je pridružen grupi bitova b, tako da imamo (b/i)

”parove“ , a napravljen je tako da tvori paritetnost sa svakim i-tim bitom , prvo sa prvim pa sve do

zadnjeg. Ta paritetnost otkriva jednobitne greške u svakoj grupi jednako dobro kao i sve višestruke

greške u kojima najmanje jedna grupa ima neparan broj grešaka.

Chip-wide parity (paritetnost za više čipova): je zapravo specijalan slučaj interlaced parity. Ta

paritetnost je napravljena za memorije čipova , jer w-parity bitovi koji se dodaju svakoj podatkovnoj

riječi se nalaze u memoriji čipa. Svaki paritetni bit je paritetan sa bitom iste pozicije svih drugih

čipova. Mogućnost otkrivanja greške je ista kao u prethodnom slučaju, sa svojstvom da je bilo koju

grešku na jednom čipu moguće otkriti , tako dugo dok god je jedan bit na čipu u pogrešci.

228. 7.12 Detekcija ispitnim zbrajanjem (checksum)

Način rada : Zbrajanje svih s riječi te pohranjivanje zajedno s podacima u jedan fizički odvojeni blok

dužine n (n je proizvoljan i obično ograničen) .Pri svakom spremanju zbrajaju se sve riječi i

uspoređivaju s kontrolnom sumom nastalom pri prethodnom spremanju . Karakteristike : zahtjeva

dosta vremena da bi se detektirala pogreška, niska razlučivost, vrlo primjenjivo za ispitivanje ROM-

ova

229. 7.13 Tehnike ispitniog zbrajanja

- Single-precision checksum

- Extended-precision checksum

- Honeywell checksum

- Low-coast residue code

230. 7.14 Aritmetički kodovi

Ima sposobnost da je A(b*c)=A(b)*A(c),gdje su b,c nekodirani operandi, *aritmetička operacija

(kao zbrajanje i množenje),a A(x) je aritmetička kodna riječ od x. Služi za otkrivanje i ispravljanje

pogreške te za provjeravanje rezultata aritmetičkih operacija .Neke operacije (kao na primjer logičke)

ne mogu biti provjeravane aritmetičkim kodom i moraju biti izvedene na nekodiranim operandima.

231. 7.15 Ciklički kodovi

Svaki ciklus pomicanja kodne riječi proizvodi novu kodnu riječ. Implementiran je koristeći pomićni

registar u linearnoj povratnoj vezi koja je napravljena iz XOR logičkih vrata te iz memorijskih

elemenata. Obilježen svojim generatorom polinoma G(x) stupnja (n-k) ili većim.

232. 8.1 Reed-Mullerova tehnika ekspanzije

Ovom tehnikom se realiziraju bilo koje logičke funkcije sa n varijabli koristeći samo I i NILI sklopove

i ima sljedeće karakteristike:

1.ako na primarnim ulazima ne postoji mogućnost greške, onda se otkrivanje greške sastoji od (n+4)

testova

2.ako na primarnim ulazima može postojati greška onda se broj testova povećava (za 2 ne), ali se može

vratiti na (n+4) dodajući jedan I sklop

233. 8.2 Primjer Reed-Mullerove ekspanzije

U Reed‐Mullerovoj ekspanziji ILI operatori mogu biti direktno zamijenjeni sa EX‐ILI operatorima.

Konverzija bez komplementarne Reed‐Mullerove metode koristi izraze:

Primjenjujući to na f(ABC) dobijemo:

234. 8.3 Krautz-ovo pravilo za test EX-ILI sklopova

Kautz je pokazao da je za otkrivanje jednostruke greške EX‐ILI vrata u nizu, dovoljno napraviti test

koji će na svaki ulaz dati sve moguće kombinacije tog sklopa.

Kit 235-260

235. Set testova T1

Za sliku 2. test T1 izgleda ovako:

Za niz prikazan na slici, set testova dan je sa T1. Oblik testa uvijek je isti i sadrži samo 4 testa. Ovaj

test de također otkriti svaku stack-at-0 grešku na ulazima ili izlazima „I“ sklopa te de također otkriti i

svaku stack-at-1 grešku na izlazima bilo kojeg „I“ sklopa. Dakle, ostaje za provedbu test koji de otkriti

s-a-1 grešku na ulazima „I“ vrata. To se izvodi postavljanjem jednog ulaza u 0, a svih ostalih u 1. Ako

greška na nekom izlazu postoji, tada se on mijenja sa 0 na 1 i greška se prenosi do izlaza preko EX-ILI

vrata.

236. Kodandapani-jevo pravilo dodavanja varijable

Kodandapani je otkrio da jedan vektor iz testa T1 možemo izbaciti dodjeljivanjem varijable D, koju

zanemarujemo, testu T2 na poseban način. Izbacivanjem jednog vektora iz T1 gubimo kombinaciju 10

na ulazima EX-ILI sklopova, koju nadomještamo pomodu varijable D u testu T2. Sada testovi T1 i T2

izgledaju ovako (a ukupni broj testova iznosi n+3):

237. Detekcija tehnikom ILI-I-ILI

Ova tehnika temelji se na konstrukciji kombinacijskih sklopova u kojoj se bilo koja razlučiva s‐a‐0 ili

s‐a‐1 greška lako locira i čija mreža završava u tri stupnja koristedi samo I i ILI sklopove. Prikaz ove

strukture ograničen je na logičke funkcije koje se predstavljaju kao suma produkata ili produkt sume

u kojima su sve varijable ne komplementirane vrijednosti. Proces započinje konstrukcijom

neredundantnog primarnog stabla sa tri stupnja ILI‐I‐ILI. Primarno stablo je mreža koja sadrži

I,ILI,NI,NILI ili NE sklopove. Procedura započinje ugradnjom primarnog stabla od početne funkcije koja

zadovoljava ved navedene uvjete i tada započinje modifikacija mreže sa ciljem pronalaženja grešaka

koje se lako lociraju na stablu. U stvarnosti puno funkcija ne zadovoljava ove uvjete. Ali Reddy navodi

da ako istinite i komplementirane verzije primarnih ulaza dolaze sa različitih izvora, funkcija se može

prikazati kao: f (ABC) = AαC + Bβ Varijable α i β zamijenile su komplementirane B i C kao dva nova

nezavisna signala. Za prikaz tehnike upotrijebit demo sliku 3 koja pokazuje shemu za potpuno

otkrivanje grešaka logičke funkcije dane sa:

238. Detekcija dodatnom logikom (Hayes)

Ova tehnika, za razliku od prošle dvije, bavi se dodavanjem kontrolne logike za određivanje stanja

kruga. Time se smanjuje broj testova pretpostavljajudi da kontrolna logika sama sebe provjerava.

Glavni je cilj poboljšati kontrolu kruga dodajudi ekstra kontrolne ulaze i izlaze. Sklopovi koji se koriste

su EX‐ILI, a prva faza je konstruirati mrežu sa dvoulaznim NI sklopovima i invertorima. Invertori se

tada zamjenjuju EX‐ILI sklopovima i dodatnim EX‐ILI, koji se umedu u sve ostale NI ulazne linije koje

ne sadrže EX‐ILI vrata.

(Primjena tih dviju faza) Drugi ulaz u EX-ILI vrata služi kao primarni ulaz i za „1“ predstavlja invertor, a

za „0“ prijenosnik.

239. Osnovni logički modul sl.6

Modul za generaciju testova dan je na slici. Tablica šalje četiri ulazne kombinacije na svaki EX‐ILI sklop

koji osiguravaju četiri različite kombinacije na I sklopu. Dodatni test, ispod linije, služi za stvaranje

četiri različita stanja za sljededi EX‐ILI sklop. Ovi testovi omogudavaju :

1.Potpuno otkrivanje pogrešaka

2.Sve neophodne uvjete za generiranje idudih modula

240. Detekcija tehnikom minimalnog testiranja (Saluja i Reddy)

Saluja i Reddy predstavljaju tehniku kojom bi se sklop potpuno testirao sa tri testa. Njihova tehnika

temelji se na činjenici da se bilo koja n ulazna i 1‐ulazna I,ILI,NI,NILI vrata potpuno mogu testirati za

pojedinačnu ili višestruku stuck‐at pogrešku na njihovim ulazima ili izlazima sa (n+1) testom. Zato,

ako sklop koristi dvoulazna vrata, svaka vrata mogu se testirati sa samo 3 testa. Dodatkom kontrolnih

ulaza i izlaza za promatranje to se može proširiti na cijeli krug. Takva zamjena vidi se na slici. Slični

krugovi postoje i za 3‐ulazna ILI,NI i NILI vrata, a mogu se napraviti i za n ulazna vrata gdje je n>3. Prvi

korak sastoji se u zamjeni svih n‐ulaznih I ili-ili vrata, za koje je n>2, sa dvoulaznim vratima u

kaskadama (sl.8).

Idudi korak je pridruživanje test sekvenci vratima na prvoj razini izabirudi bilo koje dvije sekvence iz S1

ili S2, ovisno dali su vrata I ili‐ili: „I S1={011,101,110}“ „ILI S2={100,010,001}“

Sekvence iz S1 i S2 osiguravaju otkrivanje bilo koje pojedinačne ili višestruke stuck‐at greške na

ulazima i izlazima. Izlazi vrata prve razine bit de kompatibilni test sekvencama ili ne, a u tom slučaju

bit de modificirani uvođenjem dodatnih vrata sa kontrolnim ulazima i izlazima za nadgledanje.

Saluja i Reddy naznačuju da broj dodatnih kontrolnih ulaza ne smije prijedi šest jer de samo šest

različitih sekvenci biti potrebno (u primjeru K1, K2 i K3 su jednaki i mogu biti udruženi), a dodatni

izlazi za nadgledanje omoguduju točnu lokalizaciju greške na određenim vratima.

241. Praktični aspekti ispitne logike (Boswell-ovi savjeti)

Boswell je ustanovio 8 praktičnih savjeta važnih za uspješno testiranje:

1) Omoguditi pristup unutarnjim čvorovima kruga

o Schneider:‐ trebali bi biti dostupni izlazi svih memorijskih jedinica (bistabila) te omoguditi

setiranje i resetiranje svakog pojedinog bistabila

o Ovaj postupak traži veliki broj konektora, ali je vrlo efikasan

o Schneider pokazuje da se set‐reset može realizirati postojedom set‐reset logikom u

bistabilima, dodavanjem gate‐a (I‐sklopa) ili ožičenog ILI‐sklopa

o Schneider pokazuje da se set‐reset može realizirati postojedom set-reset logikom u

bistabilima, dodavanjem gate‐a (I‐sklopa) ili ožičenog ILI sklopa

o Russel i Kime: - logička se funkcija svakog gate-a zanemaruje te se on promatra kao čvor, što

omogudava 1) uvid u utjecaj koji ima mrežna struktura na proce otkrivanja grešaka; 2) može

biti korisno kod strukturnih problema, npr. postavljanje strateške točke testiranja

2) Opdenito, treba izbjegavati logički redundantne krugove

o Krug je logički redundantan ako je izlazna funkcija neovisnao binarnoj vrijednostima ulazu

o U takvom sklopu vrlo je teško otkriti grešku, gotovo nemogude, a pogotovo pogrešku

vezanog stanja

3) Omoguditi što bolju lokalizaciju pogreške

o fizički odvojiti digitalne i analogne podsustave, zbog različitih načina testiranja (ako je

mogude)

o ako ploča sadrži više od jednog neovisnog podsustava, treba ih fizički odvojiti, tj. napraviti

particiju ploče

o koristiti posebno napajanje kod izoliranja (odvajanja)podsustava – logika tri stanja također

korisna

o standardiziranje integralnih krugova i ploča (oznake na pinovima trebaju biti jednake za sve

proizvođače)

o MSI, LSI i VLSI čipove umetati u konektore, a ne ih direktno lemiti na ploču, radi lakšeg

uklanjanja i testiranja

4) Koristiti sinkrone (taktne) krugove gdje god je mogude

Sinkroni se krugovi brže i točnije testiraju od asinkronih

Mane asinkronih krugova:

o nepredvidivo ponašanje pri određenim greškama

o krug ne prepoznaje ponavljanje istih ulaznih veličina

5) Unaprijed osigurati izoliranje takta od logike

Brzina testera određena je vremenom testiranja i zadržavanja (latency) i može biti manja od

brzine testirane logike

6) Omoguditi prioritetno testiranje sekvencijalnih krugova

Oprema za testiranje mora razlučivati što de prije testirati i na koji način

7) Uzeti u obzir radne karakteristike testera za određenu ploču

Može se dogoditi da se trenutne ulazne varijable promjene za vrijeme obrade prethodnih,

pogotovo kod asinkronih krugova.

Može dodi do greške, do koje ne bi došlo u normalnim uvjetima rada

8) Obratiti veliku pozornost na financijsku stranu

Kod razvoja novih sklopova testiranja imaju znatan udio u cijeni samog sklopa

Cijena čipa znatno se povedava s trajanjem testiranja i potrebnom opremom za izvođenje

testa

242. Vrste pogrešaka memorijskih sklopova

Pogreške zaglavljivanja

Pogreške dekodera

Pogreške spajanja

Pogreške osjetljivosti uzorka

243. BIST okružje

Procedure testiranja izrađene su na jednostavan ad hoc način i otkrivanje pogrešaka ograničeno je i

nepouzdano. Built in self testing omoguduje jeftine testere, primjenu puno duljih testova, vede

otkrivanje pogrešaka, prihvatljivi troškovi. Veličina memorije se povedava, cijene off-line testera se

povedavaju te BIST postaje neophodan.

BIST tehnike smanjuju efektivno vrijeme testiranja

koriste tehnike paralelnog i linearnog testiranja

industrijsko testiranje

testiranje krugova

ne mogu testirati čip kada sadrži korisne podatke

još uvijek imaju visoke troškove održavanja ( 20 ‐ 30 % više od običnih integrirani krugova)

zauzimaju malo prostora (oko 1%)

dozvoljavaju ugradnju umjereno kompleksnih test algoritama unutar čipa

244. Modeli pogrešaka RAM-a

RAM čip sastoji se od mreže memorijskih delija, adresnog dekodera, adresnog i podatkovnog registra

i logike za čitanje i pisanje. Može biti organiziran kao jedno bitni izlazni RAM (N x 1bit) ili kao k‐bitni

izlazni RAM (M x k bita). Svaki M –bitni dio može biti organiziran kao l zasebnih dvodimenzionalnih

mreža. Delije i njihov sadržaj u svakoj od mreža su neovisne o delijama u drugim mrežama. Umjesto

testiranja RAM‐a kao jedinstvene cjeline mreže se mogu testirati sekvencijalno ili paralelno. Fizičke

pogreške mogu se pojaviti u :

memorijskim mrežama

adresnim dekoderima

logici za čitanje i pisanje

Za otkrivanje fizičkih pogrešaka RAM‐a napravljeno je nekoliko modela pogrešaka. Ti modeli koriste

dvije pretpostavke:

pretpostavka jednostruke pogreške

o Smanjuje složenost test procedura.

o Testovi koji otkrivaju sve jednostruke pogreške često otkrivaju i vedinu višestrukih

pogrešaka.

nedestruktivna pretpostavka (nepostojanje pogreške čitanja)

o Ako bi se pretpostavilo da operacija čitanja može biti pogrešna, test procedura

postala bi ekstremno kompleksna a ponekad i nemoguda.

o U stvarnosti, vedina pogrešaka u logici za čitanje i pisanje je lako uočljiva jer rezultira

katastrofalnim pogreškama.

o Kako bi se detektirale pogreške čitanja i pisanja, u završnom stadiju ispitivanja mogu

se izvesti jednostavni testovi primjenom vanjskih testera.

245. Model pogreške zaglavljivanja

Memorijska delija je zaglavljena u 1 (0) ako njen sadržaj ostaje stalan u logičkoj 1 (0) neovisno što je u

nju upisano.

246. Model pogreške spajanja

Par memorijskih delija je spojen ako prijelaz u jednoj od njih mijenja sadržaj druge delije od 0 do 1 ili

od 1 do 0. Postoje dvije vrste pogreški spajanja. Kod idempotentne pogreške spajanja prijelaz u jednoj

deliji prisiljava sadržaj druge delije na određenu vrijednost (0 ili 1). Kod inverzne pogreške spajanja

prijelaz uzrokuje inverziju sadržaju druge delije. Pogreške spajanja mogu postojati i između tri ili više

delija.

247. Model pogreške osjetljive na uzorak

Za memorijsku deliju kažemo da je osjetljiva na uzorke ako se njeno stanje mijenja zbog uzorka 0 i

1‐ica, 0—>1 prijelaz ili 1—>0 prijelaz, ili i 0—>1 prijelaz i 1—>0 u grupi drugih memorijskih delija. Ta

se grupa delija pod utjecajem osnovne delije naziva susjedstvo osnovne delije. Problem osjetljivosti

uzorka proizlazi iz visoke gustode komponenti unutar RAM‐a, a povezan je s efektom neželjene

interakcije signala. Kako se gustoda RAM‐a povedava, delije se fizički približavaju i pogreške

osjetljivosti uzorka postaju dominantne pogreške. Štoviše, ostale pogreške mogu se smatrati

posebnim tipovima pogrešaka osjetljivosti uzorka. Testiranje RAM‐a na neograničene pogreške

osjetljivosti uzorka je nepraktično i zahtjeva O (2N) test (test duljine C* 2N , gdje je C konstanta, a N

broj delija).

Ograničen model pogreške osjetljivosti uzorka :

veličina susjedstva je mala

dozvoljena pozicija susjedstva samo fizički okružujeosnovnu deliju

Ograničeno susjedstvo

Fizičko susjedstvo pet delija

Fizičko susjedstvo devet delije

248. Težinski osjetljivi modeli pogrešaka

Zasniva se na širokom susjedstvu reda/stupca sastoji se od svih delija u istom redu (stupcu) osim

same promatrane delije. Težina reda (stupca) je broj “jedinica” u susjedstvu reda (stupca) ‘promatra’

može li sadržaj delije utjecati na sadržaj delija susjedstva reda/stupca. Memorijska delija je pogrešna

ako je njezin sadržaj osjetljiv na bilo koju kombinaciju težine reda/stupca.

Prednosti: Testovi koji otkrivaju težinsku pogrešku reda/stupca također otkrivaju vedinu pogrešaka

koje otkrivaju drugi modeli. Težinski osjetljiv model pogrešaka primjenjiv je na rekonfiguraciju

memorijskih čipova, za koje testovi pogrešaka uzorka susjedstva pet delija nisu.

249. Pogreške u dekoderu i logici za čitanje i pisanje

Vedina pogrešaka koje se pojavljuju u adresnom dekoderu i logici za čitanje i pisanje može biti

zabilježena kao pogreška u mreži memorijskih delija. Za vrijeme testa mreže memorijskih delija one de

se ponašati kao pogreške u mreži. Pogreške zaglavljivanja u logici za čitanje i pisanje pojavit de se kao

velika grupa memorijskih delija s pogreškom zaglavljivanja. Algoritam koji otkriva pogreške

zaglavljivanja u memorijskoj mreži može lagano otkriti ove pogreške. Isti argumenti vrijede i za

pogreške spajanja. Slično tome pogreške adresnog dekodera mogu biti zabilježene kao pogreške u

mreži memorijskih delija, tako da de biti registrirane pomodu testa mreže memorijskih delija.

250. Memorijski test Mscan

Jednostavna test procedura koja piše u svaku deliju, prvo 0, a zatim 1. Svaka vrijednost je provjerena

čitanjem prije nego što se nova vrijednost zapiše. Formalni algoritam glasi:

For i=0,1,...,n‐1

Wi 0

Ri (=0)

Wi 1

Ri (=1)

Determinističko otkrivanje pogrešaka ove procedure je prilično malo, sve što se zna na kraju testa je

da se bar jedna delija može postaviti na 0 i 1, jer pogreška u dekoderu može uzrokovati da se ista

delija koristi svaki put. Bududi da test zahtjeva 4 operacije na svakoj deliji, njegova duljina je 4N.

251. Test napretka

Najrašireniji test algoritam u industriji kojeg odlikuju jednostavnost, srednja pokrivenost pogrešaka.

Inicijalizira memorijsku mrežu na sve nule, onda ispituje memorijske delije u rastudem i padajudem

redu. Ispitivanje se sastoji od provjeravanja očekivane vrijednosti u deliji, pisanju komplementa i

ponovnog čitanja za svaku deliju. Ideja algoritma je da dok ispituje memoriju u rastudem nizu. Svako

direktno spajanje između trenutne delije i delije s višom adresom bit de otkriveno prilikom kasnijeg

čitanja. Ispitivanja memorije u padajudem nizu otkriva učinke na niže adresirane delije.

Korak1. Wi 0 for i=0,1,...,n‐1

Korak 2. For i=0,1,...,n‐1

Ri (=0)

Wi 1

Ri (=1)

Korak 3. For i=n‐1,n‐2,...,0

Ri (=1)

Wi 0

Ri (=0)

Korak 4. ponoviti korake 1‐3 mijenjajudi 0. i 1.

Testovi napretka otkrivaju sve pogreške zaglavljivanja i pogreške dekodera, ali ne i sve pojedinačne

pogreške spajanja.

252. Test šahovske ploče

Jednostavni algoritam dizajniran za dvodimenzionalne memorijske arhitekture. Puni memorijsku

mrežu s uzorkom šahovske ploče pišudi nule i jedinice naizmjenično u delije Pišu se dva uzorka, a

delije se čitaju poslije upotrebe svakog uzorka šahovske ploče.

Algoritam glasi:

Korak 1. W(i,j) 0 for i+j= parno

W(i,j) 1 for i+j= neparno

Korak 2. R(i,j) (=0) for i+j=parno

R(i,j) (=1) for i+j=neparno

Korak 3. ponoviti korake 1. i 2. Mijenjajudi 0. i 1.

(podjela memorijske mreže za test šahovske ploče)

Determinističko otkrivanje pogrešaka ove test procedure je prilično nisko. Sve što je poznato na kraju

testa je da se barem četiri delije RAM‐a mogu postaviti na 0 i 1.

253. Statistički osjetljiv test uzorka susjedstva pet delija

Svaka bazna delija okružena je s 4 znaka (A,B,C,D). Prva faza - razmještaj kao na slici a). Bazne delije

drže se fiksno na logičkoj 0. Uzorak susjedstva pet delija primjenjuje se na baznu deliju koristedi svih

16 uzoraka koji se sastoje od varijabli A,B,C i D. Bazna delija se čita poslije primjene svakog uzorka.

Druga faza - razmještaj kao na slici 4.b. – ponavlja se gornji proces. Obje faze se ponavljaju s baznom

delijom u logičkoj 1.

254. Težinski osjetljiv test pogreške reda/stupca

Testovi duljine O(N3/2), gdje jeosnovna strategija “podijeli pa vladaj” pomodu rekurzivne

podjele (particioniranja). Prvo testiraju rubne delije, a poslije dva srednja reda i stupca, efektivno

dijeledi mrežu na četiri jednaka dijela. Podjela se nastavlja rekurzivno dok se sve delije mreže ne

testiraju. Otkriva pogreške dekodera, kao i statičke pogreške uzorka susjedstva pet delija.

255. Pokrivenost pogrešaka test algoritma

Tablica prikazuje kompleksnost i mogudnost otkrivanja pogrešaka algoritama.Prazna polja znače da ta

vrsta pogrešaka ili nije otkrivena ili je otkrivena u malom opsegu. Polja označena “jednosmjeran”

znače da delija može biti osjetljiva na jedan ili više uzoraka, ali svi oni mijenjaju stanje delije s 0 na 1 ili

s 1 na 0. Tablica pokazuje da je pokrivenost pogrešaka Mscan testa, testa napretka i testa šahovske

ploče relativno mala.

256. BIST RAM test arhitekture – taksonomija

Klasifikacija BIST RAM test arhitektura:

jednomrežne‐jednobitne (SASB)

o istovremeno može testirati samo jednu mrežu RAM‐a i samo jedan bit te mreže

o zahtjeva najduže vrijeme testiranja

o neke vrste pogrešaka zahtijevaju isključivo SASB arhitekture (neopravdane pogreške

spajanja, vanjski testeri)

jednomrežne‐višebitne (SAMB)

o istodobno ispituje jednu mrežu, ali u toj mreži pristupa simultano do više bita

o bitovi do kojih pristupa su iz istog reda

o do više delija istog stupca ne pristupa se istodobno, jer to usporava pristup memoriji

višemrežne‐jednobitne (MASB)

o istodobno ispituje više mreža, ali samo jedan bit svake mreže

o može se koristiti ako je memorijski čip organiziran kao više neovisnih mreža

o istodobno se može pristupiti do kl čelija, gdje je kl broj mreža u memorijskom čipu

višemrežne‐višebitne (MAMB)

o koristi kombinaciju više‐mrežnog i više‐bitnog testiranja

o nekoliko mreža ispituje se istodobno, sa pristupom do nekoliko delija svake mreže

istodobno (obično u redu)

o Zbog toga se može pristupiti i do kln delija istodobno

257. BIST logika

Dizajneri BIST logike pokušavaju smanjiti :

o područje zauzetosti BIST sklopovljem

o zaostajanje performansi u odnosu na normalne operacije memorije

o broj dodatno potrebnih pinova

o odstupanje između funkcionalne brzine i brzine testa

o vrijeme testa

BIST logiku možemo podijeliti na četiri dijela:

kontrolnu logiku

o započinje i završava testiranje, te nadzire kontrolni protok test algoritma.

o može se implementirati koristedi slučajnu logiku ili mikrokod

o slučajna logika nudi vedu brzinu

o fleksibilnost i lakoda implementacije mikrokoda čine ga superiornijim slučajnoj logici

za velike RAM‐ove

adresno‐generacijsku logiku

o test algoritmi zahtijevaju da adrese budu generirane na jednoličan način

o za vedinu algoritama adresni generator može se dobiti iz linearnog povratno

pomičnog registra, registra ili brojača

o u MASB i MAMB arhitekturama jedan adresni generator može biti korišten za

testiranje više mreža

podatkovno‐generacijsku logiku i logiku provjeravanja odgovora

o Podatkovno‐generacijska jedinica proizvodi test uzorak koji se piše u delije. Ovisno o

test arhitekturi, različite strategije koriste se zageneraciju podataka kao i za provjeru

odgovora

o U SASB arhitekturi ispravnost pročitanih vrijednosti provjerava se uspoređivanjem sa

očekivanim vrijednostima ili sa analizom oznaka

o Direktno uspoređivanje je nadmodno jer može otkriti jednostruke pogreške

zaglavljivanja

o Sa analizom oznaka neke pogreške mogu prodi neopaženo zbog aliasing pogreške

o dodatne metode otkrivanja pogrešaka SAMB, MASB i MAMB arhitektura su

uspoređivanje vrijednosti pročitanih u više bita, I čitanje i ILI čitanje

o MASB i MAMB – usporedba izlaza simetrično razmještenih bitova u mreži koja se

testira

o Osnovna pretpostavka je da svi bitovi nede imati istodobno pogrešne vrijednosti

logiku pokretanja testa

o Svi BIST RAM‐ovi imaju normalan mod u kojem je BIST logika neaktivna i jedan ili više

test modova.

o Test modovima može se pristupiti koristedi prenapon, dodatni paket pinova ili

jedinstveni usklađeni slijed.

o Korištenje jedinstvenog usklađenog slijeda je bolje od korištenja prenapona ili

dodatnog paketa pinova.

o Prenapon zahtjeva dodatni izvor napona, ili generiranje dodatnog signala napona.

258. Bududi smjerovi BIST tehnike

BIST tehnologija kombinira nekoliko različitih područja:

modele pogrešaka

o Izvrsni mikročipovi dizajnirani su s rezervnim redovima i stupcima namjenjenim

rekonfiguraciji.

o Za vrijeme proizvodnje memorija se testira i popravlja (ako je potrebno) koristedi

rezervne redove i stupce

o S takvim novim tehnikama toleriranja kvarova (dinamička rekonfiguracija) modeli

pogrešaka bazirani na logičkom susjedstvu postaju nebitni, a oni bazirani na fizičkom

susjedstvu sve važniji.

o Bududi modeli pogrešaka moraju uzeti u obzir efekte rekonfiguriranja i pogreške

kašnjenja

test algoritme

o Kada se čip rekonfigurira, fizički susjedne delije ne mogu više imati slijedne adrese.

Test algoritmi za otkrivanje fizičkog modela pogrešaka osjetljivosti uzorka moraju to

uzeti u obzir.

o Smanjivanje vremena testa i optimalizacija algoritama

provedbu testa

o Dok se memorijski čip koristi u sistemu na može biti testiran jer test procedure mogu

uništiti sadržaj memorije.

o Bududi sistemi moraju razviti algoritam koji de posjedovati mogudnost testiranja u

radu

dijagnoza pogreške i samokonfiguracija

o Sadašnje BIST implementacije mogu stanoviti pogrešku

o U bududnosti, BIST de potencijalno biti korišten u stručnoj dijagnostici.

o Ona de pomodi rekonfiguraciji memorijskog čipa i popravci više‐čipovskih

memorijskih modula

259. Pregrijavanje

Pregrijavanje je definirano kao proces opteredivanja komponente povedanim vanjskim stresom , ali

unutar dozvoljenih maksimalnih granica, kojim se otkrivaju "urođene" mane ili defekti koje imaju

veliku vjerojatnost pojavljivanja kao rani kvarovi pri radu u uvjetima primjene. Današnje metode

kontrole komponenata svode se na pregrijavanje gotovih. Komponenti dok naprednije metode

koriste on-chip indikatore pouzdanosti. Budude metode omogudit de rješavanje problema ranih

kvarova u korijenu, tj. eliminaciju defekata i grešaka u samom proizvodnom procesu.

260. Eliminacija komponenata s ranim kvarovima pregrijavanjem

Defekti nastaju prilikom proizvodnje komponente. Vede greške mogu se otkriti pri normalnom

ispitivanju kvalitete, prilikom proizvodnje ili testiranjem električnih svojstava na gotovom proizvodu.

Neki defekti, međutim, ostaju “pritajeni” i nakon nekog određenog kratkog vremena u upotrebi pri

normalnim, radnim, uvjetima mogu se vrlo vjerojatno razviti u teške defekte (rane kvarove).

Proizvođač, da bi spriječio dolazak takvih defektnih komponenti u primjenu, primjenjuje jednu ili više

vrsta preopteredenja da bi ubrzao razvoj grešaka tako da bi se one pri tom testu pojavile tijekom

kratkog vremena , tipično unutar 24-168 sati. Što je krade vrijeme pregrijavanja (mogude i ispod 24

sata) pregrijavanje de biti, isplativije. Bitno je pronadi optimalne iznose opteredenja i trajanja

pregrijavanja tako da bi (gotovo) sve komponente sa ranim kvarovima bile otklonjene i da ne bi

ispravni segment komponente bio bespotrebno izložen starenju.

Kvolik 261-287

261. Izbor režima rada i uvijeta okoline

Vrlo je teško izabrati uvijete pregrijavanja za određenu komponentu, jer postoji nedostatak

potvrđenih studija na tom području. Izbor uvijeta pregrijavanja ovisi o tipu mehanizma kvara koji

treba detektirati.

Pri određivanjuopteredenja radi se kompromis između trajanja pregrijavanja, koje želimo što

krade i rizika od značajnog skradivanja radnog vijeka ispravnih komponeneata

Najbolje bi bilo postupno opteredivati sklop kako bi doznali robusnost pri svakom pojedinom

opteredenju.

Treba stimulirati pritajene greške koje se razvijaju u kvarove, ne treba simulirati radne uvijete

nego one uvijete koji de pokazati defekte

262. Proces selekcije prema MIL-STD-833

Prema MIL standardu postoje tri klase kvalitete prema broju različitih stresova kojima je komponenta

bila izložena a to su S, B, B1(s je najbolja)

Provodi se po kontrolnim koracima;

Unutarnja vizualna inspekcija(100%),

Držanje na visokoj temperaturi(24h/150°C),

Varijacija temperature(20x -65/+150),

Konstantno ubrzanje(30000g/60s),

Reducirani električki ispit(100%),

Pregrijavanje(160h/125°C),

Električki ispit(100%)

Hermetička zatvorenost(100%)

Vanjska vizualna inspekcija (100%)

U zagradi su dane vrijendosti za klasu B

263. Krade podvrgavanje povišenoj tmperaturi

Pregrijavanje od 24h na 150°C trebalo bi eliminirati komponente sa vedim greškama kao što su

oksidacija, kratki spoj ili kontaminacija.

Ovaj postupak selekcije nije jako efektivan, ali je vrlo jeftin i sposoban otkloniti serije komponenata

sa površinskim greškama

264. Podvrgavanje varijacijama temperature

Najčešde se primjenjuje hod temperatura od -60 °C do +150 °C

minimalni broj ciklusa ja 10, češde se radi 20. Držanje na jednoj konstantnoj temperaturi traje tipično

10 minuta. Vrijeme prelaska iz jedne u drugu komoru (hladne u toplu, ili obnuto) obično nije duže od

5 minuta

Proces se odvija u višekomornoj pednici sa zračnim hlađenjem/grijanjem gdje sekomore nalaze jedna

iznad druge (slika 12.5).

Varijacijom temperature ubrzava se razvoj kvarova koji nastaju zbog razlike temperaturnih

koeficijenata rastezanja materijala korištenih pri izradi integriranih krugova.

Ovom metodom se otkrivaju:

Loši kontakti

Slabosti hermetičkog pakovanja

Loša montaža plastičnog kudišta

265. Podvrgavanje konstantnoj akceleraciji

Koristi za otkrivanje slabih točaka pakovanja i spojnih mjesta.

Komponente se izlažu djelovanju centrifugalne sile pri sa akceleracijom od 30 000g u trajanju od 60

sekundi, obično u smjeru z-osi.

Izlaganje konstantnoj akceleraciji bilo je vrlo popularno u doba uporabe zlatnih spojnica. Prelaskom

na aluminijske ova metoda postala je upitna.

Ova metoda je umjereno skupa.

266. Duže izlaganje višoj temperaturi

Najstarija metoda pregrijavanja gdje se primjenjuje temperatura od 125 °C neovisno o vrsti

integriranih krugova (168 sati).

Valjnost ove metode za današnje integrirane krugove i novije zrele tehnologije je donekle upitna.

Efektivnost pregrijavanja je ovisna o nivoima energije na kojima se određeni kvarovi razvijaju, te o

trajanju samog procesa.

Pri pregrijavanju komponente su pod naponom koji može biti promjenjiv ili ne (statičko i dinamičko

pregrijavanje).

Ova metoda koristi se za otkrivanje sljededih grešaka:

- ionska kontaminacija, korozija

- inverzija, oksidacijski defekti

- defekti nestali zbog metalizacije, elektromigracija

267. Test hermetičke zatvorenosti

Pri testiranju na mala puštanja integrirani krugovi se prvo stavljaju u vakum, a onda u komoru sa

helijem pod pritiskom od 5 atm u trajanju od oko 4 sata. Nakon toga se komponente stavljaju u

komoru sa normalim atmosferskim uvjetima i pomodu detektora helija mjerimo curenje, ako ga ima.

U testu na velika puštanja zraka, koji slijedi, ponovno integrirane krugove stavljamo u vakum, a onda

na 2 sata u komoru sa fluorovodikom pri 5 atm. Poslije toga, komponente na kratko izračimo i

uranjamo u tekudinu da bi prema prisustvu ili odsustvu mjehurida zaključili da li je hermetička

zatvorenost dobra ili ne.

Cilj svakog pregrijavanja treba biti otkrivanje ranih kvarova, a mehanizmi kvarova koji ih uzrokuju

treba iskoristiti u svrhu pronalaženja optimalnijih i efektivnih uvjeta pregrijavanja.

268. Trajanje pregrijavanja

TIPIČNI IZNOSI ZA INTEGRIRANE KRUGOVE

Najpoznatiji je proces pregrijavanja predložen sa MIL-STD-833

- trajanja 168 sati (160) pri konstantnoj temperaturi od 125 °C

- od 20 ciklusa hoda temperatura od –65 °C do +150 °C

U komercijalne svrhe koristi se verzija sa 8,12, 24, 48, 72 sata, 10 ciklusa temperaturnog hoda –40

°C do +125 °C.

Navedena trajanja i broj ciklusa bazirana su na isplativosti i logističkim aspektima više nego na

eksperimentalnim spoznajama o razvoju ranih grešaka .

269. Metoda pregrijavanja uzorka

Koristi se kad su kvarovi rijetki, te se masovno pregrijavanje ne radi .

Da bi ipak imao nekakav nadzor kvalitete proizvođač de npr. jednom tjedno, uzeti uzorak koji de

podvrdi punom pregrijavanju i koji de dati odgovor na pitanje da li je proces pod kontrolom.

Ovaj pristup u proizvodni proces uključuje primjenu statističke kontrole procesa (SPC). U praksi

pravila primjene SPC metode često se ne poštuju, te se uzima premali broj uzoraka. To dovodi do

smanjenja efektivnosti procesa.

Da bi metoda pregrijavanja uzoraka bila bliska stvarnoj situaciji, treba uzeti u obzir da postoji

korelacija između perioda pada tijekom pregrijavanja p0 i perioda ranih grešaka tijekom primjene, pf.

270. Princip metode pregrijavanja uzorka(shema)

Proces je sličan onima koje smo naveli za MIL-STD-105 ili ISO 2895 standard, ali postotci su niži od

onih iz vedine tablica. Zato podatke dobivamo osnovnim statističkim metodama.

Predavanje 10B

271. Uzorci protivljenja razvoju pouzdanosti

Ljudski: Strah od neuspjeha temeljen na podršci za popravljanje procesa.

Politički: Strah od gubitka modi.

Kulturni: Organizacijski otpor promjenama u dužem vremenskom razvitku.

Cilj:Nejasan, nedefiniran i nemjerljiv cilj čini ljude konfuznima i nesklonim suradnji.

Promjena rukovodstva: SQA treba biti uključen i podržavati ciljeve kritične za misiju organizacije.

272. Primjeri posljedica loše pouzdanosti

A 3-year-old gets an IRS refund for $219,495

Microsoft publishes an unverified Spanish thesaurus which includes insulting slurs, resulting in a

public relations debacle.

The ENT Federal Credit Union ignores months of customer complaints about their automated teller

machines, allowing the defective programming to count only the first withdrawal by a customer –

and resulting in $1.2 million in losses.

Predavanje 10C

273. Pouzdanost sklopovlja i programske podrške

Sklopovlje Programska podrška

1. Kvarovi mogu biti uzrokovani manjkavostima u dizajnu, proizvodnji, korištenju i održavanju

1. Kvarovi prvenstveno nastaju zbog grešaka pri dizajnu, s tim da proizvodnja (kopiranje), korištenje i održavanje (isključujučiispravke) imaju zanemarivi učinak

2. Kvarovi mogu nastati zbog uporabe (trošenja) ili neke druge pojave vezane uz energiju. Katkada je upozorenjemogudeprije nego li se kvar dogodi

2. Nema učinka trošenja. Kvarovi programske pogreške se događaju bez upozorenja.

3. Popravci se mogu raditi, što može poboljšati pouzdanost opreme.

3. Jedini popravci se vrše redizajnom (reprogramiranjem), što ako otkloni greške i neuvedenove, rezultira vedom pouzdanošdu.

4. Pouzdanost može ovisiti o efektu trošenja, tj. Mjera pogrešaka može se smanjivati, biti konstantna ili rasti sukladno sa vremenom rada

4.Pouzdanost nije toliko ovisna. Na poboljšanja pouzdanosti tjekomvremena može se utijecati, ali to nije vezano uz vrijeme rada. No to utiječedetekcija i ispravljanje pogrešaka.

5. pouzdanost može biti u vezi sa vremenom skladištenja i/ili rada

5. Pozdanost nije vremenski vezana u ovom smislu. Kvarovi se događaju pri izvršavanju koraka ili puteva programa koji sadrže pogreške.

6.Pouzdanost je povezanasaučincimaokoline 6. Vanjaskaokolinaneutječena ulazeprograma.

7. Pouzdanost se može teoretski predvidjeti iz znanja o dizajnu i faktorima korištenja

7. Pouzdanost se nikako ne može predvidjeti iz fizikalnih baza, bududi da u cijelosti ovisi o ljudskom faktoru pri dizajnu. Neki a priori pristupi se kasnije predlažu.

8. Pouzdanost se nekad može poboljšati uvođenjem zalihosti.

8. Pouzdanost se nikako ne može poboljšati uvođenjem zalihosti, ako su paralelni putevi programa identični, bududi da ako jedan put zakaže, i drugi de imati istu grešku. Mogude je osigurati zalihost paralelnim putevima, svaki sa različitim programima, koje su napisali i pregledali različiti timovi.

9. Kvarovi se mogu dogoditi komponentama sustava na način koji je u nekoj mjeri predvidljiv iz opterečenjana komponente i ostalih faktora. Kritične liste pouzdanosti i Paretoanaliza kvarova su korisne tehnike.

9. Kvarovi nisu uobičajeno predvidljivi iz analiza odvojenih izjava, tj. Linija koda. Vjerojatnije je da greške postoje nasumično kroz program i bilo koja linija može imati grešku. Kritične liste pouzdanosti i Paretoanaliza kvarova nisu prikladne.

274. Modovi kvara programske podrške

1. Pogreške specifikacije

2. Sustavni dizajn programske podrške

3. Postupak generiranja programskog koda

275. Pogreške specifikacije

Uobičajeno više od polovine grešaka zabilježenih tijekom razvoja programske podrške potiče iz

specifikacije.

Specifikacija programske podrške mora potpuno i točno opisati zahtjeve programa. Program se točno

treba odnositi na te zahtjeve.

Primjer dvotredinskog glasanja sustava sa zalihošdu:

«Uzmi uzorke A, B i C na ulazu. Ako ikoji premaši za >±10 jedinica prosjeka ostala dva, proslijedi

prosjek ostala dva. Indiciraj kvar ulaza izvan tolerancije. Ako uvjet izvan tolerancije ne postoji,

proslijedi prosjek sva tri ulaza.»

276. Sustavni dizajn programske podrške

Sustavni dizajn programske podrškeslijedi iz specifikacije. Može biti dijagram toka i definira strukturu

programa, točke testiranja, ograničenja, itd. Greške se mogu pojaviti kao rezultat neispravne

interpretacije specifikacije ili nepotpune ili netočne logike.Robusnost opisuje sposobnost programa

da izdrži uvjete pogrešaka bez ozbiljnih posljedica, kao što su to npr. beskonačne petlje ili potpuni

pad.

277. Generiranje koda programske podrške

To je primarni izvor grešaka, bududi da tipični program sadrži veliki broj linija koda.

Tipične greške mogu biti:

a.Tipografske podrške

b.Netočne brojčane vrijednosti, npr. 0.1 umjesto 0.01.

c.Izostavljanje simbola

d.Uporaba izraza koji mogu postati neodređeni, kao što je dijeljenje sa vrijednosti koja može postati

nula

278. Modularnost pri generairanju koda

Modularno programiranje razbija zahtjeve programa na odvojene, manje programske zahtjeve, ili

module, svaki od kojih može bitiodvojeno specificiran, napisan i testiran. Ukupan problem je tako

lakši i razumljiviji. Svaka specifikacija pojedinog modula mora naznačiti kako de se taj modul

povezivati sa ostalim dijelovima programa. Zato svi ulazi i izlazi moraju biti specificirani.Optimalna

veličina modula ovisi o funkcijama samog modula i nije određena jedino brojem elemenata

programa. Moduli ne bi obično smjeli predi 100 odvojenih naredbi ili linija koda u višem

programskom jeziku.

279. Toleriranje kvarova pri generiranju koda

Program bi trebao modi pronadi svoj put iz stanja greške i indicirati izvor greške. To se može postidi

programiranjem internih testova ili provjera unutar vremena ciklusa, sa poništavanjem i indikacijom

pogreške ukolikopostavljeni uvjeti nisu ostvareni. Kada je sigurnost u pitanju, važno je da program

uspostavi stabilno stanje kada se pojavi greška. Tolerancija kvarova se također može osigurati

uvođenjem zalihosti.

280. Odabir programskog jezika

Odabir programskog jezika koji de se koristiti pri izradi programske podrške može utjecati na

pouzdanost programske podrške. Postoje dva glavna pristupa koji se mogu koristiti:1.Niže razine

programiranja (assembly level).2.Jezici više razine programiranja (HLL –high language level).Bududi da

HLL rade preko kompajlera, ovisnost kompajlera utječe na pouzdanost cijelog sustava.

281 Dizajn programske podrške sustava stvarnog vremena

Sustav stvarnog vremena je takav sustav koji mora funkcionirati na brzinama koje zahtijevaju ulazi i

izlazi sustava.

U sustavima stvarnog vremena procesor i ulazi i izlazi su sinkronizirani sa sistemskim satom.

Programska podrška mora biti dizajnirana tako da su funkcije ispravno usklađene sa impulsima

sistemskog sata.

282. Pouzdanost podataka

Pri odašiljanju digitalno kodiranih signala, postoje dva izvora degradacije:

1.Podaci ne moraju biti obrađeni na vrijeme, tako da dolazi do pogrešaka pri obradi.

2.Podaci se mogu pokvariti u prijenosu ili u memoriji kada se digitalni bitovi izgube ili invertiraju, ili

kada se dodaju lažni bitovi.

Sustav uklanjana i smanjuje broj grešaka koristedi FIFO i LIFO strukture, ali i implementacijom

zalihosti na način da se podaci za obradu prihvadaju tek kada su barem dva puta ponovljeni identično,

npr. u tri ciklusa.

Kvarovi podataka zbog prijenosa ili kvarova memorije se provjeravaju detekcijom pogrešaka, a

ispravljaju kodiranjem. Najjednostavniji i vjerojatno najpoznatiji način je paritetni bit.

Složeniji kodovi za detekciju pogrešaka, su npr. Hammingovkod i BCH kod.

283. Testiranje programske podrške

Postoje granice testiranja programske podrške. Nije praktično iscrpno testirati razumno kompleksan

program. Ukupan broj mogudih putova kroz program sa ngrana i petlji jeste 2n.

Proces testiranja programske podrške je iterativan za vrijeme pisanja koda. •integracijsko testiranje

•Verifikacija•

Validacija

Plan testiranja mora sadržavati:

1. Operacije pri ekstremnim uvjetima (vremensko usklađivanje, ulazne vrijednosti parametara i

brzina promjene, operacije nad memorijom).

2. Slijed ulaznih nizova.

3. Tolerancija kvarova (popravak grešaka)

284. Poissonov model pouzdanosti

Pretpostavlja se da pogreške mogu postojati nasumično u strukturi koda i da je njihova pojava

funkcija vremena u kojem program radi. Broj pogrešaka koje se događaju u vremenu tjeste N(t). Ako

postoje uvjeti:

1.N(0)=0,

2.u intervalu (t, t+dt) ne može se desiti više od jedne pogreške,

3.pojavljivanje grešaka je neovisno pojavi prethodnih grešaka,tada se pojava grešaka može opisati

nehomogenom Poisson ovom raspodjelom:

[ ( ) ] [ ( )]

[ ( )] gdje je ( ) ∫ ( )

m(t)je srednja vrijednost pogrešaka koje se događaju u intervalu (0, t)

( ) [ ( )]

gdje je aukupan broj pogrešaka, a bje konstanta. Broj grešaka koje ostanu nakon vremena t,

pretpostavljajudi da se svaka greška koja se pojavila popravila je ( ) ( )

Funkcija pouzdanosti, nakon što se dogode i isprave greške koje su se nedavno desile u vremenu s, je:

R(t)=exp{-a[exp(-bs)-exp[-b(s+t)]}

Bududi da greške programske podrške nisu vremenski vezane kao što su to greške sklopovlja,

korištenje ovog modela za pogreške programske podrške je problematično.

285. Model pouzdanosti prema Musi

Ovaj model koristi vrijeme izvođenja programa kao neovisnu varijablu. Pojednostavljena verzija ovog

modela je:

[ (

)]

gdje je N0 broj pogrešaka, T0 je MTTF na početku testiranja (MTTF=MeanTime To Failure–srednje

vrijeme do kvara) i C je “faktor kompresije testiranja”koji je jednak omjeru ekvivalentnog vremena

rada i vremena testiranja.

Trenutni MTTF: (

) da je R(t) = exp(-t/T)

Iz ovih relacija može se izvesti broj kvarova koji se trebaju nadi i ispraviti, ili potrebno vrijeme za

izvođenje programa, od T1do T2:

(

)

(

) (

)

286. Littlewoodov model

Ova metoda krede od pretpostavke da su različite programske pogreške imaju različite vjerojatnosti

uzrokovanja kvarova. Ako su φ1, φ2…φ,Nmjere pojavljivanja grešaka 1, 2, …, N, funkcija pogreške

programa nakon što je i ta greška popravljena je

λ=Φ1+ Φ2+... ΦN-i

φ je gamma distribuiran, tj. pogreške nemaju konstantnu mjeru pojavljivanja nego su ovisne o

korištenju programa. Ukoliko su parametri gammadistribucije (α, β) onda se pomodu

Bayesovogpristupa može prikazati:

( ) ( ) ( )( )

( )( )( )

gdje je t’vrijeme potrebno za detekciju i ispravljanje igrešaka. Iz toga:

( ) ( )

Pri svakom pojavljivanju i ispravljanje greške, λ(t)pada za α/(β+t'). Pretpostavlja se da se sve

detektirane greške isprave bez uvođenja novih pogrešaka

( ) (

)

( )

287. Bitni elementi razvoja progranske podrške

1.Potpuno i točno specificiranje zahtjeva.

2.Osiguranje da cijelo osoblje razumije zahtjeve.

3.Iscrpna provjera specifikacije. Postavljanje pitanja «Što ako...?»

4.Dizajn strukturiranog programa i potpuno specificiranje svakog modula.

5.Iscrpna provjera dizajna i specifikacije modula.

6.Provjera grešaka napisanog programa, liniju po liniju.

7.Planiranje testiranja modula i cijelog sustava radi pokrivanja važnih ulaznih kombinacija, pogotovo

u ekstremnim vrijednostima.

8.Osiguranje potpunog zabilježavanjasvih razvojnih bilješki, testova, provjera, grešaka i promjena

programa.

Documents

PDRS_SKRIPTA_2011