5
Nachweis von AusreiBern und Nichtlinearitiiten bei der Auswertung von Eichreihen fiber eine Regressionsrechnung WalterHuber BASF Aktiengesellschaft, ZAM/Analytik, D-6700 Ludwigshafen, Bundesrepublik Deutschland Detection of Outliers and of Non-Linearity in the Evaluation of Calibration Data by Linear Regression Summary. Outliers are data pairs, which are significantly different from the others. They are identified after elimi- nation of the suspected values either by comparison of the variances of the two regression lines (F-test), or by calcula- tion of the prediction interval (t-test). Both methods give identical results. Non-lineafity is detected by the proof of a trend of the gradients between the data points after Neumann. The test is non-selective and simple to use. Zusammenfassung. Unter einem Ausreil3er wird ein Daten- paar verstanden, das sich signifikant von den restlichen un- terscheidet. Seine Identifizierung erfolgt nach Eliminierung aus dem Datenkollektiv und Neuberechnung der Regres- sionsdaten entweder fiber die Priifung der Reststreuungen der beiden Regressionsgeraden mit dem F-Test, oder abet fiber die Berechnung des Vorhersagebereichs (t-Test) der ausreil3erfreien Regressionsgeraden. Die beiden Methoden ergeben fibereinstimmende Resultate. Zur Feststellmag der Nichtlinearit/it werden die Steigun- gender Verbindungsgeraden zwischen den einzelnen Mel3- punkten berechnet und einem Trendtest nach Neumann un- terworfen. Der Test ist unselektiv und einfach durchfiihrbar. Die klassische Methode der Verarbeitung von Eichdaten besteht in der graphischen Auswertung der erhaltenen Da- tenpaare. Die Konzentrations- oder Mengenangaben wer- den auf der Abscisse, die fehlerbehafteten Signalwerte (Ex- tinktionen, F1/ichenintegrale, Spannungswerte usw.) auf der Ordinate aufgetragen. Es erscheint nicht sonderlich schwie- rig, die eingezeichneten Punkte geffihlsmfil3ig auf AusreiBer- eigenschaften sowie anf Abweichungen yon der Linearit/it zu pr/ifen. Bei eindeutigen F/illen ist das Verfahren durch seine unmittelbare Anschaulichkeit in der Tat auch fiberzeu- gend und kaum ersetzbar, da auch andere wichtige Informa- tionen, wie z.B. Abweichungen yon der Varianzenhomoge- nit/it sowie lineare Teilgebiete erkannt werden k6nnen. Andererseits kann nicht iibersehen werden, dab die Me- thode auch erhebliche Nachteile aufweist: - Der Arbeitsaufwand ist, verglichen mit der Anwendung der Rechnung, sehr hoch. - Das korrekte Einzeichnen der Eichgerade ist geffihls- m/it3ig kaum m6glich. Dabei m/iBten n/imlich ausschliel3- lich die Fehter der Signalwerte auf der Ordinate mini- miert werden. Praktisch 1/iuft die Einzeichnung aber auf eine Art Orthogonalregression hinaus, d.h. die Fehler werden auf beide Koordinaten gleichm/iBig verteilt. Dies ist prinzipiell falsch. - Da die Eichgerade auch zur Analysenauswertung ver- wendet wird, liegt die erzielbare Genauigkeit, falls nicht extrem grol3e Diagramme gezeichnet werden, in der Gr6- 13enordnung eines Rechenstabes. Dies erscheint fiir viele Zwecke unzureichend und nicht mehr zeitgem/il3. - Bei der Zeichnung wie bei der Auswertung werden leicht Fehter gemacht. -Wichtige Zusatzinformationen, w4e Standardabwei- chung und Vertrauensbereiche, sind nicht erh/iltlich. - Die Beurteilung von AusreiBern und Nichtlinearit/iten ist willk/irlich. Mehr Objektivit/it nach definierten Kriterien w/ire dringend erwfinscht, um vergleichbare Daten zu erhalten. Fast alle diese M/ingel lassen sich durch die Anwendung der Regressionsrechnung beseitigen, die schon mittels besse- rer Taschenrechner durchf/ihrbar ist. Allerdings st6gt man dabei auf das Problem der rein rechnerischen Erkennung der AusreiBer und Nichtlinearit/iten. Allgemeinmathema- tisch kann dies erhebliche Probleme aufwerfen, Bei der Er- stellung von Eichgeraden iiegen jedoch in der Regel relativ enge Rahmenbedingungen vor, die Speziall6sungen zulas- sen. Als Ralmaenbedingungen k6nnen getten: - Relativ wenige Datenpaare, meist zwischen 5 und 10. - Meist nur einfache Besetzung eines jeden Niveaus. - Geringe Streunngen. - Geringe oder gar keine Abweichungen vonder Lineari- t/it. - Periodische Funktionen und Unstetigkeiten k6nnen aus- geschlossen werden. Die anzuwendenden Tests miissen darauf Rficksicht neh- men. Insbesondere sollte es nicht notwendig sein, zur Prfi- fung neue Messungen vorzunehmen. Eine Ausreil3ererken- nung w/ire hierbei natfirlich kein Problem. 1. Nachweis von Ausreiflern Die fibliche Definition eines Ausreil3ers als extrem hoher oder niedriger Wert mug hier modifiziert werden. Da fiir jedes Niveau meist nur ein einzelner Mel3wert vorhanden ist, kann ein Vergleich nur mit einem zu errechnenden Erwartungswert durchgeffihrt werden. Tritt ein grol3er Unterschied auf, sind zwei Interpretationen m6glich: - Der Mel3wert ist fehlerhaft (klassischer Ausreil3er). - Der Mel3wert ist richtig, aber die Eichkurve ist nicht- linear (Fehlanpassung der Funktion). Fresenius Z Anal Chem (1984) 319: 379--383 Springer-Verlag 1984

Nachweis von Ausreißern und Nichtlinearitäten bei der Auswertung von Eichreihen über eine Regressionsrechnung

Embed Size (px)

Citation preview

Page 1: Nachweis von Ausreißern und Nichtlinearitäten bei der Auswertung von Eichreihen über eine Regressionsrechnung

Nachweis von AusreiBern und Nichtlinearitiiten bei der Auswertung von Eichreihen fiber eine Regressionsrechnung WalterHuber

BASF Aktiengesellschaft, ZAM/Analytik, D-6700 Ludwigshafen, Bundesrepublik Deutschland

Detection of Outliers and of Non-Linearity in the Evaluation of Calibration Data by Linear Regression

Summary. Outliers are data pairs, which are significantly different from the others. They are identified after elimi- nation of the suspected values either by comparison of the variances of the two regression lines (F-test), or by calcula- tion of the prediction interval (t-test). Both methods give identical results.

Non-lineafity is detected by the proof of a trend of the gradients between the data points after Neumann. The test is non-selective and simple to use.

Zusammenfassung. Unter einem Ausreil3er wird ein Daten- paar verstanden, das sich signifikant von den restlichen un- terscheidet. Seine Identifizierung erfolgt nach Eliminierung aus dem Datenkollektiv und Neuberechnung der Regres- sionsdaten entweder fiber die Priifung der Reststreuungen der beiden Regressionsgeraden mit dem F-Test, oder abet fiber die Berechnung des Vorhersagebereichs (t-Test) der ausreil3erfreien Regressionsgeraden. Die beiden Methoden ergeben fibereinstimmende Resultate.

Zur Feststellmag der Nichtlinearit/it werden die Steigun- gender Verbindungsgeraden zwischen den einzelnen Mel3- punkten berechnet und einem Trendtest nach Neumann un- terworfen. Der Test ist unselektiv und einfach durchfiihrbar.

Die klassische Methode der Verarbeitung von Eichdaten besteht in der graphischen Auswertung der erhaltenen Da- tenpaare. Die Konzentrations- oder Mengenangaben wer- den auf der Abscisse, die fehlerbehafteten Signalwerte (Ex- tinktionen, F1/ichenintegrale, Spannungswerte usw.) auf der Ordinate aufgetragen. Es erscheint nicht sonderlich schwie- rig, die eingezeichneten Punkte geffihlsmfil3ig auf AusreiBer- eigenschaften sowie anf Abweichungen yon der Linearit/it zu pr/ifen. Bei eindeutigen F/illen ist das Verfahren durch seine unmittelbare Anschaulichkeit in der Tat auch fiberzeu- gend und kaum ersetzbar, da auch andere wichtige Informa- tionen, wie z.B. Abweichungen yon der Varianzenhomoge- nit/it sowie lineare Teilgebiete erkannt werden k6nnen.

Andererseits kann nicht iibersehen werden, dab die Me- thode auch erhebliche Nachteile aufweist: - Der Arbeitsaufwand ist, verglichen mit der Anwendung

der Rechnung, sehr hoch. - Das korrekte Einzeichnen der Eichgerade ist geffihls-

m/it3ig kaum m6glich. Dabei m/iBten n/imlich ausschliel3- lich die Fehter der Signalwerte auf der Ordinate mini-

miert werden. Praktisch 1/iuft die Einzeichnung aber auf eine Art Orthogonalregression hinaus, d.h. die Fehler werden auf beide Koordinaten gleichm/iBig verteilt. Dies ist prinzipiell falsch.

- Da die Eichgerade auch zur Analysenauswertung ver- wendet wird, liegt die erzielbare Genauigkeit, falls nicht extrem grol3e Diagramme gezeichnet werden, in der Gr6- 13enordnung eines Rechenstabes. Dies erscheint fiir viele Zwecke unzureichend und nicht mehr zeitgem/il3.

- Bei der Zeichnung wie bei der Auswertung werden leicht Fehter gemacht.

- W i c h t i g e Zusatzinformationen, w4e Standardabwei- chung und Vertrauensbereiche, sind nicht erh/iltlich.

- Die Beurteilung von AusreiBern und Nichtlinearit/iten ist willk/irlich. Mehr Objektivit/it nach definierten Kriterien w/ire dringend erwfinscht, um vergleichbare Daten zu erhalten. Fast alle diese M/ingel lassen sich durch die Anwendung

der Regressionsrechnung beseitigen, die schon mittels besse- rer Taschenrechner durchf/ihrbar ist. Allerdings st6gt man dabei auf das Problem der rein rechnerischen Erkennung der AusreiBer und Nichtlinearit/iten. Allgemeinmathema- tisch kann dies erhebliche Probleme aufwerfen, Bei der Er- stellung von Eichgeraden iiegen jedoch in der Regel relativ enge Rahmenbedingungen vor, die Speziall6sungen zulas- sen.

Als Ralmaenbedingungen k6nnen getten: - Relativ wenige Datenpaare, meist zwischen 5 und 10. - Meist nur einfache Besetzung eines jeden Niveaus. - Geringe Streunngen. - Geringe oder gar keine Abweichungen vonder Lineari-

t/it. - Periodische Funktionen und Unstetigkeiten k6nnen aus-

geschlossen werden. Die anzuwendenden Tests miissen darauf Rficksicht neh-

men. Insbesondere sollte es nicht notwendig sein, zur Prfi- fung neue Messungen vorzunehmen. Eine Ausreil3ererken- nung w/ire hierbei natfirlich kein Problem.

1. Nachweis von Ausreiflern

Die fibliche Definition eines Ausreil3ers als extrem hoher oder niedriger Wert mug hier modifiziert werden. Da fiir jedes Niveau meist nur ein einzelner Mel3wert vorhanden ist, kann ein Vergleich nur mit einem zu errechnenden Erwartungswert durchgeffihrt werden. Tritt ein grol3er Unterschied auf, sind zwei Interpretationen m6glich: - Der Mel3wert ist fehlerhaft (klassischer Ausreil3er). - Der Mel3wert ist richtig, aber die Eichkurve ist nicht-

linear (Fehlanpassung der Funktion).

Fresenius Z Anal Chem (1984) 319: 379--383 �9 Springer-Verlag 1984

Page 2: Nachweis von Ausreißern und Nichtlinearitäten bei der Auswertung von Eichreihen über eine Regressionsrechnung

Or g naJ Papers

Tabelle 1. Wertepaare mit absichtlich erzeugtem AusreiBer bei xs. Aus der Regressionsgeraden wurden die Residuen e berechnet

x y e

1 0,980 -0,0520 2 2,015 0,0193 3 2,990 0,0306 4 4,012 0,0889 5 4,800 --0,0868

0,1"

e

-O,1-

x

Abb. 1. Residuen e und Abscissenwerte x aus Tabelle 1 wurden gegeneinander aufgetragen. Das Diagramm stellt ein gekipptes und gespreiztes Abbild der Eichkurve dar (Abscisse ist Regressionsge- rade). Strichpunktiert eingezeichnet ist die Regressionsgerade der Punkte 1 - 4 ohne 5

Zwischen diesen M6glichkeiten kann statistisch ohne zu- sfitzliche Messungen nicht entschieden werden. Aufgabe tier Untersuchung kann nur sein, einen MeBwert als signifikant verschieden vom fibrigen Datenkollektiv zu identifizieren. Das entsprechende Datenpaar wird im folgenden als Ausrei- Ber bezeichnet, obwohl es v611ig fehlerfrei sein kann.

Differenzen zwischen MeBwert und Erwartungswert las- sen sich leicht angeben: Man errechnet aus den Wertepaaren die Regressionsgerade y = a § bx und aus dieser Funktion wiederum die Residuen e = yg . . . . . . . - - Yb . . . . hnet. ES liegt nun nahe, diese Residuen einem AusreiBertest, etwa nach Grubbs, zu unterwerfen. Dies ist jedoch nicht zulassig, da die Residuen im Gegensatz zu Einzelmessungen, ffir die der AusreiBertest konzipiert wurde, fiber die Ausgleichsgerade eine starke gegenseitige Abhangigkeit voneinander aufwei- sen. Ein hoher Wert ftir e braucht daher keineswegs mit einer AusreiBereigenschaft kombiniert zu sein. Zutreffend ware dies nur far einen Wert in der Mitte der Eichkurve, wahrend die Residuen der Randwerte durch den Einflul3 der fibrigen Daten stark beeinfluBt werden k6nnen.

Ein Beispiel macht dies am besten klar. Es wurden Daten- paare erzeugt, ausgehend von der Funktion y = x. Die ersten 4 Punkte wurden mit einem Fehler v o n < 0,02 ab- wechselnd positiv und negativ versehen, der Punkt 5 mit dem zehnfachen Wert (siehe Tabelle 1).

Obwohl die AusreiBereigenschaft von Punkt 5 sowohl yon der Festlegung wie vom optischen Eindruck her (siehe Abb. 1) klar zu erkennen ist, ist das Residuum von Punkt 5 nicht das gr6gte, sondern dasjenige von Punkt 4. Dieser Punkt ist aber keinesfalls ein Ausreiger. Sein hohes Residuum wird nut durch den Einflug von Punkt 5, dem eigentlichen AusreiBer, erzeugt.

Diese Erkenntnis, deren Feststellung dem Auge keine Schwierigkeiten bietet, er6ffnet Ansatze ffir die Strategie einer rein rechnerischen Behandlung. Ausgangspunkt ist da- bei zunachst der optische Eindruck (vgl. Abb. 1), der aus-

380

sagt, dab die Abweichung der Werte von einer Geraden (und damit die Streuung) nach der Eliminierung eines Ausreigers stark abnimmt. Das Ausreigerkriterium ergibt sich dann aus einer Prfifung der Reststreuungen Sy der beiden Geraden auf signifikanten Unterschied mit dem F-Test.

Es ist aber noch eine weitere Prfifungsm6glichkeit denk- bar. Man kann ffir die neu berechnete Regressionsgerade ein Vertrauensband berechnen und ptiifen, ob der Ausreigerwert damit vertraglich ist. Dieser Test ware dann eine Variante des Sollwert-t-Tests, allerdings mit prinzipiellen Unterschie- den bei der Definition des Vertrauensbereichs.

Es spricht ffir die Relevanz dieser Uberlegungen, dab mit den beiden vom Algorithmus her so verschiedenen Metho- den praktisch identische Resultate erhalten werden. Die Un- terschiede liegen im Bereich der Rundungsfehler. Dabei ist es belanglos, ob der AusreiBerwert im Zentrum oder am Ende der Eichgerade liegt.

Durchf f ihrungdesAusrei f ler tes ts

Voraussetzungen: - Mindestens 4 Wertepaare (N > 4). - Mindestens 3 verschiedene Niveaus. - Varianzenhomogenitat innerhalb des MeBbereichs (dies

gilt f/Jr jede lineare Regression). - Es kann nur ein Ausreil3er gefunden werden. Liegen mehr

vor, ist das Ergebnis unsicher. - Linearitat.

1. Schritt

Aus den Wertepaaren wird die Regressionsgerade y = at + b ix und die Reststreuung Sy a berechnet.

2. Schritt

Vorauswahl der potentiellen AusreiBer. a) Graphisch durch Auftragen der Wertepaare in einem

Koordinatensystem und Beurteilung durch Augenschein. b) Rechnerisch durch Ermittlung der Residuen e =

Yg . . . . . . . - - Yb . . . . h n e t , Liegt nur ein grol3er Wert in der Nahe des Zentrums vor, genfigt es, nur diesen zu prfifen. Bei meh- reren hohen Werten am oberen oder unteren Ende miissen diese alle geprfift werden.

c) Kombiniert. Die berechneten Residuen werden gra- phisch aufgetragen.

3. Schritt

Eliminierung des potentiellen AusreiBerpaars xA und YA aus dem Datenkollektiv und Berechnung der neuen Daten y = az + b 2 x u n d s y 2 .

4. Schritt

Prfifung der Ausreigereigenschaft.

Uber den F-Test: Man berechnet die Priifgr6ge

P G = ( N - 2)s2t -- ( N - 3)s22

srZ2

Page 3: Nachweis von Ausreißern und Nichtlinearitäten bei der Auswertung von Eichreihen über eine Regressionsrechnung

und vergleicht sie mit dem Tabellenwert von F (P = 95%, f l = 1, f2 = N - 3) 1. Bei PG < F liegt kein AusreiBer vor, und die eliminierten Werte werden dem Datenkollektiv wieder zugeffigt. Anschliel3end k6nnen weitere Werte ge- prfift werden (ab 3. Schritt) .

Ober den t-Test [1]:

VB = 9 +_ ts~

= a2 + b2XA ~ t Sy2

t =

n

XA

~ / 1 (X A -- 2) 2 1 + - - + . . . . 4 /'l

X x 2 _ • 2 n

Tabellenwert der t-Verteilung mit P = 95% und f = n - 2 = N - 3

= N - 1 (ein Datenpaar wurde eliminiert)

= Abscissenwert des eliminierten Ausreil3ers

= Mittelwert aller Abscissenwerte (ohne XA).

Die errechneten Werte ergeben die Ausreil3erschranken am Punkt XA und erm6glichen eine Prfifung des Mel3werts YA. Befindet er sich innerhalb dieser Schranken, liegt kein Ausreil3er vor. Das Paar wird mit den/ibrigen Daten wieder vereinigt und evtl. eine neue Prfifung ab Schritt 3 vorgenom- men.

Rechenbeispiel

Aus den Daten der Tabelle 1 wurde berechnet:

y = 0,0683 + 0,9637x

Sy 1 : 0,0805 .

Nach dem Ergebnis der Residuenberechnung sind die Punkte 4/4,012 und 5/4,800 ausreil3erverd/ichtig.

Prfifung von 4/4,012

Nach Eliminierung des Datenpaares wurde gefunden:

y = 0,0810 + 0,9510x

Sy2 = 0,0639.

f)ber den F-Test:

PG = 3 �9 0 ,08052- 2.0,06392 = 2,76 0,0639 z

Fx,2 = 18,51.

Da PG ~ F, eindeutig kein AusreiBer.

Ober den t-Test: Als Ausreil3erschranken ffir XA = 4,000 wurden vom

Rechner ausgegeben: 3,5565 und 4,2135. Da YA = 4,012 deutlich innerhalb dieser Spanne liegt, ist kein Ausreil3er nachweisbar.

Der Punkt 4/4,012 wurde wieder in das Datenkollektiv aufgenommen.

fJber den F-Test:

3 �9 0,08052 - 2 - 0,01752 PG = = 61,48

0,01752

Fl,2 = 18,51.

Da PG > F, eindeutiger Ausreil3er.

Ober den t-Test: Als Ausreil3erschranken ffir XA = 5,000 wurden vom

Rechner ausgegeben: 4,8977 und 5,1363. Da YA = 4,800 deutlich aul3erhalb dieser Spanne liegt, ist Punkt 5/4,800 signifikant ein Ausreil3er.

Anmerkung: Verwendet man anstelle des Paars 5/4,800 das Paar 5/4,8977 mit YA = AusreiBerschranke, erh/ilt man beim F-Test eine Prfifgr6Be von 18,63, also fast genau den Tabellenwert Fx,2 = 18,51. Die beiden Methoden sind gleichwertig.

Diskussion

Wfihrend die Prfifung mit dem F-Test zwar qualitativ ein- leuchtend, aber quantitativ schwer begrfindbar erscheint, iiberzeugt die praktische Relevanz des t-Tests unmittelbar: VB ist definiert als Voraussagebereich (prediction interval) ffir eine zukfinftige Beobachtung y an der Stelle x. Die vor- handenen Daten gelten als zusammengeh6rig, und ein neu hinzukommender Wert wird auf Vereinbarkeit geprfift.

Dieser Tatbestand trifft in unserem Fall im Prinzip zu: Die ,,guten" Daten geh6ren zusammen und der potentielle Ausreil3er wird auf Vereinbarkeit geprfift. DaB er kein zu- kiinftiger, sondern ein schon gemessener Wert ist, erscheint unwesentlich, vorausgesetzt, die fibrigen Daten werden der- selben Prozedur unterworfen.

Ein gewisses Problem ist die Frage, was mit nachgewiese- hen AusreiBern geschehen soll. Ist N groB und liegt der Ausreil3erwert einigermaBen zentral, bestehen wohl keine Bedenken, ihn unter Erw/ihnung einfach zu entfernen. An- ders liegt der Fall etwa in unserem Rechenbeispiel. Hier mul3 man sich entscheiden, ob man den Wert wegfallen 1/il3t, daffir aber den Megbereich nur bis x4 gelten 1/iBt, oder aber mit x5 neue Messungen durchffihrt. Diese erlauben dann eine Aussage darfiber, ob ein Megfehler oder aber ein Anpas- sungsfehler (beginnende Nichtlinearit/it) vorgelegen hatte. Bei weniger eindeutigen Ffillen muB die Entscheidung dem Urteil des Analytikers fiberlassen bleiben.

Bei der praktischen Erprobung seit fiber einem Jahr hat es sich gezeigt, dab die angewendete Wahrscheinlichkeit von 95% zu vernfinftigen Ergebnissen ffihrt. 90% ergibt ge- sch6nte Werte, w/ihrend bei 99% nur krasse AusreiBer ent- fernt werden.

Prfifung von 5/4,800

Nach Eliminierung des Datenpaars wurde gefunden:

y - 0,0185 + 1,0071 x

Sy2 = 0,0175

1 Diese Modifikation des F-Tests hat den Vorzug, dab PG nicht durch die verschiedenen Freiheitsgrade beeinflugt wird, was bei kleinem N stark ins Gewicht fallen wfirde [2]

2. Nachweis von Nichtlinearitiit

Der Nachweis der Nichtlinearit/it bzw. umgekehrt die Fest- stellung, dab eine Eichkurve als linear angesehen werden kann, wird in der Analytik sehr h/iufig ben6tigt und ist entsprechend wichtig.

In der Literatur sind zwei Verfahrensprinzipien zur Line- arit/itspriifung beschrieben, die nach verschiedenen Krite- rien urteilen. Nach der einen Methode [3] mfissen Mehrfach-

381

Page 4: Nachweis von Ausreißern und Nichtlinearitäten bei der Auswertung von Eichreihen über eine Regressionsrechnung

OriGina Papers

Abb. 2. Schematische Darstellung fiir die Lage der Datenpunkte bei linearer (a) und nichtlinearer (b) Anordnung. Die Gesamtstreuun- gen sind etwa gleich. Sie werden bei a) durch zuf/illige Schwankun- gender Werte, bei b) abet im wesentlichen durch nichtlineare Anord- nung erzeugt

bestimmungen ffir die Signalwerte y vorhanden sein. Vergli- chen wird die Abweichung der Mittelwerte vonder Regres- sionsgeraden mit der Abweichung der Einzelwerte vom Mittelwert (F-Test). Fiir die iiblichen Eichdaten kommt die Methode somit nicht in Frage, da viel zu wenige Werte vorliegen.

Nach der anderen Methode werden die Datenpaare einer allgemeinen Parabel angepaBt. Gepriift wird entweder die Signifikanz des quadratischen Glieds der Funktion [4], oder aber der Unterschied der Reststreuungen Sy der Parabel einerseits mit derjenigen der linearen Funktion andererseits [2]. Bei signifikantem Unterschied mul3 Nichtlinearitgt ange- nommen werden.

Nachteilig an dieser zweiten Methode ist ihre Selektivi- tilt. Der Test behandelt verschiedene Arten der Nichtlineari- tilt nicht gleich: Parabeln werden schfirfer erkannt als andere nichtlineare Funktionen, Kurven mit Wendepunkten wet- den beispielsweise gar nicht erfal3t.

Diesen Nachteil weist der Test, der hier vorgestellt wird, nicht auf. Es handelt sich um die Modifikation eines Trend- tests von Neumann [5, 6]. Bei nichtlinearer Anordnung der einzelnen Mel3punkte weisen die dazwischen liegenden Stei- gungen (Polygonzug) einen erkennbaren Trend auf, bei line- arer Anordnung sind sie statistisch verteilt (Abb.2). Die Einzelsteigungen (Differenzenquotienten) werden berechnet und dem Trendtest unterworfen. Dabei wird vereinfachend die Linearitilt des Teilstficks der Tangensfunktion unter- stellt, innerhalb der die Streuung der Steigungen stattfindet. Dies erscheint zulfissig, da die Streuungen bei Eichreihen in der Regel sehr gering sind. Der Test ist im fibrigen vertei- lungsunabhilngig.

P G =

T a b e l l e 2 . Kritische Schranken fiir den Linearit/itstest (Trendtest) [5,6]

n 95% n 95%

4 0,7805 15 1,2053 5 0,8204 16 1,2272 6 0,8902 17 1,2473 7 0,9359 18 1,2660 8 0,9825 19 1,2834 9 1,0244 20 1,2996

10 1,0623 21 1,3148 11 1,0965 22 1,3290 12 1,1276 23 1,3425 13 1,1558 24 1,3552 14 1,1816 25 1,3671

Durchffihrung des Linearit i i tstests

Voraussetzungen - Mindestens 5 verschiedene Niveaus (N > 5). - Jedes Niveau gleich besetzt (im Regelfall einfach, bei

Mehrfachbesetzungen Verwendung der Mittelwerte). - Ann/ihernd gleiche Abst/inde zwischen den Niveaus. - Varianzenhomogenit/it.

Man berechnet die Priifgr6ge

~(bi - - b i + l ) 2 X ( b i - b i + l ) 2 P G -

(N - 2) s 2 Sb 2 (S bi) 2

N - 1

bl = Steigung der Geradenstiicke zwischen den Mel3- punkten

Yi - Yj + 1 Ayi

xj - xj + 1 Axi

s = Standardabwei'chung der Steigungen, berechnet aus bi

N = Anzahl der Wertepaare (bei Mehrfachbestimmun- gen nut die Mittelwerte).

P G wird verglichen mit einem Tabellenwert nach Neu- mann mit 95% Wahrseheinlichkeit (siehe Tabelle 2) und n = N - l .

Bei P G < Tabellenwert wird Nichtlinearitilt angenom- m e n .

Rechenbeispiel

Wertepaare

x y

1 0 , 0 8 6

2 0,193 3 0,294 4 0,392 5 0,485

Berechnete Gr6gen:

Eichfunktion y = - 0,0091 + 0,0997 x

Sy = 0,0048 VKy = 1,65% R 2 = 0,9993

bl = 0,107 b2 = 0,101 b3 0,098 b4 = 0,093

(0,107 - 0,101) 2 + (0,101 - 0,098) 2 + (0,098 - 0,093) 2 = 0,6813.

0,3992 0,039903

4

Tabellenwert (95%, n -- 4) = 0,7805.

382

Page 5: Nachweis von Ausreißern und Nichtlinearitäten bei der Auswertung von Eichreihen über eine Regressionsrechnung

@v g r lerbe em

Es liegt somit keine Linearit/it vor. Diese Feststellung konnte getroffen werden, obwohl aus den Qualitfitsdaten hervorgeht, dab die Streuung nicht fiberm/iBig grog ist. Ohne Linearit/itsprfifung w/iren die Daten wohl ohne Beden- ken fibernommen worden.

D&kussion

Der Test kann wegen seiner Einfachheit routinemfiNg bei jeder Regressionsrechnung durchgeffihrt werden. Ein ent- sprechendes Programm ffir einen Taschenrechner wurde an- gegeben [7] und hat sich bei der praktischen Arbeit als sehr nfitzlich erwiesen. Abweichungen vonde r Linearitfit kom- men h/iufiger vor, als man denken sollte, und ein Hinweis darauf kann die Qualitfit der Analysen deutlich verbessern.

Ein Nachteil des Tests ist eindeutig die Notwendigkeit, alle Niveaus gleich besetzt zu haben. Sofern dies nicht zu- trifft, ist eine Auswertung problematisch. Dies gilt auch ffir stark verschiedene Abstfinde zwischen den einzelnen Ni- veaus.

Dagegen kann eine Absch~itzung vorgenommen werden, ab wann etwa eine Korrelation den linearen Bereich verlfigt. Dazu mfissen im linearen Teil mindestens 5 Wertepaare vor- handen sein. Von diesem Punkt ausgehend gibt man schritt- weise die weiteren Wertepaare ein und verfolgt den Verlauf fiir PG. Eine Abnahme dieser Gr6Be ergibt einen Hinweis fiir ein Abknicken der Kurve. In krassen F/illen kann hier natfirlich auch der Ausreigertest angewendet werden.

Eine weitere interessante Anwendung besteht bei der Regressionsrechnung mit transformierten Daten (z. B. ffir e- und Potenz-Funktionen). Sofern ,,Nichtlinearitfit" festgestellt wird, bedeutet dies bier sinngemfil~, dab die Stfirke der Kr/immung zwischen Megpunkten und angepag- ter Funktion signifikant verschieden ist. Eine solche Feststellung kann Hinweise fiber verbesserte Anpassungs- funktionen ergeben.

Ffir Anregungen und Diskussion bin ich Herrn Assessor H. Hochadel zu grogem Dank verpflichtet.

Literatur

1. Sachs (1974) Angewandte Statistik, Springer, Berlin Heidelberg New York, S 343

2. Funk W, Dammann V, Vonderheid C, Oehlmann G, For- schungsbericht 10205114 Umweltforschungsplan BMI

3. Wie [1], S 335 4. Gottschalk G, (1975) Fresenius Z Anal Chem 275:1 5. Neumann J von, Kent RH, Bellinson HB, Hart BI (1941) Ann

Math Statist 12:153 6. Gottschalk G (1980) Auswertung quantitativer Analysenergeb-

nisse. Analytiker-Taschenbuch Bd. 1 7. Huber W (1984) Anwendung programmierbarer Taschen-

rechner in der Analytik. Analytiker-Taschenbuch, Bd. 4

Eingegangen am 14. Februar 1984

383