Upload
kirsten-geisler
View
221
Download
2
Embed Size (px)
Citation preview
„Gruppen-Screening“ – ein Paradebeispiel für
Anwendungsorientierung und Vernetzungsmöglichkeiten
im Mathematikunterricht
Hans HUMENBERGER Universität Wien
Mit einfachen schulmath. Mitteln:
• ein Problem aus der Realität modellieren • Verbindung von elementarer Stochastik
(EW einer ZG) und Analysis schaffen (Funktionen, Graphen, Extremwerte, Grenzwerte, Kurvendiskussionen)
• Prinzip der Approximation veranschaulichen, (Näherungsverfahren, Näherungsformel)
• das Verhältnis zwischen diskreten und kontinuierlichen Problemen beleuchten
• ein CAS gut einsetzen 0
Einzel-Tests vs. Paar-Tests Aufgabe 1: Nach einem großen Sportfest sollen alle Sportler
Proben (Blut, Urin) abgeben: Dopingkontrolle!
Es werden 2 Möglichkeiten vorgeschlagen:
• Jede Probe wird einzeln überprüft.
• Je 2 Proben werden zusammengeschüttet und das Resultat getestet; falls nötig Einzeltests.
a) Wie viele Tests sind beim „Paartest“ unter welchen Umständen nötig (pro Paar) ?
Paar-Test negativ: beide „sauber“; 1 Test nötig Paar-Test positiv: 1. Person allein getestet:
• Negativ: 2. Person hat gedopt (2 Tests)
• Positiv: auch die 2. Person muss getestet werden (3 Tests)
b) Vergleich für 2n Personen:
Einzeltests: 2n Personen, 2n Tests Paar-Tests: jedenfalls n Tests für die n Paare Extremfälle:
Bei allen Paaren reicht 1 Test: n
Bei allen Paaren 3 Tests nötig: 3n
Klar: Paar-Test bringt dann Vorteile, wenn wenige positive Proben zu erwarten sind.
0102030405060708090
1 2 3
Aufgabe 2: Sportfest-Diagramm: Anzahl der Paare, bei denen 1, 2, 3 Tests benötigt wurden.
Was ist alles aus diesem Diagramm zu entnehmen?
• 80 + 30 + 10 = 120 Paare, d. h. 240 TN
• Tests: 80 + 30 2 + 10 3 = 170 , ca. 0,71 T/TN, - 29 %
• zwischen 40 und 50 Sportler/innen gedopt, Dopingquote: 16,7 % – 20,8 %
Aufgabe 3: (Erwartungswert)Wie viele nötige Tests sind pro Paar zu erwarten, wenn aus langjähriger Erfahrung bekannt ist, dass der Anteil p aller Sportler/innen Doping betreibt?
E = (1 – p)² 1 + (1 – p) p 2 + p 3 = – p² + 3p + 1
p 0
2p 3p 1 2 p 0,38
Gruppentests bei Krankheiten„Krankheitsanteil in der Bevölkerung ist p“
Modellannahme: n Individuen seien unabhängig voneinander und mit jeweils gleicher WS p von dieser Krankheit befallen
Auswahl der Testpersonen = Bernoulli-Exp.
Bei Einzelprüfung: 1 Test pro Person bzw. k Tests für k Personen
1
2-stufiger Gruppentest nach Dorfman
1. Stufe (Gruppentest): Mischen des Blutes von jeweils Personen
a) Gruppentest neg.: alle Personen gesund nur 1 Test für diese k Personen
b) Gruppentest pos.: mind. 1 Person krank: jede Blutprobe in der Gruppe wird anschließend (2. Stufe) einzeln untersucht: insgesamt k + 1 Tests.
2k
Problem: Gruppengröße k (?), so dass insges. möglichst wenige Tests zu erwarten sind:
• minimale zu erwartende Kosten
• Ergebnisse sollen möglichst schnell vorliegen.
2
q := 1 – p P(gesund) , „Gesundheitsanteil“ der Bev.
k 2 die gewählte Gruppengröße
EW einer Zufallsgröße, zunächst in einer k-Gruppe:
X := Anzahl der nötigen Analysen in einer k-GruppeX kann nur die Werte 1 und k + 1 annehmen: ( 1) kP X q ( 1) 1 kP X k q
( ) 1 ( 1) (1 ) 1k k kE X q k q k k q
E(X) für verschiedene k nicht gerecht vergleichbar; nicht allein. Krit.: je größer k, desto größer E(X)!
Gesamtzahl: n Individuen, (n/k) viele k-Gruppen,
insgesamt
zu erwartende Tests für alle n Personen.
Zur Vereinfachung sinnvoll: Division durch die feste Zahl n, „Normieren“ (pro Person), „relativer EW “
( )n E Xk
E( )E( ) Min Minn XXk k
3
EW der Anzahl der nötigen Untersuchungen
PRO PERSON (Gruppengr. k 2 )
Diese Funktion (Term) müssen wir genauer untersuchen!
E( ) 1 1( , ) : 1k
kX k k qf q k qk k k
Genau bei
bringt Gruppenbildung auf lange Sicht einen Vorteil gegenüber Einzeluntersuchung.
1( , ) 1 1kf q k qk
Bei festem q (0 ; 1) suchen wir k0 2 (k0 ) mit:
• f (q,k0) < 1 (Ersparnis geg. Einzelunt.)
• f (q,k0) ist minimal
f (q,k) als Fkt. in kontinuierlichen Var.:
obwohl ja eigentlich
Ein eigentlich diskretes Problem wird in ein kontinuierliches verwandelt:
kontinuierliche Graphen, Kraft der Analysis
z. B. beim Suchen der Minimumstelle
k 2 k
4
Wir setzen festes q (0,1) voraus, d. h. f(q,k) ist eine Funktion in einer Variable k (Gruppengröße) :
Kurvenschar, Funktionenschar mit Parameter q !
1( ) : 1 kqf k q
k
• von oben nach unten: q = 0.4; 0.6; 0.7; 0.8; 0.85 • Für kleinere q-Werte
q < 0.7 scheint zu gelten:
1( ) : 1 kqf k q
k für k (0,50):
: ( ) 1qk f k
5
Uninteressanter Bereich – keine Ersparnis gegenüber Einzeluntersuchungen!
• 2 Schnittp. mit y = 1, asympt. Annäh. v. oben
• eindeutiges Min. zw. 0 und 1: Min.stelle interessant (opt. Gruppengröße!)
• Wo liegt diese Stelle? 1) Ablesen: CAS-Graph 2) analyt. Überlegungen
1( ) : 1 kqf k q
k k (0,50), größere q :
1. Versuch: 1. Ableitung von ( )qf k
' 22
1( ) ln 0 ( ln )k kqf k q q k q q
k
: :
ln lnlnln2 2m b
qqk k
Log, : ( 2)
y = ln k hat mit einer Gerade y = mk + b „klarer Weise“ höchstens 2 Schnittpunkte (ln immer negativ d. h. nach rechts gekrümmt!) hat höchstens zwei lokale Extremstellen!( )qf k
6
Aber:
• nicht geschlossen lösbar
• für welche q gibt es 0, 1, 2 Lösungen? (Näherungslösungen!)
• für welche q ergibt sich ein Min/Max/Sattelpunkt?
'( ) 0qf k
Analog:
Schon nicht geschlossen lösbar:
( ) 1qf k 11( ) 1 k k
qf k q k qk
Log, ( 1)
ln lnk q k höchstens 2 Schnittpunkte (Lösungen) ! Zur weiteren Begründung und deren Ableitung besser vermeiden!
( )qf k
Die Teilfunktionen von 1( ) 1 kqf k q
k
Wohlbekannte Funkt. aus der Mittelstufe:
Hyperbel:
Exponentialfunktion: (fallend: 0 < q < 1)
Interessant nur (Ersparnis!) :
1k
kq 7
1 1( ) 1 1k kqf k q q
k k
Zunächst:
• 0, 1, 2 Schnittp., je nach q
• q groß fällt flach:
für (Berührwert) 2 Schnittp.
1( ) 1 kqf k q
k
kqBq q
Damit klar : Bei ist fürBq q1 2 :k k k
1( ) 1 kqf k q
k
Begründung des 2. Schnittpunktesauch für durch „de l‘Hospital“1q 8
Oben: höchstens 2 Schnittpunkte, damit genau 2 für ! Bq q
Berührkonstellation lässt sich sogar genau bestimmen: einfache, traditionelle, klassische „Rechnung“, Lösung des GLS:
CAS auf Knopfdruck (z. B. MAPLE, auch per Hand, DERIVE nicht: bei nichtlinearen GLS nur numerisch gut):
Einzelgleichungen nicht geschlossen nach k auflösbar, d. h. die beiden Gleichungen „passen“ gut zueinander.
'
'1 1k kq qk k
1/; 0,6922eB Bk e q e
9
Bis jetzt:
• Für ist , d. h. Gruppentests schlechter als Einzeltests (im Durchschnitt, „Erwartungswert“) !
• Auch für bringt Gruppenbildung im Durchschnitt keine Ersparnis:
• Erst ab kann Gruppenbildung im Durchschnitt überhaupt Ersparnis bringen (d. h. bei einem Gesundheitsanteil von mind. ca. 70%, so eine Grenze auch intuitiv zu erwarten)!
0,6922Bq q 1/ ( ) 1kqk q f k
Bq q1/ ( ) 1k
qq k f k
Bq q
Noch zu zeigen:
hat für
in genau 1 Minimumstelle k* Oben: hat höchstens 2 lokale Extremstellen
( )qf k1 2[ , ]k k
( )qf k
Im Folgenden: hat für mindestens eine lokale Minimumstelle k* in und eine lokale Maximumstelle genau diese beiden lokalen Extremstellen!
( )qf k Bq q
1 2[ , ]k k**
2k k
Bq q
Begründung für k* und k**:
1( ) 1qkf qk
k
besser „getrennt“:1 , k
kq
Bei : Differenz , dazwischen < 0 ! 1 2,k k1 0k
kq
stetig Min.stelle in bei k* (betraglich Differenz dort maximal !)
1 k
kq 1 2[ , ]k k
10
„Rechts“ von :
Salopp: Bei
und im Limes :
Differenz
„dazwischen“ :
Max.-stelle in : bei k**
2k
2k
k 1 0k
kq
2( , )k
1 0k
kq
I. A.: : k0 = [k*] oder k0 = [k*] + 1
Bei k* sehr flacher Graphverlauf, d. h. ziemlich gleichgültig, ob k0 = [k*] oder k0 = [k*] + 1
*k
Konkrete Lösung mit CAS (MAPLE, DERIVE o. ä.)
bei gegebenem Wert q > qB :
• Zeichnen des Graphen von fq(k): k* und k0 (die „bessere“ der natürlichen Nachbarzahlen) einfach ungefähr ablesen!
• oder die Gleichung wird näh.w. gelöst (CAS: mit „beliebiger“ Genauigkeit möglich), 2 Lösungen k* < k** ; k0 = [k*] oder k0 = [k*] + 1 (je nach kleinerem Funktionswert von fq )
'( ) 0qf k
11
12
Konkrete Lösung mit oder ohne CAS
Durch obige analyt. Überlegungen klar:fq(k) bis k* fallend,
dann „steigend bis 1“
Die Suche nach k0 kann sich also (begründet!) auf das Probieren einiger ganzzahliger Werte reduzieren: Ab welchem k werden die Funktionswerte fq(k) wieder größer?
1) Zusammenhang q k0 (geschlossene Formel unmöglich!)• Man könnte für viele einzelne q-Werte das
Problem lösen: q gegeben, k0 gesucht:
q 0,7 0,8 0,85 0,9 0,92 0,94 0,96 0,98 0,99 0,995 0,999
k0 3 3 3 4 4 5 6 8 11 15 32
Ersp.% 1 18 28 41 47 53 62 73 80 86 94
11 punktuelle Fälle gelöst, aber bei q = 0,93 ???
Weitere Möglichkeiten:
Umgekehrt: k0 vorgegeben, zugehöriger q-Bereich gesucht Z. B.: für welche q ist 4 die optimale Gruppengröße?
A priori klar: k0 monoton wachsend mit q (bei mehr Gesunden kann die optimale Gruppengröße nicht kleiner sein) !
Wo liegt q4 / 5? („Trenn-q“ zw. k0 = 4 und k0 = 5)
Idee: für welches q sind 4 und 5 gleich gute Gruppengrößen: fq(4) = fq(5): CAS: q4 / 5 0,934
13
Durch wenige Trenn-q-Werte großer q-Bereich abgedeckt
Zusammenhang effizienter beschrieben:
2) Elementare Numerik
Trenn-q-Werte:
/ 1 : ( ) ( 1)k k q qq f k f k 11
( 1) kqk k q
„Fixpunktgleichung“„Iterationsverfahren“
Analytischer Nachweis möglich (Wahlpflichtfach): Konvergenz bei Startwert 1qk / k+1 ist anziehender Fixpunkt (flacher Schnitt) !
Näherungsverf. bei Gleichungen, nicht nur black box (CAS), sondern konkretes Verfahren!
3) Gruppengröße k = 2 ist für KEIN q optimal !
141( , ) 1 ( )kkf q k q f q
k q als Variable:
für k = 2 und k = 3:
Differenz: f(q,2) – f(q,3)
f(q,2) – f(q,3) > 0 leicht analytisch zu begründen
4) Näherungsformel für k0 (kleine p!)
0 0
1:k kp
0k
q 0,7 0,8 0,85 0,9 0,92 0,94 0,96 0,98 0,99 0,995 0,999k0 3 3 3 4 4 5 6 8 11 15 32
2 3 3 4 4 5 5 8 10 15 32
• Wie gut ist diese Näherungsformel?
• Wie kann man sie plausibel machen?
15
Plausibilitätsbetrachtung (p statt q !)
Ersetze für kleine p den „unangenehmen“ Teilterm [ k im Exp! ] durch eine einfachere Funktion:
1( ) 1 (1 )kpf k pk
( ) : (1 )kg p p Fkt. v. p (p klein!)
„Lok. Linearisieren“ : Tangente in (0|1)
(1 ) ( ) ( ) 1kp g p t p kp Für kleine p :
16
Damit für kleine p Approx. möglich:
: ( )
1 1 1( ) 1 (1 ) 1 (1 )
p
kp
f k
f k p kp kpk k k
( )pf k hat das einzige Minimum bei 01 .kp
0
1:kp
Die Werte sind für kleine p
und praktische Zwecke genau genug für !0kDorfman: ; 80,443 % Ersparnis
Näherung: ; 80,438 % Ersparnis 0 11k 0 10k
Potenzial dieses Themas: Kernaufgabe von Schülern selbständig zu lösen; ausbaufähig in viele Richtungen
• Bei Begründungen gestufte Niveaus möglich
• Intensität des CAS-Einsatzes sehr variabel• k = 2 ist nie optimal• Numerische Mathematik:
„Umkehrfrage“, Iterationsverfahren, explizite Näherungsformel
„The main goal of all science is first to observe and then to explain phenomena. In mathematics the explanation is the proof.”
(D. GALE, 1990)
Literatur
Humenberger / Henn (2004): Gruppenscreening - ein Paradebeispiel für Vernetzungsmöglichkeiten im MU.
In: Biehler/Engel/Meyer (Hrsg.):
Neue Medien und innermathematische Vernetzungen in der Stochastik. Anregungen zum Stochastikunterricht, Band 2, S. 19 – 32; Franzbecker, Hildesheim.