Upload
vulien
View
221
Download
2
Embed Size (px)
Citation preview
Auswertung von Sortenversuchenmit überlappenden Großräumen.
I. Idee und Ansatz.
Prof. Dr. H.-P. Piepho
Universität Hohenheim, Fachgebiet Bioinformatik
Übersicht
• Das Konzept „Überlappende Großräume“
• Mittlerer Vorhersagefehler
• Optimale Gewichte
• Ergebnisse bei Weizen
• Selektion – ist sie ignorierbar?
• Schlussfolgerungen
10
11 13
32
86
4
5
12
15
18
97
1714
16
2021
22
16
16
16
16
15
1919
19
19
23
AnbaugebieteGetreideDeutschland17.06.2003
11
GroßräumeGetreideVorschlagJentsch
Zielanbaugebiet
Nachbaranbaugebiet
Keine Daten
Andere Anbaugebiete
4
3
8 5
5
97
Großraum fürAnbaugebiet 4
Überlappende Großräume
• 23 Anbaugebiete
• Ertragsschätzung für Zielgebiet (eines der 23)
• Nutzung der Information von Nachbargebieten
⇒ Auswertungsverfahren entwickeln
⇒ Genauigkeitsgewinn abschätzen
⇒ Optimale Verteilung der Prüfkapazität exemplarisch
Grundlage des Ansatzes
• In jedem Anbaugebiet Serienauswertung
• Gemischtes Modell mit Faktoren SORTE (fix), JAHR, ORT und ggf. TYP
• Mittelwerte einer Sorte in den 23 Anbaugebieten
y1 = Ertrag der Sorte im Zielgebiet
y2, y3, ...., y23 = Erträge der Sorten in den anderen Anbaugebieten
Daten nur aus Zielgebiet
Ertragsschätzung:
y1 = Ertrag der Sorte im Zielgebiet
Daten auch aus Nachbargebieten (1)
Ertragsschätzung:
y1 = Ertrag der Sorte im Zielgebiet
y2, y3, ...., yR = Erträge der Sorten in Nachbargebieten
Ry...yyyy R++++
= 321
Daten auch aus Nachbargebieten (2)
Ertragsschätzung:
wr = Gewichte
Ungewichtet: wr = 1/R
RRw yw...ywywywy ×++×+×+×= 332211
Was wird geschätzt?
E = Erwartungswert der Sorte in Zielgebiet
= Durchschnitt über alle Orte und unendlich viele Jahre in Zielgebiet
ist nur Schätzwert für E
Ziel: minimieren
wy
( )2w Ey −
Zwei Varianten
• Optimale Gewichte ohne Restriktion
⇒ BLUP, Schrumpfung
• Optimale Gewichte mit Restriktion
⇒ kein gewöhnliches BLUP, keine Schrumpfung
1=∑ rw
• • • • • • • • • • • • • •
E
• • • • • • • • • • • • • •
Großer Standardfehler Kleiner Standardfehler
• • • • • • • • • • • • • •
Mit Verzerrung Ohne Verzerrung
• • • • • • • • • • • • ••
Vorhersagefehler
„Vorhersagefehler“ = „Standardfehler“ + „Verzerrung“
( )Eyw −
Mittlerer quadratischerVorhersagefehler (MSEP)
1. Betrachte Sortendifferenzen
2. Quadriere Vorhersagefehler
3. Betrachte Erwartungswert des MSEP über alle Sortenpaare (Sorteneffekte als zufällig betrachtet)
Zweischritt-Analyse1. Serien-Auswertung über Orte und Jahre je Anbaugebiet (Sorten formal als fest angenommen) ⇒ Adjustierte Sortenmittelwerte je Region
2. Kombination der Sortenmittelwerte über Anbaugebiete:
,
= Erwartungswert der Sorte i im r-ten Anbaugebiet
iηw ˆ′ ( )′= iRii ηηη ,...,, 21iη
irη
Varianz-Kovarianz-Struktur und MSEP
Σg = genetische Varianz-Kovarianz-Matrix
Σe = umweltbedingte Varianz-Kovarianz-Matrix
( ) egi ΣΣη +=ˆvar
( ) ( ) wΣwuwΣuw ergr ′+′= --MSEP
Optimale Gewichte (ohne Restriktion)
Σg = genetische Varianz-Kovarianz-Matrix
Σe = umweltbedingte Varianz-Kovarianz-Matrix
ur = Einheitsvektor für r-tes Anbaugebiet
⇒ Das ist BLUP! MSEP minimal!
( ) 1−+′=′ eggr ΣΣΣuw
Optimale Gewichte (mit Restriktion)
• Lagrange-Multiplikator für Nebenbedingung ⇒ Gleichungssystem
v = (w, λ)
Σg = genetische Varianz-Kovarianz-Matrix
Σe = umweltbedingte Varianz-Kovarianz-Matrix
ur = Einheitsvektor für r-tes Anbaugebiet
1=∑ rw
( ) ( ) 1
0112
1|2−
⎟⎠
⎞⎜⎝
⎛′+
′=′ eggr
ΣΣΣuv
12,8720,7619,8543,8628,7512,412,59
6,282,533,151,169,65
Qualitätsklassengewichtetes Mittel
20,6114,28Restfehler30,2221,75Jahr*Region54,8721,70Jahr*Ort*Typ18,5941,82Jahr*Ort37,5928,75Ort14,2810,93Jahr3,352,92Sorte*Region*Jahr
im Restfehlerenthalten
5,94Sorte*Jahr*Ort3,092,69Sorte*Ort2,343,90Sorte*Jahr1,441,32Sorte*Region13,9814,28Sorte
Nur LSVAlleDaten
Varianzkomponente
Tab.1: Varianzkomponentenschätzungen für Weizen aus allen Daten und aus den LSV-Daten (Ertrag, Intensität 1, homogene S*R-Varianz)
19
0,9518
1,000,9517
1,000,951,0015
0,990,940,990,9914
1,000,951,001,000,9913
987543
Korrelation mit AnbaugebietenAnbaugebiet
Tab. 2: Genetische Korrelation zwischen den sechs Anbaugebieten (Anbaugebiet 4 und Nachbarn)(Weizen)
Tab. 3: Gewichte der Nachbaranbaugebiete und desZielanbaugebiet 4 bei gemeinsamer Auswertungder Anbaugebiete 3-5 und 7-9 sowie Angaben zurZahl der WP- und LSV-Orte (Angaben gerundet,wobei nicht auf Null abgerundet wurde) (Weizen)
Anbaugebiet 3 4 5 7 8 9
Gewicht 0,18 0,35 0,19 0,10 0,09 0,08
Zahl WP-Versuche
3 6 1 1 1 0
Zahl LSV-Versuche
12 15 21 9 9 9
Tab. 4: Gewichte der Nachbaranbaugebiete und desZielanbaugebiet 23 bei gemeinsamer Auswertungder Anbaugebiete 19 und 21-23 sowie Angaben zurZahl der WP- und LSV-Orte (Angaben gerundet,wobei nicht auf Null abgerundet wurde) (Weizen)
Anbaugebiet 19 21 22 23 8 9
Gewicht 0,10 0,14 0,63 0,12 0,09 0,08
Zahl WP-Versuche
2 3 7 1 1 0
Zahl LSV-Versuche
9 9 18 3 9 9
Tab. 5: Varianz durch das Prüfsystem, quadrierteVerzerrung und MSEP bei separater Auswertungvon Anbaugebiet 4 und gemeinsamer Auswertungmit Nachbaranbaugebieten (Weizen)
Nur AG 4 Nur AG 4 AG 4 +nur LSV Nachbarn
------------------ (dt/ha)² ----------------
Varianz des Prüfsystems 7,18 4,37 2,11
Bias² (Verzerrung)² 0 0 0,35
MSEP (=Summe) 7,18 4,37 2,46
Selektionserfolg (p=20%) 3,86 4,08 4,25
3000
5000
7000
2 3 4 5MSEP (in dt² ha-²)
Parz
elle
nzah
l bei
se
chsj
ähri
ger
Prüf
ung Gew. Auswertung (25 LSV1)
20 LSV1
15 LSV1
12 LSV1
8 LSV1
6 LSV1
WP 8-10-12 (unterschiedliche Szenarien)
Abb.1: MSEP von Zielanbaugebiet 4 mit fünf Nachbaranbau- gebieten bei Reduktion der WP oder LSV (Weizen).
(1jährliche Versuchsanzahl in AG4 und Nachbarn)
Nur Zielanbaugebiet
0
0,5
1
1,5
2
2,5
3
0 2000 4000 6000 8000Parzellenzahl bei sechsjähriger Prüfung
Vorh
ersa
gefe
hler
(in
dt h
a-1)
MSEP Stand heute MSEP
Abb.2: Vorhersagefehler in Abhängigkeit vom Auswertungs-verfahren und der Prüfkapazität (Zielanbaugebiet 4) (Weizen)
Nur Anbaugebiet4, nur LSV-Daten
Nur Anbaugebiet 4,WP+LSV-Daten
Alle betrachtetenAnbaugebiete, gewichtet
0
1
2
3
4
5
0 2000 4000 6000 8000 10000Parzellenzahl bei sechsjähriger Prüfung
Vorh
ersa
gefe
hler
(in
dt h
a-1)
MSEP Stand heute (MSEP)
Nur LSV-Daten,Nur Anbaugebiet 23
WP+LSV-Daten,Nur Anbaugebiet 23
Alle betrachteten Anbaugebiete, gewichtet
Abb.3: Vorhersagefehler in Abhängigkeit vom Auswertungs-verfahren und der Prüfkapazität (Zielanbaugebiet 23) (Weizen)
0
5
10
15
20
25
30
WP1 WP2 WP3 LSV 1.Jahr LSV 2.Jahr LSV 3.Jahr
Anz
ahl V
ersu
che
heutige Allokation
optimale Allokation heutigerVersuchsumfang
optimale Allokation bei Reduktiondes Versuchsumfangs um 20 %
Abb.4: Allokation der Versuche beim Zielanbaugebiet 4 und dessen Nachbaranbaugebieten (Weizen)
0
2
4
6
8
10
12
14
16
18
20
WP1 WP2 WP3 LSV 1.Jahr LSV 2.Jahr LSV 3.Jahr
Anz
ahl V
ersu
che
heutige Allokation
optimale Allokationheutiger Versuchsumfang
optimale Allokation beiReduktion desVersuchsumfangs um 20 %
Abb.5: Allokation der Versuche beim Zielanbaugebiet 23 und dessen Nachbaranbaugebieten (Weizen)
Orte wechseln erhöht Genauigkeit
Beispiel:
• Ein Anbaugebiet, 6 Jahre, 4 Wiederholungen
• Varianzkomponenten Winterweizen
3 Orte pro Jahr Orte gleich: s.e.d. = 2,16 Orte wechselnd: s.e.d. = 1,80
6 Orte pro Jahr Orte gleich: s.e.d. = 1,81 Orte wechselnd: s.e.d. = 1,61
Selektion - ist sie ignorierbar?
Y = Komplette Daten ohne Fehlwerte =(Yobs, Ymis)
Yobs = Beobachtene unvollstäbndige Daten
Ymis = Fehlende Daten
R = Fehlmuster
[Rubin (1976)]
Fehlmuster
• Missing completely at random (MCAR):
R ist unabhängig von Yobs und Ymis
• Missing at random (MAR):
R ist unabhängig von Ymis
• Missing not at random (MNAR):
R ist abhängig vonYmis [Rubin (1976)]
Ignorierbarkeit
• MCAR, MAR:
Fehlmuster ignorierbar bei likelihood-basierterAnalyse
• Sortenversuche:
Alle Daten seit Anmeldung bei BSA in Auswertungeinbeziehen und mit REML rechnen⇒ Selektion ignorierbar
Schlußfolgerungen (1 von 2)• Neuer Auswertungsansatz (überlappende
Anbaugebiete) hat hohes Potential
• 1/3 der Sorte*Ort Varianz kann durch Anbaugebieteerklärt werden (Weizen) ⇒ Anbaugebiete sehr aussagekräftig ⇒ aber: 2/3 der Varianz innerhalb Anbaugebiete
• Für drei Zielgebiete hohe genetische Korrelationenzu Nachbarn (Weizen)⇒ Wahl der Nachbarn war sehr gut!
Schlußfolgerungen (2 von 2)• Ansatz mit überlappenden Großräume sichert
optimale Gewichtung und damit optimaleAuswertung
• Anspruch an biometrische Auswertung steigt
• Kürzung Anzahl WP-Standorte vermindert Nutzenintegriertes System⇒ im Sinne des Gesamtsystems besser LSV- Versuche als WP-Versuche einsparen
• Je mehr Versuche aus Nachbargebieten ein-bezogen, desto höher der Genauigkeitsgewinn