Auswertung von Sortenversuchen mit überlappenden ... · PDF file6,28 2,53 3,15 1,16 9,65 Qualitätsklassen gewichtetes Mittel Restfehler 14,28 20,61 ... Abb.1: MSEP von Zielanbaugebiet

Auswertung von Sortenversuchenmit überlappenden Großräumen.

I. Idee und Ansatz.

Prof. Dr. H.-P. Piepho

Universität Hohenheim, Fachgebiet Bioinformatik

Übersicht

• Das Konzept „Überlappende Großräume“

• Mittlerer Vorhersagefehler

• Optimale Gewichte

• Ergebnisse bei Weizen

• Selektion – ist sie ignorierbar?

• Schlussfolgerungen

10

11 13

32

86

4

5

12

15

18

97

1714

16

2021

22

16

16

16

16

15

1919

19

19

23

AnbaugebieteGetreideDeutschland17.06.2003

11

GroßräumeGetreideVorschlagJentsch

Zielanbaugebiet

Nachbaranbaugebiet

Keine Daten

Andere Anbaugebiete

4

3

8 5

5

97

Großraum fürAnbaugebiet 4

Überlappende Großräume

• 23 Anbaugebiete

• Ertragsschätzung für Zielgebiet (eines der 23)

• Nutzung der Information von Nachbargebieten

⇒ Auswertungsverfahren entwickeln

⇒ Genauigkeitsgewinn abschätzen

⇒ Optimale Verteilung der Prüfkapazität exemplarisch

Grundlage des Ansatzes

• In jedem Anbaugebiet Serienauswertung

• Gemischtes Modell mit Faktoren SORTE (fix), JAHR, ORT und ggf. TYP

• Mittelwerte einer Sorte in den 23 Anbaugebieten

y1 = Ertrag der Sorte im Zielgebiet

y2, y3, ...., y23 = Erträge der Sorten in den anderen Anbaugebieten

Daten nur aus Zielgebiet

Ertragsschätzung:


Daten auch aus Nachbargebieten (1)

Ertragsschätzung:


y2, y3, ...., yR = Erträge der Sorten in Nachbargebieten

Ry...yyyy R++++

= 321

Daten auch aus Nachbargebieten (2)

Ertragsschätzung:

wr = Gewichte

Ungewichtet: wr = 1/R

RRw yw...ywywywy ×++×+×+×= 332211

Was wird geschätzt?

E = Erwartungswert der Sorte in Zielgebiet

= Durchschnitt über alle Orte und unendlich viele Jahre in Zielgebiet

ist nur Schätzwert für E

Ziel: minimieren

wy

( )2w Ey −

Zwei Varianten

• Optimale Gewichte ohne Restriktion

⇒ BLUP, Schrumpfung

• Optimale Gewichte mit Restriktion

⇒ kein gewöhnliches BLUP, keine Schrumpfung

1=∑ rw

• • • • • • • • • • • • • •

E

• • • • • • • • • • • • • •

Großer Standardfehler Kleiner Standardfehler

• • • • • • • • • • • • • •

Mit Verzerrung Ohne Verzerrung

• • • • • • • • • • • • ••

Vorhersagefehler

„Vorhersagefehler“ = „Standardfehler“ + „Verzerrung“

( )Eyw −

Mittlerer quadratischerVorhersagefehler (MSEP)

1. Betrachte Sortendifferenzen

2. Quadriere Vorhersagefehler

3. Betrachte Erwartungswert des MSEP über alle Sortenpaare (Sorteneffekte als zufällig betrachtet)

Zweischritt-Analyse1. Serien-Auswertung über Orte und Jahre je Anbaugebiet (Sorten formal als fest angenommen) ⇒ Adjustierte Sortenmittelwerte je Region

2. Kombination der Sortenmittelwerte über Anbaugebiete:

,

= Erwartungswert der Sorte i im r-ten Anbaugebiet

iηw ˆ′ ( )′= iRii ηηη ,...,, 21iη

irη

Varianz-Kovarianz-Struktur und MSEP

Σg = genetische Varianz-Kovarianz-Matrix

Σe = umweltbedingte Varianz-Kovarianz-Matrix

( ) egi ΣΣη +=ˆvar

( ) ( ) wΣwuwΣuw ergr ′+′= --MSEP

Optimale Gewichte (ohne Restriktion)



ur = Einheitsvektor für r-tes Anbaugebiet

⇒ Das ist BLUP! MSEP minimal!

( ) 1−+′=′ eggr ΣΣΣuw

Optimale Gewichte (mit Restriktion)

• Lagrange-Multiplikator für Nebenbedingung ⇒ Gleichungssystem

v = (w, λ)



ur = Einheitsvektor für r-tes Anbaugebiet

1=∑ rw

( ) ( ) 1

0112

1|2−

⎟⎠

⎞⎜⎝

⎛′+

′=′ eggr

ΣΣΣuv

12,8720,7619,8543,8628,7512,412,59

6,282,533,151,169,65

Qualitätsklassengewichtetes Mittel

20,6114,28Restfehler30,2221,75Jahr*Region54,8721,70Jahr*Ort*Typ18,5941,82Jahr*Ort37,5928,75Ort14,2810,93Jahr3,352,92Sorte*Region*Jahr

im Restfehlerenthalten

5,94Sorte*Jahr*Ort3,092,69Sorte*Ort2,343,90Sorte*Jahr1,441,32Sorte*Region13,9814,28Sorte

Nur LSVAlleDaten

Varianzkomponente

Tab.1: Varianzkomponentenschätzungen für Weizen aus allen Daten und aus den LSV-Daten (Ertrag, Intensität 1, homogene S*R-Varianz)

19

0,9518

1,000,9517

1,000,951,0015

0,990,940,990,9914

1,000,951,001,000,9913

987543

Korrelation mit AnbaugebietenAnbaugebiet

Tab. 2: Genetische Korrelation zwischen den sechs Anbaugebieten (Anbaugebiet 4 und Nachbarn)(Weizen)

Tab. 3: Gewichte der Nachbaranbaugebiete und desZielanbaugebiet 4 bei gemeinsamer Auswertungder Anbaugebiete 3-5 und 7-9 sowie Angaben zurZahl der WP- und LSV-Orte (Angaben gerundet,wobei nicht auf Null abgerundet wurde) (Weizen)

Anbaugebiet 3 4 5 7 8 9

Gewicht 0,18 0,35 0,19 0,10 0,09 0,08

Zahl WP-Versuche

3 6 1 1 1 0

Zahl LSV-Versuche

12 15 21 9 9 9

Tab. 4: Gewichte der Nachbaranbaugebiete und desZielanbaugebiet 23 bei gemeinsamer Auswertungder Anbaugebiete 19 und 21-23 sowie Angaben zurZahl der WP- und LSV-Orte (Angaben gerundet,wobei nicht auf Null abgerundet wurde) (Weizen)

Anbaugebiet 19 21 22 23 8 9

Gewicht 0,10 0,14 0,63 0,12 0,09 0,08

Zahl WP-Versuche

2 3 7 1 1 0

Zahl LSV-Versuche

9 9 18 3 9 9

Tab. 5: Varianz durch das Prüfsystem, quadrierteVerzerrung und MSEP bei separater Auswertungvon Anbaugebiet 4 und gemeinsamer Auswertungmit Nachbaranbaugebieten (Weizen)

Nur AG 4 Nur AG 4 AG 4 +nur LSV Nachbarn

------------------ (dt/ha)² ----------------

Varianz des Prüfsystems 7,18 4,37 2,11

Bias² (Verzerrung)² 0 0 0,35

MSEP (=Summe) 7,18 4,37 2,46

Selektionserfolg (p=20%) 3,86 4,08 4,25

3000

5000

7000

2 3 4 5MSEP (in dt² ha-²)

Parz

elle

nzah

l bei

se

chsj

ähri

ger

Prüf

ung Gew. Auswertung (25 LSV1)

20 LSV1

15 LSV1

12 LSV1

8 LSV1

6 LSV1

WP 8-10-12 (unterschiedliche Szenarien)

Abb.1: MSEP von Zielanbaugebiet 4 mit fünf Nachbaranbau- gebieten bei Reduktion der WP oder LSV (Weizen).

(1jährliche Versuchsanzahl in AG4 und Nachbarn)

Nur Zielanbaugebiet

0

0,5

1

1,5

2

2,5

3

0 2000 4000 6000 8000Parzellenzahl bei sechsjähriger Prüfung

Vorh

ersa

gefe

hler

(in

dt h

a-1)

MSEP Stand heute MSEP

Abb.2: Vorhersagefehler in Abhängigkeit vom Auswertungs-verfahren und der Prüfkapazität (Zielanbaugebiet 4) (Weizen)

Nur Anbaugebiet4, nur LSV-Daten

Nur Anbaugebiet 4,WP+LSV-Daten

Alle betrachtetenAnbaugebiete, gewichtet

0

1

2

3

4

5

0 2000 4000 6000 8000 10000Parzellenzahl bei sechsjähriger Prüfung

Vorh

ersa

gefe

hler

(in

dt h

a-1)

MSEP Stand heute (MSEP)

Nur LSV-Daten,Nur Anbaugebiet 23

WP+LSV-Daten,Nur Anbaugebiet 23

Alle betrachteten Anbaugebiete, gewichtet

Abb.3: Vorhersagefehler in Abhängigkeit vom Auswertungs-verfahren und der Prüfkapazität (Zielanbaugebiet 23) (Weizen)

0

5

10

15

20

25

30

WP1 WP2 WP3 LSV 1.Jahr LSV 2.Jahr LSV 3.Jahr

Anz

ahl V

ersu

che

heutige Allokation

optimale Allokation heutigerVersuchsumfang

optimale Allokation bei Reduktiondes Versuchsumfangs um 20 %

Abb.4: Allokation der Versuche beim Zielanbaugebiet 4 und dessen Nachbaranbaugebieten (Weizen)

0

2

4

6

8

10

12

14

16

18

20

WP1 WP2 WP3 LSV 1.Jahr LSV 2.Jahr LSV 3.Jahr

Anz

ahl V

ersu

che

heutige Allokation

optimale Allokationheutiger Versuchsumfang

optimale Allokation beiReduktion desVersuchsumfangs um 20 %

Abb.5: Allokation der Versuche beim Zielanbaugebiet 23 und dessen Nachbaranbaugebieten (Weizen)

Orte wechseln erhöht Genauigkeit

Beispiel:

• Ein Anbaugebiet, 6 Jahre, 4 Wiederholungen

• Varianzkomponenten Winterweizen

3 Orte pro Jahr Orte gleich: s.e.d. = 2,16 Orte wechselnd: s.e.d. = 1,80

6 Orte pro Jahr Orte gleich: s.e.d. = 1,81 Orte wechselnd: s.e.d. = 1,61

Selektion - ist sie ignorierbar?

Y = Komplette Daten ohne Fehlwerte =(Yobs, Ymis)

Yobs = Beobachtene unvollstäbndige Daten

Ymis = Fehlende Daten

R = Fehlmuster

[Rubin (1976)]

Fehlmuster

• Missing completely at random (MCAR):

R ist unabhängig von Yobs und Ymis

• Missing at random (MAR):

R ist unabhängig von Ymis

• Missing not at random (MNAR):

R ist abhängig vonYmis [Rubin (1976)]

Ignorierbarkeit

• MCAR, MAR:

Fehlmuster ignorierbar bei likelihood-basierterAnalyse

• Sortenversuche:

Alle Daten seit Anmeldung bei BSA in Auswertungeinbeziehen und mit REML rechnen⇒ Selektion ignorierbar

Schlußfolgerungen (1 von 2)• Neuer Auswertungsansatz (überlappende

Anbaugebiete) hat hohes Potential

• 1/3 der Sorte*Ort Varianz kann durch Anbaugebieteerklärt werden (Weizen) ⇒ Anbaugebiete sehr aussagekräftig ⇒ aber: 2/3 der Varianz innerhalb Anbaugebiete

• Für drei Zielgebiete hohe genetische Korrelationenzu Nachbarn (Weizen)⇒ Wahl der Nachbarn war sehr gut!

Schlußfolgerungen (2 von 2)• Ansatz mit überlappenden Großräume sichert

optimale Gewichtung und damit optimaleAuswertung

• Anspruch an biometrische Auswertung steigt

• Kürzung Anzahl WP-Standorte vermindert Nutzenintegriertes System⇒ im Sinne des Gesamtsystems besser LSV- Versuche als WP-Versuche einsparen

• Je mehr Versuche aus Nachbargebieten ein-bezogen, desto höher der Genauigkeitsgewinn

Documents

Auswertung von Sortenversuchen mit überlappenden ... · PDF file6,28 2,53 3,15 1,16 9,65 Qualitätsklassen gewichtetes Mittel Restfehler 14,28 20,61 ... Abb.1: MSEP von Zielanbaugebiet