SkriptzurVorlesung „Komplexitätstheorie“ · Kapitel1 Einleitung Wie schwierig ist ein algorithmisches Problems, oder genauer, wieviel Ressourcen –wie etwa Laufzeit und Speicherplatz–

Skript zur Vorlesung„Komplexitätstheorie“

Prof. Dr. Georg Schnitger

Sommersemester 2013

Hinweise auf Fehler und Anregungen zum Skript bitte an Herrn Bert Besser

[email protected]

Mit einem Stern gekennzeichnete Abschnitte werden in der Vorlesung nur kurz angespro-chen.

Inhaltsverzeichnis

1 Einleitung 71.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2 Wichtige Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.3 Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.4 Grundlagen aus der Stochastik . . . . . . . . . . . . . . . . . . . . . . . . . 141.5 Komplexitätsklassen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.5.1 Zeit-Komplexitätsklassen . . . . . . . . . . . . . . . . . . . . . . . . 251.5.2 Speicherplatz-Komplexität . . . . . . . . . . . . . . . . . . . . . . . 271.5.3 Die Komplexität paralleler Berechnungen . . . . . . . . . . . . . . . 29

1.6 Diagonalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321.6.1 Eine Zeithierarchie . . . . . . . . . . . . . . . . . . . . . . . . . . . 331.6.2 Eine Speicherplatz-Hierarchie . . . . . . . . . . . . . . . . . . . . . 34

1.7 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

I Komplexitätsklassen 37

2 Die Komplexität des automatischen Beweisens∗ 392.1 Gödels Unvollständigkeitssatz . . . . . . . . . . . . . . . . . . . . . . . . . 402.2 Die Komplexität der Presburger-Arithmetik . . . . . . . . . . . . . . . . . 432.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3 Speicherplatz-Komplexität 473.1 Sub-Logarithmischer Speicherplatz . . . . . . . . . . . . . . . . . . . . . . 473.2 Logarithmischer Speicherplatz . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.2.1 DL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.2.2 NL und NL-Vollständigkeit . . . . . . . . . . . . . . . . . . . . . . . 533.2.3 Der Satz von Savitch . . . . . . . . . . . . . . . . . . . . . . . . . . 553.2.4 Der Satz von Immerman und Szlepscenyi . . . . . . . . . . . . . . . 57

3.3 PSPACE-Vollständigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603.3.1 QBF: Quantifizierte Boolesche Formeln . . . . . . . . . . . . . . . . 613.3.2 Das Geographie-Spiel . . . . . . . . . . . . . . . . . . . . . . . . . . 643.3.3 NFA’s und reguläre Ausdrücke . . . . . . . . . . . . . . . . . . . . . 65

3

4 INHALTSVERZEICHNIS

3.4 Komplexitätsklassen und die Chomsky Hierarchie . . . . . . . . . . . . . . 673.5 Probabilistische Turingmaschinen und Quantenrechner . . . . . . . . . . . 733.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4 Parallelität 794.1 Parallele Rechenzeit versus Speicherplatz . . . . . . . . . . . . . . . . . . . 804.2 P-Vollständigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

4.2.1 Das Circuit Value Problem . . . . . . . . . . . . . . . . . . . . . . . 834.2.2 Die Lineare Programmierung . . . . . . . . . . . . . . . . . . . . . 874.2.3 Parallelisierung von Greedy-Algorithmen . . . . . . . . . . . . . . . 89

4.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

II Untere Schranken 93

5 Die Komplexität Boolescher Funktionen 955.1 Die Größe von Schaltkreisen beschränkter Tiefe . . . . . . . . . . . . . . . 97

5.1.1 Das Switching Lemma . . . . . . . . . . . . . . . . . . . . . . . . . 1015.1.1.1 Die Paritätsfunktion . . . . . . . . . . . . . . . . . . . . . 1065.1.1.2 Die Empfindlichkeit von Schaltkreisen geringer Tiefe . . . 107

5.1.2 Approximation durch Schaltkreise beschränkter Tiefe . . . . . . . . 1095.1.3 Modp-Gatter: Approximation durch Polynome . . . . . . . . . . . . 113

5.2 Die Größe monotoner Schaltkreise . . . . . . . . . . . . . . . . . . . . . . . 1175.3 Die Komplexität der Resolution . . . . . . . . . . . . . . . . . . . . . . . . 1255.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

6 P 6= NP? 1316.1 Rechnen mit Orakeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1316.2 Schwierige, aber nicht vollständige Sprachen in NP . . . . . . . . . . . . . . 1336.3 Natürliche Beweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

6.3.1 One-Way und Pseudo-Zufallsfunktionen . . . . . . . . . . . . . . . 1376.3.2 Natürliche Beweise knacken One-way Funktionen . . . . . . . . . . 140


7 Kommunikationskomplexität 1437.1 Deterministische Kommunikation . . . . . . . . . . . . . . . . . . . . . . . 143

7.1.1 Die Methode der größten monochromatischen Teilmatrix . . . . . . 1487.1.2 Fooling-Sets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1517.1.3 Die Rangmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

7.2 Nichtdeterministische Kommunikation . . . . . . . . . . . . . . . . . . . . 1547.2.1 Die Methode der größten 1-chromatischen Teilmatrix . . . . . . . . 1577.2.2 Fehlerfreier Nichtdeterminismus . . . . . . . . . . . . . . . . . . . . 1607.2.3 Ein Methoden-Vergleich für die deterministische Kommunikation . . 165

INHALTSVERZEICHNIS 5

7.2.3.1 Die Methode der größten monochromatischen Teilmatrix . 1667.2.3.2 Fooling-Sets und die Rang-Methode . . . . . . . . . . . . 167

7.3 Probabilistische Kommunikation . . . . . . . . . . . . . . . . . . . . . . . . 1697.3.1 Deterministische Kommunikation mit Fehler . . . . . . . . . . . . . 171

7.3.1.1 Das innere Produkt modulo zwei . . . . . . . . . . . . . . 1727.3.1.2 Das Disjunktheitsproblem . . . . . . . . . . . . . . . . . . 174

7.4 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1757.4.1 Die Zustandszahl endlicher Automaten . . . . . . . . . . . . . . . . 1757.4.2 Streaming Data∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1797.4.3 Fläche und Zeit für VLSI-Chips∗ . . . . . . . . . . . . . . . . . . . 182

7.4.3.1 Kommunikation bei freier Zerlegung . . . . . . . . . . . . 1877.4.4 Tiefe von Entscheidungsbäumen∗ . . . . . . . . . . . . . . . . . . . 1907.4.5 Kommunikationsspiele . . . . . . . . . . . . . . . . . . . . . . . . . 194

7.4.5.1 Die Tiefe von Schaltkreisen . . . . . . . . . . . . . . . . . 1947.4.5.2 Die Tiefe monotoner Schaltkreise . . . . . . . . . . . . . . 198


III Approximationskomplexität 203

8 Probabilistisch überprüfbare Beweise 2118.1 PCP und Approximierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 2148.2 VERTEX COVER und CLIQUE . . . . . . . . . . . . . . . . . . . . . . . 2168.3 Hastad’s 3-Bit PCP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

9 Parallel Repetition∗ 2259.1 2-Prover Spiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2259.2 LABEL COVER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2279.3 SET COVER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2299.4 Die Unique Games Vermutung . . . . . . . . . . . . . . . . . . . . . . . . . 231

10 NP ⊆ PCP(poly(n), O(1)) ∗ 233

6 INHALTSVERZEICHNIS

Kapitel 1

Einleitung

Wie schwierig ist ein algorithmisches Problems, oder genauer, wieviel Ressourcen –wieetwa Laufzeit und Speicherplatz– müssen Algorithmen für das Problem verbrauchen? Inden Bachelor Veranstaltungen „Theoretische Informatik 1“ und „Theoretische Informatik2“ werden zur Beantwortung dieser Fragen fundamentale Komplexitätsklassen betrachtetwie zum Beispiel

- P, die Klasse aller Entscheidungsprobleme, die effiziente (deterministische) Algorith-men besitzen und

- NP, die Klasse aller Entscheidungsprobleme, die effiziente nichtdeterministische Al-gorithmen besitzen.

Mit Hilfe der polynomiellen Reduktion werden die NP-vollständigen Probleme, die schwie-rigsten Probleme in NP definiert: Kein NP-hartes Problem besitzt effiziente deterministischeAlgorithmen, solange P 6= NP gilt. Auch hier verfolgen wir im ersten Teil der Veranstaltungeinen ähnlichen Ansatz: Wir benutzen Härte, bzw. Vollständigkeit von Entscheidungs-problemen zur Charakterisierung ihrer Berechnungskomplexität. Wir zeigen in Kapitel 6unter der Annahme P 6= NP, dass es Sprachen in NP gibt, die nicht NP-vollständig, wohlaber schwierig sind, also nicht in P liegen: Es gibt also nicht nur die Schwierigkeitsgrade„einfach“ und „NP-vollständig“, sondern auch „mittlere“ Schwierigkeitsstufen.Die Komplexität des automatischen Beweisens wird in Kapitel 2 behandelt. Wir wissen,dass KNF-SAT, das Erfüllbarkeitsproblem für aussagenlogische Formeln in konjunktiverNormalform, NP-vollständig ist. Jedoch gibt es Heuristiken, wie etwa den Davis–Putnam-Logemann–Loveland (DPLL)Algorithmus, der für viele in der Praxis auftretende Problemegute Ergebnisse liefert. Lassen wir zu, dass die aussagenlogischen Variablen durch Existenz-oder Allquantoren gebunden werden, werden wir auf das schwierigere, nämlich PSPACE-vollständige Problem QBF geführt. Als extrem viel schwieriger stellt sich das Beweisen vonAussagen der Prädikatenlogik in der Presburger Arithmetik heraus: Hier geht es darum, aufdie Addition beschränkte Eigenschaften der natürlichen Zahlen abzuleiten. Furchtbar, weilunentscheidbar, ist die Peano-Arithmetik, wenn wir also die Multiplikation zur Presburger-Arithmetik hinzufügen.

7

8 KAPITEL 1. EINLEITUNG

In Kapitel 3 untersuchen wir die Speicherplatz-Komplexität und führen die PSPACE-voll-ständigen Probleme ein. Jedes PSPACE-vollständige Problem ist NP-hart und PSPACE-voll-ständige Probleme sind somit mindestens so schwierig wie NP-vollständige Probleme. Esstellt sich heraus, dass die Bestimmung von Gewinnstrategien für viele nicht-triviale Zwei-Personen Spiele genauso auf ein PSPACE-vollständiges Problem führt wie die Frage ob zweiNFA dieselbe reguläre Sprache erkennen. Lässt sich der Speicherplatz-Verbrauch nichtde-terministischer Turingmaschinen annähernd auch durch deterministische Turingmaschinenerreichen? Was ist die Speicherplatz-Komplexität des Wortproblems für kontextfreie oderkontextsensitive Sprachen? Auch diese Fragen werden wir in Kapitel 3 beantworten.Welche effizient lösbaren Entscheidungsprobleme besitzen extrem schnelle parallele Algo-rithmen? Um diese Frage zu beantworten, führen wir in Kapitel 4 einen neuen Reduktionsund Vollständigkeitsbegriff, die P-Vollständigkeit ein: Wenn P-vollständige Sprachen rasantschnelle parallele Algorithmen besitzen, dann besitzen alle Probleme rasant schnelle Algo-rithmen, eine wenig wahrscheinliche Situation. Wir werden auch einen engen Zusammen-hang zwischen der Parallelisierbarkeit von Problemen und ihrer Speicherplatz-Komplexitätaufdecken.Im zweiten Teil der Veranstaltung verlassen wir die Komplexitätsklassen und versuchen,die Komplexität von Entscheidungsproblemen direkt zu bestimmen, also ohne einen Här-tebegriff von Komplexitätsklassen bemühen zu müssen.Wie kann man zeigen, dass P eine echte Teilmenge von NP ist? Wir wissen aus Kapitel 4, dasseine deterministische Turingmaschine mit polynomieller Laufzeit durch einen Schaltkreispolynomieller Größe simuliert werden kann. Wenn wir zum Beispiel zeigen könnten, dassdas Clique-Probleme keine Schaltkreise polynomieller Größe besitzt, dann hätten wir tat-sächlich P von NP getrennt. Wir „fangen klein an“ und betrachten Schaltkreise beschränkterTiefe und darauf folgend monotone Schaltkreise 1. Um die Frage NP ?= coNP zu untersu-chen, beschäftigen wir uns dann mit Resolutionsbeweisen und zeigen, dass Beweise für dasSchubfachprinzip exponentiell lang sein müssen.Warum hat man nach über 40 Jahren intensiver Forschungstätigkeit nicht zeigen können,dass NP-vollständige Sprachen keine effizienten Algorithmen besitzen, dass also P 6= NPgilt? In Kapitel 6 fragen wir, ob es „Welten“ gibt für die P 6= NP und andere Welten, indenen P = NP gilt. Ja, die gibt es und die Existenz dieser Welten bedeutet, dass Methoden,die nur die Methode der Diagonalisierung benutzen, nicht zu einer Trennung von P undNP führen können. Damit haben wir eine erste Antwort auf die Frage gegeben, warum Pund NP bisher nicht voneinander getrennt werden konnten. In Abschnitt 6.3 beschreibenwir “natürliche Beweise“ und zeigen, dass der Nachweis von P 6= NP mit Hilfe natürlicherBeweise nicht zu erwarten ist.Die Kommunikationskomplexität gibt uns die Möglichkeit, die Verteilung von Informationals eine Ursache von Komplexität zu verstehen. In Kapitel 7 beschreiben wir das Kommu-nikationsmodell und stellen zahlreiche Anwendungen vor. Zu diesen Anwendungen gehören

1Ein Schaltkreis, der nur mit Konjunktionen und Disjunktionen, aber ohne die Negation arbeitet, wirdmonoton genannt.

1.1. NOTATION 9

untere Schranken für

- die Zustandszahl von NFAs,

- den Speicherplatz für Streaming Data Algorithmen,

- das Fläche · Zeit2 Produkt in VLSI,

- die Tiefe von Entscheidungsbäumen

- und die Tiefe monotoner Schaltkreise.

Können effiziente Algorithmen die Größe der größten Clique in einem ungerichteten Gra-phen exakt bestimmen? Wir wissen aus der Veranstaltung „Theoretische Informatik 1“,dass das Clique Problem NP-vollständig ist, und deshalb wird die Antwort hochwahrschein-lich negativ sein. Aber wenn wir die Größe der größten Clique nur approximativ bestim-men wollen? Diese Frage nach der Approximationskomplexität zum Beispiel des Clique-Problems ist erstaunlicherweise für viele Jahre unbeantwortet geblieben und wurde erst in1992 durch das PCP-Theorem und damit einhergehend durch eine völlig neue Sichtweise derKomplexitätsklasse NP zufriedenstellend beantwortet. Wir beschreiben das PCP-Theoremim dritten Teil des Skripts, geben einen Einblick in seinen Beweis und stellen wichtigeAnwendungen vor.

1.1 NotationR bezeichnet die Menge der reellen Zahlen, R≥0, die Menge der nicht-negativen reellenZahlen, Q die Menge der rationalen Zahlen und N die Menge der natürlichen Zahlen.Für eine reelle Zahl x ist bxc die größte natürliche Zahl kleiner oder gleich x und dxe diekleinste natürliche Zahl größer oder gleich x.Wir benutzen die asymptotische Notation, um den Ressourcenbedarf für große Eingabe-längen zu analysieren. Für zwei Funktionen f, g : N→ R≥0 schreiben wir

(a) f = O(g), falls f(n) ≤ cg(n) für alle n ≥ N , wobei N eine ausreichend große natür-liche Zahl und c > 0 eine passend gewählte Konstante ist.

(b) f = Ω(g), falls g = O(f).

(c) f = Θ(g), falls f = O(g) und g = O(f).

(d) f = o(g), falls limn→∞f(n)g(n) = 0.

(e) f ∼ g, falls limn→∞f(n)g(n) = 1.


Das innere Produkt 〈x, y〉 von zwei Vektoren x = (x1, . . . , xn) and y = (y1, . . . , yn) in Rn

wird durch〈x, y〉 = x1 · y1 + · · ·+ xn · yn.

definiert und die Euklid’sche Norm ||x|| durch ||x|| =√〈x, x〉.

Eine reell-wertige Funktion f(x) ist genau dann konvex (bzw. konkav), wenn

f(λx+ (1− λ)y) ≤ λf(x) + (1− λ)f(y) (resp. f(λx+ (1− λ)y) ≤ λf(x) + (1− λ)f(y))

für jedes 0 ≤ λ ≤ 1 gilt. Die Konvexität von f bedeutet geometrisch gesehen, dass eineGerade mit den Endpunkten (x, f(x)) und (y, f(y)) stets oberhalb der Kurve liegt. Deshalbist es für die Konvexität ausreichend, wenn die zweite Ableitung nicht-negativ ist.

1.2 Wichtige UngleichungenDie Ungleichung von Cauchy-Schwartz besagt, dass das innere Produkt von zwei Vektorender Länge Eins durch Eins beschränkt ist.

Lemma 1.1 Es seien x und y Vektoren im Rn. Dann gilt

〈x, y〉 ≤ ||x|| · ||y||.

Beweis: Wir betrachten das innere Produkt 〈u, v〉 von zwei Vektoren u und v der Norm1. Der Wert des inneren Produkts stimmt mit dem Kosinus des Winkels zwischen u und vüberein und ist deshalb durch 1 nach oben beschränkt. Also folgt 〈 x

||x|| ,y||y||〉 ≤ 1 und damit

die Behauptung.

Wir benötigen auch eine Abschätzung von 1± x durch die e-Funktion.

Lemma 1.2 Für jedes x > −1 gilt

ex/(1+x) ≤ 1 + x ≤ ex.

Darüberhinaus gilt 1 + x ≤ ex für alle x ∈ R.

Beweis: Wir beschränken uns zuerst auf den Fall x ≥ 0. Der natürliche Logarithmus isteine konkave Funktion und deshalb ist die Steigung der Sekante in den Punkten 1 und1 + x durch die Tangentensteigungen in den Punkten 1 nach oben und 1 + x nach untenbeschränkt. Dies liefert die Ungleichung

11 + x

≤ ln(1 + x)− ln(1)(1 + x)− 1 = ln(1 + x)

x≤ 1 (1.1)

oder äquivalentx

1 + x≤ ln(1 + x) ≤ x. (1.2)

1.2. WICHTIGE UNGLEICHUNGEN 11

Die erste Behauptung folgt also für x ≥ 0 durch Exponentieren. Für x ∈]− 1, 0] brauchenwir nur zu beachten, dass diesmal die Ungleichung

1 ≤ ln(1 + x)− ln(1)(1 + x)− 1 ≤ 1

1 + x

gilt: Das Argument ist analog zur Ableitung von Ungleichung (1.1). Wir erhalten jetztwieder Ungleichung (1.2), und damit die Behauptung, wenn wir (1.1) mit der negativenZahl x multiplizieren.Damit gilt aber auch 1 + x ≤ ex für alle reellen Zahlen, da 1 + x für x ≤ −1 negativ undex stets positiv ist.

Wie verhält sich die “Konvexitätsungleichung”, wenn wir eine konvexe Funktion auf eineSumme von mehr als zwei Termen anwenden?

Lemma 1.3 (Jensen’s Ungleichung) Wenn 0 ≤ λi ≤ 1, ∑ri=1 λi = 1 und wenn f kon-

vex ist, dann gilt

f( r∑i=1

λixi

)≤

r∑i=1

λif(xi).

Beweis: Wir führen eine Induktion nach der Anzahl r der Terme. Die Basis r = 2 istoffensichtlich richtig, da f konvex ist. Für den Induktionsschritt von r auf r + 1 ersetzenwir die Summe der beiden Terme λ1x1 + λ2x2 durch den einen Term

(λ1 + λ2)(

λ1

λ1 + λ2x1 + λ2

λ1 + λ2x2

)= (λ1 + λ2) · x′2

und können dann die Induktionshypothese auf x′2, x3, . . . , xn anwenden.

Wir erhalten jetzt sofort eine wichtige Beziehung zwischen dem arithmetischen und demgeometrischen Mittel.

Lemma 1.4 a1, . . . , an seien nicht-negative Zahlen. Dann gilt

1n

n∑i=1

ai ≥( n∏i=1

ai

)1/n. (1.3)

Beweis: Wir setzen f(x) = 2x, λ1 = . . . = λn = 1/n und xi = log2 ai, für alle i = 1, . . . , n.Nach Jensen’s Ungleichung folgt

1n

n∑i=1

ai =n∑i=1

λif(xi) ≥ f

(n∑i=1

λixi

)= 2(∑n

i=1 xi)/n =(

n∏i=1

ai

)1/n

.

Die beiden letzten Ungleichung sind für die Abschätzung von Binomialkoeffizienten wichtig.


Lemma 1.5 (a) Die Stirling Formel besagt

n! =√

2π · n ·(n

e

)n·(

1 + 112 · n +O( 1

n2 )).

(b) Es ist (n

k

)= n!k! · (n− k)! ≤

(n · ek

)k.

1.3 GraphenEin ungerichteter Graph ist ein Paar G = (V,E), das aus einer Knotenmenge V und einerKantenmenge E besteht, wobei alle Kanten Teilmengen von V der Größe zwei sind. Wirsagen, dass ein Knoten v mit der Kante e inzident ist, wenn v ∈ e. Die beiden mit einerKanten e inzidenten Knoten sind die Endpunkte von E. Zwei Knoten u, v ∈ V heißenadjazent, oder benachbart, wenn u, v eine Kante von G ist. In einem gerichteten Graphensind Kanten geordnete Paare, d.h. es gilt stets E ⊆ V 2, und wir haben die Möglichkeitden Anfangs- und Endpunkt einer Kante auszuzeichnen. Der Knoten v heißt ein Nachbar(oder Nachfolger) von u, falls (u, v) ∈ E.Die Anzahl der Nachbarn eines Knotens u ist der Grad von u. Der Grad eines Graphen istder maximale Grad eines Knotens.Ein Spaziergang der Länge k in G ist eine Folge v0, e1, v1 . . . , ek, vk von Knoten und Kanten,so dass ei = vi−1, vi ∈ E, bzw. (vi−1, vi) ∈ E. Ein Spaziergang ohne wiederholte Knotenist ein Weg. Ein Kreis der Länge k ist ein Spaziergang v0, . . . , vk der Länge k mit v0 = vkund der Eigenschaft, dass v0, . . . , vk−1 ein Weg ist. Die Distanz zwischen zwei Knoten istdie minimale Länge eines Weges zwischen den beiden Knoten.

Abbildung 1.1: Der erste Graph ist ein Kreis der Länge 5. Der zweite Graph besteht auszwei Kreisen der Länge 3.

Ein Hamilton-Kreis ist ein Kreis, der jeden Knoten genau einmal durchläuft. Ein Euler-Kreis ist ein Spaziergang, der zu seinem Anfangsknoten zurückkehrt und jede Kante genaueinmal durchläuft.Eine Knotenmenge in einem ungerichteten Graphen ist zusammenhängend, wenn je zweiKnoten der Menge durch einen Weg verbunden sind. Eine Zusammenhangskomponente isteine größte zusammenhängende Knotenmenge.Ein Wald ist ein ungerichteter Graph ohne Kreise. Ein Baum ist ein zusammenhängenderWald. (Mit anderen Worten, ein Wald ist eine knoten-disjunkte Vereinigung von Bäumen.)

1.3. GRAPHEN 13

Abbildung 1.2: Ein Wald, der aus drei Bäumen besteht.

In einem Baum mit Wurzel wird genau ein Knoten als Wurzel ausgezeichnet. Wenn derWeg von der Wurzel zum Knoten w die Kante v, w benutzt, dann heißt w ein Kind vonv und v der Vater von w. Knoten vom Grad 1 heißen Blätter. Die Tiefe eines Knotensist die Länge des Weges von der Wurzel bis zu dem Knoten. Die Tiefe eines Baums istdie größte Tiefe eines Blatts. Ein Baum heißt binär, wenn die Wurzel den Grad zwei undjedes Nicht-Blatt den Grad drei besitzt. Ein vollständiger binärer Baum der Tiefe T istein binärer Baum, in dem alle Blätter die Tiefe T besitzen.

b

r

a v

u w

Abbildung 1.3: Ein Baum mit Wurzel der Tiefe 3; u und w sind Kinder des Vaters v.

Ein vollständiger Graph oder eine Clique ist ein Graph, in dem je zwei Knoten adjazentsind. Eine unabhängige Menge ist eine Knotenmenge, in der je zwei Knoten nicht durcheine Kante verbunden sind. Ein Graph ist bipartit, wenn seine Knotenmenge in zwei un-abhängige Mengen zerlegt werden kann.Eine legale Färbung eines ungerichteten Graphen G = (V,E) ist eine Farbzuweisung andie Knoten, so dass adjazente Knoten verschiedene Farben erhalten. Eine legale Färbungzerlegt somit die Knotenmenge in unabhängige Mengen. Die minimale Farbenzahl, die fürdie Färbung eines Graphen G benötigt wird, heißt die chromatische Zahl χ(G) von G.

Aufgabe 1(a) Zeige, dass die Tiefe eines binären Baums mit n Blättern mindestens dlog2 ne beträgt.(b) Sei B ein binärer Baum mit N Blättern und sei Ti die Tiefe des iten Blatts. Zeige diesogenannte Kraft’sche Ungleichung

n∑i=1

2−Ti ≤ 1.


Hinweis: Assoziere einen binären String mit jedem Blatt.

1.4 Grundlagen aus der StochastikEin endlicher Wahrscheinlichkeitsraum besteht aus einer endlichen Menge Ω (dem Stich-probenraum) und einer Funktion

prob : Ω→ [0, 1]

(der Wahrscheinlichkeitsverteilung), so dass ∑x∈Ω pr [x] = 1. Der Wahrscheinlichkeitsraumrepräsentiert das Zufallsexperiment, ein Element von Ω auszuwählen und pr [x] ist dieWahrscheinlichkeit, dass x gewählt wird.Die Elemente x ∈ Ω heißen Stichproben und Teilmengen A ⊆ Ω heißen Ereignisse. DieWahrscheinlichkeit eines Ereignisses A ist

pr [A] =∑x∈A

pr [x] ,

also die Wahrscheinlichkeit, dass ein Element mit Eigenschaft A gewählt wird. Einigeelementare Eigenschaften folgen direkt aus diesen Definitionen. Für zwei Ereignisse A andB (und das Komplement A = Ω \ A) gilt

(1) pr [A ∪B] = pr [A] + pr [B]− pr [A ∩B];

(2) pr[A]

= 1− pr [A];

(3) pr [A ∩B] ≥ pr [A]− pr[B];

(4) Wenn B1, . . . , Bm eine Zerlegung von Ω ist, dann ist pr [A] = ∑mi=1 pr [A ∩Bi].

(5) pr [⋃ni=1Ai] ≤∑ni=1 pr [Ai].

Besonders Eigenschaft (5) werden wir häufig benutzen. Für zwei Ereignisse A und B istpr [A|B] die bedingte Wahrscheinlichkeit von A gegeben B, also die Wahrscheinlichkeit,dass Ereignis A eintritt, wenn man bereits weiß, dass Ereignis B eingetreten ist. Formaldefinieren wir

pr [A|B] = pr [A ∩B]pr [B] ,

falls pr [B] 6= 0. Wenn wir zum Beispiel eine Zahl aus der Menge 1, . . . , 6 zufällig ziehenund wenn A das Ereignis ist, dass 2 die gezogene Zahl ist und B das Ereignis ist, dass diegezogene Zahl gerade ist, dann ist pr [A|B] = 1/3, wohingegen pr [B|A] = 1 gilt.Zwei Ereignisse A und B heißen unabhängig, wenn pr [A ∩B] = pr [A] · pr [B]. Beachte,dass diese Bedingung äquivalent mit pr [A|B] = pr [A] wie auch mit pr [B|A] = pr [B]ist. Wenn alle Elemente gleichwahrscheinlich sind, dann sind zwei Ereignisse genau dann

1.4. GRUNDLAGEN AUS DER STOCHASTIK 15

A

B

BProportion of in

Abbildung 1.4: Interpretation von pr [A|B], wenn alle Elemente gleichwahrscheinlich sind.

unabhängig, wenn der Anteil |A|/|Ω| von Ereignis A im Stichprobenraum mit dem Anteil|A ∩B|/|B| des Ereignisses A ∩B im Ereignis B übereinstimmt.Beachte, dass Unabhängigkeit nichts mit der Disjunktheit von Ereignissen zu tun hat:Wenn zum Beispiel pr [A] > 0, pr [B] > 0 und A ∩ B = ∅ gilt, dann sind die Ereignisse Aund B abhängig!

Beispiel 1.1 Wir beschreiben das „Monty Hall Problem“. In einer Game Show ist hintereiner von drei Türen ein Preis verborgen. Ein Zuschauer rät eine der drei Türen und derShowmaster Monty Hall wird daraufhin eine weitere Tür öffnen, hinter der sich aber keinPreis verbirgt. Der Zuschauer erhält jetzt die Möglichkeit, seine Wahl zu ändern. Sollte erdies tun? Wir betrachten die Ereignisse

- Pi, dass sich der Preis hinter Tür i befindet,

- Zi, dass der Zuschauer zuerst Tür i wählt und

- Mi, dass Monty Hall Tür i nach der ersten Wahl des Zuschauers öffnet.

Wir nehmen o.B.d.A. an, dass der Zuschauer zuerst Tür 1 wählt und dass Monty Halldaraufhin Tür 2 öffnet; desweiteren nehmen wir an, dass der Zuschauer wie auch MontyHall seine Wahl jeweils nach der Gleichverteilung trifft. Wir müssen die bedingten Wahr-scheinlichkeiten prob[ P1 | Z1,M2 ] und prob[ P3 | Z1,M2 ] berechnen und beachten, dassprob[ P1 | Z1,M2 ] + prob[ P3 | Z1,M2 ] = 1 gilt, denn der Preis befindet sich nicht hinterder geöffneten Tür 2. Nach Definition der bedingten Wahrscheinlichkeiten ist

prob[ P1 | Z1,M2 ] · prob[ Z1,M2] = prob[ Z1,M2 | P1 ] · prob[ P1 ] undprob[ P3 | Z1,M2 ] · prob[ Z1,M2] = prob[ Z1,M2 | P3 ] · prob[ P3 ].

Wir bestimmen jeweils die rechten Seiten und erhalten

prob[ P1 | Z1,M2 ] · prob[ Z1,M2] = (13 ·

12) · 1

3 ,

denn Monty Hall kann die Türen 2 und 3 öffnen. Andererseits ist

prob[ P3 | Z1,M2 ] · prob[ Z1,M2] = (13 · 1) · 1

3 ,


denn Monty Hall kann nur Tür 2 öffnen. Also ist

prob[ P3 | Z1,M2 ] · prob[ Z1,M2] = 2 · prob[ P1 | Z1,M2 ] · prob[ Z1,M2]

und wir erhalten prob[ P3 | Z1,M2 ] = 23 und prob[ P1 | Z1,M2 ] = 1

3 : Der Zuschauer sollteseine Wahl stets ändern!

Eine Zufallsvariable ist eine Funktion X : Ω → R. Wenn zum Beispiel X eine aus derMenge 1, . . . , n zufällig gezogene Zahl ist, dann sind X, Y = 2X und Z = „die Anzahlder Primteiler von X“ Zufallsvariablen. Eine Indikatorvariable für das Ereignis A ist eine0-1 wertige Zufallsvariable mit

X(ω) =

1 wenn ω ∈ A;0 sonst.

Um die Aussage von Voltaire

“Das heilige Römische Reich war weder heilig noch römisch noch ein Reich“

aufzugreifen: Eine Zufallsvariable ist weder zufällig noch eine Variable!

Beispiel 1.2 Die Lösung des Monty Hall Problems kann mit Hilfe von Zufallsvariablenkompakt erklärt werden: Sei W die Zufallsvariable, die die erste Wahl des Zuschauers be-schreibt und sei T die Zufallsvariable, die die richtige Tür beschreibt. Dann findet dieÄnderungsstrategie genau dann die richtige Tür, wenn W und T unterschiedliche Werteannehmen und dieses Ereignis hat die Wahrscheinlichkeit 2

3 . Fazit: Mit höherer Wahr-scheinlichkeit war die erste Wahl schlecht und wird durch die veränderte Wahl richtig.

Zufallsvariablen X1, . . . , Xn heißen genau dann unabhängig, wenn für alle x1, . . . , xn ∈ R

prob[ X1 = x1 ∧ · · · ∧Xn = xn ] =n∏i=1

prob[ Xi = xi ]

gilt. Die Zufallsvariablen heißen k-fach unabhängig, wenn Xi1 , . . . , Xik für jede Teilmengei1, . . . , ik ⊆ 1, . . . , n von k Elementen unabhängig ist.Beachte, dass wiederholte Experimente unabhängigen Experimenten entsprechen. Deswei-teren sind unabhängige Zufallsvariablen X1, . . . , Xn k-fach unabhängig für jedes k < n.Die Umkehrung dieser Aussage gilt nicht.

Aufgabe 2Konstruiere paarweise unabhängige Zufallsvariablen X1, X2, X3, die aber nicht unabhängigsind.

Der Erwartungswert einer Zufallsvariable kann für jede reell-wertige Zufallsvariable X de-finiert werden und ist, intuitiv gesprochen, der zu „erwartende“ Wert, wenn wir das Zu-fallsexperiment X mehrfach wiederholen und das durchschnittliche Ergebnis berechnen.Formal definieren wir den Erwartungswert von X als die Summe

E [X] =∑i

i · pr [X = i]


über alle Werte i des Wertebereichs: Wenn wir zum Beispiel würfeln, dann ist E [X] =∑6i=1

i6 = 3.5 der Erwartungswert. (An diesem Beispiel können wir beobachten, dass der

Erwartungswert von X kein Element des Wertebereichs von X sein muss!)

1 3 7 82 4 6

Abbildung 1.5: Interpretation des Erwartungswerts als „Masse-Zentrum“”: Die Stichprobenhaben das Gewicht pi = pr [X = ai] auf der x-Achse an den Stellen ai für i = 1, . . . , n.

Erwarte nie das „Erwartete“! Und tatsächlich sagt der Erwartungswert in vielen ärgerlichenFällen nicht viel über das Verhalten der Zufallsvariable X aus. Der Erwartungswert istnämlich nur dann vertrauenswürdig, wenn man zeigen kann, dass größere Abweichungenvom Erwartungswert unwahrscheinlich sind. Die „Distanz“ zwischen einer ZufallsvariableX und ihrem Erwartungswert misst man zum Beispiel mit der Varianz, die durch

Var [X] = E[(X − E [X])2

].

definiert ist. Eine sehr wichtige Eigenschaft des Erwartungswerts ist seine Linearität.

Satz 1.1 (Linearität des Erwartungswerts.) Für Zufallsvariablen X, Y und reelleZahlen a, b gilt

E [a ·X + b · Y ] = a · E [X] + b · E [Y ] .

Beweis: x1, . . . , xn und y1, . . . , ym seien Elemente des Wertebereichs von X, bzw. Y . Dafür jede reelle Zahl a

E [a ·X] =n∑i=1

a · xi · pr [X = xi] = a ·n∑i=1

xi · pr [X = xi] = a · E [X] ,

gilt, genügt der Nachweis von E [X + Y ] = E [X] + E [Y ]. Da die Ereignisse Y = yj fürverschiedene yj’s disjunkt sind, folgt pr [X = xi] = ∑m

j=1 pr [X = xi, Y = yj] , und ein ähn-liches Ergebnis gilt natürlich für pr [Y = yj]. Deshalb folgt

E [X + Y ] =n∑i=1

m∑j=1

(xi + yj)pr [X = xi, Y = yj]

=n∑i=1

m∑j=1

xipr [X = xi, Y = yj] +m∑j=1

n∑i=1

yjpr [X = xi, Y = yj]

=n∑i=1

xipr [X = xi] +m∑j=1

yjpr [Y = yj]

= E [X] + E [Y ] .


Aufgabe 3

(a) Zeige, dass die Varianz mit der Formel Var [X] = E [X2]− (E [X])2 berechnet werdenkann.

(b) Zeige, dass stets Var [a ·X + b] = a2 · Var [X] gilt.

(c) X und Y seien unabhängige Zufallsvariablen. Zeige, dass E [X · Y ] = E [X] · E [Y ]and Var [X + Y ] = Var [X] + Var [Y ] gilt.

(d) X sei eine Zufallsvariable, die nur natürliche Zahlen als Werte annimmt. Zeige, dassE [X2] ≥ E [X], pr [X = 0] ≥ 1− E [X] und E [X] = ∑∞

x=1 pr [X ≥ x] gelten.

(e) Benutze die Ungleichung von Cauchy-Schwarz, um nachzuweisen, dass E [X]2 ≤E [X2] für jede Zufallsvaraiable X gilt.

(f) Wir haben n Briefe, die an verschiedene Personen adressiert sind und n Umschlägemit den jeweiligen Adressen. Wir stecken die Briefe zufällig und unabhängig von-einander in Umschläge und erlauben, dass mehrere Briefe in den selben Umschlaggesteckt werden. Wieviele Briefe landen im richtigen Umschlag?

(g) Zeige, dass es für beliebige Vektoren v1, . . . , vn ∈ +1,−1n stets Koeffizientenε1, . . . , εn ∈ +1,−1 gibt, so dass

‖ε1v1 + · · ·+ εnvn‖ ≤ n

gilt.

Hinweis: Wähle die Koeffizienten εi zufällig und unabhängig voneinander, wobei εi =1 mit Wahrscheinlichkeit 1/2 gelte, und benutze die Linearität des Erwartungswerts,um die erwartete Länge des Vektors ∑ εivi zu berechnen.

Die Methode der Erzeugendenfunktionen. Es gibt eine allgemeine Methode, umden Erwartungswert E [X] wie auch die Varianz Var [X] für eine beliebige diskrete Zu-fallsvariable X : Ω → N zu berechnen. Wir setzen pk = pr [X = k] und definieren dieErzeugendenfunktion von X durch

FX(x) :=∑

pkxk,

wobei wir über alle Werte k des Wertebereichs von X summieren.


Satz 1.2 Für jede diskrete Zufallsvariable giltFX(1) = 1 (1.4)E [X] = F ′X(1) (1.5)

Var [X] = F ′′X(1) + E [X]− E [X]2 . (1.6)Beweis: Die erste Gleichung folgt sofort aus FX(1) = ∑

pk = 1.Wir berechnen die erste Ableitung F ′X(x) = ∑

kpkxk−1 und erhalten F ′X(1) = ∑

kpk =E [X].Schließlich berechnen wir die zweite Ableitung F ′′X(x) = ∑

k(k − 1)pkxk−2 und folgern

F ′′X(1) =∑

k(k − 1)pk =∑

k2pk −∑

kpk = E[X2]− E [X] .

Wenn wir also E [X] addieren und E [X]2 von der rechten Seite subtrahieren, dann erhaltenwir genau die Varianz Var [X].

Wir betrachten als Nächstes einige wichtige Verteilungen.

Uniforme Verteilung: In der uniformen Verteilung sind alle Stichproben gleichwahr-scheinlich und wir definieren dementsprechend diese „einfachste“ Verteilung durch

pk = pr [X = k] = 1|Ω| .

Wir sagen, dass X uniform verteilt ist.

Aufgabe 4Berechne den Erwartungswert und die Varianz einer uniform verteilten Zufallsvariable.

Binomialverteilung: Wir sagen, dass eine Zufallsvariable X mit Parametern n and kbinomiell verteilt ist, vorausgesetzt

pr [X = k] =(n

k

)pk(1− p)n−k

gilt für jedes 0 ≤ k ≤ n. Für n unabhängige ZufallsvariablenX1, . . . , Xn mit pr [Xi = 1] = p

und pr [Xi = 0] = 1− p folgt pr [X1 + · · ·+Xn = k] =(nk

)pk(1− p)n−k und die Zufallsva-

riable X = X1 + · · ·+Xn ist binomiell verteilt.Der Erwartungswert vonX ist E [X] = ∑n

i=1 E [Xi] = np und auch die Varianz kann einfachberechnet werden. Wegen der Linearität des Erwartungswerts ist

E[X2]

= E[(∑

Xi)2]

=∑i

E[X2i

]+∑i 6=j

E [Xi ·Xj] .

Da Xi, Xj paarweise unabhängig sind, folgt E [Xi ·Xj] = E [Xi] · E [Xj] und deshalb ist

E[X2]

= np+ 2 ·(n

2

)· p2 = np+ n(n− 1)p2 = (np)2 + np(1− p).

Also gilt Var [X] = E [X2]− (E [X])2 = np(1− p).


Geometrische Verteilung: Wir werfen solange eine Münze, bis wir zum ersten Mal„Wappen“ erhalten. Wenn X die Anzahl der Versuche misst, dann ist X auf der Menge Ω =Zahln ·Wappen | n ∈ N definiert und wir haben zum ersten Mal einen Stichprobenraumvon abzählbar unendlicher Größe erhalten. Wenn p die Wahrscheinlichkeit für „Wappen“ist, dann erhalten wir

pk = pr [X = k] = qk−1 · p mit q = 1− p.

Wir benutzen Erzeugendenfunktionen, um Erwartungswert und Varianz zu berechnen. DieErzeugendenfunktion von X ist

FX(x) =∞∑t=1

qt−1p · xt = px ·∞∑t=0

qtxt = px

1− qx.

Die erste und zweite Ableitung ist

F ′X(x) = (1− qx)p+ pxq

(1− qx)2 = p

(1− qx)2

undF ′′X(x) = 2pq

(1− qx)3 .

Also folgt nach Satz 1.2,E [X] = F ′X(1) = p

(1− q)2 = 1p

undVar [X] = F ′′X(1) + E [T ]− E [Y ]2 = 2pq

p3 + 1p− 1p2 = 1− p

p2 .

Aufgabe 5Eine Zufallsquelle Q produziert Nullen und Einsen, wobei eine Eins mit Wahrscheinlichkeitp erscheint. Wir können auf Q zugreifen, kennen aber p nicht. Unsere Aufgabe ist die Kon-struktion einer perfekten Zufallsquelle, die eine Eins mit Wahrscheinlichkeit 1

2 produziert.Wir können also den Strom der Zufallsbits von Q beobachten und müssen einen Strom vonperfekten Zufallsbits konstruieren.Entwirf eine perfekte Zufallsquelle, so dass die erwartete Anzahl von Q-Bits pro perfektemZufallbit höchstens 1

p·(1−p) beträgt.Hinweis: Betrachte zwei aufeinanderfolgende Bits von Q.

Aufgabe 6Wir können auf eine perfekte Zufallsquelle zugreifen, die 0 und 1 mit Wahrscheinlichkeitgenau 1

2 produziert.

- Wir möchten die Verteilung (p1, . . . , pn) erzeugen. Entwirf einen Algorithmus, der imit Wahrscheinlichkeit pi erzeugt und benutze höchstens die erwartete Anzahl vonO(log2 n) Bits der perfekten Quelle. Beachte, dass p1, . . . , pn ≥ 0 beliebige reelleZahlen sind, die zu Eins summieren.


- Bestimme die Worst-Case Anzahl perfekter Zufallsbits für p1 = p2 = p3 = 13 .

Aufgabe 7Wir spielen gegen einen Gegner, der sich zwei Zahlen ausdenkt und jede Zahl, für uns nichtsichtbar, auf jeweils ein eigenes Blatt Papier schreibt. Wir wählen zufällig ein Blatt, lesendie Zahl und haben dann die Wahl, die Zahl zu behalten oder gegen die verbleibende Zahlzu tauschen. Sei x die Zahl für die wir uns letztlich entscheiden und sei y die verbleibendeZahl. Dann ist x− y unser (möglicherweise negativer) Gewinn.

- Wir betrachten die Strategie St ≡ „Gib Zahlen < t zurück und behalte Zahlen ≥ t“.Analysiere den erwarteten Gewinn Ex,y(Gewinn(St)) dieser Strategie in Abhängigkeitvon t, x und y.

- Entwirf eine randomisierte Strategie mit erwartetem positiven Gewinn für beliebige,aber verschiedene Zahlen x 6= y.

Aufgabe 8Wir spielen ein Spiel mit Erfolgswahrscheinlichkeit p = 1/2. Wenn wir gewinnen, verdop-peln wir unseren Einsatz, wenn wir verlieren, verlieren wir auch unseren Einsatz. Betrachtedie folgende Strategiei:=0REPEAT

Setze den Einsatz 2i$i:=i+1

UNTIL(Ich gewinne zum ersten Mal)

Berechne den erwarteten Gewinn und den erwarteten Geldbetrag, um diese Strategie durch-zuführen.

Beispiel 1.3 Berechnung des durchschnittlichen Gehalts ohne Offenlegung der Einzelge-hälter.n Personen 1, . . . , n möchten das durchschnittliche Gehalt bestimmen, ohne aber ihr eige-nes Gehalt offen legen zu müssen. Wenn alle Personen ehrlich sind, dann sollte das durch-schnittliche Gehalt auch korrekt berechnet werden. Wenn jedoch irgendwelche k Personenlügen, dann sollten Sie keinerlei Information bis auf die Summe aller Gehälter gewinnen.

Algorithmus 1.1 Ein sicheres Protokoll

(1) M sei eine genügend große Zahl, die größer als die Summe aller Gehälter ist.Jede Person i zufällig wählt Zahlen Xi,1, . . . , Xi,i−1, Xi,i+1, . . . Xi,n ∈ 0, . . . ,M − 1und teilt Xi,j der Person j mit.


(2) Wenn Gi das Gehalt von Person i ist, dann bestimmt sie die Restklasse

Si = Gi +n∑

j,j 6=iXj,i −

n∑j,j 6=i

Xi,j mod M.

(3) Jede Person i veröffentlicht Si und∑i Si mod M wird berechnet.

Kommentar: Wenn alle Personen ehrlich sind, dann ist

∑i

Si mod M ≡∑i

Gi +n∑

i,j,j 6=iXj,i −

n∑i,j,j 6=i

Xi,j mod M ≡∑i

Gi mod M =∑i

Gi

und 1n·∑j Sj ist das gewünschte durchschnittliche Gehalt.

Warum ist dieses Protokoll sicher? Angenommen, die letzten k Personen sind Lügner. Wirsetzen S∗i = Gi +∑n−k

j=1,j 6=iXj,i −∑n−kj=1,j 6=iXi,j mod M . Eine ehrliche Person veröffentlicht

Si = S∗i +n∑

j=n−k+1Xj,i −

n∑j=n−k+1

Xi,j mod M

Beachte, dass ∑n−ki=1 S

∗i = ∑n−k

i=1 Gi gilt.

Aufgabe 9Zeige: Jede Kombination (s∗2, . . . , s∗n−k) von Werten der Zufallsvariable S∗2 , . . . , S∗n−k wirdmit Wahrscheinlichkeit M−(n−k−1) erzeugt. Deshalb sind die Zufallsvariablen S∗2 , . . . , S∗n−kunabhängig.

Nach dieser Aufgabe sind die Zufallsvariablen S∗2 , . . . , S∗n−k unabhängig und uniform über

der Menge 0, . . . ,M − 1 verteilt. Diese Aussage gilt aber mit dem selben Argument auchfür S2, . . . , Sn−k und die Lügner lernen nichts, da jede Folge von n − k − 1 Werten mitWahrscheinlichkeit 1

Mn−k−1 auftritt.

Abweichungen vom Erwartungswert kann man mit Hilfe der Ungleichungen von Markoff,Chernoff and Tschebyscheff abschätzen. Wir beginnen mit Markoff’s Ungleichung.Markoff’s Ungleichung: Sei X eine nicht-negative Zufallsvariable und sei a > 0 einereelle Zahl. Dann gilt

pr [X > a] ≤ E [X]a

.

Beweis: Nach Definition des Erwartungswerts ist

E [X] =∑x

x · pr [X = x] ≥∑x>a

a · pr [X = x] = a · pr [X > a] .


Tschebyscheff’s Ungleichung: X sei eine Zufallsvariable. Dann gilt

pr [|X − E [X] | > t] ≤ Var [X]t2

.

für jede reelle Zahl t > 0.Beweis: Wir definieren die Zufallsvariable Y = (X − E [X])2 und wenden Markoff’s Un-gleichung an. Das ergibt

pr [|X − E [X] | > t] = pr[Y > t2

]≤ E [Y ] /t2 = Var [X] /t2.

Chernoff’s Ungleichungen sind Spezialfälle der Markoff Ungleichung, angewandt aufSummen von unabhängigen 0-1 Zufallsvariablen.

Satz 1.3 X1, . . . , Xn seien beliebige unabhängige binäre Zufallsvariablen mit den Erfolgs-wahrscheinlichkeit pi = pr [Xi = 1]. Dann ist N = ∑n

i=1 pi die erwartete Anzahl der Erfolgeund es gilt

pr[n∑i=1

Xi > (1 + β) ·N]≤

(eβ

(1 + β)1+β

)N≤ e−N ·β

2/3

pr[n∑i=1

Xi < (1− β) ·N]≤

(e−β

(1− β)1−β

)N≤ e−N ·β

2/2

für jedes β > 0 (bzw. 0 < β ≤ 1 im zweiten Fall).

Beweis: Wir zeigen nur die erste Ungleichung. Wir wenden die Markoff Ungleichung fürbeliebiges α > 0 an und erhalten

pr[n∑i=1

Xi > t

]= pr

[eα·∑n

i=1 Xi > eα·t]

≤ e−α·t · E[eα·∑n

i=1 Xi]

= e−α·t ·n∏i=1

E[eα·Xi

].

In der letzten Gleichung haben wir benutzt, dass E [Y1 · Y2] = E [Y1] · E [Y2] gilt, wennY1 und Y2 unabhängige Zufallsvariablen sind. Wir ersetzen t durch (1 + β) · N , α durchln(1 + β) und erhalten

pr[n∑i=1

Xi > (1 + β) ·N]≤ e−α·(1+β)·E ·

n∏i=1

E[eα·Xi

]= (1 + β)−(1+β)·N ·

n∏i=1

E[(1 + β)Xi

].


Die Behauptung folgt, da E[(1 + β)Xi

]= pi(1 + β) + (1− pi) = 1 + β · pi ≤ eβ·pi gilt.

Aufgabe 10Sei x ≤ 1 eine beliebige reelle Zahl. Zeige

ex

(1 + x)1+x = ex−(1+x) ln(1+x) ≤ e−x2/3.

Aufgabe 11X1, . . . , Xn seien unabhängige, binäre Zufallsvariablen mit pi = pr [Xi = 1] und nimm an,dass N∗ ≥ ∑n

i=1 pi gilt. Zeige, dass

pr[n∑i=1

Xi > (1 + β) ·N∗]≤ e−β

2·N∗/3

für jedes β > 0 folgt.

Aufgabe 12Zeige die zweite Chernoff-Ungleichung.

Beispiel 1.4 Wir nehmen an, dass ein Zufallsexperiment X vorliegt, dessen Erwartungs-wert wir experimentell messen möchten. Das Experiment sei aber instabil, d.h. die Varianzvon X ist groß.Wir „boosten“, wiederholen also das Experiment k mal. Wenn Xi das Ergebnis des itenExperiments ist, dann setzen wir Y = 1

k·∑k

i=1Xi und beachten, dass die ZufallsvariablenX1, . . . , Xk unabhängig sind: Es gilt also

V [ Y ] = 1k2 ·

k∑i=1

V [ Xi ] = 1k2 ·

k∑i=1

V [ X ] = 1k· V [ X ].

Wir haben die Varianz um den Faktor k gesenkt, aber den Erwartungswert unverändertgelassen, denn E[ Y ] = E[ 1

k· ∑k

i=1Xi ] = 1k· ∑k

i=1 E[ X ] = E[ X ]. Die TschebyscheffUngleichung liefert jetzt das Ergebnis

prob[ |Y − E[X]| > t ] = prob[ |Y − E[Y ]| > t ] ≤ V [Y ]t2

= V [X]k · t2

und große Abweichungen vom Erwartungswert sind unwahrscheinlicher geworden.Angenommen, wir haben erreicht, dass Y mit Wahrscheinlichkeit mindestens p = 1− ε inein „Toleranzintervall“ T = [E[ X ] − δ,E[ X ] + δ ] fällt. Können wir p „schnell gegen 1treiben“? Wir wiederholen diesmal das Experiment Y und zwar m mal und erhalten wie-derum unabhängige Zufallsvariablen Y1, . . . , Ym. Als Schätzung des Erwartungswerts gebenwir jetzt den Median M von Y1, . . . , Ym aus. Wie groß ist die Wahrscheinlichkeit, dass Mnicht im Toleranzintervall T liegt?

1.5. KOMPLEXITÄTSKLASSEN 25

Y liegt mit Wahrscheinlichkeit mindestens p in T . Wenn also der Median außerhalb desToleranzintervalls liegt, dann liegen mindestens m

2 Einzelschätzungen außerhalb, währendnur (1−p) ·m = ε ·m außerhalb liegende Einzelschätzungen zu erwarten sind. Wir wendendie Chernoff Ungleichung an und beachten, dass (1 + 1−2·ε

2·ε ) · ε ·m = m2 . Also erhalten wir

mit β = 1−2·ε2·ε

prob[ M 6∈ T ] ≤ e−ε·m·β2/3 = e−(1−2·ε)2·m/(12·ε)

und die Fehlerwahrscheinlichkeit fällt negativ exponentiell, falls ε < 12 .

1.5 KomplexitätsklassenWir führen Komplexitätsklassen ein, die algorithmische Entscheidungsprobleme nach

• der Laufzeit sequentieller Algorithmen,

• dem Speicherplatz sequentieller Algorithmen

• und nach Größe und Tiefe von Schaltkreisen

aufführen. Wenn wir nach Laufzeit oder Speicherplatz fragen, dann arbeiten wir mit dem„uniformen“ Rechnermodell der Turingmaschinen: Das Programm ist für alle Eingabendasselbe.Obwohl Turingmaschinen reichlich antiquiert wirken, ist die Definition der Speicherplatz-Komplexität mehr oder minder unabhängig vom gewählten Rechnermodell. Die Definitionder Laufzeit-Komplexität hängt stark vom Rechnermodell ab; wenn wir aber die Lauf-zeit nur bis auf ein Polynom exakt betrachten, dann gilt auch hier Unabhängigkeit vomRechnermodell, wenn wir den Berechnungsmodus, hier Determinismus bzw. Nichtdetermi-nismus, festlegen.Wenn wir nach der Größe und Tiefe von Schaltkreisen fragen, dann arbeiten wir mit dem„nicht-uniformen“ Rechnermodell der Schaltkreise: Für jede Eingabelänge n wird ein eige-ner Schaltkreis Sn beschrieben. Allerdings werden wir auch „uniforme“ Schaltkreismodellebetrachten, wenn nämlich die Schaltkreisfamilie Sn durch eine Turingmaschine beschriebenwird.Während wir Laufzeit und Speicherplatz für sequentielle Algorithmen studieren, bewertenGröße und Tiefe von Schaltkreisen die Effizienz paralleler Algorithmen.

1.5.1 Zeit-KomplexitätsklassenWir wählen Turingmaschinen als Rechnermodell. Die Architektur einer TuringmaschineM besteht aus einem nach links und rechts unbeschränktem, eindimensionalem Band.Das Band ist in Zellen unterteilt und der Zelleinhalt wird von einem Lese-Schreibkopfmodifiziert.Eine Eingabe w = (w1, . . . , wn) ∈ Σ∗, für das Eingabealphabet Σ, wird so abgespeichert,dass Zelle i (1 ≤ i ≤ n) mit dem Buchstaben i beschriftet ist. Alle anderen Zellen enthalten


das Blanksymbol B. Der Kopf des Lesebands befindet sich zu Anfang der Berechnung aufZelle 1. Während der Berechnung darf der Kopf den Inhalt der gegenwärtig besuchten Zelle(mit einem Buchstaben des Bandalphabets Γ) überdrucken und in einem Schritt zur linkenoder rechten Nachbarzelle wandern.Wenn die Maschine M auf Eingabe w hält, dann ist die Ausgabe M(w) der Berechnungdie Konkatenation der Zelleninhalte vom linkesten Nicht-Blank bis zum rechtesten Nicht-Blank. Wenn die Maschine M für jede Eingabe nur die Symbole 0 oder 1 als Ausgabeproduziert, dann sagen wir, dass die Eingabe w akzeptiert (Ausgabe 1) bzw. verworfenwird (Ausgabe 0) und definieren

L(M) = w ∈ Σ∗ | M akzeptiert w

als die von M erkannte Sprache.

Definition 1.1 Sei Σ ein Alphabet , also eine endliche Menge von Buchstaben.

(a) Wenn die deterministische Turingmaschine M für Eingabe w ∈ Σ∗ genau timeM(w)Schritte ausführt, dann definieren wir

timeM(n) = maxtimeM(w) | w ∈ Σn

als die Laufzeit von M für Eingabelänge n.

(b) Für die Funktion t : N→ N definieren wir

DTIME(t) = L ⊆ Σ∗ | es gibt eine deterministische Turingmaschine Mmit L(M) = L und timeM = O(t) .

(c) Die Komplexitätsklasse P besteht aus den mit polynomieller Laufzeit erkennbarenSprachen,

P =⋃k∈N

DTIME(nk).

Die Frage P ?= NP ist eine nicht nur für die theoretische Informatik zentrale Frage, und siewird auch in dieser Veranstaltung eine prominente Rolle einnehmen. Wir sind deshalb na-türlichen auch an nichtdeterministischen Turingmaschinen und ihren Komplexitätsklasseninteressiert. Eine nichtdeterministische Turingmaschine M führt unter Umständen vieleBerechnungen für eine Eingabe aus. Wir sagen, dass M eine Eingabe w akzeptiert, wennw von mindestens einer Berechnung akzeptiert wird und definieren

L(M) = w | es gibt eine Berechnung von M , die w akzeptiert .

Definition 1.2 Sei Σ ein Alphabet. Die Funktion t : N→ N sei gegeben.


(a) Wir sagen, dass eine nichtdeterministische Turingmaschine M höchstens Zeit t(n)benötigt, wenn alle Berechnungen von M für Eingaben der Länge n höchstens t(n)Schritte benötigen.

(b) Wir setzen

NTIME(t) = L ⊆ Σ∗ | es gibt eine nichtdeterministische Turingmaschine Mmit L(M) = L und L benötigt höchstens O(t) Schritte .

(c) Die Komplexitätsklasse NP besteht aus den mit polynomieller Laufzeit erkennbarenSprachen,

NP =⋃k∈N

NTIME(nk).

Aufgabe 13Zeige: Wenn DTIME(n log n) = NTIME(n log n), dann gilt P = NP.

Aufgabe 14Eine Sprache L gehört genau dann zur Komplexitätsklasse NP, wenn es eine Sprache K ∈ Pund eine Konstante k ∈ N gibt, so dass für alle Eingaben w

w ∈ L⇔ ∃ y ∈ 0, 1∗ ( |y| ≤ |x|k ∧ (x, y) ∈ K ).

1.5.2 Speicherplatz-Komplexität

Wir wählen deterministische I-O (input-output) Turingmaschinen als Rechnermodell. EineI-O Turingmaschine M besitzt drei, nach links und rechts unbeschränkte ein-dimensionaleBänder mit jeweils einem Lese-Schreibkopf, wobei jeder Kopf in einem Schritt (höchstens)zur jeweiligen linken oder rechten Nachbarzelle der gegenwärtig besuchten Zelle wanderndarf.

(1) Das erste Band ist das Leseband. Wenn Σ1 das Eingabealphabet bezeichnet, dannwird die Eingabe w = (w1, . . . , wn) ∈ Σ∗1 auf den Zellen 0, . . . , n + 1 wie folgt abge-speichert: Die Zellen 0 und n+ 1 enthalten das Begrenzersymbol #, während Zelle i(1 ≤ i ≤ n) mit dem Buchstaben wi beschriftet ist. Der Kopf des Lesebands befindetsich zu Anfang der Berechnung auf Zelle 0 und darf während der Berechnung we-der den durch die Begrenzer beschriebenen Bereich verlassen noch einen Zelleninhaltüberschreiben. Der Kopf verhält sich somit wie ein Lesekopf.

(2) Das zweite Band ist das Arbeitsband, dessen Zellen gelesen aber auch mit den Buch-staben des Arbeitsalphabets Γ, beschrieben werden dürfen. Zu Anfang der Berech-nung sind alle Zellen mit dem Blanksymbol B beschriftet.


(3) Das dritte Band ist das Ausgabeband, dessen Zellen zu Anfang der Berechnung eben-falls mit dem Blanksymbol beschriftet sind. Der Kopf darf das Ausgabeband mitBuchstaben eines Ausgabealphabets Σ2 beschreiben, wobei aber in einem Schritt nurdie rechte Nachbarzelle aufgesucht werden darf. Der Kopf verhält sich also wie einlinks-nach-rechts wandernder Schreibkopf.Wenn die Maschine M auf Eingabe w hält, dann ist die Konkatenation der Inhalteder Zellen 0, . . .m die Ausgabe M(w) der Berechnung. (Die Zelle 0 ist die zu An-fang besuchte Zelle und die Zelle m ist die im letzten Schritt besuchte Zelle desAusgabebands.)Wenn die Maschine M für jede Eingabe nur die erste Zelle des Ausgabebands modi-fiziert und dabei nur die Symbole 0 oder 1 druckt, dann sagen wir, dass die Eingabew akzeptiert (Ausgabe 1) bzw. verworfen wird (Ausgabe 0). Wir definieren

L(M) = w ∈ Σ∗1 | M akzeptiert w

als die von M erkannte Sprache.

I-O Turingmaschinen erlauben die Definition des Speicherplatzbedarfs durch Messung derAnzahl während der Berechnung besuchter Zellen des Arbeitsbands. Hätten wir nur 1-BandTuringmaschinen betrachtet, dann wäre der Speicherplatzbedarf stets mindestens so großwie das Maximum von Ein- und Ausgabelänge, und wir hätten den teuren Arbeitsspeichermit billigen Hintergrundspeichern (für die Ein- und Ausgabe) gleichgesetzt.

Definition 1.3 Sei Σ ein Alphabet.

(a) Die I-O Turingmaschine M besuche für jede Eingabe w ∈ Σ∗ genau DspaceM(w)viele verschiedene Zellen des Arbeitsbands. Wir definieren

DspaceM(n) = maxDspaceM(w) | w ∈ Σn

als den Speicherplatzbedarf von M für Eingabelänge n.

(b) Sei s : N → N gegeben. Dann definieren wir die Klasse aller mit Platzverbrauchhöchstens O(s(n)) lösbaren Entscheidungsprobleme durch

Dspace(s) = L ⊆ Σ∗ | L(M) = L für eine I-O TM M mit DspaceM = O(s) .

(c) Die Komplexitätsklasse DL besteht aus allen mit logarithmischem Speicherplatzbedarferkennbaren Sprachen, also

DL = Dspace(log2 n).

(d) Die Komplexitätsklasse PSPACE besteht aus allen mit polynomiellem Speicherplatzbe-darf erkennbaren Sprachen, also

PSPACE =⋃k∈N

Dspace(nk).


Man beachte, dass wir die Speicherplatzkomplexität in Teil (b) asymptotisch definiert ha-ben. Dieses Vorgehen wird durch das folgende “Kompressionslemma” geradezu erzwungen.

Lemma 1.6 Die I-O Turingmaschine M erkenne die Sprache L mit Speicherplatzbedarfhöchstens s(n). Dann gibt es eine I-O Turingmaschine M ′, die L mit Speicherplatzbedarfhöchstens d s(n)

2 e erkennt.

Beweisskizze: Sei Γ das Arbeitsalphabet vonM . Die MaschineM ′ verhält sich genau wieM , benutzt aber das Arbeitsalphabet Γ2.

Wie ist der Speicherplatzbedarf von nichtdeterministischen Turingmaschinen zu definieren?Offensichtlich ist auch hier die Betrachtung von (nichtdeterministischen) I-O Turingmaschi-nen M angesagt. Wir definieren den Speicherplatzbedarf nspaceM(w) für eine Eingabe wdurch den maximalen Speicherplatzbedarf einer Berechnung für w.

Definition 1.4 Sei Σ ein Alphabet.(a) Wir definieren

nspaceM(n) = maxnspaceM(w) | w ∈ Σn

als den Speicherplatzbedarf von M für Eingabelänge n.(b) Sei s : N→ N gegeben. Dann definieren wir

NSPACE(s) = L ⊆ Σ∗ | es gibt eine nichtdeterministische I-O TMM mit L(M) = L und nspaceM = O(s) .

(c) Die Komplexitätsklasse NL besteht aus allen nichtdeterministisch, mit logarithmischemSpeicherplatzbedarf erkennbaren Sprachen, also

NL = NSPACE(log2 n).

(d) Die Komplexitätsklasse NPSPACE besteht aus allen nichtdeterministisch, mit polynomi-ellem Speicherplatzbedarf erkennbaren Sprachen, also

NPSPACE =⋃k∈N

NSPACE(nk).

1.5.3 Die Komplexität paralleler BerechnungenWann ist ein algorithmisches Problem parallelisierbar? Was soll „parallelisierbar“ über-haupt bedeuten? Informell gesprochen sollten wir fordern, dass Berechnungen rasant schnellablaufen und mit nicht zu vielen Prozessoren arbeiten. Um diese Begriffe weiter zu klären,wählen wir Schaltkreise als unser paralleles Rechnermodell.


Definition 1.5 Ein Schaltkreis S wird durch den Vektor

S = (G,Q,R, gatter, n, eingabe)

beschrieben.

• G = (V,E) ist ein gerichteter, azyklischer Graph.

• Q ist die Menge der Quellen (Knoten mit nur ausgehenden Kanten) und R die Mengeder Senken (Knoten mit nur eingehenden Kanten) von G.

• Die Funktion eingabe: Q → 1, . . . , n weist jeder Quelle die Position des entspre-chenden Eingabebits zu.

• Die Funktion gatter: V \ Q → ¬,∨,∧ weist jedem inneren Knoten von G eineBoolesche Funktion zu, wobei einem Knoten v die Negation nur zugewiesen werdendarf, wenn v genau eine eingehende Kante besitzt.

Der Schaltkreis berechnet die Boolesche Funktion fS : 0, 1n → 0, 1|R|, indem die nEingabebits an die Quellen in G angelegt werden, und jeder Knoten das Ergebnis seinerGatterfunktion weiterleitet. Das Resultat wird an den Senken von G (in einer vorher fi-xierten Reihenfolge) abgelesen.

Als nächstes führen wir die Komplexitätsmaße Tiefe, Größe und Fanin ein. Während dieTiefe die parallele Rechenzeit wiedergibt, misst die Größe die Prozessoranzahl, bzw. ingewissem Sinne die sequentielle Rechenzeit.

Definition 1.6 (a) Sei S = (G,Q,R, gatter, n, eingabe) ein Schaltkreis. Wir sagen, dass

1. die Tiefe von S die Länge des längsten Weges in G ist,2. die Größe von S die Anzahl der Knoten von G ist, wobei wir keine Quellen

zählen,3. und der Fanin von S das Maximum, über alle Knoten v, der Anzahl eingehender

Kanten von v ist.

(b) Für eine Boolesche Funktion f : 0, 1n → 0, 1 definieren wir die minimale Tiefe

DEPTH(f) = min d | Es gibt einen Schaltkreis der Tiefe d für f

und die minimale Größe

SIZE(f) = min s | Es gibt einen Schaltkreis der Größe s für f ,

wobei wir jeweils nur Schaltkreise mit den Gattern ∧,∨,¬ vom Fanin zwei betrachten.


Aufgabe 15Zeige, dass das Problem, die Summe von n Bits modulo 2 zu bestimmen, nicht von Schalt-kreisen mit unbeschränktem Fanin und Tiefe 2 gelöst werden kann, wenn polynomielleGröße in n gefordert wird.

Aufgabe 16a) Bestimme die Anzahl der Funktionen f : 0, 1n → 0, 1.b) Gib eine möglichst gute obere Schranke für die Anzahl der Schaltkreise aus m Gatternmit Fanin 2 und n Eingaben an.c) Zeige: Es gibt eine Funktion f : 0, 1n → 0, 1, zu deren Berechnung Schaltkreisedie Größe mindestens Ω(2n/n) benötigen.

Schaltkreise berechnen nur Funktionen mit einer festen Anzahl von Eingabebits. Um Funk-tionen von unbeschränkt vielen Eingabebits berechnen zu können, benötigen wir das Kon-zept einer uniformen Schaltkreisfamilie.

Definition 1.7 (a) Eine Schaltkreisfamilie ist eine Folge (Sn)n∈N von Schaltkreisen, sodass Sn eine Boolesche Funktion auf genau n Eingaben berechnet. Eine Schaltkreis-familie (Sn)n∈N berechnet eine Funktion f : 0, 1∗ → 0, 1 genau dann, wenn Snfür jedes n die Funktion f , eingeschränkt auf 0, 1n, berechnet.

(b) Eine Schaltkreisfamilie (Sn)n∈N ist uniform, wenn es eine log2(Größe (Sn)+n)-platz-beschränkte, deterministische Turingmaschine gibt, die für Eingabe 1n

- alle Knoten von Sn aufzählt,- jedem inneren Knoten seine Funktion, also eine Funktion aus ¬,∨,∧, zuweist,- sämtliche Kanten von Sn aufzählt und- jeder Quelle von Sn eine Bitposition zuweist.

(c) Seien d, s : N→ N gegeben. Definiere

DEPTHuniform(d)

als die Klasse aller Sprachen L, die durch eine uniforme Schaltkreisfamilie in TiefeO(d(n)) und mit Fanin zwei berechnet werden.

SIZEuniform(s)

ist die Klasse aller Sprachen L, die durch eine uniforme Schaltkreisfamilie mit GrößeO(s(n)) und mit Fanin zwei berechnet werden. Schließlich besteht

DEPTH−SIZEuniform(d, s) = DEPTHuniform(d) ∩ SIZEuniform(s)

aus allen Sprachen, die sowohl in Tiefe O(d) wie auch in Größe O(s) durch eineuniforme Schaltkreisfamilie vom Fanin zwei berechnet werden.


Mit anderen Worten: Wir verlangen, dass eine uniforme Schaltkreisfamilie Sn einfach, näm-lich durch eine logarithmisch-bandbeschränkte Turingmaschine, konstruierbar sein muss.Warum haben wir die Uniformität oder Einfachheit von Schaltkreisen gefordert?Sei n die Gödelnummer der Turingmaschine M . Wenn M auf dem leeren Wort hält, danndefinieren wir Sn so, dass alle Eingaben akzeptiert werden. Wenn hingegen M auf demleeren Wort nicht hält, dann definiere Sn so, dass alle Eingaben verworfen werden. Mitanderen Worten, das spezielle Halteproblem (für die Unärkodierung von Gödelnummern)kann mit einer Schaltkreisfamilie berechnet werden, die nur aus Schaltkreisen mit einemGatter bestehen. Die beschriebene Schaltkreisfamilie (Sn)n∈N ist nicht uniform und ihreKonstruktion ist sogar nicht berechenbar.In uniformen Schaltkreisfamilien wird die wesentliche Arbeit von den Schaltkreisen geleistetund nicht von der Beschreibung der Familie.

Aufgabe 17a) Zeige: Für jede Funktion f : 0, 1∗ → 0, 1 gibt es eine Schaltkreisfamilie der TiefeO(n), die f berechnet.b) Zeige: Es gibt eine berechenbare Funktion f : 0, 1∗ → 0, 1, die nicht von eineruniformen Schaltkreisfamilie polynomieller Tiefe berechnet werden kann.

Wir sind an rasant schnellen, parallelen Algorithmen interessiert, die mit einer vernünftigenGröße auskommen. Die Begriffe „rasant schnell“ und „vernünftige Größe“ präzisieren wirdurch poly-logarithmische Rechenzeit und polynomielle Größe.

Definition 1.8 Für jedes k ∈ N definiere die Komplexitätsklassen:

NCk :=∞⋃l=0

DEPTH− SIZEuniform(logk2 n, nl)

NC :=⋃k∈N

NCk

ACk ist wie NCk definiert, allerdings beschränken wir den Fanin nicht.AC :=

⋃k∈N

ACk.

Die Komplexitätsklasse NC ist unsere Definition der Klasse parallelisierbarer Probleme. NCsteht für „Nick’s Class“ (nach ihrem Autor Nick Pippenger). AC steht für „AlternatingCircuits“, d.h. Schaltkreise die alternierend aus Schichten von UND- bzw. ODER-Gatternaufgebaut sind.

1.6 DiagonalisierungWir benutzen die Diagonalisierungsmethode von Cantor, die in der Informatik zum Beispielfür den Nachweis der Unentscheidbarkeit der Diagonalsprache oder des Halteproblemsangewandt wird. Cantor hat diese Methode erstmalig angewandt um zu zeigen, dass dieMenge der reellen Zahlen überabzählbar groß ist.

1.6. DIAGONALISIERUNG 33

1.6.1 Eine ZeithierarchieKönnen Berechnungen mehr Probleme lösen, wenn mehr Zeit zur Verfügung steht? Wenndie zur Verfügung stehende Zeitschranke t zeitkonstruierbar ist, dann wird die Antwortpositiv sein.

Definition 1.9 Eine Funktion t : N → N heißt zeitkonstruierbar, falls t(n) ≥ n · log2 nund falls es eine deterministische Turingmaschine M gibt, die für jede Eingabe x die Bi-närdarstellung von t(|x|) mit Laufzeit höchstens O(t(|x|)) berechnet.

Aufgabe 18Wenn L ∈ NTIME(t) und wenn t zeitkonstruierbar ist, dann gibt es eine Konstante kL, sodass L ∈ DTIME(2kL·t) gilt.

Praktisch alle relevanten Laufzeitfunktionen sind zeit-konstruierbar. Zur Berechnung derBinärdarstellung von t(n) ≥ n · log2 n steht nämlich Zeit O(t) und damit exponentielleZeit in der Länge der Binärdarstellung von t zur Verfügung. Die Zeitkonstruierbarkeit istwichtig, damit eine simulierende Turingmaschine eine Zeitüberschreitung der simuliertenMaschine schnell merkt: Ein Zähler kann genügend schnell, also in Zeit O(t(n)) initialisiertwerden. Wird der Zähler, wie auch eine Beschreibung der simulierten Turingmaschine stetsin der Nähe des Kopfes gehalten, gelingt die Simulation eines Schrittes in logarithmischerZeit.

Satz 1.4 Zeit-Hierarchie

(a) Die Funktion t sei zeitkonstruierbar. Dann ist DTIME(o( tlog2 t

)) eine echte Teilmengevon DTIME(t).

(b) P ist eine echte Teilmenge von E = ⋃k∈N DTIME(2kn) und E ist eine echte Teilmenge

von EXP = ⋃k∈N DTIME(2nk).

Beweis (a): Wir nehmen an, dass die Funktion t zeitkonstruierbar ist und konstruierendie folgende Turingmaschine M∗.

Algorithmus 1.2 Diagonalisierung.

1. M∗ bestimmt die Länge n der Eingabe w und speichert die Binärdarstellung vont(n)

log2 t(n) in einem Zähler ab.

/* Dies ist mit Laufzeit O(t(n)) möglich, da t zeit-konstruierbar ist. */

2. Wenn w nicht von der Form 〈M〉0k für eine Turingmaschine M ist, verwirft M∗./* 〈M〉 bezeichnet die Gödelnummer der Turingmaschine M . */

3. M∗ simuliert M auf der Eingabe 〈M〉0k und verwirft, wenn M mehr als t(n)log2 t(n)

Schritte benötigt.


4. M∗ akzeptiert w, wenn M verwirft. Wenn hingegen M akzeptiert, dann wird M∗

verwerfen.

Aus der Beschreibung des Algorithmus geht hervor, dass M∗ mit Laufzeit O(t(n)) aus-kommt und damit ist L(M∗) ∈ DTIME(t).Angenommen, L(M∗) kann von einer Turingmaschine M mit Laufzeit s = o( t

log2 t) erkannt

werden. Dann wird M für hinreichend große Eingabelänge n stets in Zeit höchstens tlog2 t

rechnen. M∗ wird deshalb M∗ für Eingaben w = 〈M〉0k mit hinreichend großem k erfolg-reich simulieren. Schritt (4) garantiert, dass sich L(M) und L(M∗) unterscheiden: Laufzeito( t

log2 t) ist unzureichend für die Berechnung von L(M∗).

(b) ist eine direkte Konsequenz von Teil (a).

1.6.2 Eine Speicherplatz-HierarchieAnalog zur Zeit-Konstruierbarkeit benötigen wir den Begriff der Platz-Konstruierbarkeit.

Definition 1.10 Eine Funktion s : N→ N heißt genau dann platz-konstruierbar, wenn eseine deterministische Turingmaschine gibt, die für eine jede Eingabe der Länge n höchstensO(s(n)) Speicherplatz benötigt, um s(n) Zellen zu markieren.

Das folgende Ergebnis verallgemeinert die Zeit-Hierarchie von Satz 1.4. Beachte, dass dasErgebnis schärfer ist: Eine „klitze-klein wenig“ mehr Speicher bedeutet mehr Berechnungs-kraft.

Satz 1.5 (Das Speicherplatz-Hierarchie Theorem)Die Funktion s sei platz-konstruierbar. Dann ist DSPACE(o(s)) eine echte Teilmenge vonDSPACE(s).

Beweis: Für eine platz-konstruierbare Funktion s konstruieren wir die folgende I-O Tu-ringmaschine M∗.

Algorithmus 1.3 Die Diagonalisierungsmethode

(1) M∗ bestimmt die Länge n der Eingabe w.

(2) M∗ steckt auf dem Arbeitsband 2s(n) Zellen ab./* Dies ist mit Speicherplatz O(s(n)) möglich, da s platz-konstruierbar ist. */

(3) Wenn w nicht von der Form 〈M〉0k für eine I-O Turingmaschine M und eine Zahlk ∈ N ist, dann verwirft M∗./* 〈M〉 bezeichnet die Gödelnummer der Turingmaschine M . */

1.7. LITERATUR 35

(4) M∗ simuliert M auf Eingabe w = 〈M〉0k und beginnt die Simulation mit dem Kopfin der Mitte des abgesteckten Bereichs. M∗ verwirft, wenn M irgendwann den abge-steckten Bereich verlässt oder mehr als 2s(n) Schritte benötigt./* Kann M∗ auf Speicherplatz s(n) gleichzeitig einen bis 2s(n) − 1 zählenden Zählerimplementieren und eine s(n) platzbeschränkte Berechnung von M simulieren? Ja,das ist bei einem entsprechend vergrößerten Arbeitsalphabet unproblematisch. */

(5) M∗ akzeptiert w, wenn M verwirft. Ansonsten akzeptiert M und M∗ wird verwerfen.

Wir beachten zuerst, dassM∗ immer hält und mit Speicherplatzbedarf O(s(n)) auskommt.Also ist L(M∗) ∈ DSPACE(s).Warum liegt L(M∗) nicht in Dspace(r) für eine Funktion r = o(s)? Ist dies der Fall, dannwird L(M∗) von einer I-O Turingmaschine M mit Speicherplatzbedarf r erkannt. Fürhinreichend große Eingabelänge n rechnet M stets in Zeit höchstens 2s und M∗ simuliertM für Eingaben w = 〈M∗〉0k mit hinreichend großem k erfolgreich. Jetzt garantiert Schritt(5), dass sich L(M) und L(M∗) unterscheiden: Speicherplatz r = o(s) ist unzureichend fürdie Berechnung von L(M∗).

Aufgabe 19Zeige das Platz-Hierarchie Theorem für nichtdeterministische Turingmaschinen: NSPACE(s)ist eine echte Teilmenge von NSPACE(S), falls s = o(S) und falls S platz-konstruierbar ist.

1.7 LiteraturDie folgenden Textbücher widmen sich den Themen der Veranstaltung.

(1) S. Arora und B. Barak, Computational Complexity, a Modern Approach, CambridgeUniversity Press, 2009.

(2) M. Sipser, Introduction to the Theory of Computation, Paperback 3rd edition, Cen-gage Learning, 2012.

(3) O. Goldreich, Computational Complexity: A Conceptual Perspective, CambridgeUniversity Press, 2008.

Die folgenden Blogs beschäftigen sich mit Themen der Komplexitätstheorie.

(1) Lance Fortnow und Bill Gasarch, Computational Complexity Blog,http://blog.computationalcomplexity.org/

(2) The blog of Scott Aaronson, http://www.scottaaronson.com/blog/

(3) R.J. Lipton, Goedel’s lost letter and P = NP,http://rjlipton.wordpress.com/


Bitte melden Sie uns Fehler im Skript oder in den Folien. Danke!

Email: [email protected] (Bert Besser), [email protected] (GeorgSchnitger)

Teil I

Komplexitätsklassen

37

Kapitel 2

Die Komplexität des automatischenBeweisens∗

KNF-SAT, das Erfüllbarkeitsproblem für aussagenlogische Formeln in konjunktiver Nor-malform, ist NP-vollständig. Es gibt jedoch recht gute Algorithmen wie etwa den Da-vis–Putnam–Logemann–Loveland (DPLL) Algorithmus, der für in der Praxis auftretendeKNF-Formeln sehr gute Erfolge erzielt, bei zufällig erzeugten Formeln aber eher schwachabschneidet.Wir haben QBF, die Klasse der wahren quantifizierten Booleschen Formeln in konjunktiverNormalform, kennengelernt. Das PSPACE-vollständige QBF ist weitaus schwieriger als KNF-SAT und Heuristiken, die einen ähnlichen Erfolg wie der DPLL-Algorithmus für KNF-SATerreichen, sind nicht bekannt.Allerdings können quantifzierte Boolesche Formeln φ mit n Variablen in Zeit O(|φ|2n)auf Wahrheit getestet werden, wenn man systematisch alle Belegungen untersucht. (|φ|bezeichnet die Anzahl der aussagenlogischen Operatoren von φ und „steht für die Größe“der Formel φ.) Das Problem des automatischen Beweisens von Formeln der Prädikatenlogikder ersten Stufe ist da ein ganz anderes Kaliber wie wir in Kürze an den Beispielen derPresburger-Arithmetik und der Peano-Arithmetik sehen werden.

Zuerst zu den Begriffsbildungen. Eine offene Formel der Prädikatenlogik der ersten Stufebesteht aus der aussagenlogischen Verknüpfung von Prädikaten, wobei Funktionssymboleund Symbole für Konstanten in die Prädikate eingesetzt werden dürfen. In einer (geschlos-senen) Formel binden Existenz- und All-Quantoren die Variablen einer offenen Formel,wobei die Quantoren auch innerhalb der offenen Formel auftreten dürfen.In der Presburger-Arithmetik werden die Konstante 0, die Prädikate x = y, x+ y = z undx < y sowie das Funktionssymbol S (für Successor) benutzt. Die Axiome der Presburger-Axiome lauten:

(P1) S(x) 6= 0, (P2) S(x) = S(y)→ x = y,

(P3) x+ 0 = x, (P4) x+ S(y) = S(x+ y),(P5) ¬(x < 0), (P6) x < S(y)↔ x < y ∨ x = y,

39

40 KAPITEL 2. DIE KOMPLEXITÄT DES AUTOMATISCHEN BEWEISENS∗

(P7) x < y ∨ x = y ∨ y < x,

Weiterhin wird das Induktionsaxiom

φ(0) ∧ ∀x(φ(x)→ φ(S(x)))→ φ

für jede Formel φ gefordert.

Definition 2.1 PR-A ist die Menge aller Formeln, die aus den Axiomen der Presburger-Arithmetik ableitbar sind.

Wenn wir auch das Prädikat x · y = z zulassen, erhalten wir alle Formeln der Peano-Arithmetik. Die Axiome der Peano-Arithmetik bestehen aus den Axiomen der Presburger-Arithmetik und zusätzlich aus den beiden Axiomen

(P8) x · 0 = 0, (P9) x · S(y) = (x · y) + x.

Definition 2.2 PE-A ist die Menge aller Formeln, die aus den Axiomen der Peano-Arithmetik ableitbar sind.

2.1 Gödels UnvollständigkeitssatzOffensichtlich sind alle Aussagen der Peano-Arithmetik für die natürlichen Zahlen wahr.Aber ist die Peano-Arithmetik überhaupt mächtig genug, um alle für die natürlichen Zahlenwahren Aussagen zu enthalten?

Satz 2.1 Unvollständigkeitssatz von Gödel.Jede rekursiv aufzählbare Axiomatisierung der Zahlentheorie besitzt wahre, aber nicht be-weisbare Aussagen.

Also ist nicht nur das Ableiten oder Beweisen ableitbarer Aussagen schwierig, sondern wirstoßen auf ein viel fundamentaleres Problem: ein Formalismus kann eine komplexe Realitätnicht exakt widerspiegeln!Mit dem folgenden Lemma gelingt ein einfacher Beweis des Unvollständigkeitssatzes.

Lemma 2.1 Sei M eine Turingmaschine und sei w ∈ 0, 1∗ eine Zeichenkette. Dannkann man eine Formel φM,w der Peano-Arithmetik konstruieren, so dass

M akzeptiert w ⇔ φM,w ist wahr.

Die Konstruktion von φM,w gelingt mit einer stets haltenden Turingmaschine in polynomi-eller Zeit (in der Länge von w).

2.1. GÖDELS UNVOLLSTÄNDIGKEITSSATZ 41

Beweis des Gödelschen Unvollständigkeitssatzes. Angenommen, es gibt eine Axio-matisierung A der Zahlentheorie mit der jede wahre Aussage auch beweisbar ist. Sei Leine beliebige rekursiv aufzählbare Sprache, die von der Turingmaschine M akzeptiertwerde. Mit Lemma 2.1 können wir für jede Zeichenkette w eine Aussage φM,w der Peano-Arithmetik bestimmen, so dass

w ∈ L ⇔ φM,w ist wahr.

Wenn Wahrheit und Beweisbarkeit (bzgl. der Axiomatisierung A) übereinstimmen, folgtalso

w ∈ L⇔ φM,w ist aus A ableitbarund ebenso natürlich

w 6∈ L ⇔ ¬ϕM,w ist wahr.⇔ (¬φM,w) ist aus A ableitbar.

Also ist

L = w | ϕM,w ist aus A ableitbar und L = w | (¬ϕM,w) ist aus A ableitbar

und damit ist L wie auch L rekursiv aufzählbar, denn die Axiomatisierung A ist rekursivaufzählbar. Also ist für jede rekursiv aufzählbare Sprache L auch ihr Komplement rekursivaufzählbar und damit ist jede rekursiv aufzählbare Sprache auch rekursiv. Und dies istoffensichtlich unmöglich.

Beweisskizze von Lemma 2.1: Sei M eine deterministische Turingmaschine und sei weine beliebige Eingabe der Länge n. Wir beschreiben die Berechnung von M auf Eingabew durch eine Folge von Konfigurationen. Die Konfiguration Kt zum Zeitpunkt t bestehtaus der Position des Kopfes zum Zeitpunkt t, dem gegenwärtigen Zustand und dem Inhaltdes Bands.Wir möchten Konfigurationen und Konfigurationenfolgen durch natürliche Zahlen kodie-ren. Dazu genügt es offensichtlich, Worte über einem Alphabet durch natürliche Zahlen zukodieren, denn eine Konfiguration K können wir darstellen durch das Wort

K = γ1 · · · γi · q · γi+1 · · · γm,

wobei die γj dem Arbeitsalphabet angehören und q ein Zustand ist; den Zustand q habenwir vor der gegenwärtig besuchten Zelle eingefügt. Ein Wort u = u1 · · ·uk über einemAlphabet Σ lässt sich aber gemäss

code(u) =k∑i=1

code(ui) · (|Σ|+ 1)i−1

durch eine natürliche Zahl der Grösse 2O(k) kodieren. (Wenn Σ = σ1, . . . , σr, dann setzenwir code(σi) = i.) Natürlich müssen wir mit Formeln der Peano-Arithmetik die Kodie-rung von Worten (bzw. die Kodierung von Konfigurationen und Konfigurationenfolgen)beschreiben. Hier hilft:


Behauptung 2.1 Sei M eine Turingmaschine. Es gibt Formeln φi der Peano-Arithmetik,so dass

(1) φ1(l) genau dann wahr ist, wenn die Zahl l eine Konfiguration von M kodiert,

(2) φ2(l1, l2) genau dann wahr ist, wenn die Zahlen l1 und l2 aufeinanderfolgende Konfi-gurationen von M kodieren,

(3) φ3(l) genau dann wahr ist, wenn die Zahl l eine Folge (beliebiger Länge) von aufein-anderfolgenden Konfigurationen von M kodiert,

(4) φ4(l, l1, l2, l3) genau dann wahr ist, wenn l eine Folge kodiert, die die Konkatenationder von l1, l2 und l3 kodierten Folgen ist,

(5) φ5(l, l1, l2) genau dann wahr ist, wenn l eine Folge von aufeinanderfolgenden Konfi-gurationen von M ist und wenn l die Konfiguration l1 als erste und die Konfigurationl2 als letzte Konfiguration besitzt.

Beweis (1)-(4): sind als Übungsaufgaben gestellt. Schließlich ist

φ5(l, l1, l2)↔ φ3(l) ∧ φ1(l1) ∧ φ1(l2) ∧ ∃ l3 ( φ3(l3) ∧ φ4(l, l1, l3, l2) )

und damit ist (5) gezeigt.

Aufgabe 20Gib jeweils Formeln der Peano-Arithmetik an.(a) φa(x, y): y ist ein Teiler von x.(b) φb(x): x ist eine Potenz der festen Primzahl p.(c) φc(z): z kodiert ein Wort.Dabei sollen Worte w über einem Alphabet Σ = 1, . . . , p − 1 durch die Zahl ∑iwip

i

kodiert werden (p sei eine Primzahl, auch das leere Wort ist erlaubt).(d) φd(z, y): z kodiert ein Wort w und w enthält den Buchstaben y nicht.

Aufgabe 21Gib jeweils Formeln der Peano-Arithmetik an.(a) φe(x, y, z): x, y, z kodieren Worte w,w1, w2 und w ist die Konkatenation von w1 undw2.(b) φ1(x): x kodiert eine Konfiguration einer 1-Band Turingmaschine. Dabei ist eine Konfi-guration gegeben durch die Konkatenation von drei Worten w1, w2, w3, wobei w1 der Inhaltder linken Bandhälfte, w2 der Zustand, w3 der Inhalt der rechten Bandhälfte ist.(c) φf (x): x kodiert eine Folge von Konfigurationen, d.h. ein Wort, dass aus durch einspezielles Symbol getrennten Konfigurationen besteht (die Übergangsfunktion muss dabeinicht beachtet werden).

2.2. DIE KOMPLEXITÄT DER PRESBURGER-ARITHMETIK 43

Offensichtlich können wir annehmen, dassM genau dann hält, wenn der Zustand q1 erreichtwird. Somit akzeptiert M genau dann die Eingabe w, wenn

∃ l (l kodiert eine Folge aufeinanderfolgender Konfigurationen von M∧ die erste Konfiguration von l ist ein Wort der Form q0 · w∧ die letzte Konfiguration von l ist ein Wort aus q1 · 1).

Zur Formalisierung benutzen wir natürlich die Formel φ5. Die zusätzlichen Forderungen andie erste und letzte Konfiguration sind einfach zu beschreiben (wie?).Lemma 2.1 ist damit gezeigt.

2.2 Die Komplexität der Presburger-ArithmetikWir führen die gruselige Komplexitätsklasse E aller in Exponentialzeit lösbaren Entschei-dungsprobleme ein.

Definition 2.3 E = ⋃k∈N DTIME(2kn) ist die Klasse aller in Exponentialzeit lösbaren Ent-

scheidungsprobleme.

Analog zur Definition NP -harter Sprachen definieren wir E-harte Sprachen mit Hilfe derpolynomiellen Reduktion.

Definition 2.4 Eine Sprache L heißt hart für E genau dann, wenn K ≤P L für jedeSprache K ∈ E gilt.

Beachte, dass eine Sprache L, die hart für E ist, nicht in P liegt. Warum? Sonst liegt jedeSprache K ∈ E ebenfalls in P, denn K ist polynomiell auf L reduzierbar. Also folgt, dassE in P enthalten ist, ein Verstoß gegen die Zeithierarchie aus Kapitel 6.

Satz 2.2 Die Presburger-Arithmetik PR-A ist hart für E. Insbesondere gibt es keine Tu-ringmaschine, die genau die wahren Formeln von PR-A in polynomieller Zeit erkennt.

Beweis: Sei M eine deterministische Turingmaschine, die stets nach T = 2α·n Schrittenhält. In Lemma 2.1 haben wir eine Formel φM,w der Peano-Arithmetik konstruiert, so dassφM,w genau dann wahr ist, wenn M die Eingabe w akzeptiert. Leider ist φM,w eine Formelder Peano-Arithmetik und enthält damit das Prädikat für die Multiplikation.Wir beachten aber, dass wir die Existenz- und Allquantoren von φM,w durch die beschränk-ten Quantoren ∃x ≤ 2O(T 2) und ∀x ≤ 2O(T 2) ersetzen können. Warum? Die Variablen derFormel kodieren die Konfigurationen bzw. die Konfigurationenfolgen vonM und eine Kon-figuration K von M wird durch eine natürliche Zahl cK ≤ 2O(T ) kodiert; eine Folge von TKonfigurationen wird damit durch eine Zahl der Größe höchstens (2O(T ))T = 2O(T 2) kodiert.


Behauptung 2.2 Die Formelmn(a, b, c) ≡ (a · b = c ∧ a ≤ pn)

kann für ein (bestimmtes) pn ≥ 22n durch eine Formel m∗n(a, b, c) der Presburger-Arithmetikausgedrückt werden. m∗n(a, b, c) besitzt lineare Länge in n und kann in polynomieller Zeitbestimmt werden.

Satz 2.2 folgt aus der Behauptung, da wir eine Formel φ∗M,w der Presburger-Arithmetik inpolynomieller Zeit (in der Länge von w) konstruieren können, so dass φ∗M,w genau dannwahr ist, wenn M die Eingabe w akzeptiert.

Beweis von Behauptung 2.2: Wir definieren die Formeln m∗n durch Induktion über n.Für n = 0 setzen wir p0 = 220 = 2 und definieren

m∗0(a, b, c) ≡ ((a = 0 ∧ c = 0) ∨ (a = S(0) ∧ c = b) ∨ (a = S(S(0)) ∧ c = b+ b)).Wir können jetzt annehmen, dass m∗n bereits definiert ist. Beachte zuerst, dass

a · b = c⇔ ∃a1∃a2∃a3∃a4(((a1 · a2 + a3 + a4) · b = c) ∧ (a1 · a2 + a3 + a4 = a)).Die zentrale Idee ist, dass wir a1, a2, a3, a4 ≤ b

√ac annehmen können. (Warum? Wenn

a = b2 − c für 1 ≤ c < 2b − 1, dann wähle a1 = a2 = b√ac = b − 1 und b2 − 2b + 1 ≤

a1 · a2 + a3 + a4 ≤ b2 − 1 folgt.) Wir müssen also statt der einen Multiplikation a · b = cgroßer Zahlen die Multiplikationen a1 · a2 · b, a3 · b, a4 · b und a1 · a2 für kleinere Zahlendurchführen.Schließlich brechen wir die Dreier-Multiplikation a1 · a2 · b in Zweier-Multiplikationen auf,nämlich

a1 · a2 · b = c1 ⇔ ∃c2(a1 · c2 = c1 ∧ a2 · b = c2).Insgesamt haben wir also erhalten, dass

a · b = c ⇔ ∃ a1, a2, a3, a4, c1, c2, c3, c4, d (c1 + c3 + c4 = c ∧ d+ a3 + a4 = a

∧ (a1 · c2 = c1 ∧ a2 · b = c2) ∧ a3 · b = c3 ∧ a4 · b = c4 ∧ a1 · a2 = d).Wir wählen pn+1 so, dass b√pn+1c = pn. Beachte, dass damit die Rekursion p0 = 2, pn+1 ≥p2n folgt und die Ungleichung pn ≥ 22n ist erzwungen.

Wenn wir jetzt allerdings die aufgeführten Multiplikationen durch die Formelnm∗n ersetzen,dann erhalten wir die Längenrekursion

L(n+ 1) = 5 · L(n) +O(1)und damit leider auch eine exponentielle Länge in n. Wir benutzen universelle Quantoren,um die Länge drastisch zu reduzieren. Wir setzen

m∗n+1(a, b, c) :≡ ∃ a1, a2, a3, a4, c1, c2, c3, c4, d ∀ e, f, g(c1 + c3 + c4 = c ∧ d+ a3 + a4 = a) ∧ [((e = a1 ∧ f = c2 ∧ g = c1)

∨ (e = a2 ∧ f = b ∧ g = c2) ∨ (e = a3 ∧ f = b ∧ g = c3)∨ (e = a4 ∧ f = b ∧ g = c4) ∨ (e = a1 ∧ f = a2 ∧ g = d))→ m∗n(e, f, g)].

2.3. ZUSAMMENFASSUNG 45

Offensichtlich hat m∗n damit eine lineare Länge und m∗n kann in polynomieller Zeit kon-struiert werden.

Bemerkung 2.1 Tatsächlich ist die Situation sogar noch schlimmer als in Satz 2.2 be-schrieben, denn PR-A ist sogar hart für NTIME(22q·n) für eine positive rationale Zahl q.(Zur Definition des Begriffs harter Sprachen wird auch hier die polynomielle Reduktionbenutzt.) Als „positives“ Ergebnis ist nur die Inklusion

PR-A ∈ DTIME(222c·n )

für eine positive Konstante c bekannt. Die Komplexität der Presburger-Arithmetik ist also„irgendwo“ zwischen doppelt und dreifach exponentieller Laufzeit anzusiedeln anzusiedeln.

2.3 ZusammenfassungProbleme außerhalb der Klasse E lassen sich nur für sehr kleine Eingabegrößen lösen undman kann deshalb solche Probleme getrost als praktisch unentscheidbar bezeichnen. Wirhaben mit der Presburger-Arithmetik eine der einfachsten Theorien der Prädikatenlogikder ersten Stufe betrachtet und festgestellt, dass die ableitbaren Formeln hart für E sind.Dieses Ergebnis lässt sich sogar verschärfen und die Presburger-Arithmetik ist ein ein erstesBeispiel eines entscheidbaren, aber praktisch unentscheidbaren Problems.Schließlich haben wir den Unvollständigkeitssatz von Gödel kennengelernt: Komplexe Wel-ten lassen sich nicht formalisieren!


Kapitel 3

Speicherplatz-Komplexität

Das Ziel dieses Kapitels ist die Bestimmung der Speicherplatz-Komplexität, also die Be-stimmung des für die Lösung eines algorithmischen Problems notwendigen und hinreichen-den Speicherplatzes.Warum sollte uns eine Untersuchung der Ressource „Speicherplatz“ interessieren? Es stelltsich heraus, dass die Speicherplatzkomplexität hilft, die Komplexität der Berechnung vonGewinnstrategien für viele nicht-triviale 2-Personen Spiele zu charakterisiere. Weitere algo-rithmische Probleme, deren Komplexität wir mit Hilfe der Speicherplatzkomplexität klärenwerden, sind:

(a) Akzeptiert ein nichtdeterministischer endlicher Automat eine gegebene Eingabe?

(b) Sind zwei nichtdeterministische endliche Automaten äquivalent?

(c) Minimiere einen NFA.

Des weiteren lassen sich „nicht-klassischen“ Berechnungsarten wie die Randomisierung oderQuantenberechnungen durch konventionelle deterministische Rechner simulieren, falls wirpolynomiellen Speicherplatz erlauben. Im nächsten Kapitel werden wir zudem eine engeVerbindung zwischen der Speicherplatz-Komplexität eines Problems und seiner parallelenRechenzeit feststellen.Für die Definition der wichtigsten Speicherplatz-Komplexitätsklassen siehe Abschnitt 1.5.2.

3.1 Sub-Logarithmischer SpeicherplatzWas ist die Speicherplatzkomplexität regulärer Sprachen? Eine reguläre Sprache L wer-de durch einen endlichen Automaten A akzeptiert. Wir fassen A als eine I-O Turingma-schine auf, die wie A programmiert wird. Zusätzlich erzwingen wir, dass das Symbol 1(bzw) 0) auf das Ausgabeband gedruckt wird, wenn sich A vor dem Lesen des rechtenBegrenzungssymbol in einem akzeptierenden (bzw. verwerfenden) Zustand befindet. DieI-O Turingmaschine benötigt das Arbeitsband nicht und L ∈ Dspace(0) folgt.

47

48 KAPITEL 3. SPEICHERPLATZ-KOMPLEXITÄT

Überraschenderweise führt sehr(!) geringer Speicherplatz im Vergleich zu leerem Speichernicht zu größerer Berechnungskraft wie das nächste Ergebnis zeigt.

Satz 3.1 (Sprachen mit sehr geringem Speicherplatzbedarf sind regulär)Die I-O TuringmaschineM akzeptiere L mit Speicherplatzbedarf sM = o(log2 log2 n). Dannist L regulär. Insbesondere folgt für jede Funktion s : N→ N mit s = o(log2 log2 n), dass

Dspace(s) = Dspace(0) = die Klasse der regulären Sprachen.

Beweisskizze:Wir beschränken uns auf die Untersuchung von I-O TuringmaschineM mitkonstantem Speicherplatzbedarf. Da der Speicherplatzbedarf nicht von der Eingabelängeabhängt, können wir die möglichen Speicherinhalte als Zustände in die Programmierungeiner äquivalenten I-O Turingmaschine M ′ aufnehmen, wobei M ′ keinerlei Speicherbedarfhat. Damit ist M ′ aber nichts anderes als ein deterministischer Zwei-Weg Automat, also„ein endlicher Automat, der die Eingabe in jeder Richtung lesen darf“.Ein Zwei-Weg Automat Z lässt sich aber durch einen NFA N mit ε-Übergängen simulie-ren. Dazu beachten wir zuerst, dass sich der Automat Z in einer Endlos-Schleife befindet(und damit nicht hält), wenn derselbe Zustand zweimal über derselben Eingabepositionangenommen wird. Q sei die Zustandsmenge von Z und es gelte |Q| = q. Wir wählen

Q′ =q⋃

k=1Σ× (Q× links, rechts)k

als Zustandsmenge von N . Wenn N den Zustand (a, q1, richtung1, . . . , qr, richtungr) an-nimmt, dann spekuliert N , dass

(a) dass a der Inhalt der gegenwärtig besuchten Zelle ist,

(b) Z den Zustand qi beim iten Besuch der Zelle annimmt,

(c) und dass der ite Besuch von der linken Nachbarzelle (richtungi = links), bzw. derrechten Nachbarzelle (richtungi = rechts) erfolgt.

Wir erlauben einen Zustandsübergang

(a, q1, r1, . . . , qs, rs) N→ (b, q′1, r′1, . . . , q′t, r′t)

bei gelesenem Buchstaben a, wenn

(a) N die Vektoren ~q und ~r unter der Annahme verifizieren kann, dass die Vektoren ~q′

und ~r′ richtig geraten wurden und wenn

(b) für alle i mit „r′i = links“ der Zustand q′i richtig geraten wurde.

N wird nur dann akzeptieren, wenn „ri = links“ für alle i und wenn der finale Zustandakzeptierend ist.M ′ (und damit auch M) akzeptiert somit eine reguläre Sprache.

3.2. LOGARITHMISCHER SPEICHERPLATZ 49

Beispiel 3.1 Dspace(log2 log2 n) enthält auch nicht-reguläre Sprachen. Es sei bin(i) dieBinärdarstellung der Zahl i ohne führende Nullen. Wir wählen Σ = 0, 1, $ als Eingabe-alphabet und definieren die Sprache

BIN = bin(1)$bin(2)$ · · · $bin(n) | n ∈ N.

Man überzeugt sich leicht mit dem Pumping Lemma, dass BIN nicht regulär ist. Es bleibtzu zeigen, dass BIN ∈ Dspace(log2 log2 n). Das ist aber klar(?), da bin(i) für jedes i ≤ naus höchstens dlog2 ne Bits besteht.Insbesondere haben wir für die Sprache BIN das seltene Glück, die genaue Speicherkom-plexität angeben zu können. Denn da BIN nicht regulär ist, folgt BIN 6∈ Dspace(s), fallss = o(log2 n log2 n). Andererseits haben wir gerade BIN ∈ Dspace(log2 log2 n) nachgewie-sen.

Die sublogarithmischen Speicher-Komplexitätsklassen sind aber recht mickrig und erst DL,also die logarithmische Speicherplatz-Komplexität, wird eine vernünftige Berechnungskraftbesitzen.

3.2 Logarithmischer SpeicherplatzDL und NL gehören zu den wichtigsten Speicherplatz-Klassen.

- Die Berechnungskraft ist durchaus signifikant, da die Maschinen sich jetzt Positionenin der Eingabe merken können.

- Viele Eigenschaften, die für DL und NL gelten, verallgemeinern sich auf beliebigeSpeicherplatzklassen. Dieses Phänomen werden wir im Satz von Savitch und im Satzvon Immerman-Szlepscenyi beobachten.

Wir beginnen mit deterministisch logarithmischem Platz.

3.2.1 DL

Sei PALINDROM die Sprache aller Palindrome über dem Alphabet 0, 1. Wir behaupten,dass sich PALINDROM mit logarithmischem Speicherplatz berechnen lässt.Wir konstruieren eine I-O Turingmaschine, die zuerst die Eingabelänge n in Binärdarstel-lung abspeichert. Dies gelingt, indem ein Anfangs auf 0 gesetzter binärer Längen-Zählersukzessive inkrementiert wird bis der Eingabekopf das Ende der Eingabe erreicht hat. So-dann werden nacheinander die Bitpositionen 1 und n, 2 und n − 1, . . . , k und n − k ...verglichen, indem der Eingabekopf jeweils um n−1 Positionen nach rechts, dann um n−2Positionen nach links, um n− 3 Positionen nach rechts, ... bewegt wird.Zur Ausführung dieser Kopfbewegungen wird eine Kopie des Längen-Zählers angelegt undder Längen-Zähler wie auch die Kopie um Eins (auf n− 1) vermindert. Die ersten Kopfbe-wegungen um n− 1 Positionen nach rechts gelingen durch das Herunterzählen der Kopie.


Nachdem das Ziel erreicht ist, wird der Längenzähler um Eins reduziert und der neue In-halt in die Kopie geladen. Die nächsten n − 2 Kopfbewegungen nach links, wie auch allenachfolgenden Kopfbewegungen, werden dann mit demselben Verfahren gesteuert.Die Klasse DL ist die erste nicht-triviale Speicherkomplexitätsklasse und enthält neben derPalindrom-Sprache weitere wichtige Sprachen wie die Dyck-Sprache aller wohlgeformtenKlammerausdrücke oder die kontextsensitive Sprache anbncn | n ∈ N.

Aufgabe 22w ∈ (, )∗|w ist ein korrekter Klammerausdruck ist die „Klammersprache“ . Dabei istein korrekter Klammerausdruck entweder1. () oder2. (A) für einen korrekten Klammerausdruck A oder3. AB für korrekte Klammerausdrücke A,B.Zeige, dass man die Klammersprache in DL entscheiden kann.

Wir können mit Hilfe des Konzepts der Konfiguration die Speicherplatzkomplexität derPalindrom-Sprache exakt bestimmen. (Zur Erinnerung: Die Konfiguration kt zum Zeit-punkt t besteht aus der Position des Lesekopfs zum Zeitpunkt t, dem gegenwärtigen Zu-stand, der Position des Kopfs auf dem Arbeitsband und dem Inhalt des Arbeitsbands.) Esstellt sich heraus, dass logarithmische Speicherkomplexität nicht nur hinreichend, sondernauch notwendig ist. Dies bestätigt die Intuition, dass nicht-triviale Algorithmen zumindestdie Fähigkeit haben sollten, sich an eine Eingabeposition erinnern zu können; beachte, dassdiese Fähigkeit logarithmischen Speicherplatz voraussetzt.

Lemma 3.1 Es ist PALINDROM ∈ DL. Andererseits ist PALINDROM 6∈ Dspace(s), fallss = o(log2 n).

Beweis: Sei M eine I-O Turingmaschine mit Speicherplatzbedarf s(n), die die Palindrom-Sprache erkenne. M besitze q Zustände und ein Arbeitsalphabet der Größe γ. Die Einga-belänge sei gerade.Behauptung 1: M wird die Eingabe-Position n

2 für mindestens eine Eingabe mindestensΩ( n

s(n)) mal besuchen.Bevor wir die Behauptung beweisen, zeigen wir, dass das Lemma aus der Behauptung folgt.Wir nehmen an, dass M den Speicherplatzbedarf s(n) = o(log2 n) hat. Für jede Eingabewird M dann, bei hinreichend großer Eingabelänge n, höchstens

q · s(n) · γs(n) = o(√n)

Konfigurationen besitzen, für die der Lesekopf die Eingabeposition n2 besucht. Aber Positi-

on n2 kann nur einmal in einer vorgegebenen Konfiguration besucht werden, da ein zweiter

Besuch in derselben Konfiguration zu einer Endlos-Schleife führt. Die Behauptung fordertaber eine Besuchshäufigkeit von mindestens Ω( n

s(n)) >>√n und wir haben einen Wider-

spruch zur Annahme s(n) = o(log2 n) erhalten.


Beweis von Behauptung 1: Wir weisen einer Eingabe w die Folge der Konfigurationenbeim Besuch der Eingabe-Position n

2 zu. Wenn die Behauptung falsch ist, dann wird n2

höchstens o( ns(n)) mal besucht. Insgesamt gibt es aber mit (3.1) höchstens

(q · γs(n) · s(n))o(ns(n) ) = 2O(s(n))·o( n

s(n) ) = 2o(n)

Konfigurationenfolgen, wenn wir die Position des Lesekopfes fixieren. Es gibt aber 2n/2Palindrome der Länge n und deshalb gibt es zwei verschiedene Palindrome u, v der Längen mit identischer Konfigurationenfolge auf Position n

2 .Behauptung 2: Fooling ArgumentDie Eingaben u, v mögen beide die Konfigurationenfolge k besitzen. Wenn u = (u1, u2)und v = (v1, v2) mit |u1| = |v1| = n/2, dann besitzt auch die Eingabe w = (u1, v2) dieKonfigurationenfolge k.

Aufgabe 23Zeige Behauptung 2.

Behauptung 1 ist jetzt eine unmittelbare Konsequenz von Behauptung 2, da M für Palin-drome u und v auch die Eingabe w akzeptiert, obwohl w kein Palindrom ist.

Aufgabe 24Die Palindrom-Sprache soll erkannt werden. Gib I-O-Maschinen an, die PALINDROM(a) in Zeit O(n) erkennen.(b) in Zeit O(n2/ log n) mit Platz O(log n) erkennen.

Aufgabe 25Zeige, dass O(s) platzbeschränkten I-O-Turingmaschinen Zeit Ω(n2/s) für das Erkennender Palindrom-Sprache benötigen.Hinweis: Betrachte Worte der Form w#nwR der Länge 3n (mit w ∈ 0, 1n) und die Kon-figurationenfolgen auf den Eingabepositionen i ∈ n + 1, . . . , 2n. Zeige, dass sich für alleEingaben w#nwR und v#nvR (mit w 6= v) auf Position i verschiedene Konfigurationsfolgenergeben müssen. Daher muss es auf Position i mindestens 2n verschiedene Konfigurations-folgen geben und die meisten davon müssen lang sein. Schließe davon auf hohe Rechenzeitfür die meisten Eingaben.

Wie mächtig ist DL?

Satz 3.2 (Speicherplatz und Laufzeit)

(a) Sei M eine I-O Turingmaschine, die mit Speicherplatzbedarf s arbeite. Dann ist dieLaufzeit von M für Eingaben der Länge n durch n · 2O(s(n)) beschränkt.

(b) Es gelte s(n) ≥ log2 n. Dann ist Dspace(s) ⊆ ⋃k∈N DTIME(2k·s). Als Konsequenz folgtDL ⊆ P.


Beweis (a): Sei M eine I-O Turingmaschine mit Speicherplatzbedarf s und sei w einebeliebige Eingabe der Länge n. Wir beschreiben die Berechnung von M auf Eingabe wdurch eine Folge von Konfigurationen. Die Konfiguration kt zum Zeitpunkt t besteht ausder Position des Lesekopfs zum Zeitpunkt t, dem gegenwärtigen Zustand, der Position desKopfs auf dem Arbeitsband und dem Inhalt des Arbeitsbands.Wir kommen zur wesentlichen Beobachtung: M wird für keine Eingabe eine Konfigurationzweimal annehmen! Wäre dies nämlich der Fall, dann wird M in eine Endlos-Schleife ge-zwungen und hält nicht. Also ist die Laufzeit vonM durch die Anzahl der Konfigurationenbeschränkt. Wir nehmen an, dass M q Zustände und ein Arbeitsalphabet der Größe γbesitzt. Damit ist die Anzahl der Konfigurationen durch

n · q · s(n) · γs(n) = n · q · s(n) · 2s(n)·log2 γ

nach oben beschränkt und, da s(n) ≤ 2s(n), erhalten wir

n · q · s(n) · 2s(n)·log2 γ = n · 2O(s(n)). (3.1)

Die Laufzeit ist natürlich durch die Anzahl der Konfigurationen beschränkt und die Be-hauptung folgt.(b) ist eine direkte Konsequenz von Teil (a), denn wir nehmen s(n) ≥ log2 n an undn · 2O(s(n)) ≤ 2O(s(n)) folgt.

Wir definieren die Sprache U-REACHABILITY als die Menge aller ungerichteten GraphenG, die einen Weg von Knoten 1 nach Knoten 2 besitzen. Der Graph G werde durch seineAdjazenzmatrix repräsentiert. Analog sei die Sprache D-REACHABILITY definiert, wobeiwir diesmal allerdings gerichtete Graphen betrachten.Erst in 2004 konnte durch Omer Reingold gezeigt werden, dass U-REACHABILITY in DLliegt. Die Methode des Random Walks erlaubt eine mehr oder minder offensichtliche Lö-sung von U-REACHABILITY mit logarithmischem Speicherplatzbedarf, wenn wir zufälligarbeiten dürfen. Die von Reingold erhaltene Lösung für deterministische Turingmaschinenist wesentlich komplizierter.Offensichtlich ist D-REACHABILITY das schwierigere der beiden Probleme: Wir werdenspäter starke Indizien erhalten, dass jede deterministische Turingmaschine mindestens dieSpeicherkomplexität Ω(log2

2 n) für die Lösung von D-REACHABILITY benötigt.Wir erhalten aber eine Lösung von D-REACHABILITY mit logarithmischem Speicher-platzbedarf, wenn wir nichtdeterministische Turingmaschinen betrachten: Eine nichtdeter-ministische I-O Turingmaschine rät einen Weg von Knoten 1 nach Knoten 2 und benutztihren logarithmischen Speicher zum Durchsuchen der Adjazenzmatrix. Dieser Algorithmusist Anlaß, nichtdeterministische I-O Turingmaschinen zu betrachten.

Aufgabe 26Gegeben sei ein gerichteter Graph als Adjazenzmatrix. Es soll entschieden werden, obfolgendes gilt: jeder Knoten hat höchstens einen Nachfolger und Knoten 2 kann von Knoten1 erreicht werden.


Gib einen möglichst speichereffizienten deterministischen Algorithmus zur Lösung des Pro-blems (auf I-O-Turingmaschinen) an.

Aufgabe 27Im 2-Zusammenhangsproblem ist ein ungerichteter Graph als Adjazenzmatrix gegeben. Essoll entschieden werden, ob der Graph zweifach zusammenhängend ist, d.h., ob der Graphbei der Herausnahme eines beliebigen Knotens immer zusammenhängend bleibt.Gib einen möglichst speichereffizienten deterministischen Algorithmus zur Lösung des Pro-blems (auf I-O-Turingmaschinen) an.

3.2.2 NL und NL-VollständigkeitIst D-REACHABILITY deterministisch mit logarithmischem Speicherplatz erkennbar?Wir werden im Folgenden zeigen, dass eine positive Antwort die Gleichheit der KlassenDL und NL erzwingt, und die wahrscheinliche Antwort ist also negativ. Insbesondere zeigenwir, dass D-REACHABILITY eine schwierigste Sprache in NL ist, wobei „Schwierigkeit“durch LOGSPACE-Reduktionen gemessen wird.

Definition 3.1 Seien Σ1 und Σ2 Alphabete und seien L ⊆ Σ∗1, K ⊆ Σ∗2 Sprachen über Σ1beziehungsweise Σ2.(a) Wir sagen, dass L LOGSPACE-reduzierbar auf K ist (geschrieben L ≤LOG K), fallses eine (deterministische) I-O Turingmaschine M mit logarithmischem Speicherplatzbedarfgibt, so dass für alle Eingaben w ∈ Σ∗1,

w ∈ L ⇔ M(w) ∈ K.

(b) Die Sprache K heißt NL-hart, falls L ≤LOG K für alle Sprachen L ∈ NL gilt.(c) Die Sprache K heißt genau dann NL-vollständig, wenn K ∈ NL und wenn K NL-hartist.

Lemma 3.2 (Die wesentlichen Eigenschaften der LOGSPACE-Reduktion)

(a) Wenn M ≤LOG K und K ≤LOG L, dann ist M ≤LOG L.

(b) Wenn L ≤LOG K und wenn K ∈ DL, dann ist auch L ∈ DL.

Beweis: Übungsaufgabe.

Wie auch für die Klassen P und NP (und die polynomielle Reduktion) fallen die Klassen DLund NL zusammen, wenn eine einzige NL-vollständige Sprache in DL liegt.

Korollar 3.1 (LOGSPACE-vollständige und harte Sprachen)


(a) Die Sprache K sei NL-vollständig. Dann gilt

K ∈ DL ⇔ DL = NL.

(b) Wenn K NL-hart ist und wenn K ≤LOG L, dann ist auch L NL-hart.

Gibt es überhaupt NL-vollständige Probleme?

Satz 3.3 D-REACHABILITY ist NL-vollständig.

Beweis: Wir haben bereits gesehen, dass D-REACHABILITY in NL liegt. Es ist alsoL ≤LOG D-REACHABILITY für eine beliebige Sprache L ∈ NL nachzuweisen.Da L ∈ NL, gibt es eine nichtdeterministische Turingmaschine M , die L mit logarithmi-schem Speicherbedarf erkennt. Für eine Eingabe w betrachten wir den BerechnungsgraphGM(w) von M auf Eingabe w. Die Konfigurationen bilden die Knoten von GM(w). Wirfügen eine Kante von Konfiguration c nach Konfiguration d ein, wenn M auf Eingabe win einem Schritt von c nach d gelangen kann. Zusätzlich fügen wir eine Kante von jederakzeptierenden Haltekonfiguration zu einem neuen Knoten ein, dem wir den „Namen“ 2geben. Der der Anfangskonfiguration entsprechende Knoten erhält den Namen 1.Behauptung: GM(w) kann von einer deterministischen I-O Turingmaschine mit logarith-mischem Speicherplatz berechnet werden.Beweis: Wir beachten zuerst, dass GM(w) nur polynomiell (in |w|) viele Knoten besitzt,da die Konfigurationenzahl polynomiell ist. Wir müssen also auf logarithmischem Platz diepolynomiell große Adjazenzmatrix von GM(w) berechnen. Diese Aufgabe ist aber einfach,da wir ja nur die Möglichkeit eines Ein-Schritt Übergangs zwischen zwei Konfigurationen(zu jeweils logarithmischem Speicherplatz) überprüfen müssen.

Wir weisen GM(w) der Eingabe w zu und erhalten

w ∈ L ⇔ GM(w) ∈ D-REACHABILITY.

Die Behauptung des Satzes folgt.

Das nächste Ergebnis zeigt, dass NL in P enthalten ist. Dieses Ergebnis ist nicht mehrüberraschend, sondern wegen der NL-Vollständigkeit des Problems D-REACHABILITYnaheliegend.

Satz 3.4 DL ⊆ NL ⊆ P ⊆ NP.

Beweis: Die Beziehungen DL ⊆ NL sowie P ⊆ NP sind offensichtlich und es genügt derNachweis von NL ⊆ P.Man überzeuge sich zuerst, dass aus L ≤LOG K und K ∈ P auch L ∈ P folgt. (WendeSatz 3.2 (a) an!) Für eine beliebige Sprache L in NL gilt L ≤LOG D-REACHABILITY. DaD-REACHABILITY in P liegt, folgt somit auch L ∈ P.

Es könnte durchaus sein, dass beide Inklusionen in DL ⊆ NL ⊆ P echte Inklusionen sind.


Beispiel 3.2 Die Klasse LOGCFL besteht aus allen Entscheidungsproblemen, die LOGSPACE-reduzierbar auf eine kontextfreie Sprache sind.Man kann zum Beispiel zeigen, dass NL eine Teilklasse von LOGCFL ist: Es gibt also einekontextfreie Sprache, auf die D-REACHABILITY reduziert werden kann.

Aufgabe 28Zeige, dass es eine kontextfreie Sprache L mit

D− REACHABILITY ≤LOG L

gibt.

Desweiteren stimmt LOGCFL mit der Klasse aller Entscheidungsprobleme überein, die durchSchaltkreise logarithmischer Tiefe gelöst werden können. Während verlangt wird, dass derFanin eines UND-Gatters zwei ist, ist der Fanin von ODER-Gattern unbeschränkt. Zudemmuss man die Schaltkreise durch „einfache Algorithmen“ beschreiben können –man sagt,dass die Schaltkreise uniform sind.

3.2.3 Der Satz von SavitchUm wieviel mächtiger ist NL im Vergleich zu DL?

Aufgabe 29Zeige: Wenn Dspace(log n) = Nspace(log n), dann gilt Dspace(s) = Nspace(s) für alleplatz-konstruierbaren Funktionen s.

Aufgabe 30Es seien s, S Funktionen mit s = O(S) und s = Ω(n). Weiterhin gelte für alle g mitg = Ω(s) und g = O(S), dass g nicht platz-konstruierbar ist. Zeige: Dann gilt Dspace(s) =Dspace(S).Hinweis: Zeige, dass die Funktion spaceM(n) für Turingmaschinen M mit mindestens li-nearem Platzverbrauch platz-konstruierbar ist.

Satz 3.5 (Der Satz von Savitch)

(a) D-REACHABILITY ∈ Dspace(log22 n).

(b) Die Funktion s sei platz-konstruierbar. Dann ist

Nspace(s) ⊆ Dspace(s2)

und insbesondere folgt

NL ⊆ Dspace(log22 n) und PSPACE = NPSPACE.


Beweis (a): Leider können wir D-REACHABILITY weder mit Tiefensuche noch mit Brei-tensuche lösen, denn sowohl der Stack der Tiefensuche wie auch die Queue der Breitensucheverlangen bis zu linearem Speicherplatz. Wir beschreiben deshalb ein neues Traversierungs-verfahren, das wesentlich speicher-effizienter sein wird.

Algorithmus 3.1 (Eine platz-effiziente Traversierung)

(1) Der Graph G sei als Adjazenzmatrix gegeben. G bestehe aus n Knoten.

(2) Für jedes m ≤ n − 1 rufe Algorithmus 3.2 mit dem Eingabegraphen G sowie denParametern 1, 2 und m auf./* Algorithmus 3.2 wird überprüfen, ob es in G einen Weg der Länge m (m ≤ n− 1)vom Knoten 1 zum Knoten 2 gibt. */

(3) Akzeptiere genau dann, wenn Algorithmus 3.2 mindestens einmal akzeptiert.

Algorithmus 3.2

(1) Die Eingaben seien der Graph G sowie die Knoten u und v und die Weglänge m.

(2) Wenn m=1, dann akzeptiere, falls (u, v) eine Kante von G ist und verwerfe ansons-ten.

(3) Für alle Knoten w führe zwei rekursive Aufrufe mit den jeweiligen Parametern u, wund dm2 e beziehungsweise w, v und bm2 c durch.

(4) Akzeptiere, wenn es einen Knoten w mit zwei akzeptierenden Aufrufen gibt und ver-werfe ansonsten.

Algorithmus 3.1 akzeptiert offensichtlich genau dann, wenn es einen Weg vom Knoten 1zum Knoten 2 gibt. Die entscheidende Frage ist die Größe des Speicherplatzbedarfs. Derrekursive Algorithmus 3.2 benötigt einen Stack der Höhe log2 n, wobei jedes Element desStacks einem Knoten entspricht und damit ebenfalls logarithmischen Speicher in Anspruchnimmt. Insgesamt benötigen wir, wie versprochen, also Speicherplatz O(log2

2 n).Am Rande sei vermerkt, dass Algorithmus 3.2 zwar speicher-effizienter als Tiefen- oderBreitensuche ist, dafür aber bis zu 2O(log2

2 n) Schritte verschlingt.(b) Es sei s(n) ≥ log2 n und s sei platz-konstruierbar. Weiterhin sei M eine beliebigenichtdeterministische Turingmaschine mit Speicherplatzbedarf s und w sei eine Eingabe.Wir konstruieren eine deterministische TuringmaschineM∗, dieM auf Speicherplatz O(s2)simuliert.Da s platz-konstruierbar ist, kann M∗ einen Speicherplatz von s(n) Zellen abstecken unddamit die Konfigurationen von M systematisch erzeugen. Wir gehen davon aus, dass dieStartkonfiguration den Namen 1 trägt und dass es genau eine akzeptierende Haltekonfi-guration gibt, der wir den Namen 2 zuweisen. M∗ wendet nun Algorithmus 3.1 auf den


Berechnungsgraphen GM(w) (mit höchstens 2O(s(|w|)) Knoten) an und akzeptiert genaudann, wenn Algorithmus 3.1 akzeptiert.Offensichtlich akzeptiertM∗ die Eingabe w genau dann, wennM die Eingabe w akzeptiert.Die Behauptung folgt, da M∗ nur den Speicherplatzbedarf O(s2) hat: Der Name einesjeden Knotens hat höchstens O(s) Bits, und die Rekursionstiefe ist ebenfalls durch O(s)beschränkt.

Der Beweis des Satzes von Savitch betont die überragende Rolle von D-REACHABILITYfür die Speicherplatzkomplexität. Aussagen über die nichtdeterministische Speicherplatz-komplexität werden zuerst für NL (und damit für D-REACHABILITY) nachgewiesen. So-dann ist zu gewährleisten, dass sich die Aussagen nach „oben“ vererben, also auch fürgrößeren Speicherplatz gelten.

Aufgabe 31Jede Sprache L in NP kann wie folgt beschrieben werden: Es gibt eine Sprache K ∈ Pund eine Konstante c, so dass für alle Eingaben x

x ∈ L ⇐⇒ ∃y ∈ 0, 1∗(|y| ≤ |x|c ∧ (x, y) ∈ K).

Definiere Σp1 = NP , Πp

1 = co−NP sowie für alle k ∈ N, k > 1

Σpk = L ⊆ 0, 1∗ | ∃K ∈ Πp

k−1, c ∈ N ∀x ∈ 0, 1∗(x ∈ L ⇐⇒∃y ∈ 0, 1∗(|y| ≤ |x|c ∧ (x, y) ∈ K)).

Weiterhin ist Πpk = coΣp

k und PH = ∪k∈NΣpk. PH heißt die polynomielle Hierarchie.

Zeige: (a) NP = coNP ⇐⇒ PH = NP .(b) PH ⊆ PSPACE.

3.2.4 Der Satz von Immerman und SzlepscenyiWir zeigen als nächstes, dass überraschenderweise jede Sprache und ihr Komplementdie gleichen nichtdeterministischen Speicherplatz-Ressourcen benötigen, oder in anderenWorten, dass nichtdeterministischer Speicherplatz abgeschlossen ist unter Komplement-bildung. Der wesentliche Schritt wird der Nachweis sein, dass das Komplement von D-REACHABILITY, also

D-UNREACHABILITY = G | es gibt keinen Weg von Knoten 1 nach Knoten 2

ebenfalls in NL liegt.

Satz 3.6 (Der Satz von Immerman und Szlepscenyi)

(a) D-UNREACHABILITY ∈ NL.


(b) Die Funktion s sei platz-konstruierbar. Dann ist

Nspace(s) = coNspace(s),

wobei coNspace(s) = L | L ∈ Nspace(s) genau aus den Komplementen von Spra-chen aus Nspace(s) besteht.

Beweis (a): Der Graph G sei die Eingabe für D-UNREACHABILITY. Angenommen, wirkönnten das Anzahlproblem in NL lösen, also die Anzahl m der von Knoten 1 aus erreich-baren Knoten bestimmen. Wir zeigen zuerst, dass dann auch D-UNREACHABILITY zuNL gehört. Im zweiten Schritt lösen wir dann das Anzahlproblem mit nichtdeterministischlogarithmischem Platz.Wir nehmen also an, dass wir die Zahl m der von 1 aus erreichbaren Knoten kennen.Unsere nichtdeterministische Maschine versucht jetzt nacheinander m verschiedene Knotenv1, . . . , vm zu finden, die von 1 aus erreichbar sind. Wenn der Knoten 2 von all diesen Knotenverschieden ist, dann kann M folgern, dass 2 nicht von 1 aus erreichbar ist und M wirdakzeptieren.Im Detail sieht das Vorgehen von M wie folgt aus. Die erste Phase von M ist trivial: M„setzt“ v1 = 1, da 1 von 1 aus erreichbar ist. In der i+1ten Phase rätM einen Knoten vi+1und rät sukzessive eine Knotenfolge beginnend mit Knoten 1. M verwirft, wenn vi+1 ≤ vioder wenn vi+1 = 2 oder wenn die geratene Knotenfolge keinem im Knoten vi+1 endendenWeg entspricht. Ansonsten akzeptiert M , falls i + 1 = m, beziehungsweise beginnt Phasei+ 1, falls i+ 1 < m.Wir haben also D-UNREACHABILITY gelöst, wenn das Anzahlproblem gelöst ist. Wiekönnen wir aber das Anzahlproblem in NL lösen? Sei mi die Anzahl der Knoten, die durchWege der Länge höchstens i von Knoten 1 aus erreichbar sind. Offensichtlich ist m0 = 1und mn−1 = m. Wir müssen nur für jedes i zeigen, dass mi+1 in NL berechnet werden kann,wenn mi bekannt ist.Wir können also annehmen, dass mi bekannt ist. Wir setzen zu Anfang mi+1 = 1 undwiederholen dann im wesentlichen das Vorgehen von M für alle Knoten (in aufsteigenderReihenfolge). Wenn Knoten k behandelt wird, raten wir sukzessive Knoten vi,1 < · · · < vi,miund verifizieren, dass jeder geratene Knoten vom Knoten 1 durch einen Weg der Längehöchstens i erreichbar ist.Wenn wir für den gegenwärtigen Knoten k gerade den Knoten vi,r verifiziert haben, dannprüfen wir zusätzlich nach, ob vi,r ein Vorgänger von k ist. Ist dies der Fall, dann erhöhenwir mi+1 um 1 und brechen die Behandlung von Knoten k ab, um mit der Behandlung vonKnoten k+1 zu beginnen. Ist dies nicht der Fall, dann setzen wir die Ratephase für Knotenmit Abstand höchstens i vom Knoten 1 fort. In diesem Fall beginnt die Behandlung vonKnoten k + 1 erst, wenn alle mi Knoten überprüft wurden.Also ist auch das Anzahlproblem in NL lösbar und die Behauptung ist gezeigt.

(b) Die Sprache L werde von einer nichtdeterministischen Turingmaschine M mit Spei-cherplatzbedarf s erkannt. Wir wissen, dass s platz-konstruierbar ist und damit gilt ins-besondere auch s ≥ log2 n. Unser Ziel ist die Konstruktion einer nichtdeterministischen


Turingmaschine M∗, die das Komplement L mit Speicherplatzbedarf O(s) erkennt. M∗

muss also nachprüfen, ob M für eine Eingabe w eine akzeptierende Berechnung besitzt(sprich: einen Weg von der Startkonfiguration 1 zur akzeptierenden Haltekonfiguration 2besitzt) und genau dann akzeptieren, wenn es eine akzeptierende Berechnung nicht gibt.M∗ wendet den Algorithmus aus Teil (a) auf den Berechnungsgraphen GM(w) an, wobeiM∗ die Existenz von Kanten selbst klären muss. Offensichtlich gelingt diese Klärung inPlatz O(s), da die Konfigurationen von M nur Platz O(s) benötigen.

Aufgabe 32Zeige: Wenn L vollständig für NL ist, dann ist auch das Komplement L vollständig für NL.

Die Sprache 2-SAT besteht aus allen erfüllbaren aussagenlogischen Formeln in konjunktiverNormalform mit jeweils höchstens zwei Literalen pro Klausel.

Korollar 3.2 2-SAT ist NL-vollständig.

Beweis: Wir zeigen zuerst die nicht-offensichtliche Aussage, dass 2-SAT in NL liegt. Seialso φ eine Formel in konjunktiver Normalform mit jeweils zwei Literalen pro Klausel.Wir weisen φ den gerichteten Graphen G(φ) zu, wobei die Knoten von G(φ) den Literalenvon φ entsprechen. Wir setzen eine Kante vom Literal α zum Literal β ein, falls ¬α ∨ βeine Klausel ist. Eine Kante (α, β) entspricht also einer Implikation α→ β. Für jede Kante(α, β) fügen wir auch die „symmetrische“ Kante (¬β,¬α) in G(φ) ein; beachte, dass α→ βund ¬β → ¬α logisch äquivalent sind.Behauptung: φ ist genau dann nicht erfüllbar, wenn es ein Literal x gibt, so dass es einenWeg von x nach ¬x wie auch einen Weg von ¬x nach x gibt.Beweis ⇐: Die Existenz eines Weges von α nach β erzwingt für jede erfüllende Belegung,die α auf 1 setzt, auch dass β auf 1 gesetzt wird. Also müssen x und ¬x auf denselbenWert gesetzt werden, was aber nicht erlaubt ist.⇒: Wir wissen also, dass φ nicht erfüllbar ist. Wir nehmen an, dass die Behauptungfalsch ist und konstruieren dann eine erfüllende Belegung. Wir beginnen mit irgendeinemungesetzten Literal x, für das wir annehmen können, dass es keinen Weg von x nach ¬xgibt. Wir weisen x und allen von x in G(φ) erreichbaren Literalen den Wert 1 zu und weisen¬x und allen Literalen, die ¬x erreichen, den Wert 0 zu.Unser Vorgehen ist wohl-definiert, da es kein Literal y geben kann, so dass sowohl y wieauch ¬y von x aus erreichbar sind. Der Graph G(φ) garantiert ja mit seinen symmetrischenKanten auch symmetrische Wege: Zu jedem Weg von x nach y gibt es auch einen Weg von¬y nach ¬x und simultane Wege von x nach y wie auch von x nach ¬y implizieren einen(ausgeschlossenen) Weg von x nach ¬x über ¬y.Weiterhin kann es kein von x aus erreichbares Literal geben, das vorher auf 0 gesetzt wurde.Ein solcher Fall ist ausgeschlossen, da dann x schon gesetzt worden wäre.Offensichtlich können wir unser Vorgehen solange wiederholen bis alle Literale gesetzt sind.Wir haben aber alle Klauseln erfüllt und die Formel φ ist im Widerspruch zur Annahmeerfüllt.


Aus der Behauptung erhalten wir sofort, dass die Nicht-Erfüllbarkeit in NL liegt, da wir janur die Existenz von Wegen zwischen sich widersprechenden Literalen zu raten brauchen.Damit folgt aber aus dem Satz von Immerman und Szlepscenyi, dass Erfüllbarkeit, also2-SAT, in NL liegt.Es bleibt zu zeigen, dass 2-SAT NL-vollständig ist. Wir konstruieren zuerst die Reduktion D-UNREACHABILITY ≤LOG 2-SAT. Sei also G ein Eingabegraph. Wir weisen dem GraphenG eine Formel φG wie folgt zu. Wir fassen die Knoten von G als Variablen auf und fügenfür jede Kante (u, v) die Klausel ¬u∨v ein. Desweiteren verwenden wir die Einer-Klauseln1′ sowie ¬2′.Behauptung: φG ist genau dann erfüllbar, wenn es keinen Weg von 1’ nach 2’ gibt.Beweis:Wenn es keinen Weg von 1’ nach 2’ gibt, dann ist φG erfüllt, wenn wir 1’ und allenvon 1’ erreichbaren Knoten den Wert 1 und den restlichen Knoten den Wert 0 zuweisen.Gibt es hingegen einen Weg von 1’ nach 2’, dann müssen alle Knoten des Weges (und damitauch 2’) auf 1 gesetzt werden: φG ist nicht erfüllbar.

Die Transformation G → φG etabliert also die Reduktion. Jetzt brauchen wir nur nochzu beachten, dass D-UNREACHABILITY NL-vollständig ist (warum?) und das Ergebnisfolgt mit Korollar 3.3.

Wir kennen also mittlerweile vier NL-vollständige Probleme, nämlich D-REACHABILITYund 2SAT sowie die beiden Komplemente. Bipartitness und das Wortproblem für NFAssind auch NL-vollständig:

Aufgabe 33Wir definieren die Sprache L = 〈M〉w |M ist ein NFA und M akzeptiert w.Zeige, dass L NL-vollständig ist.

3.3 PSPACE-VollständigkeitWir möchten die schwierigsten Sprachen in PSPACE bezüglich der polynomiellen Reduktionbestimmen. Zur Erinnerung: Wir sagen, dass ein Entscheidungsproblem L1 genau dann aufein Entscheidungsproblem L2 polynomiell reduzierbar ist (geschrieben L1 ≤P L2), wenn

w ∈ L1 ⇔ T (w) ∈ L2

für alle Eingaben w von L1 gilt. Die Transformation w 7→ T (w) muss in polynomieller Zeitdurch eine deterministische Turingmaschine berechenbar sein.Die Definition der PSPACE-vollständigen Sprachen folgt dem Schema der NL- und NP-Voll-ständigkeit.

Definition 3.2 Sei K eine Sprache.(a) K heißt PSPACE-hart, falls L ≤P K für jede Sprache L ∈ PSPACE gilt.(b) K heißt PSPACE-vollständig, falls K PSPACE-hart ist und fallsK ∈ PSPACE.

3.3. PSPACE-VOLLSTÄNDIGKEIT 61

PSPACE-harte Sprachen sind mindestens so schwierig wie NP-harte Sprachen:

Aufgabe 34Zeige: Wenn die Sprache L PSPACE-hart ist, dann ist L auch NP-hart.

Wie auch im Fall der NP- oder NL-Vollständigkeit führt eine Berechnung der vollständigenProbleme innerhalb der kleineren Klasse (sprich: P) zum Kollaps der größeren Klasse.Weiterhin genügt, wie üblich, zum Nachweis der Vollständigkeit die Reduktion auf einvollständiges Problem.

Korollar 3.3 (PSPACE-vollständige und PSPACE-harte Sprachen)

(a) Die Sprache K sei PSPACE-vollständig. Dann gilt

K ∈ P ⇔ P = PSPACE.

(b) Die Sprache K sei PSPACE-hart. Wenn K ≤P L, dann ist auch L PSPACE-hart.

3.3.1 QBF: Quantifizierte Boolesche FormelnWir konstruieren die Sprache QBF, die sich später als PSPACE-vollständig herausstellenwird. Die Worte in QBF entsprechen Kodierungen 〈φ〉 von quantifizierten Booleschen For-meln φ. Die Formel φ besteht aus einem Quantorenteil gefolgt von einer aussagenlogischenFormel α. Der Quantorenteil besteht aus All- und Existenz-Quantoren, so dass jede in αvorkommende Variable von genau einem Quantor gebunden wird. Wir definieren

QBF = 〈φ〉 | φ ist eine wahre quantifizierte Boolesche Formel .

Beispiel 3.3 Die Formel φ ≡ ∃p∀q((p ∨ ¬q) ∧ (¬p ∨ q)) ist falsch, denn sie drückt dieÄquivalenz von p und q aus. Sicherlich gibt es aber keinen Wahrheitswert für p, der mitden beiden Wahrheitswerten 0 und 1 äquivalent ist. Somit ist φ 6∈ QBF.Die Formel ψ ≡ ∀p∃q((p∨¬q)∧ (¬p∨ q)) ist hingegen wahr, denn zu jedem Wahrheitswertfür p gibt es einen äquivalenten Wahrheitswert für q. Also ist ψ ∈ QBF.

Satz 3.7 QBF ist PSPACE-vollständig.

Beweis: Wir zeigen zuerst, dass QBF in PSPACE liegt. Dazu betrachten wir den folgendenrekursiven Algorithmus.

Algorithmus 3.3 (Erkennen wahrer quantifizierter Formeln auf polynomiellem Platz)

(1) Die quantifizierte Booleschen Formel φ sei die Eingabe.

(2) Wenn φ keine Quantoren besitzt, dann besteht φ nur aus aussagenlogischen Ver-knüpfungen der Konstanten 0 und 1 und kann direkt ausgewertet werden. Gib dieAuswertung aus.


(3) Wenn φ ≡ ∃pψ(p), dann führe rekursive Aufrufe mit den quantifizierten BooleschenFormeln ψ(0) und ψ(1) durch. Wenn eine der Formeln zu 1 auswertet, dann gib 1als Auswertung aus. Ansonsten gib 0 als Auswertung aus.

(4) Wenn φ ≡ ∀pψ(p), dann führe rekursive Aufrufe mit den quantifizierten BooleschenFormeln ψ(0) und ψ(1) durch. Wenn eine der Formeln zu 0 auswertet, dann gib 0als Auswertung aus. Ansonsten gib 1 als Auswertung aus.

Algorithmus 3.3 hat eine höchstens lineare Rekursionstiefe. In jedem Rekursionsschritt istaber nur ein Wahrheitswert abzuspeichern, so dass der Algorithmus nur einen linearenSpeicherplatzbedarf hat und QBF ∈ PSPACE folgt.Wir kommen zum Nachweis der PSPACE-Härte. Die Sprache L ∈ PSPACE werde von de-terministischen Turingmaschine M mit Speicherplatzbedarf O(nk) berechnet. Wir müssenfür jede Eingabe w von L in polynomieller Zeit eine quantifizierte Boolesche Formel φwkonstruieren, so dass

w ∈ L ⇔ φw ist wahr

gilt. Wir erinnern an den NP-Vollständigkeitsbeweis von KNF-SAT. Eine (nicht-quantifizierte)Boolesche Formel αtw kodiert die Konfiguration der Turingmaschine zum Zeitpunkt t. DieKodierung gelingt durch Einbeziehung der aussagenlogischen Variablen

- Kopf t(z) für die Kopfposition. Kopf t(z) soll genau dann wahr ist, wenn der Kopfzum Zeitpunkt t auf Zelle z steht,

- Zellet(z, a) für den Zelleninhalt. Zellet(z, a) soll genau dann wahr ist, wenn die Zellez zum Zeitpunkt t mit dem Buchstaben a beschriftet ist und

- Zustandt(q) für den aktuellen Zustand. Zustandt(q) soll genau dann wahr ist, wennq der Zustand zum Zeitpunkt ist.

Weiterhin wird die beabsichtigte Bedeutung erzwungen, in dem durch die Konjunktion vonzusätzlichen Klauseln sichergestellt wird, dass die Zelleninhalte, die Kopfbewegung und derneue Zustand sich gemäss der Arbeitsweise der Maschine verändern.Wir kehren zurück zum PSPACE-Vollständigkeitsbeweis von QBF und müssen eine kurzeFormel φw für die möglicherweise exponentiell lange Berechnung der TuringmaschineM zuschreiben! Sei T die kleinste Zweierpotenz, die größer als die Anzahl der Konfigurationenvon M ist. c0 ist die Anfangskonfiguration und ca die eindeutig bestimmte akzeptierendeHaltekonfiguration von M . (Wieso kann man verlangen, dass es genau eine akzeptierendeHaltekonfiguration gibt?) Unser Ziel ist die Konstruktion von höchstens polynomiell lan-gen Formeln ψt(c, d), die genau dann wahr sein sollen, wenn M –in der Konfiguration cstartend– die Konfiguration d nach höchstens t Schritten erreicht. Ist dies geschafft, dannsetzen wir φw ≡ ψT (c0, ca) und φw ist genau dann wahr, wennM die Eingabe w akzeptiert.Die Formeln ψ1(c, d) sind einfach zu konstruieren. Wir müssen ausdrücken, dass c = d oderdass d die Nachfolgekonfiguration von c ist. Wir übernehmen die Konfigurations-Kodierungdurch die drei Typen der aussagenlogischen Variablen aus dem NP -Vollständigkeitsbeweis


für KNF-SAT. Im Fall c = d müssen wir nur die Äquivalenz der c- und d-Variablen fordern,während im anderen Fall die d-Variablen als Aktualisierung der c-Variablen zu formulierensind. In jedem der beiden Fälle sind keinerlei Quantoren notwendig.Wir benutzen Existenz-Quantoren in der rekursiven Definition von ψt(c, d), um eine Zwi-schenkonfiguration e zu raten, sowie All-Quantoren, um die Formellänge klein zu halten.Wir setzen

ψ2t(c, d) ≡ ∃e∀f∀g( ((f = c ∧ g = e) ∨ (f = e ∧ g = d))→ ψt(f, g) ).

Beachte, dass ∃e einer Reihe von Existenz-Quantoren entspricht, nämlich den Existenz-Quantoren zu den Variablen der Konfiguration e bezüglich Kopfposition, Zelleninhalt undZustand; die gleiche Aussage gilt analog für ∀f und ∀g. Die Formel ψ2t(c, d) drückt aus,dass eine Berechnung der Länge höchstens 2t aufgespalten werden kann in zwei aufeinan-derfolgende Berechnungen der Länge höchstens t. Der All-Quantor erlaubt eine simultaneÜberprüfung der beiden Berechnungen von c nach e und von e nach d. Dementsprechendwächst die Formellänge additiv um höchstens O(nk), also höchstens um den Speicher-platzbedarf von M , und wir erhalten O(n2k) als obere Schranke für die Länge der FormelψT (c0, ca).

Wir können die Sprache QBF ein wenig vereinfachen ohne die PSPACE-Vollständigkeit zuverlieren. Insbesondere betrachten wir nur quantifizierte Boolesche Formeln φ, deren Quan-toren strikt alternieren: auf jeden All-Quantor folgt also ein Existenz-Quantor auf den wie-derum ein All-Quantor folgen muss. Diese Einschränkung ist oberflächlich, da wir stetsbeliebige Quantoren einfügen können, die in der Formel nicht vorkommende Variablen bin-den. In der zweiten und letzten Einschränkung fordern wir, dass sich die in φ quantifizierteaussagenlogische Formel in konjunktiver Normalform befindet. Wir definieren dann QBF∗als die Menge aller quantifizierten Booleschen Formeln in QBF, die die beiden obigen Ein-schränkungen erfüllen.

Korollar 3.4 QBF∗ ist PSPACE-vollständig.

Beweis: Die Formel φ sei eine (nicht eingeschränkte) quantifizierte Boolesche Formel. Wirüberführen φ in polynomieller Zeit in eine äquivalente, aber eingeschränkte Formel φ∗.Zuerst führen wir Dummy-Quantoren ein, um strikte Quantoren-Alternation zu sichern.Dann werden wir die aussagenlogische Formel α von φ durch Einführung neuer Variablenx in eine äquivalente Formel ∃xα∗(x) überführen, wobei α∗ in konjunktiver Normalformsein wird.Wir nehmen zuerst an, dass sich Negationen nur auf Variablen beziehen; ist dies nicht derFall, dann schieben wir Negationen mit den de Morgan’schen Regeln bis zu den Variablenvor. Sodann gehen wir indukiv vor.Fall 1: α = α1 ∨ α2. Wir erfinden neue Variablen x1 und x2. x1 (bzw x2) wird mit jederKlausel der konjunktiven Normalform von α1 (bzw. α2) „verodert“. Sei α∗ die aus denbeiden modifizierten konjunktiven Normalformen sowie der neuen Klausel (¬x1 ∨ ¬x2)resultierende konjunkive Normalform. Beachte, dass α↔ ∃x1∃x2α

∗.


Fall 2: α = α1 ∧ α2. Wir definieren α∗ als die Konjunktion der konjunktiven Normalformfür α1 mit der konjunktiven Normalform für α2. Etwaige Existenz-Quantoren in α1 oderα2 sind nach vorne zu ziehen.Wir können die Formel α∗ in polynomieller Zeit konstruieren und die Behauptung folgt. Das PSPACE-vollständige Problem QBF ∗ hat also die Form ∃x1∀x2∃x3 . . . ∀xnP (x1, . . . , xn)für ein KNF-Prädikat P . Eine solche Struktur läßt sich als ein Zweipersonen-Spiel auffassen:

Der ziehende Spieler muss für eine gegebene Spielsituation einen Zug bestim-men, der gegen alle Züge des Gegenspielers in eine gewinnbare Spielsituationführt. Das Prädikat P definiert das Spiel.

In vielen interessanten Spielen ist die Spielauswertung P als eine aussagenlogische Formeldarstellbar, und die Frage nach einer Gewinnstrategie für den ziehenden Spieler liegt dannin PSPACE. Tatsächlich kann man zeigen, dass viele Spiele (zum Beispiel n × n Versionenvon Go oder Schach) sogar PSPACE vollständig sind, und dass daher Gewinnstrategien nichtin P berechenbar sind, es sei denn, es gilt P = PSPACE.

3.3.2 Das Geographie-SpielWir definieren das GEOGRAPHIE-Spiel, eine Verallgemeinerung des Spiels, bei dem zweiSpieler abwechselnd noch nicht genannte Städtenamen wählen, wobei jede Stadt mit demEndbuchstaben der zuvor genannten Stadt beginnen muß.

- Die Eingabe: Ein gerichteter Graph G = (V,E) und ein ausgezeichneter Knotens ∈ V .

- Die Spielregeln:

– Zwei Spieler A und B wählen abwechselnd jeweils eine noch nicht benutzteKante aus E.

– Spieler A fängt an und wählt eine Kante mit Startknoten s.– Jede anschließend gewählte Kante muß im Endknoten der zuvor gewählten Kan-

te beginnen.– Der Spieler, der als erster keine solche unbenutzte Kante mehr findet, verliert

das Spiel.

- Die Aufgabe: Es ist zu entscheiden, ob ein optimal spielender Spieler A gegen jedenSpieler B auf G gewinnen kann.

Aufgabe 35Zeige, dass GEOGRAPHIE durch eine deterministische Turingmaschine mit höchstenspolynomiellem Speicherplatz gelöst werden kann. Warum gehört GEOGRAPHIE wahr-scheinlich nicht zur Klasse NP?


3.3.3 NFA’s und reguläre AusdrückeIm Entscheidungsproblem der Nicht-Universalität für reguläre Ausdrücke ist ein regulä-rer Ausdruck R genau dann zu akzeptieren, wenn L(R) 6= Σ∗ für die von R beschriebeneSprache L(R) gilt. Ein solch einfaches Problem kann doch nicht schwierig sein, oder?Tatsächlich ist die Nicht-Universalität für reguläre Ausdrücke hammer-hart, und als Kon-sequenz kann die Größe von minimalen regulären Ausdrücken oder minimalen NFA’s nurvöllig unbefriedigend approximiert werden.

Satz 3.8 (a) Die Nicht-Universalität für reguläre Ausdrücke ist ebenso PSPACE-hart wiedie Nicht-Universalität für NFA.

(b) Das Äquivalenzproblem für reguläre Ausdrücke, also die Frage, ob zwei gegebene re-guläre Ausdrücke R1 und R2 dieselbe Sprache beschreiben –also ob L(R1) = L(R2)gilt–, ist PSPACE-hart. Das Äquivalenzproblem für NFA ist ebenfalls PSPACE-hart.

(c) Es gelte P 6= PSPACE. Dann ist es nicht möglich, für einen gegebenen regulären Aus-druck oder NFA A der Größe m, die Größe eines minimalen regulären Ausdrucksoder eines minimalen NFA’s innerhalb des Faktors o(m) effizient zu approximieren.

Beweis (a): Das Entscheidungsproblem QBF ist PSPACE-vollständig und kann von einerdeterministischen Turingmaschine

M = (Q,Σ,Γ, δ, q0, qf)

gelöst werden, die in-place arbeitet, also nie den Eingabebereich verlässt.

Aufgabe 36Wenn M eine nichtdeterministische Turingmaschine ist, die mit linearem Speicherplatzarbeitet, dann gibt es eine zu M äquivalente in-place Turingmaschine M ′.

Zusätzlich können wir verlangen, dass M für jede Eingabe der Länge n mindestens 2nSchritte benötigt.Für eine Eingabe w für M konstruieren wir einen regulären Ausdruck Rw, der alle Worteakzeptiert, die nicht mit der Konfigurationenfolge einer akzeptierenden Berechnung vonM auf Eingabe w übereinstimmen. Haben wir die Konstruktion von Rw in polynomiellerZeit geschafft, dann haben wir L(M) –und damit QBF– auf die Nicht-Universalität fürreguläre Ausdrücke reduziert und, wie gefordert, die PSPACE-Härte nachgewiesen. Warum?

w ∈ L(M) ⇔ nur die Konfigurationenfolge der akzeptierenden Berechnungvon M auf w gehört nicht zu L(Rw)

⇔ L(Rw) 6= Σ∗.

Um Konfigurationen zu kodieren, benutzen wir das Alphabet

Σ′ = Q× Γ ∪ Γ ∪ #.


Das neue Symbol # trennt Konfigurationen, ein Symbol [q, a] ∈ Q × Σ repräsentiert dieKopfposition von M und gibt an, dass gegenwärtig der Buchstabe a gelesen wird.Wir stellen sicher, dass nur die Konfigurationenfolge einer akzeptierenden Berechnung vonM verworfen wird, wenn

(1) die Anfangskonfiguration nicht von der Form

#[q0, w1]w2 · · ·wn#

ist oder

(2) keine Konfiguration der Konfigurationenfolge den Buchstaben [qf , γ] für irgendeinγ ∈ Γ enthält oder

(3) die Folge nicht mit dem Trennsymbol # endet oder

(4) wenn sich der Bandinhalt oder der Zustand zwischen aufeinanderfolgenden Konfigu-rationen auf eine nicht-legale Weise ändert.

Aufgabe 37Konstruiere Rw als Vereinigung von vier regulären Ausdrücken der Länge O(|w|)–also einenAusdruck für jeden der vier Fälle.Hinweis: Um einen „kurzen“ regulären Ausdruck für den vierten Fall zu erhalten, beachte,dass in einer legalen Folge y von Konfigurationen für jedes Teilwort yi−1yiyi+1 das „neue“Symbol yi+n+1 eine Funktion von yi−1yiyi+1 ist. Insbesondere, wenn x eine illegale Konfi-gurationenfolge ist, dann gilt xi+n+1 6= xi, obwohl der Kopf nicht auf Position i gestandenist, oder xi+n+1 wird falsch aktualisiert.

Damit ist die Behauptung für reguläre Ausdrücke gezeigt. Das entsprechende Ergebnis fürNFA folgt mit einem völlig analogem Argument.(b) Die Nicht-Universalität für einen regulären Ausdruck R ist äquivalent zur Frage, obL(R) 6= L(Σ∗) gilt, d.h. ob die beiden regulären Ausdrücke R und Σ∗ äquivalent sind. DiePSPACE-Härte des Äquivalenzproblems für reguläre Ausdrücke folgt also aus Teil (a) undGleiches gilt für die PSPACE-Härte des Äquivalenzproblems für NFA.(c) Wir nehmen P 6= PSPACE an. Nach Korollar 3.3 können dann PSPACE-vollständigeEntscheidungsprobleme nicht effizient gelöst werden.Insbesondere kann also nicht effizient bestimmt werden, ob w ∈ L(M) für die Turingma-schine aus Teil (a) gilt. Nun ist w 6∈ L(M) genau dann, wenn L(Rw) = Σ∗, bzw. genaudann, wenn der minimale, mit Rw äquivalente reguläre Ausdruck eine beschränkte Längehat. Ist hingegen w ∈ L(M), dann folgt L(Rw) 6= Σ∗ und genauer L(Rw) = Σ∗ \ y fürdie Konfigurationenfolge y der akzeptierenden Berechnung für Eingabe w. Wie lang mussein minimaler, mit Rw äquivalenter Ausdruck in diesem Fall mindestens sein?Wir haben gefordert, dass die Turingmaschine M mindestens 2n Schritte für Eingabender Länge n benötigt und deshalb hat y mindestens die Länge 2|w|. Ein deterministischer

3.4. KOMPLEXITÄTSKLASSEN UND DIE CHOMSKY HIERARCHIE 67

endlicher Automat benötigt mindestens |y| ≥ 2|w| Zustände, um Σ∗\y zu akzeptieren, einregulärer Ausdruck oder ein NFA muss deshalb mindestens |w| Zustände besitzen. AberRw hat die Länge O(|w|), und wir können deshalb nicht effizient unterscheiden, ob einminimaler äquivalenter regulärer Ausdruck die Länge O(1) oder Ω(|w|) besitzt.Die Länge eines minimalen äquivalenten regulären Ausdrucks kann also so gut wie nichtnicht approximiert werden. Gleiches gilt aber auch für die Größe von äquivalenten mini-malen NFA, denn auch ihre Größe variiert ziwschen O(1) –falls w 6∈ L(M)– und Ω(|w|)–falls w ∈ L(M).

Aufgabe 38Gib einen Algorithmus an, der mit polynomiell beschränktem Platz arbeitet, und der beiEingabe eines nichtdeterministischen endlichen Automaten einen nichtdeterministischenendlichen Automaten mit minimaler Zustandsanzahl für dieselbe Sprache konstruiert.Hinweis: Gib einen nichtdeterministischen Algorithmus an. Zum Vergleich der Sprachenzweier nichtdeterministischer endlicher Automaten mit höchstens n Zuständen reicht esaus, das Verhalten auf allen Worten der Länge 2n zu vergleichen.

Aufgabe 39Es ist zu entscheiden, ob zwei nichtdeterministische endliche Automaten N1 und N2 äqui-valent sind. Zeige, dass dieses Entscheidungsproblem PSPACE-vollständig und nicht nurPSPACE-hart ist.

3.4 Komplexitätsklassen und die Chomsky HierarchieUnser Ziel ist ein Vergleich der bereits betrachteten Komplexitätsklassen und Sprachen-klassenWir haben bisher die Komplexitätsklassen DL, NL, P, NP und die Klasse PSPACE, der aufpolynomiellen Speicherplatz entscheidbaren Sprachen kennengelernt und die Klassen derregulären und kontextfreien Sprachen untersucht. Insbesondere haben wir eingeschränkteGrammatiken als Grundlagen für die Beschreibung von Programmiersprachen behandelt:Die beiden vorrangigen Ziele einer Programmiersprache sind entgegengesetzt, nämlich

1. eine effiziente Lösung des Wortproblems. Es sollte in vertretbarer Zeit entscheidbarsein, ob ein vorgelegtes Wort ableitbar ist, bzw. ob ein Programm syntaktisch korrektist. Dauert dieser Entscheidungsvorgang zu lange, so kommt die Sprachenklasse alsmögliche Grundlage für Programmiersprachen und Compiler nicht in Frage.

2. Die Sprachen sollten möglichst ausdruckstark sein, um höhere Programmiersprachenkomfortabel darzustellen zu können.

Wir führen die Klasse der kontextsensitiven Grammatiken ein und erhalten damit dieChomsky-Hierarchie, eine Grobeinteilung der Sprachenklassen.

Definition 3.3 (Chomsky-Hierarchie)


1. Grammatiken ohne jede Einschränkung heißen Typ-0 Grammatiken. Die entspre-chende Sprachenfamilie ist

L0 =L(G) |G ist vom Typ 0

2. Eine Grammatik G mit Produktionen der Form

u→ v mit |u| ≤ |v|

heißt Typ-1 oder kontextsensitiv. Die zugehörige Sprachenfamilie ist

L1 =L(G) |G ist vom Typ 1

∪L(G) ∪ ε |G ist vom Typ 1

3. Eine Grammatik G mit Produktionen der Form

u→ v mit u ∈ V und v ∈ (V ∪ Σ)∗

heißt Typ-2 oder kontextfrei. Die zugehörige Sprachenfamilie ist

L2 =L(G) |G hat Typ 2

4. Eine reguläre Grammatik heißt auch Typ-3 Grammatik. Die zugehörige Sprachenfa-

milie istL3 =

L(G) |G hat Typ 3

Beispiel 3.4 Die kontextfreie Grammatik G mit Startsymbol S und Produktionen

S → 0S0 | 1S1 | ε

erzeugt alle Palindrome über dem Alphabet 0, 1. Diese Sprache ist offensichtlich nichtregulär. Da anderseits jede reguläre Grammatik kontextfrei ist, zeigt dieses Beispiel, dassL2 eine echte Obermenge von L3 ist.

Beispiel 3.5 Wir entwerfen eine kontextsensitive Grammatik, die die Sprache

K =aibici | i ≥ 0

erkennt. Die Grammatik G besitzt drei Variablen, nämlich das Startsymbol S sowie dieVariablen R und L. Die Produktionen haben die Form

S → ε | abcS → aRbc

R wird ein neues a und b einführen, dann nach rechts wandern bis das erste c angetroffenwird. Ein c wird eingefügt, und R wird durch L ersetzt:

aRb→ aabbR, bRb→ bbR und bRc→ bcc |Lbcc


Die Variable L läuft nach links bis das erste a gefunden wird. Dann wird L durch R ersetzt:

bL→ Lb und aLb→ aRb.

Die Sprache Kist nicht kontextfrei. Da kontextfreie Sprachen L mit ε /∈ L durch Gramma-tiken in Chomsky Normalform erzeugt werden können, ist jede kontextfreie Sprache auchkontextsensitiv, und L1 ist eine echte Obermenge von L2.

Satz 3.9 Die Chomsky Hierarchie und die Platzkomplexität

(a) L0 ist die Klasse aller rekursiv aufzählbaren Sprachen.

(b) Es gilt L1 = Nspace(n). Also ist L1 die Klasse aller Sprachen, die von nichtdeter-ministischen Turingmaschinen auf linearem Platz erkannt werden. Insbesondere istjede Sprache in L1 entscheidbar.

(c) NL ⊆ LOGCFL ⊆ Dspace(log22 n).

(Insbesondere sind alle kontextfreie Sprachen in Dspace(log22 n) enthalten, es gilt also

L2 ⊆ Dspace(log22 n).)

(d) Die Klasse der regulären Sprachen stimmt mit der Klasse Dspace(0) überein, es giltalso L3 = Dspace(0).

(e) L3 ⊂ L2 ⊂ L1 ⊂ L0 und alle Inklusionen sind echt.

Beweis (a): Wir behaupten, dass L(G) für jede Grammatik G rekursiv aufzählbar ist.Warum?Wenn wir entscheiden wollen, ob ein Wort w zur Sprache L(G) gehört, produzierenwir alle mögliche Ableitungen: Wenn w ∈ L(G) werden wir eine Ableitung finden. Wennw /∈ L(G), wird unser Programm nicht halten, aber dies ist auch nicht erforderlich.Andererseits sei die Sprache L rekursiv aufzählbar. Es gibt also eine Turingmaschine Mmit L = L(M). Wir müssen eine Grammatik G mit L(M) = L(G) konstruieren. Fürdie Konstruktion von G beachten wir, dass Berechnungen von M natürlich stets mit derEingabe w beginnen, während eine Ableitung von w mit w endet. Also sollten wir dieGrammatik so konstruieren, dass die Berechnungen von M „rückwärts“ simuliert werden.Zuerst normieren wir M . Wir nehmen an, dass M

- nur einen akzeptierenden Zustand qa besitzt und

- dass akzeptierende Berechnungen mit dem leeren Band enden.

Wenn wir eine Berechnung von M anhalten, dann können wir die gegenwärtige Situationdurch den

- Bandinhalt α1 · · ·αN ∈ ΓN ,

- den gegenwärtigen Zustand q ∈ Q und


- die Position des Kopfes

exakt beschreiben. Wenn der Kopf die Position i des Bands liest, dann beschreiben wir dieKonfiguration durch das Wort

α1 · · ·αi−1 q αi · · ·αN .

Die zu entwerfende Grammatik G wird Konfigurationen von M rückwärts konstruieren. Gbesitzt

(Γ \ Σ) ∪Q ∪ εals Variablenmenge und qa als Startsymbol. Zuerst wird der von M benutzte Bandbereichdurch die Produktionen qa → Bqa | qaB erzeugt. Dann beginnt die Rückwärtsrechnung.Fall 1: δ(q, a) = (q′, b, links). Wir nehmen die Produktion

q′cb→ cqa für alle c ∈ Γ

auf: Wenn die Konfiguration ∗ · · · ∗ q′cb ∗ · · · ∗ schon erzeugt wurde, können wir damit diemögliche Vorgänger-Konfiguration ∗ · · · ∗ cqa ∗ · · · ∗ erzeugen.Fall 2: δ(q, a) = (q′, b, bleib). Wir fügen die Produktion

q′b→ qa.

zu G hinzu.Fall 3: δ(q, a) = (q′, b, rechts). Diesmal nehmen wir die Produktion

bq′ → qa.

auf.Am Ende der Ableitung werden wir eine Konfiguration

Bkq0wBs

erzeugt haben. Die zusätzlichen Produktionen

q0 → ε1

B ε1 → ε1

ε1 → ε2

ε2a → aε2 für a ∈ Σε2 → ε3

ε3 B → ε3

ε3 → das leere Wort

garantieren jetzt, dass das Wort w abgeleitet wird und dass die Ableitung die Formqa

∗→ Bkq0wBs ∗→ w hat. Insbesondere ist w genau dann ableitbar, wenn M die Konfi-gurationenfolge

Bkq0wBs ∗→ qa


durchläuft.(b) Zuerst beachten wir, dass eine kontextsensitive Grammatik längenerhaltend ist: Dierechte Seite v einer kontextsensitiven Produktion u→ v ist mindestens so lang wie die linkeSeite u. Wenn wir also aus dem Startsymbol ein Wort w ∈ Σ∗ erzeugen, dann sind alle zwi-schenzeitlich erzeugten Strings aus (Σ∪Γ)∗ in ihrer Länge durch |w| nach oben beschränkt.Das aber bedeutet, dass wir eine mögliche Ableitungsfolge auf Platz O(|w|) raten und veri-fizieren können: Jede kontextsensitive Sprache kann also durch eine nichtdeterministischeTuringmaschine auf linearem Platz erkannt werden.Betrachten wir jetzt eine nichtdeterministische Turingmaschine M , die auf linearem Platzrechnet. Wir können zuerst annehmen, dass M sogar in-place arbeitet.In Teil (a) haben wir eine beliebige TuringmaschineM durch Typ-0 Grammatiken simuliertund insbesondere die Äquivalenz

qa∗→ Bkq0wBs ⇔ w ∈ L(M)

erhalten. Sämtliche Produktionen der Ableitung qa ∗→ Bkq0wBs sind längenerhaltend. Wenndie Maschine M aber in-place arbeitet, erhalten wir deshalb die Äquivalenz

qa∗→ q0w ⇔ w ∈ L(M).

Mit anderen Worten, wenn L ∈ Nspace(n), dann besitzt q0L eine kontextsensitive Gram-matik. Wir sind fertig, denn:

Aufgabe 40Wenn q0L kontextsensitiv ist, dann ist auch L kontextsensitiv.

(c) Für die BeziehungNL ⊆ LOGCFL

genügt der Nachweis, dass D-REACHABILITY mit einer LOGSPACE-Reduktion auf ei-ne kontextfreie Sprache L reduziert werden kann. Wir beschreiben L, indem wir einenKellerautomaten K angeben, der L akzeptiert.K nimmt an, dass die Eingabe w ein Element von (a∗b∗)∗ ist und interpretiert ein Teilwortarbs als die Kante von Knoten r nach Knoten s; ein mehrmaliges Auftreten von Kanten isterlaubt.K rät einen Weg von Knoten 1 nach Knoten 2,

- indem es eine erste Kante (1, u) rät und u auf den Keller legt.

- Der Knoten v liege gegenwärtig auf dem Keller. K rät eine Kante (v′, w), die in derEingabe nach den bisher geratenen Kanten erscheint.

– Mit Hilfe des Kellers verifiziert K, dass v = v′ gilt. Gilt v 6= v′, verwirft K.– K legt w auf den Keller und akzeptiert, wenn w = 2.


– Für w 6= 2 wiederholt K sein Vorgehen.

Wir beschreiben eine LOGSPACE-Reduktion von D-REACHABILITY auf L. Für einengerichteten Graphen G zählen wir die Anzahl n der Kanten. Danach geben wir die Kanten,in einer jeweils beliebigen Reihenfolge, genau n− 1 Mal aus. Der Kellerautomat K, wennauf die Ausgabe angesetzt, findet genau dann einen Weg von Knoten 1 nach Knoten 2,wenn ein solcher Weg in G existiert.Die verbleibende Beziehung „LOGCFL⊆ Dspace(log2

2 n)“ folgt aus der nächsten Übungs-aufgabe.

Aufgabe 41Zeige, dass das Wortproblem für kontextfreie Sprachen in Dspace(log2

2 n) liegt.

(d) Die Behauptung folgt aus Satz 3.1.(e) Beachte, dass L1 eine echte Teilmenge von L0 ist, da alle Sprachen in L1 entscheidbarsind. Die restlichen (echten) Inklusionen haben wir in den obigen Beispielen nachgewiesen.

Wie schwierig ist das Wortproblemn für die Klasse der kontextsensitiven Sprachen? Vielzu schwierig, denn das NP-vollständige Erfüllbarkeitsproblem ist kontextsensitiv. Aber dieSituation ist sogar noch viel schlimmer, denn das Wortproblem ist, wie wir gleich sehenwerden, sogar PSPACE-vollständig.

Satz 3.10 (Das Wortproblem für kontextsensitive Sprachen)

1. Die Sprache KNF-SAT ist kontextsensitiv.

2. Das Wortproblem für kontextsensitive Sprachen ist PSPACE-vollständig.

Beweis (a): Wir können natürlich eine erfüllende Belegung auf linearem Platz raten undverifizieren. Die Behauptung folgt also aus Satz 3.9 (b).(b) ist eine Konsequenz der folgenden Übungsaufgabe.

Aufgabe 42Zeige, dass das Wortproblem für kontextsensitive Sprachen PSPACE-vollständig ist.

Wie verhalten sich die Klassen P, NP und PSPACE zu den Klassen der Chomsky-Hierarchie?

Satz 3.11(a) L3 ⊂ L2 ⊂ P und alle Inklusionen sind echt.(b) L1 ⊂ PSPACE ⊂ L0 und alle Inklusionen sind echt.

Beweis (a): Da das Wortproblem in Zeit O(|w|3) lösbar ist, gehören alle kontextfreienSprachen zur Klasse P. Die Sprache akbkck | k ∈ N ist nicht kontextfrei, gehört abernatürlich zur Klasse P. Also ist L2 eine echte Teilmenge von P.

3.5. PROBABILISTISCHE TURINGMASCHINEN UND QUANTENRECHNER 73

(b) In Satz 3.9 haben wir gezeigt, dass L1 = Nspace(n) gilt. Damit folgt L1 ⊆ Dspace(n2)aus dem Satz von Savitch. Schließlich können wir Dspace(n2) ⊂ PSPACE aus der Speicher-platz-Hierarchie von Satz 1.5 folgern.Wiederum aus Satz 3.9 wissen wir, dass L0 mit der Klasse der rekursiv aufzählbarenSprachen übereinstimmt. Da jede Sprache in PSPACE entscheidbar ist, muss die InklusionPSPACE ⊂ L0 echt sein.

3.5 Probabilistische Turingmaschinen und Quanten-rechner

Um „wieviel mächtiger“ sind probabilistische Turingmaschinen oder Quanten-Turingmaschinenim Vergleich zu „stink-normalen“ deterministischen Turingmaschinen?Wir führen zuerst probabilistische Turingmaschinen ein. Eine probabilistische Turingma-schine M wird durch den Vektor

M = (Q,Σ, δ, q0,Γ, F )

beschrieben. Die Überführungsfunktion δ hat, im Gegensatz zu deterministischen Turing-maschinen die Form

δ : Γ×Q× Γ×Q× links, bleib, rechts −→ [0, 1] ∩Q

und weist jedem möglichen Übergang

(γ, q) −→ (γ′, q′, Richtung)

die Wahrscheinlichkeitδ(γ, q, γ′, q′, Richtung)

zu. Wir verlangen, dass für jedes Paar (γ, q) ∈ Γ × Q eine Wahrscheinlichkeitsverteilungauf den Übergängen vorliegt. Das heißt, wir fordern für jedes Paar (γ, q) die Bedingung∑

(γ′,q′,Richtung)∈Γ×Q×links,bleib,rechtsδ(γ, q, γ′, q′, Richtung) = 1.

Wie arbeitet eine probabilistische Turingmaschine M? Für Eingabe x wird M potenziellviele Berechnungen ausführen. Als Berechnung bezeichnen wir dabei die Folge von Konfi-gurationen

B : C0 → C1 → C2 → . . .→ Cm,

die die Maschine durchläuft. Die Konfiguration C0 ist die Konfiguration, bei der der Bandin-halt die Eingabe ist, der aktuelle Zustand der Anfangszustand q0 und der Lese-/Schreibkopfin der Ausgangsposition ist. Als Wahrscheinlichkeit einer Berechnung bezeichnen wir dasProdukt aller Übergangswahrscheinlichkeiten. Also

prob(B) =m−1∏i=0

pi


wenn pi die Wahrscheinlichkeit des Übergangs von Konfiguration Ci zu Konfiguration Ci+1bezeichnet. Wie sollen wir die von einer probabilistischen Turingmaschine M akzeptierteSprache definieren? Es liegt nahe, für jede Eingabe x die Wahrscheinlichkeit akzeptierenderBerechnungen, also

px =∑

B ist akzeptierende Berechnung von xprob(B)

zu messen.

Definition 3.4 Sei M eine probabilistische Turingmaschine, dann ist

LM =x ∈ Σ∗|px >

12

die von M akzeptierte Sprache. Wir sagen, dass M beschränkten Fehler besitzt, falls esε > 0 gibt, so dass stets px ≤ 1

2 − ε gilt, falls x nicht zur Sprache L gehört und px ≥ 12 + ε

gilt, falls x zur Sprache L gehört.

Probabilistische Berechnungen mit beschränktem Fehler sind ein sinnvolles und in der Pra-xis nützliches Berechnungsmodell: Wenn wir eine Berechnung k-mal für eine vorgegebeneEingabe x laufen lassen und das Mehrheitsergebnis übernehmen, dann wird die Wahr-scheinlichkeit eines Fehlers höchstens

2−Ω(k)

sein. (Warum ?)Die Berechnungskraft probabilistischer Turingmaschinen mit unbeschränktem Fehler hin-gegen ist immens. So kann man zum Beispiel zeigen, dass nichtdeterministische Turingma-schinen ohne Zeitverlust simuliert werden können.

Satz 3.12 Sei M eine probabilistische Turingmaschine (mit nicht notwendigerweise be-schränktem Fehler). Wenn die worst-case Laufzeit einer jeden Berechnung für Eingabender Länge n durch t(n) beschränkt ist, dann gilt

L(M) ∈ Dspace(t).

Beweisskizze : Die höchstens 2O(t(n)) Berechnungen für eine vorgegebene Eingabe x wer-den nacheinander simuliert. Ein Zähler summiert die Wahrscheinlichkeiten akzeptierenderBerechnungen (auf O(t(n)) Zellen). Nachdem alle Berechnungen simuliert sind, wird ge-prüft, ob der Zähler einen Wert größer 1

2 hat, und in diesem Fall wird akzeptiert.

Wir kommen als nächstes zu einer allerdings nur recht oberflächlichen Beschreibung vonQuantenrechnern. Zu Anfang erinnern wir an das Rechnen mit komplexen Zahlen. C =x + iy | x, y ∈ R bezeichnet die Menge der komplexen Zahlen und es ist i =

√−1. Für

die komplexe Zahl z = x + iy ist z = x − iy die Konjugierte von z. Die Länge von z istdurch

|z| =√x2 + y2

3.5. PROBABILISTISCHE TURINGMASCHINEN UND QUANTENRECHNER 75

definiert und für komplexe Zahlen z1, z2 ∈ C mit zk = xk + iyk ist

z1 + z2 = x1 + x2 + i(y1 + y2)z1 · z2 = x1 · x2 − y1 · y2 + i(x1 · y2 + x2 · y1).

Die Grobstruktur eines Quantenrechners ähnelt der einer probabilistischer Turingmaschine.Diesmal hat aber die Überführungsfunktion δ die Form

δ : Γ×Q× Γ×Q× links, bleib, rechts −→ Q + iQ

wobei nur komplexe Zahlen der Länge höchstens 1 zugewiesen werden. Wie im Fall probabi-listischer Turingmaschinen gibt es zu jedem Paar (γ, q) ∈ Γ×Q potentiell viele Übergänge,wobei diesmal ∑

γ′,q′,Richtung

|δ(γ, q, γ′, q′, Richtung|2 = 1

gelten muß. Wir sagen, dassδ(γ, q, γ′, q′, Richtung)

die (Wahrscheinlichkeits-)Amplitude ist und, dass

|δ(γ, q, γ′, q′, Richtung)|2

die zugewiesene Wahrscheinlichkeit ist. Bisher haben wir nur eine merkwürdige Darstel-lung der Wahrscheinlichkeit eines Übergangs kennengelernt, der wesentliche Unterschiedzu den probabilistischen Turingmaschinen folgt aber sofort: Wir weisen jeder BerechnungB das Produkt pB der ihren Übergängen entsprechenden Wahrscheinlichkeitsamplitudenzu. Charakteristischerweise werden wir im Allgemeinen aber viele Berechnungen haben,die in derselben Konfiguration C enden. Wir weisen der Konfiguration C die Wahrschein-lichkeitsamplitude

τC =∑

B führt auf CpB

zu und definieren|τC |2

als die Wahrscheinlichkeit der Konfiguration C. Die von einem Quantenrechner Q akzep-tierte Sprache definieren wir dann als

L(Q) =

x| ∑C ist akzeptierende Konfiguration von Q auf Eingabe x

|τC |2 >12 ,

analog zu probabilistischen Turingmaschinen.Unsere Beschreibung ist zu diesem Zeitpunkt unvollständig: Das beschriebene Rechnermo-dell ist weitaus mächtiger als das Modell der Quantenrechner. Deshalb noch einmal einAusflug in die komplexe Zahlen.


Für eine Matrix A = (zi,j)1≤i,j≤n mit komplexwertigen Einträgen ist

A = (zj,i)1≤i,j≤n

die konjugiert Transponierte von A. Wir nennen A unitär, falls

A · A = Einheitsmatrix.

Wir halten jetzt in der Konfigurationsmatrix AQ die Wahrscheinlichkeitsamplituden eines1-Schritt Übergangs zwischen je zwei Konfigurationen C und C ′ fest. Also

AQ[C,C ′] = Wahrscheinlichkeitsamplitude des Übergangs von C nach C ′.

Eine Quantenberechnung liegt vor, wenn die Matrix AQ unitär ist.

Satz 3.13 Wenn ein Quantenrechner Q die Sprache L(Q) in Zeit t(n) akzeptiert, dannist

L(Q) ∈ Dspace(t2).

Hierzu ist die Forderung eines beschränkten Fehlers ebenso nicht notwendig wie die Forde-rung, dass die Konfigurationsmatrix AQ unitär ist.

Beweisskizze : Die simulierende deterministische Turingmaschine wird die Einträge desMatrix/Vektor-Produkts

At(n)Q · v

nacheinander berechnen und die Wahrscheinlichkeiten akzeptierender Konfigurationen auf-summieren. Es wird akzeptiert, falls die Summe größer als 1/2 ist. Warum funktioniertdieser Ansatz, wenn wir den Vektor v durch

vi =

0 i 6= Startkonfiguration1 sonst

definieren? Der Vektor AQ ·v gibt die Wahrscheinlichkeitsamplituden der 1-Schritt Nachfol-ger der Startkonfiguration wieder und allgemeiner listet der Vektor AkQ · v die Wahrschein-lichkeitsamplituden der k-Schritt Nachfolger auf. Im letzten Schritt (also k = t(n)) müssenwir dann nur noch von den Wahrscheinlichkeitsamplituden zu den Wahrscheinlichkeitenübergehen.Wie berechnet man At(n)

Q · v in Platz O(t2(n))? Die Matrix AQ besitzt 2O(t(n)) Zeilen undSpalten! Hier ein Tip: Der Vektor AkQ · v kann in Platz O(k · t(n)) berechnet werden.

Selbst bei unbeschränktem Fehler liegen also Sprachen, die von probabilistischen Turing-maschinen oder von Quanten-Turingmaschinen in polynomieller Zeit akzeptiert werden, inPSPACE. Diese Aussage gilt selbst bei unbeschränktem Fehler.


3.6 ZusammenfassungWir haben zuerst deterministische Speicherplatzklassen untersucht. Wir haben gesehen,dass die auf Speicherplatz o(log2 log2 n) berechenbaren Sprachen mit den regulären Spra-chen übereinstimmen und deshalb „bringt ein zu kleiner Speicherplatz nichts Neues“.Die erste nicht-triviale Klasse ist die Klasse DL aller auf logarithmischem Platz berechen-baren Sprachen. Wir haben die Grenzen der Berechnungskraft von DL am Beispiel vonD-REACHABILITY betrachtet. Wir haben das Konzept der Log-Space Reduktionen ent-wickelt, um zu zeigen, dass D-REACHABILITY NL-vollständig ist, also ein schwierigstesProblem in NL ist, der Klasse aller in logarithmischem Platz nichtdeterministisch lösba-ren Entscheidungsprobleme. (Insbesondere folgt, dass NL in P enthalten ist.) Weitere NL-vollständige Probleme sind 2-SAT, das Wortproblem für NFA und der Test auf Bipartitness.Der Satz von Savitch weist nach, dass Nichtdeterminismus nur zu einem quadratischenSpeicherplatzgewinn führt, da Nspace(s) ⊆ Dspace(s2) für platz-konstruierbare Funktio-nen s gilt. Auch das Komplementverhalten ist „nicht typisch für Nichtdeterminismus“,denn es ist überraschenderweise Nspace(s) = coNspace(s), falls s platz-konstruierbar ist.Schließlich haben wir die wichtige Komplexitätsklasse PSPACE definiert. PSPACE lässt sichals die Komplexitätsklasse nicht-trivialer Zwei-Personen Spiele auffassen, da das Problemder quantifizierten Booleschen Formeln PSPACE-vollständig ist. Entscheidungsprobleme fürreguläre Ausdrücke oder NFA, wie die Universalität, das Äquivalenzproblem oder die Mi-nimierung, haben sich als unanständig schwierig, nämlich als PSPACE-hart herausgestellt.Die Klasse PSPACE ist mächtig und enthält alle Entscheidungsprobleme, die durch rando-misierte Algorithmen oder Quanten-Algorithmen in polynomieller Zeit lösbar sind.Wir haben dann die Chomsky-Hierarchie betrachtet. Die rekursiv aufzählbaren Sprachensind genau die Sprachen, die von unbeschränkten Grammatiken erzeugt werden können.Selbst die kontextsensitiven Sprachen sind noch zu komplex, da ihr Wortproblem PSPACE-vollständig sein kann. (Beachte, dass die Klasse PSPACE die Klasse NP enthält und dement-sprechend ist eine Lösung eines PSPACE-vollständigen Wortproblems in aller Wahrschein-lichkeit noch sehr viel komplexer als die Lösung eines NP-vollständigen Problems.) Dem-gegenüber stehen die kontextfreien Sprachen, deren Wortproblem bei Beschränkung aufdeterministisch kontextfreie Sprachen sogar in Linearzeit gelöst werden kann.


Kapitel 4

Parallelität

Das Textbuch „Limits to Parallel Computation: P-Completeness Theory“, von RaymondGreenlaw, James Hoover und Walter Ruzzo, Oxford University Press (1995) ist eine sehrgute Referenz für die Inhalte dieses Kapitels1.Wie verhalten sich die Komplexitätsklassen ACk, NCk und P zueinander?

Satz 4.1 Für alle k ∈ N gilt

(a) ACk ⊆ NCk+1 ⊆ ACk+1.

(b) AC = NC ⊆ P.

Beweis (a): Die Inklusion NCk+1 ⊆ ACk+1 ist offensichtlich. Wir zeigen ACk ⊆ NCk+1. Sei(Sn)n∈N eine uniforme Schaltkreisefamilie, die eine Sprache aus ACk akzeptiert. Ein Und-bzw. Oder-Gatter mit p Eingängen kann durch einen binären Baum der Tiefe dlog2 peund Größe höchstens 2p + 1 simuliert werden. Da der Fanin von Sn durch n + Größe(Sn)beschränkt ist und da Größe(Sn) polynomiell in der Eingabelänge n ist, führt die Ersetzungder Knoten von Sn durch Binärbäume auf eine um höchstens den Faktor O(log2 n) größereTiefe. Beachte, daß die Größe durch die Ersetzungen höchstens quadriert wird.(b) Die Gleichheit AC = NC folgt aus Teil (a). Betrachten wir die Inklusion NC ⊆ P. SeiL ∈ NC. Dann gibt es eine uniforme Schaltkreisfamilie (Sn)n∈N, die L berechnet. Es genügtzu zeigen, daß Sn in polynomieller Zeit konstruierbar und auswertbar ist. Die polynomielleKonstruierbarkeit folgt, da Sn durch eine logarithmisch-platzbeschränkte Turingmaschi-ne berechenbar ist. Eine Auswertung gelingt mit Tiefensuche in polynomieller Zeit, daGröße(Sn) = poly(n).

Aufgabe 43Zeige, dass man zwei Binärzahlen in AC0 addieren kann (d.h. jedes Bit der Summe in AC0

berechnen kann).

1Das Buch kann auch über die Webseitehttp://www.cs.armstrong.edu/greenlaw/research/PARALLEL/limits.pdf heruntergeladen werden.

79

80 KAPITEL 4. PARALLELITÄT

Aufgabe 44Es sei ein nichtnegativ gewichteter, gerichteter Graph als Distanzmatrix mit Einträgen einerbestimmten Bitlänge gegeben. Es soll für alle Knotenpaare die Länge des kürzesten Wegeszwischen ihren Knoten bestimmt werden. Hierzu wird ein paralleler Algorithmus gesucht,der ähnlich wie Floyds Algorithmus arbeitet. Der Algorithmus soll mit den Ressourcen vonNC2 arbeiten.Hinweis: Betrachte eine Matrixmultiplikation, bei der statt der normalen Multiplikationdie Addition und statt der normalen Addition die Minimumbestimmung verwendet wirdund wende diese auf das Problem an.

Aufgabe 45Eine Formel ist ein Schaltkreis mit Fanin 2 und Fanout 1, d.h. die Graphstruktur einerFormel ist ein Baum. Die Größe einer Formel ist die Anzahl der Blätter.

(a) Zeige: Jede Funktion in NC1 hat eine polynomiell große Formel.

(b) Zeige: Wenn f eine Formel der Größe N hat, dann hat f eine äquivalente Formel derTiefe O(log2N).

Aufgabe 46

Die Klasse N-AC02 bestehe aus uniformen Schaltkreisfamilien mit unbeschränktem Fanin

und Tiefe 2, die nichtdeterministisch arbeiten, d.h., die zusätzlich zur „normalen“ Eingabeein nichtdeterministisches Ratewort lesen und entsprechend akzeptieren.Zeige: NP = N-AC0

2.

4.1 Parallele Rechenzeit versus Speicherplatz

Welche Funktionen können uniforme Schaltkreisfamilien in Tiefe s(n) berechnen? Ange-nommen, die uniforme Schaltkreisfamilie (Sn)n∈N hat Tiefe s(n) = Ω(log2 n). Wir führenauf dem Schaltkreis in umgekehrter Richtung, also von der Senke zu den Quellen, eine Tie-fensuche durch, um die Ausgabe des Schaltkreises Sn speicherplatz-effizient zu berechnen.Anstatt den gesamten Schaltkreis zu speichern, leiten wir jedes Mal die für den Abruf ei-ner speziellen benötigten Information über Sn alle durch die Beschreibung des Schaltkreisesgegebenen Informationen. Das gelingt mit Speicherplatz O(s(n)).Wir speichern den Weg der Tiefensuche durch die Bitfolge ~b ab. Falls bi = 1 (bzw. bi = 0),ist der (i + 1)-te Knoten des Wegs der rechte (bzw. linke) Nachfolger des i-ten Knoten.Die Länge der Liste ist proportional zur Tiefe s(n) und die Turingmaschine rechnet mitSpeicherplatz O(s(n)). Wir haben also gerade nachgewiesen, dass

DEPTHuniform(s) ⊆ Dspace(s)

4.1. PARALLELE RECHENZEIT VERSUS SPEICHERPLATZ 81

gilt. Um die umgekehrte Fragestellung, nämlich die Simulation von „Speicherplatz“ durch„Tiefe“ zu untersuchen, betrachten wir die transitive Hülle von Graphen.

Lemma 4.1 Konstruiere uniforme Schaltkreisfamilien (mit unbeschränktem Fanin), sodass

(a) zwei Boolesche n× n-Matrizen in Tiefe zwei mit O(n3) Gattern multipliziert werdenund

(b) die transitive Hülle eines Graphen in Tiefe O(log2 n) und Größe O(n3 log2 n) mitunbeschränktem Fanin berechnet wird.

Beweis (a): Offensichtlich kann ein Schaltkreis das Produkt

(A ·B)[i, j] =n∨k=1

A[i, k] ∧B[k, j]

in Tiefe zwei mit O(n3) Gattern berechnen.(b) Sei A die Adjazenzmatrix eines gerichteten Graphen mit n Knoten und sei En die n×nEinheitsmatrix. Man beweist durch Induktion über d, dass es genau dann einen Weg derLänge d von i nach j gibt, wenn Ad[i, j] = 1.Ein Weg von i nach j darf auf jedem seiner Knoten für mehrere Schritte verweilen. Mitanderen Worten, es gibt genau dann einen Weg von i nach j, wenn (A ∨ En)n[i, j] = 1.Die Matrix (A ∨ En)n kann mit wiederholtem Quadrieren für eine Zweierpotenz n schnellberechnet werden.

B := A ∨ En;FOR i = 1 TO log2 n DO

B := B2;

Jeder Quadrierungsschritt gelingt in Tiefe zwei und GrößeO(n3) ist ausreichend. Wir habendurch Übereinandersetzen von log2 n Schaltkreisen zur Matrizenmultiplikation die transi-tive Hülle in Tiefe O(log2 n) und Größe O(n3 log2 n) berechnet. Beachte, daß die erhalteneSchaltkreisfamilie uniform ist (Warum? Wie geht man vor, wenn n keine Zweierpotenzist?).

Wir können jetzt die enge Kopplung zwischen den Komplexitätsmaßen „Speicherplatz“und „Tiefe“ präzisieren.

Satz 4.2 Sei s : N→ N mit s(n) = Ω(log2 n) gegeben. Die Funktion s sei platz-konstruier-bar. Dann ist

Dspace(s) ⊆ Nspace(s) ⊆ DEPTH− SIZEuniform(s2, 2O(s)) ⊆ Dspace(s2).


Beweis: Wir wissen, dass DEPTHuniform(s) ⊆ Dspace(s) gilt. Also genügt der Nachweis vonNspace(s) ⊆ DEPTH − SIZEuniform(s2, 2O(s)). Sei also M eine nichtdeterministische Turing-maschine, die mit Speicherplatz höchstens s rechnet. Für Eingabe w betrachten wir denBerechnungsgraphen GM(w). Wir haben zu entscheiden, ob es einen Weg vom Startkno-ten zu einem akzeptierenden Knoten in GM(w) gibt. Offensichtlich kann man annehmen,dass es genau eine akzeptierende Konfiguration gibt, und wir müssen das Problem D-REACHABILITY für GM(w) lösenGM(w) hat höchstens N = 2O(s(n)) Knoten. Unser Schaltkreis berechnet zuerst GM(w),indem für alle möglichen Paare u, v von Knoten überprüft wird, ob u direkter Vorgän-ger von v in GM(w) ist. Sodann lösen wir D-REACHABILITY mit Lemma 4.1 in TiefeO(log2N) = O(s) und Größe O(s(n)N3) = 2O(s(n)). Insgesamt haben wir mit einer unifor-men Schaltkreisfamilie gearbeitet2. Um den Fanin von maximal 2O(s(n)) auf zwei zu drücken,muss die Tiefe von O(s) auf O(s2) erhöht werden, die Größe ändert sich dabei höchstenspolynomiell.

Aufgabe 47Zeige, dass NL ⊆ AC1 gilt.

4.2 P-VollständigkeitWir möchten die vom Standpunkt der Parallelisierbarkeit „schwierigsten“ Probleme inP bestimmen und wählen die LOGSPACE-Reduzierbarkeit, um die Parallelisierbarkeitzweier vorgegebener Sprachen zu vergleichen. Weshalb betrachten wir die LOGSPACE-Reduktion?

Lemma 4.2

(a) DL ⊆ NC2.

(b) Zwei Sprachen L1, L2 ⊆ 0, 1∗ seien gegeben. Aus L1 ≤LOG L2 und L2 ∈ NC folgtL1 ∈ NC.

Beweis (a): ist eine direkte Konsequenz von Satz 4.2.(b) Nach Definition existiert eine deterministische, logarithmisch-platzbeschränkte Turing-maschine M mit

w ∈ L1 ⇔M(w) ∈ L2.

Da M logarithmisch-platzbeschränkt ist, kann jedes Ausgabebit von M durch eine Schalt-kreisfamilie (Tn|n ∈ N) mit polynomieller Größe und Tiefe O(log2

2 n) berechnet werden,denn DL ⊆ NC2. Wenn also L2 durch die uniforme Schaltkreisfamilie (Sn|n ∈ N) polyno-mieller Größe und polylogarithmischer Tiefe erkannt wird, so ist auch L1 in polynomiellerGröße und polylogarithmischer Tiefe erkennbar. Daher ist L1 ∈ NC.

2Um die Schaltkreisfamilie uniform zu konstruieren, muss die Platzkonstruierbarkeit von s(n) gefordertwerden.

4.2. P-VOLLSTÄNDIGKEIT 83

Da DL ⊆ NC2 gilt, sind alle Sprachen in DL parallelisierbar. Insbesondere ist die LOG-SPACE-Reduktion durch einen Schaltkreis polynomieller Größe und der Tiefe O(log2 n)simulierbar. Aus Teil (b) folgt aus L1 ≤LOG L2, dass L1 parallelisierbar ist, wenn L2 par-allelisierbar ist. Trotzdem ist Lemma 4.2 kein entscheidender Grund für die LOGSPACE-Reduktion, da die Aussage auch für andere Reduktionen gilt. Zum Beispiel könnten wirstatt LOGSPACE-Reduktionen als Transformation eine uniforme Schaltkreisfamilie mitTiefe poly(log2 n) und Größe poly(n) zulassen. Zwar ist ein solcher Ansatz legal und wirdgelegentlich auch benutzt, allerdings werden meistens „starke“ Transformationen nichtbenötigt: Die „schwache“ LOGSPACE-Reduktion genügt sogar, um die wichtigsten NP-Vollständigkeitsergebnisse zu etablieren. Wir arbeiten daher im weiteren nur mit der LOG-SPACE-Reduktion.

Definition 4.1

(a) Eine Sprache L heißt genau dann P-hart, wenn K ≤LOG L für alle Sprachen K ∈ Pgilt.

(b) Eine Sprache L heißt genau dann P-vollständig, wenn L ∈ P und wenn L P-hart ist.

Die P-vollständigen Sprachen sind die vom Standpunkt der Parallelisierbarkeit die schwie-rigsten Sprachen in P: Wenn eine P-vollständige Sprache parallelisierbar ist, dann stimmenNC und P überein und alle Sprachen in P wären überraschenderweise parallelisierbar.

Lemma 4.3 Sei L eine P-vollständige Sprache. Dann gilt:

P = NC ⇔ L ∈ NC.

Beweis ⇒: Da L ∈ P und da nach Voraussetzung P = NC, ist L ∈ NC.⇐. Nach Voraussetzung ist L ∈ NC. Da L P-vollständig ist, gilt K ≤LOG L für alle K ∈ P.Aus Lemma 4.2 folgt K ∈ NC für alle K ∈ P, also folgt P ⊆ NC. Nach Satz 4.1 gilt NC ⊆ P,und wir erhalten die Behauptung.

4.2.1 Das Circuit Value ProblemFür einen Schaltkreis S sei 〈S〉 die Binärkodierung eines Programmes, das

• die Gatter von S in irgendeiner Reihenfolge aufzählt,

• jedem Gatter seine Funktion zuweist,

• sämtliche Kanten aufzählt und

• jeder Quelle eine Bitposition der Eingabe zuweist.

In diesem Abschnitt werden wir unsere erste P-vollständige Sprache kennenlernen, dasCircuit-Value-Problem (CVP). Das Problem CVP spielt als generisches Problem diesel-be Rolle wie das Erfüllbarkeitsproblem KNFSAT für die NP-Vollständigkeit, QBF für diePSPACE-Vollständigkeit oder D-REACHABILITY für die NL-Vollständigkeit.


Definition 4.2 Wir nehmen an, daß der Fanin für alle zu betrachtenden Schaltkreisehöchstens zwei ist.

(a) Die Sprache des Circuit-Value Problem ist gegeben durch

CVP = 〈S〉x | S ist ein Schaltkreis mit Eingabe x und S(x) = 1.

(b) Ein monotoner Schaltkreis besteht nur aus den Gatter ∧ und ∨. Die Sprache desmonotonen Circuit-Value Problems ist gegeben durch

M− CVP = 〈S〉x | der monotone Schaltkreis S akzeptiert die Eingabe x .

(c) Ein NOR-Schaltkreis besteht nur aus NOR-Gattern. Die Sprache des NOR-Circuit-Value Problems ist gegeben durch:

NOR − CVP = 〈S〉x | der NOR-Schaltkreis S akzeptiert die Eingabe x .

Lemma 4.4 Die Sprachen CVP,M− CVP und NOR − CVP liegen in P.

Beweis: Ein Schaltkreis der Größe s mit n Eingaben kann sequentiell zum Beispiel mitHilfe der Tiefensuche in Zeit O(s+ n) ausgewertet werden.

Das zentrale Resultat dieses Abschnitts ist die P-Vollständigkeit des Circuit-Value Pro-blems.

Satz 4.3 CVP ist P-vollständig.

Beweis: Nach Lemma 4.4 ist CVP eine Sprache in P. Wir müssen noch zeigen, daß CVPP-hart ist. Sei L eine beliebige Sprache in P. Wir zeigen die Reduktion L ≤LOG CVP.Was ist über L bekannt? Es gibt eine deterministische Turingmaschine M , die L in höchs-tens t(n) Schritten akzeptiert. Die Schrittzahl t(n) ist durch ein Polynom q(n) nach obenbeschränkt. Um die geforderte Reduktion zu konstruieren, simulieren wir M für Eingabender Länge n durch einen Schaltkreis Sn.Wir simulierenM mit einem Schaltkreis Sn, dessen Grobstruktur einem zwei-dimensionalenGitter entspricht. Die „i-te Zeile“ des Gitters gibt Bandinhalt, Kopfposition und Zustandvon M zum Zeitpunkt i wieder. Die i-te Zeile ist aus identischen kleinen Schaltreisen Si,jaufgebaut, wobei Si,j die Zelle j zum Zeitpunkt i simuliert. Ein solcher kleiner SchaltkreisSi,j muß

• den von Schaltkreis Si−1,j berechneten Bandinhalt speichern können, falls der Kopfvon M zum Zeitpunkt i die Zelle j nicht besucht und sonst

• den Bandinhalt verändern, abhängig vom gegenwärtigen Zustand und vom gegen-wärtigen Bandinhalt. Weiterhin muss Si,j in diesem Fall den neuen Zustand und dieRichtung des Kopfes festlegen.


Diese Aufgaben lassen sich durch einen Schaltkreis konstanter Größe bewerkstelligen, wennwir die Ausgänge von Si−1,j−1, Si−1,j und Si−1,j+1 zu Eingängen von Si,j machen. DieAusgänge jedes Schaltkreises müssen

• den Bandinhalt kodieren,

• angeben, ob die Zelle gerade besucht wurde und wenn ja, den neuen Zustand und dieKopfrichtung spezifizieren.

Beachte, dass sämtliche Schaltkreise Si,j „baugleich“ gewählt werden können, mit Ausnah-me der Schaltkreise S0,j, die entweder zu setzen sind (j /∈ 1, . . . , n) oder an die Eingabeanzuschliessen sind (j ∈ 1, . . . , n).Wir müssen das Gitter noch „auswerten“, d.h. wir müssen feststellen, ob der letzte Zu-stand akzeptierend ist. Dies gelingt, wenn wir einen binären Auswertungsbaum „auf“ dasGitter setzen. Man beachte, daß der beschriebene Schaltkreis durch eine logarithmisch-platzbeschränkte Turingmaschine konstruierbar ist.

Bemerkung 4.1 Der Beweis von Satz 4.3 zeigt, dass wir eine polynomiell zeitbeschränk-te Turingmaschine durch eine uniforme Schaltkreisfamilie polynomieller Größe simulierenkönnen. Für den Nachweis von P 6= NP genügt somit der Nachweis, dass irgendein NP-vollständiges Problem keine polynomiell großen Schaltkreise besitzt.

Satz 4.4 M− CVP und NOR − CVP sind P-vollständig.

Beweis: Nach Lemma 4.4 sind M-CVP und NOR-CVP Sprachen aus P. Wir müssen nochzeigen, daß die Sprachen P-hart sind.

x1 x2 x3

∧ ∨¬∨

x1 x2 x3 ¬x3 ¬x2 ¬x1

]

6

M ]

6

v3

v1

v4

v2

∧ ∨∧∨

]

M ]

6

(v3, 0)

(v1, 0)

(v4, 0)

(v2, 0)

∨∧∧∧

]

O

M

(v3, 1)

(v1, 1)

(v4, 1)

(v2, 1)

-

ii

11

Abbildung 4.1: Beispiel zur Reduktion CVP ≤LOG M-CVP

Wir zeigen die Reduktion CVP ≤LOG M-CVP.


Sei (S, x) eine Eingabe für CVP. Wir „schieben“ sämtliche Negationsgatter hinab zu denQuellen von S. Da

¬(u ∧ w) ⇔ ¬u ∨ ¬w¬(u ∨ w) ⇔ ¬u ∧ ¬w¬(¬u) ⇔ u

bedeutet der Schiebeprozess das Vertauschen von ∧- und ∨-Gattern sowie die Einführungneuer Quellen für die negierte Eingaben.Wir ersetzen ein Gatter v durch zwei Gatter (v, 0) und (v, 1) mit den Ausgaben v bezie-hungsweise ¬v. Die obige Abbildung zeigt ein Beispiel. Formal sieht die Transformationwie folgt aus:

1. Für jedes Gatter v von S (mit Ausnahme der Senke von S) führen wir zwei Gatter(v, 0) und (v, 1) ein. Mit (v, 0) simulieren wir das ursprüngliche Gatter, mit (v, 1)simulieren wir das negierte Gatter. Die Senke s von S wird durch die Senke (s, 0)des neuen Schaltkreises ersetzt. Wir nehmen an, daß die Senke ein ∧- oder ∨-Gatterwar.

2. Für jedes ∧-, ∨- oder ¬-Gatter des alten Schaltkreises fügen wir im neuen SchaltkreisVerbindungen, wie in den beiden Abbildungen angedeutet, ein.

]

v

u w

∧

]

(v, 0)

(u, 0) (w, 0)

∧

]

(v, 1)

(u, 1) (w, 1)

∨

bzw.-

]

v

u w

∨

]

(v, 0)

(u, 0) (w, 0)

∨

]

(v, 1)

(u, 1) (w, 1)

∧

bzw.-

Abbildung 4.2: Ersetzen von ∧- und ∨-Gattern.

3. Wir ersetzen eine Quelle v (mit Eingabe xi) durch die beiden Quellen (v, 0) (mitEingabe xi) und (v, 1) (mit Eingabe ¬xi).


v

u

¬

]

(v, 1)

(u, 0) (u, 0)

∧

]

(v, 0)

(u, 1) (u, 1)

∧

bzw.-6

Abbildung 4.3: Ersetzen von ¬-Gattern.

Sei S∗ der neue Schaltkreis (mit gleicher Senke wie S) und sei x∗ die neue Eingabefolgevon S∗. Offenbar gilt:

S akzeptiert x⇔ S∗ akzeptiert x∗.Beachte, dass die Transformation

〈S〉x 7→ 〈S∗〉x∗

durch eine Turingmaschine mit logarithmischer Platzbeschränkung berechnet werden kann.Wir zeigen die Reduktion CVP ≤LOG NOR-CVP. Es ist nor(u, v) = ¬(u ∨ v). Jededer Operationen ∧, ∨ und ¬ kann man mit NOR-Gattern darstellen, da nor(u, u) =¬u, nor(¬u,¬v) = u ∧ v und nor(nor(u, v),nor(u, v)) = u ∨ v. Eine deterministische,logarithmisch-platzbeschränkte Turingmaschine kann somit zu jedem ∧,∨,¬-SchaltkreisS einen äquivalenten NOR-Schaltkreis S∗ konstruieren. Es gilt

S akzeptiert x⇔ S∗ akzeptiert x.

Beachte, dass die Reduktion〈S〉x 7→ 〈S∗〉x

in logarithmischem Platz ausgeführt werden kann.

4.2.2 Die Lineare ProgrammierungWir betrachten als nächstes das Problem der linearen Ungleichungen und der linearenProgrammierung.

Definition 4.3 Gegeben ist eine ganzzahlige Matrix A ∈ zm×n sowie Vektoren b ∈ Zmund c ∈ Zn.

(a) Im Problem der linearen Ungleichungen ist zu entscheiden, ob es einen Vektor x ∈ Qn

mit Ax ≤ b gibt.


(b) Im Problem der linearen Programmierung ist zu entscheiden, ob es einen Vektorx ∈ Qn mit Ax ≤ b und c · x ≥ t gibt.

Das Problem der linearen Programmierung wird konventionell als Optimierungsproblemformuliert:

Maximiere c · x, so daß Ax ≤ b und x ≥ 0 gilt.

Wir hingegen haben dieses Optimierungsproblem als Entscheidungsproblem formuliert.

Satz 4.5

(a) Das Problem der linearen Ungleichungen ist P-vollständig.

(b) Das Problem der linearen Programmierung ist P-vollständig.

Beweis: Beide Sprachen liegen in P, denn es existieren Polynomialzeit-Algorithmen. Be-kannte Beispiele für solche Verfahren sind Karmarkars Algorithmus und die Ellipsoid-Methode.(a)Wir zeigen die Reduktion M-CVP≤LOG Lineare Ungleichungen. Sei (S, x) eine Eingabefür M-CVP. Wir weisen jedem Gatter von S Ungleichungen zu.

• Beschreibe zuerst die Eingabe x.

– Falls xi = 0, verwende die Ungleichungen xi ≤ 0 und −xi ≤ 0.– Falls xi = 1, verwende die Ungleichungen xi ≤ 1 und −xi ≤ −1.

• Für ein Gatter v ≡ u ∧ w verwende die Ungleichungen: v ≤ u, v ≤ w, u + w − 1 ≤v, 0 ≤ v.

• Für ein Gatter v ≡ u∨w verwende die Ungleichungen: u ≤ v, w ≤ v, v ≤ u+w, v ≤1.

Durch Induktion über die topologische Nummer eines Gatters zeigt man, dass das lineareUngleichungssystem genau eine Lösung hat und der gewünschten Lösung entspricht. Wirfügen noch die Ungleichung

−s ≤ −1für die eindeutig bestimmte Senke s des Schaltkreises hinzu. S akzeptiert genau dann dieEingabe x, wenn das konstruierte, lineare Ungleichungssystem lösbar ist.(b) Die Behauptung folgt, da die Reduktion

lineare Ungleichungen ≤LOG lineare Programmierung

trivial ist.

Korollar 4.1 Das Problem der linearen Ungleichungen und das Problem der linearen Pro-grammierung bleiben sogar dann P-vollständig, wenn man die Koeffizienten der Matrix Aund des Vektors b auf −1, 0, 1 beschränkt.


4.2.3 Parallelisierung von Greedy-AlgorithmenGreedy-Methoden sind im allgemeinen leicht zu implementieren und führen zu effizienten,sequentiellen Algorithmen. Leider sind Greedy-Algorithmen häufig inhärent sequentiell.Wir werden am Beispiel einer Heuristik für das Independent-Set-Problem sehen, dass eineParallelisierung nicht gelingen wird. (Gleichwohl gibt es andere Heuristiken, die lokaleMinima in polylogarithmischer Zeit bestimmen.)Sei G = (V,E) ein ungerichteter Graph mit V = 1, . . . , n. Im Independent-Set Problemist eine unabhängige Knotenmenge größter Kardinalität ist zu bestimmen. (Eine Knoten-menge ist unabhängig, wenn keine zwei Knoten der Menge durch eine Kante verbundensind.)

Algorithmus 4.1 Heuristik für das Independent-Set-Problem.Die Eingabe besteht aus einem ungerichteten Graphen G = (V,E) mit V = 1, . . . , n.

1. I(G) := ∅ .

2. FOR v = 1 TO n DOIF (v ist nicht mit einem Knoten in I(G) verbunden) THEN I(G) = I(G)∪v.

3. Die Menge I(G) wird ausgegeben.

Die Heuristik des Greedy-Algorithmus’ 4.1 findet in jedem Fall ein lokales Minimum (alsoeine unabhängige Menge, für die keine echte Obermenge unabhängig ist).Im Lexicographically-First-Maximal-Independent-Set-Problem (LFMIS) ist ein ungerich-teter Graph G = (V,E) mit V = 1, . . . , n und ein Knoten v ∈ V gegeben. Es ist zuentscheiden, ob der Knoten v von Algorithmus 4.1 gewählt wird.

Satz 4.6 Die Sprache LFMIS ist P-vollständig.

Beweis: LFMIS liegt in P, denn die Laufzeit von Algorithmus 4.1 ist linear in n. Wir zeigendie Reduktion: NOR-CVP ≤LOGLFMIS.Sei (S, x) die Eingabe für NOR-CVP und sei G = (V,E) die Graphstruktur des Schaltkrei-ses S. Wir konstruieren einen ungerichteten Graphen G∗ = (V ∗, E∗) aus dem gerichtetenGraphen G: Füge einen neuen Knoten v0 hinzu und setzen genau dann eine Kante v0, izum Eingabeknoten i ein, wenn xi = 0 ist. Es ist also

V ∗ = V ∪ v0 und E∗ = v0, i | xi = 0 ∪ E.

Wir nummerieren die Knoten, so dass v0 die Nummer Eins erhält und die übrigen Nummernder topologischen Nummerierung des Schaltkreises entsprechen. Durch Induktion über dieNummerierung zeigen wir

I(G∗) = v0 ∪ v ∈ V | Gatter v hat den Wert 1.


]

w

u v

nor

Abbildung 4.4: Nor-Gatter im Induktionsschritt zu Beweis 4.6

• Verankerung: Da der Algorithmus stets den ersten Knoten in I(G∗) aufnimmt, istv0 ∈ I(G). Wenn eine Quelle i den Wert Null hat, wird i wegen der Kante v0, inicht in I(G∗) aufgenommen. Wenn eine Quelle i den Wert Eins hat, wird i in I(G∗)aufgenommen.

• Induktionsschritt: Betrachten wir den Knoten w, der im Schaltkreis einem Nor-Gatterw =nor(u, v) entspricht. Die Nummer der Knoten u und v ist kleiner als die Nummervon w und es ist w = ¬(u ∨ v) = 0↔ (u = 1) ∨ (v = 1). Nach Induktionsannahmeist u (bzw. v) genau dann in I(G∗), wenn u = 1 (bzw. v = 1) ist. Wegen der Kantenu,w und v, w nimmt der Algorithmus genau dann w in die Menge I(G∗) auf,wenn das Gatter w den Wert Eins hat.

Die Menge I(G∗) besteht also genau aus dem Knoten v0 und allen Knoten mit AusgabeEins. Für die Senke s des NOR-Schaltkreises S ist

S(x) = 1⇐⇒ s ∈ I(G∗)

und dies war zu zeigen.

4.3 ZusammenfassungWir haben Schaltkreise als paralleles Rechnermodell gewählt und die Klasse NC aller paral-lelisierbaren Sprachen eingeführt. Wir haben gesehen, dass ein enger Zusammenhang zwi-schen den Komplexitätsmaßen Tiefe und Speicherplatz besteht. Die Parallel-Computation-Thesis verallgemeinert diesen Zusammenhang auf alle möglichen Modelle paralleler Rech-ner und postuliert eine polynomielle Beziehung zwischen der Rechenzeit eines jeden ver-nünftigen parallelen Rechnermodells und der Speicherplatzkomplexität der berechnetenSprache.Wir haben die Parallelisierbarkeit von Problemen untersucht und die im Hinblick aufeine Parallelisierung schwierigsten Sprachen, die P-vollständigen Sprachen mit Hilfe derLOGSPACE-Reduktion eingeführt. Wir haben das P-vollständige Circuit-Value Problem


kennengelernt, das als generisches Problem dieselbe Rolle für die P-Vollständigkeit spieltwie das Erfüllbarkeitsproblem KNFSAT für die NP-Vollständigkeit, QBF für PSPACE oderwie D-REACHABILITY für die NL-Vollständigkeit. Die Lineare Programmierung wie auchdie Bestimmung der lexikographisch ersten maximalen unabhängigen Menge sind weitereP-vollständige Probleme.


Teil II

Untere Schranken

93

Kapitel 5

Die Komplexität BoolescherFunktionen

Das Textbuch „Boolean Function Complexity“ (Springer-Verlag 2012) von S. Jukna ist dieStandard-Referenz für dieses Kapitel.Welche Tiefe und welche Größe ist notwendig, um eine Boolesche Funktion

f : 0, 1n → 0, 1

mit ∧,∨,¬-Schaltkreisen vom Fanin zwei zu berechnen?

Aufgabe 48Die Funktion f hänge von jeder Eingabe ab, d.h. für jedes i ∈ 1, . . . , n gibt es eineEingabe x ∈ 0, 1n, so dass

f(x) 6= f(x⊕ ei),wobei der Vektor ei in Position i mit 1 übereinstimmt und in allen anderen Positionen nuraus Nullen besteht.Zeige: DEPTH(f) = Ω(log2 n) und SIZE(f) = Ω(n).

Nicht-triviale Boolesche Funktionen benötigen somit mindestens logarithmische Tiefe. Wel-che Tiefe ist aber auch ausreichend, welche Größe wird benötigt?

Satz 5.1 Für alle n ∈ N gilt

(a) DEPTH(f) ≤ n+ dlog2 ne für jede Funktion f : 0, 1n → 0, 1 und

(b) für mehr als die Hälfte aller Funktionen g : 0, 1n → 0, 1, ist

SIZE(g) = Ω(2nn

) und DEPTH(g) ≥ n−O(log2 n).

Beweis (a): Wir können f als Disjunktion von Konjunktionen auffassen, wobei die Kon-junktionen den akzeptierten Eingaben entsprechen. Wir benötigen Tiefe dlog2 ne für dieKonjunktionen und Tiefe n für die maximal 2n Disjunktionen.

95

96 KAPITEL 5. DIE KOMPLEXITÄT BOOLESCHER FUNKTIONEN

· · ·∧ ∧ ∧

∨Tiefe n

?

Tiefe dlog2 ne6?

6

Von einer DNF zu einem Schaltkreis.

(b) Zuerst beachten wir, dass es 22n Boolesche Funktionen mit n Eingaben gibt. WievielSchaltkreise mit genau m Knoten gibt es?Wir können einen Schaltkreis beschreiben, indem wir seinen Graphen spezifizieren unddie Funktionsweise der Gatter definieren. Da wir drei Gatter zur Verfügung haben, gibtes höchstens 3m mögliche Funktionsweisen für alle Knoten des Graphen. Wenn wir jedemKnoten seinen einen oder seine beiden Vorgänger zuweisen, dann ist auch die Graphstrukturbeschrieben, und wir erhalten höchstensm2·m verschiedene Graphen. Schließlich müssen wirnoch die Eingabegatter beschreiben und ordnen den n Quellen des Graphen die jeweiligeEingabeposition zu. Insgesamt gibt es also höchstens

3m ·m2·m · n! ≤ 3m ·m2·m ·mm ≤ (3m)3m

Schaltkreise mit genau m Gattern. Wieviele Schaltkreise mit höchstens N Gattern gibt es?Höchstens

N∑m=1

(3m)3m ≤ N · (3N)3N = NO(N)

Schaltkreise. Da unterschiedliche Funktionen unterschiedliche Schaltkreise benötigen, istdie Anzahl verschiedener Schaltkreise mindestens so groß sein wie die Anzahl 22n der Boo-leschen Funktionen, und wir erhalten die Forderung

22n ≤ NO(N).

Aber dann ist N = Ω(2nn

). Schaltkreise der Tiefe t haben aber höchstens ∑ti=0 2i = 2t+1−1

Knoten und deshalb muss zusätzlich t = n−O(log n) gelten.

Wir haben mit einem Abzählargument gezeigt, dass die meisten Booleschen Funktionen so-wohl exponentielle Größe wie auch lineare Tiefe besitzen. Was kann man denn für SprachenL zeigen, die zu NP gehören? Es ist leider fast schon beschämend, denn bessere Größen-Schranken als 5n− o(n) sind nicht bekannt, obwohl wir ja wissen, dass die meisten Funk-tionen exponentielle Größe benötigen!Warum ist der Nachweis nicht-trivialer Größenschranken so schwierig? Wenn wir SIZE(L) =nω(1) für eine Sprache L ∈ NP zeigen könnten, wenn wir also eine super-polynomielle Grö-ßenschranke nachweisen könnten, dann hätten wir P und NP getrennt!

Definition 5.1 P/poly = ⋃k∈N SIZE(nk) ist die Klasse aller Sprachen mit Schaltkreisen

polynomieller Größe.

5.1. DIE GRÖßE VON SCHALTKREISEN BESCHRÄNKTER TIEFE 97

Wir schauen uns den Zusammenhang zwischen den Komplexitätsklassen P und P/poly ge-nauer an.

Satz 5.2 (a) Für alle Funktionen t : N→ N ist

DTIME(t) ⊆ SIZE(t2).

(b) P ⊆ P/poly.

(c) Wenn L 6∈ P/poly für eine Sprache L ∈ NP, dann gilt P 6= NP.

Aufgabe 49Zeige Satz 5.2.

Wenn die Uniformität von Berechnungen in polyonomieller Zeit nicht entscheidend für eineeingeschränkte Rechenkraft ist, dann ist die Betrachtung von Schaltkreisen polynomiellerGröße angeraten, wenn wir P und NP trennen möchten. Aus genau diesem Grund werdenwir uns jetzt weiter mit Schaltkreisen beschäftigen und versuchen, Größenschranken ineingeschränkten Schaltkreismodellen abzuleiten. Insbesondere werden wir

• Schaltkreise mit beschränkter Tiefe, aber unbeschränktem Fanin

• und monotone Schaltkreise

betrachten. Wir schließen das Kapitel mit einer Untersuchung der Resolution, einem Be-weissystem der Aussagenlogik. Hier fragen wir uns, ob es „einfache“ Formeln gibt, derenWiderlegung exponentiell lange Resolutionsbeweise verlangt. Während Schaltkreise für dieUntersuchung der P ?= NP Frage geeignet sind, kann man mit Beweissystemen die NP = coNPFrage untersuchen.

5.1 Die Größe von Schaltkreisen beschränkter TiefeWir haben die Klasse ACk in Kapitel 4 als die Klasse aller Sprachen definiert, die uniformeSchaltkreise polynomieller Größe und der Tiefe O(logk2 n) besitzen. In diesem Abschnittbeschäftigen wir uns mit AC0, also allen Sprachen mit Schaltkreisen polynomieller Größeund beschränkter Tiefe O(1); die Uniformität der Schaltkreise werden wir nicht ausnutzen.Was kann in AC0 berechnet werden?

Definition 5.2 Sei ei ∈ 0, 1n das Wort mit einer Eins nur in Position i. Für eineBoolesche Funktion f : 0, 1n → 0, 1 definieren wir

(a) die Empfindlichkeit ex für Eingabe x als die Anzahl der Bitpositionen i für dief(x) 6= f(x ⊕ ei) gilt, für die das Flippen der Bitposition also zu einem geänder-ten Funktionswert führt.


(b) Die Empfindlichkeit von f ist die durchschnittliche Empfindlichkeit e = 12n∑x∈0,1n ex

der Eingaben.

Wir werden zeigen, dass f nur dann zu AC0 gehört, wenn die Empfindlichkeit von fhöchstens poly-logarithmisch in n ist. Was sind die Konsequenzen? Die Paritätsfunkti-on xorn(x) = ⊕ni=1xi hat die maximale Empfindlichkeit n und gehört deshalb nicht zu AC0.Ebenfalls nicht zu AC0 gehören aus dem gleichen Grund zum Beispiel

- die Mehrheitsfunktion majorityn mit majorityn(x) = 1 genau dann, wenn∑ni=1 xi >

n/2,

- die Multiplikation von zwei n-bit Zahlen

- connectivity2,n, nämlich die Frage, ob ein ungerichteter regulärer Graph mit nKnoten und vom Grad zwei zusammenhängend ist.

Zu AC0 gehören hingegen

- die Addition von zwei n-bit Zahlen,

- die Multiplikation Boolescher Matrizen,

- für jede Konstante m ∈ N und jedes k ≤ logm2 n die Fragen, ob ein String von nNullen und Einsen mindestens, höchstens oder genau k Einsen besitzt.

Zur Vorbereitung unserer Analyse führen wir zuerst eine „Schönheitsoperation“ auf demSchaltkreis S aus, wobei die Größe höchstens quadriert wird, die Tiefe aber unverändertbleibt. Wir können nach der Schönheitsoperation annehmen, dass

- Negationsgatter nur für Eingabegatter verwandt werden und

- der Schaltkreis in Schichten aufgeteilt ist, wobei

∗ Kanten nur zwischen benachbarten Schichten verlaufen,∗ eine Schicht entweder eine UND-Schicht ist (alle Gatter einer Schicht sind UND-

Gatter) bzw. eine ODER-Schicht (alle Gatter sind ODER-Gatter) und dass∗ der Schaltkreis alterniert: Eine UND-Schicht ist nur mit ODER-Schichten be-

nachbart und umgekehrt.

Aufgabe 50Zeige, dass die Schönheitsoperation die Größe höchstens quadriert und die Tiefe unverän-dert läßt.

Warum hat S keine „Power“?


Definition 5.3 Eine Restriktion ist eine Funktion

ρ : 1, . . . , n → 0, 1, ∗.

Wenn wir die Restriktion ρ auf den Schaltkreis S anwenden, dann erhalten wir den Schalt-kreis S|ρ, der nicht die Eingabe x ∈ 0, 1n, sondern die Eingabe ρ(x) erhält:

- Wenn ρ(i) = 0 oder ρ(i) = 1, dann erhält S nur den auf 0, bzw 1 eingefrorenen Wertvon xi.

- Wenn ρ(i) = ∗, dann erhält S unveränderten den Wert xi. Wir sagen, dass Positioni „gesternt“ wird.

Man stelle sich vor, dass wir S mit einer zufällig ausgewürfelten Restriktion ρ „beschießen“:Einige Positionen der Eingabe erhalten den Wert Null, andere den Wert Eins und dieverbleibenden Positionen bleiben unverändert. Man stelle sich weiterhin vor, dass wir ρzufällig auswürfeln, indem wir l zufällig bestimmten Positionen einen Stern zuweisen. Dieverbleibenden n − l Positionen werden mit Wahrscheinlichkeit 1/2 auf Null, bzw. Einsgesetzt. Die Analyse wird zeigen müssen, welchen Wert l, also welchen Wert die Anzahlgesternter Variablen annehmen sollte.Wie wirkt sich eine Restriktion aus? Spielen wir einige Szenarien durch:

1. Ein bestimmtes UND-Gatter der Tiefe 1 wird bei entsprechend großem Fanin wahr-scheinlich eine Null „abbekommen“, und wir können uns das Gatter als ersatzlosgestrichen vorstellen.

2. Hat ein ODER-Gatter v der Tiefe zwei aber viele UND-Kinder mit nicht zu großemFanin, dann wird v eine beträchtliche Anzahl von lebendigen UND-Kindern v1, . . . , vkbesitzen: Jedes Literal von vi wird entweder von einem Stern oder von einer Einsgetroffen, aber das UND-Gatter vi erhält mindestens einen Stern.

– Wenn der Fanin aller UND-Kinder klein ist, dann ist die Wahrscheinlichkeitgroß, dass für mindestens ein UND-Kind alle Literale nur von Einsen getroffenwerden. In diesem Fall ist das ODER-Gatter v erfüllt, und diesmal können wiruns v als ersatzlos gestrichen vorstellen.

– Was passiert aber, wenn die UND-Kinder von v einen mittelgroßen Fanin haben?Wir können nicht mehr davon ausgehen, dass die Restriktion ein UND-Kind vonv erfüllt, denn der Fanin ist zu groß. Die Situation ist brandgefährlich: Wir habenviel Komplexität durch die Setzungen aufgegeben, aber das ODER-Gatter v istnoch immer quick-lebendig!

Wenn wir eine Restriktion auf einen Schaltkreis S anwenden, dann können wir nicht daraufhoffen, alle Gatter der Tiefe zwei zu trivialisieren, aber wir können darauf hoffen dieseGatter weitgehend entschärft zu haben, nämlich jedes Gatter hochwahrscheinlich durcheinen Entscheidungsbaum geringer Tiefe darstellen zu können.


Definition 5.4 Die Funktion f : 0, 1n → 0, 1 sei gegeben. Ein Entscheidungsbaum Tfür f ist ein geordneter binärer Baum mit den folgenden Eigenschaften:

(a) Jeder innere Knoten ist mit einer Eingabeposition i ∈ [n] markiert. Die Kante zumlinken Kind ist mit xi = 0, die Kante zum rechten Kind mit xi = 1 beschriftet.

(b) Jedes Blatt ist mit einem Bit markiert.

(c) Eine Eingabe x ∈ 0, 1n beschreibt einen in der Wurzel beginnenden und in einemBlatt bx endenden Weg in T : Der Funktionswert f(x) muss für alle Eingaben x mitder Markierung des Blatts bx übereinstimmen.

Die Tiefe des Entscheidungsbaums ist die Länge des längsten Weges von der Wurzel zueinem Blatt.

Ein Entscheidungsbaum gibt also die Möglichkeit, eine Boolesche Funktion kompakt zubeschreiben. Für eine DNF f = ∨

i∈I mi bezeichnen wir max |mi| als den Bottom Faninvon f : Der Bottom Fanin ist also die maximale Anzahl von Literalen in einem Monom mi

von f . Analog definieren wir den Bottom Fanin einer KNF f = ∧i∈I ki als die maximale

Anzahl von Literalen in einer Klausel von f .Wir werden jetzt einen überraschenden Zusammenhang zwischen der Tiefe von Entschei-dungsbäumen und dem Bottom Fanin von DNFs oder KNFs aufdecken.

Lemma 5.1 Sei T ein Entscheidungsbaum für eine Boolesche Funktion f der Tiefe t.Dann besitzt f eine DNF wie auch eine KNF mit jeweiligem Bottom fanin höchstens t.

Beweis: Angenommen, der Entscheidungsbaum T für die Boolesche Funktion f hat dieTiefe t. Warum besitzt f eine KNF mit Bottom Fanin höchstens t, also eine KNF mitKlauseln der Länge höchstens t? Betrachte einen Weg W in T , der in einem 0-Blatt endet.Wir können eine Klausel KW der Länge s formulieren, die wenn erfüllt sicherstellt, dassW nicht durchlaufen wird. Die Konjunktionen aller Klauseln KW für sämtliche 0-Wege Wist die von uns gewünschte KNF mit Klauseln der Länge höchstens t.T ist aber auch zu einer DNF mit Bottom Fanin höchstens t äquivalent, also zu einerDNF mit Monomen, die aus höchstens höchstens t Literalen bestehen. Für jeden 1-WegW , also für jeden Weg W , der in einem 1-Blatt endet, bilden wir dazu das Monom MW ,das nur erfüllt wird, wenn W durchlaufen wird. Die gewünschte DNF ist die Disjunktionaller Monome MW für 1-Wege W .

Stellen wir uns die umgekehrte Frage: Können wir zum Beispiel für eine DNF mit Bot-tom Fanin höchstens t auch stets einen Entscheidungsbaum der Tiefe höchstens t finden?Mitnichten, denn sogar der Bottom Fanin einer äquivalenten KNF explodiert unter Um-ständen. Betrachten wir dazu die simple DNF

f ≡n/2∨i=1

x2i−1 ∧ x2i


vom Bottom Fanin zwei. Die zu f äquivalente KNF f ′ muss sicherstellen, dass alle 2n/2Eingaben, die jedes Intervall 2i−1, 2imit genau einer Eins treffen, ausgeschaltet, und alleEingaben, die irgendein Intervall mit zwei Einsen treffen, akzeptiert werden. Jede Klauselder KNF f ′ muss damit mindestens ein positives Literal xj für j ∈ 2i − 1, 2i besitzenund kann deshalb nur eine Eingabe ausschalten, die jedes Intervall mit genau einer Einstrifft. Die KNF f ′ hat mindestens 2n/2 Klauseln, ihr Bottom Fanin ist deshalb mindestenslinear und jeder Entscheidungsbaum für f muss also auch lineare Tiefe besitzen!Wenn wir also zu einer DNF f mit Bottom Fanin t einen Entscheidungsbaum geringerTiefe finden möchten, dann müssen wir f zuerst die „Zähne ziehen“: Natürlich hoffen wir,dass genau das passiert, wenn wir eine zufällige Restriktion auf f anwenden. Haben wiraber die Zähne erfolgreich gezogen, dann winkt die Belohnung, denn durch weitere Anwen-dungen von Restriktionen könnten wir allen Gattern des Schaltkreises– und damit auchdem einen Ausgabegatter –einen Entscheidungsbaum nicht zu großer Tiefe zuweisen. Wirkönnen nicht erwarten, dass wir große Schaltkreise mit Hilfe von Restriktionen entschärfenkönnen, denn die gleichzeitige Entschärfung der vielen Gatter ist selbst bei einer zufälligenWahl von Restriktionen zu viel verlangt. Klappt dies aber für mittelgroße Schaltkreise,dann brauchen wir nur noch zu zeigen, dass die zu berechnende Zielfunktion nur Entschei-dungsbäume großer Tiefe besitzt, und wir haben nachgewiesen, dass die Zielfunktion nurgroße Schaltkreise besitzt!

5.1.1 Das Switching LemmaErinnern wir uns an die gefährliche Situation nach Anwendung einer Restriktion: EinODER-Gatter v besitzt relativ viele UND-Kinder mit „mittel-großem“ Fanin. UND-Kinder,deren Literale nur Einsen und Sterne erhalten, machen uns jetzt das Leben schwer. Unsereeinzige Hoffnung ist, dass die Anzahl dieser Kinder klein ist, denn in diesem Fall hängtder Eltern-Knoten v von den hoffentlich nur wenigen Sternen in diesen unentschiedenenKindern ab. Ist dies der Fall, dann könnten wir die von v berechnete DNF in eine nichtzu große KNF überführen, die Schicht von v wäre zu einer UND-Schicht „gemorpht“ undkönnte mit der UND-Schicht der Eltern von v verschmolzen werden. S hätte eine Schichtweniger, und wir würden nach dem gleichen Prinzip den Schaltkreis S „platt machen“.Bloß, ist die Hoffnung nur weniger UND-Kinder mit Einsen und Sternen realistisch? Klar,wir sollten die Wahrscheinlichkeit für die Wahl eines Sterns im Vergleich zur Wahl einerNull oder Eins sehr viel kleiner machen. Aber wir dürfen nicht zu wenige Sterne wählen,denn nachfolgende Schichten sollten mit demselben Trick „gekippt“ werden. Wir müssendurchrechnen was passiert.Fassen wir zusammen: Wir nehmen an, dass die erste, also die auf die Eingabegatter fol-gende Schicht nur aus UND-Gattern besteht. Unsere Strategie ist die Anwendung einerzufällig ausgewürfelten Restriktion, verknüpft mit dem Versuch, die von Gattern der zwei-ten Schicht berechneten DNFs in KNFs zu überführen. Ist dies gelungen ohne die Größedes Schaltkreises zu stark zu erhöhen, dann haben wir eine Schicht eingespart, da wirdie zweite Schicht der vorigen ODER-Gatter, aber jetzigen UND-Gatter mit der dritten


Schicht der UND-Gattern verschmelzen können. Wir wiederholen unser Vorgehen bis wirden Schaltkreis herunter auf zwei Schichten kollabiert haben.Wir wissen, dass die Überführung einer DNF S in eine äquivalente KNF S ′ sehr teuer seinkann, die Überführung der DNF S|ρ, also der DNF S nach Anwendung der Restriktion ρ,in eine KNF moderater Größe wird deshalb im Allgemeinen nur dann gelingen, wenn S|ρnur noch von wenigen Variablen abhängt. Zur Kontrolle des Größenwachstum fordern wir,dass S und S ′ denselben moderat großen Bottom Fanin t besitzen. Und wenn der BottomFanin von Schaltkreis S anfänglich größer als t ist? Dann führen wir halt einmalig einezusätzliche Schicht in S ein, erhöhen die Tiefe um höchstens Eins und senken den BottomFanin sogar auf Eins.Aber wie messen wir von wievielen Variablen die DNF S|ρ abhängt? Natürlich, indemwir einen Entscheidungsbaum Tρ für S|ρ bauen und dann seine Tiefe analysieren. Wirgeben eine Bauanleitung für Tρ und nennen Tρ den kanonischen Entscheidungsbaum fürS|ρ. Wenn S|ρ entweder konstant Null (alle Monome wurden eliminiert) oder konstantEins (ein Monom wurde erfüllt) ist, dann besteht Tρ nur aus der Wurzel. In diesem Fallbeschriften wir die Wurzel mit dem entsprechenden Wert. Hat die Restriktion ρ die DNFnicht trivialisiert, dann ist ein jedes MonomMi entweder tot (Mi wurde durch ρ falsifiziert)oder lebendig (die Literale von Mi erhalten keine Null, aber mindestens einen Stern).Wir legen eine beliebige Reihenfolge auf den Monomen und Variablen fest. Die Konstruk-tion von Tρ beginnt mit dem ersten lebendigen Monom Mi, indem Tρ sukzessive nachallen gesternten Variablen von Mi gemäß der vorgegebenen Reihenfolge auf den Variablenverzweigen: Taucht l = (¬)xj in Mi gesternt auf, dann verzweigt Tρ nach dem Wert von l.

• Wenn l = 1, fahren wir rekursiv mit der nächsten gesternten Variable von Mi fort.Gibt es keine solche Variable, endet unsere Konstruktion, und wir markieren dasBlatt mit dem Wert 1: S|ρ wurde erfüllt.

• Wenn l = 0, fahren wir rekursiv mit dem nächsten lebendigen Monom Mj fort, dennwir haben gerade das Monom Mi falsifiziert. Gibt es kein solches Monom Mj, endetunsere Konstruktion, und wir markieren das Blatt mit dem Wert Null: Wir habenalle Monome von S|ρ falsifiziert.

Die Tiefe des kanonischen Entscheidungsbaums Tρ bezeichnen wir mit

depth(S|ρ).

Wir wissen, dass ein Entscheidungsbaum der Tiefe s zu einer DNF wie auch zu einer KNFmit Bottom Fanin s äquivalent ist. Gilt also depth(S|ρ) ≤ t für eine DNF S mit BottomFanin höchstens t, dann können wir S in eine KNF mit Bottom Fanin ebenfalls höchstenst umwandeln: Genau das ist unser Ziel!Wir formulieren das Switching Lemma, um die Frage zu beantworten für welchen BottomFanin t eine Umwandlung einer DNF in eine KNF (und umgekehrt) hochwahrscheinlich„klappt“. Das Switching Lemma ist der zentrale Teil unserer Analyse.


Lemma 5.2 Switching LemmaDie Parameter l, t ∈ N sind vorgegeben. S ist ein Schaltkreis der Tiefe zwei mit Bottom-Fanin höchstens t.Eine Restriktion ρ wird zufällig ausgewählt, indem l Positionen für die Platzierung derSterne ausgewürfelt werden. In den restlichen Positionen wird unabhängig voneinandereine Null oder Eins jeweils mit Wahrscheinlichkeit 1/2 zugewiesen. Dann gilt

pr[ depth(S|ρ) ≥ s ] ≤ (12ltn

)s.

Das Ergebnis sieht gut aus, wenn ltn<< 1 gilt, denn dann fällt die Wahrscheinlichkeit

einer großen Tiefe exponentiell mit s. Eine Umwandlung einer DNF in eine KNF, beiBottom Fanin t, gelingt somit hochwahrscheinlich, wenn die Wahrscheinlichkeit l/n füreine Sternsetzung hinreichend klein ist. Warum spielt der Quotient lt

neine anscheinend so

wichtige Rolle?

Die Wahrscheinlichkeit, dass eine zufällig ausgewürfelte Menge der Größe l eine vor-gegebene Menge der Größe t verfehlt, stimmt mit p =

(n−tl

)/(nl

)überein. Es ist

p = n−tn· · · n−t−l+1

n−l+1 ≈ (n−tn

)l = (1 − t/n)l ≈ e−tl/n. Nach Lemma 1.2 ist ex/(1−x) ≤1− x ≤ e−x und, falls lt << n gilt, stimmt 1− lt

napproximativ mit der Wahrschein-

lichkeit p überein: ltnist also ungefähr die Wahrscheinlichkeit, dass ein vorgegebenes

Monom von mindestens einem Stern getroffen wird.

Die Aussage des Switching Lemmas macht somit Sinn: Wenn die Wahrscheinlichkeit l/nfür einen Stern so niedrig ist, dass die meisten Monome verfehlt werden, dann ist mit hoherWahrscheinlichkeit entweder ein Monom erfüllt oder es gibt nur wenige lebendige Monome.

Beweis: Wir nehmen an, dass S eine DNF ist, die Argumentation im Fall von KNFs ver-läuft völlig analog. Wir nehmen des Weiteren an, dass die Restriktion ρ einen kanonischenEntscheidungsbaum Tρ der Tiefe mindestens s besitzt. Den lexikografisch ersten, in derWurzel von Tρ beginnenden Weg der Länge s nennen wir ∏.Wir ändern die Restriktion ρ ab, und nennen die neue Restriktion ρ′.

1. Alle in ρ auf Null oder Eins gesetzte Variablen werden unverändert in ρ′ übernommen.

2. s in ρ gesternte Variablen werden in ρ′ auf Null oder Eins gesetzt.

Und was ist der Clou? Bei entsprechend kleiner Wahrscheinlichkeit p für die Setzung einesSterns ist die Anzahl der abgeänderten Restriktionen ρ′ klein, denn in ρ′ werden einigeniedrig-wahrscheinliche Sterne durch hochwahrscheinliche Nullen oder Einsen ersetzt.

Einschub: Wir sind dabei die zentrale Beweisidee zu erreichen, nämlich eine kurze Be-schreibung von ρ durch die Setzung von s Sternen. Gibt das eine wirkliche Ersparnis, dennstatt der s Sterne müssen s zusätzliche Variablen auf Null oder Eins gesetzt werden?


Wieviele verschiedene Restriktionen ρ gibt es? Genau(nl

)2n−l Restriktionen gegenüber(

nl−s

)2n−(l−s) Restriktionen, wenn wir s Sterne auf Null oder Eins setzen. Der Quotient

(nl−s

)2n−(l+s)(

nl

)2n−l

≤ ( l

n− l)s2s = ( 2l

n− l)s

zeigt, dass die Ersparnis signifikant ist, wenn l = o(n). Aber wir können nicht einfachSterne in ρ′ willkürlich setzen: Wir müssen die schlechten Restriktionen ρ zählen, d.h. wirmüssen ρ aus ρ′ rekonstruieren können. In anderen Worten, die Menge der in ρ′ gesetztenSterne muss erkennbar sein!Wir ändern ρ in einer Reihe von Schritten. Wir beginnen mit dem nach der vorgegebenenMonom-Reihenfolge ersten lebendigen Monom M1 für ρ und setzen die Werte der von ρgesternten Variablen in M1 so, dassM1 erfüllt wird. Wenn wir ρ so verändern, dann istM1das erste erfüllte Monom und bleibt das erste erfüllte Monom auch wenn später weitereSterne von ρ gesetzt werden.

M1 ist als erstes erfülltes Monom von ρ′ eindeutig bestimmt!

Wir übernehmen diese Änderungsstrategie für alle weiteren, zu dem Zeitpunkt ihrer Be-handlung lebendigen MonomeM auf demWeg∏. Wie können wir ρ aus ρ′ zurückgewinnen?

1. Wir sind möglicherweise vom Weg ∏ abgewichen und müssen angeben, wie wir zumWeg ∏ zurückfinden. Wenn M1 genau s1 Sterne besitzt, dann gibt es genau 2s1 Mög-lichkeiten für die von ∏ gesetzten Variablen: Eine dieser 2s1 Möglichkeiten müssenwir angeben.Wenn wir im Verlauf unserer Änderungsstrategie Sterne in den Monomen Mj setzen,und wenn Mj zum Zeitpunkt seiner Behandlung sj Sterne besitzt, dann geben wirden Vektor

Zurück ∈ 0, 1s1+s2··· = 0, 1s

an, um für jedes Mj zum Weg ∏ zurückzufinden. Zurück ist also einer von 2s mögli-chen Vektoren.

2. Des Weiteren geben wir für alle Mj an, welche Variablen von Mj in ρ zum Zeitpunktder Behandlung von Mj gesternt waren. Wir werden mit kurzen Monomen arbeiten,und können deshalb die gesetzten Sterne billig rekonstruieren.Wie lang ist diese Zusatzinformation oder, formal gesprochen, wieviele Möglichkeitengibt es für die Wahl der Sterne in den lebendigen Monomen?

- Wir definieren die Menge

stars(t, s) = (β1, . . . , βk) | ∀i : βi ∈ ∗,−t, jedes βi besitzt mindestenseinen Stern und es gibt insgesamt s Sterne .


Interpretiere βj als die Angabe der Platzierung der Sterne in Mj. Insbesonderegibt es einen Vektor „Sterne“ ∈ stars(t, s), der alle in ρ′ gesetzten Sterne von ρbeschreibt.

- |stars(t, s)| ist die Anzahl der Möglichkeiten für die Wahl der Sterne in denlebendigen Monomen.

3. Die Zuordnung

ρ 7→ (ρ′,Zurück, Sterne) (5.1)

ist injektiv, denn wir können ρ aus ρ′ mit Hilfe der Zusatzinformationen „Zurück“und „Sterne“ rekonstruieren.

Die konzeptionelle Arbeit ist geleistet und die Rechnerei beginnt.Behauptung: |stars(t, s)| < (t/ ln(2))s

Beweis: Die reelle Zahl γ erfülle die Gleichung (1 + 1/γ)t = 2. Wir zeigen die Ungleichung

|stars(t, s)| < γs

durch Induktion über s. Es ist |stars(t, 0)| = 0 und die Ungleichung ist für s = 0 richtig.Der Induktionsschritt: Wenn β1 genau i Sterne besitzt, dann hat (β2, . . . , βk) genau s − iSterne, während es höchstens

(ti

)Platzierungen der i Sterne in β1 gibt. Wir kommen so

auf die Induktionsannahme zurück:

|stars(t, s)| =mint,s∑i=1

|stars(t, s− i)|

≤t∑i=1

(t

i

)γs−i = γs

t∑i=1

(t

i

)( 1γ

)i

= γs(

(1 + 1γ

)t − 1)

= γs.

Es ist (1 + 1/γ)t < et/γ mit Lemma 1.2 und deshalb folgt 2 < et/γ. Nach Logarithmierungfolgt γ < t/ ln(2).

Wieviele schlechte Restriktionen gibt es, also Restriktionen ρ für die der Entscheidungs-baum Tρ eine Tiefe von mindestens s besitzt? Die Anzahl dieser Restriktionen ist nach(5.1) beschränkt durch (

n

l − s

)2n−(l−s) · 2s · ( t

ln(2))s,

während die Anzahl der Restriktionen mit l Sternen(nl

)2n−l beträgt. Die Wahrscheinlich-

keit, eine schlechte Restriktion zu wählen, ist somit für l ≤ n/2 beschränkt durch(nl−s

)2n−(l−s) · 2s · ( t

ln(2))s(

nl

)2n−l

=

(nl−s

)2n−l · ( 4t

ln(2))s(

nl

)2n−l

=

(nl−s

)( 4t

ln(2))s(

nl

)


≤ ( l

n− l)s · ( 4t

ln(2))s ≤ ( 8ltn ln(2))s ≤ (12lt

n)s.

Das war zu zeigen.

Sei S ein Schaltkreis der Tiefe d und Größe g. Wir erhöhen die Tiefe um Eins und könnenannehmen, dass der Bottom Fanin höchstens t = 2 log2 g beträgt. Weiterhin können wiro.B.d.A. annehmen, dass die erste Schicht von S aus UND-Gattern Gattern besteht. Wirwenden das Switching Lemma mit der Sternwahrscheinlichkeit

p = l

n= 1

24t

an, um die Tiefe von S um Eins zu reduzieren. Die Wahrscheinlichkeit, dass irgendei-nes der höchstens g vielen DNFs der zweiten Schicht einen Entscheidungsbaum der Tiefemindestens t = 2 log2 g besitzt, ist höchstens

g(12ltn

)2 log2 g = g(1224)2 log2 g = g

g2 = 1g.

Mit Wahrscheinlichkeit 1− 1ghaben wir somit für alle Knoten der zweiten Schicht Entschei-

dungsbäume der Tiefe höchstens t erhalten und können alle DNFs der zweiten Schicht inKNFs der Länge höchstens t umwandeln. Es verbleiben l = n

24t gesternte, also ungesetzteVariablen.Wir wenden dieses Argument d−2 Mal an und haben die Tiefe auf zwei bei einem BottomFanin von 2 log2 g reduziert. Es verbleiben n/(24t)d−2 gesternte, also ungesetzte Variablen.

Satz 5.3 Sei S ein Schaltkreis der Tiefe d und Größe g.S ist nach Anwendung zufälliger Restriktionen mit Wahrscheinlichkeit mindestens 1 − d

g

äquivalent zu einem Schaltkreis der Tiefe zwei mit Bottom Fanin höchstens 2 log2 g. Genaun/(48 log2 g)d−2 Variablen sind frei.

5.1.1.1 Die Paritätsfunktion

Wir fahren die Ernte ein und betrachten die Paritätsfunktion xorn = ⊕ni=1xi. Wenn wir eineRestriktion mit m Sternen auf xorn anwenden, erhalten wir mit xorm oder 1⊕ xorm eineweitere Paritätsfunktion. Eine DNF oder KNF erkennt aber nur dann eine Paritätsfunktionfehlerfrei, wenn der Bottom Fanin mit der Anzahl freier Variablen übereinstimmt.

Warum? Ein Monom, dessen Literalzahl kleiner ist als die Anzahl freier Varia-blen, akzeptiert Eingaben gerader wie auch ungerader Parität, die DNF arbeitetalso inkorrekt. Beachte, dass eine KNF für xorn eine DNF für 1⊕xorn bedingt:Auch KNFs für xorn müssen den Bottom Fanin n besitzen.

Es muss also2 log2 g ≥ n/(48 log2 g)d−2


bzw,n ≤ (48 log2 g)d−1

gelten.

Korollar 5.1 Jeder Schaltkreis der Tiefe d ≥ 2 für die Paritätsfunktion xorn benötigtmindestens

2Ω(n1/(d−1))

Gatter.

Aufgabe 51Welche Größe ist ausreichend, um xorn in Tiefe d zu bestimmen?

Aufgabe 52

(a) Welche Größe ist notwendig, um majorityn in Tiefe d zu bestimmen? Welche Größeist ausreichend?

(b) Welche Größe ist notwendig, um connectivity2,n in Tiefe d zu bestimmen? WelcheGröße ist ausreichend?

Bemerkung 5.1 Der Nachweis von unteren Größenschranken der Form 2ω(n1d−1 ) für Schalt-

kreise der Tiefe d ist ein seit Langem offenes Problem.

5.1.1.2 Die Empfindlichkeit von Schaltkreisen geringer Tiefe

In unserer letzten Anwendung zeigen wir, dass Schaltkreise beschränkter Tiefe nur Funk-tionen mit geringer Empfindlichkeit berechnen können. Zuerst betrachten wir Schaltkreiseder Tiefe zwei.

Lemma 5.3 Der Schaltkreis S sei eine DNF oder eine KNF mit jeweiligem Bottom Faninhöchstens t. Dann besitzt S die durchschnittliche Empfindlichkeit e ≤ 2t.

Beachte, dass wir keine Aussage über die Größe der DNF oder KNF machen, die FaninSchranke t allein ist schon ausreichend. O.B.d.A. gelte

S =∨~i

t∧j=1

(¬)xij .

Die Klammern drücken aus, dass eine Variable „möglicherweise“ negiert auftritt. Wenn Sdie Eingabe x akzeptiert, dann erfüllt x irgendein Monom ∧t

j=1(¬)xij . Aber alle „Nachbarn“x⊕ ek für k 6∈ i1, . . . , it werden auch akzeptiert und x besitzt die Empfindlichkeit ex ≤ t.Wir stellen uns die Eingaben als Knoten des n-dimensionalen Würfels vor. Sei E die Menge


der Kanten, die eine 1-Eingabe mit einer 0-Eingabe verbinden und Eins die Menge der 1-Eingaben.Nach Definition der Empfindlichkeit e gilt e = 2|E|/2n. Jede Kante in E verbindet eine1-Eingabe mit einer 0-Eingabe und deshalb folgt |E| ≤ t · Eins, denn jede 1-Eingabe hatja mindestens n− t 1-Nachbarn. Also folgt

e = 2|E|/2n ≤ 2t · Eins/2n ≤ 2t

und die Behauptung ist gezeigt.

Für den Fall beliebiger Tiefe geben wir uns wieder einen Schaltkreis S der Tiefe d und Größeg vor und wenden Satz 5.3 an. Wir erhalten nach Anwendung einer zufälligen Reduktionhochwahrscheinlich, nämlich mit Wahrscheinlichkeit mindestens 1− d

g, einen Schaltkreis S ′

der Tiefe zwei mit Bottom Fanin höchstens 2 log2 g. Genau n/(48 log2 g)d−2 Variablen sindfrei.Nach Lemma 5.3 besitzt S ′ die durchschnittliche Empfindlichkeit höchstens 4 log2 g. Wirarbeiten aber mit zufälligen Restriktionen. Wenn S also die durchschnittliche Empfind-lichkeit e besitzt, dann wird man erwarten, dass e nach Anwendung der Restriktion(en)auf

≈ e · n/(48 log2 g)d−2

n= e

(48 log2 g)d−2

fällt. Warum sollte man dies erwarten?

Aufgabe 53Eine Menge A ⊆ 1, . . . , n der Mächtigkeit a sei gegeben. Wenn wir eine TeilmengeB ⊆ 1, . . . , n der Mächtigkeit b gemäß der Gleichverteilung zufällig auswürfeln, dann ist

E[ |A ∩B| ] = Θ(a · bn

)

die erwartete Größe des Durchschnitts von A und B.

Also erhalten wir die Bedingung

4 log2 g = Ω( e

(48 log2 g)d−2 ).

Korollar 5.2 Ein Schaltkreis der Tiefe d und Größe g berechnet eine Funktion mit durch-schnittlicher Empfindlichkeit höchstens

O(log2 g)d−1.

Schaltkreise konstanter Tiefe und polynomieller Größe besitzen also höchstens die durch-schnittliche Empfindlichkeit logO(1)

2 n.


5.1.2 Approximation durch Schaltkreise beschränkter TiefeWir haben in Korollar 5.1 bereits eine qualitative Einschränkung von Schaltkreisen be-schränkter Tiefe festgestellt. Wir versuchen eine weitere strukturelle Eigenschaft abzulei-ten, um beurteilen zu können, wie gut Funktionen mit großer Empfindlichkeit approximiertwerden.

Unser Ziel ist eine Zerlegung des n-dimensionalen Würfels in nicht zu vieleTeilwürfel, so dass der Schaltkreis S auf jedem Teilwürfel konstant ist.

Die Paritätsfunktion xorn ist nur auf ein-elementigen Teilwürfeln konstant: Wir erhalteneine Aussage darüber wie schlecht xorn durch einen zu kleinen Schaltkreis S approximiertwird.Beachte, dass sich Teilwürfel und Restriktionen ein-eindeutig entsprechen: Wir können denSchaltkreis S über einem Teilwürfel auswerten oder eine entsprechende Restriktion auf Sanwenden. Wir produzieren deshalb eine Würfelzerlegung mit Hilfe von Restriktionen,indem wir zuerst Restriktionen ρ zufällig auswürfeln. Danach verfeinern wir jedes ρ mitHilfe eines „gemeinsamen“ Entscheidungsbaums Tρ. In Tρ verzweigen wir nacheinander füralle DNFs (Si | 1 ≤ i ≤ g) von S, also für alle Gatter der Tiefe zwei. Allerdings werdenEingaben herausgefiltert, die eine nur geringe Tiefe t im kanonischen Entscheidungsbaumfür Si|ρ besitzen. Damit erreichen wir, dass

sämtliche DNFs Si|ρ auf allen Wegen von Tρ zu KNFs mit Bottom Fanin täquivalent sind. Uns interessiert mit welcher Wahrscheinlichkeit (über die Wahlvon ρ) die Tiefe von Tρ wie groß ist.Insbesondere sind wir an extrem kleinen Fehlerwahrscheinlichkeiten interes-siert, dass irgendeine DNF nicht zu einer „t-KNF“ äquivalent ist. Um dies zuerreichen, sind wir bereit eine große Anzahl weiterer Anfragen in Tρ zu stellen.Lemma 5.4 beschreibt das genaue Resultat unserer Konstruktion.

Der Schaltkreis S habe die Größe g und sein Bottom Fanin sei höchstens t = 2 log2 g.Um die Beschreibung von Tρ zu vereinfachen, erlauben wir, dass Tρ neben Restriktionenauch nach KNFs mit Bottom Fanin höchstens t verzweigt. Ein Weg in Tρ wird damitdurch eine Restriktion und möglicherweise mehrere KNFs mit Bottom Fanin t beschrieben.(Warum KNFs? Eine Konjunktion mehrerer KNFs mit Bottom Fanin t ist äquivalent zueiner einzigen KNF mit Bottom Fanin t.)

Ein Weg W in Tρ wird also durch eine Restriktion ρW und höchstens eine KNFKW mit Bottom Fanin höchstens t beschrieben.

Wenn wir es geschafft haben, dass auf jedem Weg alle DNFs Si|ρ zu KNFs vom BottomFanin t äquivalent sind, dann können wir die zweite Schicht von S mit der dritten ver-schmelzen. Wir wiederholen unser Vorgehen, bis S o.B.d.A. mit einer KNF äquivalent ist.Mit einer letzten Restriktion machen wir für jeden WegW im gemeinsamen Entscheidungs-baum beide KNFs, also die mit S äquivalente KNF und die KNF KW in der Beschreibung


von W „platt“: Der Weg W ist jetzt mit einer Restriktion, bzw. mit einem Teilwürfeläquivalent. Wir haben unser Ziel erreicht, wenn der gemeinsame Entscheidungsbaum hoch-wahrscheinlich nicht zu tief ist, weil damit der Schaltkreis S auf nicht zu vielen Wege, bzw.Teilwürfeln konstant ist.Wie wird der gemeinsame Entscheidungsbaum Tρ konstruiert? In Tρ arbeiten wir die DNFsSi|ρ in Folge ab. Angenommen, wir haben die ersten i−1 DNFs abgearbeitet und den BaumT i−1ρ konstruiert. Für ein Blatt v von T i−1

ρ bestimmen wir den kanonischen Entscheidungs-baum T vρ (Si) von Si|ρ, wobei natürlich die auf dem Weg nach v gesetzten Variablen dieKonstruktion von T vρ (Si) beeinflussen. Wir verzweigen in v nach der Länge des Weges inT vρ (Si), den eine Belegung x beschreibt:

1. x wird an das linke Kind v0 von v genau dann weitergeleitet, wenn x einen Weg derLänge höchstens t in T vρ (Si) beschreibt; wir sagen, dass x den „kurzen Weg für Si|ρ“durchläuft.Wir machen v0 zu einem Blatt von T iρ, die Konstruktion von T iρ ist somit für Bele-gungen, die kurze Wege durchlaufen, trivial. Wir sind zufrieden, weil die Menge allerBelegungen, die v0 erreichen, durch einen Entscheidungsbaum der Tiefe höchstens tbeschrieben wird: Si|ρ ist auf Eingaben mit kurzen Wegen mit einer KNF mit BottomFanin t äquivalent.Wir verzweigen von v nach v0 mit Hilfe der KNF

kvi (x) =∧

l ist ein Nichtblatt der Tiefe tcl,

wobei die Klausel cl von einer Belegung x genau dann erfüllt ist, wenn x den Knotenl von T vρ (Si) nicht erreicht. Beachte, dass kvi eine KNF mit Bottom Fanin t ist.

2. Ansonsten wird x an das rechte Kind v1 weitergeleitet, und wir sagen, dass x einen„langen Weg für Si|ρ“ durchläuft. Diesmal müssen wir weiter bauen: Wir klebenT vρ (Si) an das Kind v1, entfernen aber natürlich alle Teilbäume, die nur von Belegun-gen mit kurzen Wegen durchlaufen werden: Wir setzen „short cuts“ ein, um innereKnoten vom Grad Eins zu überspringen.Da wir vollständig verzweigen, ist Si|ρ nach Erreichen eines Blatts im rechten Teil-baum sogar zu einer KNF mit Bottom Fanin 0 äquivalent. Wir verzweigen von vnach v1 mit Hilfe der KNF

lvi (x) =∧

l ist ein Blatt der Tiefe tcl,

wobei die Klausel cl genau dann von x erfüllt wird, wenn x das Blatt Knoten l vonT vρ (Si) nicht erreicht. Beachte, dass auch lvi eine KNF mit Bottom Fanin t ist.

Das linke Kind v0 ist kostenlos, das rechte Kind v1 hingegen ist richtig „teuer“, weil dieTiefe zu explodieren droht. Gleichzeitig sagt uns das Switching Lemma aber, dass eine zugroße Tiefe unwahrscheinlich ist.


Achtung: Wir zählen fortan in der Definition der Tiefe von Tρ keine Verzweigungen, diedurch KNFs verursacht werden.Wir wenden die Beweistechnik des alten Switching Lemmas an, um ein neues SwitchingLemma zu zeigen, dass eine ganze Schicht von DNFs gleichzeitig verarbeitet.

Lemma 5.4 (Si | 1 ≤ i ≤ g) sei eine Folge von DNFs mit Bottom Fanin höchstenst = 2 log2 g. Wir betrachten Restriktionen mit genau l Sternen, wobei 1/4 < lt/n < 1/3gelte; Nullen und Einsen sind gleichwahrscheinlich.

(a) Auf jedem Weg von der Wurzel von Tρ zu einem Blatt ist jede DNF Si mit einer KNFvom Bottom Fanin t äquivalent.

(b) Es gibt eine Konstante c < 1, so dass Tρ einen Weg der Länge mindestens s mitWahrscheinlichkeit höchstens

O( ltn

)s = cs

besitzt. (KNFs werden in der Weglänge nicht mitgezählt.)

Die entsprechende Aussage für eine Folge (Si | 1 ≤ i ≤ g) von KNFs mit Bottom Faninhöchstens t = 2 log2 g gilt ebenfalls.

Beweis: Sei π der lexikografisch erste, in der Wurzel von Tρ beginnende und in einem Blattendende Weg der Länge s. Beachte, dass π für jedes i entweder einen kurzen Weg für Si|ρdurchläuft oder einen langen Weg. Um π zu beschreiben, genügt es

1. die DNFs Si offenzulegen, für die π einen langen Weg durchläuft und

2. π eingeschränkt auf jede solche „lange“ DNF zu beschreiben, denn π ist für alle nach-folgenden „kurzen“ DNFs festgelegt: Es ist jeweils die eine kurze Kante zu durchlau-fen.

Diesmal müssen wir also nicht nur die veränderte Restriktion ρ′ angeben, beschreiben wel-che Variablen eines erfüllten Monoms in ρ gesternt waren und den „Weg zurück“ festlegen,

sondern wir müssen auch diejenigen Indizes i offen legen, für die π einen langenWeg in Si|ρ nimmt.

Aber wir haben Glück, denn die Wahrscheinlichkeit, dass der kanonische Entscheidungs-baum für Si|ρ eine Tiefe größer als 2 log2 g besitzt, ist höchstens O(lt/n)2 log2 g. Der “Profit”O(lt/n)2 log2 g übertrifft die „Kosten“ g, um i offenzulegen, denn

g ·O(lt

n

)2 log2 g

= O

(lt

n

)2 log2 g

,

falls lt < n. Die Behauptung ist aber im Fall lt ≥ n offensichtlich.


Wir definieren einen neuen Entscheidungsbaum T . Im Baum T verzweigen wir zuerst nacheiner zufälligen Restriktion ρ und verfeinern ρ mit Hilfe von Tρ. Wieviele Blätter besitzt T?Wie üblich setzen wir t = 2 log2 g und wählen die Anzahl l der Sterne proportional zu n/t:Wenn der Proportionalitätsfaktor klein ist, dann stimmt lt

nmit einer kleinen Konstante

c überein. Wir müssen fordern, dass nicht zu viele gesternte Variablen in T gesetzt sind,um weitere Schichten von S mit neuen Restriktionen zu kippen. Genau diese Forderungerreichen wir mit Lemma 5.4, wenn wir s = αn/t für eine geeignete Konstante α setzen,denn ein kleiner, aber konstanter Prozentsatz der Anzahl gesternter Variablen wird nurmit Wahrscheinlichkeit 2−O(n/t) gesetzt. T besitzt also höchstens

2n−O(n/t)

Blätter.Wir können alle DNFs in KNFs mit Bottom Fanin t umwandeln und können die zweite unddritte Schicht von S verschmelzen. Wir wiederholen unser Verfahren, indem wir eine neueRestriktion auf die verbleibenden gesternten und in T nicht gesetzten Variablen anwenden.Auch diesmal arbeiten wir natürlich mit Bottom Fanin t = 2 log2 g und wählen die Anzahlneuer Sterne proportional zu n

t2, also dem 1/t-fachen der Anzahl nicht gesetzter Variablen.

Mit analogem Argument zeigt man, dass der entstehende Entscheidungsbaum

2n−O(n/t2)

Blätter besitzt. Nach mehrmaliger Anwendung unseres Verfahrens und finaler Umwandlungder beiden KNFs, nämlich der zu S äquivalenten KNF und der KNF die den jeweiligenWeg beschreibt, erhalten wir

Satz 5.4 Sei S ein Schaltkreis der Tiefe d und der Größe g. S besitze n Eingaben. Danngibt es eine Zerlegung des n-dimensionalen Würfels in höchstens

2n−n/O(log2 g)d−2

Teilwürfel, so dass S auf jedem Teilwürfel konstant ist.

Wir haben den Beweis bis auf wenige formale Details bereits erbracht. Schaltkreise kleinerTiefe sind damit strukturell sehr eingeschränkt, und das nutzen wir aus.

Definition 5.5 Die Korrelation einer Booleschen Funktion f : 0, 1n → 0, 1 mit einerBooleschen Funktion g : 0, 1n → 0, 1 ist genau dann c, wenn

pr[ f(x) = g(x) ] = 12 + c.

Wenn der Schaltkreis S auf einem Teilwürfel der Dimension größer als Eins konstant ist,dann ist die Korrelation von S mit xorn auf diesem Teilwürfel Null. Insgesamt ist dieKorrelation von S mit xorn deshalb höchstens

2n−n/O(log2 g)d−2/2n = 2−n/O(log2 g)d−2

.

(Bestenfalls besitzen alle 2n−n/O(log2 g)d−2 Teilwürfel die Dimension 1 und 2−n/O(log2 g)d−2 istdie (durchschnittliche) Korrelation.) Wir fassen unsere Ergebnisse zusammen.


Satz 5.5 Sei S ein Schaltkreis der Tiefe d und Größe g mit Bottom Fanin 2 log2 g.

(a) Der n-dimensionale Würfel kann in höchstens

2n−(n/O(log2 g)d−2)

Teilwürfel zerlegt werden, so dass S auf jedem Teilwürfel konstant ist.

(b) Die Korrelation von S mit der Paritätsfunktion xorn ist durch 2−n/O(log2 g)d−2 be-schränkt, d.h. es gilt

pr[S(x) = xorn(x) ] ≤ 12 + 2−n/O(log2 g)d−2

.

Die Korrelation eines relativ kleinen Schaltkreises S der Tiefe d mit xorn ist somit sehrschwach.

5.1.3 Modp-Gatter: Approximation durch PolynomeWir wissen, dass die Paritätsfunktion xorn nicht in beschränkter Tiefe durch Schaltkreise„vernünftiger“ Größe berechnet werden kann. Der Grund hierfür ist im Switching Lemmaformuliert: Die „starren“ UND- und ODER-Gatter erlauben es Restriktionen, eine DNFhochwahrscheinlich in eine KNF von gleichem Bottom Fanin umzuwandeln. Was aber pas-siert, wenn wir zusätzlich ein modp Gatter verwenden, wobei

modp(x1, . . . , xn) =

1 falls ∑ni=1 xi 6≡ 0 mod p,

0 sonst.

(Wir nehmen im Folgenden stets an, dass p eine Primzahl ist.) Wenn modp(x1, . . . , xn) = 0,dann ist jeder Hamming-Nachbar von x eine 1-Eingabe und die Empfindlichkeit eines modp-Gatters ist also mindestens 2n/p: modp-Gatter sind also alles Andere als starr.Können wir immer noch zeigen, dass Schaltkreise beschränkter Tiefe exponentielle Grö-ße benötigen, wenn die Paritätsfunktion durch ¬,∧,∨,modp -Schaltkreise zu berechnenist? Die schlechten Nachrichten zuerst: Die Restriktionsmethode versagt, da modp-Gatterunempfindlich auf fixierte Eingabebits reagieren. Aber eine gänzliche andere Methode,nämlich die Approximation des Schaltkreises durch Polynome von nicht zu großem Grad,ist erfolgreich.

Lemma 5.5 Das Approximationslemma von Razborov-SmolenkySei S ein Schaltkreis mit ¬,∧,∨ und modp-Gattern. Wenn S die Größe g und die Tiefe dbesitzt, dann gibt es einen Vektorraum P von Polynomen mit Grad [(p− 1)t]d über Zp, sodass

∀x ∈ 0, 1n : prpoly∈P [ poly(x) 6= S(x) ] ≤ g

pt

gilt. Mit anderen Worten: Für jede Eingabe x, wenn wir ein Polynom „poly“ zufällig ausdem Raum P ziehen, dann stimmt der Schaltkreis hochwahrscheinlich mit poly(x) überein.


Beweis: Wir approximieren die Gatter von S sukzessive durch Polynome und beginnenmit Gattern G(y), die nur von den Eingabegattern y1, . . . , yn, 1− y1, . . . , 1− yn abhängen.Fall 1: G(y) = modp(y1, . . . , ym). Wir approximieren G(y) durch

G′(y) = (m∑i=1

yi)p−1 mod p.

Unsere Approximation ist fehlerfrei, denn zp−1 ≡ 1 mod p gilt für alle nicht durch p teil-baren natürlichen Zahlen z nach dem kleinen Satz von Fermat. Beachte, dass G′ den Gradp− 1 besitztFall 2: G(y) = ∨m

i=1 yi. Wähle Restklassen aji ∈ Zp zufällig aus und approximiere G durch

G′(y) = 1−t∏

j=1

(1− (

m∑i=1

ajiyi)p−1)

mod p.

Wenn (∑mi=1 a

jiyi)p−1 = 1 gilt, dann muss natürlich auch G(y) = ∨m

i=1 yi = 1 gelten und des-halb gilt die Implikation G′(y) = 1 ⇒ G(y) = 1. Andererseits ist pr[ (G′(y) = 0)∧(G(y) =1) ] ≤ p−t, denn wir führen t unabhängige Versuche mit Mißerfolgswahrscheinlichkeit 1/pdurch, und

pr[ G(y) 6= G′(y) ] ≤ p−t

folgt. Wir halten fest, dass G′ ein Polynom vom Grad (p− 1)t ist.Fall 3: G(y) = ∧m

i=1 yi. Wir würfeln wieder zufällige Restklassen aji ∈ Zp aus und approxi-mieren G diesmal durch

G′(y) =t∏

j=1

(1− (

m∑i=1

aji (1− yi))p−1)

mod p.

Wenn G(y) = ∧mi=1 yi = 1 ist, dann muss natürlich (∑m

i=1 aji (1− yi))p−1 = 0 gelten und des-

halb gilt die Implikation G(y) = 1 ⇒ G′(y) = 1. Andererseits ist pr[ (G(y) = 0)∧(G′(y) =1) ] ≤ p−t, denn auch diesmal führen wir t unabhängige Versuche mit Mißerfolgswahrschein-lichkeit 1/p durch. Als Konsequenz folgt

pr[ G(y) 6= G′(y) ] ≤ p−t.

Wir halten fest, dass G′ wieder ein Polynom vom Grad (p− 1)t ist.Wir haben bisher diejenigen Gatter G von S approximiert, die nur direkt von den Ein-gabebits abhängen, also nur Endpunkte von Wegen der Länge 1 sind. Wir nehmen jetztan, dass wir allen Gattern G, die Endpunkte von Wegen der maximalen Länge l sind, einPolynom vom Grad höchstens [(p − 1)t]l zugewiesen haben. Ist jetzt G ein Gatter, dasEndpunkt eines längsten Weges der Länge l + 1 ist, dann wiederholen wir unser bisheri-ges Vorgehen. Wir beachten, dass die Eingaben des Gatters G durch Polynome vom Gradhöchstens [(p− 1)t]l approximiert werden und erhalten ein Polynom vom Grad höchstens


[(p− 1)t]l+1, das G(x) mit Mißerfolgswahrscheinlichkeit höchstens g′p−t richtig voraussagt,wobei g′ die Anzahl der Gatter ist, von denen Gatter G abhängt.Die Behauptung folgt, wenn wir die Ergebnisse unserer Approximation auf das Ausgabe-gatter anwenden.

Wir haben für jede Eingabe x den Schaltkreis S durch ein Polynom vom Grad [(p− 1)t]dvorausgesagt und die Mißerfolgswahrscheinlichkeit war höchstens gp−t. Dann muss es aberein Polynom r vom Grad [(p − 1)t]d geben, das mit S auf einer Menge V ⊆ 0, 1n vonmindestens

(1− g

pt)2n

Eingaben übereinstimmt. Warum? Baue eine MatrixM , deren Zeilen mit Polynomen q ∈ Pund deren Spalten mit Eingaben x ∈ 0, 1n beschriftet sind: Setze M [q, x] = 1, wenn qeine falsche Voraussage für x berechnet, wenn also q(x) 6= S(x) gilt. Ist die Voraussage vonq richtig, dann setze M [q, x] = 0.Jede Spalte vonM hat höchstens den Anteil gp−t an Einsen und deshalb muss es eine Zeilemit einem Anteil von höchstens gp−t Einsen geben. Diese Zeile definiert das Polynom r.

Es genügt somit der Nachweis, dass Polynome vom Grad [(p−1)t]d über Zp dieParitätsfunktion nur auf weniger als

(1− g

pt

)2n Eingaben korrekt voraussagen

können, und wir erhalten Aussagen über die Mindestgröße von g.

Warum ist eine Approximation der Paritätsfunktion durch Polynome von relativ kleinemGrad schwierig? Wenn wir in Zp den Eingabebereich 0, 1n = 0 mod p, 1 mod pn durchden Eingabebereich −1, 1n = p − 1 mod p, 1 mod pn, ersetzen, dann wird die Paritätzur Multiplikation! Um dies einzusehen, betrachten wir die auf Zp definierte TransformationT : −1, 1n → 0, 1n mit

T (x) = (1− x1

2 , . . . ,1− xn

2 ).

Beachte, dass T eine -1 in eine 1 und eine 1 in eine 0 überführt und es ist deshalb

⊕mi=1T (x)i = 1 ⇔m∏i=1

xi = −1.

Lemma 5.6 Sei S ein Schaltkreis mit ¬,∧,∨ und modp-Gattern für die Paritätsfunktion.S habe die Tiefe d und die Größe g.Dann gibt es eine Menge U ⊆ −1, 1n mit mindestens (1− g

pt)2n Elementen, so dass jede

Funktion f : U → Zp durch ein Polynom vom Grad (n+∆)/2 mit ∆ = [(p−1)t]d berechnetwerden kann.

Beweis: Sei S ein Schaltkreis mit ¬,∧,∨ und modp-Gattern für die Paritätsfunktion xorn.Wir wissen dann mit Lemma 5.5 und den darauffolgenden Bemerkungen, dass es ein Po-lynom r vom Grad ∆ = [(p − 1)t]d gibt, das mit xorn auf einer Menge V ⊆ 0, 1n der


Mächtigkeit mindestens (1 − gpt

)2n übereinstimmt. Setze U = T−1(V ) und das Polynomq(y) = r(T−1(y)) stimmt auf U mit der Produktfunktion y1 · · · yn mod p überein.Eine Zwischenüberlegung: Für y ∈ −1, 1n gilt y2

i = 1 in jedem Körper. Also gilt

∏i∈I

yi =∏

i∈[n]\Iy2i

∏i∈I

yi = ∏i∈[n]\I

yi

(n∏i=1

yi

)= ∏i∈[n]\I

yi

q(y)

für alle y ∈ U .Jede Funktion f : U → Zp kann als ein Polynom pf vom Grad höchstens n geschriebenwerden. Wir können nach der Zwischenüberlegung jedes Monom von pf vom Grad d durchein Polynom vom Grad n− d+ ∆ ersetzen. Der Grad von pf lässt sich also auf

mind, n− d+ ∆ ≤ n+ ∆2

reduzieren.

Satz 5.6 Gegeben sei ein modp-Schaltkreis C der Größe g und der Tiefe d für die Pari-tätsfunktion. Dann gilt g = 2Ω(n1/2d).

Unsere untere Schranke ist damit im Vergleich zur Schranke 2Ω(n1/(d−1)) für ¬,∧,∨-Schaltkreise zwar schlechter, aber immer noch exponentiell groß und gilt für mächtigereSchaltkreise.Der Beweis von Satz 5.6 ist Inhalt der folgenden Aufgabe.

Aufgabe 54

1. Zeige, dass für die Anzahl M der Monome vom Grad höchstens (n+ ∆)/2 gilt:

M ≤ 2n−1 + ∆ ·(n

n/2

)= 2n−1 + Θ(∆ · 2n√

n).

2. Gegeben sei ein modp-Schaltkreis der Größe s und der Tiefe d für xorn. U ist die inLemma 5.6 beschriebene Menge.

(a) Zeige |U | ≤M .Hinweis: Was ist die Anzahl l der Funktionen f : U → Zp? Was ist die Anzahlk der Polynome über Zp mit Monomen vom Grad höchstens (n+∆)/2? Es mussl ≤ k gelten!

(b) Mit den Abschätzungen für |U | zeige s = 2Ω(n1/2d).

Wir definieren AC0[m] als die Klasse aller Funktionen, die durch Schaltkreisfamilien be-schränkter Tiefe und polynomieller Größe berechenbar sind, wobei neben den ¬,∧ und∨-Gattern noch modm Gatter benutzt werden können. Ist der Modulus m zusammenge-setzt, also keine Primzahl, ist unser Wissensstand besonders traurig, denn es ist noch nichteinmal bekannt ob AC0[m] 6= NP gilt!

5.2. DIE GRÖßE MONOTONER SCHALTKREISE 117

5.2 Die Größe monotoner SchaltkreiseWir nehmen in diesem Abschnitt an, dass alle betrachteten Schaltkreise den Fanin zweibesitzen.

Definition 5.6 (a) Für x, y ∈ 0, 1n gilt x ≤ y falls xi ≤ yi für alle 1 ≤ i ≤ n gilt.

(b) Eine Boolesche Funktion f : 0, 1n → 0, 1 ist genau dann monoton, wenn

f(x) ≥ f(y)

für alle Eingaben x, y ∈ 0, 1n mit x ≥ y gilt.

Es gibt viele Beispiele monotoner Funktionen. CLIQUEn,k : 0, 1(n2) → 0, 1 ist ein erstes

Beispiel: Die Adjazenzmatrix eines Graphen G mit n Knoten wird genau dann akzeptiert,wenn G eine Clique der Größe mindestens k besitzt. MATCHn,k ist ein zweites Beispiel:Die Adjazenzmatrix eines Graphen G mit n Knoten wird diesmal genau dann akzeptiert,wenn G ein Matching der Größe k, also k Kanten ohne gemeinsamen Endpunkt besitzt.

ll ll

l lEin Graph mit einem Matching der Größe zweiund einem maximalen Matching der Größe drei.

Als letztes Beispiel betrachten wir s → t ERREICHBARKEITn. Hier ist ein gerichteterGraph G mit n Knoten gegeben, und wir fragen, ob G einen Weg vom Knoten s zumKnoten t besitzt. In allen drei Beispielen wird ein Graph weiterhin akzeptiert, wenn neueKanten hinzugefügt werden.Wir sagen, dass ein Schaltkreis S genau dann monoton ist, wenn S nur aus ∧- und ∨-Gattern besteht.

Lemma 5.7 Die Boolesche Funktion f ist genau dann monoton, wenn f durch einenmonotonen Schaltkreis berechnet wird.

Warum? Wenn wir eine disjunktive Normalform für f bauen, dann fügen wir für jede 1-Eingabe v ein Monom hinzu, das genau die Eingabe v akzeptiert. Wenn aber vi = 0, dannkönnen wir den „Faktor“ ¬zi entfernen, denn f bleibt wahr wenn wir vi „flippen“. Alsokann die DNF für f durch einen monotonen Schaltkreis berechnet werden. Umgekehrt,wenn der monotone Schaltkreis S die Funktion f berechnet, dann zeigt man durch eineInduktion über die Gatterzahl von S, dass f monoton ist.

Wir sind, wie auch im Fall unbeschränkter Schaltkreise, an Tiefe und Größe der diesmalmonotonen Schaltkreise interessiert.


Definition 5.7 (a) Für eine monotone Boolesche Funktion f : 0, 1n → 0, 1 definie-ren wir die minimale Tiefe

DEPTH+(f) = min d | Es gibt einen monotonen Schaltkreis der Tiefe d für f

und die minimale Größe

SIZE+(f) = min s | Es gibt einen monotonen Schaltkreis der Größe s für f .

(c) Für Funktionen d, s : N→ N, s : N→ N definieren wir

DEPTH+(d) = L ⊆ 0, 1∗ | DEPTH+(L ∩ 0, 1n) = O(d(n))

und

SIZE+(s) = L ⊆ 0, 1∗ | SIZE+(L ∩ 0, 1n) = O(s(n))

Monotone Funktionen können durch bestimmte ausgezeichnete Eingaben, nämlich ihreMin- und Maxterme vollständig beschrieben werden.

Definition 5.8 Die Boolesche Funktion f : 0, 1n → 0, 1 sei monoton und x ∈ 0, 1nsei eine Eingabe. Dann heißt x genau dann ein Minterm von f , wenn f(x) = 1 undf(x′) = 0, wann immer x′ < x. Wenn f(x) = 0 und f(x′′) = 1, wann immer x < x′′, dannnennen wir x einen Maxterm.

Ein Minterm ist also eine 1-Eingabe x, so dass x nach dem Flippen einer beliebigen Einszu einer 0-Eingabe wird. Beachte, dass wir bereits eine DNF für die Funktion f erhalten,wenn wir Monome „ver-odern“, die jeweils einem Minterm entsprechen. Analog erhaltenwir eine KNF, wenn wir alle Klauseln „ver-unden“, die jeweils einen Maxterm ausschließen.

Beispiel 5.1 Wir betrachten das Matching-Problem MATCHn,k. Die Minterme entspre-chen den möglichen Matchings der Größe genau k.Für jede Knotenmenge I ⊂ 1, . . . , n der Größe k − 1 sei BI der Graph, der alle Kantenmit mindestens einem Endpunkt in I besitzt. Der Graph BI ist ein Maxterm und jederMaxterm ist ein Graph BI

Beispiel 5.2 Wir betrachten s ∗→ t Erreichbarkeitn. Minterme entsprechen den Wegen vons nach t.Wie sehen Maxterme aus? Für alle disjunkten Mengen S und T mit s ∈ S, t ∈ T undS ∪ T = V bauen wir den Graphen G(S, T ), der bis auf Kanten zwischen einem Knoten inS und einem Knoten in T alle möglichen Kanten besitzt. Die Menge der Maxterme stimmtüberein mit der Menge aller Graphen G(S, T ).

Wir zeigen eine exponentielle untere Schranke für die Größe monotoner Schaltkreise, diedas Clique Problem lösen.


Satz 5.7 Sei k = n1/4. Dann gilt

SIZE+(Cliquen,k) = nΩ(n1/8).

Wenn wir die Einschränkung auf monotone Schaltkreise fallen lassen könnten, hätten wirP 6= NP gezeigt. Haben wir mit diesem Ergebnis zumindest Fortschritt im Hinblick auf dieFrage P 6= NP gemacht? Jein, denn leider gibt es monotone Sprachen in P, für die jedermonotone Schaltkreis exponentielle Größe besitzen muss; ein Beispiel einer solchen Spracheist die Frage, ob ein Graph ein Matching einer bestimmten Mindestgröße besitzt.Für den Beweis von Satz 5.7 benötigen wir zuerst das Konzept der Sonnenblumen.

Definition 5.9 Eine (p, l)-Sonnenblume ist eine Familie s1, . . . , sp von p Mengen, diewir Blätter nennen und eine Menge s, die Blüte. Jede Menge besteht aus höchstens l Ele-menten und wir fordern, dass zwei verschiedene Blätter sich in derselben Menge, der Blüteder Sonnenblume, schneiden.

Fakt 5.1 Das Erdös-Rado Lemma.Sei I eine Familie von mindestens (p− 1)l · l! Mengen der Mächtigkeit höchstens l. Dannenthält I eine (p, l)-Sonnenblume.

Beweis: Wir führen eine Induktion über l. Die Behauptung ist offensichtlich für l = 1, dasich zwei verschiedene Einser-Mengen stets in derselben Menge, nämlich der leeren Menge,schneiden.Sei also l > 1. Die Teilmenge J ⊆ I bestehe aus paarweise disjunkten Teilmengen. Zu-sätzliche sei J maximal, jede Teilmenge schneidet also mindestens eine Teilmenge aus Jin mindestens einem Element. Wir können annehmen, dass J aus weniger als p Mengenbesteht, da wir ansonsten eine Sonnenblume mit leerer Blüte gefunden haben. Wir setzen

t =⋃s∈J

s

und beachten, dass |t| ≤ (p − 1) · l. Weiterhin schneidet t jede Menge in I, denn J warmaximal mit der Eigenschaft aus disjunkten Mengen zu bestehen. Also gibt es ein Elementd ∈ t, das für den Schnitt mit mindestens

|I|(p− 1) · l ≥

(p− 1)l · l!(p− 1) · l = (p− 1)l−1 · (l − 1)!

Mengen in I verantwortlich ist. Sei K die Unterfamilie von I, die aus allen Mengen besteht,die d enthalten. Wir entfernen d aus jeder dieser Mengen und bezeichnen die entsprechendeUnterfamilie mit K′. Dann besteht K′ aus mindestens (p−1)l−1 ·(l−1)! Mengen mit höchs-tens l − 1 Elementen. Wir finden, nach Induktionsannahme, eine (p, l − 1)-Sonnenblume.Aber damit haben wir nach dem Hinzufügen von d eine (p, l)-Sonnenblume gefunden.


Beweis von Satz 5.7: Wir setzen k = n1/4. Sei S ein vorgegebener monotoner Schaltkreisfür Cliquen,k. Wir werten S nur auf bestimmten Instanzen aus, nämlich den positiven undnegativen Beispielen.(1) Die positiven Beispiele sind die Minterme von Cliquen,k, also Cliquen der Größe k.

(2) Die negativen Beispiele sind Maxterme und zwar die kanten-maximalen, mit k − 1Farben färbbaren Graphen.

Wir repräsentieren ein negatives Beispiel durch die k − 1-Färbung der Knoten: Da dienegativen Beispiele kanten-maximal sind, haben wir Kanten zwischen je zwei verschiedengefärbten Knoten einzusetzen. Wir unterscheiden k − 1-Färbungen selbst dann, wenn ihrekanten-maximalen Graphen übereinstimmen, aber die Farben unterschiedlich zugeordnetsind.Wir haben k = n1/4 gewählt und setzen jetzt l = n1/8 sowie p = n1/8 · log2 n. Wir appro-ximieren die an den Gattern von S berechneten Booleschen Funktionen durch monotoneDNF mit höchstens M = (p − 1)l · l! Monomen der Länge l; eine Monotone DNF mithöchstens M Monomen der Länge höchstens l bezeichnen wir als (l,M)-Funktion. Eine(l,M)-Funktion „feuert“ somit, wenn ein Graph eine von höchstens M Cliquen der Größehöchstens l besitzt. Beachte, dass für genügend großes n,

M = (p− 1)l · l! < (p− 1)2·l < n13 ·n

1/8 (5.2)

gilt. Wir messen den Approximationsfehler auf den positiven und negativen Beispielen undzeigen überraschenderweise, dass sich nicht zu große monotone Schaltkreise durch dieserelativ einfachen (l,M)-Funktionen (auf den positiven und negativen Beispielen) rechtgut approximieren lassen. Insbesondere, wenn f1, f2 (l,M)-Funktionen sind, werden wir imBeweis von Behauptung 5.1 Operationen t und u definieren, die ein ODER, bzw. ein UNDapproximieren. Der Clou ist, dass sowohl f1t f2 wie auch f1u f2 wieder (l,M)-Funktionensind. Aus dieser Eigenschaft wird die Behauptung des Satzes folgen.Die Approximation der Gatterfunktionen werden schrittweise, gemäß der topologischenOrdnung der Gatter, durchgeführt. Ein Eingabegatter u wird durch sich selbst approxi-miert, und wir setzen Au = u. Wir nehmen induktiv an, dass wir an einem Gatter w, mitu und v als direkten Vorgängern, angelangt sind. Su und Sv seien die von S in u, bzw. vberechneten Booleschen Funktion. Ebenso seien Au und Av die Approximationen von Su,bzw. Sv.Wie gut sind unsere Approximationen? Im Vergleich zu den Operationen ∨ und ∧ verwerfensie nur wenige positive Beispiele und akzeptieren nur wenige negative Beispiele.

Behauptung 5.1 Die Gatter u und v seien die direkten Vorgänger von Gatter w.(a) Wenn Sw = Su ∨ Sv, dann gilt

pr[(Au t Av) (x) < (Au ∨ Av) (x) | x ist ein positives Beispiel ] = 0,

pr[(Au t Av) (y) > (Au ∨ Av) (y) | y ist ein negatives Beispiel ] ≤ 2Mp− 12−p.


(b) Wenn Sw = Su ∧ Sv, dann gilt

pr[(Au u Av) (x) < (Au ∧ Av) (x) | x ist ein positives Beispiel ] ≤ M2

(n−l−1k−l−1

)(nk

)pr[(Au u Av) (y) > (Au ∧ Av) (y) | y ist ein negatives Beispiel ] ≤ M2 · 2−p.

Beweis (a): w berechnet ein ODER.Die Familie Iu (bzw. Iv) bestehe aus allen in A(u) (bzw. A(v)) vorkommenden Cliquen,wobei wir eine Clique mit ihrer Knotenmenge identifizieren. Würden wir das ODER-Gatter„verlustfrei“ implementieren, dann würden wir alle Cliquen zu Mengen in

I = Iu ∪ Iv

verwenden. Leider werden wir im Allgemeinen die erlaubte Obergrenze von höchstens MCliquen überschreiten, und wir müssen eine genügend kleine Teilmenge von I auswählen.Wenn I mehr als M Ciquen besitzt, dann besitzt I eine (p, l)-Sonnenblume s1, . . . , sp.Wir ersetzen alle Blätter, also alle Mengen si, durch die Blüte der Sonnenblume. DieserProzess ist solange zu wiederholen bis höchstens M Cliquen verbleiben. Die Menge derverbleibenden Cliquen bezeichnen wir mit I ′. Damit haben wir die Approximation t desODER-Gatters mit der Definition⋃

c∈Iuc t

⋃d∈Iv

d =⋃e∈I′

e (5.3)

abgeschlossen. Wir müssen (5.3) und⋃c∈Iu

c ∨⋃d∈Iv

d =⋃e∈I

e (5.4)

vergleichen und beschränken uns zuerst auf den Ersetzungsprozess für eine einzige Sonnen-blume. Die Ersetzung der Blätter s1, . . . , sp durch die Blüte s führt zu einer vergrößertenAkzeptanz. Dieser Approximationsschritt akzeptiert damit mindestens alle in (5.4) akzep-tierten positiven Beispiele.Allerdings besteht die Gefahr der Akzeptanz negativer Beispiele, und wir müssen das Aus-maß dieser Gefahr bestimmen. Beachte, dass die Blätter si Cliquen entsprechen. Wenneine Färbung vor der Ersetzung verworfen wurde, dann enthält jedes der gerupften Blättermindestens zwei gleichfarbige Knoten. Führt das Rupfen der Blätter zur Akzeptanz, dannbesteht die Blüte s hingegen nur aus verschieden-gefärbten Knoten.Sei Gleich(sj) das Ereignis, dass sj zwei gleichgefärbte Knoten besitzt. Dann ist die Wahr-scheinlichkeit q eines in der Approximation (5.3) akzeptierten, aber in (5.4) weiterhinverworfenen negativen Beispiels beschränkt durch

q = prob[ Gleich(s1) ∧ · · · ∧ Gleich(sp) ∧ ¬ Gleich(s) ]


= prob[ Gleich(s1) ∧ · · · ∧ Gleich(sp) | ¬ Gleich(s) ] · prob[ ¬ Gleich(s) ]≤ prob[ Gleich(s1) ∧ · · · ∧ Gleich(sp) | ¬ Gleich(s) ]

=p∏i=1

prob[ Gleich(si) | ¬ Gleich(s) ].

Die letzte Gleichnung folgt, da die Blätter bis auf den Kern s disjunkt sind und der Pro-zess des Färbens der Blätter besteht, bis auf das Färbens des Kerns, aus unabhängigenExperimenten. Schließlich ist prob[ Gleich(si) | ¬ Gleich(s) ] ≤ prob[ Gleich(si) ], da wirdie Wahrscheinlichkeit einer Gleichfärbung nur reduzieren, wenn wir die Ungleichfärbungauf der Blüte fordern. Wir erhalten also insgesamt

q ≤p∏i=1

prob[ Gleich(si) ].

Die Wahrscheinlichkeit, dass zwei bestimmte Knoten von si durch eine (k − 1)-Färbunggleichgefärbt werden, ist offensichtlich 1

k−1 . Die Wahrscheinlichkeit, dass si zwei gleichge-färbte Knoten besitzt, ist somit höchstens

prob[ Gleich(si) ] ≤(l

2

)· 1k − 1 ≤

12 , (5.5)

da k = n1/4 und l = n1/8. Insgesamt gibt es (k − 1)n verschiedene (k − 1)-Färbungenund höchstens 2−p · (k − 1)n Färbungen werden durch die Verarbeitung einer einzigenSonnenblume verfälscht. Schließlich werden höchstens 2M

p−1 Sonnenblumen verarbeitet undwir haben Teil (a) der Behauptung erhalten.(b): w berechnet ein UND.Iu (bzw. Iv) bezeichnen wiederum alle in A(u) (bzw. A(v)) vorkommenden Cliquen. Wür-den wir das UND-Gatter „verlustfrei“ implementieren, dann müssten wir genau die Cliquenzu Mengen in

I = s ∪ t | s ∈ Iu, t ∈ Iv

verwenden. Aber wir arbeiten mit (l,M)-Funktionen und zwei Probleme treten auf. Zuerstbesitzt die Vereinigung s ∪ t möglicherweise mehr als l Elemente und zuletzt dürfen wirmaximal M Cliquen zulassen. Wir setzen also

I ′ = s ∪ t | s ∈ Iu, t ∈ Iv und |s ∪ t| ≤ l

und wiederholen die Bearbeitung von Sonnenblumen in I solange bis höchstens M Ele-mente verbleiben. Die Menge der verbleibenden Cliquen bezeichnen wir mit I ′′. Wir habendie Definition der Approximation⋃

c∈Iuc u

⋃d∈Iv

d =⋃e∈I′′

e (5.6)


abgeschlossen müssen diese Approximation mit⋃c∈Iu

c ∧⋃d∈Iv

d =⋃e∈I

e (5.7)

vergleichen. Wenn ein positives Beispiel im Approximationsschritt abgelehnt wird, aber in(5.7) akzeptiert wird, dann ist das positive Beispiel eine Obermenge einer entfernten Cliques ∪ t (mit |s ∪ t| = l∗ > l) für Cliquen s ∈ Iu und t ∈ Iv. Beachte, dass höchstens diepositiven Beispiele betroffen sind, die s ∪ t als Teilmenge enthalten. Aber damit sind nur(n−l∗k−l∗

)<(n−l−1k−l−1

)positive Beispiele von einer einzigen Entfernung betroffen. I besteht aus

höchstens M2 Mengen, und damit können insgesamt höchstens

M2 ·(n− l − 1k − l − 1

)

positive Beispiele im Approximationsschritt abgelehnt, aber in (5.7) akzeptiert werden.Zuletzt müssen wir die negativen Beispiele betrachten, die in der Approximation akzeptiert,aber in ((5.7)) verworfen werden. Eine akzeptierte k− 1-Färbung wird in I ′ richtig behan-delt, denn das Entfernen zu großer Mengen erschwert die Akzeptanz, und wir müssen nurdie Bearbeitung von Sonnenblumen genauer betrachten. Wir wissen bereits von der Unter-suchung der ODER-Gatter, dass höchstens 2−p · (k−1)n Färbungen nach der Verarbeitungeiner Sonnenblume neu akzeptiert werden. Insgesamt werden sicherlich nicht mehr als M2

Sonnenblumen verarbeitet und wir haben auch Teil (b) der Behauptung nachgewiesen. Wie gut approximiert die letzte Approximation A den Schaltkreis S?

Behauptung 5.2 Der monotone Schaltkreis S habe höchstens nc·n1/8 Gatter für eine hin-reichend kleine Konstante c > 0. Dann gilt

pr[ A(x) < S(x) | x ist ein positives Beispiel ] ≤ 0, 1pr[ A(y) > S(y) | y ist ein negatives Beispiel ] ≤ 0, 1.

Beweis: Zur Erinnerung, wir haben l = n1/8, k = n1/4 und p = n1/8 · log2 n gewählt.Weiterhin gilt mit (5.2) für genügend großes n, M < n

13 ·n

1/8 .Anfänglich, also für Eingabegatter approximieren wir exakt.Wir untersuchen zuerst die Approximation auf den positiven Beispielen. Nach Behaup-tung 5.1 unterschätzt ein einziger Approximationsschritt, im Vergleich zum Schaltkreis,höchstens M2 ·

(n−l−1k−l−1

)positive Beispiele. Aber

(nk

)M2 ·

(n−l−1k−l−1

) ≥ 1M2 · (

n− lk

)l = nΩ(n1/8)

und die Behauptung folgt, wenn S höchstens ncn1/8 Gatter hat und wir dementsprechendhöchstens ebenso viele Approximationsschritten durchführen müssen.


Jetzt zur Approximation auf den negativen Beispielen. Nach Behauptung 5.1 überschätztein einziger Approximationsschritt, im Vergleich zum Schaltkreis, höchstensM22−p·(k−1)nnegative Beispiele. Nach ncn

1/8 Approximationsschritten ist die Anzahl der im Vergleichzum Schaltkreis überschätzten negativen Beispiele auf allerhöchstens

ncn1/8M22−p · (k − 1)n = ncn

1/8

nΩ(n1/8) · (k − 1)n ≤ (k − 1)n10

angestiegen und das war zu zeigen.

Wenn sich ein nicht zu großer Schaltkreis im Hinblick auf das Unterschätzen positiver Bei-spiele wie auch im Hinblick auf das Überschätzen negativer Beispiele nur unwesentlich vonseiner Approximation unterscheidet, dann genügt zum Beweis von Satz 5.7 der Nachweis,dass jede Approximation in der Berechnung des Clique-Problems fast vollständig versagt.Und das tut sie!

Behauptung 5.3 Eine Approximation lehnt alle positiven Beispiele ab oder akzeptiertmindestens die Hälfte aller negativen Beispiele.

Beweis: Wenn eine Approximation nicht alle positiven Beispiele ablehnt, dann gibt eszumindest eine Clique s der Größe l und alle Graphen werden akzeptiert, die s als Cliquebesitzen. Wir wissen aus (5.5), dass eine (k−1)-Färbung mit Wahrscheinlichkeit mindestens12 keine zwei Knoten in s gleichfärbt. Also wird mindestens die Hälfte aller negativenBeispiele akzeptiert.

Bemerkung 5.2 Wenn mindestens ein positives Beispiel akzeptiert wird, dann akzeptie-ren (l,M)-Funktionnen mindestens die Hälfte aller negativen Beispiele. Nicht zu großeSchaltkreise werden durch (l,M)-Funktionen gut approximiert in dem Sinne, dass nicht zuviele negative Beispiele, im Vergleich zum Schaltkreis approximiert werden. Ein nicht zugroßer Schaltkreis schafft es somit nicht, „mit Maxtermen fertig zu werden“.

Dies ist auch ein wesentlicher Grund dafür, dass wir ein ODER approximie-ren können: Wenn der Schaltkreis schon sehr viele Fehler auf den Maxtermenmacht, dann werden unsere Approximationen nur wenige neue Fehler auf denMaxtermen hinzufügen.

Eine weitere Fehlerquelle in der Approximation ist das Verwerfen von Mintermen in derBehandlung eines UND-Gatters. Der Approximationsfehler ist darauf zurückzuführen, dasseine zu große Clique s∪ t entfernt wird. Aber es gibt halt nur wenige Minterme, die Ober-mengen von s ∪ t sind.

5.3. DIE KOMPLEXITÄT DER RESOLUTION 125

5.3 Die Komplexität der ResolutionDefinition 5.10 Ein Beweissystem für eine Sprache L ist eine effizient berechenbare Funk-tion

B : Σ∗ → Σ∗,so dass B(Σ∗) = L gilt. Für w ∈ L und ein b ∈ Σ∗ mit B(b) = w nennen wir b einenBeweis von w.

Wir interessieren uns für die Sprache L aller Tautologien. Gibt es Beweise höchstens poly-nomieller Länge? Ist die Antwort positiv, dann kann man einen Beweis nichtdeterministischraten und sodann effizient (deterministisch) verifizieren. Die Bestimmung von Tautologienist aber ein (unter polynomiellen Reduktionen) schwierigstes Problem in coNP und manüberlegt sich leicht, dass aus der Existenz kurzer Beweise die Beziehung coNP ⊆ NP unddamit auch coNP = NP folgt.

Satz 5.8 Es ist NP = coNP genau dann, wenn es ein Beweissystem gibt, so dass jedeTautologie τ in polynomieller Länge in τ beweisbar ist.

Aufgabe 55Zeige die Behauptung des Satzes.

Wir betrachten die Resolution, ein fundamentales Beweissystem zur Ableitung einer Klau-sel aus einem Axiomensystem von Klauseln.

Definition 5.11 Resolutionsbeweise.

(a) Ein Axiomensystem A = C1, . . . , Cr ist eine Menge von Klauseln.

(b) Eine Ableitung (oder ein Resolutionsbeweis) einer Klausel B aus dem AxiomensystemA ist eine Folge (C1, . . . , Cm) von Klauseln mit den folgenden Eigenschaften:

1. B = Cm.2. Für jedes k

(∗) ist Ck entweder ein Axiom, also eine Klausel in A, oder(∗) Ck ergibt sich durch Anwendung der Resolution aus früher abgeleiteten

Klauseln Ci und Cj (mit i, j < k), also

Ci = K1 ∨ x, Cj = K2 ∨ ¬x und Ck = K1 ∨K2.

(∗) oder Ck ergibt sich durch Abschwächung aus einer früher abgeleiteten Klau-sel Ci, also

Ci = K1 und Ck = K1 ∨K2.

Wir sagen, dass der Beweis die Länge m besitzt.


(c) Es gelte φ ≡ ∧ri=1Ci für Klauseln C1, . . . Cr. Wir sagen, dass φ eine Widerlegung derLänge m besitzt, wenn die leere Klausel aus A = C1, . . . , Cr durch einen Beweisder Länge m ableitbar ist.

Beachte, dass die Resolution die Soundness-Eigenschaft besitzt: Wenn die Klausel B ausC1, . . . , Cr ableitbar ist, dann ist C1∧· · ·∧Cr → B eine Tautologie. Insbesondere kann eineKNF-Formel φ nur dann widerlegt werden, wenn ¬φ eine Tautologie ist. Die Resolutionerfüllt auch die zweite wichtige Eigenschaft eines Beweissytems, sie ist nämlich vollständig:Wenn die DNF-Formel ¬φ eine Tautologie ist, dann kann φ widerlegt werden.

Aufgabe 56Zeige, dass eine KNF-Formel φ genau dann widerlegt werden kann, wenn ¬φ eine Tautologieist.

Wie lang sind Resolutionsbeweise? Wir betrachten ein für die Resolution besonders schwie-riges Problem, das Schubfach-Prinzip: Verteilt man n Objekte in m Fächer und ist n > m,dann gibt es mindestens ein Fach, das mehr als ein Objekt erhält. Hier ist eine entspre-chende Formalisierung mit Hilfe der Aussagenlogik.

(a) Wir arbeiten mit den aussagenlogischen Variablen pi,j für 1 ≤ i ≤ n und 1 ≤ j ≤ m.pi,j = 1 hat die beabsichtigte Bedeutung, dass Objekt i in Fach j gelegt wird.

(b) Wir haben zwei Typen von Klauseln.

(1) Die Klausel Ci = pi,1 ∨ pi,2 ∨ · · · ∨ pi,m ist genau dann erfüllt, wenn Objekt i in(mindestens) ein Fach gelegt wird.

(2) Die Klausel Ci,j,k = ¬pi,k ∨ ¬pj,k „fordert“ für i 6= j, dass Fach k nicht sowohlObjekt i wie auch Objekt j erhält.

Sei φn,m die Konjunktion aller gerade eingeführten Klauseln. Dann ist φn,m genau dannerfüllbar, wenn die n (n > m) Objekte auf die m Fächer verteilt werden, ohne dass einFach mehr als ein Objekt erhält. Wir fragen uns wie lang Resolutionsbeweise sein müssen,die φn,m widerlegen.Wir setzen m = n − 1. Wir akzeptieren sogar falsche Resolutionsbeweise, die möglicher-weise viel kürzer sind als richtige Beweise. Wir fordern von einem Resolutionsbeweis mitAxiomensystem C1, . . . , Cn ∪ Ci,j,m | 1 ≤ i 6= j ≤ n, 1 ≤ k ≤ m nämlich nur, dassdie am Ende bewiesene Klausel B falsch ist, wenn wir B für Matchings der Größe n − 1auswerten:

Die Belegung pi,j ist ein Matching der Größe n − 1 genau dann, wenn dieBelegung ausdrückt, dass n − 1 Objekte auf n − 1 Fächer bijektiv verteiltwerden. Die Belegung heißt i-kritisch, wenn Objekt i nicht verteilt wird.

Weil wir uns freiwillig auf diesen anscheinend sehr einfachen Beweistest einschränken, kön-nen wir annehmen, dass der Beweis keine Negation benutzt. Taucht nämlich das Literal

5.3. DIE KOMPLEXITÄT DER RESOLUTION 127

¬pi,j in einer Klausel des Beweises auf, dann können wir ¬pi,j durch ∨l 6=i pl,j ersetzen:

Objekt i landet nicht in Fach j, wenn dort bereits ein anderes Objekt landet.Einen Resolutionsbeweis, der keine Negation benutzt, nennen wir monoton. Die folgendeÜberlegung ist zentral.

Lemma 5.8 Jede monotone Wiederlegung von φn,n−1 besitzt eine Klausel mit mindestens2n2/9 Variablen.

Wir verschieben den Beweis und zeigen zuerst, dass diese anscheinend harmlose Überlegungextrem lange Resolutionsbeweise für das Schubfach-Prinzip erzwingt.

Satz 5.9 Die Komplexität der Resolution für das SchubfachprinzipJede Widerlegung von φn,n−1 mit Hilfe der Resolution erfordert Beweise der Länge min-destens 2n/24.

Nenne eine Klausel mit mindestens n2/11 Variablen lang. Lemma 5.8 besagt, dass es einelange Klausel gibt. Sei L die Anzahl langer Klauseln. Es muss eine Variable pi,j geben, sodass pi,j in mindestens

L · n2/11n(n− 1) ≥ L/11

langen Klauseln vorkommt. Wir setzen pi,j = 1 und alle Klauseln, die pi,j enthalten, sindwahr und können aus dem Beweis entfernt werden. Wir möchten nach dieser Setzung einneues Schubfach-Problem auf jetzt n − 1 Objekten erhalten und setzen deshalb pi,j′ = 0für j′ 6= j sowie pi′,j = 0 für i′ 6= i. Die verbleibenden Klauseln des monotonen Beweisesmüssen jetzt das Schubfach-Problem φn−1,n−2 beweisen.Wiederholen wir diesen Setzungsprozess t mal erhalten wir einen montonen Beweis für dasSchubfach-Problem φn−t,n−t−1. Wir wenden Lemma 5.8 an und erhalten eine Klausel desBeweises mit mindestens 2(n− t)2/9 Variablen. Wenn t ≤ n/3, dann ist

2(n− t)2

9 >2(2n)2

92 = 8n2

81 >n2

11 .

Die ersten n/3 Anwendungen dieses Setzungsprozesses eliminieren deshalb jedesmal min-destens ein Elftel aller langen Klauseln und es muss

L(10

11

)n/3≥ 1

gelten. Die Behauptung von Satz 5.9 folgt, wenn wir(1110

)n/3> 2n/24

beachten.

Beweis von Lemma 5.8: Wir führen das Fortschrittsmaß

Zeugen(C) = i | C wird von einer i-kritischen Belegung falsifiziert


für die Klauseln C des Beweises ein. Beachte, dass für die Klausel B am Ende des Beweises

|Zeugen(B)| = n

gelten muss. Wenn die Klausel Ck aus den Klauseln Ci und Cj gefolgert wird, gilt

|Zeugen(Ck)| ≤ |Zeugen(Ci)|+ |Zeugen(Cj)|,

denn jede Belegung, die Ck falsifiziert, muss Ci oder Cj falsifizieren. Wir greifen uns eineKlausel C für die n/3 < t = |Zeugen(C)| < 2n/3 gilt und zeigen, dass C mindestens t(n−t)Variablen besitzt. Die Behauptung folgt, da t(n− t) > 2n2/9.Angenommen, die i-kritische Belegung α falsifiziert C. Sei j eine beliebige Position, dieaber nicht zu Zeugen(C) gehört. Wir produzieren aus α eine j-kritische Belegung β wiefolgt: Wenn Objekt j für α in Fach l gelegt wird, dann lege für β stattdessen Objekt i inFach l; Objekt j wird keinem Fach zugeteilt. Da β j-kritisch ist, j aber nicht zu Zeugen(C)gehört, muss β die Klausel C erfüllen, während α die Klausel falsifiziert. Das bedeutetaber, dass pi,l in C vorkommt. Für jede Position i ∈ Zeugen(C) besitzt Ck also mindestensn− t Variablen pi,l und die Behauptung folgt.

Aufgabe 57Welche Eigenschaften der Resolution werden im Beweis ausgenutzt?

5.4 ZusammenfassungEin einfaches Abzählargument zeigt, dass

SIZE(f) = Ω(2nn

) und DEPTH(f) ≥ n−O(log2 n).

für die meisten Booleschen Funktionen f : 0, 1n gilt. Diese Schranken sind asymptotischexakt. Zum Beispiel gilt DEPTH(g) ≤ n+ dlog2 ne für jede Funktion g : 0, 1n → 0, 1 wieauch SIZE(g) = O(2n

n). Unglücklicherwiese kann man bis heute weder nicht-triviale Grö-

ßenschranken SIZE(f) = ω(n) noch nicht-triviale Tiefenschranken DEPTH(f) = ω(log2 n)für irgendeine Funktion f in der Klasse NP zeigen. Tatsächlich ist 5n − o(n) die größte,bisher bekannte untere Größenschranke für ein Problem in NP.Wir haben deshalb eingeschränkte Schaltkreisklassen, nämlich Schaltkreise von unbeschränk-tem Fanin, aber beschränkter Tiefe, sowie monotone Schaltkreise betrachtet.Wenn wir zufällige Restriktionen verwenden, also die große Mehrheit aller Positionen zu-fällig auf Null oder Eins und nur relativ wenige Positionen, nämlich l viele, unbestimmtlassen, dann kann, nach Anwendung der Restriktion, eine DNF mit Fanin t in eine KNFmit Fanin höchstens s umgewandelt werden. Diese Aussage gilt mit Wahrscheinlichkeitmindestens

1−(O(lt)n

)s


und ist Inhalt des Switching Lemmas. Das Switching Lemma war das zentrale Hilfsmittelum zu zeigen, dass „empfindliche“ Boolesche Funktionen große Schaltkreise bei beschränk-ter Tiefe verlangen. Insbesondere haben wir zeigen können, dass in Tiefe d und Größeg nur Funktionen mit Empfindlichkeit (englisch: sensitivity) O(log2 g)d berechnet werdenkönnen. Als eine weitere Konsequenz des Switching Lemmas haben wir gezeigt, dass dieParitätsfunktion xorn nur von Schaltkreisen der Tiefe d und Größe 2Ω(n1/(d−1)) berechnetwerden kann.Wir haben das Switching Lemma verschärft, indem wir versucht haben nicht nur ein einzi-ges DNF-Gatter in ein KNF-Gatter umzuwandeln, sondern alle DNF-Gatter eines Schalt-kreises, also alle Gatter der Tiefe zwei simultan umzuwandeln. Wir haben mit diesemAnsatz eine Zerlegung des n-dimensionalen Würfels in nicht zu viele Teilwürfel bestimmt,so dass der vorgegebene Schaltkreis auf jedem Teilwürfel konstant ist. Diese Zerlegungs-Eigenschaft haben wir benutzt, um die nur sehr schwache Korrelation eines Schaltkreisesder Tiefe d und Größe S mit der Paritätsfunktion nachzuweisen. Es gilt nämlich

pr[ S(x) = xorn ] ≤ 12 + 2−n/O(logd−1

2 g).

Wir haben monotone Schaltkreise für das Clique-Problem untersucht und haben insbeson-dere studiert, wie gut eine nicht zu große DNF den Schaltkreis approximiert. Wir haben dasSonnenblumen-Lemma von Erdös und Rado benutzt, um eine zu große DNF, die durchdie „Ver-Oderung“ oder durch die „Ver-Undung“ von DNFs entstanden ist, wieder aufdie Maximalgröße herunterzuschneiden. Die Ersetzung der Monome zu den Blättern einerSonnenblume durch das Monom zur Blüte der Sonnenblume akzeptiert mindestens so vieleMinterme wie zuvor, akzeptiert aber nicht zu viele Maxterme, die von den Ausgangs-DNFnicht akzeptiert werden.

Aber nicht zu große DNFs akzeptieren, bis auf triviale Ausnahmen, mindestensdie Hälfte aller Maxterme, und sie akzeptieren fast ebenso viele Maxterme wie„mittel-riesige“ Schaltkreise. Diese mittel-riesigen Schaltkreise haben somit eingroßes Problem im Verwerfen aller Maxterme.

Diese Eigenschaft haben wir gnadenlos ausgenutzt um nachzuweisen, dass jeder monotoneSchaltkreis für das Clique-Problem mindestens nΩ(n1/8) Gatter benötigt.Wir haben gezeigt, dass das Schubfach-Prinzip nur exponentiell lange Beweise besitzt. Hierwar vor Allem eine Überlegung wesentlich: Jeder Beweis besitzt eine Klausel mit sehr vielenVariablen, es gibt also „lange“ Klauseln im Beweis. Wir haben diese Überlegung benutzt,um zu folgern, dass eine Variable in einem konstanten Prozentsatz aller langen Klauselnauftritt. Wenn wir diese Variable geeignet setzen, haben wir den Beweis signifikant um diejetzt erfüllten Klauseln gekürzt, der restliche Beweis muss aber das Schubfachprinzip fürnur eine Dimension weniger beweisen.Im Abschnitt 7.4.5 zeigen wir ein erstaunlichen Zusammenhang zwischen der minimalenTiefe DEPTH+(f) und der minimalen Kommunikationskomplexität für das folgende, von


zwei Spielern Alice und Bob zu lösende Problem: Alice erhält eine Eingabe x mit f(x) = 1und Bob eine Eingabe y mit f(y) = 0. Ohne die Eingabe des jeweils anderen Spielers zukennen, müssen die Spieler kooperieren, um sich mit möglichst wenigen ausgetauschtenBits auf eine Position i mit xi 6= yi zu einigen. Wir benutzen diesen Zusammenhangzur Kommunikationskomplexität, um zu zeigen, dass jeder monotone Schaltkreis für dasMatching Problem Matchn,n mindestens Tiefe Ω(n) benötigt.

Kapitel 6

P 6= NP?

Seit den frühen 70er Jahren hat man erfolglos versucht zu zeigen, dass P eine echte Teilklassevon NP ist. Warum hat es keinen Erfolg gegeben? Vielleicht, weil P 6= NP zwar wahr, abernicht beweisbar ist? Vielleicht, weil P = NP in einigen „Berechnungswelten“ sogar wahr ist?

6.1 Rechnen mit OrakelnWir zeigen, dass P = NP in einigen „Berechnungswelten“ gilt. Und was, bitte schön, ist eineBerechnungswelt?

Definition 6.1 Sei A ⊆ Σ∗ eine Sprache.

(a) Eine Turingmaschine M mit Orakel A arbeitet wie eine gewöhnliche Ein-Band Turing-maschine; allerdings besitzt M ein zusätzliches Orakelband.Wenn das Orakelband mit der Eingabe w# beschrieben ist, dann wird in einem einzigenBerechnungsschritt mitgeteilt, ob w zur Sprache A gehört; die Beschriftung des Orakelbandsbenötigt andererseits eine Laufzeit proportional zur Länge der Anfrage.

(b) Sei K eine durch die Beschränkung einer Ressource (wie Laufzeit oder Speicherplatz)definierte Komplexitätsklasse. Dann ist KA die entsprechend definierte Komplexitätsklasse,wobei aber diesmal Fragen an das Orakel A zugelassen sind.

Wir erhalten also für jedes Orakel A eine neue Berechnungswelt. Wir machen einige ersteBeobachtungen. (coNP ist die Menge aller Sprachen L, deren Komplementsprachen zurKlasse NP gehören.)

Lemma 6.1 (a) Wenn A ∈ P, dann ist PA = P.

(b) Wenn A eine NP-vollständige Sprache ist, dann folgt NP ∪ coNP ⊆ PA.

(c) Wenn A eine PSPACE-vollständige Sprache ist, dann ist PA = NPA = PSPACE.

131

132 KAPITEL 6. P 6= NP?

Beweis (a). Die Inklusion PA ⊆ P ist offensichtlich, da eine Turingmaschine mit Orakel Adie eigenen Anfragen mit nur polynomiellem Mehraufwand auch selbst beantworten kann.Die umgekehrte Inklusion P ⊆ PA ist selbstverständlich.(b) Sei L eine beliebige Sprache in NP. Da A eine NP-vollständige Sprache ist, gibt es einedeterministische polynomiell zeit-beschränkte Turingmaschine M so dass

w ∈ L⇔M(w) ∈ A.

Also ist L ∈ PA und damit folgt NP ⊆ PA. Letztlich beachte, dass die Klasse PA für jedeSprache A unter Komplementbildung abgeschlossen ist, und wir erhalten coNP ⊆ PA.(c) Die Inklusion NPA ⊆ PSPACE ist offensichtlich, da A ∈ PSPACE und da NP ⊆ PSPACE. DieBeziehung PSPACE ⊆ PA folgt aus der PSPACE-Vollständigkeit von A, denn für jede SpracheL ∈ PSPACE gibt es eine deterministische polynomiell zeit-beschränkte Turingmaschine Mso dass

w ∈ L⇔M(w) ∈ A

gilt. Die Behauptung folgt.

Aus Teil (c) folgt, dass es Berechnungswelten gibt für die P und NP zusammenfallen. Kannman aber wenigstens eine Berechnungswelt finden, für die NP nachweislich mächtiger als Pist?

Satz 6.1 (a) Es gibt ein Orakel A mit PA = NPA.

(b) Es gibt ein Orakel A mit PA 6= NPA.

Beweis (a) ist bereits in Lemma 6.1 (c) nachgewiesen worden.(b) Wir konstruieren ein Orakel A, so dass die Sprache

LA = w | ∃x ∈ A (|x| = |w|)

zu NPA, nicht aber zu PA gehört. Offensichtlich ist LA ∈ NPA für jedes Orakel A erfüllt:Rate für Eingabe w einen String x gleicher Länge und akzeptiere genau dann, wenn x ∈ A.SeiM1,M2, . . . ,Mi, . . . , eine Auflistung aller Orakel-Turingmaschinen, die in polynomiellerZeit rechnen. Die Auflistung sei so gewählt, dass Mk in Zeit O(nk) rechne. Um LA 6∈PA zu garantieren, werden wir jede Turingmaschine Mk mit einem Diagonalisierargument„abschießen“: Wir stellen in Phase k sicher, dass sich Mk und LA auf mindestens einerEingabe w unterscheiden.Phase k: Wir nehmen an, dass wir die Maschinen M1, . . . ,Mk−1 bereits abgeschossenhaben und dass dabei nur Anfragen aus der Menge w1, . . . wm vom Orakel beantwortetwurden. Die natürliche Zahl n sei so groß gewählt, dass n > max|w1|, . . . |wm| gelte; eben-so sei auch 2n > nk. Wir versuchen, Mk auf der Eingabe 1n abzuschießen und simulierendazu Mk.Wenn Mk eine Anfrage y aus der Menge w1, . . . , wm stellt, dann wird die Anfrage kon-sistent beantwortet. Ist die Anfrage y hingegen neu, dann wird die Antwort Nein gegeben.

6.2. SCHWIERIGE, ABER NICHT VOLLSTÄNDIGE SPRACHEN IN NP 133

Fall 1: Mk akzeptiert 1n.Wir erzwingen 1n /∈ LA, indem wir alle Worte der Länge n für A ausschließen. Da Anfragender Länge n noch nicht gestellt wurden, ist unser Vorgehen konsistent mit den bisherigenAntworten.Fall 2: Mk verwirft 1n.Da Mk in Zeit nk < 2n rechnet, gibt es ein Wort u der Länge n, das von Mk (für Eingabe1n) nicht nachgefragt wurde. Wir definieren A so, dass u das einzige akzeptierte Wort derLänge n ist. Es ist also 1n ∈ LA, im Gegensatz zum Verhalten von Mk.

Bemerkung 6.1 Kann P 6= NP mit einem Diagonalisierargument bewiesen werden? UnserBeweis der Zeit-Hierarchie (Satz 1.4) „relativiert“, gilt also in jeder Berechnungswelt: Ankeiner Stelle im Beweis von Satz 1.4 fragen wir nach, wie denn die simulierte Turingma-schine rechnet. Aber die Aussage P = NP relativiert nicht, hängt, wie wir gerade gesehenhaben, von der jeweiligen Berechnungswelt ab.Ein Beweis von P 6= NP muss, wenn Diagonalisierungsargumente benutzt werden, zusätzlichandere Methoden nutzen. Mit diesen Methoden muss die Arbeitsweise der Turingmaschinegenau „unter die Lupe“ genommen werden.

6.2 Schwierige, aber nicht vollständige Sprachen in NP

Wir haben mit der NP-Vollständigkeit einen Glücksgriff getan, denn viele schwierige Proble-me haben sich als äquivalent erwiesen. Die Eigenschaft „NP-vollständig“ zu sein ist deshalbein sehr starkes Indiz für die erwiesene Schwierigkeit eines Problems. Für nur wenige, aberanscheinend sehr schwierige Probleme kann man bisher kein NP-Vollständigkeitsergebnisnachweisen. Zu diesen Problemen gehört die Graph-Isomorphie und das Faktorisierungs-problem. In beiden Fällen hat man sogar starke Indizien gefunden, die gegen eine NP-Vollständigkeit sprechen. Wir zeigen jetzt, dass es Probleme mit einem „mittleren“ Schwie-rigkeitsgrad in NP geben muss, solange P 6= NP gilt.

Satz 6.2 Es gelte P 6= NP. Dann gibt es eine Sprache L ∈ NP \ P, die nicht NP-vollständigist.

Beweis: Für eine noch zu konstruierende Funktion H : N → N zeigen wir, dass eineVariante

SATH = φ 0 1nH(n) | |φ| = n und die aussagenlogische Formel φ ist erfüllbar

des Erfüllbarkeitsproblems weder NP-vollständig ist noch in P liegt. SATH ist „im Grun-de“ identisch mit dem konventionellen Erfüllbarkeitsproblem, aber wir haben durch dasHinzufügen relativ vieler Einsen die Eingabelänge substantiell vergrößert und damit dieBerechnung erleichtert: Wenn Laufzeit t zur Verfügung steht, aber die Eingabelänge jetztN beträgt statt der wirklichen Eingabelänge n = |φ| und wenn n << N gilt, dann steht


jetzt unter Umständen sehr viel mehr Zeit, nämlich Zeit t(N) statt der ursprünglichenLaufzeit t(n) zur Verfügung.Wir definierenH(n) und setzen dazu voraus, dassH(m) für allem ≤ log2 n bereits definiertist.

- Angenommen, es gibt eine Turingmaschine M mit i = 〈M〉 < log2 log2 n, so dass Mfür jede Eingabe

x = φ 0 1mH(m) mit |φ| = m

der Länge höchstens log2 n richtigerweise in Zeit höchstens i|x|i entscheidet, ob x zuSATH gehört oder nicht.In diesem Fall wird H(n) = i gesetzt, wobei i die kleinstmögliche Gödelnummer einerTuringmaschine mit der obigen Eigenschaft ist.

- Gibt es eine solche Turingmaschine M mit kleiner Gödelnummer nicht, dann setzeH(n) = log2 log2 n.

Behauptung 1: SATH ∈ P ⇔ H(n) = O(1).Beweis⇒Dann wird SATH von einer TuringmaschineM in höchstens cnc Schritten gelöst.Wenn n so groß ist, dass 〈M〉 < log2 log2 n gilt, dann ist H(n) ≤ 〈M〉 nach Definition vonH und H(n) = O(1) folgt.⇐ Es gelte H(n) = O(1). Dann ist die Folge H(n) beschränkt, und es ist H(n) = 〈M〉 = ifür eine Turingmaschine M und unendlich viele n. Also wird SATH für alle Instanzen vonM in Zeit i · ni gelöst.

Behauptung 2: Wenn SATH 6∈ P, dann ist H(n) = ω(1).Warum? Ansonsten gibt es eine TM M , so dass H(n) = 〈M〉 = i für unendlich viele n.Also wird SATH für alle Instanzen von M in polynomieller Zeit ini gelöst.

Behauptung 3: SATH liegt nicht in PWir nehmen an, dass SATH tatsächlich in P liegt. Dann folgt H(n) = O(1) mit Behauptung1. Aber dann ist SATH nichts anderes als das Erfüllbarkeitsproblem, dessen Eingabe mitnur polynomiell vielen Einsen aufgefüllt ist. Da die Funktion H in polynomieller Zeitberechnet werden kann, ist dann auch das Erfüllbarkeitsproblem effizient lösbar.

Die Behauptung des Satzes folgt, wenn wir zeigen können, dass SATH nicht NP-vollständigist. Wir gehen wieder indirekt vor und nehmen an, dass SATH doch NP-vollständig ist. Esgibt eine polynomielle Reduktion von SAT auf SATH . Das bedeutet, dass es eine in Zeitni berechenbare Transformation T gibt mit

ψ ∈ SAT ⇔ T (ψ) ∈ SATH

für alle Formeln ψ. Nach Annahme liegt SATH nicht in P und H(n) = ω(1) folgt mitBehauptung 2. Wenn die Formel ψ groß genug ist und wenn T (ψ) = φ 0 1H(|φ|), dann wirddas Problem der Erfüllbarkeit von ψ auf das Problem der Erfüllbarkeit der wesentlich

6.3. NATÜRLICHE BEWEISE 135

kleineren Formel φ reduziert: Wir erhalten einen effizienten rekursiven Algorithmus fürSAT.Wir haben einen Widerspruch zur Annahme P 6= NP erhalten: SATH kann nicht NP-vollständig sein.

6.3 Natürliche BeweiseIst die P ?= NP Frage vielleicht deshalb so schwer, weil wir sie mit „gängigen“ Methodengar nicht beantworten können? Was sind gängige Methoden? Jede Sprache in P kann voneiner Schaltkreisfamilie polynomieller Größe erkannt werden, gehört also zur Klasse P/polyaller Sprachen mit Schaltkreisen polynomieller Größe. Es genügt somit der Nachweis, dass(irgend)eine Sprache in NP keine Schaltkreise polynomieller Größe besitzt, also nicht zuP/poly gehört. (Man nutzt also nicht aus, dass die Sprachen in P sogar durch uniformeSchaltkreisfamilien berechnet werden können.)Natürliche Beweise stellen einen „natürlichen Ansatz“ in dieser Richtung dar. Wir stellenuns nämlich vor, dass ein Operator Cn eine Boolesche Funktion fn : 0, 1n → 0, 1entweder mit Null oder Eins klassifiziert, wobei die Klassifizierung mit Eins für unendlichviele n bedeutet, dass die Funktionsfamilie (fn | n ∈ N) keine „kleinen“ Schaltkreise besitzt.Die Klassifizierung mit Null ist erzwungen, wenn jedes fn kleine Schaltkreise besitzt, wirerlauben aber auch für schwierige Funktionen gn eine Klassifizierung mit Null, einfachdeshalb weil die dem Operator Cn zugrunde liegende Eigenschaft nicht auf gn zutrifft.Wir stellen einige weitere wünschenswerte Eigenschaften des Operators zusammen.

Definition 6.2 Bn bezeichnet die Menge der Booleschen Funktionen mit n Eingabebits.

(a) Eine Folge C = (Cn | n ∈ N) heißt eine kombinatorische Eigenschaft, falls Cn ⊆ Bn.

(b) Die kombinatorische Eigenschaft C = (Cn | n ∈ N) ist natürlich (gegen SIZE(nc)),falls

(1) C konstruktiv ist: Wenn eine Funktion f ∈ Bn durch ihre Funktionstabelle spe-zifiziert ist, dann kann in polynomieller Zeit (d.h. in Zeit polynomiell in 2n)entschieden werden, ob f ∈ Cn, d.h. ob f die Eigenschaft C besitzt.

(2) C hinreichend groß ist: Es ist |Cn| ≥ 2−n · |Bn| für alle n ∈ N.(3) C nützlich gegen SIZE(nc) ist: Jede Funktion f = (fn | n ∈ N), die die Eigen-

schaft C für unendlich viele Eingabelängen n hat, gehört nicht zu SIZE(nc).

Beispiel 6.1 Unsere untere Schranke für Schaltkreise beschränkter Tiefe hat die Tiefe derSchaltkreise mit Hilfe zufälliger Restriktionen sukzessive bis zur Tiefe zwei reduziert. Wenneine Funktion eine zu große Empfindlichkeit besitzt, musste der berechnende Schaltkreisentsprechend groß sein. Der natürliche Beweis (gegen AC0) besteht in diesem Fall in derBestimmung der Empfindlichkeit einer Funktion f . Wir beobachten, dass


1. die Bestimmung der Empfindlichkeit in Zeit 2O(n) gelingt und dass

2. Zufallsfunktionen die Empfindlichkeit mindestens n/4 besitzen.Die Eigenschaft

Cn(f) = „Ist die Empfindlichkeit von f mindestens n/4?“erfüllt die Anforderungen (1) und (2) an einen natürlichen Beweis gegen AC0. Schließlichbesagt Korollar 5.2, dass Cn nützlich gegen AC0 ist, und C = (Cn | n ∈ N) ist tatsächlichein natürlicher Beweis gegen AC0.

Angenommen, wir möchten eine superpolynomielle untere Schranke für die Größe vonSchaltkreisefamilien zur Berechnung von f : 0, 1∗ → 0, 1 herleiten. Dann wird manerwarten, dass ein solcher Beweis eine kombinatorische Eigenschaft C von f entdeckt undnachweist, dass keine Funktionenfolge mit dieser kombinatorischen Eigenschaft in P/polyliegt.In unserer Definition kombinatorischer Eigenschaften fordern wir in (2), dass die kombi-natorische Eigenschaft C von sehr vielen Booleschen Funktionen erfüllt wird. Warum istdiese Forderung vernünftig?

Die Berechnung von Zufallssfunktionen ist schwierig, wie wir im Abzählargu-ment aus Satz 5.1 festgestellt haben. Eine kombinatorische Eigenschaft C, dienur von einer kleinen Minderheit von Funktionen angenommen wird, deckt exo-tische Schwierigkeitseigenschaften auf —ausgeschlossen ist die Existenz einersolchen Eigenschaft aber sicherlich nicht.

Beispiel 6.2 Wir möchten ein Komplexitätsmaß µ konstruieren, so dass µ(f) eine untereSchranke für die Formelgröße boolescher Funktionen f ∈ Bn ist. (Die Formelgröße füreine Boolesche Funktion f ist die kleinste Blätterzahl eines Baums, der f berechnet.) Ein„natürlicher“ Ansatz fordert

µ(xi) = µ(¬xi) = 1 sowie µ(f ∨ g), µ(f ∧ g) ≤ µ(f) + µ(g). (6.1)Angenommen, es gibt eine Funktion f mit µ(f) ≥ S. Dann gilt µ(g) ≥ S/4 für mindestensein Viertel aller Funktionen g ∈ Bn. Warum? Es ist

f = (f ⊕ g)⊕ g = ((f ⊕ g) ∧ ¬g) ∨ (¬(f ⊕ g) ∧ g)und dementsprechend folgt

µ(f) ≤ µ(f ⊕ g) + µ(g) + µ(¬(f ⊕ g)) + µ(¬g).Wenn 3/4 aller Funktionen in Bn eine µ-Komplexität kleiner als S/4 besitzt, dann gibt eseine Funktion g mit

µ(f ⊕ g), µ(g), µ(¬(f ⊕ g)), µ(¬g) < S/4und µ(f) < S folgt.Selbst wenn wir nur Aussagen über die Formelgröße bestimmter Funktionen machen wol-len, zwingt uns der Ansatz des Komplexitätsmaßes µ, Aussagen über Zufallsfunktionen zumachen.


In Teil (1) fordern wir, dass C konstruktiv ist. Diese Forderung ist einerseits recht libe-ral, denn exponentielle Zeit 2O(n) steht zur Verfügung und das sollte mehr als ausreichendsein, wenn kompakt darstellbare Funktionen auf die Erfüllung der Eigenschaft C unter-sucht werden. Ist eine Funktion hingegen nicht kompakt beschreibbar, sondern muss mantatsächlich auf die 2n-Bit lange Funktionstabelle zugreifen, dann steht nur polynomielleZeit zur Verifikation von C zur Verfügung. Natürliche Beweise erfassen nicht-konstruktiveEigenschaften damit nicht.

Beispiel 6.3 In der Kommunikationskomplexität betrachtet man die Kommunikationsma-trix Mf einer Booleschen Matrix f : 0, 12n → 0, 1; man setzt Mf [x, y] = f(xy) füreine „Zeile“ x ∈ 0, 1n und eine „Spalte“ y ∈ 0, 1n.In der Methode der größten monochromatischen Teilmatrix bestimmt man die maxima-le Anzahl mono(f) der Matrixeinträge in einer Teilmatrix von Mf , die entweder nur ausNullen oder nur aus Einsen besteht. Für Funktionen f : 0, 12n → 0, 1 definieren wir dieEigenschaft C2n mit C2n(f) = 1 genau dann, wenn mono(f) ≥ 23n/2 gilt. Diese Eigenschaftist wahrscheinlich nicht konstruktiv, denn das Problem ob eine Matrix eine monochromati-sche Teilmatrix mit mindestens 23n/2 Einträgen besitzt, ist NP-vollständig. In vielen Fällenkann man aber auch mit der konstruktiven Rangmethode arbeiten, die nach dem Rang derMatrix Mf über dem Körper der rationalen Zahlen fragt.

Wir untersuchen also mögliche Beweise für NP 6⊆ P/poly, die konstruktiv-nachweisbare,von vielen Funktionen erfüllte Eigenschaften aufstellen, wobei diese Eigenschaften nur vonschwierigen Funktionen erfüllbar sind.

6.3.1 One-Way und Pseudo-ZufallsfunktionenKann man Pseudo-Zufallsfunktionen f konstruieren, Funktionen, die in polynomniellerZeit berechnet werden können, aber selbst in super-polynomieller Zeit 2nε (für irgendeine,möglicherweise sehr kleine Konstante ε > 0) nicht von Zufallssfunktionen, also von wirk-lich zufälligen Funktionen unterschieden werden können? Pseudo-Zufallsfunktionen sinddurch Schaltkreise polynomieller Größe berechenbar, Zufallssfunktionen hingegen nicht.Ein natürlicher Beweis muss deshalb Pseudo-Zufallsfunktionen und Zufallssfunktionen un-terscheiden können. Verstößt dies gegen die Annahme, dass Zeit 2nε für die Trennung nichtausreicht?Wie produziert man Pseudo-Zufallsfunktionen? Man beginnt mit one-way Funktionen, bautaus einer one-way Funktion einen Pseudo-Random Generator und konstruiert schließlichPseudo-Zufallsfunktionen mit Hilfe von Pseudo-Random Generatoren.

Definition 6.3 Eine Funktion f : 0, 1∗ → 0, 1∗ heißt eine one-way Funktion mitKomplexität s, wenn f durch einen effizienten Algorithmus berechenbar ist und wenn fürjeden randomisierten Algorithmus P mit Laufzeit s

prob[P berechnet auf Eingabe f(x) ein z mit f(z) = f(x) | x ∈ 0, 1n] < 1s(n)


gilt. Hier wird für jedes n die Gleichverteilung auf den Argumenten x ∈ 0, 1n von f undauf den Münzwürfen von P zugrunde gelegt.

Eine Reihe von vermuteten one-way Funktionen ist aus der Zahlentheorie bekannt.Faktorisierung: Als Eingabe sind zwei Primzahlen p und q gegeben. Die Ausgabe ist dasProdukt N = p · q. Im Umkehrproblem ist also die Zahl N zu faktorisieren.Das Problem des diskreten Logarithmus: Als Eingabe ist eine Primzahl p, ein erzeu-gendes Element g modulo p und eine natürliche Zahl i gegeben. Die Potenz gi mod p istzu berechnen. Im Umkehrproblem sind p, g und gi mod p gegeben. Der „Logarithmus“ iist zu berechnen.Das RSA-Problem: Als Eingabe sind die Zahlen N, e und x gegeben, wobei e und φ(N),die Anzahl der primen Restklassen modulo N , teilerfremd seien. Der Modulus N ist einProdukt von zwei (nicht bekannten) Primzahlen. Als Ausgabe ist y ≡ xe mod N zuberechnen. Im Umkehrproblem ist x zu bestimmen, wobei y,N und e gegeben sind.Das Problem der diskreten Quadratwurzelberechnung: Als Eingabe sind natürlicheZahlenm und x < m gegeben. Die Ausgabe ist (m,x2 mod m). Das Umkehrproblem ist alsodie Bestimmung der Wurzel modulom. (Eine effiziente Lösung gelingt mit probabilistischenAlgorithmen, solange m eine Primzahl ist.)Selbst nach Jahrzehnten intensiver Forschung hat man keine ernstzunehmenden Attackengegen eine dieser Funktionen konstruieren können. Die Vermutung, dass es sich um one-way Funktionen der Komplexität 2nε für irgendein ε > 0 handelt, ist also durchaus nichtabwegig. Andererseits ist der Nachweis, dass one-way Funktionen der Komplexität nω(1)

existieren, bisher nicht gelungen. Ein Grund hierfür wird in der folgenden Aufgabe be-schrieben.

Aufgabe 58Wenn f : 0, 1∗ → 0, 1 eine one-way Funktion der Komplexität nω(n) ist, dann giltP 6= NP.

Wir betrachten als Nächstes Pseudo-Random Generatoren, die einen Zufallsstring der Län-ge k, die „Saat“, zu einem „zufällig wirkenden“ String der Länge 2k aufblähen. Der Ge-nerator ist gut, wenn nur sehr große Schaltkreise den Generator von einem wirklichenZufallsgenerator unterscheiden können.

Definition 6.4 Gk : 0, 1k → 0, 12k sei eine effizient berechenbare Funktion. Wir sa-gen, dass Gk ein Pseudo-Random Generator mit Komplexität sk ist, wenn kein SchaltkreisSk der Größe höchstens sk den Generator Gk von einer Zufallsquelle unterscheiden kann,wenn also stets

| pr[Sk(Gk(x)) = 1]− pr[Sk(y) = 1] | < 1sk

gilt. x ∈ 0, 1k und y ∈ 0, 12k werden jeweils gemäß der Gleichverteilung gewählt.


Man kann zeigen, dass die Existenz von one-way Funktionen die Existenz von Pseudo-Random Generatoren bedingt, und auch die umgekehrte Beziehung gilt. Beispielhaft kon-struieren wir Pseudo-Random Generatoren aus den oben aufgeführten one-way Funktionen.Der Blum-Micali Generator wählt eine Primzahl p und eine erzeugende Restklasse gmodulo p. Sodann wird für eine Saat s0 die Iteration

si+1 = gsi mod p

berechnet und die Bitfolge (b1, . . . , bm) ausgegeben. Hierbei ist

bi =

1 wenn si < p/20 sonst.

Der Blum-Micali Generator basiert auf dem diskreten Logarithmus

x 7→ gx mod p

als one-way Funktion.Der RSA Generator: Für eine Saat s0 berechnen wir

si+1 = sei mod N.

Die Ausgabe des Generators für die Saat s0 ist dann die Bitfolge (s1 mod 2, . . . , sm mod 2).Die Länge m der Folge sollte polynomiell in der Anzahl der Bits von s0 sein.Der Blum-Blum-Shub Generator: Für eine Saat s0 berechnen wir

si+1 = s2i mod N,

wobei N = p · q mit Primzahlen p ≡ q ≡ 3 mod 4 gelte. Die Ausgabe des Generators istdann die Bitfolge (s1 mod 2, . . . , sm mod 2). Die Länge m der Folge sollte polynomiell inder Anzahl der Bits von s0 sein. Der Blum-Blum-Shub Generator beruht auf der diskretenQuadratwurzelberechnung

x 7→ x2 mod N

als one-way Funktion.In den Übergängen von one-way Funktionen zu Pseudo-Random Generatoren und schließ-lich zu Pseudo-Zufallsfunktionen machen wir den letzten Schritt.

Definition 6.5 Eine Familie Fk = (ft | t ∈ 0, 1k ) mit Funktionen ft : 0, 1k → 0, 1heißt eine Familie von Pseudo-Zufallsfunktionen mit Komplexität s genau dann, wenn

(a) Fk effizient auswertbar ist: Es gibt einen Algorithmus, der in Zeit polynomiell in kfür Eingabe t, x ∈ 0, 1k den Wert ft(x) bestimmt.


(b) Fk nicht effizient von Zufallsfunktionen unterscheidbar ist: Für jeden randomisiertenAlgorithmus A mit Laufzeit s gilt

| pr[A(ft) = 1]− pr[A(f) = 1] | < 1s.

Für die Trennung von Pseudo-Zufallsfunktionen und Zufallsfunktionen wird die Gleich-verteilung auf t ∈ 0, 1k, f ∈ Bk und den Münzwürfen von A zugrunde gelegt. A darfwährend seiner Berechnung Funktionswerte für bis zu s Argumente anfordern.

Und wie baut man Pseudo-Zufallsfunktionen aus einem Pseudo-Random Generator Gk?Es sei Gk = (F0, F1) für F0, F1 : 0, 1k → 0, 1k ein Pseudo-Random Generator. Fürjedes binäre Wort y = y1 · · · yk ∈ 0, 1∗ definieren wir die Funktion

Fy : 0, 1k → 0, 1k,

durchFy = Fyk · · · Fy1 .

Die Funktionen Hx : 0, 1k → 0, 1 mit

Hx(y) = das erste Bit von Fy(x)

wählen wir als die von Gk : 0, 1k → 0, 12k produzierten Pseudo-Zufallsfunktionen.Wie schon erwähnt, lässt sich aus jeder one-way Funktion ein Pseudo-Random Generatorbauen und aus jedem Pseudo-Random Generator eine Familie von Pseudo-Zufallsfunk-tionen, wie wir gerade gesehen haben. Der folgende Zusammenhang zwischen den geradekonstruierten Pseudo-Zufallsfunktionen und „ihrer“ one-way Funktion ist bekannt.

Lemma 6.2 Die Konstante ε > 0 sei vorgegeben. Für jede one-way Funktion mit Komple-xität 2mε besitzt die zugehörige Familie der Pseudo-Zufallsfunktionen die Komplexität 2mδ

für ein δ > 0.

6.3.2 Natürliche Beweise knacken One-way FunktionenWas haben Pseudo-Zufallsfunktionen mit natürlichen Beweisen zu tun?

Satz 6.3 Sei c eine hinreichend große Konstante und ε > 0 sei beliebig. Wenn es one-way Funktionen mit Komplexität 2nε gibt, dann gibt es keine natürlichen Beweise gegenSIZE(nc)

Sei C = (Cm | n ∈ N) ein natürlicher Beweis und seien ft : 0, 1m → 0, 1 Pseudo-Zufallsfunktionen. Die Funktionen ft können effizient ausgewertet werden. Da C ein natür-licher Beweis ist, folgt somit ft 6∈ Cm bzw. Cm(ft) = 0 für jedes t ∈ 0, 1m.


Andererseits wird die Eigenschaft Cm von vielen Funktionen erfüllt, denn es ist |Cm| ≥|Bm|2O(m) . Damit folgt für Zufallsfunktionen f ∈ Bm und zufällige Wahlen von t ∈ 0, 1m,dass

| pr[Cm(f) = 1]− pr[Cm(ft) = 1] | = pr[Cm(f) = 1] ≥ 12O(m) (6.2)

gilt. Mit anderen Worten, Cm unterscheidet die Pseudo-Zufallsfunktion ft „schwach“ vonZufallsfunktionen f ∈ Bm. Zusätzlich kann der „statistische Test“ Cm durch einen Al-gorithmus in Zeit 2O(m) implementiert werden, denn das Nachprüfen der Eigenschaft Cmgelingt in polynomieller Zeit (polynomiell in der Länge der Funktionstabelle). Leider istdiese Unterscheidung wertlos, da viel zu viel Zeit verloren geht, denn wir müssen eineUnterscheidung in Zeit höchstens 2mδ erreichen.Setze n = mδ/2. Um ft von f zu unterscheiden, übergeben wir dem natürlichen Beweisdie Funktionstabellen von ft(∗0m−n) und f(∗0m−n). Da beide Funktionen von nur n Bitsabhängen, liefert der natürliche Beweis eine Trennung mit der gleichen Argumentation wiein (6.2) und wir erhalten

| pr[Cn(f(∗0m−n)) = 1]− pr[Cn(ft(∗0m−n)) = 1] | = pr[Cn(f(∗0m−n)) = 1] ≥ 12O(n) .

(Wenn wir zuerst eine zufällige Funktion aus Bm ziehen und dann die letzten m− n Bitsder Eingabe „ausnullen“, erhalten wir genau die Gleichverteilung auf den Funktionen inBn.) Der statistische Test C∗m, der die letzten m − n Positionen auf Null setzt und dannCn auf die eingeschränkte Funktion anwendet, also

C∗m(g) = Cn(g(∗0m−n)),

ist in Zeit höchstens 2O(n) = 2mδ/2 implementierbar und erreicht die geforderte Trennung

| pr[C∗m(f) = 1]− pr[C∗m(ft) = 1], | = pr[C∗m(f) = 1] ≥ 12O(mδ/2) .

Nach Lemma 6.2 ist eine solche Unterscheidung nicht möglich, wenn wir mit Pseudo-Zufallsfunktionen arbeiten, die von one-way Funktionen der Komplexität mindestens 2nε

abgeleitet werden. Solche one-way Funktionen g gibt es aber nach Annahme, wenn dieKonstante c so groß gewählt wird, dass eine Evaluierung durch Schaltkreise der Größe ncmöglich ist.

6.4 ZusammenfassungEs ist nicht ausgeschlossen, dass Methoden, die auf der Diagonalisiermethode von Cantoraufbauen, für die Trennung von Komplexitätsklassen eingesetzt werden können. Für denerfolgreichen Einsatz muss aber die Arbeitsweise des Berechnungsmodells sehr viel genauerverfolgt werden als dies mit gegenwärtigen Methoden möglich ist.


Natürliche Beweise modellieren zum Beispiel Ansätze, die nachweisen möchten, dass ir-gendein Problem in NP nur Schaltkreise einer bestimmten Mindestgröße besitzt. Aber wirhaben gesehen, dass natürliche Beweise eingesetzt werden können, um one-way Funktionenmit vermeintlich großer Komplexität zu knacken:

Da die Existenz von one-way Funktionen der Komplexität 2nε (für eine mög-licherweise sehr kleine Konstante ε > 0) plausibel erscheint, wird es in diesemFall keine natürlichen Beweise gegen SIZE(nc) für große Konstanten c geben.

Und was sind die Konsequenzen?

Kapitel 7

Kommunikationskomplexität

Das Textbuch „Communication Complexity“, von Eyal Kushilevitz und Noam Nisan (Cam-bridge University Press 1997) ist die Standard-Referenz für Themen der Kommunikations-komplexität.

7.1 Deterministische KommunikationWir möchten den Effekt von

Kommunikation als Flaschenhals in Berechnungen

modellieren. Seien X und Y endliche Mengen und sei (x, y) (mit x ∈ X und y ∈ Y ) eineEingabe. Wenn Berechnungen parallel ablaufen, dann sind möglicherweise die Teileingabenx und y bereits unabhängig voneinander untersucht worden. Um die Berechnung auf derGesamteingabe (x, y) abzuschliessen, müssen die jeweiligen Ergebnisse für die Teileinga-ben x und y „kommuniziert“ werden. Wir stellen uns die Frage nach dem Aufwand dernotwendigen Kommunikation und möchten ein Berechnungsmodell für die Untersuchungdieser Frage entwerfen.Die Funktion f : X × Y → Z ist von zwei Spielern, Alice und Bob zu berechnen. Aliceerhält die Eingabe x ∈ X, Bob die Eingabe y ∈ Y . Beide Spieler haben unbeschränkteRechenkraft, aber kein Spieler kennt die Eingabe des Anderen.Der Funktionswert f(x, y) = z soll durch den Austausch binärer Nachrichten berechnetwerden, wobei ein Spieler den Funktionswert z am Ende der Berechnung kennen muss. DieSpieler versuchen, die Gesamtanzahl ausgetauschter Bits im Worst-Case kleinstmöglich zuhalten: Kommunikation ist teuer.Wie sehen Berechnungen im Detail aus? Protokolle steuern den Ablauf der Kommunikation.

Definition 7.1 Ein Protokoll P wird durch einen beschrifteten binären Baum, den Pro-tokollbaum spezifiziert.

- Jeder innere Knoten v ist mit dem verantwortlichen Spieler, also entweder mit Aliceoder Bob beschriftet.

143

144 KAPITEL 7. KOMMUNIKATIONSKOMPLEXITÄT

- Ist ein innerer Knoten v mit Alice (bzw. Bob) beschriftet, dann wird zusätzlich eineFunktion Av : X → 0, 1 (bzw. eine Funktion Bv : Y → 0, 1) angegeben. DieKommunikation eines Spielers hängt somit von der jeweiligen Eingabe und den bisherausgetauschten Bits ab.

Wenn die Wurzel mit Alice (bzw. Bob) beschriftet ist, beginnt Alice (bzw. Bob) die Berech-nung. Hat die Berechnung den Knoten v erreicht und ist v mit Alice (bzw. Bob) beschriftet,dann wird die Berechnung genau dann im linken Kind von v fortgesetzt, wenn Av(x) = 0(bzw. Bv(y) = 0).Hat die Berechnung für Eingabe x ∈ X und y ∈ Y ein Blatt b erreicht, dann ist z dieAusgabe von P für Eingabe (x, y) falls b mit z beschriftet ist.

Wir wählen X = 0, 1n und Y = 1, . . . , n und möchten die Funktion

bitn(x, i) = xi

berechnen. Wenn Bob die Kommunikation beginnt, dann gelingt eine Berechnung vonbitn mit dlog2 ne Bits, wenn Bob seine Eingabe vollständig kommuniziert. Warum? Wennn = 2k, dann besteht das Protokoll aus einem vollständigen binären Baum der Tiefe k.Sämtliche inneren Knoten sind mit Bob beschriftet, während Blätter mit Alice beschriftetsind. Die Funktion Bv : Y → 0, 1 für Knoten der Tiefe t < k wird durch

Bv(i) = das t+ 1ste Bit von i

definiert. Alice ist für das Ausgabebit verantwortlich: Wird Blatt b erreicht, dann kenntAlice den Wert i und gibt xi aus.Unser Ziel ist der Entwurf von Protokollen, die eine Funktion f durch den Austausch vonNachrichten möglichst geringer Länge berechnen.

Definition 7.2 Die Funktion f : X × Y → Z sei gegeben.

(a) Wenn P für jede Eingabe x ∈ X, y ∈ Y die Ausgabe f(x, y) berechnet, dann sagen wir,dass P ein Protokoll für f ist. Weiterhin sagen wir, dass P genau s Bits austauscht,wenn der Protokollbaum die Tiefe s besitzt.

(b) Wir definieren

D(f) = mins | es gibt ein Protokoll für f , das s Bits austauscht

als die deterministische Kommunikationskomplexität von f .

(c) Wenn nur Alice Nachrichten verschicken darf, dann sprechen wir von einem einsei-tigen A→ B Protokoll und definieren

DA→B(f) = mins | es gibt ein einseitiges A→ B Protokoll für f ,das s Bits austauscht.

DB→A wird analog definiert.

7.1. DETERMINISTISCHE KOMMUNIKATION 145

Aufgabe 59Wir betrachten das Zusammenhangsproblem für ungerichtete Graphen G mit n Knoten.Wir nehmen an, dass G durch seine Adjazenzmatrix spezifiziert wird, wobei eine Hälftealler Eingaben an Alice und die andere Hälfte an Bob vergeben wird. Zeige, dass für jedeEingabezerlegungO(n·log2 n) Bits für die Lösung des Zusammenhangsproblems ausreichen.

Aufgabe 60Wir setzen X = Y = 0, 1n und Z = 1, . . . , n. Alice und Bob interpretieren ihreEingaben x und y als Inzidenzvektoren von Teilmengen set(x), set(y) ⊆ 1, . . . , n. Wirfassen die Vereinigung set(x)∪ set(y) als eine Multimenge auf, d.h. eine in beiden Mengenenthaltene Zahl wird zweimal gezählt. Unser Ziel ist die Berechnung von

Mediann(x, y) = der Median der Multimenge set(x) ∪ set(y)

Zeige: D(Mediann) = O(log2 n). Kann sogar D(Mediann) = O(log n) erreicht werden?

Für die Funktion bitn haben wir D(bitn) ≤ dlog2 ne wie auch DB→A(bitn) ≤ dlog2 ne nach-gewiesen. Ein einseitiges A → B Protokoll scheint sehr viel aufwändiger zu sein, da Alicedie gewünschte Bitposition nicht kennt. Wenn sie ihre vollständige Eingabe kommuniziert,erhalten wir DA→B(bitn) ≤ n.Ein wichtiges Konzept in der Analyse von Protokollen für f ist die Kommunikationsmatrixvon f .

Definition 7.3 Die Funktion f : X × Y → Z sei gegeben. Die KommunikationsmatrixMf von f besitzt genau eine Zeile für jede Eingabe x ∈ X und genau eine Spalte für jedeEingabe y ∈ Y . Wir setzen

Mf [x, y] = f(x, y).

Wie sieht die KommunikationsmatrixM von bitn aus? Wir haben 2n Zeilen und n Spalten.Wenn wir Spalten lexikographisch aufsteigend (gemäß ihrer jeweiligen Eingabe) anordnen,stimmt die Zeile von Eingabe x mit x überein.Wir benutzen die Kommunikationsmatrix, um die Komplexität einseitiger Protokolle exaktzu bestimmen.

Satz 7.1 Die Funktion f : X ×Y → Z sei gegeben. Wenn α die Anzahl der verschiedenenZeilen der Kommunikationsmatrix von f ist, dann folgt

DA→B(f) = dlog2 αe.

Beweis: Es genügt, wenn Alice mitteilt, zu welcher der α verschiedenen Zeilen ihre Eingabegehört und deshalb ist DA→B(f) ≤ dlog2 αe.Betrachten wir andererseits ein einseitiges A→ B Protokoll, das weniger als dlog2 αe Bitsaustauscht. Es wird zwei Eingaben x1, x2 ∈ X mit verschiedenen Zeilen, aber gleichen


Nachrichten geben. Also gibt es y ∈ Y mit f(x1, y) 6= f(x2, y). Aber Bob erhält sowohlfür x1 wie auch für x2 dieselbe Nachricht und kann die Ausgabe deshalb nicht fehlerfreibestimmen.

Wir können jetzt zeigen, dass einseitige A → B Protokolle für bitn tatsächlich ineffizientsein müssen. Wir haben bereits gesehen, dass die Zeile der Kommunikationsmatrix zuEingabe x mit x übereinstimmt, wenn wir die Spalten geeignet anordnen. Also besitztdie Kommunikationsmatrix genau 2n verschiedene Zeilen und DA→B(bitn) = n folgt. Daandererseits auch alle Spalten verschieden sind, folgt DB→A(bitn) = dlog2 ne und das inBeispiel ?? angegebene Protokoll ist optimal. Also kann es einen exponentiellen Unterschiedzwischen einseitigen und mehrseitigen Protokollen geben; ein größerer Unterschied ist abernicht möglich:

Aufgabe 61Die Funktion f : X × Y → Z sei gegeben. Zeige:

D(f) ≤ DA→B(f) ≤ 2D(f).

Die Kommunikationsmatrix ist auch eine große Hilfe, wenn wir „mehrseitige“ Protokolleanalysieren möchten. Sei P ein deterministisches Protokoll, das die Funktion f(x, y) mitx ∈ X und y ∈ Y berechnet. Der Einfachheit halber nehmen wir jetzt und in der Zukunftan, dass Z = 0, 1: Die Kommunikationsmatrix ist eine 0-1 Matrix, also eine Matrix mit0- und 1-Einträgen.Wir nehmen des weiteren an, dass Alice die Berechnung beginnt. Wir fixieren eine NachrichtN1 ∈ 0, 1∗ Alice und beachten, dass diese Nachricht für eine Teilmenge X1 ⊆ X ihrerEingaben gesendet wird. Bob wird die Nachricht N1, abhängig von seiner Eingabe mit ver-schiedenen Nachrichten beantworten, und wir fixieren eine mögliche AntwortM1 ∈ 0, 1∗,die für eine Teilmenge Y1 ⊆ Y gesendet wird. Zu diesem Zeitpunkt ist die Nachrichtenfolge(N1,M1) ausgetauscht worden, und wir beobachten, dass diese Nachrichtenfolge genau fürdie Eingaben (x, y) ∈ X1 × Y1 auftritt.Falls Alice die Nachricht M1 erhält, wird sie, abhängig von ihrer Eingabe und der Nach-richt M1 die Kommunikation fortsetzen. Wir fixieren eine mögliche Antwort N2. Es wirdwiederum eine Teilmenge X2 ⊆ X1 der Eingaben von Alice geben, für die Alice mit N2antwortet. Wir beobachten, dass die Nachrichtenfolge (N1,M1, N2) genau für die Eingaben(x, y) ∈ X2 × Y1 auftritt.Sendet Bob die letzte Nachricht Mj einer Berechnung erreichen, gibt es Mengen Xj ⊂ Xund Yj ⊆ Y , so daß die vollständige Nachrichtenfolge N = (N1,M1, . . . , Nj,Mj) genau fürdie Eingaben (x, y) ∈ Xj × Yj auftritt. Der Fall, dass Alice die letzte Nachricht schickt,verläuft natürlich analog.

Definition 7.4 Es gelte X∗ ⊆ X und Y ∗ ⊆ Y .

- Mf (X∗, Y ∗) ist eine Teilmatrix von Mf und besteht aus allen Zeilen zu Eingaben inX∗ und aus allen Spalten zu Eingaben in Y ∗.


- Sei b ∈ 0, 1. Wir sagen, dass eine Teilmatrix b-chromatisch ist, wenn alle Ein-träge der Teilmatrix den Wert b besitzen. Eine b-chromatische Teilmatrix heißt auchmonochromatisch.

Nachrichten entsprechen also Teilmatrizen und verschiedene Nachrichten entsprechen dis-junkten Teilmatrizen. Das Protokoll P zerlegt also die Kommunikationsmatrix Mf in dis-junkte Teilmatrizen.Aber wir wissen noch mehr. Nach Annahme wird die Boolesche Funktion f : X × Y →0, 1 erfolgreich durch das Protokoll P berechnet. Wenn Alice (bzw. Bob) die Ausgabebestimmen muss, dann besitzt jede Teilmatrix der Zerlegung nur monochromatische Zeilen(Spalten).

Satz 7.2 Sei P ein deterministisches Protokoll für eine Boolesche Funktion f : A×B →0, 1. Wir nehmen an, dass P höchstens k Bits austauscht und dass Alice (bzw. Bob) dieAusgabe bestimmt.

(a) Eine vollständige Nachrichtenfolge von P definiert eine Teilmatrix von Mf mit mo-nochromatischen Zeilen (bzw. Spalten).

(b) Das Protokoll P definiert eine Zerlegung von Mf in höchstens 2k Teilmatrizen mitmonochromatischen Zeilen (bzw. Spalten).

Beweis: Wir haben Eigenschaft (a) schon nachgewiesen. Für Teil (b) ist nur zu beachten,dass höchstens k Bits verschickt werden. Also werden maximal 2k verschiedene Nachrichtenverschickt und damit zerlegt das Protokoll die Kommunikationsmatrix in höchstens 2kTeilmatrizen mit monochromatischen Zeilen (bzw. Spalten).

Wir erhalten aus Satz 7.2 eine Reihe wichtiger Konsequenzen. Zuerst ist klar, dass dieKommunikationskomplexität der Funktion f groß ist, wenn die MatrixMf keine Zerlegungin wenige monochromatische Teilmatrizen besitzt. Wir formalisieren diese Beobachtung.

Definition 7.5 Wir definieren die Zerlegungszahl einer Funktion f : X × Y → 0, 1durch

Zerlegung(Mf ) = mink ∈ N | Es gibt eine disjunkte Zerlegung von Mf

in k monochromatische Teilmatrizen .

Für ein Bit b ∈ 0, 1 setzen wir

Zerlegungb(Mf ) = mink ∈ N | Es gibt eine disjunkte Zerlegung der Einträge von Mf

mit Wert b in k b-chromatische Teilmatrizen .

Korollar 7.1 Die Zerlegungsmethode.Die Funktion f : X × Y → 0, 1 sei gegeben. Dann gilt

(a) D(f) ≥ dlog2(Zerlegung(Mf ))e − 1 und


(b) D(f) ≥ max dlog2 (Zerlegung0(Mf ))e, dlog2 (Zerlegung1(Mf ))e.

Beweis (a): Das optimale Protokoll P für f tauscht Nachrichten der Länge höchstensD(f) aus. Wenn der für die Ausgabe verantwortliche Spieler die Ausgabe zusätzlich an denPartner verschickt, erhalten wir also eine Zerlegung von Mf in höchstens 2D(f)+1 mono-chromatische Teilmatrizen. Also folgt D(f) + 1 ≥ dlog2(Zerlegung(Mf ))e.Für Teil (b) ist nur zu beachten, dass das Ausgabebit diesmal nicht kommuniziert werdenmuss.

Aufgabe 62Wir betrachten strikt alternierende Protokolle: Die Spieler wechseln sich beim Senden derNachrichten ab, wobei jede Nachricht nur aus einem Bit bestehen darf. Für die Bestimmungder Ausgabe von f : X × Y → 0, 1 ist Bob verantwortlich.

(a) Wieviele strikt alternierende Protokolle gibt es, wenn genau 2k−1 Bits ausgetauschtwerden?

(b) Wieviele Funktionen f : X × Y → 0, 1 gibt es?

(c) Was ist die Kommunikationskomplexität fast aller Funktionen bei Verwendung striktalternierender Protokolle?

D∗(f) sei die minimale Nachrichtenlänge eines strikt alternierenden Protokolls, das f be-rechnet. Zeige:

(d) D∗(f) ≤ 2 ·D(f) für alle Funktionen f .

(e) D∗(f) = 2 ·D(f)−O(1) für die meisten Funktionen f .

Aus dieser Aufgabe folgt, daß das Modell strikt alternierender Protokolle im allgemeinenweniger effizient als das in der Vorlesung betrachtete Modell ist: Erzwungener Dialog kanndamit schaden. Für die meisten Funktionen ist ein schlichtes Übertragen der Informationin einem Monolog optimal.

7.1.1 Die Methode der größten monochromatischen TeilmatrixEine exakte Bestimmung der Zerlegungszahl ist ein sehr schwieriges Problem, aber in vielenFällen genügt die folgende approximative Bestimmung.

Definition 7.6 Die Funktion f : X × Y → 0, 1 und das Bit b ∈ 0, 1 seien gegeben.

- Für eine Menge F ⊆ f−1(b) von Eingaben mit Wert b definieren wir

Maxb,F (Mf ) = die maximale Anzahl von Einträgen aus F , die von einerb-chromatischen Teilmatrix von Mf überdeckt werden.


- Maxb(Mf ) = maxF⊆f−1(b)dlog2|F |

Maxb,F (Mf )e.

Korollar 7.2 Die Methode der größten monochromatischen Teilmatrix.Die Funktion f : X × Y → 0, 1 und das Bit b ∈ 0, 1 seien gegeben. Dann gilt

Df) ≥ maxMax0(Mf ),Max1(Mf ).

Beweis: Es gelte Maxb(Mf ) = dlog2|F |

Maxb,F (Mf )e. Jede Zerlegung von Mf muss alle Ein-

träge in F überdecken. Da höchstens Maxb,F (Mf ) Einträge aus F von einer Nachrichtüberdeckt werden können, sind mindestens |F |

Maxb,F (Mf )Nachrichten erforderlich und die

Behauptung folgt.

Im Gleichheitsproblem EQn ist festzustellen, ob die beiden binären Worte x, y ∈ 0, 1nidentisch (EQn(x, y) = 1) oder verschieden (EQn(x, y) = 0) sind. Beachte, dass die Kom-munikationsmatrix von EQn die Einheitsmatrix ist.Leider haben wir sehr große 0-chromatische Teilmatrizen der Größe 2n−1×2n−1 und Korollar7.2 gibt nur die untere Schranke D(EQn) ≥ dlog2

22n−2n22n−2 e = 2, wenn wir F = (x, y) | x 6=

y setzen.Aber wir sind erfolgreich, wenn wir 1-chromatische Teilmatrizen betrachten: Eine 1-chro-matische Teilmatrix kann nur aus einem einzigen Eintrag bestehen und wir erhalten fürF = (x, x) | x ∈ 0, 1n

D(EQn) ≥ Max1(MEQn) ≥ dlog22n1 e = n.

mit Korollar 7.2. Aber n Bits sind auch ausreichend und D(EQn) = n ist die exakteKommunikationskomplexität des Gleichheitsproblems.

Aufgabe 63Zeige Max0(MEQn) ≤ 2.

Im Vergleichsproblem COMPn ist festzustellen, ob das Wort x ∈ 0, 1n lexikographischkleiner oder gleich demWort y ∈ 0, 1n ist (COMPn(x, y) = 1) oder nicht (COMPn(x, y) =0). Beachte, dass die Kommunikationsmatrix eine obere Dreiecksmatrix ist.Das Vergleichsproblem „sollte“ schwierig sein, aber wir finden sowohl riesige 0-chromatischewie auch riesige 1-chromatische Teilmatrizen, die fast ein Viertel der Kommunikationsma-trix überdecken, wenn wir F = f−1(0), bzw. F = f−1(1) setzen.Eine weitaus bessere Wahl ist F = (x, x) | x ∈ 0, 1n. Wir erhalten wie im Gleichheits-problem

D(COMPn) ≥ Max1(MCOMPn) ≥ dlog22n1 e = n.

Auch diesmal haben wir die exakte Kommunikationskomplexität bestimmt, denn n Bitssind auch ausreichend und D(COMPn) = n folgt.


Wir definieren das innere Produkt

〈x, y〉2,n :=n∑i=1

xi · yi mod 2

für x, y ∈ 0, 1n. Wir wählen F = f−1(0) und möchten die Größe einer größten 0-chromati-schen Teilmatrix M der Kommunikationsmatrix bestimmen. z1, . . . , zr seien die den Zeilenvon M entsprechenden Eingaben und s1, . . . , st die den Spalten von M entsprechendenEingaben. M ist relativ klein, denn:

Behauptung 7.1 Es ist r · t ≤ 2n.

Beweis: Da M 0-chromatisch ist, gilt für alle i, j mit 1 ≤ i ≤ r und 1 ≤ j ≤ t:

〈zi, sj〉2,n = 0.

Wir betrachten den von z1, . . . , zr aufgespannten Vektorraum VZ und den von s1, . . . , staufgespannten Vektorraum VS. Wenn z ∈ VZ und s ∈ VS beliebige Vektoren sind, dann gilt

〈z, s〉2,n = 〈r∑i=1

αi · zi,t∑i=1

βj · sj〉2,n =r∑i=1

αi · 〈zi,t∑

j=1βj · sj〉2,n

=r∑i=1

t∑j=1

αiβj · 〈zi, sj〉2,n︸︷︷︸=0

= 0.

Also stehen die Räume VS und VZ senkrecht aufeinander und es ist

dim(VZ) + dim(VS) ≤ n.

Der Vektorraum VZ hat 2dim(VZ) viele Elemente und VS hat 2dim(VS) viele Elemente. Wirerhalten

|VZ | · |VS| = 2dim(VZ)+dim(VS) ≤ 2n

und das war zu zeigen.

Wir überlegen uns, wieviele Nullen zu überdecken sind:

Behauptung 7.2 Die Zeile zur Eingabe (0, . . . , 0) hat 2n Nullen, jede weitere Zeile hat2n−1 Nullen.

Beweis: Wir betrachten die Zeile für Eingabe x 6= 0. Die Menge y | 〈x, y〉2,n = 0 istein Vektorraum der Dimension n− 1, und deshalb hat die Zeile von x genau 2n−1 Nullen.Schließlich ist noch zu beachten, dass die Nullzeile nur aus Nullen besteht. .Insgesamt hat die Kommunikationsmatrix also genau

(2n − 1)2n−1 + 2n = 22n−1 + 2n−1


viele Nullen. Wir wenden Korollar 7.2 an und erhalten

D(〈, 〉2,n) ≥ Max0(M〈,〉2,n) ≥ dlog2(22n−1

2n + 2n−1

2n )e = dlog2(2n−1 + 12)e = n.

Also ist D(〈, 〉2,n) ≥ n. Da aber auch n Bits ausreichen, folgt D(〈, 〉2,n) = n.

Aufgabe 64Wir behandeln die Frage, ob „echte“ Kommunikation im Vergleich zur einseitigen Kom-munikation für bestimmte Probleme zu einer Ersparnis führt. Wir wissen bereits, dass dieAntwort bei nichtdeterministischer Kommunikation negativ ist. Hier werden wir sehen,dass die Antwort bei deterministischer Kommunikation positiv ist.Wir beschreiben das Wegproblem WEGn. Gegeben sind Graphen mit 2n+ 2 Knoten. DieKnoten sind in vier Schichten angeordnet: Schicht 1 besteht aus dem Knoten 0, Schicht2 besteht aus den Knoten 1, . . . , n, Schicht 3 aus den Knoten n + 1, . . . , 2n und Schicht 4aus dem Knoten 2n+ 1. Die Graphen werden durch die obere Hälfte ihrer Adjazenzmatrixrepräsentiert.Der Graph G gehört genau dann zu WEGn, wenn

- alle tatsächlichen Kanten (Kanten, die den Wert 1 haben) nur von Schicht i zu Schichti+ 1, 1 ≤ i ≤ 3, verlaufen,

- es genau eine tatsächliche Kante von Schicht 1 nach Schicht 2 gibt,

- alle tatsächlichen Kanten zwischen Schicht 2 und Schicht 3 knotendisjunkt sind und

- ein Weg von Knoten 0 zu Knoten 2n+ 1 (tatsächlich) existiert.

Alice erhält alle (möglichen) Kanten zwischen Schicht 1 und Schicht 2 sowie alle (möglichenKanten) zwischen Schicht 3 und Schicht 4. Bob erhält alle (möglichen) Kanten zwischenSchicht 2 und Schicht 3. Die restlichen (möglichen) Kanten sind beliebig verteilt.Zeige: D(WEGn) = O(log2 n) und DB→A(WEGn) = DA→B(WEGn) = Ω(n).

7.1.2 Fooling-SetsDefinition 7.7 Die Funktion f : X × Y → 0, 1 sei gegeben. Eine Menge

F = (x1, y1), (x2, y2), . . . , (xk, yk) ⊆ X × Y

von Eingaben mit f(x1, y1) = · · · = f(xk, yk) = b heißt genau dann ein Fooling-Set für f ,wenn für alle 1 ≤ i 6= j ≤ k gilt

- xi 6= xj und yi 6= yj,

- f(xi, yj) 6= b oder f(xj, yi) 6= b.


Ein Fooling-Set F besteht also nur aus Einträgen der Kommunikationsmatrix, die den-selben Wert besitzen. Zusätzlich wird gefordert, dass keine zwei Elemente aus F in dergleichen Zeile oder Spalte „sitzen“, und dass die von den je zwei Einträgen aus F aufge-spannte 2× 2 Teilmatrix von Mf nicht monochromatisch ist.

xi

xj

yi yj

ffffvv

Die von (xi, yi) und (xj, yj) aufgespannte 2× 2 Teilmatrix.

Große Fooling-Sets bedingen eine große Kommunikationskomplexität.

Korollar 7.3 Die Funktion f : X × Y → 0, 1 sei gegeben. Wenn F ein Fooling-Set ist,dann gilt

D(f) ≥ dlog2 |F |e.

Beweis:Wenn F ⊆ f−1(b) ein Fooling-Set ist, dann folgt Maxb,F (Mf ) = 1 und wir erhalten

Maxb(Mf ) ≥ dlog2|F |

Maxb,F (Mf )e = dlog2

|F |1 e = dlog2 |F |e.

Die Fooling-Set Methode ist somit ein Spezialfall der Methode der größten Teilmatrix.

Beispiel 7.1 Wir betrachten wieder das Gleichheitsproblem EQn und das Vergleichspro-blem COMPn. Wir erhalten einen sehr einfachen Beweis, dass jeweils n Bits zu sendensind, wenn wir beachten, dass in beiden Fällen die Menge

F = (x, x) | x ∈ 0, 1n

ein Fooling-Set ist.

Im Disjunktheitsproblem DISJn sind die Inzidenzvektoren x, y ∈ 0, 1n von zwei Teilmen-gen set(x) und set(y) des Universums 1, . . . , n vorgegeben. Es ist

DISJn(x, y) =

1 set(x) ∩ set(y) 6= ∅,0 sonst.

Aufgabe 65Zeige: DISJn besitzt ein Fooling-Set der Größe 2n. Also gilt D(DISJn) = n.


Aufgabe 66Wir betrachten die Funktion

f(x1, . . . , x2n) =

1 die Eingabe x enthält genau k Einsen,0 sonst

für 0 ≤ k < n. Wir nehmen an, dass Alice die ersten n Bits und Bob die restlichen n Bitsder Eingabe erhält. Zeige: D(f) = dlog2(k + 2)e.

7.1.3 Die RangmethodeNeben der Methode der größten monochromatischen Teilmatrix ist auch die Rangmethodesehr erfolgreich. Wenn K ein Körper ist, dann bezeichne RangK(M) den Rang der MatrixM über dem Körper K.

Korollar 7.4 Die Rang-Methode.Die Funktion f : X × Y → 0, 1 sei gegeben.

(a) Dann gilt für jeden Körper K

D(f) ≥ dlog2 RangK(Mf )e.

(b) Es gilt DA→B(f) ≤ RangZ2(Mf ).

Beweis (a): Sei P ein deterministisches Kommunikationsprotokoll, das höchstens k Bitsaustauscht. Wir wissen nach Satz 7.2, dass P die Kommunikationsmatrix Mf in höchstensx ≤ 2k monochromatische TeilmatrizenM1, . . . ,Mx zerlegt. Jede solche Teilmatrix hat nurmonochromatische Zeilen oder nur monochromatische Spalten und deshalb ist ihr Ranghöchstens 1.Also können wir die KommunikationsmatrixMf als Summe der TeilmatrizenMi darstellenund erhalten Mf = ∑x

i=1Mi. Die entscheidende Beobachtung ist, dass der Rang einerSumme von Matrizen durch die Summe der Ränge beschränkt ist und wir erhalten

RangK(Mf ) = RangK(x∑i=1

Mi) ≤x∑i=1

RangK(Mi) ≤ x ≤ 2k.

Die Behauptung folgt, wenn wir P als ein optimales Protokoll wählen, denn dann ist

dlog2 RangK(Mf )e ≤ dlog2 2ke = k = D(f).

(b) Es gelte RangZ2(Mf ) = r. Dann gibt es linear unabhängige Zeilen z1, . . . , zr in Mf , diealle anderen Zeilen durch Linearkombinationen erzeugen. Vor der Berechnung einigen sichAlice und Bob auf die Wahl von z1, . . . , zr. Alice bestimmt für ihre Eingabe x zuerst dieLinearkombination (α1, . . . , αr) ∈ 0, 1r mit ∑αizi = z, wobei z die Zeile für Eingabe xist. Dann sendet Alice die Nachricht α1α2 · · ·αr an Bob. Bob kann jetzt z rekonstruierenund damit die Ausgabe berechnen. Somit genügen RangZ2(Mf ) Bits für ein sogar einseitigesProtokoll.


Beispiel 7.2 Wir betrachten das Gleichheitsproblem nochmals. Da die Einheitsmatrix mitder Kommunikationsmatrix übereinstimmt, ist ihr Rang über jedem Körper maximal undstimmt mit 2n überein.Wir werfen auch einen zweiten Blick auf das Vergleichsproblem und beachten, dass die obe-re Dreiecksmatrix als Kommunikationsmatrix nur aus linear unabhängigen Zeilen besteht.Also ist D(COMPn) ≥ log2 2n = n.

Welchen Körper sollte man verwenden? Die beiden nächsten Aufgaben zeigen, dass Z2 dieschwächsten Ergebnisse liefert: Der Rang über Z2 kann sogar exponentiell kleiner als derRang über Q sein.

Aufgabe 67Zeige: RangZ2(M) ≤ RangQ(M) für jede 0-1 Matrix M .

Aufgabe 68Sei M die Kommunikationsmatrix des inneren Produkts 〈, 〉2,n. Dann gilt RangZ2(M) = nund RangQ(M) = 2n − 1.

Wie weit ist der Rang über Q, nach Logarithmierung, von der deterministischen Kom-munikationskomplexität entfernt? Diese Frage ist bis heute unbeantwortet. Eine bis aufein Polynom exakte Beziehung ist nicht ausgeschlossen. Gibt es eine Konstante k mitD(f) ≤ (log2 Rang(Mf ))k?

7.2 Nichtdeterministische KommunikationWir untersuchen die nichtdeterministische Kommunikation. Neben einer Einsicht in dieBerechnungsstärke nichtdeterministischer Protokolle werden wir auch Konsequenzen fürdie deterministische Kommunikation erhalten.Wenn wir eine Funktion f : X × Y → 0, 1 nichtdeterministisch berechnen möchten,dann fordern wir, dass es für jede Eingabe (x, y) mit f(x, y) = 1 eine „akzeptierende“Berechnung, also eine Berechnung mit Ausgabe 1 gibt. Für Eingaben (x, y) mit f(x, y) = 0hingegen müssen alle Berechnungen mit der Ausgabe 0 enden. Wenn wir ein nichtdeter-ministisches Protokoll P mit diesen Eigenschaften besitzen, dann sagen wir, dass P einProtokoll für f ist.Schließlich müssen wir den Aufwand des Protokolls messen. Wir sagen, dass ein Protokollhöchstens s Bits austauscht, wenn jede Berechnung auf jeder Eingabe höchstens s Bitskommuniziert.

Definition 7.8 Die Funktion f : X × Y → 0, 1 sei gegeben. Dann definieren wir

N(f) = mins | es gibt ein nichtdeterministisches Protokoll für f ,das höchstens s Bits austauscht.

7.2. NICHTDETERMINISTISCHE KOMMUNIKATION 155

Wir definieren NA→B(f) und NB→A(f) wie im Fall der deterministischen Kommunikationfür einseitige Protokolle.

Gibt es stets optimale, einseitige nichtdeterministische Protokolle? Überraschenderweiseist die Antwort positiv!

Satz 7.3 Die Funktion f : X × Y → 0, 1 sei gegeben. Dann gilt

N(f) = NA→B(f).

Beweis: Sei P ein vorgegebenes, nichtdeterministisches Protokoll. Wir simulieren P durchein einseitiges nichtdeterministisches Protokoll, das genau dieselbe Anzahl von Bits aus-tauscht. Dabei liegt folgende Idee zugrunde: Alice rät einen mit ihrer Eingabe konsistentenDialog und kommuniziert den geratenen Dialog in einer einzigen Nachricht N . Bob brichtN in die Einzelnachrichten der jeweiligen Spieler auf. Dann überprüft Bob die Korrektheitdes Dialogs von seiner Perspektive aus. Geht die Überprüfung positiv aus, akzeptiert oderverwirft Bob wie von Protokoll P vorgeschrieben.Offensichtlich wird in dem einseitigen Protokoll die gleiche Anzahl von Bits wie im vorge-gebenen Protokoll P ausgetauscht.

Kann Nichtdeterminismus im Vergleich zum Determinismus die Anzahl der ausgetauschtenBits reduzieren? Die Antwort ist ja, wie das folgende Beispiel zeigt.

Beispiel 7.3 Wir betrachten das Komplement EQn des Gleichheitsproblems:

EQn(x1, . . . , xn, y1, . . . , yn) =

1 xi 6= yi für mindestens eine Position i,0 sonst.

Da F = (x, x) | x ∈ 0, 1n ein Fooling-Set der Größe 2n für EQn ist, erhalten wirD(EQn) = n für die deterministische Kommunikationskomplexität. Wie groß ist die nicht-deterministische Kommunikationskomplexität von EQn?Wir geben ein nichtdeterministisches Protokoll an, daß genau dlog2 ne+ 1 Bits austauscht:Alice rät eine Bitposition i ∈ 1, . . . , n und kommuniziert die Binärdarstellung von i− 1sowie das Bit xi. Bob akzeptiert genau dann, wenn sein i-tes Bit yi von xi verschieden ist.


N(f) ≤ D(f) ≤ DA→B(f) ≤ 2N(f)

und eine exponentiell große Lücke zwischen N(f) und D(f) ist möglich.

Beweis: Übung.

Im Fall deterministischer Kommunikation haben wir keine exakte Methode zur Bestim-mung der Kommunikationskomplexität gefunden. Bei nichtdeterministischer Kommunika-tion ist die Situation einfacher.


Definition 7.9 Sei M = M [x, y]x∈X,y∈Y eine 0-1-Matrix. Die Matrizen M1, . . . ,Ms seienTeilmatrizen von M .

(a) Wir sagen, dass M1, . . . ,Ms eine Überdeckung von M bildet, falls

- alle Teilmatrizen 1-chromatisch sind und- jeder Eintrag M [x, y] in mindestens einer der Teilmatrizen vorkommt.

Wir definieren die Größe der Überdeckung durch s.

(b) Mit Überdeckung(M) bezeichnen wir die minimale Größe einer Überdeckung von M :

Überdeckung(M) = mins | Es gibt eine Überdeckung der Größe s von M.

Die Überdeckungszahl Überdeckung(M) erlaubt eine exakte Bestimmung der nichtdeter-ministischen Kommunikation.


N(f) = dlog2 Überdeckung(Mf )e.

Beweis: Wir beweisen zuerst die Ungleichung „≤“: Sei M1, . . . ,Ms eine beliebige Überde-ckung der Kommunikationsmatrix Mf . Wir müssen ein einseitiges nichtdeterministischesProtokoll konstruieren, das höchstens dlog2 se Bits kommuniziert.Sei x = (x, y) eine beliebige Eingabe von f . Alice rät ein Element aus der Menge

i | die Zeile von x gehört zu den Zeilen der Teilmatrix Mi

und kommuniziert die Binärdarstellung von i − 1. Bob akzeptiert, wenn die Spalte von yzu den Spalten der Teilmatrix Mi gehört und verwirft ansonsten.

x

y1 y2

Mf

11

11

1 B verwirft, falls y = y1

B akzeptiert, falls y = y2

gesendete Matrix

Dieses Protokoll ist korrekt, denn

Bob akzeptiert ⇐⇒ Es gibt ein i ∈ 1, . . . , s, so daß Mi die Zeile vonx und die Spalte von y enthält.

⇐⇒ Es gibt ein i, so daß Mi die Position (x, y) überdeckt.⇐⇒ Mf [x, y] = 1.


Die letzte Äquivalenz folgt, da jede Teilmatrix Mi 1-chromatisch ist.Wir zeigen die umgekehrte Ungleichung „≥“: Sei P ein nichtdeterministisches Protokoll fürf , das höchstens s Bits kommuniziert. Offensichtlich erzeugt P höchstens 2s Nachrichtenund damit natürlich höchstens 2s akzeptierende Nachrichten.Jede akzeptierende Nachricht entspricht einer 1-chromatische Teilmatrix und jede Eingabe(x, y) mit f(x, y) = 1 wird von mindestens einer Nachricht akzeptiert. Eintrag (x, y) wirddamit von mindestens einer der höchstens 2s 1-chromatischen Teilmatrizen überdeckt.

7.2.1 Die Methode der größten 1-chromatischen TeilmatrixLemma 7.1 Die Funktion f : X × Y → 0, 1 sei gegeben. Dann gilt

N(f) ≥ Max1(Mf ).

Beweis: Sei F eine 1-chromatische Menge mit

Max1(Mf ) = dlog2|F |

Max1,F (Mf )e.

Jedes nichtdeterministische Protokoll muss alle Einsen der Kommunikationsmatrix und da-mit insbesondere auch alle Einträge in F mit akzeptierenden Nachrichten und damit mit 1-chromatischen Teilmatrizen überdecken. Da eine akzeptierende Nachricht nur Max1,F (Mf )Einträge aus F überdecken kann, sind |F |

Max1,F (Mf )verschiedene Nachrichten notwendig und

die Behauptung folgt.

Aufgabe 69Warum ist die Aussage N(f) ≥ Max0(Mf ) falsch?

Beispiel 7.4 Wir betrachten das Gleichheitsproblem EQn und behaupten, dass

Max1(MEQn) ≥ n

gilt. Wir wählen F = (x, x) | x ∈ 0, 1n und erhalten Max1,F (MEQn) = 1. Also folgt dieBehauptung aus |F | = 2n, und wir erhalten

N(EQn) = n.

Während Nichtdeterminismus beim Raten unterschiedlicher Bits wesentlich hilft (D(EQn) ≤dlog2 ne+ 1), versagt Nichtdeterminismus beim Verifizieren der Gleichheit.

Wir zeigen jetzt, dass die Methode der größten 1-chromatischen Teilmatrix erstaunlich gutist. Zuerst vergleichen wir Max1(Mf ) und Überdeckung(Mf ). Offensichtlich ist

Überdeckung(Mf ) ≥ Max1(Mf ),

und wir versuchen zu zeigen, dass Max1(Mf ) nur unwesentlich kleiner als die Überdeckungs-zahl ist. Wie werden Überdeckungsprobleme gelöst? Das allgemeine Überdeckungsproblemstimmt mit SET COVER überein:


- Gegeben sind das Universum U = 1, . . . , n und Teilmengen T1, . . . , Tr des Univer-sums mit ⋃ri=1 Ti = U .

- Gesucht ist eine Überdeckung des Universums mit möglichst wenigen Teilmengen.

SET COVER ist NP-vollständig. Dennoch existieren effiziente Approximationsalgorithmen.

Algorithmus 7.1 Der gierige Überdeckungsalgorithmus

(1) Setze I := ∅.

(2) Solange ⋃i∈I Ti 6= U :

(2a) Wähle eine Menge Ti größter Mächtigkeit.(2b) Setze I := I ∪ i und(2c) Tj := Tj \ Ti für jedes j mit 1 ≤ j ≤ r.

Wir schätzen ab, wie gut Algorithmus 7.1 approximiert. Sei opt die minimale Anzahl vonMengen, die zu einer Überdeckung des Universums nötig ist und sei u = |I| die Anzahl derMengen, die der Überdeckungsalgorithmus produziert. Um wieviel kann u größer als optsein?Sei tj die Anzahl der Schritte des Algorithmus, in denen die gewählte Teilmenge genau jElemente besitzt (und somit j neue Elemente aus U überdeckt werden). Dann gilt

u =n∑j=1

tj.

Wir gruppieren die Schritte des Algorithmus in Blöcke: Der i-te Block Bi besteht aus denSchritten, in denen genau 2i+1− 1 „neue“ Elemente, d.h. noch nicht überdeckte Elemente,überdeckt werden bis zu den Schritten, in denen genau 2i neue Elemente überdeckt werden.Bi besteht somit aus

t2i+1−1 + . . .+ t2i

vielen Schritten und wir erhalten

u =blog2 nc∑i=0

(t2i+1−1 + · · ·+ t2i).

Sei Bi der Block, in dem die meisten Mengen gewählt werden. In Bi werden somit mindes-tens

t2i+1−1 + . . .+ t2i ≥u

blog2 nc+ 1 ≥opt

blog2 nc+ 1Mengen gewählt. Der Approximationsalgorithmus führt zuerst tn + . . . + t2i+1 Schrittedurch und erst danach die t2i+1−1 + . . .+ t2i Schritte von Block Bi. Sei Fool die Menge allerElemente des Universums, die nicht in den Schritten tn + . . .+ t2i+1 , aber in den Schrittent2i+1−1 + . . .+ t2i überdeckt werden.Die Teilmengen, die unser Algorithmus zur Überdeckung von Fool benutzt, überdeckenmindestens 2i neue Elemente von Fool. Deshalb gilt:


- |Fool|2i ≥ t2i+1−1 + · · ·+ t2i und damit |Fool|

2i ≥u

blog2 nc+1 .

- Keine Teilmenge überdeckt mindestens 2i+1 Elemente aus Fool, denn sonst hätte derAlgorithmus diese Teilmenge bereits in einem früheren Block gewählt. Also muß jedeÜberdeckung von Fool mindestens |Fool|

2i+1 Teilmengen besitzen. Es folgt:

opt ≥ |Fool|2i+1 = 1

2 ·|Fool|

2i ≥ 12 ·

u

blog2 nc+ 1 .

und wir habenu

2(blog2 nc+ 1) ≤ opt ≤ u

gezeigt.

Lemma 7.2 Wenn ein Universum der Größe n zu überdecken ist, dann approximiert Al-gorithmus 7.1 innerhalb des Faktors 2(blog2 nc+ 1).

Wie gut ist die Methode der größten 1-chromatischen Teilmatrix?


Max1(Mf ) ≤ N(f) ≤ Max1(Mf ) + dlog2 2(n+ 1)e

für n = log2(|X| · |Y |).

Beweis Wir wählen das Universum U = (x, y) ∈ X × Y | Mf [x, y] = 1 und die 1-chromatischen Teilmatrizen von Mf als Teilmengen Tj . Wir wissen:

- opt = Überdeckung(Mf ) und

- |U | ≤ |X| · |Y |, denn Mf besitzt insgesamt |X| · |Y | Einträge.

- Die obigen Betrachtungen liefern eine Menge Fool von 1-Einträgen, so daß

|Fool|2i ≥ u

blog2 |U |c+ 1 ≥opt

blog2 |U |c+ 1 = Überdeckung(Mf )blog2 |U |c+ 1

für 0 ≤ i ≤ blog2 |U |c+ 1 gilt.

Da keine 1-chromatische Teilmatrix mindestens 2i+1 Elemente von Fool überdecken kann,gilt andererseits

Max1(Mf ) ≥ dlog2|Fool|2i+1 e ≥ dlog2

12 ·|Fool|

2i e ≥ dlog2Überdeckung(Mf )

2(log2(|X| · |Y |) + 1)e,

wenn wir F = Fool wählen. Daraus folgt

Max(Mf ) + dlog2 2(n+ 1)e ≥ dlog2 Überdeckung(Mf )e = N(f)

für n = log2(|X| · |Y |).


Beispiel 7.5 Wie groß ist die nichtdeterministische Kommunikationskomplexität des in-neren Produkts modulo zwei?

- Die Rang-Methode ist nur für deterministische Protokolle anwendbar,

- alle 1-Fooling-Sets liefern nur O(log22 n) als untere Schranke,

und wir versuchen deshalb die Methode der größten 1-chromatischen Teilmatrix. Wir set-zen F := (x, y) | Mf [x, y] = 1. Wir haben bereits gezeigt, daß die größte 0-chromatischeTeilmatrix die Größe höchstens 2n besitzt (Behauptung 7.1) Aber eine 1-chromatische Teil-matrix mit den Zeilen x1, . . . , xr liefert eine 0-chromatische Teilmatrix, wenn wir x1 ⊕x1, . . . , xr ⊕ x1 als neue Zeilenmenge wählen. Also besitzt auch die größte 1-chromatischeTeilmatrix die Größe höchstens 2n und wir erhalten

N(〈, 〉2,n) ≥ Max1(M〈,〉2,n) ≥ dlog2(2n − 1)2n−1

2n e = dlog222n−1 − 2n−1

2n e = n− 1.

7.2.2 Fehlerfreier NichtdeterminismusGibt es Funktionen f , so daß Nichtdeterminismus sowohl für f wie auch für die Komple-mentfunktion f hilft?

Lemma 7.3 Die Funktion EQ∗n : 0, 12n2 → 0, 1 wird durch

EQ∗n(x1, . . . , xn, y1, . . . , yn) = 1 ⇔ ∃ i : xi = yi

definiert. Wir verlangen |x1| = . . . = |xn| = |y1| = . . . = |yn| = n und weisen Alice diex-Worte und Bob die y-Worte zu. Dann gilt:

(a) N(EQ∗n) ≤ dlog2 ne+ n.

(b) N(EQ∗n) ≤ n · (dlog2 ne+ 1).

(c) D(EQ∗n) = n2.

Beweis: Übung.

Damit erhalten wir insbesondere auch ein fehlerfreies nichtdeterministisches Protokoll fürEQ∗n:

Zuerst wird ein Bit geraten. Wird das Bit 1 gewählt, dann führen die Spielerdas nichtdeterministische Protokoll für EQ∗n aus. Ist das Protokoll erfolgreichund bestätigt EQ∗n(x, y) = 1, dann wird auch die Ausgabe übernommen. Wirdaber EQ∗n(x, y) = 1 nicht bestätigt, dann wird ein Fragezeichen ausgegeben.Wird das Bit 0 gewählt, dann wird das nichtdeterministische Protokoll fürEQ∗n ausgeführt. Ist das Protokoll erfolgreich und bestätigt EQ∗n(x, y) = 0,dann wird die Ausgabe übernommen; ansonsten wird auch hier ein Fragezeichenausgegeben.


Wir kommunizieren O(n·log2 n) Bits im worst-case und geben, obwohl nichtdeterministischarbeitend, nie eine falsche Antwort (d.h. verwerfen obwohl zu akzeptieren ist). Trotz derFehlerfreiheit erreichen wir eine fast quadratische Reduktion im Vergleich zu deterministi-schen Protokollen.

Aufgabe 70In dieser Aufgabe zeigen wir, dass es Sprachen gibt, für die Nichtdeterminismus we-der für die Sprache noch für ihr Komplement weiterhilft. Zeige: N(COMPn) = n undN(COMPn) = n

Ist es möglich, Funktionen f zu finden, für die Nichtdeterminismus eine noch drastischereErsparnis für f und f liefert?

Definition 7.10 Sei M eine 0-1-Matrix. Wir sagen, daß M eine untere Dreiecksmatrixder Größe s besitzt, wenn M nach geeigneter Permutation der Zeilen und Spalten mit denPermutationsmatrizen P1 und P2 die Form

P1 ·M · P2 =

1 . . . 0... . . . ... ∗∗ . . . 1

∗ ∗

hat. Die untere Dreiecksmatrix im linken oberen Teil von P1 ·M · P2 besitze s Zeilen undSpalten. Setze:

4(M) = maxs |M besitzt eine untere Dreiecksmatrix der Größe s.

Die Definition von 4(M) ist unabhängig davon, ob wir untere oder obere Dreiecksma-trizen betrachten, da wir durch geeignete Spalten- und Zeilenpermutation beide Formenineinander überführen können:

1 ∗. . .

0 1

Zeilenperm.←→

0 1

. . .1 ∗

Spaltenperm.←→

1 0

. . .1

Wir versuchen, aus nichtdeterministischen Protokollen für f : X × Y → 0, 1 und f eineffizientes, deterministisches Protokoll für f zu bauen. Es gelte

N(f) = s

und wir können die Nullen der Kommunikationsmatrix Mf von f mit höchstens 2s 0-chromatischen Teilmatrizen M1, . . . ,M2s überdeckt, denn

N(f) = dlog2 Überdeckung(Mf )e = s.

Sei Zi (bzw. Si) die Menge der Zeilen (bzw. Spalten) der Teilmatrix Mi, 1 ≤ i ≤ 2s.


Lemma 7.4 Sei MZi die Matrix Mf eingeschränkt auf die Zeilen in Zi und MS

i die MatrixMf eingeschränkt auf die Spalten in Si. Dann gilt:

4(MZi ) +4(MS

i ) ≤ 4(Mf ).

Beweis: Wir können obere Dreiecksmatrizen in MZi und MS

i zu einer oberen Dreiecks-matrix in Mf zusammensetzen, da eine obere Dreiecksmatrix in MZ

i (oder in MSi ) nicht

mit der 0-chromatischen Matrix Mi überlappt, denn Mi besitzt keine 1-Einträge auf derDiagonalen.

0MZi

MSi

00 0 0

- - - -I II III IV

Die Behauptung folgt wie in der Abbildung angegeben. In Schritt I permutieren wir eineuntere Dreiecksmatrix in den Zeilen Zi an den linken Rand. Schritt II verschiebt dieseDreiecksmatrix in die linke obere Ecke. Durch Schritt III vertauschen wir die Spalten so,daß die Spalten aus Si neben die Dreiecksmatrix zu liegen kommen. Schließlich permutierenwir in Schritt IV in den Spalten vonMS

i eine untere Dreicksmatrix nach oben. Wir erhaltenin Mf eine untere Dreiecksmatrix der Größe 4(MS

i ) +4(MZi ).

O.B.d.A. gelte

4(MZi ) ≤ 4(MS

i ) für i = 1, . . . , r und4(MZ

i ) > 4(MSi ) für i = r + 1, . . . , 2s.

Wir versuchen, ein möglichst effizientes, deterministisches Protokoll für die Funktion fzu entwerfen. Alice beginnt die Kommunikation und überprüft zuerst, ob die Zeile ihrerEingabe x zu einer der Matrizen MZ

1 , . . . ,MZr gehört.

Fall 1: Es gibt mindestens eine Matrix MZi (1 ≤ i ≤ r), die die Zeile von x enthält.

Alice sendet den Namen einer dieser Matrizen MZi in Binärdarstellung an Bob. Dies ist

mit der Kommunikation von s = N(f) Bits möglich. Haben wir einen Fortschritt erzielt?Bob weiß jetzt, daß die Eingabe von Alice zur Menge Zi gehört. Außerdem gilt:

4(MZi ) ≤ 4(Mf )

2 ,

denn 4(MZi ) +4(MS

i ) ≤ 4(Mf ) und 4(MZi ) ≤ 4(MS

i ). Damit wird die 4-Komplexitätum den Faktor 2 reduziert.Fall 2: Keine der Matrizen MZ

1 , . . . ,MZr enthält die Zeile von x.

Alice sendet die Nachricht „erfolglos“. Bob überprüft, ob die Spalte seiner Eingabe y zueiner der Matrizen MS

r+1, . . . ,MS2s gehört.

Fall 2.1: Es gibt mindestens eine MatrixMSi (r+1 ≤ i ≤ 2s), die die Spalte von y enthält.


Bob sendet den Namen einer solchen Matrix MSi mit der Kommunikation von s = N(f)

Bits an Alice. Auch in diesem Fall besteht der Fortschritt darin, daß

4(MSi ) ≤ 4(Mf )

2 ,

denn es ist 4(MSi ) < 4(MZ

i )). Alice weiß zusätzlich, daß die Eingabe von Bob zur MengeSi gehört.Fall 2.2: Keine der Matrizen MS

r+1, . . . ,MS2s enthält die Spalte von y.

Damit gehört auch die Eingabe von Alice nicht zu einer der Matrizen MZ1 , . . . ,M

Zr und

Bob’s Eingabe nicht zu einer der Matrizen MSr+1, . . . ,M

S2s . Dann aber liegt die vollständige

Eingabe (x, y) nicht inM1, . . . ,M2s und (x, y) muss den Wert 1 besitzen, dennM1, . . . ,M2s

überdecken alle 0-Einträge von Mf . Also kann Bob die Rechnung beenden.Wenn wir noch nicht fertig sind, d.h. die Ausgabe noch nicht bestimmen können, beginnenwir eine neue Runde. Dabei beginnt der Spieler, der nicht das „erfolglos“-Bit gesendet hat.Wir verwenden MZ

i (bzw. MSi ) statt Mf , falls Alice (bzw. Bob) der Spieler ist, der die

nächste Runde beginnt.Wieviele Bits werden insgesamt ausgetauscht? In einem Schritt genügen s + 1 Bits: Wirstellen die Nummer der Matrix (minus 1) binär als s-Bitstring dar und fügen eine 0 amhöchstwertigsten Bit an. Das „erfolglos“-Bit stellen wir durch den (s+ 1)-Bitstring 10 · · · 0dar, d.h. als Binärdarstellung des Wertes 2s. Eventuell müssen wir nach Beendigung nochdas Ausgabebit b ∈ 0, 1 an den für die Ausgabe zuständigen Spieler weiterleiten. Wirsenden dieses Bit als Binärdarstellung von 2s + 1 + b.Angenommen, die Berechnung stoppt mit einer Matrix M , deren Dreieckskomplexität4(M) = 0 ist. Dann muß M 0-chromatisch sein und die Berechnung kann mit Ausgabe 0stoppen. Da 4(Mf ) in jedem Schritt mindestens halbiert wird, reichen dlog24(Mf )e + 1Iterationen aus. Insgesamt genügen somit

(dlog24(Mf )e+ 1) ·(N(f) + 1

)Bits.

Satz 7.7 Die Funktion f : X × Y → 0, 1 sei gegeben.

(a) D(f) ≤ (dlog24(Mf )e+ 1) · (N(f) + 1).

(b) D(f) ≤(dlog24(Mf )e+ 1

)· (N(f) + 1).

Beweis: Teil (a) haben wir gerade gezeigt. (b) folgt, wenn wir in (a) die Funktion f durchf ersetzen und beachten, dass D(f) = D(f) gilt.

Für Turingmaschinen wissen wir nicht, ob

P = NP ∩ coNP

gilt, wobei coNP = f | f ∈ NP ist. Was passiert im Kommunikationsmodell?


Korollar 7.5 Die Funktion f : X × Y → 0, 1 sei gegeben. Dann gilt

D(f) ≤ (N(f) + 1) ·(N(f) + 1

).

Lemma 7.3 gibt ein Beispiel für eine Funktion, für die diese Ungleichung „fast“ exakt ist.

Beweis: Es giltdlog24(Mf )e ≤ N(f),

denn wir können die Diagonale der Dreiecksmatrix als Fooling-Set wählen.

Falls sowohl die Funktion f , als auch ihr Komplement f mit „wenigen“ Bits nichtdetermi-nistisch berechnet werden kann, dann kann f auch deterministisch mit nur polynomiellemMehraufwand berechnet werden.

Aufgabe 71Die Funktion f : X×Y → 0, 1 sei gegeben. Wir betrachten nochmals fehlerfreien Nicht-determinismus, also nichtdeterministische Protokolle, die die Ausgaben 0,1 oder Fragezei-chen geben können. Für jede Eingabe (x, y) ∈ X × Y muss mindestens eine Berechnungeine vom Fragezeichen verschiedene Ausgabe bestimmen und keine falsche Antwort darfgegeben werden.Zeige: Wenn ein fehlerfreies nichtdeterministisches Protokoll die Funktion f mit s Bitsberechnet, dann ist D(f) = O(s2).

Wir betrachten eindeutig nichtdeterministische Protokolle, also nichtdeterministische Pro-tokolle, die für jede Eingabe (x, y) ∈ X × Y mit f(x, y) = 1 genau eine akzeptierendeBerechnung besitzen. Um wieviel effizienter können diese Protokolle im Vergleich zu deter-ministischen Protokollen sein?

Korollar 7.6 Die Funktion f : X × Y → 0, 1 werde durch ein eindeutig nichtdetermi-nistisches Protokoll mit s Bits berechnet. Dann gilt

D(f) ≤ (s+ 1) · (s+ 2) .

Eindeutiger Nichtdeterminismus erlaubt somit eine höchstens quadratische Ersparnis.

Beweis: Die wesentliche Beobachtung ist, dass der Rang der Kommunikationsmatrix eineuntere Schranke für deterministische Protokolle ist.

Behauptung 7.3 Es gilt dlog2 Rang(Mf )e ≤ s.

Beweis: Ein eindeutiges, nichtdeterministisches Protokoll erzeugt eine disjunkte Zerlegungder Einsen von Mf in 1-chromatische Teilmatrizen M1, . . . ,Mt. Wenn das Protokoll höchs-tens s Bits austauscht, dann ist die Anzahl t dieser Matrizen durch 2s beschränkt und wirerhalten

Rang(Mf ) ≤t∑i=1

Rang(Mi) ≤ t ≤ 2s


und die Behauptung folgt durch Logarithmieren.

Wir wenden Satz 7.7 an und erhalten

D(f) ≤ (N(f) + 1) ·(dlog24(Mf )e+ 1

).

Damit folgt das Korollar aus N(f) ≤ s und

4(Mf ) ≤ Rang(Mf ) ≤ Rang(Mf ) + 1 ≤ 2s + 1.

7.2.3 Ein Methoden-Vergleich für die deterministische Kommu-nikation

In der Analyse der deterministischen Kommunikationskomplexität haben wir

- die Fooling-Set Methode,

- die Rang-Methode,

- die Methode der größten monochromatischen Teilmatrix und

- die Zerlegungsmethode

kennengelernt. Wir stellen uns die Frage nach einem Vergleich der jeweiligen Methoden undüberprüfen, wie scharf die tatsächliche Kommunikationskomplexität approximiert wird.Unser erstes Ergebnis zeigt, dass die Zerlegungsmethode die besten Ergebnisse liefert.

Aufgabe 72Die Funktion f : X × Y → 0, 1 sei gegeben. Zeige:

- RangK(Mf ) ≤ Zerlegung(Mf ) für jeden Körper K.

- |F |/Maxb,F (Mf ) ≤ Zerlegung(Mf ) für jede Teilmenge F von Eingaben mit Wert b.

- |F | ≤ Zerlegung(Mf ) für jeden Fooling-Set F .

Leider ist die Bestimmung einer besten Zerlegung ein sehr schwieriges Problem und deshalbist die Zerlegungsmethode auch nur in wenigen Fällen mit Erfolg direkt anwendbar. Wirsetzen deshalb unsere Untersuchung fort und betrachten zuerst die Methode der größtenmonochromatischen Teilmatrix und vergleichen dann Fooling-Sets mit der Rangmethode.


7.2.3.1 Die Methode der größten monochromatischen Teilmatrix

In Satz 7.7 haben wir gezeigt, dass es effiziente deterministische Protokolle gibt, wenn so-wohl die nichtdeterministische Komplexität für die Funktion wie auch für das Komplement-funktion gering ist. Wir werden diese Beobachtung ausnutzen, um nachzuweisen, dassdie Methode der größten monochromatischen Teilmatrix die tatsächliche deterministischeKommunikationskomplexität überraschend gut voraussagt.Korollar 7.7 Die Funktion f : X × Y → 0, 1 sei gegeben.(a) D(f) ≤ (dlog2 |F |e+ 1) ·

(N(f) + 1

), wobei F ein 1-Fooling-Set maximaler Größe

für Mf ist.Mit anderen Worten: Die Fooling-Set-Methode ist immer dann gut, wenn f oder feine niedrige nichtdeterministische Kommunikationskomplexität besitzen.

(b) Für jeden Körper K gilt D(f) ≤ (dlog2 RangK(Mf )e+ 1) ·(N(f) + 1

).

Mit anderen Worten: Auch die Rangmethode liefert gute Ergebnisse bei niedrigernichtdeterministische Komplexität von f oder f .

(c) D(f) ≤ (Max1(Mf ) + 1) ·(Max1(Mf ) + dlog2 2(n+ 1)e+ 1

), für n = log2(|X| · |Y |).

Mit anderen Worten: Die Methode der größten Teilmatrix ist stets gut.

(d) D(f) ≤ (dlog2 Zerlegung(Mf )e+ 1)2 .

Mit anderen Worten: Die Zerlegungsmethode ist ebenfalls stets gut, wenn auch schwie-riger handzuhaben als die Methode der größten Teilmatrix.

Beweis: Sei 4 die größte untere Dreiecksmatrix in Mf . Wir wissen, dass 4 die Größe4(Mf ) besitzt. Teil (a) folgt sofort aus Satz 7.7, wenn wir beachten, dass die Diagonale Fvon 4 ein Fooling-Set der Größe 4(Mf ) ist. Desweiteren ist

4(Mf ) = RangK(4) ≤ RangK(Mf )und auch Teil (b) ist eine direkte Konsequenz.Für Teil (c) wenden wir an, dass dlog24(Mf )e ≤ dlog2 |F |e ≤ Max1(Mf ) gilt. Wir erhaltenalso aus Satz 7.6:

D(f) ≤ (dlog24(Mf )e+ 1) · (N(f) + 1)≤ (Max1(Mf ) + 1) · (N(f) + 1)≤ (Max1(Mf ) + 1) ·

(Max1(Mf ) + dlog2 2(n+ 1)e+ 1

).

Teil (d) folgt aus Korollar 7.5, denn

D(f) ≤ (N(f) + 1) ·(N(f) + 1

)≤

(dlog2 Überdeckung(Mf )e+ 1

)·(dlog2 Überdeckung(Mf )e+ 1

)≤ (dlog2 Zerlegung(Mf )e+ 1) ·

(dlog2 Zerlegung(Mf )e+ 1

).


7.2.3.2 Fooling-Sets und die Rang-Methode

Wir geben uns wiederum eine Funktion f : X×Y → 0, 1 vor und definieren die Funktionf ∗ : (X × Y )2 → 0, 1 durch

f ∗(x1y1, y2x2) = f(x1, y2) · f(x2, y1).

Sei F ein 1-Fooling-Set, also ein Fooling-Set aus Eingaben vom Wert 1. Wir erinnern daran,dass jede von (x, y), (x′, y′) ∈ F aufgespannte 2×2-Matrix nicht 1-chromatisch und deshalbmindestens einen 0-Eintrag besitzt.

x

x′

y y′

Mf

1

1

∗

∗

Ein 1-Fooling-Set.

Lemma 7.5 Sei F = (xi, yi) | 1 ≤ i ≤ r ein 1-Fooling-Set für f . Dann besitzt Mf∗ einer × r Einheitsmatrix.

Beweis: Wir wählen X = xiyi | 1 ≤ i ≤ r als Zeilenmenge und Y = yjxj | 1 ≤ j ≤ rals Spaltenmenge von Mf∗ . Wir behaupten, daß die Zeilen in X und die Spalten in Y diegesuchte Einheitsmatrix in Mf∗ definieren. Wir beobachten zuerst, dass

Mf∗ [xiyi, yjxj] = f ∗(xiyi, yjxj) = f(xi, yj) · f(xj, yi)

gilt. Für i = j istMf∗ [xiyi, yjxj] = f(xi, yi) ·f(xi, yi) = 1, da F nur aus Eingaben mit Wert1 besteht. Falls i 6= j ist, gilt f(xi, yj) = 0 oder f(xj, yi) = 0, denn ist F ein 1-Fooling-Set.Also folgt

Mf∗ [xiyi, yjxj] = 0und die Behauptung ist gezeigt.

Als Folgerung erhalten wir RangK(Mf∗) ≥ |F | über jedem Körper K.

Lemma 7.6 Es gilt RangK(Mf )2 ≥ RangK(Mf∗) für jeden Körper K.

Beweis: Sei r = RangK(Mf ). Dann gibt es Zeilen z1, . . . , zr, die alle Zeilen von Mf er-zeugen und Spalten s1, . . . , sr, die alle Spalten von Mf erzeugen. Wir erhalten also dieDarstellungen

Mf [x1, ?] = (f(x1, y2))y2=

r∑i=1

αizi

Mf [?, y1] = (f(x2, y1))x2=

r∑j=1

βjsj.


Andererseits hat eine Zeile von Mf∗ die Form

Mf∗ [x1y1, ?] = (f(x1, y2) · f(x2, y1))x2,y2

und wir erhalten

(f(x1, y2) · f(x2, y1))x2,y2=

r∑i=1

αizi,y2 ·r∑j=1

βjsj,x2

x2,y2

= r∑i,j=1

αiβj · zi,y2 · sj,x2

x2,y2

=r∑

i,j=1αiβj · (zi,y2 · sj,x2)x2,y2 .

Also ist (zi,y2 · sj,x2)x2,y2 ein Erzeugendensystem, das aus höchstens r2 Vektoren bestehtund RangK(Mf∗) ≤ r2 folgt.

Fassen wir zusammen: Wenn f einen 1-Fooling-Set F der Größe r besitzt, dann ist derRang von Mf∗ , als Konsequenz von Lemma 7.5 mindestens r und wir erhalten

RangK(Mf∗) ≥ |F |.

Mit Lemma 7.6 folgtRangK(Mf ) ≥

√RangK(Mf∗) ≥

√|F |.

Was passiert, wenn F ein 0-Fooling-Set ist? In diesem Fall folgt die Behauptung nichtanalog, da wir ausgenutzt haben, daß Mf∗ [xiyi, yjxj] = 1 genau dann gilt, wenn f(xi, yi) =f(xj, yj) = 1. Falls F ein 0-Fooling-Set für f ist, ist F ein 1-Fooling-Set für g = f ⊕ 1 undwir erhalten

RangK(Mg) ≥√|F |.

Aber ausRangK(Mg) = RangK(1−Mf ) ≤ RangK(Mf ) + 1

folgt RangK(Mf ) ≥ RangK(Mg)− 1 ≥√|F | − 1. Wir haben den folgenden Satz erhalten:

Satz 7.8 Die Funktion f : X × Y → 0, 1 sei gegeben und F sei ein Fooling-Set für f .Dann gilt

RangK(Mf ) ≥√|F | − 1

über jedem Körper.

Die Rangmethode liefert also asymptotisch eine um höchstens den Faktor 12 schwächere

untere Schranke als die Fooling-Set-Methode. Die Fooling-Set-Methode kann aber auchwesentlich schlechtere Ergebnisse liefern. Betrachte das innere Produkt modulo 2

〈x, y〉2,n =(

n∑i=1

xi · yi)

mod 2.

7.3. PROBABILISTISCHE KOMMUNIKATION 169

Wegen RangZ2(M〈,〉2,n) = n ist die Größe jedes Fooling-Sets nach Satz 7.8 durch (n + 1)2

beschränkt. Andererseits gilt

RangQ(M〈,〉2,n) = 2n − 1.

Konsequenz:

Die Methode Fooling-Set ist nie entscheidend besser als die Rangmethode, kannaber drastisch schlechter sein.

Wir erinnern daran, das der Status der Rangmethode für K = Q ungeklärt ist und einesogar, bis auf ein Polynom, exakte Charakterisierung der Kommunikationskomplexität istnicht ausgeschlossen.

7.3 Probabilistische KommunikationIn probabilistischen Protokollen können Alice und Bob mit einem beiden zur Verfügungstehenden Zufallsstring z arbeiten. Alice wie auch Bob konsultieren z und führen dann eindeterministisches Protokoll Pz aus.Wir können somit ein probabilistisches Protokoll P als eine Verteilung über determinis-tische Protokolle ansehen. Wir sagen, dass P eine Funktion f : X × Y → Z mit Fehlerhöchstens ε berechnet, falls für alle x ∈ X und y ∈ Y

prz[ Pz(x, y) = f(x, y) ] ≥ 1− ε

gilt. (Pz(x, y) bezeichnet die vom Protokoll P berechnete Ausgabe für x, y, wenn der Zu-fallsstring z gewählt wird. Die Wahrscheinlichkeit “pr” wird über alle möglichen Wahlenvon z bestimmt.)Wir haben das Modell der öffentlichen Zufallsquelle gewählt: Alice und Bob arbeiten mitdemselben Zufallsstring z. In dem Modell der privaten Zufallsquelle arbeitet Alice miteinem Zufallsstring zA und Bob mit einem Zufallsstring zB. Weder kennt Alice zB nochkennt Bob zA. Wie hängen die beiden Modelle zusammen?Ein Protokoll mit privater Zufallsquelle lässt sich als ein Protokoll mit öffentlicher Zu-fallsquelle auffassen, wenn wir die Konkatenation z = zAzB als öffentlichen Zufallsstringauffassen. Überraschenderweise kann aber auch ein Protokoll mit öffentlicher Zufallsquelledurch ein Protokoll mit privater Zufallsquelle simuliert werden, wenn wir erlauben, dassder Fehler leicht ansteigt und die Kommunikation additiv um O(log2 log2 |X| · |Y |) wächst.Die zentrale Beobachtung wird in der folgenden Übungsaufgabe gemacht.

Aufgabe 73Für jedes probabilistische Protokoll P mit öffentlicher Zufallsquelle gibt es ein äquivalen-tes Protokoll P ’ ebenfalls mit öffentlicher Zufallsquelle, so dass P und P ’ in der Anzahlausgetauschter Bits übereinstimmen. P ’ benötigt aber nur einen Zufallsstring der LängeO(log2 log2 |X| · |Y |), sein Fehler steigt nur leicht an.


Wir können jetzt ein Protokoll mit öffentlicher Zufallsquelle durch ein Protokoll mit pri-vater Zufallsquelle simulieren, indem Alice einen Zufallsstring logarithmischer Länge aus-würfelt und an Bob verschickt: beachte, dass die Kommunikation additiv und zwar nurlogarithmisch ansteigt.

Definition 7.11 Sei f : X × Y → Z gegeben.

(a) Wir sagen, dass ein probabilistisches Protokoll P höchstens b Bits austauscht, wennP für alle Eingaben und für alle Zufallsstrings höchstens b Bits austauscht.

(b) Wir definieren

Pε(f) = min b | es gibt ein probabilistisches Protokoll, das f mit Fehlerhöchstens ε berechnet und höchstens b Bits austauscht

als die probabilistische Kommunikationskomplexität von f für Fehler ε.

Aufgabe 74Die Funktion f : X × Y → 0, 1 sei gegeben. Zeige: D(f) ≤ 2O(P1/3(f)).Fazit: Probabilismus führt im Vergleich zum Determinismus höchstens zu einer exponen-tiellen Ersparnis.

Probabilistische Protokolle können im Vergleich zu deterministischen Protkollen sehr mäch-tig sein. Betrachten wir das Gleichheitsproblem EQn. In unserem probabilistischen Pro-tokoll greift Alice auf die ersten n Zufallsbits z = (z1, . . . , zn) zu und kommuniziert dasBit

a = 〈x, z〉2,n.Bob akzeptiert genau dann, wenn a = 〈y, z〉2,n. Das Protokoll ist fehlerfrei falls x = y. Wirnehmen also x 6= y an und erhalten

prob[〈x, z〉2,n = 〈y, z〉2,n] = prob[〈x− y, z〉2,n = 0] = 12 .

Wir haben somit P2−k(EQn) ≤ k erhalten, wenn wir das Protokoll k-mal wiederholen.Betrachten wir als nächstes ein Protokoll mit privater Zufallsquelle. Alice wählt zufälligeine Primzahl p ≤ n2 and sendet p wie auch xmod p an Bob. Bob akzeptiert, falls xmod p =ymod p und verwirft sonst. Das Protokoll kommuniziert O(log2 n) Bits und arbeitet mitkleinem Fehler: Wird fälschlicherweise für eine Primzahl p Gleichheit behauptet, dann istp ein Teiler der Differenz x− y. Aber x− y hat höchstens log2 |x− y| = O(n) Primteiler,während die Anzahl der Primzahlen kleiner gleich n2 mit θ(n2/ log2 n) übereinstimmt.

Aufgabe 75(a) Wir möchten probabilistische Protokolle für das Vergleichsproblem COMPn mit Feh-lerwahrscheinlichkeit höchstens ε entwerfen. Zeige:

Pε(COMPn) = O(log n( log n+ log(ε−1))).


Hinweis: Das Protokoll für das Gleichheitsproblem sowie binäre Suche können hilfreichsein.(b) Threshold-Funktionen sind Funktionen aus der Menge

Fn = f | es gibt wi, t ∈ Z, so dass f(x1, . . . , xn) = 1 ⇐⇒ ∑ni=1 wixi ≥ t .

Zeige:Cε(f) = O(log n( log n+ log(ε−1)))

für f ∈ F2n, wobei die ersten n Bits an Alice und die letzten n Bits an Bob verteilt werden.Hinweis: Es darf angenommen werden, dass |wi| ≤ nn gilt.(c) Die Funktion g : X × Y → 0, 1 sei gegeben und die probabilistische Kommunikationbei zweiseitigem Fehler höchstens 1

4 sei bekannt. Was kann über die Tiefe von linearenEntscheidungsbäumen für g ausgesagt werden?

Welche Methoden können wir anwenden, um zu zeigen, dass die probabilistische Kommu-nikation einer Funktion f groß ist? Die Rang-Methode versagt, denn MEQn besitzt denRang 2n, die probabilistische Kommunikationskomplexität ist aber höchstens O(log2 n).Aus den gleichen Gründen versagt die Methode der Fooling-Sets.Wir verwenden die „Verseuchungsmethode“, eine Variante der Methode der größten mono-chromatischen Teilmatrix. Insbesondere gehen wir in zwei Schritten vor.

(1) Wir konstruieren eine Verteilung µ für X × Y , die die Schwierigkeit der Funktion fhervorhebt.

(2) Wir zeigen zuerst ein allgemeines Ergebnis:

Lemma 7.7 f : X × Y → Z und die Verteilung µ auf X × Y seien gegeben. WennPε(f) = k, dann gibt es ein deterministisches Protokoll D, das höchstens k Bitskommuniziert und einen erwarteten Fehler von höchstens ε besitzt. Der erwarteteFehler wird durch die Verteilung µ gemessen.

Der zentrale Schritt ist der Nachweis, dass deterministische Protokolle mit geringerKommunikation einen großen erwarteten Fehler besitzen.

– Ist dies nicht der Fall, besitzt die Kommunikationsmatrix Mf mindestens einegroße Teilmatrix mit kleinem Fehler:

– Es ist also zu zeigen, dass jede große Teilmatrix von Mf mit zu vielen Fehlern„verseucht“ ist.

7.3.1 Deterministische Kommunikation mit FehlerWir geben zuerst einen Beweis von Lemma 7.7 an. Wir vergleichen ein probabilistischesProtokoll P mit deterministischen Protokollen, die einen beschränkten erwarteten Fehler


besitzen. Wir wissen, dass Pε(f) = k gilt, und es gibt ein probabilistisches Protokoll P mitder Eigenschaft

prz[ Pz(x, y) = f(x, y) ] ≥ 1− εfür alle Eingaben x, y. Sei µ eine beliebige Verteilung auf der Menge X×Y aller Eingaben.Der Fehler bleibt durch ε beschränkt, wenn wir die Eingabe (x, y) ∈ X × Y mit Wahr-scheinlichkeit µ(x, y) auswürfeln und dann das probabilistische Protokoll P anwenden. Mitanderen Worten, es gilt

prz,x,y[ Pz(x, y) = f(x, y) ] ≥ 1− ε.

Es muss somit einen Zufallsstring z0 geben, so dass

prx,y[ Pz0(x, y) = f(x, y) ] ≥ 1− ε

gilt. Wir haben also für die (beliebige) Verteilung µ auf der Eingabemenge X × Y eindeterministisches Protokoll, nämlichD = Pz0 , gefunden, dessen erwarteter Fehler höchstensε beträgt.

Ab jetzt arbeiten wir mit dem deterministischen Protokoll D aus Lemma 7.7 weiter. Imnächsten Schritt zeigen wir, dass D eine „große“ Teilmatrix mit Fehler höchstens 2ε besitzt.Wir sagen, dass eine Teilmatrix U × V von Mf „groß“ ist, wenn

µ(U × V ) ≥ 2−(k+1)

gilt und nennen die Teilmatrix ansonsten klein.D erzeugt höchstens 2k Nachrichten und deshalb wird ein Eintrag nur mit Wahrschein-lichkeit 1/2 von einer kleinen Teilmatrix überdeckt. Einträge (x, y) werden von D nur mitWahrscheinlichkeit ε falsch klassifiziert. Selbst wenn alle falsch klassifizierten Einträge vongroßen Teilmatrizen überdeckt werden, beträgt ihr relativer Anteil doch nur höchstens 2ε.Aber dann muss es eine große Teilmatrix T = U × V geben, so dass höchstens der Anteil2ε der Einträge von T falsch klassifiziert wird. Wir haben gezeigt:

Lemma 7.8 Die Verteilung µ auf X × Y sei beliebig. Wenn Pε(f) = k, dann gibt es eineTeilmatrix T = U × V mit

(1) µ(T ) ≥ 2−(k+1) und

(2) entweder besitzt T höchstens den Anteil 2ε an Nullen oder der Anteil an Einsen istdurch 2ε beschränkt.

7.3.1.1 Das innere Produkt modulo zwei

Wir möchten die probabilistische Kommunikation des inneren Produkts modulo 2

〈x, y〉2,n =n∑i=1

xiyi mod 2


asymptotisch exakt bestimmen. Sicherlich gelingt eine sogar fehlerfreie Berechnung wennAlice ihre Eingabe kommuniziert. Es stellt sich heraus, dass das innere Produkt keine Trickszulässt, die die probabilistische Kommunikation asymptotisch verringern.

Satz 7.9 Für jede Konstante ε > 0 ist

P1/2−ε(〈〉2,n) = Ω(n).

Wir wenden die Verseuchungsmethode an und wählen für µ die Gleichverteilung: Das innereProdukt ist überall „schwierig“. Statt die KommunikationsmatrixMn des inneren Produktszu betrachten, betrachten wir die Matrix Hn, die wir aus Mn erhalten, indem wir die 0stets durch −1 ersetzen. Hn ist eine Hadamard Matrix, d.h. Hn ist eine Matrix mit 1- und−1-Einträgen und je zwei Zeilen von H stehen senkrecht aufeinander, wenn wir das innereProdukt über den reellen Zahlen bestimmen. Warum?Wir betrachten zwei beliebige, aber verschiedene Zeilen von Hn, die den Eingaben x undx′ von Alice entsprechen mögen. Dann ist∑

y

(−1)〈x,y〉 mod 2(−1)〈x′,y〉 mod 2 =∑y

(−1)〈x⊕x′,y〉 mod 2.

Aber x 6= x′ und es ist 〈x ⊕ x′, y〉 ≡ 0 mod 2 für genau die Hälfte aller y ∈ 0, 1n. DieZeilen von x und x′ stehen also tatsächlich senkrecht aufeinander.Jede Zeile von Hn besitzt die Norm

√2n. Wenn wir also Hn durch

√2n teilen, bilden die

normierten Zeilen eine Orthonormalbasis ex für x ∈ 0, 1n.

Wir betrachten jetzt eine beliebige Teilmatrix U × V mit dem Ziel, den Fehler von U × Vzu bestimmen. Der Vektor IV sei der Inzidenzvektor von V , die Komponente y von IV istalso entweder 1, und y ∈ V , oder 0 und y 6∈ V . Die Zeile von Hn zur Eingabe x von Alicenennen wir „zeileHn(x)“. Wir wenden die Dreiecksungleichung an und erhalten

1√2n

∣∣∣∣∣∣∑

x∈U,y∈VHn[x, y]

∣∣∣∣∣∣ = 1√2n

∣∣∣∣∣∑x∈U〈zeileHn(x), IV , 〉

∣∣∣∣∣ =∣∣∣∣∣∑x∈U〈zeileHn(x)√

2n, IV 〉

∣∣∣∣∣=

∣∣∣∣∣∑x∈U〈ex, IV 〉

∣∣∣∣∣ ≤ ∑x∈0,1n

|〈ex, IV 〉| .

Wir wenden jetzt die Ungleichung |〈a, b〉| ≤ ||a|| · ||b|| von Cauchy-Schwartz an. Wir wählenfür a den Vektor, der nur aus Einsen besteht, und setzen b = (|〈ex, IV 〉 | x ∈ 0, 1n). AlsKonsequenz folgt

1√2n

∣∣∣∣∣∣∑

x∈U,y∈VHn[x, y]

∣∣∣∣∣∣ ≤∑

x∈0,1n|〈ex, IV 〉| ≤

√2n ·

√ ∑x∈0,1n

|〈ex, IV 〉|2 (7.1)


Als nächstes nutzen wir aus, dass die Zeilen ex eine Orthonormalbasis bilden. Für jedenVektor z gibt es also insbesondere eine Linearkombination z = ∑

x∈0,1n αxex und damitist

||z||2 = 〈z, z〉 =∑

x,y∈0,1nαxαy〈ex, ey〉 =

∑x∈0,1n

α2x =

∑x∈0,1n

〈ex, z〉2.

Wir können jetzt unsere Abschätzung (7.1) abschließen und erhalten

1√2n

∣∣∣∣∣∣∑

x∈U,y∈VHn[x, y]

∣∣∣∣∣∣ ≤√

2n ·√ ∑x∈0,1n

|〈ex, IV 〉|2 =√

2n · ||IV || ≤ 2n.

Wir halten dieses Zwischenergebnis fest.

Lemma 7.9 Für jede Teilmatrix U × V von Hn gilt∣∣∣∣∣∣∑

x∈U,y∈VHn[x, y]

∣∣∣∣∣∣ ≤ 23n/2.

Was sagt uns das Lemma? Die Anzahl der 1-Einträge stimmt bis auf höchstens 23n/2 mitder Anzahl der −1-Einträge überein und der Fehler ist viel zu groß, wenn die TeilmatrixU × V groß ist.Genauer: Wenn |U × V | ≥ 23/2n+1 (bzw. µ(U × V ) ≥ 2−n/2+1), dann besitzt U × Vmindestens |U×V |/4 Einträge mit Wert -1 und ebenso mindestens |U×V |/4 Einträge mitWert 1. Wenn wir also P1/8(〈〉2,n) ≤ n

2−2 annehmen, dann verstoßen wir gegen Lemma 7.8.Also führt eine Fehlerwahrscheinlichkeit ε ≤ 1/8 auf eine lineare Anzahl ausgetauschterBits. Aber was passiert, wenn ε eine beliebige Konstante kleiner als 1/2 ist?

Aufgabe 76Zeige Satz 7.9 für jede Konstante ε > 0.

7.3.1.2 Das Disjunktheitsproblem

Für eine spätere Anwendung in der Untersuchung von Schaltkreisen benötigen wir aucheine Charakterisierung der probabilistischen Kommunikationskomplexität des Disjunkt-heitsproblems

DISJn(x, y) =

1 ∑ni=1 xiyi ≥ 1,

0 sonst.Ebenfalls mit der Verseuchungsmethode erhält man

Satz 7.10 Für jede Konstante ε > 0 ist

Pε(DISJn) = Θ(n).

7.4. ANWENDUNGEN 175

Wir geben nur die Beweisidee an. Während das innere Produkt „überall schwierig“ ist,besitzt das Disjunkheitsproblem riesige 1-chromatische Teilmatrizen, allerdings sind alle0-chromatischen Teilmatrizen klein. Diesmal konstruiert man die Verteilung µ sorgfältigund legt ein von Null verschiedenes Gewicht nur auf die Einträge in T0 ∪ T1, wobei

T0 = (x, y) ∈ 0, 1n × 0, 1n |n∑i=1

xiyi = 0

T1 = (x, y) ∈ 0, 1n × 0, 1n |n∑i=1

xiyi = 1 .

Für die Analyse sind nur „disjunkte Einträge“, also Einträge in T0 interessant, sowie Ein-träge mit genau einem „gemeinsamen Element“, also Einträge in T1. Es stellt sich heraus,dass eine Trennung von T0 und T1 nur mit Kommunikation Ω(n) gelingt.

Aufgabe 77Im 3-Distinctness Problem DISTn : X ×X → 0, 1 ist X = Y = a, b, cn sowie

DISTn(x, y) = 1 ↔ ∃i : xi = yi.

Zeige als Konsequenz von Satz 7.10 dass

P1/2−ε(DISTn) = Θ(n)

für jede Konstante ε > 0 gilt.

7.4 Anwendungen

7.4.1 Die Zustandszahl endlicher AutomatenSei L ⊆ Σ∗ eine Sprache über Σ. Wir betrachten im folgenden einseitige Protokolle, beidenen nur Alice Nachrichten sendet. Alice und Bob erhalten die Worte wA ∈ Σ∗ undwB ∈ Σ∗ als Eingaben und Bob soll entscheiden, ob die Konkatenation wAwB in derSprache L liegt. Die Kommunikationsmatrix ML ist durch

ML[wA, wB] =

1 wAwB ∈ L,0 sonst

definiert. Beachte, daß die Matrix unendlich viele Spalten und Zeilen besitzt.Sei P ein deterministisches A → B Protokoll, das genau die Worte in L akzeptiert. Wirhaben P durch seinen Protokollbaum BP beschrieben und in Definition 7.2 die Kommu-nikationskomplexität von P als die Tiefe von BP definiert. Sei Blätter(P) die Anzahl derBlätter von BP : Blätter(P) stimmt also mit der Nachrichtenzahl, d.h. der Anzahl derTeilmatrizen in der Zerlegung der Kommunikationsmatrix durch P überein. Wir setzen

Nachrichten(L) = min Blätter(P) | Das einseitige A→ B Protokoll Pakzeptiert genau die Worte in L .


Nachrichten(L) ist also die kleinstmögliche Anzahl von Nachrichten eines einseitigen A→B Protokolls für L.

Satz 7.11 Die Sprache L ⊆ Σ∗ sei regulär. Dann sind die folgenden Aussagen äquivalent:

(a) Der minimale deterministische endliche Automat für L hat m Zustände.

(b) Es gibt ein Protokoll für L mit Nachrichten(L) = m und jedes Protokoll für L tauschtmindestens m Nachrichten aus.

(c) Die Kommunikationsmatrix ML besitzt genau m verschiedene Zeilen.

Beweis: (a) ⇒ (b). Da der minimale Automat m Zustände besitzt, besitzt die Nerode-Relation1 ≡L von L genau m Äquivalenzklassen.Wir entwerfen ein einseitiges Protokoll mit genau m Nachrichten. Alice kommuniziert denNamen der Äquivalenzklasse von wA. Bob wählt ein beliebiges Wort v ≡L wA und akzep-tiert genau dann, wenn vwB ∈ L. Nach Definition der Nerode-Relation akzeptiert B genaudann, wenn wAwB ∈ L.Es bleibt zu zeigen, dass jedes Protokoll mindestens m Nachrichten austauscht. Angenom-men, es gibt ein Protokoll, das höchstens m − 1 Nachrichten austauscht. Dann gibt esnach dem Schubfachprinzip Worte u, v ∈ Σ∗ mit u6≡Lv, für die Alice die gleiche Nachrichtsendet. Da u und v nicht Nerode-äquivalent sind, gibt es ein w ∈ Σ∗, so dass uw ∈ L undvw /∈ L (oder umgekehrt). Bob muss allerdings für die Eingaben uw und vw die gleicheAusgabe geben und das Protokoll ist fehlerhaft.(b) ⇔ (c): Wenn ML genau k verschiedene Zeilen hat, dann gibt es ein Protokoll mit kNachrichten, da nur mitzuteilen ist, zu welcher der k Klassen eine Zeile gehört. Offensicht-lich kann es kein Protokoll mit k′ < k Nachrichten geben, da dann dieselbe Nachricht fürzwei verschiedene Zeilen geschickt wird. Also stimmt die minimale Nachrichtenzahl mit derAnzahl verschiedener Zeilen überein.(c)⇒ (a): Die Zeilen der Kommunikationsmatrix ML für die Eingaben u und v sind genaudann identisch, wenn ML[u,w] = ML[v, w] für alle Spalten w ∈ Σ∗ gilt. Letzteres ist aberäquivalent mit uw ∈ L ⇐⇒ uv ∈ L für alle w ∈ Σ∗ und dies ist genau dann der Fall,wenn u ≡L v. Also stimmt die Anzahl verschiedener Zeilen der Kommunikationsmatrixüberein mit der Anzahl der Nerode-Äquivalenzklassen, die wiederum mit der minimalenZustandszahl eines Automaten für L übereinstimmt.

Beispiel 7.6 (a) Betrachte die Sprache

Ln = wwR | w ∈ 0, 1n

für festes n ∈ N. Die minimale Zustandsanzahl eines deterministischen endlichen Auto-maten für L ist 2n, denn die 2n Zeilen von MLn (zu den Eingaben in 0, 1n) sind alleverschieden.

1Die Nerode-Relation ≡L einer Sprache L über Σ ist definiert durch: u ≡L v (für u, v ∈ Σ∗) genaudann, wenn uw ∈ L ⇐⇒ vw ∈ L für alle w ∈ Σ∗.


(b) Die SpracheLk = 0, 1∗10, 1k

erfordert endliche Automaten mit mindestens 2k Zuständen, denn die Zeilen zu den Ein-gaben in 0, 1k sind alle verschieden.

Wir betrachten nichtdeterministische endliche Automaten und nichtdeterministische Kom-munikation. Wir verlieren jetzt die exakte Übereinstimmung zwischen minimaler Zustands-zahl und Anzahl verschiedener Nachricht, aber die Anzahl verschiedener Nachrichten iststets eine untere Schranke für die minimale Zustandszahl.

Satz 7.12 Für die Sprache L ⊆ Σ∗ sei Nachrichten∗(L) die minimale Nachrichtenzahleines nichtdeterministischen Protokolls, das L akzeptiert. Dann hat jeder nichtdeterminis-tische endliche Automat, der L akzeptiert, mindestens Nachrichten∗(L) Zustände.

Beweis: Sei N ein nichtdeterministischer endlicher Automat mit n Zuständen, der L ak-zeptiert. Wir simulieren N mit einem nichtdeterministischen Kommunikationsprotokoll.Für die Eingaben u ∈ Σ∗ (für Alice) und v ∈ Σ∗ (für Bob) simuliert Alice den AutomatenN auf u und sendet die Nummer des erreichten Zustands an Bob, der die Simulation mitseiner Eingabe v fortsetzt. Offensichtlich besitzt dieses Protokoll höchstens n verschiedeneNachrichten.

Beispiel 7.7 Die Sprache Ln = wwR | w ∈ 0, 1n erfordert NFA’s mit mindestens 2nZuständen, denn Bob kann nur solche Nachrichten von Alice akzeptieren. die für höchstensein Wort aus Σn verschickt werden.

Aufgabe 78Betrachte die Sprache

Ln = 1k | k 6= n.Zeige, dass Nachrichten∗(L) = O(log2

2 n) gilt. NFAs benötigen aber mindestens Ω√n) Zu-

stände.

Aufgabe 79Ein Entscheidungsgraph (decision diagram) über einer Menge X = 1, . . . , n ist ein ge-richteter azyklischer Graph mit einer Quelle, bei dem alle Senken entweder mit 0 oder mit1 markiert sind und bei dem alle internen Knoten v mit einer Position i(v) ∈ X markiertsind. Dabei hat jeder interne Knoten v genau zwei Nachfolger, welche mit high(v) undlow(v) bezeichnet werden.Ein Entscheidungsgraph heißt geordnet, wenn auf jedem Pfad von der Quelle zu einer Senkedie Variablen i nur gemäß einer Ordnung Π auf X vorkommen und dabei jede Variablehöchstens einmal vorkommt (pro Pfad).Ein OBDD (ordered binary decision diagram) ist ein geordneter Entscheidungsgraph. EinOBDD wird von einem Wort x durchlaufen, indem an der Wurzel v beginnend immer zulow(v) gegangen wird, falls xi(v) = 0, und sonst zu high(v). Die Sprache eines OBDD istdie Menge der Worte, welche beim Durchlauf zu einer 1-Senke führen.


SIZE(f,Π) bezeichne die Größe des kleinsten OBDD’s für f mit Variablenordnung Π undSIZE(f) sei die Größe des kleinsten OBDDs von f über alle Ordnungen.Zeige: SIZE(f) = Ω(2DA→B(f)).

Aufgabe 80In dieser Aufgabe betrachten wir nichtdeterministische Einband-Turingmaschinen (NTM’s).Unser Ziel ist der Beweis von unteren Schranken für die Zeit, die notwendig ist, um einevorgegebene Sprache L ⊆ 0, 1∗ zu erkennen. Sei M eine NTM. Dann besitzt M einenLese-/Schreibkopf, der anfangs Position 1 des zweiseitig unbeschränkten Bandes liest. DieEingabe befindet sich auf den Positionen 1, . . . , n. Die restlichen Positionen sind mit demBlanksymbol beschriftet.In einem Schritt wählt M einen aus möglicherweise mehreren anwendbaren Rechenschrit-ten aus. Damit führt M (für eine Eingabe) möglicherweise viele Berechnungen aus. EineBerechnung akzeptiert genau dann, wenn sie in einem akzeptierenden Zustand stoppt. Makzeptiert eine Eingabe w genau dann, wenn es mindestens eine akzeptierende Berechnungfür Eingabe w gibt.Die Rechenzeit für eine Eingabe w ist, falls w ∈ L, gleich der Anzahl der Rechenschritteauf einem kürzesten akzeptierenden Rechenweg. Die worst-case Rechenzeit tM(n) ist dasMaximum der Rechenzeiten für alle Eingaben w ∈ L der Länge n. Wir sagen, daß dieSprache L die nichtdeterministische Komplexität höchstens t(n) besitzt, falls tM(n) ≤ t(n)für eine NTM M , die L akzeptiert.Für eine Sprache L ⊆ 0, 1∗ sei

Ln = w ∈ L | |w| = n und L′n = w ∈ Ln | wdn4 e+i = 0 für i = 1, . . . , dn2 e.

Bei den Worten von L′n befindet sich eine “Wüste” zwischen den relevanten Teilworten.Intuitiv ist klar, daß eine (Einband!) NTM häufig die Wüste duchqueren muss, um dieSprache zu entscheiden.

(a) Zeige: Wenn die Sprache L die nichtdeterministische Komplexität t(n) besitzt, danngilt

t(n) = Ω(n ·N(fn)),wobei fn : 0, 1n → 0, 1 definiert ist durch fn(w) = 1 ⇐⇒ w ∈ L′n. Alice erhältdie erste und Bob die zweite Hälfte der Eingabe.Hinweis: Für jede mögliche Berechnung bei Eingabe w und jede Position j des Ban-des (mit j ∈ dn4 e + i | i = 1, . . . , dn2 e), bilden wir Crossingsequenzen wie folgt:Jedesmal, wenn der Kopf sich über Position j befindet, wird der aktuelle Zustandvon M zur Crossingsequenz hinzugefügt. Versuche, eine NTM M durch ein Kommu-nikationsmodell zu simulieren. Benutze dabei den Begriff der Crossingsequenz.

(b) Zeige: Es gilt t(n) = Ω(n2), falls L = xxR | x ∈ 0, 1∗ ist. (Für x = x1 · · ·xn istxR = xn · · ·x1.)


7.4.2 Streaming Data∗

Das Streaming-Data Modell beschreibt ein On-line Szenario: Daten strömen fortlaufendein und Berechnungen sind in Echtzeit, in einem einzigen Datendurchlauf zu erbringen.Beispiele sind die fortlaufende Protokollierung von Telefonanrufen durch weltweit agierendeTelefonunternehmen und die damit verbundenen Reaktionen auf überlastete Leitungenoder die Datenanalyse in der Abwehr einer Denial-of-Service Attacke.Wir stellen uns die Frage, welche algorithmischen Probleme trotz dieser hohen Anforderun-gen noch bewältigt werden können. Dazu nehmen wir an, dass wir n Daten (x1, . . . , xn) auseinem Universum U = 1, . . . ,m der Größe erhalten. Zur Orientierung sollte man n imTerabyte-Bereich und m im Bereich von mehreren Megabyte bis hin zum Gigabyte-Bereicherwarten: Gewaltige Datenmengen sind schnellstmöglich zu bewältigen, wobei im Regelfallnur ein Datendurchlauf zur Verfügung steht.Wir konzentrieren uns auf die statistische Analyse eines Datenstroms und zwar insbeson-dere auf die Häufigkeitsanalyse: Das kte Häufigkeitsmoment

Hk =∑u∈U

aku

ist zu bestimmen, wobei au = | i | xi = u | die Häufigkeit des Schlüssels u ist. Beachte,

dass H0 die Anzahl der verschiedenen Schlüssel ist, denn es ist x0 =

1 x 6= 00 sonst. Weiterhin

ist offensichtlich H1 = n. Das zweite Häufigkeitsmoment H2 misst die Uniformität derDatenmenge: Es ist m ·

(nm

)2= n2

m≤ H2 ≤ n2 und kleine Werte von H2 deuten auf

eine gleichmäßige Verteilung auf die einzelnen Schlüsselwerte hin. Wir sind ebenfalls anH∞ := maxau | u ∈ U, der größten Häufigkeit eines Schlüssels interessiert.Wenn eine Funktion f : 0, 1∗ → R im Streaming-Data Modell zu berechnen ist, danndefinieren wir fn als die Einschränkung von f auf Eingaben der Länge n. In einem simulie-renden Kommunikationsprotokoll erhält Alice den Präfix der Länge n

2 und Bob den Suffixder Länge n

2 . Alice wird sodann eine Nachricht an Bob schicken und Bob wird die Ausgabebestimmen; die Berechnung erfolgt also über ein einseitiges A→ B Protokoll.Unser Ziel ist die Bestimmung der Speicherplatzkomplexität von approximativen determi-nistischen und randomisierten Streaming Data Algorithmen.

Definition 7.12 Für Eingabemengen X und Y ist die Funktion f : X × Y → R mitrelativem Fehler höchstens δ zu berechnen. Alice erhält eine Eingabe x ∈ X und Bob eineEingabe y ∈ Y . Wir betrachten nur einseitige A→ B Protokolle.

(a) Ein deterministisches Protokoll heißt genau dann δ-approximativ, wenn Bob für jedesEingabepaar (x, y) ein Ergebnis a(x, y) mit (1−δ) ·f(x, y) ≤ a(x, y) ≤ (1+δ) ·f(x, y)berechnet.

(b) Ein probabilistisches Protokoll heißt genau dann δ-approximativ mit Fehler ε, wennBob für jedes Eingabepaar (x, y) mit Wahrscheinlichkeit mindestens 1−ε ein Ergebnisa(x, y) mit (1− δ) · f(x, y) ≤ a(x, y) ≤ (1 + δ) · f(x, y) berechnet.


(c) Wir definieren die deterministische Kommunikationskomplexität einer einseitigen δ-approximativen Berechnung von f durch

Dδ(f) = die Länge der längsten Nachricht eines bestenδ-approximativen deterministischen Protokolls für f .

(d) Wir definieren die probabilistische Kommunikationskomplexität einer einseitigen δ-approximativen Berechnung von f durch

P δε (f) = die Länge der längsten Nachricht eines besten δ-approximativen

probabilistischen Protokolls, das f mit Fehlerwahrscheinlichkeit ε berechnet.

Aufgabe 81Zeige, dass Dδ(EQn) = n gilt, falls δ < 1

2 .Probabilistische Protokolle sind sehr viel effizienter, denn es gilt P1/3(EQn) = O(log2 n).

Wir werden sehen, dass die einseitige Kommunikationskomplexität im Allgemeinen guteuntere Schranken für die Speicherplatzkomplexität im Streaming-Data Modell ergibt.Lemma 7.10 Die Funktion fn sei im Streaming-Data Modell zu berechnen.

(a) Jeder deterministische Algorithmus, der f δ-approximativ mit b Befehlen berechnet,benötigt mindestens die Speicherkomplexität Dδ(fn)−O(dlog2 be).

(b) Jeder randomisierte Algorithmus, der f δ-approximativ mit Fehler ε und b Befehlenberechnet, benötigt mindestens die Speicherkomplexität P δ

ε (fn)−O(dlog2 be).Beweis: Da die Beweise für (a) und (b) fast identisch sind, zeigen wir nur Teil (b). SeiA ein randomisierter Algorithmus, der f im Streaming-Data Modell δ-approximativ mitFehler ε berechnet. A möge die Speicherkomplexität höchstens s(n) für Eingaben der Län-ge n besitzen. Es genügt, wenn wir ein probabilistisches Protokoll für fn entwerfen, dasNachrichten der Länge höchstens s(n) +O(1) verschickt.Das Protokoll simuliert Algorithmus A auf Eingabefolgen der Länge n, wobei wir anneh-men, dass Alice die ersten n/2 Bits und Bob die letzten n/2 Bits erhält. Alice bearbeitetihre Eingabe mit Algorithmus A und verschickt dann die entstehende Konfiguration (Spei-cherinhalt und nächster auszuführender Befehl) an Bob. Bob kann damit die Berechnungvon A problemlos fortsetzen. Da der Algorithmus die Funktion δ-approximativ mit Fehlerhöchstens ε berechnet, hat das simulierende Protokoll dieselbe Eigenschaft. Wenn Algorith-mus A also b Befehle besitzt, dann folgt s(n) +O(dlog2 be) ≥ P δ

ε (fn) und die Behauptungist gezeigt.

Aufgabe 82Warum können wir in Satz 7.10 nicht s(n) + dlog2 be ≥ P δ

ε (fn) folgern?

Das Disjunktheitsproblem spielt eine entscheidende Rolle. Den Beweis des folgenden Faktsverschieben wir auf das nächste Kapitel.


Fakt 7.1 Im Disjunktheitsproblem DISJm der Größe m erhalten Alice und Bob Inzidenz-vektoren der Teilmengen x, y ⊆ 1, . . . ,m und es ist

DISJm(x, y) =

1 x ∩ y = ∅0 sonst

definiert. Dann gilt P δε (DISJm) = Ω(m) für jedes ε < 1

2 und jedes δ < 12 .

(Diese Aussage gilt sogar für mehrseitige Protokolle.)

Leider erhalten wir als eine erste Konsequenz eine hohe Speicherkomplexität für H∞, dergrößten Häufigkeit eines Schlüssels.

Satz 7.13 Seien ε, δ < 12 beliebig. Sei weiterhin A ein randomiserter Algorithmus, der H∞

δ-approximativ mit Fehler höchstens ε im Streaming-Data Modell berechnet. Dann benötigtA Speicherkomplexität mindestens Ω(m), wobei m die Anzahl verschiedener Schlüssel ist.

Beweis: Sei A ein randomisierter Algorithmus für H∞. Wir zeigen, dass A zur Lösung desDisjunktheitsproblems benutzt werden kann. Wir weisen dazu Alice und Bob Inzidenzvek-toren der Teilmengen x, y ⊆ 1, . . . ,m zu und beobachten, dass offensichtlich

DISJm(x, y) =

1 H∞ = 1,0 H∞ = 2

gilt. Also ist eine Lösung von H∞ auch eine Lösung des Disjunktheitsproblems. Nach Fakt7.1 ist aber P δ

ε (DISJm) = Ω(m) und die Behauptung folgt mit Lemma 7.10.

Damit nützt weder der Einsatz von randomisierten Algorithmen noch stellt eine approxi-mative Berechnung eine wesentliche Erleichterung dar, denn die Wahl des trivialen deter-ministischen Algorithmus ist sogar fast optimal: Speichere alle Häufigkeiten in einem Arraymit m Zellen. Wenn (a1, . . . , am) der Häufigkeitsvektor ist, dann genügt ein Speicher von∑mu=1 log2(au) Bits.

Für k 6= 1 ist die exakte Berechnung von Hk ähnlich komplex.

Satz 7.14 Sei ε < 12 beliebig und sei A ein randomisierter Algorithmus, der Hk (für k 6= 1)

exakt mit Fehler höchstens ε im Streaming-Data Modell berechnet.Dann benötigt A für m verschiedene Schlüssel mindestens die Speicherkomplexität Ω(m).

Beweis: Wir übernehmen das Argument aus Satz 7.13 und setzen m∗ = |x|+ |y|. Diesmalist zu beachten, dass

DISJm(x, y) =

1 H0 = m∗

0 H0 < m∗,

beziehungsweise für k > 1

DISJm(x, y) =

1 Hk = m∗

0 Hk > m∗


und der Rest des Arguments folgt analog.

Wir haben also nur dann eine Chance speicher-effizient zu arbeiten, wenn wir approximativeBerechnungen zulassen und glücklicherweise gelingt dies auch. Für den Entwurf speicher-effzienter approximativer Algorithmen verweisen wir auf das Skript „Internet Algorithmen“.

Aufgabe 83Häufig sollen Datenströme auf Unregelmäßigkeiten hin überwacht werden. Eine einfachesKriterium in diesem Kontext ist die Frage, ob sich die relative Häufigkeit eines Elementesin einem Datenstrom stark verändert.Bei der Kommunikationsversion des Problems erhält Alice einen Vektor X = (x1, . . . , xs)und Bob einen Vektor Y = (y1, . . . , yr), wobei die xi und die yi aus derselben Schlüssel-menge S kommen. Als Änderungsgrad G eines Schlüssels a ∈ S definieren wir

G(a) =

1 falls a weder in X noch in Y vorkommt,∞ falls a entweder in X oder in Y vorkommt,max

r·|i|xi=a|s·|i|yi=a| ,

s·|i|yi=a|r·|i|xi=a|

sonst.

Im Variationsproblem für α soll entschieden werden, ob alle Schlüssel einen Änderungsgradvon höchstens α besitzen. Wir wollen zeigen, dass das Variationsproblem für jedes festeα > 1 eine Kommunikationskomplexität von Ω(s) besitzt.

(a) Beim Gleichheitsproblem erhalten die Spieler jeweils einen Vektor X = (x1, . . . , xs)bzw. Y = (y1, . . . , yr) mit xi, yi ∈ 0, 1. Es soll entschieden werden, ob X = Y gilt(also r = s und xi = yi). Reduziere das Gleichheitsproblem auf das Variationspro-blem, um die beabsichtigte Platzschranke zu zeigen.

(b) Reduziere das Disjunktheitsproblem auf das Variationsproblem, um die beabsichtigtePlatzschranke zu zeigen.

(c) Warum stellt Teil b) die stärkere Aussage dar?

7.4.3 Fläche und Zeit für VLSI-Chips∗

Zuerst geben wir eine kurze Beschreibung des Layout-Modells für VLSI. Ein VLSI-Chipbesteht aus Bausteinen und Drähten, wobei die Drähte die Bausteine untereinander ver-binden. Es gibt zwei Typen von Bausteinen: Ein- und Ausgabeports und Bausteine fürBerechnungen (wie UND-, ODER-, NAND- und NOR-Bausteine). Bausteine und Drähtesind auf der Ebene ausgelegt, wobei wir vereinfacht annehmen, daß

- Bausteine ganzzahlige Koordinaten besitzen,

- Drähte parallel zur x-Achse oder parallel zur y-Achse verlaufen.


Drähte dürfen sich überkreuzen, dürfen aber nicht über einen Baustein gelegt werden unddürfen keinen gemeinsamen Weg durchlaufen. Betrachten wir das Layout auf dem GitterZ2, so entsprechen bestimmte ausgezeichnete Gitterpunkte den Bausteinen und die Ver-bindungen zwischen den ausgezeichneten Gitterpunkten den Drähten.

Layout eines VLSI-Chips.

Die Eingabekonvention ist where-oblivious (ein Eingabebit wird stets an einem vorher fest-gelegten Eingabeport erscheinen) und when-oblivious (der Zeitpunkt, zu dem ein Einga-bebit erscheint, wird vor der Berechnung festgelegt). Die Ausgabekonvention ist ebensowhere- und when-oblivious.Wir nehmen weiter an, dass das Chip synchron rechnet, d.h. alle Bausteine folgen dem Takteiner globalen Uhr. In einem Zeittakt kann über jeden Draht höchstens ein Bit gesendetwerden.Wir sind besonders an den Komplexitätsmaßen Fläche und Zeit interessiert, wobei die Flä-che des Gebiets in der Ebene gemessen wird, das von Bausteinen und Drähten beanspruchtwird. Die Fläche eines Chips bestimmt die Produktionskosten.Wir „zerteilen“ einen VLSI-Chip „geeignet“, um ihn später durch ein Kommunikations-modell simulieren zu können.

ChipC1

C2Drähte

Zerlegung eines VLSI-Chips.

Dabei werden die beiden Teile C1 und C2 so konstruiert, daß beide höchstens 23 aller

Eingabeports haben. Zusätzlich soll die „Schnittstelle“ möglichst kurz sein, so daß dieAnzahl der durchtrennten Drähte klein bleibt und damit die Anzahl der ausgetauschtenBits im Kommunikationsmodell gering ist. Alice wird Chip C1 und Bob Chip C2 simulieren.

Lemma 7.11 Sei ein VLSI-Chip C gegeben, wobei C ein kompaktes2 Gebiet in der Ebenebeansprucht. Weiter seien n Punkte p1, . . . , pn in C ausgezeichnet. Dann kann C durch drei„Schnitte“ in Gebiete C1 und C2 zerlegt werden, so daß:

(a) C1 und C2 jeweils höchstens 23 · n Punkte aus p1, . . . , pn besitzen und

2Eine kompakte Menge ist abgeschlossen und beschränkt.


(b) die Gesamtlänge aller Schnitte (geschnitten mit C) höchstens 3 · (√Fläche(C) + 1)

beträgt.

Beweis: Wir betrachten zuerst horizontale Schnitte, wobei ein horizontaler Schnitt einKurvenzug der Form

H(α, β) = (x, β) | x ≤ α ∪ (α, y) | β ≤ y ≤ β + 1 ∪ (x, β + 1) | x ≥ α

oder eine Gerade der Form

H(β) = (x, β) | −∞ < x <∞

ist. Wir betrachten nur horizontale Schnitte H(α, β) bzw. H(β), für die α, β ∈ Z + 12 gilt.

Damit wird kein horizontaler Schnitt einen Baustein treffen und Drähte werden nur ineinem Punkt gekreuzt. Zuerst führen wir einen horizontalen Schnitt H(α, β) durch, so daßsich genau dn2 e aller ausgezeichneten Punkte oberhalb und die restlichen bn2 c ausgezeich-neten Punkte unterhalb des Schnitts befinden; α = −∞ wird zugelassen.

H(β + b1)

H(β − b2)

H(α, β)

Coben

Cmitte

Cunten

Horizontale Zerlegung.

Wir sind bereits fertig, wenn H(α, β) ∩ C „kurz genug“ ist. Sonst führen wir mit zweihorizontalen Geraden H(β + b1) und H(β − b2) Schnitte durch, wobei wir b1 wie auchb2 sukzessive solange vergrößern, bis zum ersten Mal sowohl H(β + b1) ∩ C wie auchH(β − b2) ∩ C höchstens die Länge

√Fläche(C) besitzen. Beachte, dass wir

1 ≤ b1 + b2 ≤√Fläche(C) + 1

erhalten, da ansonsten das Produkt aus Länge und Abstand größer als die Fläche des Chipsist. Hierbei darf der Schnitt des Chips mit der Geraden leer sein. Wir haben C durch diebeiden horizontalen Schnitte H(β + b1) und H(β − b2) in drei Gebiete zerlegt:

- Coben, das Gebiet von C oberhalb von H(β + b1),

- Cmitte, das Gebiet von C zwischen den Schnitten H(β + b1) und H(β − b2), sowie

- Cunten, das Gebiet von C unterhalb des Schnittes H(β − b2).


Coben und Cunten besitzen jeweils höchstens dn2 e Punkte aus p1, . . . , pn.Fall 1: Cmitte besitzt höchstens 2n

3 Punkte aus p1, . . . , pn. Wähle für C1 das Gebiet ausCunten, Coben und Cmitte, das die meisten Punkte aus p1, . . . , pn besitzt, und definiere C2als die Vereinigung der beiden restlichen Gebiete. Da Coben und Cunten höchstens dn2 e ≤

2n3

ausgezeichnete Punkte besitzen, liegen maximal 2n3 Punkte in C1. Andererseits gibt es ein

Gebiet, in dem mindestens n3 Punkte liegen (sonst wäre die Summe über alle Gebiete kleiner

als n), d.h. in C2 befinden sich höchstens n − n3 = 2n

3 ausgezeichnete Punkte. Es werdenhöchstens 2

(√Fläche(C) + 1

)Drähte durchtrennt.

Fall 2: Cmitte besitzt mehr als 2n3 Punkte aus p1, . . . , pn. Dann zerschneiden wir Cmitte

durch einen vertikalen Schnitt V (α, β)3, so daß die Punktmenge p1, . . . , pn∩Cmitte zwei-geteilt wird. Sei m := |p1, . . . , pn ∩ Cmitte.

H(β + b1)

H(β − b2)

Coben

Cmitte

Cunten

V (α, β)

Wir wissen also, daß dm2 e der ausgezeichneten Punkte aus Cmitte links von V (α, β) und dierestlichen bm2 c ausgezeichneten Punkte aus Cmitte rechts von V (α, β) liegen. Beachte, daßder vertikale Schnitt geschnitten mit C eine Länge von höchstens√

Fläche(C) + 1

besitzt, da der Abstand zwischen H(β + b1) und H(β − b2) maximal√Fläche(C) beträgt.

Wähle als C1 diejenige Hälfte von Cmitte mit den meisten Punkten aus p1, . . . , pn. C2 istdie Vereinigung der restlichen Gebiete. Beachte, daß die Schnitte mit C eine Gesamtlängevon höchstens

2 ·(√

Fläche(C))

+ 1︸︷︷︸H(β + b1) ∩ C und H(β − b2) ∩ C

+√Fläche(C) + 1︸︷︷︸

V (α,β)∩C

≤ 3 ·(√

Fläche(C) + 1)

besitzen.

Eine Simulation des Chips wird die ausgezeichneten Punkte als Eingabeports wählen unddie entsprechenden Eingabebits in C1 und C2 entweder Alice oder Bob zuweisen. Wir habenjetzt allerdings keine Kontrolle mehr über die Eingabezerlegung und müssen Kommunika-tionsprobleme zu einer freien Eingabezerlegung betrachten.

3V (α, β) und V (α) = V (α,∞) sind analog zu H(α, β) und H(β) definiert.


Definition 7.13 Sei f : 0, 1n → 0, 1m gegeben. Wir sagen, dass eine Zerlegung Z mit1, . . . , n = Z1 ∪ Z2 ausgewogen ist, wenn sowohl Z1 wie auch Z3 höchstens 2n

3 Elemen-te besitzen. DZ(f) ist die Kommunikationskomplexität eines besten Protokolls für f mitEingabezerlegung Z.Die Kommunikationskomplexität Dfrei(f) von f bei freier Eingabezerlegung ist die minimaleKommunikationskomplexität DZ(f) eines Protokolls für f mit ausgewogener Eingabezerle-gung Z.

Eine Simulation des Chips liefert jetzt eine untere Schranke für das Fläche · Zeit2 Produktvon VLSI-Chips.

Satz 7.15 Sei f : 0, 1n → 0, 1m gegeben. Wenn C ein VLSI-Chip ist, das f mit FlächeA in Zeit T berechnet, dann gilt

A · T 2 = Ω(Dfrei(f)2).

Beweis: Sei C ein Chip, das f berechnet. Gemäß Lemma 7.11 zerschneiden wir C undführen eine Simulation von C durch ein Kommunikationsmodell durch, wobei die ausge-zeichneten Punkte p1, . . . , pn den Eingabeports entsprechen:

- Alice erhält alle Eingaben in C1, Bob erhält alle Eingaben in C2. Weiterhin ist Alicefür alle Ausgaben von C1 und Bob für alle Ausgaben von C2 zuständig.

- Das Protokoll simuliert den Informationsaustausch des Chips zwischen C1 und C2.

In einem Zeittakt des Chips C werden höchstens 3(√A + 1) Bits zwischen C1 und C2

ausgetauscht. Damit kann C in T Schritten maximal 3T√A+ 3T Bits zwischen den Teilen

C1 und C2 austauschen. Es folgt:

6T√A ≥ 3T

√A+ 3T ≥ Dfrei(f).

Durch Quadrieren erhalten wir: 36T 2 · A ≥ Cfrei(f)2. Diese Forderung ist äquivalent zu

A · T 2 ≥ 136 ·Dfrei(f)2

und wir erhalten A · T 2 = Ω(Dfrei(f)2).

Aufgabe 84Wir wollen die Beziehung zwischen Fläche/Zeit und Kommunikationskomplexität im drei-dimensionalen Gitter untersuchen. Sei ein VLSI-Chip als Quader ausgelegt, wobei die Sei-ten die Längen a, b und c haben. Somit gilt V = abc für das Volumen des Chips. Zeige:V 2T 3 = Ω(D(f)3).

Aufgabe 85Wir wollen eine Beziehung zwischen der Fläche und der einseitigen Kommunikationskom-plexität herstellen. Wir nehmen wie üblich an, dass das Chip when-and-where-oblivious ist


und erlauben damit, dass ein Eingabeport mehrere Eingabebits bekommen kann, allerdingsalle zu verschiedenen Zeitpunkten.Sei ein VLSI-Chip mit Fläche F für eine Funktion f : X × Y → 0, 1 gegeben. Zeige:F = Ω(CA→B(f)).

7.4.3.1 Kommunikation bei freier Zerlegung

Wir wollen untere Schranken bezüglich fester Zerlegungen für untere Schranken bezüglichfreier Zerlegungen nutzen.

Lemma 7.12 Sei f : 0, 1n → 0, 1m gegeben. Zu der Eingabezerlegung Z möge Bob dieAusgabe fB berechnen. Wenn es eine Eingabe yB für Bob mit

| fB(x, yB) | x ist Eingabe für Alice | > 2w−1

gibt, dann ist CZ(f) ≥ w.

Beweis: Das Protokoll P führe für zwei verschiedene Eingaben (x1, yB) und (x2, yB) mitfB(x1, yB) 6= fB(x2, yB), die gleiche Berechnung durch. Dann wird Bob für (x1, yB) und(x2, yB) dieselbe Ausgabe bestimmen, da er als Information nur yB und die gemeinsameBerechnung hat.Also muss ein korrektes Protokoll für jeden Wert von fB(x, yB) eine eigene Berechnungdurchführen. Da wir mindestens 2w−1 + 1 Ausgaben haben, benötigt jedes Protokoll mehrals 2w−1 Berechnungen. Diese Anzahl an Berechnungen wird nur erreicht, wenn mindestensw Bits ausgetauscht werden.

Um Lemma 7.12 anwenden zu können, benötigen wir den Begriff von transitiven Permu-tationsgruppen. Wir wiederholen zunächst den Begriff einer Gruppe: Eine Gruppe ist einTripel G = (D, , e) mit den folgenden Eigenschaften:

- D ist eine nicht-leere Menge.

- Die Verknüpfung : D ×D → D ist assoziativ.

- Das Einheitselement e ∈ D erfüllt x e = e x = x für alle x ∈ D.

- Für jedes x ∈ D gibt es ein Inverses x−1 ∈ D mit x x−1 = x−1 x = e.

Definition 7.14 Sei A eine Menge von n Elementen. Dann heißt

Sn(A) := (π | π ist eine Permutation von A , , e)

die vollständige Permutationsgruppe. Hierbei ist die Verknüpfung die Hintereinander-schaltung von Funktionen, d.h. (π1 π2)(a) = π1(π2(a)) für a ∈ A. Das Einheitselemente ist die Permutation e mit e(a) = a für alle a ∈ A. Wenn A = 0, . . . , n − 1, dannschreiben wir Sn statt Sn(A).G heißt n-Permutationsgruppe, wenn G eine Untergruppe von Sn ist.


Definition 7.15 Sei G eine n-Permutationsgruppe. Dann heißt G genau dann transitivvon der Ordnung n, wenn es für alle i, j mit 0 ≤ i, j ≤ n−1 ein πg ∈ G gibt mit πg(i) = j.

Wir behandeln zuerst die zentrale Eigenschaft transitiver Gruppen.

Lemma 7.13 Sei G transitiv von der Ordnung n. Für alle i, j mit 0 ≤ i, j ≤ n− 1 gilt

|πg | πg(i) = j| = |G|n.

Beweis: Setze Gi,j = πg | πg(i) = j für 0 ≤ i, j ≤ n − 1. Dann ist G die disjunkteVereinigung von Gi,0, . . . , Gi,n−1. Es genügt daher zu zeigen, daß |Gi,0| = · · · = |Gi,n−1|.Angenommen, es ist |Gi,r| > |Gi,s|. Da G transitiv ist, gibt es πg ∈ G mit πg(r) = s undfür alle π ∈ Gi,r folgt πg π(i) = πg(r) = s. Wir erhalten einen Widerspruch, denn

πg π | π ∈ Gi,r ⊆ Gi,s

und deshalb folgt |Gi,r| = |πg π | π ∈ Gi,r| ≤ |Gi,s|.

Der Begriff einer transitiven Gruppe erlaubt es, formal auszudrücken, daß „eine Funktionihre Eingaben auf eine komplexe Art und Weise verschiebt“.

Definition 7.16 Die Funktion f : 0, 1n+k → 0, 1n sei gegeben und sei G eine n-Per-mutationsgruppe. Die Funktion f berechnet genau dann die Gruppe G, wenn es für jedesπ ∈ G Bits b1, . . . , bk ∈ 0, 1 gibt, so daß für alle x0, . . . , xn−1 ∈ 0, 1

f(x0, . . . , xn−1, b1, . . . , bk)) = (xπ(0), xπ(2), . . . , xπ(n−1))

gilt. Die Funktion g : 0, 1n+k → 0, 1m heißt genau dann transitiv von der Ordnung n,wenn es 1 ≤ i1 < · · · < in ≤ m und eine transitive Gruppe G der Ordnung n gibt, so daß(gi1 , gi2 , . . . , gin) die Gruppe G berechnet.

Wir nennen im folgenden die Bits b1, . . . , bk Programmierbits, da sie die Permutation πbestimmen. Die Bits x0 . . . , xn−1 nennen wir Permutationsbits.

Beispiel 7.8 Für Bits b1, . . . , bk sei b = b1 · 2k−1 + · · · bk · 20 die Zahl mit Binärdarstellungb1 · · · bk. Wir definieren dann für k ≥ dlog2 ne die zyklische Verschiebung

zn+k(x0, . . . , xn−1, b1, . . . , bk) = (xb mod n

, . . . , xn−1+b mod n

).

Die zyklische Verschiebung ist transitiv von der Ordnung n. Warum? Die Funktion zn+kberechnet die Gruppe G der zyklischen Permutationen πb mit πb(i) = i + b mod n. G isttransitiv von der Ordnung n, denn für alle i, j ∈ 0, . . . , n−1 gibt es l mit i+l mod n = j.

Beispiel 7.9 Wir betrachten das Sortierproblem SORTn,k(x1, . . . , xn), in dem die n k-Bit-Zahlen x1, . . . , xn aufsteigend zu sortieren sind. Insbesondere werden natürlich die nniedrigstwertigsten Bits der n Eingaben permutiert.Wir fassen alle Bits, bis auf die niedrigstwertigen Bits, als Programmierbits auf. Für k ≥1+dlog2 ne berechnet SORTn,k dann sogar alle Permutationen in Sn und ist damit natürlichtransitiv von der Ordnung n.


Aufgabe 86Zeige, dass die Multiplikation MULTn zweier n-Bit-Zahlen transitiv von der Ordnung bn2 cist.

Beispiel 7.10 Die Funktion MATRIXn(A,B,C) berechnet das Produkt der n× n Matri-zen A,B und C. Wir nehmen dabei an, daß jede Matrix nur 0, 1-Einträge besitzt. Wennwir A und C als Permutationsmatrizen wählen, dann berechnet MATRIXn die Permutati-onsgruppe G mit

G = (πz, πs) | (πz, πs)(i, j) = (πz(i), πs(j)) für πz, πs ∈ Sn

Beachte, dass G transitiv von der Ordnung n2 ist.

Transitive Funktionen hoher Ordnung haben ein großes Produkt von Fläche und demQuadrat der Zeit.

Satz 7.16 Sei die Funktion f : 0, 1n+k → 0, 1m transitiv von der Ordnung n und Cein Chip, das f mit Fläche(C) in Zeit(C) vielen Schritten berechnet. Dann gilt

Cfrei(f) = Ω(n) und Fläche(C) · Zeit(C)2 = Ω(n2).

Beweis.Wir wissen, daß f nach Auswahl von n Ausgabebits jede Permutation einer transi-tiven GruppeG durch Setzen der Programmierbits b1, . . . , bk berechnet. Die entsprechendenPermutationsbits seien x = x0, . . . , xn−1.Wir wenden Lemma 7.11 auf das Chip C an und wählen die Eingabeports zu den x-Bitsals ausgezeichnete Punkte. Wir erhalten eine Zerlegung von C in Teilchips C1 und C2,so dass höchstens O(

√Fläche(C)) Drähte zerschnitten werden und so dass jedes Teilchip

höchstens 2n3 x-Bits besitzt. Die entsprechende Eingabezerlegung Z ist also auf den x-Bits

ausgewogen. Das Argument in Satz 7.15 hat gezeigt, dass Fläche(C) · Zeit2 ≥ Ω(CZ(f)2)gilt und wir müssen deshalb CZ(f) = Ω(n) nachweisen.O.B.d.A sei Bob für mindestens dn2 e Ausgabebits verantwortlich. Die Menge OUT (mitOUT| ≥ dn2 e) sei die Menge der Ausgabebits von Bob und die Menge IN sei die Menge derx-Bits von Alice. Da die Eingabezerlegung auf den x-Bits ausgewogen ist, folgt |IN| ≥ n

3und wir erhalten

|IN| · |OUT| ≥ 16 · n

2.

Wieviele Eingabebits von Alice werden zu den Ausgabebits von Bob permutiert, wenn wireine Permutation π ∈ G durch Setzen der Programmierbits berechnen? Wir definieren

match(π) := | i ∈ IN | π(i) ∈ OUT |

und erhalten ∑π∈G

match(π) =∑i∈IN

∑j∈OUT

∑π∈G,π(i)=j

1 =∑i∈IN

∑j∈OUT

|G|n


mit Lemma 7.13. In der letzten Summe wird |G|n

für jeden der |IN| · |OUT| Summandenaufsummiert und deshalb ist∑

π∈Gmatch(π) ≥ |IN| · |OUT| · |G|

n≥ 1

6 · n2 · |G|

n≥ n

6 · |G|.

Der durchschnittliche Wert von match(πg) beträgt also mindestens n6 und deshalb gibt es

eine Permutation π ∈ G mit match(π) ≥ n6 .

Wir wählenWerte für die Programmierbits b1, . . . , bk, so daß f die Permutation π berechnet,und wählen eine beliebige Eingabe yB für Bob. Nach der Berechnung von π wird Bob dieBitkombinationen von mindestens n

6 verschiedenen Eingabebits von Alice ausgeben unddamit mindestens 2n/6 verschiedene Ausgaben produzieren. Nach Lemma 7.12 müssen alsomindestens n

6 Bits ausgetauscht werden.

Korollar 7.8 A bezeichne die Fläche und T die Zeit eines Chips, das f berechnet. Danngilt

- AT 2 = Ω(n2) für die zyklische Verschiebung.

- AT 2 = Ω(n2) für SORTn,1+log2 n.

- AT 2 = Ω(n2) für MULTn.

- AT 2 = Ω(n4) für MATRIXn.

Beweis: Wir wissen, daß die zyklische Verschiebung, SORTn,1+log2 n und MULTn transitivvon der Ordnung n sind. MATRIXn ist transitiv von der Ordnung n2. Damit folgt dasKorollar direkt aus Satz 7.16.

Wie gut sind diese unteren Schranken? Zuerst betrachten wir das Sortierproblem: Fürdas Sortieren von n Zahlen der Länge O(log2 n) können Chips mit AT 2 = O(n2 log2

2 n)konstruiert werden, falls T im Intervall Ω(log2 n)∩O(

√n ) liegt. Die untere Schranke kann

auf Ω(n2 log22 n) verbessert werden.

Für das Multiplizieren von zwei n-Bit-Zahlen gibt es Chips mit

AT 2 = O(n2),

wobei T im Intervall Ω(log2 n)∩O(√n ) liegen muss. Unsere unteren Schranken sind somit

asymptotisch exakt für die Multiplikation und bis auf den Faktor log22 n exakt für das

Sortieren.

7.4.4 Tiefe von Entscheidungsbäumen∗

Zuerst führen wir den Begriff eines Entscheidungsbaums ein.

Definition 7.17 Sei F ⊆ f | f : 0, 1n → 0, 1 eine Menge von Entscheidungsfunk-tionen. Ein F-Entscheidungsbaum wird durch ein Tripel (T, h1, h2) spezifiziert.


- T ist ein geordneter binärer Baum.

- I sei die Menge der inneren Knoten von T . Die Funktion h1 : I → F weist innerenKnoten Entscheidungsfunktionen in F zu.

- B sei die Menge der inneren Knoten von T . Die Funktion h2 : B → 0, 1 weistjedem Blatt von T entweder den Wert 0 oder den Wert 1 zu.

Der Entscheidungsbaum (T, h1, h2) rechnet wie folgt: Sei fv = h1(v) ∈ F die dem innerenKnoten v zugewiesene Funktion und das Blatt b sei mit dem Wert Bitb = h2(b) ∈ 0, 1markiert. Eine Eingabe x ∈ 0, 1n wird zuerst an der Wurzel w von B „angelegt“. Wennfw(x) = 0 ist, wird x zum linken Kind wlinks von w weitergeleitet, sonst zum rechten Kindwrechts. Diese Prodezur wird solange wiederholt, bis ein Blatt b erreicht wird, und Bitb wirdausgegeben.Wir können Entscheidungsbäume somit als ein Expertensystem auffassen, das versucht,eine Eingabe x zu klassifizieren.Die wichtigsten Komplexitätsmaße von Entscheidungsbäumen sind Größe und Tiefe desBaumes. Die Größe des Baumes wird als die Anzahl der Knoten definiert. Wir werden unsim Folgenden aber nur mit der Tiefe von Entscheidungsbäumen, also mit der Länge eineslängsten Weges von der Wurzel zu einem Blatt, beschäftigen.Jede Funktion g : 0, 1n → 0, 1 kann offensichtlich durch einen Entscheidungsbaumder Tiefe n berechnet werden, wenn wir die Projektionen pi(x1, . . . , xn) = xi als Entschei-dungsfunktionen verwenden: Konstruiere einen Baum, der jedem inneren Knoten der Tiefei die Projektion pi zuweist und der die Blätter geeignet markiert.Die minimale Tiefe von Entscheidungsbäumen und die Kommunikationskomplexität hän-gen wie folgt zusammen:

Aufgabe 87Eine Menge von Entscheidungsfunktionen F ⊆ f | f : 0, 1n → 0, 1 sei gegeben. Wirfixieren eine Eingabezerlegung, so dass jede Funktion in F ein Kommunikationsprotokollbesitzt, das höchstens b Bits austauscht.Zeige, dass jeder F -Entscheidungsbaum für eine Funktion g : 0, 1n → 0, 1 mindestensdie Tiefe D(g)

bbesitzt.

Beispiel 7.11 Sei F = π1, . . . , πn die Menge der Projektionen mit πi(x1, . . . , xn) = xi.Da D(pi) = 1 gilt, hat jede Funktion g einen Entscheidungsbaum der Tiefe mindestensD(g).

Beispiel 7.12 Sei F die Klasse aller symmetrischen4 Funktionen inklusive der Projektio-nen. Wir fixieren eine beliebige Eingabezerlegung. Da Alice die Anzahl der Einsen ihrerEingabe mit höchstens dlog2(n + 1)e Bits mitteilen kann, hat jeder „symmetrische“ Ent-scheidungsbaum für eine Funktion g : 0, 1n → 0, 1 mindestens die Tiefe D(g)

dlog2(n+1)e .4Eine Funktion f : 0, 1n → 0, 1 ist symmetrisch, wenn der Funktionswert nur von der Anzahl der

Einsen abhängt.


Wir betrachten zuletzt lineare Entscheidungsbäume: Die Entscheidungsfunktionen sinddiesmal „Thresholdfunktionen“ der Form

n∑i=1

wixi ≥ t

mit reellwertigen Koeffizienten w1, . . . , wn und einem reellwertigen Schwellenwert t. Leiderführt unser bisheriger Ansatz jetzt nicht zum Ziel, denn es gibt Threshold-Funktionen mitgroßer Kommunikationskomplexität:

Aufgabe 88Zeige: Zu jeder ausgewogenen Eingabezerlegung gibt es eine Thresholdfunktion g mitD(g) = Θ(n).

Wir verfolgen deshalb einen anderen Ansatz. Wir überlegen uns, wie die Kommunikations-matrix einer linearen Entscheidungsfunktion aussieht. Sei

g(x1, . . . , xn) = 1 iffn∑i=1

wixi ≥ t

eine Thresholdfunktion und sei Z = (Z1, Z2) eine beliebige Eingabezerlegung. Wir ordnendie Zeilen gemäß dem Wert ∑i∈Z1 wixi an, wobei wir mit Zeilen von großem Wert beginnenund mit Zeilen von kleinem Wert enden. Analog, aber gemäß aufsteigendem Summenwert,behandeln wir die Spalten. Wir erhalten eine „obere Treppenmatrix“: ein 0-Eintrag „ver-erbt“ sich in seiner Spalte nach unten und in seiner Zeile nach links. Analog vererbt sichein 1-Eintrag in seiner Spalte nach oben und in seiner Zeile nach rechts.

0 0 1 11 100000

00000

10000

11000

10000

11110

Eine obere Treppenmatrix.

Wie sehen diese Zeilen- und Spalten-Permutation aus?

Lemma 7.14 Sei M eine obere Treppenmatrix mit 0- und 1-Einträgen.

(a) Jede Teilmatrix von M ist eine obere Treppenmatrix.

(b) M besitzt eine monochromatische Teilmatrix, die mindestens 14 der Größe von M

ausmacht.

Beweis (a)ist offensichtlich. Wir zeigen Behauptung (b).M besitze z Zeilen und s Spalten.Wir betrachten den „Mittelpunkt“

(z2 ,

s2

)von M . Dann sind alle Einträge (i, j) mit i ≤ z

2und j ≥ s

2 identisch eins (und wir haben eine geeignet große Teilmatrix gefunden) oder


alle Einträge (i, j) mit i ≥ z2 und j ≤ s

2 sind identisch Null (und wir haben eine geeignetgroße 0-chromatische Teilmatrix gefunden).

Also ist für lineare Entscheidungsbäume nicht mehr die Kommunikationskomplexität derzu berechnenden Funktion g relevant, sondern die Anzahl MaxZ(g) der Einträge, die voneiner größten monochromatischen Teilmatrix vonMg für die Eingabezerlegung Z überdecktwerden.

Satz 7.17 Die Funktion g : 0, 1n → 0, 1 sowie eine Eingabezerlegung Z sei gegeben.Dann hat jeder lineare Entscheidungsbaum für g mindestens die Tiefe t, wobei

4t ≥ 2nMaxZ(g)

gilt. Also ist t ≥ (n− log2 MaxZ(g))/2.

Beweis: Sei (T, h1, h2) ein linearer Entscheidungsbaum, der g berechnet und sei f0 dieThresholdfunktion der Wurzel w von T . Nach Lemma 7.14 finden wir eine monochroma-tische TeilmatrixM0 vonMf0 der Größe mindestens 2n

4 . Wenn 0 (1) der Wert dieser Teilma-trixM0 ist, dann betrachte das linke (rechte) Kind der Wurzel. Sei f1 die Thresholdfunktiondes ausgewählten Kindes. Dann ist Mf1 , nach geeigneter Zeilen- und Spaltenpermutation,eine obere Treppenmatrix.Jede Teilmatrix von Mf1 ist ebenfalls eine obere Treppenmatrix. Insbesondere ist die Teil-matrix von Mf1 , die nur aus den Positionen von M0 besteht, eine obere Treppenmatrix.Damit gibt es eine Teilmatrix M1 von M0 der Größe mindestens 2n

42 , die monochromatischbezüglich der Funktionen f0 und f1 ist. (Alle vonM2 überdeckten Eingaben erreichen somitdas gleiche Enkelkind der Wurzel.)Diese Konstruktion wird fortgesetzt, bis wir ein Blatt b erreicht haben. Wenn t die Tiefedes Baums ist, dann haben wir eine bezüglich f0, . . . , ft monochromatische Teilmatrix Mt

der Größe mindestens 2n4t gefunden: Alle von Mt überdeckten Eingaben erreichen das Blatt

b und Mt muss eine monochromatische Teilmatrix von Mg ist. Somit gilt MaxZ(g) ≥ 2n4t .

Beispiel 7.13 Wir betrachten das innere Produkt

g(x, y) = 〈x, y〉2,n =n∑i=1

xiyi mod 2.

Wir wissen bereits, daßMaxZ(g) = 2n

gilt, wenn alle x-Bits an Alice und alle y-Bits an Bob verteilt werden. Also hat jeder lineareEntscheidungsbaum für das innere Produkt eine Tiefe von mindestens (2n− n)/2 = n/2.


7.4.5 KommunikationsspieleSei f : 0, 1n → 0, 1 eine Boolesche Funktion. Wir zeigen, dass DEPTH(f), die minimaleTiefe eines ∧,∨,¬-Schaltkreises vom Fanin zwei für f , mit Hilfe der Kommunikationexakt charakterisiert werden kann.Wir können ∧,∨,¬-Schaltkreise nach einer Verdopplung der Größe und unter Beibehal-tung der Tiefe in einen äquivalenten Schaltkreis transformieren, für den die Negation nurnoch an den Eingabegattern auftritt. Wir haben eine solche Konstruktion im Beweis vonSatz 4.4 kennengelernt. Ab jetzt werden wir deshalb annehmen, dass die Negation nur fürEingabegatter verwandt wird.

Im Kommunikationsspiel Spiel(f) für die Boolesche Funktion f erhält Alice eine Eingabe xmit f(x) = 1 und Bob eine Eingabe y mit f(y) = 0. Beide Spieler kommunizieren, um sichauf (irgend)eine Position i mit xi 6= yi zu einigen. (Eine solche Position muss existieren,denn x 6= y gilt.) Die berechnete Position muss beiden Spielern bekannt sein. Die minimaleAnzahl kommunizierter Bits für ein erfolgreiches deterministisches Protokoll bezeichnenwir mit

C(Spiel(f)).

7.4.5.1 Die Tiefe von Schaltkreisen

Auf den ersten Blick völlig überraschend stimmt C(Spiel(f)) mit DEPTH(f) überein.

Satz 7.18 Die Funktion f : 0, 1n → 0, 1 sei gegeben. Dann gilt

C(Spiel(f)) = DEPTH(f).

Beweis: Wir zeigen zuerst die Ungleichung C(Spiel(f)) ≤ DEPTH(f). Sei S ein Schaltkreis,der f in Tiefe t = DEPTH(f) berechnet. Wir konstruieren ein Kommunikationsprotokollfür Spiel(f), das höchstens t Bits austauscht. Unsere Konstruktion benutzt eine Induktionüber t.Induktionsbasis: t = 0. Wir erhalten, dass entweder f(z) = zi oder f(z) = ¬zi gilt. Damitist i eine Position, in der sich x und y unterscheiden, und eine Kommunikation ist nichterforderlich.Induktionsschritt: Wir nehmen zuerst an, dass das Ausgabegatter f von S ein UND-Gatterist. Wir erhalten

f = f0 ∧ f1

für die vom „linken“, bzw. vom „rechten“ Vorgängergatter von f berechnete Funktion f0,bzw. f1. Für beide Funktionen können wir die Induktionsannahme anwenden und erhalten

C(Spiel(f0)), C(Spiel(f1)) ≤ t− 1.

Da 0 = f(y) = (f0 ∧ f1)(y), gilt f0(y) = 0 oder f1(y) = 0, während natürlich f0(x) =f1(x) = 1 gilt. Bob beginnt die Kommunikation und sendet das Bit b für das fb(y) = 0 ist.


Alice und Bob wissen, dass fb(x) = 1 und fb(y) = 0. Sie können deshalb das Kommunika-tionsspiel für fb benutzen, um eine x und y unterscheidende Position zu bestimmen. NachInduktionsannahme genügen t − 1 Bits, und wir haben C(Spiel(f)) ≤ t wie gewünschtnachgewiesen.Im zweiten Fall ist das Ausgabegatter f ein ODER-Gatter und die beiden Vorgängergatterberechnen die Funktionen f0 und f1 mit f = f0 ∨ f1. Bob hat diesmal nichts Interessantesbeizusteuern, denn f0(y) = f1(y) = 0 gilt. Aber Alice hat Interessantes zu vermelden,denn es gilt f0(x) = 1 oder f1(x) = 1. Sie sendet das Bit b mit fb(x) = 1 an Bob. Dieverbleibende Argumentation ist jetzt identisch zum ersten Fall.

Schließlich ist die Ungleichung C(Spiel(f)) ≥ DEPTH(f) zu zeigen. Der erste Eindruck ist,dass der Nachweis kaum gelingen kann, denn Alice und Bob arbeiten mit unbeschränkterRechenkraft. Wir zeigen tatsächlich ein noch stärkeres Ergebnis als verlangt. Die Teilmen-gen A,B ⊆ 0, 1n seien disjunkt. Alice erhält eine Eingabe x ∈ A, Bob eine Eingabey ∈ B. Beide Spieler kommunizieren, um eine Position i mit xi 6= yi zu bestimmen.Wir zeigen: Wenn t Bits im Kommunikationsspiel für A und B ausreichen, dann gibt eseinen Schaltkreis S der Tiefe höchstens t, der A und B „trennt“, d.h. für den S(x) = 1 fürjedes x ∈ A und S(y) = 0 für jedes y ∈ B gilt.Wir konstruieren den Schaltkreis S durch Induktion über t.Induktionsbasis: t = 0. Alice und Bob kennen die Antwort i ohne kommunizieren zu müssen.Aber dann ist entweder xi = 1 oder xi = 0 für alle x ∈ A und entsprechend umgekehrtesVerhalten zeigen die Elemente y ∈ B. Als Konsequenz trennt entweder der SchaltkreisS = xi oder der Schaltkreis S = ¬xiInduktionsschritt: Wir nehmen zuerst an, dass Alice die Kommunikation beginnt. Für jedesx aus der Teilmenge A0 ⊆ Amöge Alice das Bit 0 und für jedes x aus der Teilmenge A1 ⊆ Adas Bit 1 senden. Wir können die Induktionsvoraussetzung auf A0 und B wie auch auf A1und B anwenden und erhalten Schaltkreise S0 und S1 der jeweiligen Tiefe höchstens t− 1die A0 und B, bzw. A1 und B trennen. Mit anderen Worten, es ist für alle x ∈ Ab undy ∈ B,

Sb(x) = 1 und Sb(y) = 0.

Aber dann trennt der Schaltkreis S = S0 ∨ S1 die Mengen A = A0 ∪ A1 und B. Da S dieTiefe höchstens t besitzt, ist die Konstruktion von S erfolgreich.Im zweiten Fall, wenn also Bob die Kommunikation beginnt, argumentieren wie analog.Diesmal verwenden wir ein UND-Gatter und setzen S = S0 ∧ S1.

Wie können wir untere Schranken für C(Spiel)(f) erhalten? Leider sind bisher alle Versucheerfolglos geblieben, Schranken der Form C(Spiel)(f) = ω(log2 n) zu beweisen. Naheliegendist ein auf Krapchenko zurückzuführender Ansatz: H(x, y) bezeichne die Hamming-Distanzvon x und y, also die Anzahl der Positionen, in denen sich die beiden Strings x, y ∈ 0, 1nunterscheiden. Um die Schwierigkeit der Trennung der 0- und 1-Eingaben zu „messen“betrachtet Krapchenko die Menge aller Paare (x, y) im Hamming-Abstand 1, so dass f(x) =1 und f(y) = 0. Ist diese Menge „benachbarter“ 0- und 1-Eingaben groß, deutet dies auf


eine schwierige Trennung hin.

Lemma 7.15 Die Mengen B0, B1 ⊆ 0, 1n seien disjunkt. Dann gilt

C(Spiel(f)) ≥ log2|C|2

|B0| · |B1|

für jede Boolesche Funktion f : 0, 1n → 0, 1 mit B0 ⊆ f−1(0), B1 ⊆ f−1(1), wobei

C = (x, y) | x ∈ B0, y ∈ B1und H(x, y) = 1 .

Beweis: Sei P ein optimales Protokoll für Spiel(f), d.h. P tauscht die kleinstmöglicheBitzahl unter allen Protokollen aus, die Spiel(f) berechnen. Insbesondere möge P genauC(x, y) Bits austauschen, wenn Alice Eingabe x ∈ f−1(1) und Bob Eingabe y ∈ f−1(0)erhält. Dann ist

C(x, y) = Alice(x, y) + Bob(x, y),wobei Alice(x, y),Bob(x, y) die von Alice bzw. von Bob kommunizierten Bits bezeichnet.Es bezeichne N(x) die Menge der Eingaben in B0 mit Hamming-Abstand 1 von x; analogdefinieren wir die Nachbarschaft N(y) von y. Wieviele Bits muss Bob im Durchschnittmindestens kommunizieren, wenn Alice die Eingabe x erhält?∑

y∈N(x)Bob(x, y) ≥ |N(x)| log2 |N(x)|,

∑x∈N(y)

Alice(x, y) ≥ |N(y)| log2 |N(y)|.

Warum gilt zum Beispiel die erste Ungleichung? Selbst wenn Bob die Eingabe x von Alicekennt, muss er immer noch mitteilen, welchen Nachbarn y ∈ N(x) er als Eingabe besitzt!Wir schätzen jetzt die durchschnittliche Kommunikation C(x, y) für alle Paare x ∈ B1 undy ∈ B0 nach unten ab:

1|C|

∑(x,y)∈C

C(x, y) = 1|C|

∑(x,y)∈C

Alice(x, y) + Bob(x, y)

= 1|C|

∑x∈B1

∑y∈N(x)

Bob(x, y) +∑y∈B0

∑x∈N(y)

Alice(x, y)

≥ 1|C|

∑x∈B1

|N(x)| log2 |N(x)|+∑y∈B0

|N(y)| log2N(y)

≥ 1|C|

∑x∈B1

|C||B1|

log2|C||B1|

+∑y∈B0

|C||B0|

log2|C||B0|

=

∑x∈B1

1|B1|

log2|C||B1|

+∑y∈B0

1|B0|

log2|C||B0|

= log2|C||B1|

+ log2|C||B0|

= log2|C|2

|B0| · |B1|.


In der letzten Ungleichung haben wir benutzt, dass die Funktion g(z) = z log2 z konvex istund damit gilt ∑i∈I g(zi) ≥ 1

|I|g(∑i∈I zi).Die „Rechnerei“ hat also ergeben, dass die durchschnittliche Kommunikation des bestenProtokolls mindestens log2

|C|2|B0|·|B1| beträgt. Damit ist die worst-case Kommunikation min-

destens log2|C|2

|B0|·|B1| , und das war zu zeigen.

Beispiel 7.14 Wir wenden die Krapchenko-Schranke für die Paritätsfunktion xorn(x) =⊕ni=1xi an. Sei Bi die Menge aller Eingaben mit Parität i. Dann ist |B0| = |B1| = 2n−1

und |C| = n2n−1. Also folgt

C(Spiel(xorn)) ≥ log2n222(n−1)

2n−12n−1 = log2 n2 = 2 log2 n.

Jeder Schaltkreis vom Fanin zwei für die Paritätsfunktion hat somit mindestens die Tiefe2 log2 n.

Aufgabe 89Zeige, dass C(Spiel(xorn)) = 2 log2 n gilt.

Wir haben Kommunikationsprotokolle P mit Hilfe ihrer Protokollbäume BP eingeführtund in Definition 7.2 die Kommunikationskomplexität von P als die Tiefe des Baumsdefiniert. Sei Blätter(P) die Anzahl der Blätter vonBP , also die Anzahl der von P erzeugtenNachrichten. Wir setzen

Nachrichten(f) = min Blätter(P) | P ist ein Protokoll für Spiel(f) .

Nachrichten(f) ist also die kleinstmögliche Nachrichtenzahl eines Protokolls für f . Nebender Größe von Schaltkreisen für eine Boolesche Funktion f interessiert man sich auch fürdie Formelgröße.

Definition 7.18 Die Formelgröße L(f) ist die minimale Blattzahl eines Schaltkreises vomFanin zwei für f , dessen Graphstruktur ein Baum ist.

Aufgabe 90Zeige:

L(f) = Nachrichten(f).

Formelgröße und die minimale Nachrichtenzahl eines Protokolls für f stimmen überein!

Aufgabe 91Zeige: L(xorn) ≥ n2. Wie gut ist diese Schranke?


7.4.5.2 Die Tiefe monotoner Schaltkreise

Gibt es monotone Kommunikationsspiele, die die Tiefe monotoner Schaltkreise für einemonotone Funktion f charakterisieren? Wir führen eine Simulation des diesmal monoto-nen Schaltkreises S vollständig analog zur Konstruktion in Satz 7.18 durch. Es passiertabsolut nichts Neues, bis auf den allerletzten Schritt der Kommunikation, in dem ein stetsnicht-negiertes Eingabegatter zu behandeln ist. Dann ist aber klar wie das monotone Kom-munikationsspiel Spiel+(f) aussehen muss: Wie vorher erhält Alice eine 1-Eingabe x undBob eine 0-Eingabe y. Beide Spieler kommunizieren, um eine Position i mit

xi = 1 und yi = 0

zu bestimmen.Zur Erinnerung: Wir haben die kleinste Tiefe eines monotonen Schaltkreises vom Faninzwei für f mit DEPTH+(f) bezeichnet.

Satz 7.19 Für jede monotone Funktion f gilt

C(Spiel+(f)) = DEPTH+(f).

Aufgabe 92Zeige Satz 7.19

Unser Ziel ist der Nachweis einer linearen unteren Schranke für die Tiefe eines monotonenSchaltkreises für MATCHn. In MATCHn wird ein Graph mit 2n Knoten genau dann ak-zeptiert, wenn G ein perfektes Matching besitzt, wenn G also ein Matching der Größe nbesitzt.

Beispiel 7.15 Wir erinnern an die Konzepte der Min- und Maxterme monotoner Funk-tionen. Wir betrachten das Matching-Problem MATCHn,k: Ein ungerichteter Graph G mitn Knoten ist genau dann zu akzeptieren, wenn G ein Matching der Größe k besitzt.Die Minterme entsprechen den möglichen Matchings der Größe genau k. Für jede Knoten-menge I ⊂ 1, . . . , n der Größe k − 1 sei BI der Graph, der alle Kanten mit mindestenseinem Endpunkt in I besitzt. Der Graph BI ist ein Maxterm und jeder Maxterm ist einGraph BI

Satz 7.20 DEPTH+(MATCHn) = Ω(n).

Beweis: Wir führen eine Reihe von Beobachtungen durch. Zuerst genügt der Nachweis,dass lineare Tiefe für Graphen mit 4n Knoten notwendig ist. (Warum?) Aber dann istes ebenfalls ausreichend, wenn wir nachweisen, dass MATCH3n,n lineare Tiefe benötigt:Füge n Knoten zu einem Graphen mit 3n Knoten hinzu und verbinde jeden neuen Knotenmit allen alten Knoten. Dann hat der neue Graph, mit jetzt 4n Knoten, genau dann ein


perfektes Matching, also ein Matching mit 2n Kanten, wenn der alte Graph ein Matchingmit n Kanten besitzt. Weiterhin genügt es nach Satz 7.19 zu zeigen, daß

C(Spiel+(MATCH3n,n)) = Ω(n)

gilt.Kommen wir als Nächstes zur Analyse des monotonen Kommunikationsspiels. Wir weisenAlice und Bob nur bestimmte Eingaben zu: Alice erhält einen Minterm und somit einMatchingM der Größe n. Bob erhält einen Maxterm und zwar weisen wir ihm den GraphenBI für eine Teilmenge I ⊆ V von genau n− 1 Knoten zu. (Zur Erinnerung, BI besitzt alleKanten mit mindestens einem Endpunkt in I.) Im monotonen Spiel müssen Alice und Bobeine Kante in M bestimmen, die nicht zu BI gehört. Dies ist äquivalent zu dem Auffindeneiner Kante in M , die keinen Endpunkt in I besitzt.Ein Einschub: Ist es nicht gefährlich sich auf die „wenigen“ Min- und Maxterme einzu-schränken? Das Auffinden einer Kante, die Alice nicht aber Bob besitzt, ist natürlich be-sonders dann schwierig, wenn Alice sehr wenige und Bob sehr viele Kanten besitzt. Undgerade das erreichen wir, wenn Alice einen Minterm und Bob einen Maxterm erhält.

Aufgabe 93C∗(Spiel+(f)) ist die minimale Bitzahl, die ein erfolgreiches Protokoll für Spiel+(f) benö-tigt, falls Alice einen Minterm und Bob einen Maxterm erhält.Zeige: C∗(Spiel+(f)) = C+(Spiel+(f)).

Kommunikationsspiele sind schwierig zu analysieren, denn es ist nur eine von möglicher-weise vielen Kanten zu bestimmen, die zu M gehören und keinen Endpunkt in I besitzen.Wir geben deshalb Bob eine Menge J von n statt vorher n− 1 Knoten und fragen, ob eseine Kante in M gibt, die keinen Knoten in J berührt. Können wir dieses Entscheidungs-problem TOUCH(J) mit Hilfe eines Protokolls für Spiel(MATCH3n,n) lösen? Hier ist einLösungsversuch:

(1) Bob wählt einen Knoten v ∈ J zufällig aus.

(2) Alice und Bob führen ein Protokoll für Spiel(MATCH3n,n) mit den Eingabe M fürAlice und BJ\v für Bob aus.

(3) Angenommen, das Resultat ist eine Kante e ∈M .

– Wir wissen, dass e keinen Endpunkt in J \ v besitzt.– Wenn e den Knoten v nicht berührt, dann akzeptieren Alice und Bob richtiger-

weise, denn e berührt keinen Knoten in J .– Wenn e den Knoten v berührt, dann verwerfen Alice und Bob.

Wenn Alice und Bob eine falsche Entscheidung treffen, dann nur wenn der zufällig ausge-wählte Knoten v die im Kommunikationsspiel bestimmte Kante e berührt. Die Entschei-dung ist genau dann falsch, wenn es eine Kante e′ ∈ M gibt, die J nicht berührt. Aber


M ist ein Matching und e ist die einzige Kante in M , die Knoten v berührt. Das Kommu-nikationsspiel für MATCH3n,n (mit den Eingaben M und J \ v) hat also im Fehlerfallmindestens zwei richtige Antworten, nämlich die Kante e und die richtige Antwort e′. Wennwir garantieren könnten, dass jede richtige Antwort gleichwahrscheinlich wäre, dann wäreunser Protokoll mit Wahrscheinlichkeit mindestens 1/2 korrekt. Wir könnten dann unserProtokoll für TOUCH(J) einige Male wiederholen, um den Fehler unter jede beliebige Kon-stante zu drücken und hätten ein schwieriges Entscheidungsproblem geknackt. Aber wirkönnen garantieren, dass jede richtige Antwort gleichwahrscheinlich ist, wenn Alice undBob die gemeinsame Zufallsquelle benutzen, um die Knoten zu permutieren!Ist TOUCH(J) denn ein wirklich schwieriges Entscheidungsproblem? Wir zeigen, dass wirdas Disjunktheitsproblem DISJn einfach mit Hilfe einer Lösung für TOUCH(J) lösen kön-nen. Angenommen, Alice und Bob erhalten die Mengen X, Y ⊆ 1, . . . , n als Eingabenfür DISJn.

(0) Beide Spieler einigen sich auf die Knotenmenge V = ai, bi, ci | 1 ≤ i ≤ n.

(1) Alice konstruiert ein MatchingM der Größe n, indem sie für jedes i genau eine Kantein jeder Teilmenge ai, bi, ci nach dem folgenden Verfahren auswählt:

– Wenn i ∈ X, dann ist ai, bi ∈M .– Wenn i 6∈ X, dann ist bi, ci ∈M .

(2) Bob wählt eine Menge J der Größe n, indem er für jedes i genau einen Knoten ausai, bi, ci auswählt.

– Wenn i 6∈ Y , dann wählt er bi.– Wenn i ∈ Y , dann wählt er ci.

(3) Alice und Bob entscheiden, dass die Mengen X und Y genau dann disjunkt sind,wenn jede Kante in M mindestens einen Knoten in J berührt. Die Entscheidung istfehlerfrei.

Damit ist der Beweis erbracht, denn nach Satz 7.10 gilt

P1/2−ε(DISJn) = Θ(n)

für jede Konstante ε > 0 und die Protokolle für TOUCH(J), bzw für Spiel(MATCH3n,n)müssen deshalb ebenfalls eine lineare Anzahl von Bits kommunizieren.

7.5 ZusammenfassungDie Kommunikationskomplexität einseitiger deterministischer Protokolle haben wir durchden Logarithmus der Anzahl verschiedener Zeilen der Kommunikationsmatrix exakt cha-rakterisieren können. Die Voraussage der Komplexität mehrseitiger Protokolle ist hingegenein weitaus schwierigeres Problem, und wir haben verschiedene Ansätze, nämlich


- Fooling-Sets,

- die Rang-Methode,

- die Methode der größten monochromatischen Teilmatrix und

- die Zerlegungsmethode

besprochen. Wir haben gesehen, dass Fooling-Sets höchstens leicht bessere Ergebnisse alsdie Rang-Methode liefern können und in einigen Fällen exponentiell schlechtere Prognosender tatsächlichen Kommunikationskomplexität abgeben. Die Exaktheit der Rang-Methodeist bisher ungeklärt und eine, bis auf ein Polynom exakte Prognose ist nicht ausgeschlossen.Die Zerlegungsmethode ist die mächtigste Methode, aber sie ist leider in vielen Anwen-dungen nicht direkt anwendbar. Die Methode der größten monochromatischen Teilmatrixmacht erstaunlich exakte Prognosen und ist wesentlich leichter anzuwenden.Die Situation nichtdeterministischer Protokolle ist einfacher: Einseitige Protokolle habendieselbe Effizienz wie mehrseitige Protokolle und der Logarithmus der Überdeckungszahlist eine exakte Charakterisierung der nichtdeterministischen Kommunikation. Wir habendann das Mengenüberdeckungsproblem analysiert und mit Hilfe des gierigen Überdeckungs-algorithmus einen Zusammenhang zur Methode der größten 1-chromatischen Teilmatrixherstellen können: Diese Methode ist relativ leicht anwendbar und liefert, bis auf einenadditiven logarithmischen Term, exakte Voraussagen.Wir haben dann ein effizientes deterministisches Protokoll für eine Funktion f gebaut,wenn die Dreieckszahl der KommunikationsmatrixMf und die nichtdeterministische Kom-plexität von f nicht zu groß ist:

D(f) ≤ (dlog24(Mf )e+ 1) · (N(f) + 1).

Diese Beobachtung hat zahlreiche Anwendungen, nämlich

- Fehlerfreie nichtdeterministische und eindeutig nichtdeterministische Protokolle kön-nen höchstens quadratisch effizienter als deterministische Protokolle sein.

- Die Methode der größten monochroamtischen Teilmatrix ist eine, bis auf ein Quadratexakte Voraussage der deterministischen Kommunikationskomplexität.

Wir haben gesehen, dass Kommunikation als Flaschenhals in vielen Anwendungen auftritt.Die Anzahl von Nachrichten in einseitigen deterministischen Protokollen stimmt mit derminimalen Zustandszahl von deterministischen endlichen Automaten überein, wenn alleWorte der Sprache den Spielern (als Präfix bzw. Suffix) zugewiesen werden. Im Fall vonnichtdeterministischen oder probabilistischen Automaten ist das Kommunikationsmodellallerdings stärker und die Nachrichtenzahl ist nur noch eine untere Schranke, die aber invielen Fällen genau ist.Im Streaming-Data Modell haben wir die Speicherplatzkomplexität mit Hilfe der Kommu-nikation untersucht. Wir haben gesehen, dass selbst eine nur approximative und mit einem


kleinen Fehler behaftete Bestimmung des häufigsten Schlüssels eine zu große Speicherplatz-komplexität erfordert. Auch eine exakte Bestimmung der Anzahl verschiedener Schlüsselist selbst dann ausgeschlossen, wenn ein kleiner Fehler erlaubt ist: Dieses Ergebnis zeigt,dass die bekannten approximativen Algorithmen gerechtfertigt sind.Desweiteren haben wir die Kommunikation bei freier Eingabezerlegung auf das ProduktFläche · Zeit2 von VLSI-Chips angewandt. Wir haben untere Schranken für Funktionen(wie Sortieren, Multiplikation) erhalten, in dem ausgenutzt haben, dass erfolgreiche Be-rechnungen Daten in komplexer Weise verschieben müssen: Unsere Formalisierung führteauf transitive Untergruppen der Permutationsgruppen.Die Anwendung der Kommunikation auf die Tiefe von Entscheidungsbäumen war unmit-telbar, wenn die Entscheidungsfunktionen eine geringe Kommunikationskomplexität besit-zen. Im Fall von linearen Entscheidungsbäumen haben wir ausgenutzt, dass Threshold-Funktionen sehr große monochromatische Teilmatrizen besitzen.Schließlich haben wir das Kommunikationsspiel eingeführt, um die Tiefe von Schaltkreisenzu charakterisieren. Im Kommunikationsspiel ist ein Suchproblem zu lösen und die Spielermüssen sich auf eine Lösung einigen. Nur im Fall monotoner Schaltkreise hat man dasKommunikationsspiel erfolgreich analysieren können: Eine hypothetische effiziente Lösungdes Suchproblems für das Matching Problem haben wir benutzt, um ein effizientes pro-babilistisches Protokoll für das Disjunktheitsproblem anzugeben. Da ein solches Protokollnicht existieren kann, ist das Suchproblem ebenfalls nicht effizient lösbar und das MatchingProblem besitzt nur monotone Schaltkreise linearer Tiefe.

Teil III

Approximationskomplexität

203

205

Ein Optimierungsproblem P = (I, L, f) besteht aus

• einer Menge I von Instanzen,

• für jede Instanz x ∈ I aus einer Menge L(x) von Lösungen und

• einer Zielfunktion f , die nur nicht-negative reelle Zahlen annimmt.

Für ein Minimierungsproblem ist

optP(x) = minf(x, y) | y ∈ L(x)

der optimale Wert für Instanz x. Für ein Maximierungsproblem definiere optP(x) ent-sprechend. Ein Approximationsalgorithmus A für P bestimmt für jede Instanz x eineLösung A(x) ∈ L(x). Der Approximationsfaktor für Instanz x ist

rA(x) = min A(x)opt(x) ,

opt(x)A(x)

und der Approximationsfaktor für Instanzen der Länge n ist

rA(n) = minx, |x|=n

rA(x).

Wir nehmen also eine pessimistische Sichtweise ein, denn die „schlechteste Instanz“ be-stimmt den Approximationsfaktor. Beachte, dass stets rA(n) ≤ 1 gilt und dass A genaudann optimal ist, wenn rA(n) = 1.Wir betrachten jetzt Approximationsalgorithmen mit zusätzlicher Eingabe ε > 0 und set-zen

rεA(x) := minA(ε, x)opt(x) ,

opt(x)A(ε, x).

Wir sagen, dass A ein volles polynomielles Approximationsschema ist, wenn

• die Laufzeit von A(ε, x) polynomiell in |x|+ 1εist und

• rA(ε, x) ≥ 1− ε gilt.

A ist „nur“ ein polynomielles Approximationsschema, wenn

• die Laufzeit von A(ε, x) für jedes ε polynomiell in |x| ist und

• rA(ε, x) ≥ 1− ε gilt.

Eine für die Approximation sehr wichtige Komplexitätsklasse, neben den Klassen allerOptimierungsproblemen mit (vollen) Approximationsschemata), ist die Klasse APX:

APX besteht aus allen Optimierungsproblemen mit effizienten Approximationsalgo-rithmen A, so dass rA(x) ≥ δ für eine Konstante δ > 0 gilt.

206

Wie weit kann der Approximationsfaktor effizienter Algorithmen für ein vorgegebenes Op-timierungsproblem verbessert werden? Wann besitzt das Optimierungsproblem keine effi-zienten Approximationsalgorithmen mit scharfen Approximationen?Erstaunlicherweise sind die schwierigsten Entscheidungsprobleme, die NP-vollständigen Pro-bleme, alle äquivalent. Während die Entscheidungsprobleme alle gleich schwer sind, zeigenihre Optimierungsvarianten große Individualität. Schauen wir uns einige Beispiele an. (optbezeichnet stets den optimalen Wert.)

(∗) RUCKSACK

– Ein Rucksack mit Kapazität K sowie n Objekte sind gegeben. Objekt i besitztdas Gewicht gi und den Wert wi.

– Bepacke den Rucksack mit einer Auswahl aus den n Objekten, so dass dasGewicht der eingepackten Objekte die Kapazität K nicht übersteigt und der„eingepackte Wert“ größtmöglich ist.

RUCKSACK besitzt ein volles polynomielles Approximationsschema: Für eine vorge-gebene Genauigkeit ε kann eine Bepackung in Zeit poly(n, 1

ε) gefunden werden. Der

Wert der gefundenen Bepackung ist mindestens (1− ε)opt.

(∗) BIN PACKING

– n Objekte mit den Gewichten 0 ≤ g1, . . . , gn ≤ 1 sind gegeben.– Verteile die Objekte auf eine möglichst geringe Anzahl von Behältern, so dass

jeder Behälter nur Objekte mit Gesamtgewicht höchstens 1 erhält.

BIN PACKING besitzt kein volles polynomielles Approximationsschema, wohl aberein polynomielles Approximationsschema: Für jede vorgegebene Genauigkeit ε kanneine Verteilung mit höchstens (1 + ε)opt Behältern in Zeit poly(n) gefunden werden.

(∗) VERTEX COVER

– Ein ungerichteter Graph G = (V,E) ist gegeben.– Bestimme eine Knotenmenge W ⊆ V kleinster Größe, so dass jede Kante in E

mindestens einen Endpunkt in der MengeW besitzt. Wir sagen, dass die MengeW überdeckt.

Wir zeigen später, dass VERTEX COVER kein polynomielles Approximationsschemabesitzt, wenn P 6= NP. VERTEX COVER hat aber einen Approximationsalgorithmus,der eine überdeckende Knotenmenge der Größe höchstens 2 · opt bestimmt:

Beginne mit der leeren Menge W und füge beide Endpunkte einer beliebigenKante zu W hinzu. Entferne alle Kanten, die einen Endpunkt in der Menge Wbesitzen. Wiederhole dieses Vorgehen solange bis alle Kanten entfernt wurden.

VERTEX COVER gehört deshalb zu APX.

207

(∗) MAX-SAT

– Gegeben ist eine Menge K von Klauseln und Gewichten wk ≥ 0 für jede Klausel.– Bestimme eine Belegung, die Klauseln mit maximalem Gesamtgewicht erfüllt.

MAX-SAT gehört wie VERTEX COVER zu APX: Eine zufällig ausgewürfelte Be-legung wird im Mittel mindestens die Hälfte des gesamten Klauselgewichts erfüllen.Wir zeigen später, dass polynomielle Approximationsschemata nicht existieren, wennP 6= NP.

(∗) SET COVER

– Gegeben ist ein Universum U = 1, . . . ,m und Teilmengen T1, . . . , Tn ⊆ U mit⋃i Ti = U .

– Wähle möglichst wenige Teilmengen aus, die weiterhin U überdecken.

Wir zeigen später, dass SET COVER nicht zu APX gehört und sogar, dass für jedesε > 0 Überdeckungen mit höchstens (1 − ε) · ln(m)opt Teilmengen nicht effizientbestimmt werden können. Andererseits kann man zeigen, dass der gierige Überde-ckungsalgorithmus, der stets die Teilmenge wählt, die die meisten noch nicht über-deckten Elemente überdeckt, höchstens (1 + ln(m)) · opt Mengen auswählt.

(∗) CLIQUE

– Ein ungerichteter Graph G = (V,E) ist gegeben.– Bestimme eine Knotenmenge W ⊆ V maximaler Größe, so dass je zwei Knoten

in W durch eine Kante miteinander verbunden sind.

Es kann gezeigt werden, dass CLIQUE für keine Konstante ε > 0 effiziente Approxi-mationsalgorithmen besitzt, die eine Clique der Größe mindestens opt

n1−ε berechnen.

(∗) TSP (das Traveling Salesman Problem)

– Gegeben sind Distanzen di,j ≥ 0 zwischen den Knoten i und j.– Bestimme einen Kreis minimaler Länge, der alle Knoten besucht. Die Matrix d

kann beliebig gewählt werden, insbesondere müssen die Distanzen keine Drei-ecksungleichung erfüllen.

TSP ist ein „wirklich schwieriges“ Optimierungsproblem genauso wie die 0-1 PRO-GRAMMIERUNG

minimieren∑i=1

cixi so dassn∑i=1

Ai,jxi ≥ bi für j = 1, . . . ,m und x1, . . . , xn ∈ 0, 1.

208

Für MAX-SAT, VERTEX COVER, SET COVER und CLIQUE war die Approximations-komplexität für lange Zeit unbekannt. Mittlerweile lässt sich die Approximationskomple-xität dieser Probleme zumindest angenähert mit Hilfe des PCP-Theorems bestimmen.Der Aspekt der Optimierung zerschlägt somit die schöne Struktur, die wir von der Klasse NPgewöhnt sind: Während die NP-vollständigen Sprachen paarweise „äquivalent“ sind, besizenOptimierungsprobleme verschiedenste Härtegrade. Wie können wir negative Resultate überdie effiziente Approximierbarkeit eines Optimierungsproblems P erhalten? Wir weisen dazuP ein „Promise-Problem“ zu.

Definition 7.19 Sei P ein Optimierungsproblem und optP(x) sei der optimale Wert fürInstanz x. Für Funktionen f, g : Σ∗ → R mit f(x) < g(x) für alle x ∈ Σ∗ definieren wir

YESP = x | optP(x) ≥ g(x)NOP = x | optP(x) < f(x).

Wir sagen, dass ein Algorithmus A

das Promise Problem [f, g]-gap-P löst,

wenn A für jedes x ∈ YESP die Ausgabe “ja” und für jede Instanz x ∈ NOP die Ausgabe“nein” ausgibt.

Beachte, dass YESP und NOP disjunkte Mengen sind. Von keiner der beiden Mengenerfasst wird die „Lücke“, also alle Instanzen x mit

f(x) ≤ optP(x) < g(x).

Wenn wir einem Algorithmus „versprechen“, dass eine Instanz nicht in diesen Graubereichfällt, dann löst dieser Algorithmus das Problem [f, g]-gap-P genau dann, wenn die richtigeZuordnung zu den Mengen YESP und NOP bestimmt wird.

Definition 7.20 Sei P ein Maximierungsproblem. Dann ist [f, g]-gap-P ein NP-hartesProblem, wenn es für jede Sprache L ∈ NP eine effizient berechenbare TransformationT gibt, die für jede Eingabe w von L eine Instanz T (w) des Optimierungsproblems P be-stimmt. Es muss gelten

- Für w ∈ L ist T (w) ∈ YESP (also optP(T (w)) ≥ g(T (w))) und

- für w /∈ L ist T (w) ∈ NOP (also optP(T (w)) < f(T (w))).

Ist P ein Minimierungsproblem, dann müssen Eingaben w ∈ L auf Instanzen aus NOPund Eingaben w 6∈ L auf Instanzen aus YESP reduziert werden.

Was besagt die NP-Härte von [f, g]-gap-P? Jede Sprache L ∈ NP kann durch eine „lückenschaffendeReduktion“ auf das Optimierungsproblem P reduziert werden.

209

Aufgabe 94Angenommen, es ist P 6= NP.Zeige: Wenn [f, g]-gap-P ein NP-hartes Problem ist, dann kann [f, g]-gap-P nicht von effi-zienten Algorithmen gelöst werden.

Satz 7.21 Sei P ein Maximierungsproblem. Wir nehmen an, dass die Funktion f in poly-nomieller Zeit berechnet werden kann. Wenn [f, g]-gap-P ein NP-hartes Problem ist, dannbesitzt P keine effizienten Approximationsalgorithmen mit Faktor höchstens g(x)

f(x) , solangeP 6= NP gilt.

Beweis: Wir nehmen an, dass P ein Maxinmierungsproblem ist und dass der effizienteApproximationsalgorithmus A mit Faktor höchstens g(x)/f(x) approximiert. Wir zeigenjetzt im Gegensatz zur Annahme, dass [f, g]-gap-P doch effizient gelöst werden kann. Hierist unsere effiziente Lösung:

(1) Wende A auf Instanz x an.

(2) Wenn die von A berechnete Lösung einen Funktionswert von mindestens f(x) hat,dann gib “ja” und ansonsten “nein” aus.

Angenommen, wir geben die Antwort “ja”. Dann wissen wir, dass optP(x) ≥ f(x) undunsere Antwort ist richtig. Geben wir andererseits die Antwort “nein”, dann ist

optP(x) < g(x)f(x) · f(x) = g(x).

Also ist auch diesmal die Antwort richtig.

Satz 7.21 reduziert die Frage nach der effizienten Approximierbarkeit eines Optimierungs-problems P auf die Frage, für welche Funktionen das Gap-Problem [f, g]-gap-P ein NP-hartes Problem ist. Angenommen wir wissen, dass das Gap-Problem für P hart ist, wiezeigt man die Härte des Gap-Problems für ein anderes Optimierungsproblem?

Definition 7.21 P1 und P2 seien zwei Optimierungsprobleme.Wir sagen, dass [f1, g1]-gap-P1 lückenerhaltend auf [f2, g2]-gap-P2 reduziert werden kann,wenn es eine effizient berechenbare Transformation T gibt, so dass für alle Instanzen x vonP1 gilt:

- Wenn optP1(x) ≥ g1(x), dann optP2

(T (x)) ≥ g2(T (x)).

- Wenn optP1(x) < f1(x), dann optP2

(T (x)) < f2(T (x)).

Warum betrachten wir lückenerhaltende Reduktionen?

Lemma 7.16 Es gelte P 6= NP.Wenn [f1, g1]-gap-P1 lückenerhaltend auf [f2, g2]-gap-P2 reduziert werden kann und wenn[f1, g1]-gap-P1 ein NP-hartes Problem ist, dann

210

(a) ist [f2, g2]-gap-P1 ein NP-hartes Problem und

(b) es gibt keine effizienten α(n)-approximativen Algorithmen, wenn α(|x|) ≤ g2(x)f2(x) für

alle x gilt.

Mit einem ersten NP-harten Gap-Problem können wir also eine Lawine weiterer Nicht-Approximierbarkeitsergebnisse auslösen. Wie aber erhalten wir ein erstes NP-hartes Gap-Problem? Die Komplexität eines Gap-Problems ist schwierig zu analysieren, da wir keineKlassifizierung „in der Lücke“ verlangen, das Klassifizierungsproblem könnte durch dieHerausnahme der Lücke zwischen f(x) und g(x) potentiell sehr viel einfacher gewordensein.Wir werden mit der Methode „probabilistisch überprüfbarer Beweise“ eine gänzlich neueSichtweise der Klasse NP einführen: Statt NP als die Klasse aller Probleme mit höchstenspolynomiell langen Beweisen aufzufassen, werden wir zeigen, dass NP die Klasse aller Pro-bleme mit nicht zu lange Beweise ist, wobei eine probabilistisch gesteuerte Inspektion nurweniger Bits ausreicht, um sich von der Richtigkeit des Beweises zu überzeugen.

Aufgabe 95Konstruiere eine lückenerhaltende Reduktion von VERTEX COVER auf SET COVER.

Aufgabe 96Der ungerichtete Graph G = (V,E) sei vorgegeben. Eine Knotenmenge W ⊆ V heißtdominierend, wenn jeder Knoten in V \ W mit einem Knoten in W benachbart ist. InDOMINATING SET ist eine domierende Knotenmenge kleinster Größe zu bestimmen.Wir betrachten lückenbewahrende Reduktionen zwischen DOMINATING SET und demungewichteten SET COVER Problem.

(a) Konstruiere eine lückenerhaltende Reduktion von Dominating Set auf SET COVER.

(b) Sei |V | = n. Konstruiere einen effizienten, O(log n)-approximativen Algorithmus fürDominating Set.

(c) Konstruiere eine lückenerhaltende Reduktion von Set Cover auf Dominating Set.Hinweis: Konstruiere eine Instanz von Dominating Set, so dass die Knotenmenge ausdrei Klassen besteht. Die Knoten der ersten Klasse entsprechen den Elementen desUniversums und die Knoten der zweiten Klasse entsprechen den Mengen von SetCover. Die Knoten der dritten Klasse sind sorgfältig zu bestimmen.

Kapitel 8

Probabilistisch überprüfbare Beweise

Ein NP-Beweis besteht aus einem Beweis b ∈ 0, 1∗ für eine Eingabe w ∈ 0, 1∗. DieserBeweis ist in polynomieller Zeit in der Länge der Eingabe (nichtdeterministisch) zu ratenund anschließend (deterministisch) zu verifizieren. Wir können diesen Prozess durch einSpiel modellieren, an dem ein Prover und ein Verifier teilnimmt: Der Prover präsentierteinen (möglicherweise falschen) Beweis, der vom Verifier in polynomieller Zeit determi-nistisch zu verifizieren ist. Wir betrachten jetzt ein ähnliches Spiel, aber erlauben, dassder Verifier Zugang zu Zufallsbits erhält und eine nur hochwahrscheinlich richtige Antwortgeben muss.

Definition 8.1 r, q : N→ N seien vorgegebene Funktionen.(a) Ein (r, q)-Verifier V ist ein deterministischer Algorithmus, der auf eine Eingabe w undr(|w|) Zufallsbits zugreifen kann. V erhält auch die Möglichkeit auf bis zu q(|w|) Beweisbitszuzugreifen.

Für eine Eingabe w und eine Zufallsfolge σ berechnet V eine Folge von höchstensq(|w|) Bitpositionen und erfragt die Beweisbits an diesen Positionen vom Prover.Die nachfolgende Rechnung hängt nur von w, σ und den erhaltenen Beweisbits ab.Insgesamt muss V in polynomieller Zeit in n rechnen.

(b) Wir sagen, dass eine Sprache L zur Komplexitätsklasse PCP(r, q) gehört, wenn es einen(r, q)-Verifier V und eine Konstante α (0 < α < 1) mit den folgenden Eigenschaften gibt:

(a) Vollständigkeit: Wenn die Eingabe w zur Sprache L gehört, dann gibt es einen Beweisb, so daß V stets akzeptiert, wenn b auf dem Orakelband gespeichert ist.Wir sagen auch, dass V die Vollständigkeit 1 besitzt.

(b) Soundness: Wenn die Eingabe w nicht zur Sprache L gehört, dann wird V für jedenBeweis b mit Wahrscheinlichkeit höchstens α akzeptieren.Wir sagen auch, dass V die Soundness α besitzt.

Kommentar: Wir fordern also, dass der Beweis lokal überprüfbar ist.

211

212 KAPITEL 8. PROBABILISTISCH ÜBERPRÜFBARE BEWEISE

In der mathematischen Logik bezeichnet man die Eigenschaft, dass alle wahren Aussagenableitbar sind, als „Vollständigkeit“ und die Eigenschaft, dass keine falschen Aussagenableitbar sind, als „Soundness“.

Aufgabe 97Betrachte eine erweiterte Definition, bei der ein (adaptiver) Verifier seine Fragen nachein-ander stellt, und so die i-te Frage von der Antwort auf die (i−1).te Frage abhängen lassendarf. PCP∗(r, q) sei wie zuvor, jetzt aber mit adaptivem Verifier definiert.Zeige: PCP(O(r), O(q)) = PCP∗(O(r), O(q)).

Aufgabe 98NTIME(t(n)) sei die Klasse aller Sprachen, die von einer nichtdeterministischen Turingma-schine in Zeit O(t) akzeptiert werden. Zeige, dass PCP(r, q) ⊆ NTIME(q · 2r · poly(n)) gilt.

Aufgabe 99Angenommen, die Sprache L ∈ NP besitzt einen (r, q)-Verifier V mit Soundness α < 1.Zeige, dass es dann einen (c · r, c · q)-Verifier Vc mit Soundness αc gibt.

Wie verhalten sich die PCP-Klassen zum „Rest der Welt“? Wenn wir weder Zufallsbits nochBeweisbits zulassen, dann erhalten wir offensichtlich deterministische Berechnungen undsomit ist PCP(0, 0) = P. Lassen wir polynomiell viele Zufallsbits, aber keine Beweisbits,zu, dann erhalten wir effiziente probabilistische Berechnungen, die für Worte der Sprachenkeinen Fehler machen. Erlauben wir jetzt neben polynomiell vielen Zufallsbits noch kon-stant viele Beweisbits, dann explodiert die Berechnungskraft, und wir erhalten die Klassealler Sprachen, die mit nichtdeterministischen Algorithmen in exponentieller Zeit erkanntwerden können.1

Beispiel 8.1 Die Nicht-Isomorphie2 von Graphen gehört zur Klasse PCP(poly(n), 1): Wirmöchten also überprüfen, ob zwei Graphen G1, G2 nicht-isomorph sind und fordern dazupolynomiell viele Zufallsbits und ein Beweisbit an.V wählt zufällig einen der beiden Graphen, also den Graphen Gb, aus und permutiert Gb

mit einer zufälligen Permutation π um den Graphen H zu erhalten. Der Verifier erwarteteinen Beweis, der für Anfrage H (bzw in der H entsprechenden Position des Beweises)das Beweisbit b besitzt. Erhält V die Antwort b, dann wird der Beweis akzeptiert und sonstverworfen.Wenn tatsächlich G1 6≡ G2 gilt, dann gibt es einen Beweis, den V mit Wahrscheinlichkeit 1akzeptiert. Ist hingegen G1 ≡ G2 dann wird V nur mit Wahrscheinlichkeit 1/2 akzeptieren.

Gehen wir zu dem anderen Extrem und lassen polynomiell viele Beweisbits, aber keineZufallsbits zu, dann ergibt sich offensichtlich die Klasse PCP(0, poly(n)) = NP.

1Den komplexen Beweis dieser Aussage lassen wir aus.2Die Komplexität des Nicht-Isomorphie Problems für Graphen ist bis heute ungeklärt. Man weiss, dass

Nicht-Isomorphie von Graphen mit beschränktem Grad effizient überprüft werden kann.

213

Beachte, dass wir einen (O(log2 n), poly(n))-Verifier V durch einen deterministischen Ve-rifier V ∗ simulieren können, wobei V ∗ alle Zufallsfolgen σ systematisch aufzählt. Deshalbfolgt insbesondere PCP(O(log2 n), poly(n)) = PCP(0, poly(n)) = NP. Offensichtlich müssenfür NP-vollständige Sprachen mindestens konstant viele Beweisbits inspiziert werden. Istdies auch hinreichend, wenn wir auf logarithmisch viele Zufallsbits zugreifen können?

Satz 8.1 Das PCP-TheoremEs gilt PCP(O(log2 n), O(1)) = NP.

Aufgabe 100Folgere aus dem PCP Theorem: Es gibt eine KonstanteK, so dass NP ⊆ PCP(O(log2 n), K).Es gibt also eine ZahlK, so dass es für jede Sprache L ∈ NP einen Verifier gibt, der höchstensK Beweisbits nachfragt.

Einen ersten Schritt im Beweis des PCP-Theorems führen wir in Kapitel 10. Dort zeigen wirdie Inklusion NP ⊆ PCP(poly(n), O(1)). Die umgekehrte Beziehung PCP(O(log2 n), O(1)) ⊆NP ist offensichtlich, denn es ist

PCP(O(log2 n), O(1)) ⊆ PCP(O(log2 n), poly(n)) = NP.

Die ungemein überraschende Aussage von Satz 8.1 ist vielmehr die Inklusion

NP ⊆ PCP(O(log2 n), O(1)).

Zum Beispiel garantiert das PCP-Theorem, dass es für eine erfüllbare 3KNF Formel φeinen polynomiell langen Beweis der Erfüllbarkeit gibt, so dass die Inspektion von konstantvielen Beweisbits bereits hinreichend überzeugend ist. Ein konventioneller Beweis, der zumBeispiel aus einer erfüllenden Belegung besteht, ist unzureichend: Bestenfalls kann dieRichtigkeit von konstant vielen Klauseln überprüft werden, aber dies wird im Allgemeinennicht zum Verwerfen nicht-erfüllbarer Formeln mit Wahrscheinlichkeit mindestens 1

2 führen.Wenn wir allerdings a priori wissen, dass entweder alle Klauseln simultan erfüllbar sindoder dass nur ein relativ kleiner Bruchteil erfüllbar ist, dann genügt es, einige wenige,zufällig gewählte Klauseln auf ihre Richtigkeit hin zu überprüfen. Natürlich ist diese apriori Annahme nicht zulässig, aber möglicherweise lassen sich Sprachen aus NP auf dieseArt und Weise „robust“ kodieren....In der New York Times wurde das PCP-Theorem dahin gehend interpretiert, dass mathe-matische Beweise umgeschrieben werden können –ohne ihre Länge mehr als poynomiell zuvergrößern–, so dass ein probabilistisch arbeitender Leser nach der Abfrage nur wenigerBeweisbits die Richtigkeit des Beweises überprüfen kann. Diese Interpretation ist für solcheAxiomensysteme richtig für die die Sprache

(α, 1n) | Die Aussage α besitzt einen Beweis der Länge höchstens n

zur Klasse NP gehört, denn das PCP-Theorem garantiert dann die schnelle probabilistischeVerifikation. Leider wird das PCP-Theorem aber nicht den Vorlesungsbetrieb revolutionie-ren, da ein Beweis natürlich nicht nur die Funktion der Verifizierbarkeit, sondern vorrangigdie Funktion der Erklärung haben muss.


8.1 PCP und ApproximierbarkeitWarum ist das PCP-Theorem von zentraler Bedeutung für die Approximation?

Satz 8.2 Die beiden folgenden Aussagen sind äquivalent:

(a) Für eine KNF-Formel x sei g(x) die Anzahl der Klauseln von x. Dann gibt es eineKonstante 0 < α < 1, so dass [α · g, g]-gap-MAX-3SAT ein NP-hartes Problem ist.Kommentar: Wir haben damit für jede Sprache L ∈ NP eine lückenschaffende Reduk-tion von L auf MAX-3SAT erhalten.

(b) PCP(O(log2 n), O(1)) = NP.

In MAX-3SAT beschränken wir uns auf Klauseln mit höchstens drei Literalen pro Klausel.Wir haben damit ein erstes Zwischenziel, nämlich die Bestimmung der Approximations-komplexität von MAX-3SAT und damit von MAX-SAT erreicht. Warum? Mit dem PCP-Theorem wissen wir, dass PCP(O(log2 n), O(1)) = NP gilt. Deshalb können wir schließen,dass [α · g, g]-gap-MAX-3SAT ein NP-hartes Problem ist. Wir wenden Satz 7.21 an underhalten, dass es keine effizienten 1/α-approximativen Algorithmen für MAX-3SAT gibt,solange P 6= NP gilt.

Korollar 8.1 Es gelte P 6= NP. Dann gibt es eine Konstante β > 1, so dass MAX-3SATkeine effizienten β-approximativen Algorithmen besitzt. Insbesondere besitzt MAX-3SATkein polynomielles Approximationsschema.

Beweis von Satz 8.2 (a) ⇒ (b): Sei L ∈ NP eine beliebige Sprache. Wir können an-nehmen, dass [α · g, g]-gap-MAX-3SAT ein NP-hartes Problem ist, wobei g die Anzahl derKlauseln angibt. Also gibt es eine effizient berechenbare Transformation T , so dass fürEingaben w ∈ L alle Klauseln der Formel T (w) erfüllbar sind, während weniger als derProzentsatz α aller Klauseln für w 6∈ L erfüllbar ist.Wir konstruieren einen Verifier V für L, der logarithmisch viele Zufallsbits anfordert unddrei Beweisbits nachfragt. Für eine Eingabe w für L nimmt V an, dass der Beweis auseiner erfüllenden Belegung für T (w) besteht. V wählt eine Klausel k von T (w) mit Hilfeder logarithmisch vielen Zufallsbits aus, fragt die Wahrheitswerte der drei Variablen von kab und akzeptiert genau dann, wenn k erfüllt wird.Wenn w ∈ L, dann ist T (w) erfüllbar und V akzeptiert den aus der erfüllenden Belegungbestehenden Beweis mit Wahrscheinlichkeit 1. Ist w 6∈ L, dann ist weniger als der Bruch-teil α aller Klauseln erfüllbar und V führt, für jeden „Beweis“, einen positiven Klauseltestmit Wahrscheinlichkeit höchstens α durch. Also akzeptiert V fälschlicherweise mit Wahr-scheinlichkeit höchstens α. Fazit: V ist ein ( O(log2 n), O(1) )-Verifier, und dies war zuzeigen.(b) ⇒ (a): Wir können das PCP-Theorem annehmen und müssen zeigen, dass wir jedeSprache L ∈ NP lückenschaffend auf [α · g, g]-gap-MAX-3SAT für ein passendes α < 1reduzieren können.

8.1. PCP UND APPROXIMIERBARKEIT 215

Da L ∈ NP, folgt L ∈ PCP(O(log n), O(1)) aus dem PCP-Theorem. Sei V ein Verifier, der Lmit O(log2 n) Zufallsbits und k = O(1) inspizierten Beweisbits akzeptiert. Für eine Eingabew ∈ 0, 1n inspiziert V also k viele Bits eines unbekannten Beweises b = b1b2 · · · bnd , wobeidie Wahl der inspizierten Bitpositionen nur von

- der Folge σ ∈ 0, 1O(logn) der Zufallsbits und

- der Eingabe wabhängt. Wir fixieren σ. Dann können wir mit einer DNF-Formel Dw,σ(x1, . . . , xnd) mithöchstens k Literalen pro Monom festhalten, für welche Werte der Beweisbits der Verifierverwirft. Mit anderen Worten, die k-KNF Formel ¬Dw,σ(x) beschreibt, wann V akzeptiert.Beachte, dass die Konstruktion von ¬Dw,σ(x) in polynomieller Zeit gelingt, da V nur für diehöchstens 2k = O(1) vielen Kombinationen der Beweisbits zu simulieren ist. Wir definierendie k-KNF Formel

K∗w =∧σ

¬Dw,σ(x)

und beachten, dass auch K∗w in polynomieller Zeit konstruierbar ist, da K∗w eine Konjunk-tion von höchstens

2O(logn) = poly(n)Einzelformeln ¬Dw,σ ist. Damit sind wir fast fertig, denn:

- Für w ∈ L erfüllt b als Wahrheitsbelegung interpretiert jede Klausel von K∗w.

- Für w /∈ L wird jeder Beweis mit Wahrscheinlichkeit höchstens α akzeptiert unddamit wird jede Wahrheitsbelegung höchstens den Bruchteil α aller Klauseln erfüllen.

Sei kσ die Anzahl der Klauseln von ¬Dw,σ(x) und r die Anzahl der verschiedenen Zufallss-trings σ. Dann wird für w /∈ L höchstens der Anteil∑

σ kσ − (1− α) · r∑σ kσ

= 1− (1− α) · r∑σ kσ

≤ 1− (1− α) · rr · 2k = 1− 1− α

2k+1 =: α′

aller Klauseln erfüllt. Allerdings müssen wir noch die k-Sat Formel in eine 3-Sat Formelübersetzen. Dazu führen wir neue Variablen yi ein, und verwenden die Transformation

x1 ∨ x2 ∨ · · · ∨ xm ⇔ (x1 ∨ x2 ∨ y3) ∧ (¬y3 ∨ x3 ∨ y4) ∧ · · · ∧ (¬ym−1 ∨ xm−1 ∨ xm)

Wie sieht der neue Wert von α′ aus?

Aufgabe 101Zeige, dass

PCP(0, log(n)) = P

gilt.Hinweis: Stellt euch vor, ihr sollt ein Vokabelabfrageprogramm schreiben, welches jeweilsk von n Vokabeln abfragt. Beantwortet der Schüler alle k Fragen richtig, wird unterstellt,er habe alle Vokabeln gekonnt. Wie gut kann euer Programm sein, wenn euch kein Zufallzur Verfügung steht?


8.2 VERTEX COVER und CLIQUEWir wissen mit Satz 8.2, dass [αg, g]-gap-MAX-3SAT ein NP-hartes Problem ist, wenn g(x)die Anzahl der Klauseln von x und α eine Konstante mit 0 < α < 1 ist. Können wirjetzt die versprochene Lawine auslösen? In der folgenden Aufgabe wird gezeigt, dass auchMAX-2SAT ein NP-hartes Gap-Problem besitzt.

Aufgabe 102

(a) Sei K = (x1∨x2∨x3) eine Klausel.Konstruiere eine 2-KNF Formel φK(x1, x2, x3, y)mit einer neuen Variable y, so dass folgendes gilt. Für eine Belegung α ∈ 0, 13 derVariablen x1, x2, x3 und eine Belegung b ∈ 0, 1 von y sei

#φK(α, b) = die Anzahl der von der Belegung (α, b) erfüllten Klauseln in φK .

Dann gibt es eine Konstante D ≥ 1, so dass

1. Für alle Belegungen (α, b) gilt #φK(α, b) ≤ D.

2. Für jede Belegung α gilt:∗ Falls K(α) = 1, dann gibt es eine Belegung b, so dass #φK(α, b) = D ist.∗ Falls K(α) = 0, dann #φK(α, b) ≤ D − 1 für beide Belegungen b ∈ 0, 1

von y und es gibt eine Belegung b mit #φK(α, b) = D − 1.

Die kürzeste uns bekannte Lösung φK besteht aus 10 Klauseln (vier Klauseln derLänge 1 und sechs Klauseln der Länge 2) und die ensprechende Konstante ist D = 7.

(b) Für eine KNF-Formel x sei g(x) die Anzahl der Klauseln von x. Konstruiere fürjedes α < 1 eine lückenerhaltende Reduktion von [α · g, g]-gap-MAX-3SAT auf [α′ ·g, g]-gap-MAX-2SAT für eine geeignet zu wählende Konstante α′ < 1.

Fazit: MAX-2SAT besitzt keine effizienten Algorithmen mit beliebig kleinen Appro-ximationsfaktoren. Dieses Resultat ist überraschend, denn das Entscheidungsproblem2-SAT liegt in P.

Unser Ziel ist ambitioniert: Wir möchten zeigen, dass INDEPENDENT SET3 bereits fürGraphen von kleinem Grad nicht effizient mit beliebig kleinen Faktoren approximiert wer-den kann. Für allgemeine Graphen mit n Knoten möchten wir dieses Schwierigkeitsergebnisamplifizieren und zeigen, dass sogar effiziente nε-approximative Algorithmen ausgeschlos-sen sind!

3In INDEPENDENT SET ist eine möglichst große Knotenmenge W zu konstruieren, so dass keine zweiKnoten von W durch eine Kante verbunden sind.

8.2. VERTEX COVER UND CLIQUE 217

Unser erstes Ziel ist der Nachweis, dass INDEPENDENT SET für Graphen von kleinemGrad schwierig zu approximieren ist. Als ein Zwischenziel betrachten wir deshalb MAX-3SATB für eine Konstante B: Für eine gegebene 3KNF Formel, deren Variablen in höchs-tens B Klauseln vorkommen, sind möglichst viele Klauseln zu erfüllen. Wir zeigen, dassMAX-3SAT5 ein NP-hartes Gap-Problem besitzt.

Lemma 8.1 Für eine KNF-Formel x sei g(x) die Anzahl der Klauseln von x. Dann gibtes eine Konstante B, so dass [αg, g]-gap-MAX-3SATB ein NP-hartes Problem für einegeeignete Konstante α < 1 ist.

Beweis:Wir nutzen aus, dass MAX-3SAT ein NP-hartes Gap-Problem besitzt und konstru-ieren eine lückenerhaltende Reduktion von MAX-3SAT auf MAX-3SATB für eine geeigneteKonstante B.Sei φ eine 3KNF-Formel mit den n Variablen x1, . . . , xn und m Klauseln. Die ite Variablekomme mi-mal in den Klauseln von φ vor. Wir setzen

N =∑i

mi

und erhalten N ≤ 3 ·m, denn φ ist eine 3KNF-Formel.Wir weisen φ eine 3KNF Formel ψ zu. Für eine geeignete natürliche Zahl B wird ψ dieEigenschaft besitzen, dass keine Variable mehr als B-mal auftritt. Hierzu ersetzen wir dasjte Vorkommen der Variablen xi durch die neue Variable xi,j.Jetzt müssen wir allerdings Sorge tragen, dass die Variablen xi,1, . . . , xi,mi in optimalenWahrheitsbelegungen auch den gleichen Wahrheitswert erhalten. Deshalb werden in ψ fürjedes i neue Klauseln eingeführt.

Fakt 8.1 Es gibt eine natürliche Zahl B, so dass für jede natürliche Zahl m ungerichteteGraphen Gm = (Vm, Em) in Zeit poly(m) konstruiert werden können. Die Graphen Gm

besitzen die folgenden Eigenschaften:

• |Vm| = m.

• Jeder Knoten besitzt genau B Nachbarn.

• Die Expansionseigenschaft gilt: Für jede Knotenmenge W ⊆ Vm gibt es mindestens1+min|W |, |Vm−W | Kanten, die einen Knoten inW mit einem Knoten aus Vm−Wverbinden.

Wir interpretieren die Knoten vonGmi als Repräsentanten der neuen Variablen xi,1, . . . , xi,mi .Für jede Kante r, s in Gmi fügen wir jetzt die beiden Klauseln xi,r ∨¬xi,s und ¬xi,r ∨xi,sals neue Klauseln zu ψ hinzu. Die Formel ψ besteht also insgesamt aus B ·∑imi = B ·Nneuen Klauseln und m modifizierten alten Klauseln. Die Expansions-Eigenschaft der Gra-phen Gm zahlt sich jetzt aus:

Behauptung 8.1 Jede Wahrheitsbelegung, die eine größtmögliche Anzahl von Klauselnvon ψ erfüllt, erfüllt alle neuen Klauseln.


Beweis der Behauptung: Angenommen, eine Wahrheitsbelegung weist den Variablenxi,1,.., xi,mi unterschiedliche Wahrheitswerte zu. Wir definieren W = j | xi,j = 0 unddementsprechend ist Vmi \W = j | xi,j = 1. Die Menge W habe, ohne Beschränkungder Allgemeinheit, höchstens mi

2 Elemente. Dann garantiert der Fakt, dass Gmi mindestens1 + |W | Kanten mit einem Endpunkt in W und einem Endpunkt in Vmi \W besitzt.Wir flippen den Wahrheitswert der Variablen inW und erfüllen deshalb möglicherweise |W |alte Klauseln nicht mehr. Im Gegenzug haben wir aber mindestens 1 + |W | neue Klauselnerfüllen können.

Offensichtlich ist φ genau dann erfüllbar, wenn ψ erfüllbar ist. Wenn andererseits wenigerals α ·m Klauseln von φ simultan erfüllbar sind, dann sind höchstens α ·m+B ·N Klauselnvon ψ simultan erfüllbar. Es ist aber N ≤ 3m und deshalb sind in diesem Fall mehr als

(1−α) ·m = (1− α) ·mm+B ·N

·(m+B ·N) ≥ (1− α) ·mm+ 3 ·B ·m ·(m+B ·N) = 1− α

1 + 3 ·B ·(m+B ·N)

Klauseln nicht erfüllt worden.

Aufgabe 103Zeige, dass Lemma 8.1 bereits für B = 5 gilt.Hinweis: Benutze das Ergebnis von Lemma 8.1. Dann bleibt die Aufgabe, eine Formel mitbis zu B-maligem Vorkommen ihrer Variablen in eine Formel mit höchstens 5-maligemVorkommen ihrer Variablen zu transformieren.Führe wiederum neue Variablen für solche Variablen ein, die zu häufig vorkommen. Dawir jetzt davon ausgehen, dass Variablen maximal B mal vorkommen, können wir miteinfacheren Graphen –im Vergleich zur Konstruktion mit Hilfe von Fakt 8.1– “erzwingen”,dass Kopien den gleichen Wahrheitswert annehmen.

Wir zeigen als nächstes, dass INDEPENDENT SET selbst für Graphen von beschränktemGrad schwierig zu approximieren ist. Dazu reduzieren wir MAX-3SATB lückenerhaltendauf INDEPENDENT SETB+1. (INDEPENDENT SETB ist die Einschränkung von INDE-PENDENT SET auf Graphen mit höchstens B Nachbarn pro Knoten.)

Lemma 8.2 Sei B ∈ N vorgegeben. Dann gibt es eine effizient berechenbare Transforma-tion

φ 7→ Gφ

einer 3-KNF Formel φ (mit höchstens B Vorkommen einer Variablen) auf einen ungerich-teten Graphen Gφ vom Grad höchstens B + 1, so dass

die maximale Größe einer unabhängigen Menge in Gφ übereinstimmt mit der maxi-malen Anzahl simultan erfüllbarer Klauseln von φ.

Beweis: Sei φ eine 3KNF-Formel, so dass jede Variable in höchstens B Klauseln auftritt.Wir konstruieren einen ungerichteten Graphen Gφ aus φ, indem wir für jede Klausel eineGruppe von 3 Knoten (mit einem Knoten pro Literal) anlegen. Wir setzen Kanten wiefolgt ein:


- Je zwei Knoten einer Gruppe werden verbunden.

- Knoten verschiedener Gruppen werden genau dann verbunden, wenn die beiden Kno-ten einem Literal und seiner Negation entsprechen.

x

¬x

¬y

yK = x,¬x ∨ ¬y, y =⇒

Abbildung 8.1: Die Konstruktion des Graphen Gφ

Offenbar ist jeder Knoten von Gφ mit höchstens B − 1 „negierten Knoten“ aus anderenKlauseln und mit maximal zwei Knoten aus der Klausel verbunden. Folglich besitzt jederKnoten in Gφ höchstens B + 1 Nachbarn.Sei U eine unabhängige Knotenmenge in Gφ. Dann besitzt U offensichtlich höchstens einenKnoten pro Gruppe. Da die Literale, die Knoten aus U entsprechen, simultan auf wahrgesetzt werden können, gibt es mindestens |U | simultan erfüllbare Klauseln. Da es aberauch andererseits für jede Menge von u erfüllbaren Klauseln eine entsprechende unabhän-gige Menge der Größe u gibt (warum?), stimmt die maximale Anzahl simultan erfüllbarerKlauseln überein mit der Größe der größten unabhängigen Menge.

Korollar 8.2 Es gelte P 6= NP.Die Probleme MAX-3SAT5, VERTEX COVER und INDEPENDENT SET6 besitzen keinepolynomiellen Approximationsschemata.

Beweis: Wir erhalten aus Lemma 8.1 und der darauf folgenden Übungsaufgabe, dassMAX-3SAT5 kein polynomielles Approximationsschema besitzt. Auch INDEPENDENTSET6 besitzt deshalb gemäß Lemma 8.2 kein polynomielles Approximationsschema. DieBehauptung für VERTEX COVER ist als Übungsaufgabe gestellt.

Aufgabe 104Zeige die folgende Aussage: Sei L ∈ NP. Dann können wir für jede Eingabe w deterministischin polynomieller Zeit einen Graphen Gw und eine Zahl kw bestimmen, so dass es eineKonstante δ > 1 mit den folgenden Eigenschaften gibt:

- Für w ∈ L besitzt Gw eine Knotenüberdeckung der Größe höchstens kw.

- Für w /∈ L besitzt jede Knotenüberdeckung mindestens δ · kw Knoten.

Hinweis: Betrachte den Beweis von Lemma 8.2.


Aufgabe 105Gehört INDEPENDENT SET6 zur Klasse APX?

Wir kommen jetzt zu dem zentralen Ergebnis dieses Abschnitts.

Satz 8.3 Es gibt ε > 0, so dass sowohl CLIQUE wie auch INDEPENDENT SET keineeffizienten Approximationsalgorithmen mit Verlustfaktor nε besitzen.

Beweis: CLIQUE und INDEPENDENT SET sind äquivalente Probleme, da die Größeeiner größtmöglichen Clique in einem Graphen übereinstimmt mit der Größe einer größt-möglichen unabhängigen Menge im Komplementgraphen. Wir konzentrieren uns deshalbim Folgenden auf CLIQUE.Wir skizzieren zuerst die Idee und führen das Graph-Produkt G = G1×G2 für ungerichteteGraphen G1 = (V1, E1) und G2 = (V2, E2) ein. Insbesondere ist G = (V,E) mit V = V1×V2und

E = (u1, v1), (u2, v2) | u1, u2 ∈ E1, v1, v2 ∈ E2, .

Wir nehmen an, dass sowohl G1 wie auch G2 alle Eigenschleifen „u, u“ enthalten. Manüberzeuge sich, dass

clique(G1 ×G2) = clique(G1) · clique(G2)

gilt, wobei clique(H) die Größe der größten Clique von H bezeichne. Insbesondere ist

clique(H)r = clique(Hr)

und es scheint, dass sich ein Approximationsfaktor v für den Graphen H in einen Appro-ximationsfaktor vr für den Graphen Hr übersetzt.

Aufgabe 106Zeige: Wenn CLIQUE nicht mit dem Faktor α effizient approximierbar ist, dann ist CLI-QUE auch nicht mit dem Faktor α2 effizient approximierbar.

Leider aber ist dem nicht so, denn der Graph Hr ist wesentlich größer als der Graph H undApproximationsalgorithmen dürfen auf der sehr viel größeren EingabeHr dementsprechendmehr Laufzeit investieren. Wir benötigen vielmehr das folgende Konzept, um einerseitsnoch die Eigenschaften des Graphprodukts zu erhalten und um andererseits nicht die Größedes Produkt-Graphen hochzutreiben.

Definition 8.2 Seien n und k natürliche Zahlen und sei δ eine reelle Zahl. Ein (n, k, δ)-Booster ist eine Menge B von k-elementigen Teilmengen von 1, . . . , n. Für jede Teilmen-ge A ⊆ 1, . . . , n gilt

( |A|n− δ)k · |B| ≤ |T ∈ B | T ⊆ A| ≤ ( |A|

n+ δ)k · |B|.


Wenn B die Menge aller k-elementigen Teilmengen von 1, . . . , n ist, dann ist ( |A|n

)k die(ungefähre) Wahrscheinlichkeit, dass eine fixierte Menge T ∈ B in der Menge A enthaltenist.

Ein (n, k, δ)-Booster ermöglicht also eine gute Approximation der Größe derMenge A, solange wir die Anzahl der Boostermengen kennen, die in A enthaltensind. Um die Anzahl der enthaltenen Teilmengen effizient bestimmen zu können,werden wir zusätzlich verlangen, dass der Booster aus nicht nicht zu vielen,effizient konstruierbaren Teilmengen besteht.

Insbesondere benötigen wir (n, k, δ)-Booster für k = O(log2 n) und für kleines δ > 0.

Fakt 8.2 Für jedes k = O(log2 n) und für jedes δ > 0 gibt es (n, k, δ)-Booster, so dassalle Teilmengen des Boosters in polynomieller Zeit in n konstruiert werden können. (Ins-besondere haben diese Booster also nur polynomiell viele Teilmengen.)

Sei G ein ungerichteter Graph mit Knotenmenge 1, . . . , n. Anstelle des GraphproduktsGr betrachten wir jetzt das Booster-Produkt B(G), dessen Knoten den Teilmengen desBoosters B entsprechen. Zwei Boostermengen S1, S2 ∈ B werden in B(G) durch eineKante verbunden, falls S1 ∪ S2 eine Clique in G ist. Das Booster-Produkt erfüllt seinenZweck, denn:

Behauptung 8.2 Für jeden Graphen G und für jeden (n, k, δ)-Booster B gilt

(clique (G)n

− δ)k · |B| ≤ clique ( B(G) ) ≤ (clique (G)n

+ δ)k · |B|.

Beweis der Behauptung: Die Menge A ⊆ 1, . . . , n sei eine größte Clique in G. Dannist |A| = clique (G), und der Booster besitzt mindestens (clique (G)

n− δ)k · |B| Teilmengen

von A. Sämtliche in A enthaltenen Boostermengen bilden aber eine Clique in B(G), undes ist

(clique (G)n

− δ)k · |B| ≤ clique ( B(G) ).

Andererseits sei A′ die größte Clique in B(G). Wir definieren A als die Vereinigung allerMengen des Boosters, die den Elementen von A′ entsprechen. Dann ist A offensichtlich eineClique in G und es ist |A| ≤ clique(G). Der Booster besitzt also höchstens ( |A|

n+ δ)k · |B| ≤

(clique (G)n

+ δ)k · |B| viele Teilmengen von A. Wir haben also

clique ( B(G) ) = |A′| = |T ∈ B |T ⊆ A| ≤ (clique (G)n

+ δ)k · |B|

erhalten.

Wir wissen mit Lemma 8.2, dass [αn, βn]-gap-INDEPENDENT SET6 ein NP-hartes Pro-blem ist. Also ist auch [αn, βn]-gap-CLIQUEn−6 ein NP-hartes Problem. Im Gap-Problemfür CLIQUE sind aber nur solche Graphen G interessant, für die

clique (G) < α · n oder β · n ≤ clique (G).


gilt. Wir konstruieren einen (n, log2 n, δ)-Booster und das entsprechende Booster-ProduktB(G). Als Konsequenz der Behauptung 8.2 erhalten wir also

clique ( B(G) ) ≤ (α + δ)log2 n · |B| oder (β − δ)log2 n · |B| ≤ clique (B(G)) .

Für ein genügend kleines δ können wir also die Lücke von vorher βαauf jetzt (β−δ

α+δ )log2 n

polynomiell amplifizieren.

Es kann sogar gezeigt werden, dass CLIQUE, für jedes ε < 0, keine effizienten n1−ε-approxi-mativen Algorithmen besitzt.In COLORING ist ein ungerichteter Graph G gegeben und es wird nach einer Knoten-färbung mit einer kleinstmöglichen Farbenzahl gefragt, so dass keine zwei benachbartenKnoten in G die gleiche Farbe besitzen. Beachte, dass eine alternative Formulierung dieFrage nach einer Zerlegung von G in eine kleinstmögliche Zahl unabhängiger Mengen ist.Es kann gezeigt werden, dass auch COLORING keine effizienten n1−ε-approximativen Al-gorithmen besitzt.Diese Ergebnisse sind ein enormer Fortschritt, wenn man beachtet, dass für lange Jahresogar polynomiellen Approximationsschemata für CLIQUE nicht ausgeschlossen waren.Allerdings ist unser Wissen immer noch sehr eingeschränkt:

- Angenommen, wir erhalten das Versprechen, daß ein gegebener Graph 3-färbbar ist.Dann sind die besten effizienten Algorithmen bisher nur im Stande, eine Färbung mitO(n0,25 · log n) Farben zu finden.

- Die besten effizienten Approximationsalgorithmen für INDEPENDENT SET errei-chen nur den Approximationsfaktor O( n

log2 n).

In beiden Fällen fehlen Resultate, die die Existenz effizienter Algorithmen ausschließen,bzw. die Nicht-Existenz plausibel machen.

Aufgabe 107Es gelte P 6= NP. Zeige, dass COLORING keine effizienten 4

3 -approximativen Algorithmenbesitzt.Hinweis: Das 3-Färbbarkeitsproblem ist NP-vollständig.

Aufgabe 108Wir stellen die Probleme FEEDBACK VERTEX SET und FEEDBACK ARC SET vor,die in der Lösung von Deadlock Problemen eine zentrale Rolle spielen.In MINIMUM FEEDBACK VERTEX SET ist ein gerichteter Graph G = (V,E) gegeben.Gesucht ist eine minimale Knotenmenge W ⊆ V , so dass W mindestens einen Knoteneines jeden gerichteten Zyklus enthält. Die Herausnahme von W bricht somit alle Zyklen.In MINIMUM FEEDBACK ARC SET ist ein gerichteter Graph G = (V,E) gegeben.Gesucht ist eine minimale Kantenmenge A ⊆ E, so dass A mindestens eine Kante einesjeden gerichteten Zyklus enthält.

(a) Konstruiere eine lückenerhaltende Reduktion von VERTEX COVER auf MINIMUMFEEDBACK VERTEX SET.

8.3. HASTAD’S 3-BIT PCP 223

(b) Konstuiere eine lückenerhaltende Reduktion von MINIMUM FEEDBACK VERTEXSET auf MINIMUM FEEDBACK ARC SET.

Fazit: Auch für MINIMUM FEEDBACK VERTEX SET und MINIMUM FEEDBACKARC SET sind keine polynomiellen Approximationsschemata zu erwarten.

8.3 Hastad’s 3-Bit PCP

Im PCP-Theorem wird gezeigt, dass jede Sprache verifizierbare Beweise besitzt, für diedie Nachfrage konstant vieler Beweisbits genügt, wenn logarithmisch viele Zufallsbits zurVerfügung stehen. Genügt die Nachfrage nach drei oder sogar nach nur zwei Beweisbits?Zwei Bits sind unzureichend, denn:

Aufgabe 109Zeige, dass

PCP(O(log n), 2) = P

gilt. Hinweis: Eine Sprache L ∈ PCP(O(log n), 2) werde von dem Verifier V erkannt. Ver-suche für eine Eingabe x eine 2-KNF Formel Kx zu konstruieren, so dass Kx genau dannerfüllbar ist, wenn es einen Beweis gibt, der von V stets akzeptiert wird. Wir wissen, dass2-SAT in polynomieller Zeit lösbar ist.

Andereseits genügen tatsächlich drei Bits fast, denn:

Satz 8.4 Für alle Konstanten ε, η > 0 und jede Sprache L ∈ NP gibt es einen Verifier V ,so dass

(a) V nur drei Beweisbits x, y, z anfordert, mit O(log2 n) Zufallsbits auskommt

(b) und Akzeptanz über den Wert einer Summe α · x+ β · y + γ · z mod 2 entscheidet.

Weiterhin gibt es für jede Eingabe w ∈ L stets einen Beweis, der mit Wahrscheinlichkeit1− ε akzeptiert wird. Ist hingegen w 6∈ L, dann wird jeder Beweis mit Wahrscheinlichkeithöchstens 1/2 + η akzeptiert.

Aufgabe 110Zeige: Wenn der Verifier in Satz 8.4 für jede Eingabe w ∈ L einen Beweis mit Wahrschein-lichkeit 1 akzeptieren würde, dann gilt P = NP.

Wir geben keinen Beweis an, sondern untersuchen die Konsequenzen der Aussage. Zuerstbetrachten wir das Optimierungsproblem MAX-3LIN: Wir erhalten ein lineares Gleichungs-system

A · x = b mod 2


über den ganzen Zahlen modulo zwei, wobei in jeder Gleichung höchstens drei Variablenvorkommen. Unsere Aufgabe ist die Bestimmung eines Vektors x, so dass möglichst vieleGleichungen des Systems erfüllt werden. Was passiert, wenn wir einen Vektor x zufällig aus-würfeln? Jede einzelne Gleichung wird mit Wahrscheinlichkeit 1/2 erfüllt, und wir werdenim Erwartungsfall die Hälfte aller Gleichungen erfüllen.Betrachten wir als Nächstes MAX-3SAT. Wenn wir eine Belegung zufällig auswürfeln, dannwerden wir eine bestimmte Klausel mit Wahrscheinlichkeit 7/8 erfüllen, da die Klausel vonsieben ihrer acht möglichen Belegungen erfüllt wird. Geht es besser? Überraschenderweiseist in beiden Fällen „nicht mehr drin“.

Satz 8.5 Es gelte P 6= NP.

(a) Dann besitzt MAX-3LIN für jedes ε > 0 keine effizienten, 2 − ε-approximativenAlgorithmen.

(b) Auch MAX-3SAT besitzt für jedes ε > 0 keine effizienten, 8/7 − ε-approximativenAlgorithmen.

Beweis (a): Wir versuchen das NP-vollständige Erfüllbarkeitsproblem zu lösen. Wir wen-den Satz 8.4 an und erhalten einen Verifier, der für jede Folge σ von logarithmisch vielenZufallsbits akzeptiert, wenn die Gleichung

ασ · xσ + βσ · yσ + γσ · zσ = bσ

für die nachgefragten Beweisbits xσ, yσ, zσ erfüllt ist. Weiterhin wissen wir, dass die Ein-gabe zu akzeptieren ist, wenn fast alle Gleichungen erfüllt werden, und zu verwerfen ist,wenn nur wenig mehr als die Hälfte aller Gleichungen erfüllt werden. Wenn wir MAX-3LIN mit einem (2 − ε)-approximativen Algorithmus lösen könnten, dann hätten wir dasErfüllbarkeitsproblem geknackt und das geht nun mal nicht.(b) Wir reduzieren MAX-3LIN auf MAX-3SAT. Dazu schreiben wir jede Gleichung desSystems A · x = b mod 2 als die Konjunktionen von vier Klauseln und erhalten statt deslinearen Systems eine 3KNF Formel φ.Wenn A · x = b mod 2 „fast“ erfüllbar ist, dann sind auch fast alle Klauseln der KNF φerfüllbar. Sind hingegen nur wenig mehr als die Hälfte aller Gleichungen erfüllbar, dannsind bei m Gleichungen ungefähr

4 · m2 + 3 · m2 = 72 ·m = 7

8 · 4m

der 4m Klauseln erfüllbar. Und MAX-3SAT kann keine effizienten (8/7−ε)-approximativenAlgorithmen besitzen.

Bemerkung 8.1 Beachte, dass wir den Beweis von Teil (b) durch eine lückenbewahren-de Reduktion zwischen den Gap-Versionen von MAX-3LIN und MAX-3SAT durchgeführthaben: Die ursprüngliche Lücke von fast einer Hälfte wurde auf eine Lücke von fast einemAchtel transformiert.

Kapitel 9

Parallel Repetition∗

Das Ziel dieses Abschnitts ist die Untersuchung der Approximationskomplexität von SETCOVER. Wir müssen einen ziemlichen Anlauf nehmen: Das Parallel Repetition Theoremwird die zentrale Methode sein, die uns helfen wird.Anwendungen des PCP-Theorems für die Nichtapproximierbarkeit sind umso stärker jekleiner der Soundness-Parameter α ist. Ein (r, q)-Verifier kann seine Soundness von α aufαk senken, indem q Anfragen k-mal sequentiell wiederholt werden. Der große Nachteildieses Vorgehens ist die um den Faktor k angestiegene Anzahl der Anfragen: In Hastad’s3-Bit PCP war die Konstruktion eines Verifiers mit nur drei Anfragen und Soundness fast1/2 der wesentliche Beitrag.Wenn wir die Anzahl q der Nachfragen unverändert lassen wollen, bietet es sich an, alle k„ersten“ Anfragen in einer „Kombi-Anfrage“ zu bündeln, die dann vom Prover mit einemk-Bit String parallel beantwortet werden. Wir verfahren mit den k „zweiten“ „dritten“,. . . „qten“ Anfragen analog, bleiben also bei q Anfragen, haben aber die 1-Bit Antwortendes Provers auf k-Bit Antworten erhöht, was wir uns als Vergrößerung des Alphabets desProvers vorstellen können. Überraschenderweise ist die Alphabetvergrößerung in vielenAnwendungen unproblematisch, aber funktioniert dieses Vorgehen, d.h. wird der SoundnessParameter tatsächlich von α auf αk erniedrigt?Die deprimierende Antwort ist nein, die Vergrößerung des Alphabets von einem auf k Bitsist das Problem. Für k = 2 können wir uns vorstellen, dass sich das 1-dimensionale Formatdes alten Beweises in ein 2-dimensionales Format ändert: Für Anfragen (i, j) und (i, l) sindjetzt Antworten (a, b) und (c, d) mit a 6= c möglich, und der Verifier muss sich jetzt mitnach seiner Ansicht inkonsisten Beweisen auseinandersetzen!Um dieses Problem in den Griff zu bekommen, betrachten wir 2-Prover Spiele.

9.1 2-Prover SpieleStatt einem Verifier und einem Prover betrachten wir jetzt einen Verifier und zwei Prover.Der Verifier formuliert genau eine Anfrage an den ersten und ebenfalls genau eine Anfragean den zweiten Prover. Der erste Prover antwortet mit einem Buchstaben aus dem Alphabet

225

226 KAPITEL 9. PARALLEL REPETITION∗

Σ1, der zweite Prover antwortet mit einem Buchstaben aus Alphabet Σ2. Die beiden Proverdürfen sich vor Beginn der Rechnung absprechen, dürfen aber während der Rechnung nichtmehr miteinander kommunizieren.Wir sagen, dass eine Sprache L zur Klasse 2Pβ,α(r) gehört, wenn es einen effizienten VerifierV gibt der für Eingaben der Länge n höchstens r(n) Zufallsbits anfordert. Es muss gelten:

(a) Vollständigkeit: Wenn die Eingabe w zur Sprache L gehört, dann gibt es Beweise derbeiden Prover, die V mit Wahrscheinlichkeit mindestens β akzeptiert.

(b) Soundness: Wenn die Eingabe w nicht zur Sprache L gehört, dann wird V alle Beweiseder beiden Prover mit Wahrscheinlichkeit höchstens α akzeptieren.

Obwohl wir den Verifier sehr stark eingeschränkt haben –es darf nur jeweils ein Beweisbitnachgefragt werden– erhalten wir ein neues PCP-Theorem:

Satz 9.1 Es gibt α < 1 mit NP = 2P1,α(O(log2 n)).

Beweis: Wenn L ∈ 2P1,α(O(log2 n)), dann rate zwei Beweise nichtdeterministisch. Fallsw ∈ L werden wir zwei Beweise finden, so dass V für alle polynomiell vielen Zufallstringsakzeptiert. Falls w 6∈ L werden wir mindestens einen Zufallsstring finden, für den V nichtakzeptiert. Da V ein effizienter deterministischer Algorithmus ist, haben wir einen effizi-enten nichtdeterministischen Algorithmus für L gefunden und L ∈ NP.Für die Umkehrung NP ⊆ 2P1,α(O(log2 n)) genügt der Nachweis, dass das NP-vollständige3SAT Problem in 2P1,α(O(log2 n)) liegt. Sei φ eine 3KNF-Formel. Wir wenden Satz 8.2 anund erhalten eine effiziente Transformation T mit den Eigenschaften:

- Wenn φ erfüllbar ist, dann ist auch T (φ) erfüllbar.

- Ist φ nicht erfüllbar, dann ist höchstens ein Bruchteil α < 1 aller Klauseln von T (φ)erfüllbar.

Unser Verifier V erwartet, dass der Beweis des ersten Provers eine erfüllende Belegung vonT (φ) ist, der erste Prover verwendet demgemäß das binäre Alphabet für die Beantwortung.V erwartet vom zweiten Prover eine erfüllende Belegung für jede Klausel von T (φ); dasAlphabet des zweiten Provers hat also die Größe acht.V wählt eine Klausel und eine Variable der Klausel zufällig. Der erste Prover antwortet mitdem Wert der Variablen, der zweite Prover mit der Belegung der Klausel. V akzeptiert,wenn beide Antworten konsistent sind und die Klausel erfüllt wird.Fall 1: φ hat eine erfüllende Belegung x. Die beiden Beweise, nämlich die erfüllende Bele-gung x und die Belegung x auf alle Klauseln eingeschränkt, werden mit Wahrscheinlichkeit1 akzeptiert.Fall 2: φ ist nicht erfüllbar. Dann wird höchstens der Bruchteil α < 1 aller Klauseln erfüllt.Mit Wahrscheinlichkeit mindestens 1− α wird V eine falsifizierte Klausel finden. Aber diebeiden Prover haben noch die Chance des Betrugs: Der zweite Prover könnte nämlich eineerfüllende Belegung der Klausel präsentieren! Mit Wahrscheinlichkeit 1/3 fliegt der Betrug

9.2. LABEL COVER 227

aber auf, da V die Inkonsistenz bemerkt. Wir erreichen somit den Soundness-Parameter1− 1−α

3 < 1.

Wie sieht es jetzt mit der parallelen Wiederholung von Anfragen aus?

Satz 9.2 Das Parallel Repetition Theorem von RazDer Verifier V möge Vollständigkeit 1 und Soundness α erreichen. Die k-malige paralleleWiederholung für Verifier V führt auf Vollständigkeit 1 und Soundness höchstens (α′)k. DieKonstante α′ hängt nur von α und den Alphabetgrößen der beiden Prover ab; die Anzahlder Anfragen bleibt bei Eins, die Anzahl nachgefragter Zufallsbits steigt auf k · r an.

Den komplizierten Beweis zeigen wir nicht.Wir haben keine „perfekte“ Reduktion des Soundness-Parameters erreicht, da der Sound-ness Parameter auf (α′)k und nicht auf αk reduziert wurde. Dieses Ergebnis ist aber best-möglich, insbesondere kann eine perfekte Reduktion nicht erreicht werden.

Bemerkung 9.1 Warum ist eine Reduktion des Soundness-Parameters von α auf αk imAllgemeinen nicht möglich? Der Verifier V wählt ein Paar (r1, r2) ∈ 0, 12 zufällig ausund sendet ri an Prover i. Der Verifier erwartet entweder die identische Antwort (1, r1)oder die identische Antwort (2, r2) von beiden Provern.Mit welcher Wahrscheinlichkeit p akzeptiert V ? Wenn beide Prover mit (1, r1) antworten,dann ist p ≤ 1

2 , da Prover 2 das Bit r1 nicht kennt. Offensichtlich gilt p ≤ 12 auch unter

der Bedingung, dass beide Prover mit (2, r2) antworten: Der Verifier akzeptiert also mitWahrscheinlichkeit höchstens 1/2.Wir führen k = 2 parallele Wiederholungen durch. Der Verifier wählt also eine Folge(r1, r2, s1, s2) von vier Bits zufällig aus und sendet (r1, r2) an Prover 1 und (s1, s2) anProver 2. Diesmal erwartet V Antworten der Form (i1, ri1 , i2, si2) und akzeptiert, wennbeide Antworten richtig und identisch sind.Wir erwarten, dass der Soundness-Parameter auf höchstens 1/4 sinkt, tatsächlich bleibtder Soundness-Parameter unverändert auf 1/2. Dazu antwortet Prover 1 mit (1, r1, 2, r1)und Prover 2 mit (1, s2, 2, s2). Der Verifier akzeptiert genau dann, wenn r1 = s2 und diespassiert mit Wahrscheinlichkeit 1/2.

Aufgabe 111Welchen Wert des Soundness-Parameters kann der Verifier by k-maliger paralleler Wie-derholung nicht unterschreiten?

9.2 LABEL COVERIm Problem LABEL COVER modellieren wir unser Vorgehen in Satz 9.1. Eine Instanz vonLABEL COVER besteht aus einem bipartiten Graphen G = (A∪B,E), wobei alle Kanteneinen Knoten in A mit einem Knoten in B verbinden. Für jeden Knoten v ∈ A∪B ist eineendliche Menge Lv von Markierungen und für jede Kante e = a, b mit a ∈ A und b ∈ Bist eine Funktion fa,b : La → Lb gegeben. Unser Ziel ist eine „Färbung“ fA der Knoten


a ∈ A (mit fA(a) ∈ La) sowie eine „Färbung“ fB der Knoten in b ∈ B (mit fB(b) ∈ Lb),so dass

|e = a, b ∈ E | fa,b(fA(a)) = fB(b)|

möglichst groß ist: Die Knoten sind also so zu färben, dass die Endpunkte möglichst vielerKanten a, b konsistent, also gemäß der „Bedingung“ fa,b gefärbt sind.

Bemerkung 9.2 Sei p eine Primzahl. Wir betrachten lineare Gleichungssysteme, die nuraus Gleichungen der Form

ai,j · xi + bi,j · yj = ci,j

bestehen, wobei die Koeffizienten ai,j und bi,j nicht durch p teilbar seien. Unser Ziel ist diesimultane Erfüllung möglichst vieler Gleichungen.Dieses Problem können wir als ein LABEL COVER Problem auffassen, wenn wir mitL = 0, . . . , p−1 als Menge der Markierungen und mit den Kantenbedingungen fi,j durchfi,j(x) = (ci,j − ai,j · x) · b−1

i,j arbeiten: Die Knotenfärbungen fA und fB entsprechen Wer-tezuweisungen an die Variablen xi und xj, die nur dann eine Kantenbedingung erfüllen,wenn die zugehörige Gleichung erfüllt ist.Man beachte, dass die Kantenbedingungen sogar Permutationen sind. Man spricht deshalbauch von eindeutigen Spielen.

Aufgabe 112Zeige, dass die Frage, ob alle Kantenbedingungen eingehalten werden können, effizientbeantwortet werden kann.

In Satz 9.1 haben wir einen effizienten Verifier V für 3SAT im 2-Prover Spiel angegeben.Wir haben eine 3KNF Formel φ in eine andere 3KNF Formel ψ = T (φ) transformiert, wobeientweder alle oder nur der Bruchteil α < 1 aller Klauseln von ψ erfüllbar ist. Desweiterenbesitze ψ genau n Variablen und m Klauseln. Nach k-maliger paralleler Wiederholungvon V stellt V genau mk parallele Fragen nach k Klauseln und nk Fragen nach k in denjeweiligen Klauseln auftauchenden Variablen; die Soundness sinkt auf höchstens (α′)k.Wir modellieren die k-malige Wiederholung von V durch die folgende LABEL COVERInstanz G = (A ∪B,E).

- Die Knoten in A entsprechen den (parallelen) Klausel-Anfragen von V an Prover 2,die Knoten in B den (parallelen) Variablen-Anfragen an Prover 1.

- Wir verbinden a ∈ A und b ∈ B mit einer Kante genau dann, wenn die Anfragen zua und b für mindestens einen Zufallsstring simultan gestellt werden.

- Wenn die Fragen nach erfüllenden Belegungen der ψ-Klauseln K1, . . . , Kk dem Kno-ten a entspricht, dann definieren wir La als die Menge aller 7k, die Klauseln Ki

erfüllenden Belegungen. Für alle „rechten“ Knoten b ∈ B ist Lb = 0, 1k.

9.3. SET COVER 229

- Für jede Kante a, b ∈ E setzen wir fa,b(x) = y genau dann, wenn der Verifiernach Erhalt der Antworten x (von Prover 2) und y (von Prover 1) akzeptiert. (Wirbenutzen hier, dass V genau dann akzeptiert, wenn x die angefragte Klauseln erfülltund die Bits y konsistent mit x sind. Die Funktion fa,b ist also eine Projektion.)

Jedes Paar von Beweisen definiert eine Knotenfärbung und umgekehrt. Weiterhin stimmtdie relative Anzahl der Kanten, die kompatibel gefärbt sind, überein mit der Akzeptanz-wahrscheinlichkeit. Also folgt:

Lemma 9.1 Sei k ∈ N.Wenn für Graphen mit O(nk) Knoten und Labelmengen Lv der Größe höchstens 2O(k) eineKlassifizierung in

- YES-Instanzen (alle Kantenbedingungen werden eingehalten) und

- NO-Instanzen (nur der Bruchteil αk aller Kantenbedingungen wird eingehalten)

in Zeit poly(n) gelingt, dann kann jede Sprache L ∈ NP in Zeit poly(nk) akzeptiert werden.

Zusätzlich kann sogar noch gefordert werden, dass die LABEL COVER Instanzen G ge-nauso viele linke wie rechte Knoten besitzen und dass alle Knoten in G den gleichen Gradbesitzen. Dazu benutzt man, dass MAX-3SAT∗5 eine lückenschaffende Reduktion besitzt.(3KNF∗5 besteht aus allen 3KNF-Formeln, so dass jede Klausel in genau fünf Klauseln vor-kommt.) Die Klausel ψ besteht dann aus m = 5n/3 Klauseln (mit insgesamt n Knoten)und der von uns aufgebaute Graph hat deshalb mk = (5n/3)k linke und nk rechte Knoten,jeder linke Knoten hat 3k rechte Nachbarn und jeder rechte Knoten hat 5k linke Nachbarn.Jetzt erzeuge 3k Kopien für jeden linken Knoten, 5k Kopien für jeden rechten Nachbarnund verbinde die Kopien entsprechend. Wir haben jetzt insgesamt jeweils (5n)k linke, bzw.rechte Knoten und jeder Knoten hat (15)k Nachbarn.

9.3 SET COVERWir beginnen mit einer Vorüberlegung. Wie können wir eine SET COVER Instanz kon-struieren, so dass es nur sehr wenige optimale Überdeckungen gibt und alle anderen Über-deckungen sehr viel mehr Mengen benötigen? Für ein Universum U würfeln wir t Teil-mengen S1, . . . , St ⊆ U aus, indem jedes Element u ∈ U mit Wahrscheinlichkeit genau1/2 aufgenommen wird. Wir vervollständigen das Mengensystem durch die Aufnahme derKomplementmengen S1, . . . , St und erhalten das System

S(U, t) = S1, S1, . . . , St, St .

Wir haben genau t-viele 2er Überdeckungen Si, Si, während mindestens l = Θ(ln(|U |))Mengen notwendig sind, wenn kein komplementäres Paar in der Überdeckung auftritt:


Die erste Menge der Überdeckung wird im Erwartungsfall genau die Hälfte des Uni-versums überdecken, die zweite Menge überdeckt ein fehlendes Viertel, die dritteMenge ein fehlendes Achtel und so weiter.

Wir müssen LABEL COVER lückenerhaltend auf SET COVER reduzieren. Sei also G =(A∪B,E) eine LABEL COVER Instanz mit |A| = |B| = O(nk) und Labelmengen Lv derGröße höchstens 2O(k).

(*) Wir weisen den Kanten e = a, b ∈ E disjunkte Universen Ue mit |Ue| = nk zu.Desweiteren weisen wir e das Mengensystem S(Ue, t) mit t = |Lb| zu. Es ist also

S(Ue, t) = Se,y | y ∈ Lb ∪ Se,y | y ∈ Lb .

(*) Das Universum für unsere SET COVER Instanz ist U = ⋃e∈E Ue.

(*) Jedes Paar (a, x) (mit a ∈ A und x ∈ La) und (b, y) (mit b ∈ B und y ∈ Lb) erzeugtgenau eine Teilmenge Sa,x, bzw. Sb,y in unserer SET COVER Instanz, nämlich

Sa,x =⋃

a ist Endpunkt von e; fe(x)=ySe,y und Sb,y =

⋃b ist Endpunkt von e

Se,y

Haben wir eine lückenerhaltende Reduktion erreicht, wenn unser System von Teilmengengenau aus den Mengen Sa,x (für a ∈ A und x ∈ La) und Sb,y (für b ∈ B und y ∈ Lb)besteht?Fall 1: Es gibt Knotenfärbungen fA, fB, die alle Kantenbedingungen einhalten. Wir wählengenau die Mengen Sa,fA(a) und Sb,fB(b) aus: Wenn e = a, b eine Kante ist, dann istdie Kantenbedingung fa,b(fA(a)) = fB(b) erfüllt. Also gilt Se,fB(b) ⊆ Sa,fA(a) wie auchSe,fB(b) ⊆ Sb,fB(b).Wir haben Ue für jede Kante e und damit auch U überdeckt, wobei wir höchstens O(nk)Mengen benutzen.Fall 2: Alle Knotenfärbungen fA, fB halten höchstens den Bruchteil αk aller Kantenbedin-gungen ein.

Behauptung 9.1 Sei l = Θ(log2 |U |) die Mindestanzahl von Mengen in einer Überdeckungeiner Mengen Ue, wenn kein komplementäres Paar von Mengen in der Überdeckung benutztwird.Dann besteht jede Überdeckung aus mindestens Ω(l · nk) Mengen für k = Θ(log log n).

Beweis: Für eine optimale Überdeckung U von U und einen Knoten v sei

Av = Sv,z | Sv,z wird in U benutzt .

Betrachte die Menge gering aller Knoten v mit |Av| < l/2. Wenn a ∈ gering ∩ A undb ∈ gering∩B durch eine Kante in G miteinander verbunden sind, dann besitzen Aa und

9.4. DIE UNIQUE GAMES VERMUTUNG 231

Ab ein komplementäres Paar: Es ist |Aa| + |Ab| < l und deshalb wird ein komplementäresPaar zur Überdeckung von Ue (für e = a, b) benötigt.Jetzt wähle zufällig genau ein Element aus jeder Menge Av für v ∈ gering und färbe v mitdiesem Element. Für jede Kante e = a, b mit a, b ∈ gering ist die Wahrscheinlichkeit,dass die Kantenbedingung zu e eingehalten wird, mindestens 1

l/2 ·1l/2 = 4

l2. Wenn E ′ die

Menge aller Kanten zwischen Knoten zur Menge gering gehört, dann werden im Erwar-tungsfall also mindestens 4·|E′|

l2Kantenbedingungen eingehalten. Maximal können aber nur

(α′)k · |E| Kantenbedingungen eingehalten werden und

4 · |E ′|l2

≤ (α′)k · |E|

folgt. Jetzt wähle k so, dass (α′)k · l2/4 ≤ 1/2 ist, und wir erhalten |E ′| ≤ |E|/2. Wennaber die Kantenmenge E ′ klein ist, dann sollte doch die Menge gering nicht zu groß sein!Warum? Der Graph G ist regulär. Wenn mehr als drei Viertel aller Knoten in A und mehrals drei Viertel aller Knoten in B zu gering, dann ist |E ′| > |E|/2.Also gehört mindestens ein Achtel aller Knoten nicht zur Menge gering. Die Anzahl derMengen in der Überdeckung U ist also mindestens Ω(l · nk).

Wir haben die Lücke für k = Θ(log2 log2 n) erhalten können, denn entweder reicht eineÜberdeckung mit O(nk) Mengen oder mindestens Ω(nk · log2(nk)) Mengen sind notwendig.Wir wenden Lemma 9.1 an und erhalten als Konsequenz:

Satz 9.3 Wenn SET COVER o(log2N)-approximative Algorithmen für Universen derGröße N besitzt, dann kann jede Sprache L ∈ NP in Zeit nO(log2 log2 n) erkannt werden.

Es kann sogar gezeigt werden, dass (1 − o(1)) · lnN -approximative Algorithmen unterder Annahme aus Satz 9.3 ausgeschlossen sind: Der Greedy Algorithmus, der Mengen mitjeweils besten Preis/Leistungsverhältnis für die Überdeckung benutzt, ist optimal!

9.4 Die Unique Games VermutungWir betrachten eine eingeschränkte Version von LABEL COVER. Wiederum ist ein bi-partiter Graph G = (A ∪ B,E) gegeben. Diesmal erlauben wir nur eine endliche MengeL von Markierungen für jeden Knoten, eine allerdings unerhebliche Einschränkung. Wiebisher sind „Bedingungen“ fa,b : L → L für jede Kante a, b ∈ E gegeben, wobei wiraber diesmal fordern, dass fa,b stets eine Permutation ist. Wir sagen, dass Eingaben vondiesem Typ ein eindeutiges Spiel beschreiben.Wir suchen Färbungen fA : A→ L und fB : B → L, so dass die Anzahl

opt = |e = a, b ∈ E | fa,b(fA(a)) = fB(b)|

der Kanten, deren Endpunkte „konsistent“ gefärbt sind, möglichst groß ist. Wenn also eineKante konsistent gefärbt ist, dann legt die Farbe des einen Endpunkts stets die Farbe desanderen Endpunkts eindeutig fest. Die Unique Games Vermutung besagt:


Für jedes δ > 0 ist es NP-hart zu entscheiden, ob opt ≥ (1 − δ) · |E| oderopt ≤ δ · |E| für ein eindeutiges Spiel gilt.

Wenn die Unique Games Vermutung richtig ist, dann kann gezeigt werden, dass

• VERTEX COVER für kein ε > 0 effiziente (2−ε)-approximative Algorithmen besitzt.

• Weiterhin kann der beste, von effizienten Algorithmen für MAX-CUT wie auch fürMAX-2SAT erreichbare Approximationsfaktor exakt bestimmt werden.

(In MAX-CUT ist ein ungerichteter Graph G = (V,E) gegeben. Die Knotenmenge V istso in zwei disjunkte Klassen aufzuteilen, dass die Anzahl „kreuzender“ Kanten maximalist.)Ist die Unique Games Vermutung richtig? Die Antwort ist natürlich nicht bekannt. Aller-dings wurde gezeigt, dass das Entscheidungsproblem in Zeit 2npoly(δ) gelöst werden kann.

Kapitel 10

NP ⊆ PCP(poly(n), O(1)) ∗

Der Beweis von Satz 8.1 ist sehr umfangreich. Wir beschränken uns auf den Beweis desfolgenden, deutlich schwächeren Resultats.

Lemma 10.1 NP ⊆ PCP(poly(n), O(1)).

Zwar ist diese Aussage für Anwendungen in der Approximationskomplexität zu schwach1,aber trotzdem ist das Ergebnis überraschend: Ein Verifizierer mit unbeschränktem Zugangzu Zufallsbits kann sich von der Richtigkeit eines Beweises durch die Inspektion konstantvieler Beweisbits überzeugen!Beweis von Lemma 10.1: Es genügt zu zeigen, dass die NP-vollständige Sprache 3-SATin PCP(poly(n), O(1)) liegt. (Warum?)Sei φ = ∧n

j=1 kj eine 3KNF Formel mit den Klauseln k1, . . . , kn. Wir arithmetisieren dieKlauseln kj von φ, d.h. wir übersetzen Klauseln in Polynome. Dazu überführe das Literalxi (bzw. ¬xi) in den Ausdruck (1 − xi) (bzw. xi) und ersetze die Boolesche OperationODER durch die Multiplikation. Wir erhalten also für jede Klausel kj ein Polynom pj vomGrad drei, so dass für jede Belegung (a1, a2, a3) der Variablen von kj gilt:

(a1, a2, a3) erfüllt kj ⇔ pj(a1, a2, a3) = 0.

φ ist offenbar genau dann erfüllbar, wenn es eine Belegung im Körper ZZ2 gibt, so dassdie Folge (pj | 1 ≤ j ≤ n) nach Auswertung der einzelnen Polynome die Null-Folge ergibt.Zudem können wir im Körper ZZ2 effizient Null-Folgen entdecken, denn:

Behauptung 10.1 Sei v ∈ ZZn2 vom Null-Vektor verschieden. Dann gilt

probw[n∑i=1

vi · wi 6≡ 0 mod 2] = 12 .

1Beachte, dass exponentiell lange Beweise sich jetzt auszahlen, da der Verifier auf polynomiell vieleZufallsbits zugreifen kann und mit ihrer Hilfe in verschiedenen Berechnungen exponentiell viele Positionennachfragen kann. Für logarithmisch viele Zufallsbits können hingegen nur polynomiell viele Positionennachgefragt werden.

233

234 KAPITEL 10. NP ⊆ PCP(POLY(N), O(1)) ∗

Beweis: Warum ist das innere Produkt (v, w) mit Wahrscheinlichkeit 12 von Null verschie-

den? Sei O.B.d.A. v1 6= 0. Wir denken uns die Komponenten w2, . . . , wn bereits gewähltund beachten, dass dann v1 · w1 = ∑n

i=2 vi · wi mit Wahrscheinlichkeit 12 gilt.

Sei a = (a1, . . . , an) eine (nicht notwendigerweise erfüllende) Belegung von φ. Wir setzenv = (pj(a) | 1 ≤ j ≤ n). Unser Ziel ist die Überprüfung, ob a eine erfüllende Belegungist, d.h. ob v der Nullvektor ist. Wir betrachten deshalb das innere Produkt 〈v, w〉 von vmit einem zufällig ausgewürfelten Vektor w. Die Komponenten von v sind an der Stelle aausgewertete Polynome vom Grad drei und 〈v, w〉 lässt sich somit als eine Summe überZZ2 von konstanten, linearen, quadratischen und kubischen Termen auffassen:

〈v, w〉 = cw ⊕∑

i∈S1(w)ai ⊕

∑(i,j)∈S2(w)

ai · aj ⊕∑

(i,j,k)∈S3(w)ai · aj · ak. (10.1)

Beachte, dass die Mengen S1(w), S2(w) und S3(w) nur von dem zufälligen Vektor w undvon φ abhängen, nicht aber von der gewählten Belegung a; gleiches gilt auch für das Bitcw. Insbesondere kann ein Verifier die drei Mengen effizient berechnen, da er Zugang zu wund φ hat.

Definition 10.1 Für Vektoren x ∈ ZZa2 und y ∈ ZZb

2 definieren wir das Tensorprodukt vonx und y als den Vektor x⊗ y ∈ ZZa·b

2 mit

(x⊗ y)i,j = xi · yj.

Wenn wir statt der Mengen S1(w), S2(w) und S3(w) ihre Inzidenzvektoren α1(w), α2(w)und α3(w) wählen, dann erhalten wir die zu (10.1) äquivalente Darstellung

〈v, w〉 = cw ⊕ 〈 a, α1(w) 〉 ⊕ 〈 a⊗ a, α2(w) 〉 ⊕ 〈 a⊗ (a⊗ a), α3(w) 〉.

Es liegt also nahe, einen Beweis zu wählen, aus dem die Vektoren

A = ( (a, x) | x ∈ ZZn2 ), B = ( (a⊗ a, y) | y ∈ ZZn2

2 ) undC = ( (a⊗ (a⊗ a), z) | z ∈ ZZn3

2 )

abgelesen werden können.

Aufgabe 113Zeige, dass A(x) · A(y) = B(x ⊗ y) wie auch A(u) · B(v) = C(u ⊗ v) für alle Vektorenx, y, u ∈ ZZn

2 und v ∈ ZZn22 gilt.

Diese Eigenschaft suggeriert bereits eine Überprüfung der Tensoreigenschaften von B undC durch die zufällige Wahl der Vektoren x, y, u ∈ ZZn

2 und v ∈ ZZn22 .

Wenn A,B bzw. C jeweils diesen linearen Funktionen entsprechen, dann programmierenwir den Verifier wie folgt.

235

Algorithmus 10.1 Erfüllbarkeitstest für eine 3KNF Formel φ.Sei a eine nicht notwendigerweise erfüllende Belegung von φ. Der Beweis bestehe aus Funk-tionstabellen für die linearen Funktionen

A(x) = 〈a, x〉, B(y) = 〈a⊗ a, y〉 und C(z) = 〈a⊗ a⊗ a, z〉.

(1) Der Verifier wählt einen zufälligen Vektor w ∈ ZZn2 .

(2) Der Verifier berechnet cw, S1(w), S2(w) und S3(w) aus w und φ.(3) Der Verifier fordert die Bits ∑i∈S1(w) ai,

∑(i,j)∈S2(w) ai · aj und ∑(i,j,k)∈S3(w) ai · aj · ak

an und akzeptiert genau dann, wenn

cw ⊕∑

i∈S1(w)ai ⊕

∑(i,j)∈S2(w)

ai · aj ⊕∑

(i,j,k)∈S3(w)ai · aj · ak = 0.

Wenn a = (a1, . . . , an) eine erfüllende Belegung von φ ist, dann wird der Verifier stetsakzeptieren und anderenfalls mit Wahrscheinlichkeit mindestens 1

2 verwerfen. Allerdingshaben wir bisher vorausgesetzt, dass

(a) A die Wertetabelle einer linearen Funktionen ist und dass

(b) B = A⊗ A sowie C = A⊗B gilt.

Wir müssen jetzt garantieren, dass der Verifier einen Beweis mit hoher Wahrscheinlichkeitablehnt, falls der Beweis gegen eine der beiden Anforderungen (a) oder (b) verstößt. Wirbetrachten zuerst einen Verstoß gegen die Anforderung (b).

Algorithmus 10.2 Test auf Tensor-Eigenschaft(1) Der Verifier wählt zufällige Vektoren x, y ∈ ZZn

2 und fragt die Werte A(x) und A(y)von A an den Stellen x und y nach. Ebenso wird der Wert B(x ⊗ y) von B an der Stellex⊗ y nachgefragt. Der Verifier verwirft, falls

A(x) · A(y) 6= B(x⊗ y).

(2) Der Verifier wählt zufällige Vektoren u ∈ ZZn2 , v ∈ ZZn2

2 und fragt die Werte A(u) undB(v) wie auch den Wert C(u⊗ v) nach. Der Verifier verwirft, falls

A(u) ·B(v) 6= C(u⊗ v)

und akzeptiert ansonsten.

Wir nehmen zuerst an, dass B = A ⊗ A und dass C = A ⊗ B. Beachte, dass in diesemFall A(x) · A(y) = B(x ⊗ y) wie auch A(u) · B(v) = C(u ⊗ v) und der Verifier akzeptiertrichtigerweise. Im verbleibenden Fall ist die Tensoreigenschaft verletzt und die folgendeBehauptung weist eine nur kleine Fehlerwahrscheinlichkeit nach.


Behauptung 10.2 A, B und C seien die Wertetabellen von lineare Funktionen 〈a, s1〉 :ZZn

2 → ZZ2, 〈b, s2〉 : ZZn22 → ZZ2 und 〈c, s3〉 : ZZn3

2 → ZZ2. Es gelte b 6= a⊗ a oder c 6= a⊗ b.Dann akzeptiert der Tensor Test mit einer Wahrscheinlichkeit von höchstens 3

4 . Eine k-malige Wiederholung führt auf eine Akzeptanzwahrscheinlichkeit von höchstens (3

4)k.

Beweis von Behauptung 10.2: Wir weisen nach, dass der Tensor Test mit Wahrschein-lichkeit mindestens 1

4 verwirft. Dazu nehmen wir zuerst an, dass B 6= A⊗A. Nach Annahmeist A die Wertetabelle der linearen Funktion 〈a, s1〉 : ZZn

2 → ZZ2 und B ist die Wertetabelleder linearen Funktion 〈b, s2〉 : ZZn2

2 → ZZ2. Wir beachten

A(x) · A(y) = 〈a, x〉 · 〈a, y〉 =n∑i,j

ai · xi · aj · yj = xT · (ai · aj)i,j · y

undB(x⊗ y) = 〈b, x⊗ y〉 =

∑i,j

xi · bi,j · yj = xT · (bi,j)i,j · y.

Da wir B 6= A ⊗ A angenommen haben, ist die Matrix (ai · aj)i,j − (bi,j)i,j nicht dieNullmatrix. Ihr Kern hat somit die Dimension höchstens n− 1 und ein zufällig gewählterVektor gehört mit Wahrscheinlichkeit mindestens 1

2 nicht zum Kern. Es ist also

prob[(ai · aj)i,j · y = (bi,j)i,j · y] ≤ 12

Andererseits folgt

prob[ xT · (ai · aj)i,j · y = xT · (bi,j)i,j · y | (ai · aj)i,j · y 6= (bi,j)i,j · y ] = 12

bei fest gewähltem Vektor y mit Behauptung 10.1. Damit wird also der Tensor Test in die-sem Fall mit einer Wahrscheinlichkeit von mindestens 1

4 verwerfen. Ein analoges Argumentweist dieselbe Fehlerwahrscheinlichkeit auch im Falle c 6= a⊗ b nach.

Wir behandeln die letzte vorhandene Verstoß-Möglichkeit, nämlich den Fall, dass A nichtdie Wertetabelle einer linearen Funktionen ist. Tatsächlich können wir mit konstant vielenAnfragen Verstöße gegen die Linearität im Allgemeinen nicht feststellen. Können wir aberzumindest schwere Verstöße gegen die Linearität feststellen?

Definition 10.2 Seien f1, f2 : ZZm2 → ZZ2 vorgegeben und sei δ ∈ [0, 1]. Dann heißen f1

und f2 δ-nahe, falls| x ∈ ZZm

2 | f1(x) 6= f2(x) | ≤ δ · 2m.f1 heißt δ-linear, falls es eine lineare Funktion f2 gibt, so dass f1 und f2 δ-nahe sind.

Die Algorithmen 10.1 und 10.2 fragen konstant viele Funktionswerte der Funktion A nach.Wenn aber die im Beweis repräsentierte Funktion δ-linear ist und wenn 1

δwesentlich größer

als die Anzahl der Anfragen ist, dann nehmen unsere Protokolle die Funktionen „als linearwahr“. Das folgende Protokoll wird die δ-Linearität bei genügend häufiger Wiederholungmit hoher Wahrscheinlichkeit richtig feststellen.

237

Algorithmus 10.3 Test für δ-Linearität.

Die Eingabe bestehe aus einer Funktion f : ZZn2 → ZZ2.

(1) Der Verifier wählt zufällige Vektoren x, y ∈ ZZn2 .

(2) Der Verifier fragt nach den Funktionswerten f(x), f(y) und f(x ⊕ y) und akzeptiertgenau dann, wenn f(x)⊕ f(y) = f(x⊕ y).

Behauptung 10.3 Sei δ < 13 und für die Funktion f : ZZn

2 → ZZ2 gelte

probx,y[ f(x) 6= f(x⊕ y)⊕ f(y) ] ≤ δ

2 . (10.2)

Dann ist f δ-linear.

Beweisskizze von Behauptung 10.3: Wir müssen zeigen, dass f δ-linear ist und kon-struieren deshalb eine lineare Funktion g, die δ-nahe zu f ist. Wir setzen

g(x) = b ⇔ für mindestens die Hälfte aller y ∈ ZZn2 ist f(x⊕ y)⊕ f(y) = b.

Wir zeigen zuerst, dass f und g δ-nahe sind. Nach Definition von g gilt

proby[ g(x) = f(x⊕ y)⊕ f(y) ] ≥ 12 (10.3)

für jedes x ∈ ZZn2 . Für jedes x mit g(x) 6= f(x) folgt deshalb

proby[ f(x) 6= f(x⊕ y)⊕ f(y) ] ≥ 12

und wir erhaltenprobx,y[ f(x) 6= f(x⊕ y)⊕ f(y) ] > δ

2 ,

wenn f und g sich auf mehr als δ · 2n Vektoren unterscheiden. Da dies der Annahme derBehauptung widerspricht, sind f und g also δ-nahe. Um die Linearität von g nachzuweisen,zeigen wir zuerst, dass die Abschätzung (10.3) verbessert werden kann. Wir behauptennämlich, dass sogar

px = proby[ g(x) = f(x+ y)⊕ f(y) ] ≥ 1− δ (10.4)

für jedes x ∈ ZZn2 gilt. Zum Nachweis fixieren wir x und erhalten zuerst

proby,z[ f(x⊕ y ⊕ z) 6= f(x⊕ y)⊕ f(z) ], proby,z[ f(x⊕ y ⊕ z) 6= f(x⊕ z)⊕ f(y) ] ≤ δ

2


aus der Annahme der Behauptung. Mit Wahrscheinlichkeit mindestens 1−δ gilt also f(x⊕y)⊕ f(z) = f(x⊕ y ⊕ z) = f(x⊕ z)⊕ f(y) und als Konsequenz ist

1− δ ≤ proby,z[ f(x⊕ y)⊕ f(z) = f(x⊕ z)⊕ f(y) ]=

∑b∈0,1

proby[ b = f(x⊕ y)⊕ f(y) ] · probz[ b = f(x⊕ z)⊕ f(z) ]

=∑

b∈0,1proby[ b = f(x⊕ y)⊕ f(y) ]2

= p2x + (1− px)2

≤ p2x + px · (1− px) denn px ≥ 1

2= px

und (10.4) folgt. Die Behauptung des Lemmas ergibt sich jetzt aus der folgenden Übungs-aufgabe.

Aufgabe 114Zeige mit Hilfe von (10.4), dass g linear ist.Hinweis: In der Behauptung wird δ < 1

3 gefordert.

Durch genügend häufige Wiederholung von Algorithmus 10.3 können wir also den Gradder Linearität entsprechend steigern. Die Strategie des Verifiers lässt sich jetzt vollständigbeschreiben.

Algorithmus 10.4 Überprüfung der Erfüllbarkeit einer Formel φ.Sei a eine nicht notwendigerweise erfüllende Belegung von φ. Der Verifier nimmt an, dassder Beweis aus Funktionstabellen für die linearen Funktionen

A(x) = 〈a, x〉, B(y) = 〈a⊗ a, y〉 und C(z) = 〈a⊗ a⊗ a, z〉

besteht. Der Verifier muss die Richtigkeit dieser Annahme überprüfen.(1) Die Linearität der Funktionen A,B und C wird mit Algorithmus 10.3 überprüft.(2) Die Tensor-Struktur der Funktionen B und C wird mit Algorithmus 10.2 überprüft.(3) Der Verifier akzeptiert genau dann, wenn Algorithmus 10.1 akzeptiert. Mit anderenWorten:

- Der Verifier wählt einen zufälligen Vektor w ∈ ZZn2 und berechnet cw, S1(w), S2(w)

und S3(w) aus w und φ.

- Er fordert die Bits ∑i∈S1(w)

ai,∑

(i,j)∈S2(w)ai · aj,

∑(i,j,k)∈S3(w)

ai · aj · ak

an und

239

- akzeptiert genau dann, wenn

cw ⊕∑

i∈S1(w)ai ⊕

∑(i,j)∈S2(w)

ai · aj ⊕∑

(i,j,k)∈S3(w)ai · aj · ak = 0

gilt.

Wir können jetzt dn Beweis von Lemma 10.1 abschließen. Algorithmus 10.4 arbeitet inpolynomieller Zeit. Seine Korrektheit folgt aus der Korrektheit der aufgerufenen Algo-rithmen. Da jeder dieser aufgerufenen Algorithmen nur konstant viele Beweisbits nach-fragt, werden somit insgesamt nur konstant viele Beweisbits nachgefragt: 3-SAT liegt inPCP(poly(n), O(1)).

Bemerkung 10.1 Beachte, dass der „erfolgreiche“ Beweis aus den drei Funktionstabellenbesteht. Dieser Beweis hat exponentielle Länge!

Documents

SkriptzurVorlesung „Komplexitätstheorie“ · Kapitel1 Einleitung Wie schwierig ist ein algorithmisches Problems, oder genauer, wieviel Ressourcen –wie etwa Laufzeit und Speicherplatz–