Amazon Polly - Entwicklerhandbuch · Amazon Polly Entwicklerhandbuch Verwenden Sie Amazon Polly zum ersten Mal? Was ist Amazon Polly? Amazon Polly ist ein Cloud-Service, der Text

Amazon PollyEntwicklerhandbuch

Amazon Polly Entwicklerhandbuch

Amazon Polly: EntwicklerhandbuchCopyright © 2019 Amazon Web Services, Inc. and/or its affiliates. All rights reserved.

Amazon's trademarks and trade dress may not be used in connection with any product or service that is not Amazon's,in any manner that is likely to cause confusion among customers, or in any manner that disparages or discreditsAmazon. All other trademarks not owned by Amazon are the property of their respective owners, who may or may notbe affiliated with, connected to, or sponsored by Amazon.


Table of ContentsWas ist Amazon Polly? ....................................................................................................................... 1

Verwenden Sie Amazon Polly zum ersten Mal? .............................................................................. 1Funktionsweise ................................................................................................................................... 3

Die nächsten Themen ................................................................................................................. 3Stimmen in Amazon Polly ............................................................................................................ 3

Verfügbare Stimmen ........................................................................................................... 4Anhören der Stimmen ......................................................................................................... 6Sprechgeschwindigkeit ........................................................................................................ 7

Häufige Fragen .......................................................................................................................... 8Allgemeine Fragen .............................................................................................................. 8Inhalt-Rendering ................................................................................................................. 8Datensicherheit und Vertraulichkeit ........................................................................................ 9

Erste Schritte ................................................................................................................................... 11Schritt 1: Einrichten eines Kontos und eines Benutzers ................................................................... 11

Schritt 1.1: Registrieren bei AWS ........................................................................................ 11Schritt 1.2: Erstellen eines IAM-Benutzers ............................................................................ 12Nächster Schritt ................................................................................................................ 12

Schritt 2: Erste Schritte mit der Konsole ....................................................................................... 13Übung 1: Schnelleinstieg in die Sprachausgabegenerierung (Konsole) ....................................... 13Übung 2: Generieren einer Sprachausgabe (aus einfachem Eingabetext) ................................... 13Nächster Schritt ................................................................................................................ 14

Schritt 3: Erste Schritte mit der AWS CLI ...................................................................................... 14Schritt 3.1: Einrichten vonAWS CLI ..................................................................................... 14Schritt 3.2: Einstiegsübung ................................................................................................. 16

Die nächsten Themen ............................................................................................................... 17Einrichten von Python und Testen des Beispielcodes ............................................................. 17

Stimmen in Amazon Polly .................................................................................................................. 19Verfügbare Stimmen ................................................................................................................... 4Zweisprachige Stimmen ............................................................................................................. 20Anhören der Stimmen ................................................................................................................. 6Sprechgeschwindigkeit ................................................................................................................ 7

Ändern Ihrer Sprechgeschwindigkeit .................................................................................... 22Von Amazon Polly unterstützte Sprachen ..................................................................................... 23

Sprachmarkierungen .......................................................................................................................... 25Typen von Sprachmarkierungen .................................................................................................. 25

Mundbilder und Amazon Polly ............................................................................................ 25Verwenden von Sprachmarkierungen ........................................................................................... 26

Anfordern von Sprachmarkierungen ..................................................................................... 26Sprachmarkierungsausgaben .............................................................................................. 27Beispiele für Sprachmarkierungen ....................................................................................... 28

Anfordern von Sprachmarkierungen über die Amazon Polly-Konsole ................................................. 29Verwenden von SSML ....................................................................................................................... 31

Verwenden von SSML in der Konsole .......................................................................................... 31Verwenden von SSML in der AWS-CLI ........................................................................................ 32

Verwenden von SSML mit dem Befehl „Synthesize-Speech“ .................................................... 33Generieren eines Dokuments mit verbesserten SSML-Tags ..................................................... 34Verwenden von SSML für typische Amazon Polly-Aufgaben .................................................... 34

Von Amazon Polly unterstützte SSML-Tags .................................................................................. 37Unterstützte SSML-Tags .................................................................................................... 37

Verwalten von Lexika ....................................................................................................................... 135Anwenden mehrerer Lexika ...................................................................................................... 135Verwalten von Lexika mithilfe der Konsole .................................................................................. 136

Hochladen von Lexika mithilfe der Konsole ......................................................................... 136Anwenden von Lexika mithilfe der Konsole (synthetische Sprache) .......................................... 137

iii


Filtern der Lexikonliste mithilfe der Konsole ......................................................................... 138Herunterladen von Lexika mithilfe der Konsole ..................................................................... 138Löschen eines Lexikons mithilfe der Konsole ....................................................................... 139

Verwalten von Lexika mithilfe der AWS CLI ................................................................................ 139PutLexicon ..................................................................................................................... 139GetLexicon ..................................................................................................................... 144ListLexicons .................................................................................................................... 145DeleteLexicon ................................................................................................................. 145

Lange Audiodateien erstellen ............................................................................................................ 147Einrichten der IAM-Richtlinie für die asynchrone Synthese ............................................................ 147Lange Audiodateien erstellen (Konsole) ...................................................................................... 148Lange Audiodateien erstellen (CLI) ............................................................................................ 149

Code und Anwendungsbeispiele ........................................................................................................ 152Beispiel-Code ......................................................................................................................... 152

Java-Beispiele ................................................................................................................ 152Python-Beispiele ............................................................................................................. 159

Beispielanwendungen .............................................................................................................. 163Python-Beispiel ............................................................................................................... 163Java-Beispiel .................................................................................................................. 173iOS-Beispiel .................................................................................................................... 177Android-Beispiel .............................................................................................................. 179

WordPress-Plugin ............................................................................................................................ 181Einrichten des Plugins ............................................................................................................. 181

Erstellen einer Berechtigungsrichtlinie ................................................................................. 181Erstellen eines IAM-Benutzers für das Plugin ...................................................................... 182Plugin installieren und konfigurieren ................................................................................... 183Anpassen von WordPress ................................................................................................ 184Speichern der Audiodateien .............................................................................................. 186

Einschränkungen ............................................................................................................................. 189Unterstützte Regionen .............................................................................................................. 189Drosselung ............................................................................................................................. 189Aussprachelexika .................................................................................................................... 189API-Operation "SynthesizeSpeech" ............................................................................................ 190SpeechSynthesisTask-API-Operationen ...................................................................................... 190Speech Synthesis Markup Language (SSML) .............................................................................. 190

Protokollieren von Amazon Polly-API-Aufrufen mit AWS CloudTrail ......................................................... 191Amazon Polly-Informationen in CloudTrail ................................................................................... 191Beispiel: Amazon Polly-Protokolldateieinträge .............................................................................. 192

Integration von CloudWatch .............................................................................................................. 194Abrufen von CloudWatch-Metriken (Konsole) ............................................................................... 194Abrufen von CloudWatch-Metriken (CLI) ..................................................................................... 194Amazon Polly-Metriken ............................................................................................................. 195Dimensionen für Amazon Polly-Metriken ..................................................................................... 196

API-Referenz .................................................................................................................................. 197Actions .................................................................................................................................. 197

DeleteLexicon ................................................................................................................. 198DescribeVoices ............................................................................................................... 200GetLexicon ..................................................................................................................... 203GetSpeechSynthesisTask ................................................................................................. 205ListLexicons .................................................................................................................... 207ListSpeechSynthesisTasks ................................................................................................ 209PutLexicon ..................................................................................................................... 211StartSpeechSynthesisTask ................................................................................................ 213SynthesizeSpeech ........................................................................................................... 219

Data Types ............................................................................................................................ 223Lexicon .......................................................................................................................... 224LexiconAttributes ............................................................................................................. 225

iv


LexiconDescription .......................................................................................................... 227SynthesisTask ................................................................................................................ 228Voice ............................................................................................................................. 231

Authentifizierung und Zugriffskontrolle ................................................................................................ 233Authentifizierung ...................................................................................................................... 233Zugangskontrolle ..................................................................................................................... 234Übersicht über die Verwaltung des Zugriffs ................................................................................. 235

Amazon Polly-Ressourcen und -Operationen ....................................................................... 235Grundlegendes zum Eigentum an Ressourcen ..................................................................... 235Verwalten des Zugriffs auf Ressourcen ............................................................................... 236Festlegen der Richtlinienelemente: Aktionen, Effekte und Prinzipale ........................................ 237Angeben von Bedingungen in einer Richtlinie ...................................................................... 238

Verwenden von identitätsbasierten Richtlinien (IAM-Richtlinien) ...................................................... 238Erforderliche Berechtigungen für die Verwendung der Amazon Polly-Konsole ............................ 239Von AWS verwaltete (vordefinierte) Richtlinien für Amazon Polly ............................................. 240Beispiele für vom Kunden verwaltete Richtlinien ................................................................... 240

Referenztabelle für Amazon Polly-API-Berechtigungen .................................................................. 242Dokumentverlauf ............................................................................................................................. 244AWS-Glossar .................................................................................................................................. 246

v

Amazon Polly EntwicklerhandbuchVerwenden Sie Amazon Polly zum ersten Mal?

Was ist Amazon Polly?Amazon Polly ist ein Cloud-Service, der Text in natürliche Sprache konvertiert. Sie können Amazon Pollyverwenden, um Anwendungen zu entwickeln, die das Engagement und die Verfügbarkeit erhöhen. AmazonPolly unterstützt mehrere Sprachen und umfasst eine Vielzahl lebensechter Stimmen. So können SieAnwendungen mit Sprachfunktion erstellen, die in verschiedenen Regionen funktionieren und immer dieideale Stimme für Ihre Kunden verwenden. Bei Amazon Polly zahlen Sie nur für den Text, aus dem eineSprachausgabe generiert wird. Die von Amazon Polly erzeugte Sprachausgabe kann ohne zusätzlicheKosten zwischengespeichert und wiedergegeben werden.

Häufige Anwendungsfälle für Amazon Polly sind u. a. mobile Anwendungen wie Newsreader, Spiele,eLearning-Plattformen, barrierefreie Anwendungen für sehbehinderte Personen sowie der schnellwachsende Bereich der IoT-Geräte (Internet of Things).

Amazon Polly ist zertifiziert für die Verwendung mit regulierten Workloads für HIPAA (Health InsurancePortability and Accountability Act von 1996) und GovCloud.

Amazon Polly ist nicht für die Verwendung mit PCI-DSS (Payment Card Industry Data Security Standard)oder FedRAMP zertifiziert.

Die Nutzung von Amazon Polly bietet unter anderem folgende Vorteile:

• Hohe Qualität: Amazon Polly verwendet eine erstklassige Sprachausgabetechnologie, um natürlicheSprache mit hoher Aussprachegenauigkeit zu generieren (einschließlich Abkürzungen, Langform vonAkronymen, Interpretation von Datum/Uhrzeit und Klärung von Homografen).

• Niedrige Latenz: Amazon Polly sorgt für schnelle Reaktionszeiten, wodurch es sich gut für

Anwendungsfälle wie Dialogsysteme eignet, in denen eine geringe Latenz Voraussetzung ist.

• Unterstützung einer breiten Palette an Sprachen und Stimmen: Amazon Polly unterstützt Dutzende

von Stimmen und mehrere Sprachen und bietet für die meisten Sprachen sowohl männliche als auchweibliche Stimmen.

• Kosteneffektiv: – Dank des nutzungsabhängigen Modells von Amazon Polly fallen keine

Einrichtungskosten an. Sie können klein anfangen und das System an Ihre wachsende Anwendunganpassen.

• Cloud-basierte Lösung: In Geräte integrierte Sprachausgabelösungen erfordern erhebliche

Datenverarbeitungsressourcen, insbesondere CPU-Leistung, RAM und Festplattenspeicher. Dieskann zu höheren Entwicklungskosten und höherem Stromverbrauch bei Geräten wie Tablets,Smartphones usw. führen. Im Gegensatz dazu reduziert die Umwandlung von Text zu Sprache in derCloud den lokalen Ressourcenbedarf deutlich. So können alle verfügbaren Sprachen und Stimmenmit bestmöglicher Qualität unterstützt werden. Darüber hinaus sind Sprachverbesserungen für alleEndbenutzer sofort verfügbar und erfordern keine zusätzliche Aktualisierung der Geräte.

Verwenden Sie Amazon Polly zum ersten Mal?Wenn Sie Amazon Polly zum ersten Mal verwenden, empfehlen wir, sich die folgenden Abschnittenacheinander durchzulesen:

1

Amazon Polly EntwicklerhandbuchVerwenden Sie Amazon Polly zum ersten Mal?

1. Amazon Polly: Funktionsweise (p. 3): Dieser Abschnitt enthält eine Einführung in verschiedeneAmazon Polly-Eingaben und -Optionen, die Sie verwenden können, um eine durchgehende Erfahrung zuschaffen.

2. Erste Schritte mit Amazon Polly (p. 11): In diesem Abschnitt erstellen Sie Ihr Konto und testen dieSprachausgabe mit Amazon Polly.

3. Beispielanwendungen (p. 163): In diesem Abschnitt finden Sie weitere Beispiele, mit deren Hilfe Siesich mit Amazon Polly vertraut machen können.

2

Amazon Polly EntwicklerhandbuchDie nächsten Themen

Amazon Polly: FunktionsweiseAmazon Polly wandelt Eingabetext in natürliche gesprochene Sprache um. Sie müssen nur eine derMethoden zur Generierung von Sprachausgabe aufrufen, den zu generierenden Text eingeben, eineder verfügbaren "Text-to-Speech (TTS)"-Stimmen auswählen und ein Audioausgabeformat festlegen.Anschließend generiert Amazon Polly aus dem bereitgestellten Text einen hochwertigen Sprach-Audiostream.

• Eingabetext: Geben Sie den zu synthetisierenden Text ein. Amazon Polly generiert daraus einenAudiostream. Die Eingabedaten können im Nur-Text- oder im SSML-Format (Speech Synthesis MarkupLanguage) bereitgestellt werden. Bei SSML können Sie verschiedene Sprachaspekte wie Aussprache,Lautstärke, Tonlage und Sprechgeschwindigkeit steuern. Weitere Informationen finden Sie unterGenerieren von Sprachausgaben aus SSML-Dokumenten (p. 31).

• Verfügbare Stimmen: Amazon Polly bietet ein Portfolio mehrerer Sprachen und eine Vielzahl von

Stimmen, einschließlich einer zweisprachigen Stimme (sowohl für Englisch und Hindi). Bei den meistenSprachen haben Sie die Wahl zwischen verschiedenen männlichen und weiblichen Stimmen. Siemüssen die Stimm-ID nur beim Starten der Sprachsyntheseaufgabe angeben. Der Service verwendetdann diese Stimme, um den Text in Sprache umzuwandeln. Amazon Polly ist kein Übersetzungsdienst– die Sprachausgabe erfolgt in der Sprache, in der der Text abgefasst ist. Jedoch werden Zahlen mitZiffern (z. B. 53 anstatt dreiundfünfzig) in der Sprache der gewählten Stimme ausgegeben. WeitereInformationen finden Sie unter Stimmen in Amazon Polly.

• Ausgabeformat: Amazon Polly kann die generierten Sprachinhalte in mehreren Formaten ausgeben.

Wählen Sie das Audioformat, das Ihren Anforderungen am besten entspricht. Entscheiden Sie sichbeispielsweise für das MP3- oder Ogg Vorbis-Format, um die Sprachausgabe in Web- und mobilenAnwendungen zu nutzen. Das PCM-Ausgabeformat eignet sich dagegen für AWS IoT-Geräte undTelefonielösungen.

Die nächsten ThemenFalls Sie Amazon Polly noch nicht kennen, sollten Sie die folgenden Themen in der angegebenenReihenfolge lesen:

• Erste Schritte mit Amazon Polly (p. 11)• Beispielanwendungen (p. 163)• Einschränkungen in Amazon Polly (p. 189)

Stimmen in Amazon PollyAmazon Polly bietet eine Vielzahl verschiedener Stimmen in mehreren Sprachen, die verwendet werden,wenn Sprache aus Text synthetisiert wird.

3

https://docs.aws.amazon.com/polly/latest/dg/voices-in-polly.html

Amazon Polly EntwicklerhandbuchVerfügbare Stimmen

Verfügbare Stimmen

SpracheWeiblicheNamen/ID

MännlicheNamen/ID

Arabisch(arb)Zeina

Chinesisch,Mandarin(cmn-CN)

Zhiyu

Dänisch(da-DK)

NajaMads

Niederländisch(nl-NL)

LotteRuben

Englisch(australisch)(en-AU)

NicoleRussell

Englisch(britisch)(en-GB)

Amy

Emma

Brian

Englisch(indisch)(en-IN)

Aditi(zweisprachigmitHindi)

Raveena

Englisch(amerikanisch)(en-US)

Ivy

Joanna

Kendra

Kimberly

Salli

Joey

Justin

Matthew

Englisch(walisisch)(en-GB-WLS)

Geraint

Französisch(fr-FR)

Céline/CelineMathieu

4



MännlicheNamen/ID

KanadischesFranzösisch(fr-CA)

Chantal

Deutsch(de-DE)

Marlene

Vicki

Hans

Hindi(hi-IN)

Aditi(zweisprachigmitindischemEnglisch)

Isländisch(is-IS)

Dóra/DoraKarl

Italienisch(it-IT)

Carla

Bianca

Giorgio

Japanisch(ja-JP)

MizukiTakumi

Koreanisch(ko-KR)

Seoyeon

Norwegisch(nb-NO)

Liv

Polnisch(pl-PL)

Ewa

Maja

Jacek

Jan.

Portugiesisch(brasilianisch)(pt-BR)

Vitória/VitoriaRicardo

Portugiesisch(europäisch)(pt-PT)

Inês/InesCristiano

Rumänisch(ro-RO)

Carmen

5

Amazon Polly EntwicklerhandbuchAnhören der Stimmen


MännlicheNamen/ID

Russisch(ru-RU)

TatyanaMaxim

Spanisch(europäisch)(es-ES)

Conchita

Lucia

Enrique

Spanisch(mexikanisch)(es-MX)

Mia

Spanisch(USA)(es-US)

Penélope/PenelopeMiguel

Schwedisch(sv-SE)

Astrid

Türkisch(tr-TR)

Filiz

Walisisch(cy-GB)

Gwyneth

Um eine kontinuierliche Unterstützung der Kunden zu gewährleisten, planen wir nicht Stimmeneinzustellen. Dies gilt sowohl für die derzeit verfügbaren als auch für zukünftige Stimmen.

Anhören der StimmenSie können die Amazon Polly-Konsole verwenden, um sich ein Beispiel einer der verfügbaren Stimmen inAmazon Polly anzuhören

So hören Sie sich eine Stimme in Amazon Polly an

1. Melden Sie sich an bei der AWS-Managementkonsole an und öffnen Sie die Amazon Polly-Konsole.2. Wählen Sie die Registerkarte Text-to-Speech.3. Wählen Sie eine Sprache, eine Region und eine Stimme aus4. Geben Sie Text ein, den die Stimme sprechen soll, oder verwenden Sie die Standardwortgruppe und

wählen Sie dann Listen to speech (Sprache anhören).

Sie können alle von Amazon Polly angebotenen Sprachen wählen. Die Konsole zeigt die für diese Spracheverfügbaren Stimmen an. In den meisten Fällen gibt es mindestens eine männliche und eine weiblicheStimme, oft mehr als jeweils eine. Eine Stimme ist zweisprachig (Hindi und indisches Englisch) und einigehaben nur eine einzige Stimme.

6

https://console.aws.amazon.com/polly/

Amazon Polly EntwicklerhandbuchSprechgeschwindigkeit

Note

Das Stimmenverzeichnis und die Anzahl der enthaltenen Sprachen werden laufend aktualisiert,um weitere Optionen einzubeziehen. Um eine neue Sprache oder Stimme vorzuschlagen, könnenSie uns auf dieser Seite Ihr Feedback hinterlassen. Leider sind wir nicht in der Lage, Pläne für dieVeröffentlichung bestimmter neuer Sprachen zu kommentieren.

Jede Stimme wird mithilfe von Muttersprachlern erstellt, sodass es je nach Stimme Variationen geben kann,auch in derselben Sprache. Bei der Auswahl einer Stimme für Ihr Projekt sollten Sie jede mögliche Stimmemit einem Textabschnitt testen, um herauszufinden, welche sich am besten für Ihre Anforderungen eignet.

SprechgeschwindigkeitAufgrund der natürlichen Variation zwischen Stimmen spricht jede verfügbare Stimme den Text in einergeringfügig anderen Geschwindigkeit. Beispiel: Bei den Stimmen für Englisch (USA) sind Ivy und Joannaetwas schneller als Matthew und bedeutend schneller als Joey bei der Aussprache von: „Mary had a littlelamb“.

Da so viele Variationen zwischen Stimmen bestehen und der Grad der Variation vom gesprochenenText abhängen kann, ist für Amazon Polly-Stimmen keine Standardgeschwindigkeit (Wörter pro Minute)verfügbar. Sie können jedoch mittels Sprachmarkierungen herausfinden, wie lange es dauert, bis IhreStimme den ausgewählten Text spricht. Weitere Informationen zur Verwendung von Sprachmarkierungenin Amazon Polly finden Sie unter Verwenden von Sprachmarkierungen (p. 26).

So finden Sie heraus, wie lange es in etwa dauert, eine Textpassage zu sprechen

1. Öffnen Sie die AWS-CLI.2. Führen Sie den folgenden Code aus, und fügen Sie je nach Bedarf ein

aws polly synthesize-speech \ --language-code optional language code if needed --output-format json \ --voice-id [name of desired voice] \ --text '[desired text]' \ --speech-mark-types='["viseme"]' \ LengthOfText.txt

3. Öffnen Sie LengthOfText.txt

Wenn der Text "Mary had a little lamb" lautet, lauten die letzten Zeilen, die von Amazon Polly ausgegebenwerden, wie folgt:

{"time":882,"type":"viseme","value":"t"} {"time":964,"type":"viseme","value":"a"} {"time":1082,"type":"viseme","value":"p"}

Das letzte Mundbild, d. h. der Klang der letzten Buchstaben in „lamb“, beginnt 1082 Millisekunden nachdem Beginn der Sprachausgabe. Dies ist zwar nicht genau die Länge des Audiomaterials, kommt demjedoch ziemlich nahe und dient als Grundlage für den Vergleich zwischen Stimmen.

Bei bestimmten Anwendungen stellen Sie möglicherweise fest, dass Ihnen die Stimme langsamer oderschneller besser gefallen würde. Wenn die Sprechgeschwindigkeit ein Problem darstellt, bietet IhnenAmazon Polly die Möglichkeit, diese mithilfe von SSML-Tags zu ändern.

Beispiel: Wenn Ihre gewünschte Zielgruppe zwar Englisch spricht, aber nicht fließend, können Sie dieSprechgeschwindigkeit verlangsamen, um ihr etwas mehr Zeit zum Verstehen zu geben.

Mit Amazon Polly können Sie die Sprechgeschwindigkeit mithilfe des SSML-Tags <prosody>verlangsamen:

7

Amazon Polly EntwicklerhandbuchHäufige Fragen

<prosody rate="slow">Mary had a little lamb.</prosody>

Es sind fünf verschiedene Geschwindigkeitsoptionen verfügbar: x-slow, slow, medium, fast und x-fast. Die Geschwindigkeit der einzelnen Optionen ist ungefähr, der von der von Ihnen bevorzugtenStimme abhängig ist. Daher empfehlen wir das Testen der Stimme, um festzustellen, ob sie IhreAnforderungen erfüllt. Die Option medium ist die normale Sprechgeschwindigkeit.

Häufige FragenDieses Thema enthält Antworten auf Fragen, die häufig zu Amazon Polly gestellt werden.

Themen• Allgemeine Fragen (p. 8)• Inhalt-Rendering (p. 8)• Datensicherheit und Vertraulichkeit (p. 9)

Allgemeine FragenF: Meine Texte weisen unterschiedliche Codierungsstandards auf. Welchen Standard kann ich mit AmazonPolly verwenden?

Amazon Polly unterstützt derzeit nur die UTF-8-Codierung.

F: Kann ich die Sprachausgabe speichern?

Wenn Sie die SynthesizeSpeech-Operation verwenden, können Sie die Sprachausgabe für dieVerwendung auf Ihrem eigenen System speichern. Sie können auch Amazon Polly aufrufen unddann die Datei mit einem beliebigen Verschlüsselungsschlüssel verschlüsseln und in Amazon SimpleStorage Service (Amazon S3) oder einem anderen sicheren Speicher speichern. Der AmazonPolly-SynthesizeSpeech-Aufruf ist zustandslos und keiner Kundenidentität zugeordnet. Sie können esspäter nicht mehr von Amazon Polly abrufen.

Wenn Sie die StartSpeechSynthesisTask-Operation verwenden (asynchrone Synthese), wird dieAusgabe der Synthese automatisch in einem Amazon S3-Bucket gespeichert. Anschließend könnenSie diese nach Belieben abrufen. Weitere Informationen zu diesem Thema finden Sie unter LangeAudiodateien erstellen (p. 147).

Inhalt-RenderingFrage: Ich möchte dieselbe Stimme in zwei verschiedenen Sprachen verwenden. Gibt es zweisprachigeStimmen?

Derzeit ist nur eine Stimme zweisprachig: Aditi (Hindi und indisches Englisch). Die Verwendung einerzweisprachigen Stimme ermöglicht Ihnen, Sprachausgabe zu generieren, die entweder eine der Sprachenfür sich alleine oder beide in einem einzigen Text enthält. Mit Aditi kann Amazon Polly auch eineSprachausgabe generieren, die sowohl Dewanagari (Hindi-Schrift) als auch Romanagari (lateinischeSchrift) enthält.

Wir arbeiten ständig daran, die Sprachoptionen von Amazon Polly zu verbessern, einschließlich derErhöhung der Anzahl von zweisprachigen Stimmen. Weitere Informationen finden Sie unter ZweisprachigeStimmen (p. 20)

F: Welche pcm-Details werden verwendet, wenn PCM als Ausgabeformat ausgewählt ist?

8

Amazon Polly EntwicklerhandbuchDatensicherheit und Vertraulichkeit

Wenn pcm verwendet wird, wird der Inhalt als audio/pcm in einem signierten 16-Bit-, einkanaligen (Mono)Little-Endian-Format zurückgegeben.

F: Ein Teil meines Textes wird mit der Betonung auf der falschen Silbe herausgegeben, wenn er vonAmazon Polly gesprochen wird. Ich habe sogar versucht, einen Accent aigu (U+0301) zu verwenden, umdie Betonung zu markieren, aber sie ist immer noch auf der falschen Silbe. Wie lässt sich dieses Problembeheben?

Amazon Polly erkennt derzeit nicht den Accent aigu (U+0301) als Silbenbetonung in einem Wort. Es gibtjedoch zwei Möglichkeiten, wie Sie die Betonung in einem Wort ändern können. Sie können ein IPA-Zeichen und SSML-Tags verwenden, um die Aussprache des Wortes zu ändern. Weitere Informationenfinden Sie unter Von Amazon Polly unterstützte SSML-Tags (p. 37). In einigen Sprachen können Sieauch einen Apostroph unmittelbar nach der Silbe verwenden, um eine Änderung der Betonung anzuzeigen.Zum Beispiel haben auf Russisch die Wörter страны und страны verschiedene Betonungen (hier miteinem Accent aigu markiert). Aufgrund der identischen Schreibweise wird Amazon Polly sie jedoch beidemit der Betonung der letzten Silbe gemäß dem Standardsprachgebrauch aussprechen. Sie können einenApostroph verwenden, um die alternativ betonte Silbe wie in стран'ы zu markieren. Amazon Polly wirddann die korrekte Silbe betonen.

F: Wenn ich Aufzählungszeichen in meinem Text verwende, werden sie von Amazon Polly nicht richtigwiedergegeben. Es sagt jedes Mal „Minus“, wenn es auftritt. Was soll ich tun?

Wenn Sie "-" (einen Bindestrich) als Ersatz für einen Aufzählungspunkt verwenden, wird dies in einigenSprachen von Amazon Polly als Minuszeichen dargestellt. Wenn Sie Bindestriche als Ersatz füreinen Aufzählungspunkt verwenden möchten, können Sie dies mit einem Lexikoneintrag tun. WeitereInformationen finden Sie unter Verwalten von Lexika (p. 135).

F: Ich benutze das „/“ (Schrägstrich)-Symbol häufig in meinem Text, besonders wenn ich „und / oder“ und„ja / nein“ sage. Wie gibt Amazon Polly dies wieder?

Im Englischen gibt Amazon Polly "und/oder" in Sprache als "und oder" wieder. Momentan ist diese Regel inanderen Sprachen nicht verfügbar. In anderen Sprachen als im Englischen, gibt Amazon Polly "ja/nein" als"ja Schrägstrich nein" aus. Wenn Sie dieses Verhalten ändern möchten, können Sie einen Lexikoneintragverwenden. Weitere Informationen finden Sie unter Verwalten von Lexika (p. 135).

F: Wenn ich Text aus einer vorhandenen Quelle verwende, um mit der AWS CLI auf einem Linux-RechnerSprache zu synthetisieren, scheinen einige UTF-8-Zeichen nicht mit Amazon Polly zu funktionieren, obwohldieselben Zeichen mit der Konsole korrekt zu funktionieren scheinen. Was passiert?

Dies basiert darauf, wie die Unix-Shell Unicode behandelt und ist kein Amazon Polly-spezifischesProblem. Zwei Optionen stehen zur Verfügung: Sie können die problematischen Zeichen finden und sie imEingabetext ersetzen, oder Sie können eine alternative Methode zum Zugriff auf Amazon Polly verwenden,bei der dieses Problem nicht auftritt, z. B. die PHP-Benutzeroberfläche. Dies ist ein bekanntes Problem, andem wir arbeiten und nur einige wenige ungewöhnliche Unicode-Zeichen haben dieses Problem.

F: Wenn ich versuche, Text aus einer Quelle mit IPA-Symbolen (International Phonetic Alphabet) zusynthetisieren, erkennt Amazon Polly diese nicht und versucht sogar, einige davon auszusprechen. Wielässt sich dieses Problem beheben?

Amazon Polly erkennt IPA-Symbole nicht, es sei denn, sie werden mit SSML (Speech SynthesisMarkup Language) beschrieben. Da jedoch kleine Abschnitte von IPA-Symbolen normalerweise einenAussprachehilfe für einen Leser angeben, kann dieser Abschnitt in vielen Fällen durch einfaches Löschenaus dem Eingabetext entfernt werden. Sie können auch ein Lexikon verwenden, um die Art der Darstellungdurch Amazon Polly zu ändern. Weitere Informationen finden Sie unter Generieren von Sprachausgabenaus SSML-Dokumenten (p. 31) und Verwalten von Lexika (p. 135).

Datensicherheit und VertraulichkeitF: Kann ich die Anforderungsprotokollierung mit Anforderungs-APIs deaktivieren?

9

Amazon Polly EntwicklerhandbuchDatensicherheit und Vertraulichkeit

Ja, Sie können dies anfordern, indem Sie sich an AWS Support wenden.

F: Kann ich bestimmte Datenfelder so maskieren, dass sie nicht gespeichert werden? (Wenn ichbeispielsweise Text mit vertraulichen Daten konvertiere, ihn aber nicht auf den AWS-Systemen speichernmöchte, kann ich ihn dann maskieren?

Nein. Amazon Polly bietet derzeit keine Unterstützung für diese Funktion.

F: Der Text, den ich mit Amazon Polly verwenden möchte, ist vertraulich. Wie werden meine Datengeschützt?

Alle Textübermittlungen werden während der Übertragung durch Secure Sockets Layer (SSL) geschütztund unter Verwendung von RSA-Verschlüsselung gespeichert. Wir halten die Serviceprotokolle und denText getrennt, damit der Inhalt nicht mit der Kunden-ID verknüpft werden kann. Als Ergebnis verbindetAmazon Polly keine Texteinreichungen mit der Kundenidentität.

F: Wie lange werden Daten aufbewahrt?

Amazon Polly behält Daten für 14 Tage. Danach werden sie automatisch von unserem System gelöscht.

F: Kann ich anfordern, die Daten zuvor gelöscht werden müssen?

Ja, Sie können dies anfordern, indem Sie sich an AWS Support wenden.

10

https://aws.amazon.com/contact-us/?nc2=h_l2_su

https://aws.amazon.com/contact-us/?nc2=h_l2_su

Amazon Polly EntwicklerhandbuchSchritt 1: Einrichten eines Kontos und eines Benutzers

Erste Schritte mit Amazon PollyAmazon Polly stellt einfache API-Operationen bereit, die sich unkompliziert in bereits vorhandeneAnwendungen integrieren lassen. Eine Liste der unterstützten Operationen finden Sie unterActions (p. 197). Sie haben die Wahl zwischen den folgenden Optionen:

• AWS-SDKs: Wenn Sie die SDKs verwenden, werden Ihre Anforderungen an Amazon Polly automatischmit den Anmeldeinformationen signiert und authentifiziert, die Sie angeben. Diese Variante ist dieempfohlene Option für die Anwendungsprogrammierung.

• AWS CLI: Über die AWS CLI können Sie auf sämtliche Amazon Polly-Funktionen zugreifen, ohne Codeschreiben zu müssen.

In den folgenden Artikeln finden Sie Informationen zur Einrichtung sowie eine Einführungsübung.

Themen• Schritt 1: Einrichten eines AWS-Kontos und Erstellen eines Benutzers (p. 11)• Schritt 2: Erste Schritte mit der Konsole (p. 13)• Schritt 3: Erste Schritte mit der AWS CLI (p. 14)• Die nächsten Themen (p. 17)

Schritt 1: Einrichten eines AWS-Kontos undErstellen eines Benutzers

Bevor Sie Amazon Polly zum ersten Mal verwenden, führen Sie die folgenden Schritte aus:

1. Schritt 1.1: Registrieren bei AWS (p. 11)2. Schritt 1.2: Erstellen eines IAM-Benutzers (p. 12)

Schritt 1.1: Registrieren bei AWSBei Ihrer ersten Amazon Web Services (AWS)-Anmeldung wird Ihr Konto automatisch für alle Dienste inAWS – einschließlich Amazon Polly – registriert. Berechnet werden Ihnen aber nur die Services, die Sienutzen.

Mit Amazon Polly zahlen Sie nur für die Ressourcen, die Sie wirklich nutzen. Wenn Sie ein neuer AWS-Kunde sind, können Sie kostenlos mit Amazon Polly beginnen. Weitere Informationen finden Sie unterKostenloses Nutzungskontingent für AWS.

Haben Sie bereits ein AWS-Konto, können Sie mit dem nächsten Schritt fortfahren. Wenn Sie noch keinAWS-Konto haben, führen Sie die folgenden Schritte zum Erstellen eines Kontos aus.

So erstellen Sie ein Amazon-Konto

1. Öffnen Sie https://portal.aws.amazon.com/billing/signup.

11

https://aws.amazon.com/free/

https://portal.aws.amazon.com/billing/signup

Amazon Polly EntwicklerhandbuchSchritt 1.2: Erstellen eines IAM-Benutzers

2. Folgen Sie den Onlineanweisungen.

Der Anmeldeprozess beinhaltet auch einen Telefonanruf und die Eingabe eines Verifizierungscodesüber die Telefontastatur.

Notieren Sie sich die ID Ihres AWS-Kontos. Sie benötigen sie im nächsten Schritt.

Schritt 1.2: Erstellen eines IAM-BenutzersWenn Sie in AWS auf Services wie Amazon Polly zugreifen, müssen Sie Anmeldeinformationen angeben.So kann der Service ermitteln, ob Sie über die notwendigen Berechtigungen für den Zugriff auf seineRessourcen verfügen. Für die Konsole müssen Sie Ihr Passwort eingeben. Sie können für Ihr AWS-KontoZugriffsschlüssel erstellen, um auf die AWS CLI oder die API zuzugreifen. Wir raten Ihnen jedoch davonab, mittels der Anmeldeinformationen für Ihr AWS-Konto auf AWS zuzugreifen. Stattdessen empfehlen wir,AWS Identity and Access Management (IAM) zu verwenden. Erstellen Sie einen IAM-Benutzer und fügenSie den Benutzer zu einer IAM-Gruppe mit Administrator-Berechtigungen hinzu. Anschließend gewährenSie dem von Ihnen erstellten IAM-Benutzer administrative Berechtigungen. Danach können Sie mithilfeeiner speziellen URL und der Anmeldeinformationen des IAM-Benutzers auf AWS zugreifen.

Wenn Sie sich zwar bei AWS angemeldet, aber für sich selbst keinen IAM-Benutzer erstellt haben, könnenSie mithilfe der IAM-Konsole einen Benutzer erstellen.

Für die Erste-Schritte-Übungen in diesem Handbuch wird davon ausgegangen, dass Sie einen Benutzernamens (adminuser) mit Administratorrechten haben. Befolgen Sie die Schritte zum Einrichten desadminuser in Ihrem Konto.

Erstellen eines Administrator-Benutzers und Anmelden in der Konsole

1. Erstellen Sie einen Administrator-Benutzer namens adminuser in Ihrem AWS-Konto. Anweisungenfinden Sie unter Erstellen Ihres ersten Administratorbenutzers und Ihrer ersten Administratorgruppe inIAM im IAM-Benutzerhandbuch.

2. Ein Benutzer kann sich in der AWS Management Console mit einer speziellen URL anmelden.Weitere Informationen finden Sie unter Wie sich Benutzer bei Ihrem Konto anmelden im IAM-Benutzerhandbuch.

Important

In den Einstiegsübungen werden die Anmeldeinformationen des Administratorbenutzersverwendet. Für höhere Sicherheit empfehlen wir, zum Programmieren und Testen vonProduktionsanwendungen einen servicespezifischen Administratorbenutzer zu erstellen,der ausschließlich Berechtigungen zur Durchführung von Amazon Polly-Aktionen hat. EineBeispielrichtlinie, die Amazon Polly-spezifische Berechtigungen erteilt, finden Sie unter Beispiel 1:Erlauben sämtlicher Amazon Polly-Aktionen (p. 240).

Weitere Informationen zu IAM finden Sie unter:

• AWS Identity and Access Management (IAM)• Erste Schritte• IAM-Benutzerhandbuch

Nächster SchrittSchritt 2: Erste Schritte mit der Konsole (p. 13)

12

https://docs.aws.amazon.com/IAM/latest/UserGuide/getting-started_create-admin-group.html

https://docs.aws.amazon.com/IAM/latest/UserGuide/getting-started_create-admin-group.html

https://docs.aws.amazon.com/IAM/latest/UserGuide/getting-started_how-users-sign-in.html

https://aws.amazon.com/iam/

https://docs.aws.amazon.com/IAM/latest/UserGuide/getting-started.html

https://docs.aws.amazon.com/IAM/latest/UserGuide/

Amazon Polly EntwicklerhandbuchSchritt 2: Erste Schritte mit der Konsole

Schritt 2: Erste Schritte mit der KonsoleDie Amazon Polly-Konsole ist die einfachste Möglichkeit, die Amazon Polly-Funktionen zur Generierungvon Sprachausgabe zu testen und zu verwenden. Die Amazon Polly-Konsole unterstützt die Generierungvon Sprachausgabe aus einfachem Eingabetext ("plain text") oder SSML-Eingabetext.

Themen• Übung 1: Schnelleinstieg in die Sprachausgabegenerierung (Konsole) (p. 13)• Übung 2: Generieren einer Sprachausgabe (aus einfachem Eingabetext) (p. 13)• Nächster Schritt (p. 14)

Übung 1: Schnelleinstieg in dieSprachausgabegenerierung (Konsole)In diesem Schnelleinstieg wird die schnellste Methode vorgestellt, die Qualität der Sprachausgabe vonAmazon Polly zu testen. Wenn Sie die Registerkarte Text-to-Speech auswählen, wird im Textfeld für dieTexteingabe automatisch ein Beispieltext geladen, sodass Sie Amazon Polly sofort testen können.

So funktioniert ein Schnelltest von Amazon Polly

1. Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die Amazon Polly-Konsole unterhttps://console.aws.amazon.com/polly/.

2. Wählen Sie die Registerkarte Text-to-Speech.3. (Optional) Wählen Sie SSML aus.4. Wählen Sie eine Sprache, eine Region und eine Stimme aus.5. Wählen Sie Listen to speech.

Anleitungen für umfassendere Tests finden Sie in den folgenden Artikeln:

• Übung 2: Generieren einer Sprachausgabe (aus einfachem Eingabetext) (p. 13)• Verwenden von SSML (Konsole) (p. 31)• Anwenden von Lexika mithilfe der Konsole (synthetische Sprache) (p. 137)

Übung 2: Generieren einer Sprachausgabe (auseinfachem Eingabetext)Nachfolgend ist erläutert, wie Sie eine Sprachausgabe aus einfachem Eingabetext ("plain text") generierenkönnen. Beachten Sie vor allem die Sprachausgabe für "W3C" und das Datum "10/3" (3. Oktober).

So generieren Sie eine Sprachausgabe aus einfachem Eingabetext:

1. Wählen Sie nach der Anmeldung bei der Amazon Polly-Konsole Get started (Erste Schritte) undwählen Sie dann die Registerkarte Text-to-Speech.

2. Wählen Sie die Registerkarte Plain text.3. Geben Sie den folgenden Text in das Eingabefeld ein oder kopieren Sie ihn in das Feld:

He was caught up in the game. In the middle of the 10/3/2014 W3C meetinghe shouted, "Score!" quite loudly.

13


Amazon Polly EntwicklerhandbuchNächster Schritt

4. Wählen Sie in der Choose a language and region-Liste US-Englisch aus, wählen Sie anschließendeine Stimme aus, die Sie für diesen Text verwenden möchten.

5. Klicken Sie auf Listen to speech, um die Sprachausgabe sofort anzuhören.6. Speichern Sie die Sprachausgabe auf einem der beiden folgenden Wege in einer Datei:

a. Wählen Sie Save speech to MP3.b. Wenn Sie ein anderes Dateiformat verwenden möchten: Wählen Sie zunächst die Option Change

file format und dann das gewünschte Dateiformat aus. Klicken Sie anschließend auf Change.

Umfassendere Beispiele finden Sie in den folgenden Artikeln:

• Anwenden von Lexika mithilfe der Konsole (synthetische Sprache) (p. 137)• Verwenden von SSML (Konsole) (p. 31)

Nächster SchrittSchritt 3: Erste Schritte mit der AWS CLI (p. 14)

Schritt 3: Erste Schritte mit der AWS CLIFast alle Amazon Polly-Operationen, die über die AWS CLI-Konsole verfügbar sind, lassen sich auchüber die Amazon Polly-Konsole durchführen. Allerdings können Sie sich über die AWS CLI nicht dieSprachausgabe anhören. Stattdessen müssen Sie die Sprachausgabe in einer Datei speichern und dieseDatei anschließend in einer Anwendung öffnen, die sie abspielen kann.

Themen• Schritt 3.1: Einrichten der AWS Command Line Interface (AWS CLI) (p. 14)• Schritt 3.2: Einstiegsübung mit der AWS CLI (p. 16)

Schritt 3.1: Einrichten der AWS Command LineInterface (AWS CLI)Befolgen Sie die Schritte zum Herunterladen und Konfigurieren der AWS Command Line Interface (AWSCLI).

Important

Für diese Einstiegsübung benötigen Sie nicht die AWS CLI. Für einige der Übungen in diesemHandbuch wird die AWS CLI jedoch benötigt. Sie können diesen Schritt überspringen und direktzu Schritt 3.2: Einstiegsübung mit der AWS CLI (p. 16) navigieren. Die AWS CLI kann späternach Bedarf eingerichtet werden.

So richten Sie die AWS CLI ein

1. Laden Sie die AWS CLI herunter und konfigurieren Sie sie. Anleitungen können Sie den folgendenThemen im Benutzerhandbuch für AWS Command Line Interface entnehmen:

• Einrichtung der AWS Command Line Interface• Konfigurieren der AWS Command Line Interface

2. Fügen Sie ein benanntes Profil für den Administratorbenutzer in der AWS CLI-Konfigurationsdateihinzu. Verwenden Sie dieses Profil beim Ausführen der AWS CLI-Befehle. Weitere Informationen zu

14

https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-getting-set-up.html

https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-getting-started.html

Amazon Polly EntwicklerhandbuchSchritt 3.1: Einrichten vonAWS CLI

benannten Profilen finden Sie unter Benannte Profile im Benutzerhandbuch für AWS Command LineInterface.

[profile adminuser] aws_access_key_id = adminuser access key ID aws_secret_access_key = adminuser secret access key region = aws-region

Eine Liste der verfügbaren AWS-Regionen sowie der von Amazon Polly unterstützten Regionen findenSie unter Regionen und Endpunkte im Allgemeine Amazon Web Services-Referenz.

Note

Wenn Sie bei der Konfiguration der AWS CLI eine von Amazon Polly unterstützte Regionverwendet haben, können Sie die Zeile unten aus den AWS CLI-Codebeispielen entfernen:

--region aws-region

3. Geben Sie den folgenden Hilfebefehl in die Eingabeaufforderung ein, um die Einrichtung zuüberprüfen:

aws help

Im AWS CLI-Fenster sollte eine Liste aller gültigen AWS-Befehle angezeigt werden.

So aktivieren Sie Amazon Polly in der AWS CLI (optional):

Wenn Sie die AWS CLI bereits zu einem früheren Zeitpunkt heruntergeladen und konfiguriert haben,müssen Sie die AWS CLI möglicherweise neu konfigurieren, damit Amazon Polly verfügbar ist. Diefolgende Anleitung beschreibt, wie Sie überprüfen, ob das nötig ist, und was Sie tun müssen, wennAmazon Polly nicht automatisch verfügbar ist.

1. Geben Sie den folgenden Hilfebefehl in die Eingabeaufforderung ein, um zu überprüfen, ob AmazonPolly verfügbar ist:

aws polly help

Wenn eine Beschreibung von Amazon Polly und eine Liste der gültigen Befehle angezeigt wird und imAWS CLI-Fenster erscheint, ist Amazon Polly in der AWS CLI verfügbar und kann sofort verwendetwerden. In diesem Fall können Sie die übrigen Schritte dieser Anleitung überspringen. Fahren Sie fortmit Schritt 2, falls keine entsprechende Ausgabe angezeigt wird.

2. Aktivieren Sie Amazon Polly auf eine der beiden folgenden Arten:

a. Deinstallieren Sie die AWS CLI und installieren Sie sie neu.

Eine Anleitung finden Sie im folgenden Abschnitt im Benutzerhandbuch für AWS Command LineInterface: Installieren der AWS Command Line Interface.

oderb. Laden Sie die Datei service-2.json herunter.

Führen Sie über die Eingabeaufforderung folgenden Befehl aus:

aws configure add-model --service-model file://service-2.json --service-name polly

3. Überprüfen Sie nochmals, ob Amazon Polly verfügbar ist:

15

https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-getting-started.html#cli-multiple-profiles

https://docs.aws.amazon.com/general/latest/gr/rande.html

https://docs.aws.amazon.com/cli/latest/userguide/installing.html

https://github.com/boto/botocore/blob/develop/botocore/data/polly/2016-06-10/service-2.json

Amazon Polly EntwicklerhandbuchSchritt 3.2: Einstiegsübung

aws polly help

Die Beschreibung von Amazon Polly sollte jetzt angezeigt werden.

Nächster SchrittSchritt 3.2: Einstiegsübung mit der AWS CLI (p. 16)

Schritt 3.2: Einstiegsübung mit der AWS CLIJetzt können Sie die Amazon Polly-Funktionen zur Generierung von Sprachausgabe testen. In dieserÜbung rufen Sie die Operation SynthesizeSpeech durch Übergabe eines Beispieltexts auf. Dieresultierende Audioausgabe können Sie als Datei speichern und abspielen.

1. Führen Sie den AWS CLI-Befehl synthesize-speech aus, um eine Sprachausgabe aus demBeispieltext zu generieren und in einer Audiodatei (hello.mp3) zu speichern.

Das folgende AWS CLI-Beispiel ist für Unix, Linux und macOS formatiert. Für Windows ersetzen Sieden umgekehrten Schrägstrich (\), das Unix-Fortsetzungszeichen, am Ende der jeweiligen Zeile durchein Caretzeichen (^) und verwenden vollständige Anführungszeichen (") um den Eingabetext undeinfache Anführungszeichen (') für innere Tags.

aws polly synthesize-speech \ --output-format mp3 \ --voice-id Joanna \ --text 'Hello, my name is Joanna. I learned about the W3C on 10/3 of last year.' \ hello.mp3

In dem Aufruf an synthesize-speech geben Sie den Beispieltext an, aus dem die Sprachausgabegeneriert werden soll, die zu verwendende Stimme (durch Angabe einer Stimm-ID wie nachfolgend inSchritt 3 erklärt) und das Ausgabeformat. Der Befehl speichert die resultierende Audioausgabe in derDatei hello.mp3.

Neben der MP3-Datei generiert die oben beschriebene Operation zudem die folgende Ausgabe in derKonsole:

{ "ContentType": "audio/mpeg", "RequestCharacters": "71"}

2. Geben Sie die Datei hello.mp3 wieder, um die Sprachausgabe zu überprüfen.3. Eine Liste der verfügbaren Stimmen können Sie über die Operation DescribeVoices abrufen.

Führen Sie den folgenden describe-voices-AWS CLI-Befehl aus.

aws polly describe-voices

Als Antwort gibt Amazon Polly eine Liste aller verfügbaren Stimmen zurück. In der Antwort sind für jedeStimme folgende Metadaten aufgelistet: Stimm-ID, Sprachcode, Name der Sprache und Geschlechtder Stimme. Das folgende Beispiel zeigt eine mögliche Antwort:

{ "Voices": [ {

16

Amazon Polly EntwicklerhandbuchDie nächsten Themen

"Gender": "Female", "Name": "Salli", "LanguageName": "US English", "Id": "Salli", "LanguageCode": "en-US" }, { "Gender": "Female", "Name": "Joanna", "LanguageName": "US English", "Id": "Kendra", "LanguageCode": "en-US" } ]}

Optional können Sie den Sprachcode angeben, um die verfügbaren Stimmen für eine bestimmteSprache abzurufen. Amazon Polly unterstützt Dutzende verschiedener Stimmen. Das folgende Beispielruft alle Stimmen für brasilianisches Portugiesisch ab:

aws polly describe-voices \ --language-code pt-BR

Eine Liste der Sprachcodes finden Sie unter Von Amazon Polly unterstützte Sprachen (p. 23). Beidiesen Sprachcodes handelt es sich um die W3C-Tags zur Sprachenidentifizierung (ISO 639-Codefür den Namen der Sprache-ISO 3166-Ländercode). Beispiele sind "en-US (amerikanischesEnglisch)", "en-GB (britisches Englisch)" und "es-ES (Spanisch)".

Alternativ können Sie auch über die Option help in der AWS CLI eine Liste aller Sprachcodes abrufen:

aws polly describe-voices help

Die nächsten ThemenIn diesem Handbuch finden Sie auch noch weitere Beispiele. Einige dieser Beispiele sind Python-Codebeispiele, die das AWS SDK for Python (Boto) für API-Aufrufe an Amazon Polly verwenden. Wirempfehlen Ihnen, Python einzurichten und den Beispielcode aus dem nachfolgenden Abschnitt zu testen.Weitere Beispiele finden Sie unter Beispielanwendungen (p. 163).

Einrichten von Python und Testen des BeispielcodesSie benötigen das AWS SDK for Python (Boto), um den Python-Beispielcode testen zu können. EineAnleitung finden Sie unter AWS SDK für Python (Boto3).

So testen Sie den Python-Beispielcode:

Der folgende Python-Beispielcode führt folgende Aktionen durch:

• Er verwendet das AWS SDK for Python (Boto), um eine SynthesizeSpeech Anforderung an AmazonPolly zu senden (durch Übergeben von einfachem Eingabetext).

• Er greift auf den resultierenden Audiostream in der Antwort zu und speichert die Audioausgabe in einerDatei auf der lokalen Festplatte (speech.mp3).

• Er spielt die Audiodatei mit dem Standard-Audioplayer des lokalen Systems ab.

Speichern Sie den Code in einer Datei ("example.py") und führen Sie die Datei aus.

17

https://aws.amazon.com/sdk-for-python/

Amazon Polly EntwicklerhandbuchEinrichten von Python und Testen des Beispielcodes

"""Getting Started Example for Python 2.7+/3.3+"""from boto3 import Sessionfrom botocore.exceptions import BotoCoreError, ClientErrorfrom contextlib import closingimport osimport sysimport subprocessfrom tempfile import gettempdir

# Create a client using the credentials and region defined in the [adminuser]# section of the AWS credentials file (~/.aws/credentials).session = Session(profile_name="adminuser")polly = session.client("polly")

try: # Request speech synthesis response = polly.synthesize_speech(Text="Hello world!", OutputFormat="mp3", VoiceId="Joanna")except (BotoCoreError, ClientError) as error: # The service returned an error, exit gracefully print(error) sys.exit(-1)

# Access the audio stream from the responseif "AudioStream" in response: # Note: Closing the stream is important as the service throttles on the # number of parallel connections. Here we are using contextlib.closing to # ensure the close method of the stream object will be called automatically # at the end of the with statement's scope. with closing(response["AudioStream"]) as stream: output = os.path.join(gettempdir(), "speech.mp3")

try: # Open a file for writing the output as a binary stream with open(output, "wb") as file: file.write(stream.read()) except IOError as error: # Could not write to file, exit gracefully print(error) sys.exit(-1)

else: # The response didn't contain audio data, exit gracefully print("Could not stream audio") sys.exit(-1)

# Play the audio using the platform's default playerif sys.platform == "win32": os.startfile(output)else: # the following works on Mac and Linux. (Darwin = mac, xdg-open = linux). opener = "open" if sys.platform == "darwin" else "xdg-open" subprocess.call([opener, output])

Weitere Beispiele sowie eine Beispielanwendung finden Sie unter Beispielanwendungen (p. 163).

18


Stimmen in Amazon PollyAmazon Polly bietet eine Vielzahl verschiedener Stimmen in mehreren Sprachen, die verwendet werden,wenn Sprache aus Text synthetisiert wird.

Verfügbare StimmenSprache Weibliche Namen/ID Männliche Namen/ID

Arabisch (arb) Zeina

Chinesisch, Mandarin (cmn-CN) Zhiyu

Dänisch (da-DK) Naja Mads

Niederländisch (nl-NL) Lotte Ruben

Englisch (australisch) (en-AU) Nicole Russell

Englisch (britisch) (en-GB) Amy

Emma

Brian

Englisch (indisch) (en-IN) Aditi (zweisprachig mit Hindi)

Raveena

Englisch, amerikanisch (en-US) Ivy

Joanna

Kendra

Kimberly

Salli

Joey

Justin

Matthew

Englisch (walisisch) (en-GB-WLS)

Geraint

Französisch (fr-FR) Céline/Celine

Léa

Mathieu

Französisch (kanadisch) (fr-CA) Chantal

Deutsch (de-DE) Marlene

Vicki

Hans

Hindi (hi-IN) Aditi (zweisprachig mit indischemEnglisch)

Isländisch (is-IS) Dóra/Dora Karl

19

Amazon Polly EntwicklerhandbuchZweisprachige Stimmen

Sprache Weibliche Namen/ID Männliche Namen/ID

Italienisch (it-IT) Carla

Bianca

Giorgio

Japanisch (ja-JP) Mizuki Takumi

Koreanisch (ko-KR) Seoyeon

Norwegisch (nb-NO) Liv

Polnisch (pl-PL) Ewa

Maja

Jacek

Jan.

Portugiesisch (brasilianisch) (pt-BR)

Vitória/Vitoria Ricardo

Portugiesisch, europäisch (pt-PT) Inês/Ines Cristiano

Rumänisch (ro-RO) Carmen

Russisch (ru-RU) Tatyana Maxim

Spanisch, europäisch (es-ES) Conchita

Lucia

Enrique

Spanisch (mexikanisch) (es-MX) Mia

Spanisch (USA) (en-US) Penélope/Penelope Miguel

Schwedisch (sv-SE) Astrid

Türkisch (tr-TR) Filiz

Walisisch (cy-GB) Gwyneth

Um eine kontinuierliche Unterstützung der Kunden zu gewährleisten, planen wir nicht Stimmeneinzustellen. Dies gilt sowohl für die derzeit verfügbaren als auch für zukünftige Stimmen.

Zweisprachige StimmenEine zweisprachige Stimme wie Aditi (indisches Englisch und Hindi) kann zwei Sprachen fließendsprechen. Dadurch haben Sie die Möglichkeit, für Wörter und Sätze aus beiden Sprachen in einemeinzigen Text dieselbe Stimme zu verwenden.

Aditi ist derzeit als einzige zweisprachige Stimme verfügbar.

Verwenden einer zweisprachigen Stimme (Aditi)

Aditi spricht sowohl indisches Englisch (en-IN) als auch Hindi (hi-IN) fließend. Sie können Sprachinhaltesowohl auf Englisch als auch auf Hindi generieren, und die Stimme kann sogar innerhalb desselben Satzeszwischen den beiden Sprachen wechseln.

Hindi kann in zwei verschiedenen Formen verwendet werden:

• Dewanagari: "उसन कहा, खल तोह अब शर होगा"

20

Amazon Polly EntwicklerhandbuchAnhören der Stimmen

• Romanagari (mithilfe des lateinischen Alphabets): "Usne kahan, khel toh ab shuru hoga"

Außerdem ist eine Mischung aus Englisch und Hindi in einer oder beiden Formen innerhalb eines einzigenSatzes möglich:

• Dewanagari + Englisch: "This is the song कभी कभी अदिति"• Romanagari + Englisch: "This is the song from the movie Jaane Tu Ya Jaane Na."• Dewanagari + Romanagari + Englisch: "This is the song कभी कभी अदिति from the movie Jaane Tu Ya

Jaane Na."

Da es sich bei Aditi um eine zweisprachige Stimme handelt, wird der Text in all diesen Fällen richtiggelesen, denn Amazon Polly kann zwischen den Sprachen und Schriften unterscheiden.

Amazon Polly unterstützt auch Zahlen, Datum, Uhrzeit und Devisionexpansion auf Englisch (arabischeZiffern) und auf Hindi (Dewanagari-Ziffern). Arabische Ziffern werden standardmäßig in indischem Englischgelesen. Mit dem Sprachcode-Parameter hi-IN können Sie bewirken, dass Amazon Polly sie auf Hindiliest.

Anhören der StimmenSie können die Amazon Polly-Konsole verwenden, um sich ein Beispiel einer der verfügbaren Stimmen inAmazon Polly anzuhören

So hören Sie sich eine Stimme in Amazon Polly an


2. Wählen Sie die Registerkarte Text-to-Speech.3. Wählen Sie eine Sprache, eine Region und eine Stimme aus4. Geben Sie Text ein, den die Stimme sprechen soll, oder verwenden Sie die Standardwortgruppe und

wählen Sie dann Listen to speech (Sprache anhören).

Sie können alle von Amazon Polly angebotenen Sprachen wählen. Die Konsole zeigt die für diese Spracheverfügbaren Stimmen an. In den meisten Fällen gibt es mindestens eine männliche und eine weiblicheStimme, oft mehr als jeweils eine. Ein paar verfügen nur über eine einzige Stimme. Eine vollständige Listefinden Sie unter Stimmen in Amazon Polly (p. 19)

Note

Das Stimmenverzeichnis und die Anzahl der enthaltenen Sprachen werden laufend aktualisiert,um weitere Optionen einzubeziehen. Um eine neue Sprache oder Stimme vorzuschlagen, könnenSie uns auf dieser Seite Ihr Feedback hinterlassen. Leider sind wir nicht in der Lage, Pläne für dieVeröffentlichung bestimmter neuer Sprachen zu kommentieren.

Jede Stimme wird mithilfe von Muttersprachlern erstellt, sodass es je nach Stimme Variationen geben kann,auch in derselben Sprache. Bei der Auswahl einer Stimme für Ihr Projekt sollten Sie jede mögliche Stimmemit einem Textabschnitt testen, um herauszufinden, welche sich am besten für Ihre Anforderungen eignet.

SprechgeschwindigkeitAufgrund der natürlichen Variation zwischen Stimmen spricht jede verfügbare Stimme den Text in einergeringfügig anderen Geschwindigkeit. Beispiel: Bei den Stimmen für Englisch (USA) sind Ivy und Joanna

21


Amazon Polly EntwicklerhandbuchÄndern Ihrer Sprechgeschwindigkeit

etwas schneller als Matthew, wenn sie sagen: „Mary had a little lamb.“ Beide sind erheblich schneller alsJoey, wenn sie denselben Text sprechen.

Da so viele Variationen zwischen Stimmen bestehen und der Grad der Variation vom gesprochenenText abhängen kann, ist für Amazon Polly-Stimmen keine Standardgeschwindigkeit (Wörter pro Minute)verfügbar. Sie können jedoch mittels Sprachmarkierungen herausfinden, wie lange es dauert, bis IhreStimme den ausgewählten Text spricht. Weitere Informationen zur Verwendung von Sprachmarkierungenin Amazon Polly finden Sie unter Verwenden von Sprachmarkierungen (p. 26).

So finden Sie heraus, wie lange es in etwa dauert, eine Textpassage zu sprechen

1. Öffnen Sie die AWS-CLI.2. Führen Sie den folgenden Code aus, und fügen Sie je nach Bedarf ein

aws polly synthesize-speech \ --output-format json \ --voice-id [name of desired voice] \ --text '[desired text]' \ --speech-mark-types='["viseme"]' \ LengthOfText.txt

3. Öffnen Sie LengthOfText.txt

Wenn der Text "Mary had a little lamb" lautet, lauten die letzten Zeilen, die von Amazon Polly ausgegebenwerden, wie folgt:

{"time":882,"type":"viseme","value":"t"}{"time":964,"type":"viseme","value":"a"}{"time":1082,"type":"viseme","value":"p"}

Das letzte Mundbild, d. h. der Klang der letzten Buchstaben in „lamb“, beginnt 1082 Millisekunden nachdem Beginn der Sprachausgabe. Dies ist zwar nicht genau die Länge der Audiospur, aber zumindest nahedran. Sie können 1082 Millisekunden als Grundlage für Vergleiche der Sprechgeschwindigkeit zwischenStimmen verwenden.

Ändern Ihrer SprechgeschwindigkeitBei bestimmten Anwendungen stellen Sie möglicherweise fest, dass Ihnen die Stimme langsamer oderschneller besser gefallen würde. Wenn die Sprechgeschwindigkeit ein Problem darstellt, bietet IhnenAmazon Polly die Möglichkeit, diese mithilfe von SSML-Tags zu ändern.

Beispiel:

Ihre Organisation erstellt eine Anwendung, die Migranten Bücher vorliest. Die Zielgruppe sprichtEnglisch, aber nicht fließend. In diesem Fall können Sie in Betracht ziehen, die Sprechgeschwindigkeit zuverlangsamen, damit Ihre Zielgruppe beim Vorlesen durch die Anwendung ein wenig mehr Zeit erhält, umdas Vorgelesene zu verstehen.

Mit Amazon Polly können Sie die Sprechgeschwindigkeit mithilfe des SSML-Tags <prosody>verlangsamen:

<speak> In some cases, it might help your audience to <prosody rate="85%">slow the speaking rate slightly to aid in comprehension.</prosody><speak

oder

22

Amazon Polly EntwicklerhandbuchVon Amazon Polly unterstützte Sprachen

<speak> In some cases, it might help your audience to <prosody rate="85%">slow the speaking rate slightly to aid in comprehension.</prosody><speak

Zwei Geschwindigkeitsoptionen stehen Ihnen bei der Verwendung von SSML mit Amazon Polly zurVerfügung:

• Voreingestellte Geschwindigkeiten: x-slow, slow, medium, fast und x-fast. In diesen Fällen handeltes sich bei der Geschwindigkeit der jeweiligen Option je nach bevorzugter Stimme um einen geschätztenWert. Die medium-Option ist die normale Sprechgeschwindigkeit.

• n% der Sprechgeschwindigkeit: jeder Prozentsatz der Sprechgeschwindigkeit zwischen 20 % und200 % kann verwendet werden. In diesen Fällen können Sie genau die gewünschte Geschwindigkeitwählen. Bei der tatsächlichen Sprechgeschwindigkeit handelt es sich jedoch um einen ungefähren Wert,abhängig von der gewählten Stimme. 100 % wird als normale Sprechgeschwindigkeit betrachtet.

Da die Geschwindigkeit der einzelnen Optionen ungefähr ist und von der von Ihnen gewählten Stimmeabhängig ist, empfehlen wir das Testen der von Ihnen ausgewählten Stimme bei verschiedenenGeschwindigkeiten, um festzustellen, welche Geschwindigkeit genau Ihren Anforderungen entspricht.

Weitere Informationen zur effektivsten Verwendung des prosody-Tags finden Sie unter Steuern vonLautstärke, Sprechgeschwindigkeit und Tonlage (p. 42).

Von Amazon Polly unterstützte SprachenDie folgenden Sprachen werden von Amazon Polly unterstützt und können verwendet werden, um Sprachezu synthetisieren. Jede Sprache weist einen Sprachcode auf. Bei diesen Sprachcodes handelt es sich umdie W3C-Tags zur Sprachenidentifizierung (ISO 639-3 für den Namen der Sprache und ISO 3166 fürden Ländercode).

Wählen Sie bei umfassenden Tabellen, die Phoneme und Mundbilder anzeigen, die der jeweiligen Sprachezugeordnet sind, den Link für die jeweilige Sprache in der Tabelle unten.

Sprache Sprachcode

Arabisch (arb) (p. 57) arb

Chinesisch, Mandarin (cmn-CN) (p. 60) cmn-CN

Dänisch (da-DK) (p. 63) da-DK

Niederländisch (nl-NL) (p. 66) nl-NL

Englisch (australisch) (en-AU) (p. 69) en-AU

Englisch (britisch) (en-GB) (p. 74) en-GB

Englisch (indisch) (en-IN) (p. 71) en-IN

Englisch (indisch) (en-IN) (p. 77) en-US

Englisch (walisisch) (en-GB-WSL) (p. 80) en-GB-WLS

Französisch (fr-FR) (p. 83) fr-FR

Kanadisches Französisch (fr-CA) (p. 85) fr-CA

23

Amazon Polly EntwicklerhandbuchVon Amazon Polly unterstützte Sprachen

Sprache Sprachcode

Hindi (hi-IN) (p. 91) hi-IN

Deutsch (de-DE) (p. 88) de-DE

Isländisch (is-IS) (p. 93) is-IS

Italienisch (it-IT) (p. 96) it-IT

Japanisch (ja-JP) (p. 99) ja-JP

Koreanisch (ko-KR) (p. 101) ko-KR

Norwegisch (nb-NO) (p. 103) nb-NO

Polnisch (pl-PL) (p. 106) pl-PL

Portugiesisch (brasilianisch) (pt-BR) (p. 110) pt-BR

Portugiesisch (pt-PT) (p. 108) pt-PT

Rumänisch (ro-RO) (p. 113) ro-RO

Russisch (ru-RU) (p. 115) ru-RU

Spanisch (es-ES) (p. 118) es-ES

Spanisch, mexikanisch (es-MX) (p. 121) es-MX

Spanisch, USA (es-US) (p. 123) es-US

Schwedisch (sv-SE) (p. 126) sv-SE

Türkisch (tr-TR) (p. 128) tr-TR

Walisisch (cy-GB) (p. 131) cy-GB

Weitere Informationen finden Sie unter Phonem- und Mundbildtabellen für unterstützte Sprachen (p. 56).

24

Amazon Polly EntwicklerhandbuchTypen von Sprachmarkierungen

SprachmarkierungenSprachmarkierungen sind Metadaten, die eine Sprachausgabe beschreiben. Sie kennzeichnenbeispielsweise Anfang und Ende von Sätzen und Wörtern im Audiostream. Wenn Sie für einen TextSprachmarkierungen anfordern, gibt Amazon Polly statt einer Sprachausgabe diese Metadaten zurück.Wenn Sie die Sprachmarkierungen zusammen mit dem Audiostream der Sprachausgabe verwenden,können Sie die visuelle Darstellung Ihrer Anwendungen verbessern.

Beispielsweise können Sie durch eine Kombination der Metadaten mit dem aus Ihrem Text generiertenAudiostream die Sprachausgabe mit einer Gesichtsanimation synchronisieren (Lippensynchronisation) odergeschriebenen Text parallel zur Sprachausgabe hervorheben.

Themen• Typen von Sprachmarkierungen (p. 25)• Verwenden von Sprachmarkierungen (p. 26)• Anfordern von Sprachmarkierungen über die Amazon Polly-Konsole (p. 29)

Typen von SprachmarkierungenSprachmarkierungen werden mithilfe der SpeechMarkTypes-Option für den SynthesizeSpeech-Befehl oderden StartSpeechSynthesisTask-Befehl angefordert. Dabei geben Sie an, welche Metadatenelemente fürIhren Eingabetext zurückgegeben werden sollen. Sie können bis zu vier verschiedene Metadatentypenanfordern, müssen pro Anforderung jedoch mindestens einen Typ angeben. Durch eine solche Anfragewird keine Audioausgabe generiert.

Zum Beispiel in der AWS CLI:

--speech-mark-types='["sentence", "word", "viseme", "ssml"]'

Amazon Polly generiert Sprachmarkierungen unter Verwendung der folgenden Elemente:

• sentence: Kennzeichnet ein Satzelement im Eingabetext.• word: Kennzeichnet ein Wortelement im Text.• viseme: Beschreibt die Gesichts- und Mundbewegungen bei der Aussprache der Phoneme. Weitere

Informationen finden Sie unter Mundbilder und Amazon Polly (p. 25).• ssml: Beschreibt ein <mark>-Element aus dem SSML-Eingabetext. Weitere Informationen finden Sie

unter Generieren von Sprachausgaben aus SSML-Dokumenten (p. 31).

Mundbilder und Amazon PollyEin Mundbild steht für die Position von Gesicht und Mund bei der Aussprache eines Wortes. Es ist dasvisuelle Äquivalent eines Phonems, der akustischen Grundeinheit der Wortbildung. Damit sind Mundbilderdie visuellen Grundbausteine der Sprache.

Jede Sprache verfügt über einen Satz von Mundbildern, die ihre spezifischen Phoneme darstellen. Zujedem Phonem einer Sprache gibt es ein Mundbild, das beschreibt, wie sich der Mund formt, wenn derentsprechende Laut gebildet wird. Allerdings hat nicht jedes Phonem ein einzigartiges Mundbild, denn

25

https://docs.aws.amazon.com/polly/latest/dg/API_StartSpeechSynthesisTask.html#polly-StartSpeechSynthesisTask-request-SpeechMarkTypes

https://docs.aws.amazon.com/polly/latest/dg/API_SynthesizeSpeech.html

https://docs.aws.amazon.com/polly/latest/dg/API_StartSpeechSynthesisTask.html

Amazon Polly EntwicklerhandbuchVerwenden von Sprachmarkierungen

viele Phoneme werden mit identischer Mund- und Gesichtsform ausgesprochen, auch wenn sie sichlautlich unterscheiden. Im Englischen beispielsweise unterscheiden sich die Worte "pet" und "bet" lautlichvoneinander. Rein visuell betrachtet (ohne den zugehörigen Sprachlaut) sind Gesichts- und Mundform beiihrer Aussprache jedoch jeweils identisch.

Die folgende Tabelle enthält eine Teilmenge der Phoneme des Internationalen Phonetischen Alphabets(IPA) und die Symbole aus dem Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA)sowie die zugehörigen Mundbilder für Stimmen mit der Sprache US-Englisch.

Eine vollständige Tabelle sowie Tabellen für alle verfügbaren Sprachen finden Sie unter Phonem- undMundbildtabellen für unterstützte Sprachen (p. 56).

IPA X-SAMPA Beschreibung Beispiel Mundbild

Konsonanten

b b stimmhafter bilabialerPlosiv

bed p

d d stimmhafteralveolarer Plosiv

dig t

dʒ dZ stimmhaftepostalveolareAffrikate

jump S

ð D stimmhafter dentalerFrikativ

then T

f f stimmloserlabiodentaler Frikativ

five f

g g stimmhafter velarerPlosiv

game k

h h stimmloser glottalerFrikativ

house k

... ... ... ... ...

Verwenden von SprachmarkierungenAnfordern von SprachmarkierungenVerwenden Sie den Befehl synthesize-speech, um Sprachmarkierungen für einen Eingabetextanzufordern. Neben dem Eingabetext sind außerdem die folgenden Elemente erforderlich, damit dieseMetadaten zurückgegeben werden können:

• output-format

Amazon Polly unterstützt für die Rückgabe von Sprachmarkierungen ausschließlich das JSON-Format.

--output-format json

Wenn Sie ein nicht unterstütztes Ausgabeformat angeben, löst Amazon Polly eine Ausnahme aus.

26

Amazon Polly EntwicklerhandbuchSprachmarkierungsausgaben

• voice-id

Geben Sie dieselbe Stimme an, die zur Generierung des Sprachausgabe-Audiostreams verwendet wird.Nur so ist sichergestellt, dass die Metadaten auch zu dem entsprechenden Audiostream passen. Dieverfügbaren Stimmen haben nicht alle dieselbe Sprechgeschwindigkeit. Wenn Sie nicht die Stimmeverwenden, mit der die Sprachausgabe generiert wurde, werden die Metadaten nicht zum Audiostreampassen.

--voice-id Joanna

• speech-mark-types

Geben Sie an, welche Sprachmarkierungstypen zurückgegeben werden sollen. Sie können jedenbeliebigen Sprachmarkierungstyp anfordern oder auch sämtliche Sprachmarkierungstypen. Sie müssenaber mindestens einen Typ angeben.

--speech-mark-types='["sentence", "word", "viseme", "ssml"]'

• text-type

Standardmäßig ist als Eingabetext für Amazon Polly einfacher Text ("plain text") festgelegt. Sollen SSML-Sprachmarkierungen zurückgegeben werden, müssen Sie text-type ssml angeben.

• outfile

Geben Sie die Ausgabedatei an, in die die Metadaten geschrieben werden sollen.

MaryLamb.txt

Das folgende AWS CLI-Beispiel ist für Unix, Linux und macOS formatiert. Für Windows ersetzen Sie denumgekehrten Schrägstrich (\), das Unix-Fortsetzungszeichen, am Ende der jeweiligen Zeile durch einCaretzeichen (^) und verwenden vollständige Anführungszeichen (") um den Eingabetext und einfacheAnführungszeichen (') für innere Tags.

aws polly synthesize-speech \ --output-format json \ --voice-id Voice ID \ --text 'Input text' \ --speech-mark-types='["sentence", "word", "viseme"]' \ outfile

SprachmarkierungsausgabenAmazon Polly gibt Sprachmarkierungsobjekte in einem JSON-Stream zurück, der Zeilenumbrüche alsTrennzeichen verwendet. Ein Sprachmarkierungsobjekt enthält die folgenden Felder:

• time: der Zeitstempel in Millisekunden relativ zum Beginn des entsprechenden Audiostreams• type: der Sprachmarkierungstyp ("sentence", "word", "viseme" oder "ssml")• start: der Versatz in Byte des Objektbeginns im Eingabetext (ohne Mundbildmarkierungen)• end: der Versatz in Byte des Objektendes im Eingabetext in (ohne Mundbildmarkierungen)• value: variabel je nach Sprachmarkierungstyp

• SSML: SSML-Tag des Typs <mark>• viseme: der Name des Mundbilds

27

Amazon Polly EntwicklerhandbuchBeispiele für Sprachmarkierungen

• word oder sentence: eine Teilzeichenfolge des Eingabetexts, gekennzeichnet durch die Felder "start"und "end"

Zum Beispiel erzeugt Amazon Polly das folgende word-Sprachmarkierungsobjekt aus dem Text "Maryhatte ein kleines Lamm":

{"time":373,"type":"word","start":5,"end":8,"value":"had"}

Das beschriebene Wort ("had") beginnt 373 Millisekunden nach Start des Audiostreams. Sein Anfang liegtbei Byte 5, sein Ende bei Byte 8 des Eingabetexts.

Note

Diese Metadaten wurden für die Stimme Joanna generiert. Wenn Sie für denselben Eingabetexteine andere Stimme verwenden, sehen die Metadaten möglicherweise anders aus.

Beispiele für SprachmarkierungenDie folgenden Beispiele für Sprachmarkierungsanforderungen illustrieren gängige Anforderungen undderen Ausgabe.

Beispiel 1: Sprachmarkierungen ohne SSMLIm nachfolgenden Beispiel sehen Sie die Bildschirmausgabe der angeforderten Metadaten fürden einfachen Satz "Mary had a little lamb". Um das Beispiel einfach zu halten, haben wir SSML-Sprachmarkierungen hier außen vor gelassen.


aws polly synthesize-speech \ --output-format json \ --voice-id Joanna \ --text 'Mary had a little lamb.' \ --speech-mark-types='["viseme", "word", "sentence"]' \ MaryLamb.txt

Wenn Sie diese Anfrage senden, gibt Amazon Polly eine .txt-Datei mit folgendem Inhalt zurück:

{"time":0,"type":"sentence","start":0,"end":23,"value":"Mary had a little lamb."}{"time":6,"type":"word","start":0,"end":4,"value":"Mary"}{"time":6,"type":"viseme","value":"p"}{"time":73,"type":"viseme","value":"E"}{"time":180,"type":"viseme","value":"r"}{"time":292,"type":"viseme","value":"i"}{"time":373,"type":"word","start":5,"end":8,"value":"had"}{"time":373,"type":"viseme","value":"k"}{"time":460,"type":"viseme","value":"a"}{"time":521,"type":"viseme","value":"t"}{"time":604,"type":"word","start":9,"end":10,"value":"a"}{"time":604,"type":"viseme","value":"@"}{"time":643,"type":"word","start":11,"end":17,"value":"little"}{"time":643,"type":"viseme","value":"t"}

28

Amazon Polly EntwicklerhandbuchAnfordern von Sprachmarkierungen

über die Amazon Polly-Konsole

{"time":739,"type":"viseme","value":"i"}{"time":769,"type":"viseme","value":"t"}{"time":799,"type":"viseme","value":"t"}{"time":882,"type":"word","start":18,"end":22,"value":"lamb"}{"time":882,"type":"viseme","value":"t"}{"time":964,"type":"viseme","value":"a"}{"time":1082,"type":"viseme","value":"p"}

In dieser Ausgabe wurden sämtliche Teile des Texts in Sprachmarkierungen überführt:

• Der Satz "Mary had a little lamb."• Jedes Wort im Text: "Mary", "had", "a", "little" und "lamb"• Das Mundbild für jeden Laut im zugehörigen Audiostream: "p", "E", "r", "i" usw. Weitere Informationen zu

Mundbildern finden Sie unter Mundbilder und Amazon Polly (p. 25).

Beispiel 2: Sprachmarkierungen mit SSMLDie Generierung von Sprachmarkierungen aus SSML-erweitertem Text funktioniert ähnlich wiedie Generierung aus Text ohne SSML. Sie verwenden den Befehl synthesize-speech undgeben wie im nachfolgenden Beispiel dargestellt den SSML-erweiterten Text und die gewünschtenSprachmarkierungstypen an. Zur besseren Lesbarkeit haben wir in diesem Beispiel Mundbild-Sprachmarkierungen weggelassen. Diese könnten jedoch ebenfalls angefordert werden.


aws polly synthesize-speech \ --output-format json \ --voice-id Joanna \ --text-type ssml \ --text '<speak><prosody volume="+20dB">Mary had <break time="300ms"/>a little <mark name="animal"/>lamb</prosody></speak>' \ --speech-mark-types='["sentence", "word", "ssml"]' \ output.txt

Wenn Sie diese Anfrage senden, gibt Amazon Polly eine .txt-Datei mit folgendem Inhalt zurück:

{"time":0,"type":"sentence","start":31,"end":95,"value":"Mary had <break time=\"300ms\"\/>a little <mark name=\"animal\"\/>lamb"}{"time":6,"type":"word","start":31,"end":35,"value":"Mary"}{"time":325,"type":"word","start":36,"end":39,"value":"had"}{"time":897,"type":"word","start":40,"end":61,"value":"<break time=\"300ms\"\/>"}{"time":1291,"type":"word","start":61,"end":62,"value":"a"}{"time":1373,"type":"word","start":63,"end":69,"value":"little"}{"time":1635,"type":"ssml","start":70,"end":91,"value":"animal"}{"time":1635,"type":"word","start":91,"end":95,"value":"lamb"}

Anfordern von Sprachmarkierungen über dieAmazon Polly-Konsole

Sie können die Konsole verwenden, um Sprachmarkierungen von Amazon Polly anzufordern.Anschließend können Sie die Metadaten anzeigen oder in einer Datei speichern.

29

Amazon Polly EntwicklerhandbuchAnfordern von Sprachmarkierungen

über die Amazon Polly-Konsole

So generieren Sie Sprachmarkierungen über die Konsole:


2. Wählen Sie die Registerkarte Text-to-Speech.3. Verwenden Sie weiterhin die Registerkarte Plain Text oder wählen Sie die Registerkarte SSML.4. Geben Sie Ihren Text in das Eingabefeld ein oder kopieren Sie ihn in das Eingabefeld.5. Wählen Sie für Sprache und Region die Sprache für Ihren Text.6. Wählen Sie unter Voice die Stimme aus, die Sie für den Text verwenden möchten.7. Wenn Sie die Textaussprache ändern möchten: Wählen Sie zunächst Customize Pronunciation aus

und anschließend unter Apply Lexicon das gewünschte Lexikon.8. Wählen Sie Listen to speech aus, um zu überprüfen, ob die Sprachausgabe Ihren Wünschen

entspricht.9. Wählen Sie Change File Format.

Note

Beim Download im Format MP3, OGG oder PCM werden keine Sprachmarkierungengeneriert.

10. Für File Format, wählen Sie Speech Marks.11. Wählen Sie unter Speech Mark Types aus, welche Sprachmarkierungstypen generiert werden

sollen. Die Option zur Auswahl von SSML-Metadaten ist nur auf der Registerkarte SSML verfügbar.Weitere Informationen zur Verwendung von SSML mit Amazon Polly finden Sie unter Generieren vonSprachausgaben aus SSML-Dokumenten (p. 31).

12. Wählen Sie Change.13. Wählen Sie Download Speech Marks.

30


Amazon Polly EntwicklerhandbuchVerwenden von SSML in der Konsole

Generieren von Sprachausgaben ausSSML-Dokumenten

Sie können Amazon Polly zum Generieren von Sprache aus Plain Text oder aus Dokumentenverwenden, die SSML-Tags (Speech Synthesis Markup Language) enthalten. Mit SSML-Tags können SieSprachaspekte wie Aussprache, Lautstärke und Sprechgeschwindigkeit anpassen und steuern.

Amazon Polly unterstützt SSML Version 1.1 gemäß der Definition in der folgenden W3C-Empfehlung:

• Speech Synthesis Markup Language (SSML) Version 1.1, W3C-Empfehlung 7. September 2010

Sie können SSML in der Amazon Polly-Konsole oder über die AWS CLI verwenden. In den folgendenThemen wird beschrieben, wie Sie mit SSML Sprachausgaben generieren und die Ausgabe kontrollierenkönnen, damit sie exakt Ihren Anforderungen entspricht.

Themen• Verwenden von SSML (Konsole) (p. 31)• Verwenden von SSML (AWS CLI) (p. 32)• Von Amazon Polly unterstützte SSML-Tags (p. 37)

Verwenden von SSML (Konsole)Mit SSML-Tags können Sie Sprachaspekte wie Aussprache, Lautstärke und Sprechgeschwindigkeitanpassen und steuern. In der AWS-Konsole wird der Text mit SSML-Tags, den Sie in Audiodatenkonvertieren möchten, auf der Registerkarte „SSML“ der Seite „Text-to-Speech“ eingegeben. Obwohl imKlartext eingegebener Text auf den Standardeinstellungen für die gewählte Sprache und Stimme beruht,informiert Text mit SSML-Tags Amazon Polly nicht nur darüber, was Sie sagen möchten, sondern auch,wie Sie es sagen möchten. Mit Ausnahme der hinzugefügten SSML-Tags synthetisiert Amazon PollyText mit SSML-Tags auf die gleiche Weise wie Klartext. Weitere Informationen finden Sie unter Übung 2:Generieren einer Sprachausgabe (aus einfachem Eingabetext) (p. 13).

Bei der Verwendung von SSML umschließen Sie den gesamten Text mit einem <speak>-Tag, damitAmazon Polly weiß, dass Sie SSML verwenden. Beispiel:

<speak>Hi! My name is Joanna. I will read any text you type here.</speak>

Anschließend verwenden Sie spezifische SSML-Tags für den Text innerhalb der <speak>-Tags,um die Art und Weise anzupassen, wie der Text klingen soll. Sie können eine Pause hinzufügen, dieGeschwindigkeit der Sprachausgabe ändern, die Lautstärke der Stimme erhöhen oder senken oder vieleweitere Anpassungen hinzufügen, sodass der Text für Sie richtig klingt. Eine vollständige Liste der SSML-Tags, die Sie verwenden können, finden Sie unter Unterstützte SSML-Tags (p. 37).

Im folgenden Beispiel verwenden Sie ein SSML-Tag, um Amazon Polly anzuweisen, "World Wide WebConsortium" durch "W3C" zu ersetzen, wenn ein kurzer Absatz gesprochen wird. Sie können Tags auchverwenden, um eine Pause einzufügen oder ein Wort flüstern zu lassen. Vergleichen Sie das Ergebnisdieser Übung mit dem von Anwenden von Lexika mithilfe der Konsole (synthetische Sprache) (p. 137).

Weitere Informationen und Beispiele zu SSML finden Sie unter Unterstützte SSML-Tags (p. 37).

31

https://www.w3.org/TR/2010/REC-speech-synthesis11-20100907/

Amazon Polly EntwicklerhandbuchVerwenden von SSML in der AWS-CLI

So generieren Sie Sprachausgaben aus Text mit SSML-Tags (Konsole)


2. Wählen Sie – falls erforderlich – die Registerkarte Text-to-Speech (Text in Sprache).3. Wählen Sie die Registerkarte SSML.4. Geben Sie den folgenden Text in das Textfeld ein:

<speak> He was caught up in the game.<break time="1s"/> In the middle of the 10/3/2014 <sub alias="World Wide Web Consortium">W3C</sub> meeting, he shouted, "Score!" quite loudly. When his boss stared at him, he repeated <amazon:effect name="whispered">"Score"</amazon:effect> in a whisper.</speak>

Die SSML-Tags weisen Amazon Polly an, wie der Text gerendert werden soll:

• <break time="1s"/> weist Amazon Polly an, zwischen den ersten zwei Sätzen eine Sekunde zupausieren.

• <sub alias="World Wide Web Consortium">W3C</sub> weist Amazon Polly an, dasAkronym "W3C" durch "World Wide Web Consortium" zu ersetzen.

• <amazon:effect name="whispered">Score</amazon:effect> weist Amazon Polly an, daszweite Vorkommen von "Score" zu flüstern.

Note

Wenn Sie die AWS CLI verwenden, schließen Sie den Eingabetext in Anführungszeichenein, um ihn vom umgebenden Code zu unterscheiden. Die Amazon Polly-Konsole zeigt denCode nicht, Sie schließen den Eingabetext deshalb nicht in Anführungszeichen ein.

5. Wählen Sie für Choose a language and region (Sprache und Region wählen) die Option English US(Englisch USA) und dann eine Stimme.

6. Wählen Sie Listen to speech (Sprachausgabe anhören) aus, um die Sprachausgabe anzuhören.7. Wählen Sie Download [format] (Download [Format]) aus, um die Sprachausgabedatei zu speichern.

Wenn Sie die Datei in einem anderen Format speichern möchten, wählen Sie Change file format(Dateiformat ändern) und dann das gewünschte Format aus. Wählen Sie anschließend Change(Ändern) und Download [format] (Download [Format]) aus.

Verwenden von SSML (AWS CLI)Sie können die AWS CLI verwenden, um SSML-Eingabetext zu synthetisieren. Die folgenden Beispielezeigen, wie Sie häufige Aufgaben über die AWS CLI ausführen.

Themen• Verwenden von SSML mit dem Befehl „Synthesize-Speech“ (p. 33)• Generieren eines Dokuments mit verbesserten SSML-Tags (p. 34)• Verwenden von SSML für typische Amazon Polly-Aufgaben (p. 34)

32


Amazon Polly EntwicklerhandbuchVerwenden von SSML mit dem Befehl „Synthesize-Speech“

Verwenden von SSML mit dem Befehl „Synthesize-Speech“In diesem Beispiel wird gezeigt, wie der Befehl synthesize-speech mit einer SSML-Zeichenfolgeverwendet wird. Wenn Sie den Befehl synthesize-speech verwenden, geben Sie üblicherweiseFolgendes an:

• Eingabetext (erforderlich)• Öffnendes und schließendes Tag (erforderlich)• Das Ausgabeformat• Eine Stimme

In diesem Beispiel geben Sie eine einfache Textzeichenfolge in Anführungszeichen sowie dieerforderlichen öffnenden und schließenden <speak></speak>-Tags an.

Important

Auch wenn Sie den Eingabetext in der Amazon Polly-Konsole nicht in Anführungszeicheneinschließen, müssen Sie in der AWS CLI Anführungszeichen verwenden. Außerdem müssen Siezwischen den Anführungszeichen unterscheiden, die den Eingabetext einschließen, sowie denAnführungszeichen, die für einzelne Tags erforderlich sind.Sie können beispielsweise den Eingabetext in Standardanführungszeichen (") einschließenund einfache Anführungszeichen (') für eingebettete Tags verwenden – oder umgekehrt.Beide Varianten funktionieren für Unix, Linux und macOS. Für Windows müssen Sie denEingabetext dagegen in Standardanführungszeichen einschließen und für die Tags einfacheAnführungszeichen verwenden.Unter allen Betriebssystemen können Sie den Eingabetext in Standardanführungszeichen (")einschließen und einfache Anführungszeichen (') für eingebettete Tags verwenden. Beispiel:

--text "<speak>Hello <break time='300ms'/> World</speak>"

Unter Unix, Linux und macOS können Sie auch umgekehrt vorgehen, also den Eingabetext ineinfache Anführungszeichen (') einschließen und Standardanführungszeichen (") für eingebetteteTags verwenden:

--text '<speak>Hello <break time="300ms"/> World</speak>'


aws polly synthesize-speech \--text-type ssml \--text '<speak>Hello world</speak>' \--output-format mp3 \--voice-id Joanna \speech.mp3

Sie können die Sprachausgabe anhören, indem Sie die resultierende speech.mp3-Datei mit einem Audio-Player abspielen.

33

Amazon Polly EntwicklerhandbuchGenerieren eines Dokuments mit verbesserten SSML-Tags

Generieren eines Dokuments mit verbesserten SSML-TagsBei längeren Eingabedaten ist es wahrscheinlich komfortabler, den SSML-Inhalt in einer Datei zu speichernund den Dateinamen dann im synthesize-speech-Befehl anzugeben. Sie können beispielsweiseFolgendes in einer Datei namens example.xml speichern:

<?xml version="1.0"?><speak version="1.1" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2001/10/synthesis http://www.w3.org/TR/speech-synthesis11/synthesis.xsd" xml:lang="en-US">Hello World</speak>

Das Attribut xml:lang gibt en-US (Englisch (USA)) als Sprache für den Eingabetext an. WeitereInformationen dazu, wie sich die Sprache des Eingabetexts und die Sprache der gewählten Stimme auf dieSynthesizeSpeech-Operation auswirken, finden Sie unter Verbessern der Aussprache fremdsprachigerWörter (p. 36).

So führen Sie eine Datei mit SSML-Tags aus

1. Speichern Sie die SSML-Daten in einer Datei (zum Beispiel als example.xml).2. Führen Sie den folgenden synthesize-speech-Befehl in dem Pfad aus, in dem die XML-Datei

gespeichert ist. Verwenden Sie die SSML-Datei als Eingabe, indem Sie anstelle des Eingabetextsfile:\\example.xml angeben. Weil dieser Befehl auf eine Datei verweist und nicht deneigentlichen Eingabetext enthält, werden keine Anführungszeichen verwendet.

Note

Das folgende AWS-CLI-Beispiel ist für Unix, Linux und macOS formatiert. Ersetzen Sie unterWindows den umgekehrten Schrägstrich (\), das Unix-Fortsetzungszeichen, am Ende jederZeile durch ein Caret-Zeichen oder Zirkumflex (^).

aws polly synthesize-speech \--text-type ssml \--text file://example.xml \--output-format mp3 \--voice-id Joanna \speech.mp3

3. Sie können die Sprachausgabe anhören, indem Sie die resultierende speech.mp3-Datei mit einemAudio-Player abspielen.

Verwenden von SSML für typische Amazon Polly-AufgabenDie folgenden Beispiele zeigen, wie Sie mit SSML-Tags typische Amazon Polly-Aufgaben ausführenkönnen. Informationen zu weiteren SSML-Tags finden Sie unter Von Amazon Polly unterstützte SSML-Tags (p. 37).

Verwenden Sie den folgenden synthesize-speech-Befehl mit geeignetem Text mit SSML-Tags, um diefolgenden Beispiele zu testen:

Das folgende AWS CLI-Beispiel ist für Unix, Linux und macOS formatiert. Für Windows ersetzen Sie denumgekehrten Schrägstrich (\), das Unix-Fortsetzungszeichen, am Ende der jeweiligen Zeile durch ein

34

Amazon Polly EntwicklerhandbuchVerwenden von SSML für typische Amazon Polly-Aufgaben

Caretzeichen (^) und verwenden vollständige Anführungszeichen (") um den Eingabetext und einfacheAnführungszeichen (') für innere Tags.

aws polly synthesize-speech \--text-type ssml \--text '<speak>Hello <break time="300ms"/> World</speak>' \--output-format mp3 \--voice-id Joanna \speech.mp3

Hinzufügen einer PauseVerwenden Sie das Element <break>, um zwischen Wörtern eine Pause hinzuzufügen. Im folgendenSSML-Befehl synthesize-speech wird das Element <break> verwendet, um eine Pause von300 Millisekunden zwischen den Worten „Hello“ und „World“ einzufügen.

<speak> Hello <break time="300ms"/> World.</speak>

Steuern von Lautstärke, Tonlage und GeschwindigkeitVerwenden Sie das Element <prosody>, um Tonlage, Sprechgeschwindigkeit und Sprechlautstärke zusteuern.

• Im folgenden "synthesize-speech"-Befehl wird das Element <prosody> zum Steuern der Lautstärkeverwendet:

<speak> <prosody volume="+20dB">Hello world</prosody></speak>

• Im folgenden synthesize-speech-Befehl wird das Element <prosody> verwendet, um die Tonlagezu steuern:

<speak> <prosody pitch="x-high">Hello world.</prosody></speak>

• Im folgenden synthesize-speech-Befehl wird das Element <prosody> verwendet, um dieSprechgeschwindigkeit anzugeben:

<speak> <prosody rate="x-fast">Hello world.</prosody></speak>

• Sie können in einem <prosody>-Element mehrere Attribute festlegen, wie die folgenden Beispielezeigen:

<speak> <prosody volume="x-loud" pitch="x-high" rate="x-fast">Hello world.</prosody></speak>

35

Amazon Polly EntwicklerhandbuchVerwenden von SSML für typische Amazon Polly-Aufgaben

FlüsternZum Flüstern von Wörtern können Sie das Element <amazon:effect name="whispered"> verwenden.Im folgenden Beispiel weist das <amazon:effect name="whispered">-Element Amazon Polly an,"little lamb" zu flüstern:

<speak> Mary has a <amazon:effect name="whispered">little lamb.</amazon:effect></speak>

Dieser Effekt kann mit dem Element <prosody> verstärkt werden, das die Geschwindigkeit der geflüstertenSprachausgabe etwas verlangsamt.

Betonen von WörternUm ein Wort oder eine Wendung zu betonen, verwenden Sie das Element <emphasis>.

<speak> <emphasis level="strong">Hello</emphasis> world how are you?</speak>

Festlegen der Aussprache bestimmter WörterMit dem Element <say-as> können Sie den Typ des zu sprechenden Texts angeben.

In der folgenden SSML-Anweisung gibt <say-as> beispielsweise an, dass der Text "4/6" als Datuminterpretiert werden soll. Das Attribut interpret-as="date" format="dm" gibt an, dass der Text alsDatum im Format Monat/Tag gesprochen werden soll.

Sie können das Element <say-as> auch verwenden, um Amazon Polly anzuweisen, Zahlen alsBruchzahlen, Telefonnummern, Maßeinheiten usw. zu sprechen.

<speak> Today is <say-as interpret-as="date" format="md" >4/6</say-as></speak>

Die Sprachausgabe lautet: "Today is June 4th." Das Tag <say-as> gibt an, wie der Text interpretiertwerden soll, indem weitere Informationen mit dem Attribut interpret-as bereitgestellt werden.

Spielen Sie die resultierende speech.mp3-Datei ab, um die Sprachausgabe zu prüfen.

Weitere Informationen zu diesem Element finden Sie unter Steuern des Sprechens spezieller Wortarten (p. 46).

Verbessern der Aussprache fremdsprachiger WörterAmazon Polly unterstellt, dass der Eingabetext in der von der gewählten Stimme gesprochenen Sprachevorliegt. Um die Aussprache fremdsprachiger Wörter im Eingabetext zu verbessern, gehen Sie imsynthesize-speech-Aufruf folgendermaßen vor: Geben Sie die Zielsprache mit dem Attribut xml:langan. Dies weist Amazon Polly an, auf die mit Tags gekennzeichneten fremdsprachigen Wörter andereAusspracheregeln anzuwenden.

Die folgenden Beispiele zeigen, wie Sie unterschiedliche Sprachkombinationen im Eingabetext verwendenund Stimmen sowie die Aussprache für fremdsprachige Wörter angeben. Eine vollständige Liste derverfügbaren Sprachen finden Sie unter Von Amazon Polly unterstützte Sprachen (p. 23).

36

Amazon Polly EntwicklerhandbuchVon Amazon Polly unterstützte SSML-Tags

Im folgenden Beispiel spricht die Stimme (Joanna) US-Englisch. Standardmäßig unterstellt Amazon Polly,dass der Eingabetext in der von der Stimme gesprochenen Sprache (in diesem Fall US-Englisch) vorliegt.Wenn Sie das Tag xml:lang verwenden, interpretiert Amazon Polly den Text als Spanisch. Der Textwird so gesprochen, wie die gewählte Stimme spanische Wörter aussprechen würde. Dabei werden dieAusspracheregeln für die Fremdsprache verwendet. Ohne dieses Tag wird der Text unter Verwendung derAusspracheregeln für die gewählte Stimme gesprochen.

<speak> That restaurant is terrific. <lang xml:lang="es-ES">Mucho gusto.</lang></speak>

Da die Sprache des Eingabetexts Englisch ist, ordnet Amazon Polly die spanischen Phoneme akustischmöglichst ähnlichen englischen Phonemen zu. Dies hat zur Folge, dass Joanna den Text als gebürtige US-Amerikanerin spricht, spanische Wörter also richtig, aber mit US-amerikanischem Akzent ausspricht.

Note

Einige Sprachen sind ähnlicher als andere, deshalb funktionieren einige Sprachkombinationenbesser.

Von Amazon Polly unterstützte SSML-TagsIndem Sie den Eingabetext durch SSML-Tags ergänzen, erhalten Sie mehr Kontrolle darüber, wie AmazonPolly Sprachausgaben daraus generiert.

Sie können beispielsweise eine lange Pause in den Text einfügen oder Sprechgeschwindigkeit oderTonlage ändern. Amazon Polly ermöglicht diese Kontrolle mit einer Teilmenge der unter Speech SynthesisMarkup Language (SSML) Version 1.1, W3C Recommendation definierten SSML-Tags.

Unterstützte SSML-TagsAmazon Polly unterstützt die folgenden SSML-Tags:

Aktion SSML-Tag

Hinzufügen einer Pause (p. 38) <break>

Betonen von Wörtern (p. 39) <emphasis>

Angeben einer anderen Sprache für bestimmteWörter (p. 39)

<lang>

Einfügen eines benutzerdefinierten Tags in denText (p. 40)

<mark>

Hinzufügen einer Pause zwischen Absätzen (p. 41)

<p>

Verwenden phonetischer Aussprache (p. 41) <phoneme>

Steuern von Lautstärke, Sprechgeschwindigkeitund Tonlage (p. 42)

<prosody>

Festlegen einer maximalen Dauer der generiertenSprachausgabe (p. 44)

<prosody amazon:max-duration>

37



Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags

Aktion SSML-Tag

Hinzufügen einer Pause zwischen Sätzen (p. 46)

<s>

Steuern des Sprechens spezieller Wortarten (p. 46)

<say-as>

Identifizieren von Text mit SSML-Tags (p. 38) <speak>

Aussprache von Akronymen und Abkürzungen (p. 49)

<sub>

Verbessern der Aussprache durch Angabe derWortart (p. 49)

<w>

Hinzufügen von Atemgeräuschen (p. 50) <amazon:auto-breaths>

Hinzufügen einer Dynamikkomprimierung (p. 52)

<amazon:effect name="drc">

Weicheres Sprechen (p. 54) <amazon:effect phonation="soft">

Steuern des Timbres (p. 54) <amazon:effect vocal-tract-length>

Flüstern (p. 55) <amazon: effect name="whispered">

Nicht unterstützte SSML-Tags im Eingabetext führen zu Fehlern.

Identifizieren von Text mit SSML-Tags<speak>

Das Tag <speak> ist das Stammelement aller Amazon Polly-SSML-Texte. Der gesamte Text mit SSML-Tags muss in ein Paar <speak>-Tags eingeschlossen werden.

<speak>Mary had a little lamb.</speak>

Hinzufügen einer Pause<break>

Verwenden Sie das Tag <break>, um Ihrem Text eine Pause hinzuzufügen. Sie können eine Pause aufGrundlage der Stärke (entspricht der Pause nach einem Komma, Satz oder Absatz) oder den Wert auf einebestimmte Dauer in Sekunden oder Millisekunden festlegen. Wenn Sie kein Attribut angeben, um die Längeder Pause zu bestimmen, verwendet Amazon Polly den Standardwert <break strength="medium">,der die Länge einer Pause nach einem Komma hinzufügt.

Werte des Attributs strength:

• none: Keine Pause. Verwenden Sie none, um standardmäßig auftretende Pausen – z. B. nach einemPunkt – zu entfernen.

• x-weak: Hat die gleiche Wirkung wie none, keine Pause.• weak: Legt eine Pause derselben Dauer wie die Pause nach einem Komma fest.• medium: Hat die gleiche Wirkung wie weak.• strong: Legt eine Pause derselben Dauer wie die Pause nach einem Satz fest.• x-strong: Legt eine Pause derselben Dauer wie die Pause nach einem Absatz fest.

38


Werte des Attributs time:

• [number]s: Dauer der Pause in Sekunden. Die maximale Dauer ist 10s.• [number]ms: Dauer der Pause in Millisekunden. Die maximale Dauer ist 10000ms.

Beispiel:

<speak> Mary had a little lamb <break time="3s"/>Whose fleece was white as snow.</speak>

Wenn Sie kein Attribut mit dem break-Tag verwenden, variiert das Ergebnis je nach Text:

• Wenn sich neben dem break-Tag keine anderen Satzzeichen befinden, wird eine <breakstrength="medium"> (Pause in Komma-Länge) erstellt.

• Wenn sich das Tag neben einem Komma befindet, wird es zu einer <break strength="strong">(Pause in Satz-Länge).

• Wenn sich das Tag neben einem Punkt befindet, wird es zu einer <break strength="x-strong">(Pause in Absatz-Länge).

Betonen von Wörtern<emphasis>

Verwenden Sie das Tag <emphasis>, um Wörter zu betonen. Die Betonung von Wörtern wirkt sich aufSprechgeschwindigkeit und -lautstärke aus. Eine stärkere Betonung lässt Amazon Polly den Text lauter undlangsamer sprechen. Bei weniger Betonung wird leiser und schneller gesprochen. Die Stärke der Betonunggeben Sie mit dem Attribut level an.

Werte des Attributs level:

• Strong: Erhöht die Lautstärke und verlangsamt die Sprechgeschwindigkeit, sodass die Sprachausgabelauter und langsamer erfolgt.

• Moderate: Erhöht die Lautstärke und verlangsamt die Sprechgeschwindigkeit in geringerem Umfang alsstrong. Moderate ist die Standardeinstellung.

• Reduced: Verringert die Lautstärke und beschleunigt die Sprechgeschwindigkeit. Die Sprachausgabe istweicher und schneller.

Note

Die normale Sprechgeschwindigkeit und -lautstärke liegen zwischen moderate und reduced.

Beispiel:

<speak> I already told you I <emphasis level="strong">really like</emphasis> that person.</speak>

Angeben einer anderen Sprache für bestimmte Wörter<lang>

Mit dem Tag <lang> können Sie eine andere Sprache für ein Wort, eine Wendung oder einen Satzangeben. Fremdsprachige Wörter und Wendungen werden in der Regel besser gesprochen, wenn

39


sie in ein Paar <lang>-Tags eingeschlossen werden. Verwenden Sie zum Angeben der Sprache dasAttribut xml:lang. Eine vollständige Liste der verfügbaren Sprachen finden Sie unter Von Amazon Pollyunterstützte Sprachen (p. 23).

Sofern Sie nicht das Tag <lang> anwenden, werden alle Wörter im Eingabetext in der Sprache derStimme gesprochen, die mit voice-id angegeben wurde. Wenn Sie das Tag <lang> anwenden, werdendie Wörter in jener Sprache gesprochen.

Beispiel: Wenn die voice-id Joanna (US-Englisch) entspricht, spricht Amazon Polly den folgenden Textmit der Stimme von Joanna und ohne französischen Akzent:

<speak> Je ne parle pas français.</speak>

Wenn Sie die Stimme von Joanna mit dem Tag <lang> verwenden, spricht Amazon Polly den Satz mit derStimme von Joanna in einem Französisch mit amerikanischem Akzent:

<speak> <lang xml:lang="fr-FR">Je ne parle pas français.</lang>.</speak>

Da Joanna keine französische Muttersprachlerin ist, basiert die Aussprache auf ihrer Muttersprache, alsoUS-Englisch. Eine Person mit perfekter französischer Aussprache würde beispielsweise das Wort françaismit einem uvularen Vibrant (/R/) sprechen. Joannas Stimme (US-Englisch) spricht dieses Phonem dagegenwie /r/.

Wenn Sie die voice-id von Giorgio verwenden, der Italienisch spricht, gibt Amazon Polly den folgendenText mit der Stimme von Giorgio und italienischer Aussprache wieder:

<speak> Mi piace Bruce Springsteen.</speak>

Wenn Sie dieselbe Stimme mit dem folgenden Tag <lang> verwenden, spricht Amazon Polly "BruceSpringsteen" englisch, aber mit italienischem Akzent aus:

<speak> Mi piace <lang xml:lang="en-US">Bruce Springsteen.</lang></speak>

Dieses Tag kann auch als Ersatz für die optionale DefaultLangCode-Option bei der Generierung vonSprachausgabe verwendet werden. In diesem Fall ist es jedoch erforderlich, dass Sie Ihren Text mit SSMLformatieren.

Einfügen eines benutzerdefinierten Tags in den Text<mark>

Um ein benutzerdefiniertes Tag im Text zu platzieren, verwenden Sie das Tag <mark>. Amazon Polly führtaufgrund dieses Tags keine Aktion aus, gibt aber die Position des Tags in den SSML-Metadaten zurück.Bei diesem Tag kann es sich um eine beliebige hervorzuhebende Information handeln, sofern das folgendeFormat eingehalten wird:

<mark name="tag_name"/>

40

API_StartSpeechSynthesisTask.html#polly-StartSpeechSynthesisTask-request-DefaultLangCode


Beispiel: Der Tag-Name lautet "animal" und der Eingabetext:

<speak> Mary had a little <mark name="animal"/>lamb.</speak>

In diesem Fall kann Amazon Polly die folgenden SSML-Metadaten zurückgeben:

{"time":767,"type":"ssml","start":25,"end":46,"value":"animal"}

Hinzufügen einer Pause zwischen Absätzen<p>

Mit dem Tag <p> können Sie eine Pause zwischen Absätzen im Text einfügen. Mit diesem Tag wird einelängere Pause als die eingefügt, die Muttersprachler üblicherweise nach Kommas oder am Satzendeeinfügen. Schließen Sie den Absatz in das Tag <p> ein:

<speak> <p>This is the first paragraph. There should be a pause after this text is spoken.</p> <p>This is the second paragraph.</p> </speak>

Dies entspricht der Angabe einer Pause mit <break strength="x-strong"/>.

Verwenden phonetischer Aussprache<phoneme>

Mit dem Tag <phoneme> können Sie Amazon Polly veranlassen, für bestimmten Text phonetischeAussprache zu verwenden.

Für das Tag <phoneme> sind zwei Attribute erforderlich. Sie zeigen das von Amazon Polly verwendetephonetische Alphabet und die phonetischen Symbole der korrigierten Aussprache an:

• alphabet

• ipa: Gibt an, dass das IPA (International Phonetic Alphabet) verwendet wird.• x-sampa: Gibt an, dass X-SAMPA (Extended Speech Assessment Methods Phonetic Alphabet)

verwendet wird.• ph

• Gibt die phonetischen Symbole für die Aussprache an. Weitere Informationen finden Sie unterPhonem- und Mundbildtabellen für unterstützte Sprachen (p. 56)

Mit dem Tag <phoneme> verwendet Amazon Polly die mit dem Attribut ph angegebene Ausspracheanstelle der Standardaussprache, die für die Sprache der gewählten Stimme gilt.

Das Wort „pecan“ kann beispielsweise auf zwei Arten ausgesprochen werden. Im folgenden Beispiel wirddem Wort „pecan“ in jeder Zeile eine andere Aussprache zugewiesen. Amazon Polly spricht „pecan“ gemäßden ph-Attributen aus, statt die Standardaussprache zu verwenden.

International Phonetic Alphabet (IPA)

<speak>

41


You say, <phoneme alphabet="ipa" ph="p##k##n">pecan</phoneme>. I say, <phoneme alphabet="ipa" ph="#pi.kæn">pecan</phoneme>.</speak>

Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA)

<speak> You say, <phoneme alphabet='x-sampa' ph='pI"kA:n'>pecan</phoneme>. I say, <phoneme alphabet='x-sampa' ph='"pi.k{n'>pecan</phoneme>. </speak>

Außerdem verwendet das Mandarin-Chinesische Pinyin für die phonetische Aussprache.

Pinyin

<speak> ## <phoneme alphabet="x-amazon-pinyin" ph="bo2">#</phoneme># ## <phoneme alphabet="x-amazon-pinyin" ph="bao2">#</phoneme>#</speak>

Steuern von Lautstärke, Sprechgeschwindigkeit und Tonlage<prosody>

Mit dem prosody-Tag können Sie Lautstärke, Geschwindigkeit und Tonlage Ihrer gewählten Stimmesteuern.

Lautstärke, Sprechgeschwindigkeit und Tonlage sind von der jeweils gewählten Stimme abhängig. Nebenden Unterschieden der Stimmen für verschiedene Sprachen gibt es auch Unterschiede zwischen Stimmen,die dieselbe Sprache sprechen. Hieraus erklärt sich, dass es trotz zwischen den Sprachen ähnlicherAttribute klare Unterschiede von Sprache zu Sprache gibt. Absolute Werte existieren nicht.

Das Tag prosody hat drei Attribute, für die jeweils unterschiedliche Werte verfügbar sind. Jedes Attributverwendet die gleiche Syntax:

<prosody attribute="value"></prosody>

• volume

• default: Setzt die Lautstärke auf den Standardwert für die aktuelle Stimme zurück.• silent, x-soft, soft, medium, loud, x-loud: Legt die Lautstärke auf einen vordefinierten Wert für

die aktuelle Stimme fest.• +ndB, -ndB: Ändert die Lautstärke relativ zum aktuellen Pegel. Ein Wert von +0dB bedeutet keine

Änderung, +6dB bedeutet in etwa eine Verdoppelung der aktuellen Lautstärke und -6dB bedeutetungefähr eine Halbierung der aktuellen Lautstärke.

Sie können die Lautstärke für eine Passage beispielsweise folgendermaßen einstellen:

<speak> Sometimes it can sometimes be useful to <prosody volume="loud">increase the volume for a specific speech.</prosody> </speak>

Sie können die Lautstärke auch folgendermaßen festlegen:

<speak> And sometimes a lower volume <prosody volume="-6dB">is a more effective way of

42


interacting with your audience.</prosody> </speak>

• rate

• x-slow, slow, medium, fast,x-fast. Legt die Tonlage auf einen vordefinierten Wert für diegewählte Stimme fest.

• n%: Eine Änderung der Sprechgeschwindigkeit um einen Prozentsatz (nicht negativ). Beispiel:Ein Wert von 100 % bedeutet, dass die Sprechgeschwindigkeit unverändert bleibt. Ein Wert von200 % bedeutet, dass die Sprechgeschwindigkeit verdoppelt, und ein Wert von 50 %, dass dieSprechgeschwindigkeit halbiert wird. Der Wert kann zwischen 20 und 200 % liegen.

Sie können die Sprechgeschwindigkeit für eine Passage beispielsweise folgendermaßen einstellen:

<speak> For dramatic purposes, you might wish to <prosody rate="slow">speed up the speaking rate of your text.</prosody> </speak>


<speak> Although in some cases, it might help your audience to <prosody rate="85%">slow the speaking rate slightly to aid in comprehension.</prosody> </speak>

• pitch

• default: Setzt die Tonlage auf den Standardwert für die aktuelle Stimme zurück.• x-low, low, medium, high, x-high: Legt die Tonlage auf einen vordefinierten Wert für die aktuelle

Stimme fest.• +n% oder -n%: passt die Tonhöhe um einen relativen Prozentsatz an. Beispiel: Ein Wert von +0%

bedeutet keine Änderung der Baseline-Tonhöhe, +5% führt zu einer etwas höheren Baseline-Tonhöheund -5% führt zu einer etwas niedrigeren Baseline-Tonhöhe.

Sie können die Tonlage für eine Passage beispielsweise folgendermaßen einstellen:

<speak> Do you like sythesized speech <prosody pitch="high">with a pitch that is higher than normal?</prosody> </speak>


<speak> Or do you prefer your speech <prosody pitch="-10%">with a somewhat lower pitch?</prosody> </speak>

Das Tag <prosody> muss mindestens ein Attribut, kann aber auch mehrere enthalten.

<speak> Each morning when I wake up, <prosody volume="loud" rate="x-slow">I speak quite slowly and deliberately until I have my coffee.</prosody></speak>

Es kann zudem folgendermaßen mit verschachtelten Tags kombiniert werden:43


<speak> <prosody rate="85%">Sometimes combining attributes <prosody pitch="-10%">can change the impression your audience has of a voice</prosody> as well.</prosody> </speak>

Festlegen einer maximalen Dauer der generiertenSprachausgabe<prosody amazon:max-duration>

Um zu steuern, wie lange eine Sprachausgabe dauern soll, wenn sie generiert wird, verwenden Sie das<prosody>-Tag mit dem amazon:max-duration-Attribut.

Die Dauer der Sprachsynthese variiert je nach gewählter Stimme geringfügig. Dies erschwert dieAbstimmung von generierter Sprache mit Visualisierungen oder anderen Aktivitäten, die ein präzisesTiming erfordern. Dieses Problem tritt verstärkt bei Übersetzungsanwendungen auf, da die Zeit, diebenötigt wird, um bestimmte Phrasen zu sagen, je nach Sprache stark variieren kann.

Das <prosody amazon:max-duration>-Tag passt die synthetisierte Sprache an die gewünschte Daueran.

Dieses Tag verwendet folgende Syntax:

<prosody amazon:max-duration="time duration">

Mit dem <prosody amazon:max-duration>-Tag können Sie die Dauer in Sekunden oder Millisekundenfestlegen:

• ns: maximale Dauer in Sekunden.• nms: maximale Dauer in Millisekunden.

Beispiel: Der folgende gesprochene Text hat eine maximale Dauer von 2 Sekunden:

<speak> <prosody amazon:max-duration="2s"> Human speech is a powerful way to communicate. </prosody></speak>

Wenn Text innerhalb des Tags platziert wird, überschreitet er die angegebene Dauer nicht. Wenn diegewählte Stimme oder Sprache normalerweise mehr Zeit als diese Dauer in Anspruch nehmen würde,beschleunigt Amazon Polly die Sprachausgabe so, dass sie in die angegebene Dauer passt.

Wenn die angegebene Dauer länger als die benötigt Zeit ist, um den Text mit einer normalenGeschwindigkeit zu lesen, liest Amazon Polly die Rede mit normaler Geschwindigkeit. Es verlangsamtweder die Sprachausgabe noch werden Stilleperioden hinzugefügt. Die resultierende Audioausgabe ist alsokürzer als angefordert.

Note

Amazon Polly erhöht die Geschwindigkeit nicht mehr als um das Fünffache der normalenGeschwindigkeit. Wenn Text schneller gesprochen wird, ergibt er in der Regel keinen Sinn. Wenneine Sprachausgabe auch bei maximaler Beschleunigung nicht in die angegebene Dauer passt,wird das Audiomaterial beschleunigt, ist dann jedoch länger als die angegebene Dauer.

44


Sie können einen einzelnen Satz oder mehrere Sätze innerhalb eines <prosody amazon:max-duration>-Tags und mehrere <prosody amazon:max-duration>-Tags in Ihrem Text verwenden.

Beispiel:

<speak> <prosody amazon:max-duration="2400ms"> Human speech is a powerful way to communicate. </prosody> <break strength="strong"/> <prosody amazon:max-duration="5100ms"> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody> <break strength="strong"/> <prosody amazon:max-duration="8900ms"> We naturally understand this information, which is why speech is ideal for creating applications where a screen isn’t practical or possible, or simply isn’t convenient. </prosody></speak>

Die Verwendung des <prosody amazon:max-duration>-Tags kann die Latenz steigern, wenn AmazonPolly generierte Sprachausgabe zurückgibt. Der Grad der Latenz hängt von der Passage und ihrer Längeab. Wir empfehlen die Verwendung von Text aus relativ kurzen Textpassagen.

Einschränkungen

Es gibt Einschränkungen sowohl bei der Verwendung des <prosody amazon:max-duration>-Tags alsauch bei der Funktion des Tags mit anderen SSML-Tags:

• Der Text innerhalb eines <prosody amazon:max-duration>-Tags kann nicht mehr als 1 500Zeichen betragen.

• Sie können keine <prosody amazon:max-duration>-Tags verschachteln. Wenn Sie ein <prosodyamazon:max-duration>-Tag in ein anderes integrieren, ignoriert Amazon Polly das innere Tag.

Im folgenden Beispiel wird das <prosody amazon:max-duration="5s">-Tag ignoriert:

<speak> <prosody amazon:max-duration="16s"> Human speech is a powerful way to communicate. <prosody amazon:max-duration="5s"> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody>

We naturally understand this information, which is why speech is ideal for creating applications where a screen isn’t practical or possible, or simply isn’t convenient. </prosody></speak>

• Es ist nicht möglich, die <prosody>-Tags mit dem rate-Attribut innerhalb eines <prosodyamazon:max-duration>-Tags zu verwenden. Denn beide beeinflussen die Geschwindigkeit, mit derder Text gesprochen wird.

Im folgenden Beispiel ignoriert Amazon Polly das <prosody rate="2">-Tag:

45


<speak> <prosody amazon:max-duration="7500ms"> Human speech is a powerful way to communicate. <prosody rate="2"> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody> </prosody></speak>

Pausiert und max-duration

Bei der Verwendung Ihres max-duration-Tags können Sie weiterhin Pausen in Ihren Text einfügen.Allerdings gibt Amazon Polly die Länge der Pause bei der Berechnung der maximalen Sprechdauer an.Zusätzlich behält Amazon Polly die kurzen Pausen bei, die auftreten, wenn Kommata und Punkte innerhalbeiner Passage gesetzt werden, und gibt die maximale Dauer an.

Beispiel: Im folgenden Block kommen Pausen von 600 Millisekunden und die durch Kommata und Punkteverursachten Pausen innerhalb der 8-Sekunden-Sprachausgabe vor:

<speak> <prosody amazon:max-duration="8s"> Human speech is a powerful way to communicate. <break time="600ms"/> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody></speak>

Hinzufügen einer Pause zwischen Sätzen<s>

Mit dem Tag <s> können Sie eine Pause zwischen Zeilen oder Sätzen im Text einfügen. Die Verwendungdieses Tags hat die gleiche Wirkung wie:

• Beenden eines Satzes mit einem Punkt (.)• Angeben einer Pause mit <break strength="strong"/>

Im Unterschied zum Tag <break> schließt das Tag <s> den Satz ein. Das ist beim Generieren vonSprachausgabe nützlich, deren Eingabetext zeilen- statt satzweise angeordnet ist, also beispielsweise beiGedichten.

Im folgenden Beispiel sorgt das Tag <s> für eine kurze Pause nach dem ersten und zweiten Satz. Derletzte Satz hat kein <s>-Tag. Es folgt aber trotzdem eine kurze Pause, weil er mit einem Punkt endet.

<speak> <s>Mary had a little lamb</s> <s>Whose fleece was white as snow</s> And everywhere that Mary went, the lamb was sure to go.</speak>

Steuern des Sprechens spezieller Wortarten<say-as>

46


Verwenden Sie das Tag <say-as> mit dem Attribut interpret-as, um Amazon Polly mitzuteilen, wiebestimmte Zeichen, Wörter oder Zahlen gesprochen werden sollen. So können Sie Kontext bereitstellenund Mehrdeutigkeiten in Bezug auf das Rendern des Texts durch Amazon Polly beseitigen.

Das Tag say-as verwendet ein Attribut (<interpret-as>), für das mehrere mögliche Werten existieren.Jeder dieser Werte verwendet die gleiche Syntax:

<say-as interpret-as="value">[text to be interpreted]</say-as>

Die folgenden Werte können mit interpret-as verwendet werden:

• characters oder spell-out: Buchstabiert jeden Buchstaben im Text (z. B. a-b-c).• cardinal oder number: Interpretiert den numerischen Text als Kardinalzahl (z. B. 1.234).• ordinal: Interpretiert den numerischen Text als Ordnungszahl (z. B. 1.234).• digits: Spricht jede Ziffer einzeln (wie in 1-2-3-4).• fraction: Interpretiert numerischen Text als Bruch. Dies funktioniert sowohl für gemeine Brüche wie

3/20 als auch für gemischte Brüche wie 2 ½. Weitere Informationen hierzu finden Sie unten.• unit: Interpretiert einen numerischen Text als Messwert. Der Wert sollte eine Zahl oder ein Bruch

gefolgt von einer Einheit ohne Leerstelle wie in 1/2inch oder nur eine Einheit wie in 1meter sein.• date: Interpretiert den Text als Datum. Das Datumsformat muss durch das Formatattribut festgelegt

werden. Weitere Informationen hierzu finden Sie unten.• time: interpretiert den numerischen Text als Dauer in Minuten und Sekunden (z. B. 1'21").• address: Interpretiert den Text als Teil einer Angabe von Straße und Hausnummer.• expletive: Der im Tag eingeschlossene Inhalt wird durch einen Piepton überdeckt.• telephone: Interpretiert den numerischen Text als sieben- oder zehnstellige Telefonnummer, z. B.2025551212. Sie können diesen Wert auch für Nebenstellen wie in 2025551212x345 verwenden.Weitere Informationen hierzu finden Sie unten.

Note

Derzeit ist die Option telephone nur für englischsprachige Stimmen verfügbar.

Bruchzahlen

Amazon Polly interpretiert Werte innerhalb des say-as-Tags mit dem Attribut interpret-as="fraction" als einfache Brüche. Im Folgenden wird die Syntax für Bruchzahlen beschrieben.

• Bruchzahlen

Syntax: Kardinalzahl/Kardinalzahl wie 2/9.

Beispiel: <say-as interpret-as="fraction">2/9</say-as> wird ausgesprochen als "two ninth".• Nicht negative gemischte Nummer

Syntax: Kardinalzahl+Kardinalzahl/Kardinalzahl, z. B. 3+1/2.

Beispiel: <say-as interpret-as="fraction">3+1/2</say-as> wird ausgesprochen als "threeand a half".

Note

Zwischen "3" und "1/2" muss sich ein + befinden. Amazon Polly unterstützt keine gemischtenZahlen ohne das +, wie z. B. "3 1/2".

Datumsangaben

47


Wenn interpret-as auf date gesetzt ist, müssen Sie auch das Datumsformat angeben.

Für dieses Tag gilt folgende Syntax:

<say-as interpret-as="date" format="format">[date]</say-as>

Beispiel:

<speak> I was born on <say-as interpret-as="date" format="dmy">12-31-1900</say-as>.</speak>

Die folgenden Formate können für das Attribut date angegeben werden.

• mdy: Monat-Tag-Jahr.• dmy: Tag-Monat-Jahr.• ymd: Jahr-Monat-Tag.• md: Monat-Tag.• dm: Tag-Monat.• ym: Jahr-Monat.• my: Monat-Jahr.• d: Tag.• m: Monat.• y: Jahr.• yyyymmdd: Jahr-Monat-Tag. Wenn Sie dieses Format verwenden, können Sie Amazon Polly mithilfe von

Fragezeichen veranlassen, die betreffenden Teile des Datums auszulassen.

Beispiel: Amazon Polly gibt Folgendes als "22. September" wieder:

<say-as interpret-as="date">????0922</say-as>

Format ist nicht erforderlich.

Telefonnummer

Amazon Polly versucht auch ohne das Tag <say-as>, den Eingabetext basierend auf der Formatierungkorrekt zu interpretieren. Wenn der Text die Ziffernfolge "202-555-1212" enthält, interpretiert Amazon Pollydies als zehnstellige Telefonnummer und spricht jede Ziffer einzeln. Jeder Bindestrich wird durch einekurze Pause repräsentiert. In diesem Fall müssen Sie <say-as interpret-as="telephone"> nichtverwenden. Wenn Sie jedoch den Text "2025551212" eingeben und möchten, dass Amazon Polly ihn alsTelefonnummer spricht, müssen Sie <say-as interpret-as="telephone"> angeben.

Die Logik zur Interpretation der einzelnen Elemente ist sprachspezifisch. Die Aussprache vonTelefonnummern unterscheidet sich beispielsweise zwischen US-amerikanischem und britischem Englisch(in Großbritannien werden aufeinanderfolgende gleiche Ziffern zusammengefasst, z. B. "double five" oder"triple four"). Sie können das folgende Beispiel mit einer US-amerikanischen und einer britischen Stimmetesten, um den Unterschied zu hören:

<speak> Richard's number is <say-as interpret-as="telephone">2122241555</say-as></speak>

48


Aussprache von Akronymen und Abkürzungen<sub>

Verwenden Sie das <sub>-Tag mit dem alias-Attribut, um gewählten Text – z. B. ein Akronym oder eineAbkürzung – durch ein anderes Wort (oder eine andere Aussprache) zu ersetzen.

Es gilt folgende Syntax:

<sub alias="new word">abbreviation</sub>

Im folgenden Beispiel wird der Name "Mercury" anstelle des chemischen Symbols für das Elementgesprochen, um den Audioinhalt verständlicher zu machen.

<speak> My favorite chemical element is <sub alias="Mercury">Hg</sub>, because it looks so shiny. </speak>

Verbessern der Aussprache durch Angabe der Wortart<w>

Sie können das Tag <w> verwenden, um die Aussprache von Wörtern anzupassen, indem Sie die Wortartoder eine alternative Bedeutung angeben. Dies erfolgt mithilfe des Attributs role.

Dieses Tag verwendet folgende Syntax:

<w role="attribute">text</w>

Folgende Werte können für das Attribut role angegeben werden:

So geben Sie die Wortart an:

• amazon:VB: Das Wort wird als Verb (in der Gegenwartsform) interpretiert.• amazon:VBD: Das Wort wird als Vergangenheitsform oder als Partizip Perfekt interpretiert.

Beispiel: Je nach Wortart variiert die Aussprache des Wortes „read“ im US-Englischen in Abhängigkeit vomTag:

<speak> The word <say-as interpret-as="characters">read</say-as> may be interpreted as either the present simple form <w role="amazon:VB">read</w>, or the past participle form <w role="amazon:VBD">read</w>.</speak>

So geben Sie eine alternative Bedeutung an:

• amazon:SENSE_1: Der nicht standardmäßige Wortsinn wird verwendet (sofern vorhanden).Beispiel: Das Substantiv „bass“ wird je nach Bedeutung anders ausgesprochen. DieStandardbedeutung ist die tiefste Tonlage in der Musik. Die alternative Bedeutung ist eine Speziesvon Süßwasserfischen, die auch als „bass“ bezeichnet, aber anders ausgesprochen wird. Durch<w role="amazon:SENSE_1">bass</w> wird in der Sprachausgabe die nichtstandardmäßigeAussprache (für den Süßwasserfisch) verwendet.

Dieser Unterschied ist hörbar, wenn Sie Folgendes synthetisieren:

49


<speak> Depending on your meaning, the word <say-as interpret-as="characters">bass</say-as> may be interpreted as either a musical element: read, or as its alternative meaning, a fresh waterfish <w role="amazon:SENSE_1">bass</w>.</speak>

Note

Einige Sprachen weisen möglicherweise eine andere Auswahl unterstützter Sprachelemente auf.

Hinzufügen von Atemgeräuschen<amazon:breath> und <amazon:auto-breaths>

Natürlich klingende Sprache besteht aus richtig gesprochenen Wörtern und Atemgeräuschen. WennSie der synthetisierten Sprachausgabe Atemgeräusche hinzufügen, klingt sie natürlicher. Die Tags<amazon:breath> und <amazon:auto-breaths> stellen Atemgeräusche bereit. Ihnen stehen folgendeOptionen zur Verfügung:

• Manueller Modus: Sie legen Position, Dauer und Lautstärke des Atemgeräusches im Text fest• Automatischer Modus: Amazon Polly fügt automatisch Atemgeräusche in die Sprachausgabe ein.• Gemischter Modus: Sie und Amazon Polly fügen Atemgeräusche hinzu.

Manueller Modus

Im manuellen Modus platzieren Sie das Tag <amazon:breath/> im Eingabetext an der Stelle, an derdas Atemgeräusch hörbar werden soll. Sie können Dauer und Lautstärke des Atemgeräusches mit denAttributen duration und volume festlegen:

• duration: legt die Dauer des Atemgeräusches fest. Folgende Werte sind zulässig: default, x-short,short, medium, long, x-long. Der Standardwert ist medium.

• volume: Legt die Lautstärke des Atemgeräusches fest. Folgende Werte sind zulässig: default, x-soft, soft, medium, loud, x-loud. Der Standardwert ist medium.

Note

Die exakte Dauer und Lautstärke der betreffenden Attributwerte ist von der verwendeten AmazonPolly-Stimme abhängig.

Sie können ein Atemgeräusch mit Standardwerten festlegen, indem Sie <amazon:breath/> ohneAttribute verwenden.

Um beispielsweise Dauer und Lautstärke eines Atemgeräusches mit Attributen festzulegen, verwenden Siefolgende Attributwerte:

<speak> Sometimes you want to insert only <amazon:breath duration="medium" volume="x-loud"/>a single breath.</speak>

Für ein Atemgeräusch mit Standardwerten verwenden Sie einfach das Tag:

<speak>

50


Sometimes you need <amazon:breath/>to insert one or more average breathes <amazon:breath/> so that the text sounds correct.</speak>

Sie können folgendermaßen Atemgeräusche in eine Textpassage einfügen:

<speak> <amazon:breath duration="long" volume="x-loud"/> <prosody rate="120%"> <prosody volume="loud"> Wow! <amazon:breath duration="long" volume="loud"/> </prosody> That was quite fast <amazon:breath duration="medium" volume="x-loud"/>. I almost beat my personal best time on this track. </prosody></speak>

Automatischer Modus

Im automatischen Modus verwenden Sie das Tag <amazon:auto-breaths>, um Amazon Pollyanzuweisen, automatisch Atemgeräusche in angemessenen Intervallen zu erzeugen. Sie können dieHäufigkeit der Intervalle sowie Lautstärke und Dauer einstellen. Platzieren Sie das Tag </amazon:auto-breaths> am Anfang und das entsprechende schließende Tag am Ende des Textes, für den automatischAtemgeräusche generiert werden sollen.

Note

Im Unterschied zum Tag <amazon:breath/> für den manuellen Modus ist für <amazon:auto-breaths> ein schließendes Tag (</amazon:auto-breaths>) erforderlich.

Sie können die folgenden optionalen Attribute mit dem Tag <amazon:auto-breaths> verwenden:

• volume: Legt die Lautstärke der Atemgeräusche fest. Folgende Werte sind zulässig: default, x-soft,soft, medium, loud, x-loud. Der Standardwert ist medium.

• frequency: Steuert, wie oft Atemgeräusche im Text generiert werden. Folgende Werte sind zulässig:default, x-low, low, medium, high, x-high. Der Standardwert ist medium.

• duration: Legt die Dauer des Atemgeräusches fest. Folgende Werte sind zulässig: default, x-short, short, medium, long, x-long. Der Standardwert ist medium.

Standardmäßig hängt die Häufigkeit der Atemgeräusche vom Eingabetext ab. Atemgeräusche treten häufignach Kommas und Punkten auf.

Die folgenden Beispiele demonstrieren die Verwendung des Tags <amazon:auto-breaths>. Um zuentscheiden, welche Optionen für Ihren Inhalt geeignet sind, können Sie die entsprechenden Beispiele indie Amazon Polly-Konsole kopieren und sich die Unterschiede anhören.

• Automatischer Modus ohne optionale Parameter

<speak> <amazon:auto-breaths>Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech- enabled products. Amazon Polly is a text-to-speech service that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech- enabled applications that work in many different countries.</amazon:auto-breaths>

51


</speak>

• Automatischer Modus mit Lautstärkeregelung: Für nicht angegebene Parameter (duration undfrequency) werden die Standardwerte (medium) verwendet.

<speak> <amazon:auto-breaths volume="x-soft">Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech-enabled products. Amazon Polly is a text-to-speech service, that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech- enabled applications that work in many different countries.</amazon:auto-breaths></speak>

• Automatischer Modus mit Häufigkeitsregelung: Für nicht angegebene Parameter (duration undvolume) werden die Standardwerte (medium) verwendet.

<speak> <amazon:auto-breaths frequency="x-low">Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech-enabled products. Amazon Polly is a text-to-speech service, that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech- enabled applications that work in many different countries.</amazon:auto-breaths></speak>

• Automatischer Modus mit mehreren Parametern: Wird der Parameter Duration nicht angegeben,verwendet Amazon Polly den Standardwert (medium).

<speak> <amazon:auto-breaths volume="x-loud" frequency="x-low">Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech-enabled products. Amazon Polly is a text-to-speech service, that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech-enabled applications that work in many different countries.</amazon:auto-breaths></speak>

Hinzufügen einer Dynamikkomprimierung

<amazon:effect name="drc">

Je nach dem in einer Audiodatei verwendeten Text, der Sprache und der Stimme reichen die Töne vonleise bis laut. Umgebungsgeräusche, wie z. B. der Klang eines sich bewegenden Fahrzeugs, können oftdie leisen Töne überdecken, wodurch die Audiospur schwer zu hören ist. Um die Lautstärke bestimmter

52


Sounds in Ihrer Audiodatei zu erhöhen, verwenden Sie den Tag für die Dynamikbereichkomprimierung(drc).

Das drc-Tag stellt einen mittleren „Lautstärke“-Schwellenwert für Ihr Audiomaterial ein und erhöhtdie Lautstärke (die Verstärkung) der Sounds um diesen Schwellenwert. Es wendet die größteVerstärkungszunahme an, die dem Schwellenwert am nächsten ist, und die Verstärkungszunahme wirdweiter weg vom Schwellenwert verringert.

Dadurch werden die Klänge des mittleren Bereichs in einer geräuschvollen Umgebung besser hörbar,wodurch die gesamte Audiodatei klarer wird.

Der drc-Tag ist ein boolescher Parameter (entweder vorhanden oder nicht). Es verwendet die Syntax:<amazon:effect name="drc"> und wird mit </amazon:effect> geschlossen.

Sie können das Tag drc mit jeder Sprache oder Sprache verwenden, die von Amazon Polly unterstütztwird. Sie können es auf einen ganzen Abschnitt der Aufnahme oder nur für einige Wörter anwenden.Beispiel:

<speak> Some audio is difficult to hear in a moving vehicle, but <amazon:effect name="drc"> this audio is less difficult to hear in a moving vehicle.</amazon:effect></speak>

Note

Wenn Sie „drc“ in der amazon:effect -Syntax verwenden, wird die Groß-/Kleinschreibungbeachtet.

Verwenden von drc mit dem prosody volume-Tag

Wie die folgende Grafik zeigt, erhöht der Tag prosody volume die Lautstärke einer gesamten Audiodateigleichmäßig vom ursprünglichen Level (gepunktete Linie) auf einen angepassten Level (durchgezogeneLinie). Um die Lautstärke bestimmter Teile der Datei weiter erhöhen, verwenden Sie den drc-Tag mit demprosody volume-Tag. Die Kombination von Tags hat keine Auswirkungen auf die Einstellungen des Tagsprosody volume.

Wenn Sie die Tags drc und prosody volume zusammen verwenden, wendet Amazon Polly zuerst dasTag drc an und erhöht damit die mittleren Töne (die in der Nähe des Schwellenwerts liegen). Dann wendetes den Tag prosody volume an und erhöht die Lautstärke der gesamten Audiospur weiter gleichmäßig.

53


Um die Tags zusammen zu verwenden, verschachteln Sie sie ineinander. Beispiel:

<speak> <prosody volume="loud">This text needs to be understandable and loud. <amazon:effect name="drc"> This text also needs to be more understandable in a moving car.</amazon:effect></prosody> </speak>

In diesem Text erhöht der Tag prosody volume die Lautstärke der gesamten Passage auf „laut“- Der Tagdrc erhöht die Lautstärke der Mittelwerte im zweiten Satz.

Note

Wenn Sie die Tags drc und prosody volume zusammen verwenden, verwenden Sie XML-Standardpraktiken zum Verschachteln von Tags.

Weicheres Sprechen<amazon:effect phonation="soft">

Sie können angeben, dass Eingabetext weicher als normal gesprochen werden soll, indem Sie das Tag<amazon:effect phonation="soft"> verwenden.

Es gilt folgende Syntax:

<amazon:effect phonation="soft">text</amazon:effect>

Sie können dieses Tag beispielsweise folgendermaßen mit der Stimme Matthew verwenden:

<speak> This is Matthew speaking in my normal voice. <amazon:effect phonation="soft">This is Matthew speaking in my softer voice.</amazon:effect></speak>

Steuern des Timbres<amazon:effect vocal-tract-length>

Timbre ist die Klangqualität einer Stimme, mit der Sie den Unterschied zwischen Stimmen erkennenkönnen, selbst wenn sie die gleiche Tonhöhe und Lautstärke haben. Eine der wichtigsten physiologischenEigenschaften, die zur Sprachtimbre beiträgt, ist die Länge des Vokaltraktes. Der Vokaltrakt ist eineLufthöhle, die sich von der Oberseite der Stimmfalten bis zum Rand der Lippen erstreckt.

Um das Timbre der Sprachausgabe in Amazon Polly zu steuern, verwenden Sie das Tag vocal-tract-length. Dieser Tag hat die Wirkung, die Länge des Vokaltrakts des Sprechers zu verändern, was wie eineÄnderung der Sprechergröße klingt. Wenn Sie die vocal-tract-lengtherhöhen, klingt der Sprecherphysikalisch größer. Wenn Sie es verringern, klingt der Sprecher kleiner. Dieses Tag kann zusammen mitjeder Stimme im Sprachausgabeportfolio von Amazon Polly verwendet werden.

54


Verwenden Sie die folgenden Werte, um das Timbre zu ändern:

• +n% oder -n%: Passt die Vokaltraktlänge um einen relativen Prozentsatz der derzeit verwendetenStimme an. Beispiel: +4 % oder -2 %. Gültige Werte liegen zwischen 100 % und -50 %. Werte außerhalbdieses Bereichs werden abgeschnitten. Zum Beispiel klingt +111 % wie +100 % und -60 % klingt wie -50%.

• n%: Ändert die Länge des Vokaltrakts auf einen absoluten Prozentsatz der Länge der aktuellen Stimme.Zum Beispiel 110 % oder 75 %. Ein absoluter Wert von 110 % entspricht einem relativen Wert von +10%. Ein absoluter Wert von 100 % entspricht dem Standardwert für die aktuelle Stimme.

Das folgende Beispiel zeigt, wie die Länge des Vokaltrakts geändert wird, um das Timbre zu ändern:

<speak> This is my original voice, without any modifications. <amazon:effect vocal-tract-length="+15%"> Now, imagine that I am much bigger. </amazon:effect> <amazon:effect vocal-tract-length="-15%"> Or, perhaps you prefer my voice when I'm very small. </amazon:effect> You can also control the timbre of my voice by making minor adjustments. <amazon:effect vocal-tract-length="+10%"> For example, by making me sound just a little bigger. </amazon:effect><amazon:effect vocal-tract-length="-10%"> Or, making me sound only somewhat smaller. </amazon:effect> </speak>

Kombinieren von mehreren Tags

Sie können das Tag vocal-tract-length mit jedem anderen SSML-Tag kombinieren, das von AmazonPolly unterstützt wird. Da Timbre (Vokaltraktlänge) und Tonhöhe eng miteinander verbunden sind, könnenSie die besten Ergebnisse erzielen, wenn Sie sowohl den vocal-tract-length als auch den <prosodypitch>-Tag verwenden. Um die realistischste Stimme zu erzeugen, empfehlen wir Ihnen, unterschiedlicheProzentsätze der Änderungen für die beiden Tags zu verwenden. Experimentieren Sie mit verschiedenenKombinationen, um die gewünschten Ergebnisse zu erzielen.

Das folgende Beispiel zeigt, wie Tags kombiniert werden.

<speak> The pitch and timbre of a person's voice are connected in human speech. <amazon:effect vocal-tract-length="-15%"> If you are going to reduce the vocal tract length, </amazon:effect><amazon:effect vocal-tract-length="-15%"> <prosody pitch="+20%"> you might consider increasing the pitch, too. </prosody></amazon:effect> <amazon:effect vocal-tract-length="+15%"> If you choose to lengthen the vocal tract, </amazon:effect> <amazon:effect vocal-tract-length="+15%"> <prosody pitch="-10%"> you might also want to lower the pitch. </prosody></amazon:effect></speak>

Flüstern

<amazon:effect name="whispered">

Dieses Tag gibt an, dass der Eingabetext nicht normal gesprochen, sondern geflüstert werden soll. DiesesTag kann zusammen mit jeder Stimme im Sprachausgabeportfolio von Amazon Polly verwendet werden.

Für dieses Tag gilt folgende Syntax:

<amazon:effect name=”whispered”>text</amazon:effect>

55


Beispiel:

<speak> <amazon:effect name="whispered">If you make any noise, </amazon:effect> she said, <amazon:effect name="whispered">they will hear us.</amazon:effect></speak>

In diesem Fall wird die generierte Sprachausgabe geflüstert, während der Ausdruck "she said" von dergewählten Amazon Polly-Stimme als normale Sprachausgabe gesprochen wird.

Sie können den „Flüstereffekt“ noch verstärken, indem Sie den Satzrhythmus je nach Belieben um bis zu10 % verlangsamen.

Beispiel:

<speak> When any voice is made to whisper, <amazon:effect name="whispered"> <prosody rate="-10%">the sound is slower and quieter than normal speech </prosody></amazon:effect></speak>

Beim Erstellen der Sprachmarkierungen für eine Flüsterstimme muss der Audiostream diese ebenfallsenthalten, um sicherzustellen, dass die Sprachmarkierungen zum Audiostream passen.

Phonem- und Mundbildtabellen für unterstützte SprachenDie folgenden Tabellen listen die Phoneme für die von unterstützten Amazon Polly Sprachen zusammenmit Beispielen und den entsprechenden Visemen auf.

Themen• Arabisch (arb) (p. 57)• Chinesisch, Mandarin (cmn-CN) (p. 60)• Dänisch (da-DK) (p. 63)• Niederländisch (nl-NL) (p. 66)• Englisch (australisch) (en-AU) (p. 69)• Englisch (indisch) (en-IN) (p. 71)• Englisch (britisch) (en-GB) (p. 74)• Englisch (USA) (p. 77)• Englisch (walisisch) (en-GB-WSL) (p. 80)• Französisch (fr-FR) (p. 83)• Kanadisches Französisch (fr-CA) (p. 85)• Deutsch (de-DE) (p. 88)• Hindi (hi-IN) (p. 91)• Isländisch (is-IS) (p. 93)• Italienisch (it-IT) (p. 96)• Japanisch (ja-JP) (p. 99)• Koreanisch (ko-KR) (p. 101)• Norwegisch (nb-NO) (p. 103)• Polnisch (pl-PL) (p. 106)• Portugiesisch (pt-PT) (p. 108)• Portugiesisch (brasilianisch) (pt-BR) (p. 110)

56


• Rumänisch (ro-RO) (p. 113)• Russisch (ru-RU) (p. 115)• Spanisch (es-ES) (p. 118)• Spanisch, mexikanisch (es-MX) (p. 121)• Spanisch, USA (es-US) (p. 123)• Schwedisch (sv-SE) (p. 126)• Türkisch (tr-TR) (p. 128)• Walisisch (cy-GB) (p. 131)

Arabisch (arb)

Die folgende Tabelle listet die Phoneme des International Phonetic Alphabet (IPA), die Symbole desExtended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) und die entsprechenden Viseme fürdie arabische Stimme Zeinas auf, die von Amazon Polly unterstützt werden.

Tabelle der Phoneme/Viseme


Konsonanten

ʔ ? Glottallaut أنا

ʕ ?\ stimmhafterpharyngaler Frikativ

عمر k

b b stimmhafter bilabialerVerschlusslaut

بلد p

d d stimmhafteralveolarerVerschlusslaut

داري t

dˤ d_?\ emphatischerstimmhafteralveolarerVerschlusslaut

ضوء t


جميل S


ذلك T

ðˤ D_?\ emphatischerstimmhafter dentalerFrikativ

ظلام T


فصل f

ɡ g stimmhafter velarerVerschlusslaut

إنجلترا k

ɣ G stimmhafter velarerFrikativ

غرب k

57




هذا k

j j palatalerApproximant

يمشي i

k k stimmloser velarerVerschlusslaut

كلب k

l l alveolarer lateralerApproximant

لاقى t

lˠ l_G emphatischeralveolarer lateralerApproximant

الله t

i i bilabialer Nasal ماذا p

n n alveolarer Nasal نور t

p p stimmloser bilabialerVerschlusslaut

حبس p

q q stimmloser uvularerVerschlusslaut

قريب k

r r alveolarer Vibrant رمل r

S S stimmloser alveolarerReibelaut

سؤال s

sˤ s_?\ emphatischerstimmloser alveolarerReibelaut

صاحب s

ʃ S stimmloserpostalveolarerReibelaut

شكر S

t t stimmloser alveolarerVerschlusslaut

تمر t

tˤ t_?\ emphatischerstimmloser alveolarerVerschlusslaut

طالب t

θ T stimmloser dentalerReibelaut

ثلاث T

V V stimmhafterlabiodentalerReibelaut

فيتامين f

w w labiovelarerApproximant

ولد u

x x stimmloser velarerReibelaut

خوف k

58



ħ X\ stimmloserpharyngalerReibelaut

حول k

z z stimmhafteralveolarer Reibelaut

زهور s

Vokale

a a ungerundeter offenervorderer Vokal

برد a

aː a: langer ungerundeteroffener vordererVokal

دار a

ɑˤ A_?\ emphatischerungerundeter offenerhinterer Vokal

طبل a

ɑˤː A_?\: emphatischer langerungerundeter offenerhinterer Vokal

ظالم a

u u gerundetergeschlossenerhinterer Vokal

شرب u

u: u: langer gerundetergeschlossenerhinterer Vokal

سور u

uˤ u_?\ emphatischergerundetergeschlossenerhinterer Vokal

بد u

uˤː u_?\: emphatischerlanger gerundetergeschlossenerhinterer Vokal

طول u

i i ungerundetergeschlossenervorderer Vokal

بنت i

iː i: langer ungerundetergeschlossenervorderer Vokal

حزين i

iˤ i_?\ emphatischerungerundetergeschlossenervorderer Vokal

ضد i

59



iˤː i_?\: emphatischerlanger ungerundetergeschlossenervorderer Vokal

ماضي i

e e ungerundeterhalbgeschlossenervorderer Vokal

ماركت e

eː e: langer ungerundeterhalbgeschlossenervorderer Vokal

موديل e

ɔ O gerundeterhalboffener hintererVokal

تكنولوجي O

ɔː O: langer gerundeterhalboffener hintererVokal

تليفزيون O

Chinesisch, Mandarin (cmn-CN)In der folgenden Tabelle finden Sie die Pinyin- und International Phonetic Alphabet (IPA)-Phoneme fürdie chinesische (Mandarin) Stimme, die von Amazon Polly unterstützt wird. Pinyin ist der internationaleStandard für die Standardtranskribierung des Chinesischen. IPA und X-SAMPA werden nicht häufigverwendet, sind jedoch für die Unterstützung des Englischen verfügbar. Die IPA- und X-SAMPA-Symbolein der Tabelle dienen lediglich Referenzzwecken und sollten nicht für die Transkribierung des Chinesischenverwendet werden. Pinyin-Beispiele und die entsprechenden Viseme werden ebenfalls angezeigt.

Verwenden Sie das phoneme alphabet="x-amazon-phonetic standard used"-Tag, wennAmazon Polly die phonetische Aussprache nach Pinyin verwenden soll.

Die folgenden Beispiele zeigen dies für die verschiedenen Standards.

Pinyin:

<speak> ## <phoneme alphabet="x-amazon-pinyin" ph="bo2">#</phoneme># ## <phoneme alphabet="x-amazon-pinyin" ph="bao2">#</phoneme>#</speak>

IPA:

<speak> ## <phoneme alphabet="ipa" ph="p##k##n">pecan</phoneme># ## <phoneme alphabet="ipa" ph="#pi.kæn">pecan</phoneme>#</speak>

X-SAMPA:

<speak> ## <phoneme alphabet='x-sampa' ph='pI"kA:n'>pecan</phoneme># ## <phoneme alphabet='x-sampa' ph='"pi.k{n'>pecan</phoneme>#</speak>

60


Note

Amazon Polly akzeptiert ausschließlich in UTF-8 codierte Mandarin-Chinesisch-Eingaben. Der GB18030-Codierungsstandard wird derzeit von Amazon Polly nicht unterstützt.


Pinyin IPA X-SAMPA

Beschreibung Pinyin-Beispiel Viseme

Konsonanten

f f f stimmloser labiodentalerFrikativ

发, fa1 f

h h h stimmloser glottaler Frikativ 和, he2 k

g k k stimmloser velarerVerschlusslaut

古, gu3 k

k kʰ k_h aspirierter stimmloservelarer Plosiv

苦, ku3 k

l l l alveolarer lateralerApproximant

拉, la1 t

i m m bilabialer Nasal 骂, ma4 p

n n n alveolarer Nasal 那, na4 t

ng ŋ N velarer Nasal 正, zheng4 k

b p p stimmloser bilabialerVerschlusslaut

爸, ba4 p

p pʰ p_h aspirierter stimmloserbilabialer Plosiv

怕, pa4 p

s s s stimmloser alveolarerReibelaut

四, si4 s

x ɕ S\ stimmloser alveolopalatalerFrikativ

西, xi1 J

sh ʂ S` stimmloser retroflexerFrikativ

是, shi4 S

d t t stimmloser alveolarerVerschlusslaut

打, da3 t

t tʰ t_h aspirierter stimmloseralveolarer Plosiv

他, ta1 t

zh ʈʂ t`s` stimmlose retroflexeAffrikate

之, zhi1 S

ch ʈʂʰ t`s`_h aspirierter stimmloserretroflexer Plosiv

吃, chi1 S

s ts ts stimmlose alveolareAffrikate

字, zi4 s

61


Pinyin IPA X-SAMPA


j tɕ ts\ stimmlose alveolopalataleAffrikate

鸡, ji1 J

q tɕʰ ts\_h aspirierte stimmlosealveolopalatale Affrikate

七, qi1 J

c tsʰ ts_h aspirierte stimmlosealveolare Affrikate

次, ci4 s

w w w labiovelarer Approximant 我, wo3 u

r ʐ z` stimmhafter retroflexerFrikativ

日, ri4 S

„ht“- und „r“-farbige Silben

er ɚ @` rhotisches mittlererzentraler Vokal

二, er4 @

-r r-farbige Silbe 馅儿, xianr4 @

Vokale

e ɤ 7 halbgeschlossenerungerundeterHinterzungenvokal

恶, e4 e

e ə @ Schwa 恩, en1 @

a a a ungerundeter offenervorderer Vokal

安, an1 a

ai aɪ aI Diphthong 爱, ai4 a

ao aʊ aU Diphthong 奥, ao4 a

ei eɪ e Diphthong 诶, ei4 e

e ɛ E ungerundeter halboffenerVorderzungenvokal

姐, jie3 E

i i i ungerundetergeschlossener vordererVokal

鸡, ji1 i

ou oʊ oU Diphthong 欧, ou1 o

o ɔ O gerundeter halboffenerhinterer Vokal

哦, o4 o

u u u gerundeter geschlossenerhinterer Vokal

主, zhu3 u

yu y y geschlossener gerundetervorderer Vokal

于, yu2 u

Tonmarkierungen und zusätzliche Symbole

62


Pinyin IPA X-SAMPA


1 hoher Ton 淤, yu1

2 steigender Ton 鱼, yu2

3 niedriger (fallend-steigender) Ton

语, yu3

4 fallender Ton 育, yu4

0 neutraler Ton 的, de0

- . . Silbengrenze 语音 yu3-yin1

Dänisch (da-DK)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für dänische Stimmen.


IPA X-SAMPA Beschreibung Beispiel Viseme

Konsonanten


bat p


da t


mad, thriller T


fat f

g g stimmhafter velarerVerschlusslaut

gat k


hat k


jo i


kat k


ladt t

m m bilabialer Nasal mat p

n n alveolarer Nasal nay t

63



ŋ N velarer Nasal lang k


pande p

r r alveolarer Vibrant thriller, story r

ʁ R stimmhafter uvularerFrikativ

rat k

s s stimmloser alveolarerReibelaut

sat s


tal t


vat f

w w labialisierter velarerApproximant

hav, weekend u

Vokale

ø 2 gerundeterhalbgeschlossenerVorderzungenvokal

øst o

ø: 2: langer gerundeterhalbgeschlossenerVorderzungenvokal

øse o

ɐ 6 fast offenerZentralvokal

mor a

œ 9 gerundeterhalboffenerVorderzungenvokal

skøn, grønt O

œ: 9: langer gerundeterhalboffenerVorderzungenvokal

høne, gøre O

ə @ Schwa ane @

æː {: langer ungerundeterfast offenerVorderzungenvokal

male a


man a

æ { ungerundeterfast offenerVorderzungenvokal

adresse a

64



ɑ A ungerundeter offenerHinterzungenvokal

lak, tak a

ɑ: A: langer ungerundeteroffenerHinterzungenvokal

rase a


midt e

e: e: langer ungerundeterhalbgeschlossenervorderer Vokal

mele e

ɛ E ungerundeterhalboffenerVorderzungenvokal

mæt E

ɛ: E: langer ungerundeterhalboffenerVorderzungenvokal

mæle E


mit i

i: i: langer ungerundetergeschlossenervorderer Vokal

mile i

o o gerundeterhalbgeschlossenerHinterzungenvokal

foto o

o: o: langer gerundeterhalbgeschlossenerHinterzungenvokal

mole o


mund O

ɔ: O: langer gerundeterhalboffener hintererVokal

måle O

ɒː Q: langer gerundeteroffenerHinterzungenvokal

morse O


lusk u


mule u

65



ʌ V ungerundet halboffenan Hinterzunge

kører E

y y geschlossenergerundeter vordererVokal

yt u

y: y: langer gerundetergeschlossenerVorderzungenvokal

hyle u

Zusätzliche Symbole

ˈ " Hauptakzent Alabama

ˌ % Nebenakzent Alabama

. . Silbengrenze A.la.ba.ma

Niederländisch (nl-NL)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für niederländische Stimmen.



Konsonanten


bak p


dak t


manager S


fel f


goal k


hoed k

ɦ h\ stimmhafter glottalerFrikativ

hand k


ja i

66




kap k


land t

m m bilabialer Nasal met p

n n alveolarer Nasal net t

ŋ N velarer Nasal bang k


pak p

r r alveolarer Vibrant rand r


sein s


show S


tak t


vel f

ʋ V\ labiodentalerApproximant

wit f


toch k


ziin s

ʒ Z stimmhafterpostalveolarerFrikativ

bagage S

Vokale

øː 2: langer gerundeterhalbgeschlossenerVorderzungenvokal

neus o

œy 9y Diphthong buit O

ə @ Schwa de @

a: a: langer ungerundeteroffener vordererVokal

baad a

67



ɑ: A ungerundeter offenerHinterzungenvokal

bad a

e: e: langer ungerundeterhalbgeschlossenervorderer Vokal

beet e

ɜː 3: langer ungerundeterhalboffenerZentralvokal

barrière E


bed E

ɛi Ei Diphthong beet E


vier i

ɪ I ungerundeterzentralisierter fastgeschlossenerVorderzungenvokal

pit i


boot o


pot O


hoed u

ʌu Vu Diphthong fout E

yː y: langer gerundetergeschlossenerVorderzungenvokal

fuut u

ʏ Y gerundeterzentralisierter fastgeschlossenerVorderzungenvokal

hut u





68


Englisch (australisch) (en-AU)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für englische (Australien) Stimmen.



Konsonanten


bed p


dig t


jump S


then T


five f


game k


house k


yes i


cat k


lay t

l l= silbischer alveolarerlateraler Approximant

battle t

m m bilabialer Nasal mouse p

i i= silbischer bilabialerNasal

anthem p

n n alveolarer Nasal nap t

n n= silbischer alveolarerNasal

nap t

ŋ N velarer Nasal thing k


pin p

69



ɹ r\ alveolarerApproximant

red r


seem s


ship S


task t

tʃ tS stimmlosepostalveolareAffrikate

chart S

Θ T stimmloser dentalerReibelaut

thin T


vest f


west u


zero s


vision S

Vokale

ə @ Schwa arena @

əʊ @U Diphthong goat @


trap a

aɪ aI Diphthong price a

aʊ aU Diphthong mouth a

ɑː A: langer ungerundeteroffenerHinterzungenvokal

father a

eɪ eI Diphthong face e


nurse E

70




dress E

ɛə E@ Diphthong square E

i: i langer ungerundetergeschlossenervorderer Vokal

fleece i


kit i

ɪə I@ Diphthong near i

ɔː OI langer gerundeterhalboffener hintererVokal

thought O

ɔɪ OI Diphthong choice O

ɒ Q gerundeter offenerHinterzungenvokal

lot O

u: u: langer gerundetergeschlossenerHinterzungenvokal

goose u

ʊ U gerundeterzentralisierter fastgeschlossenerHinterzungenvokal

foot u

ʊə U@ Diphthong cure u

ʌ V ungerundeterhalboffenerHinterzungenvokal

strut E





Englisch (indisch) (en-IN)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für englische (Indien) Stimmen.

Zusätzliche Phoneme in Verbindung mit indischem Englisch finden Sie unter Hindi (hi-IN) (p. 91).

71




Konsonanten


bed p


dig t


jump S


then T


five f


game k


house k


yes i


cat k


lay t


battle t



anthem p



nap t



pin p


red r


seem s

72




ship S


task t


chart S


thin T


vest f


west u


zero s


vision S

Vokale

ə @ Schwa arena @



trap a




father a



nurse E


dress E


73




fleece i


kit i



thought O



lot O


goose u


foot u



strut E





Englisch (britisch) (en-GB)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für englische (Großbritannien) Stimmen.



Konsonanten


bed p

74




dig t


jump S


then T


five f


game k


house k


yes i


cat k


lay t


battle t



anthem p



button t



pin p


red r


seem s


ship S


task t

75




chart S


thin T


vest f


west u


zero s


vision S

Vokale

ə @ Schwa arena @



trap a




father a



nurse E


dress E



fleece i

76




kit i


ɔː O: langer gerundeterhalboffener hintererVokal

thought O



lot O


goose u


foot u



strut E





Englisch (USA)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für englische (USA) Stimmen.



Konsonanten


bed p


dig t

77




jump S


then T


five f


game k


house k


yes i


cat k


lay t





speak p


red r


seem s


ship S


trap t


chart S


thin T


vest f

78




west u


zero s


vision S

Vokale

ə @ Schwa arena @

ɚ @` rhotisches Schwa reader @


trap a



ɑ A langer ungerundeteroffenerHinterzungenvokal

father a


ɝ 3` offenesungerundetesrhotisches Schwa

nurse E


dress E

i i langer ungerundetergeschlossenervorderer Vokal

fleece i


kit i

oʊ oU Diphthong goat o

ɔ O langer gerundeterhalboffenerHinterzungenvokal

thought O


u u langer gerundetergeschlossenerHinterzungenvokal

goose u

79




foot u


strut E





Englisch (walisisch) (en-GB-WSL)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für englische (Wales) Stimmen.



Konsonanten


bed p


dig t


jump S


then T


five f


game k


house k


yes i


cat k

80




lay t


battle t



anthem p



nap t



pin p


red r


seem s


ship S


task t


chart S


thin T


vest f


west u


zero s


vision S

Vokale

ə @ Schwa arena @

81





trap a




father a



nurse E


dress E



fleece i


kit i



thought O



lot O


goose u


foot u


82




strut E





Französisch (fr-FR)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für französische Stimmen.



Konsonanten


boire p


madame t


femme f


grand k

ɥ H labiopalatalerApproximant

bruit u


meilleur i


quatre k


malade t

m m bilabialer Nasal maison p

n n alveolarer Nasal astronome t

ɲ J palataler Nasal baigner J

ŋ N velarer Nasal parking k

83




pomme p


amoureux k


santé s


chat S


téléphone t


vrai f


soir u


raison s


aubergine S

Vokale


deux o


neuf O

œ 9~ nasaler halboffenergerundeterVorderzungenvokal

brun O

ə @ Schwa je @


table a

ɑ A~ nasaler offenerungerundeterHinterzungenvokal

camembert a


marché e

84




neige E

ɛ E~ nasaler ungerundeterhalboffenerVorderzungenvokal

sapin E


mille i


hôpital o


homme O

ɔ O~ nasaler gerundeterhalboffenerHinterzungenvokal

bon O


sous u

y y geschlossenergerundeter vordererVokal

dur u





Kanadisches Französisch (fr-CA)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für französische (Kanada) Stimmen.



Konsonanten


boire p

85




madame t


femme f


grand k

ɥ H labiopalatalerApproximant

bruit u


meilleur i


quatre k


malade t

m m bilabialer Nasal maison p

n n alveolarer Nasal astronome t

ɲ J palataler Nasal baigner J

ŋ N velarer Nasal parking k


pomme p


amoureux k


santé s


chat S


téléphone t


vrai f


soir u


raison s


aubergine S

86



Vokale


deux o


neuf O

œ 9~ nasaler halboffenergerundeterVorderzungenvokal

brun O

ə @ Schwa je @

a a ungerundeter offenerVor

table a


camembert a

e e ungerundeterhalbgeschlossenerVorderzungenvokal

marché e


neige E


sapin E

i i ungerundetergeschlossenerVorderzungenvokal

mille i


hôpital o

ɔ O gerundeterhalboffenerHinterzungenvokal

homme O


bon O

u u gerundetergeschlossenerHinterzungenvokal

sous u

y y geschlossenergerundeterVorderzungenvokal

dur u

87







Deutsch (de-DE)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für deutsche Stimmen.



Konsonanten

ʔ ? Glottallaut


Bier p


Dach t

ç C stimmloser palatalerFrikativ

ich k


Dschungel S


Vogel f


Gabel k


Haus k

j j stimmloser glottalerFrikativ

jemand i

k k stimmloser velarerPlosiv

Kleid k


Loch t

m m bilabialer Nasal Milch p

n n alveolarer Nasal Natur t

88



ŋ N velarer Nasal klingen k

p p stimmloser bilabialerPlosiv

Park p

pf pf stimmloselabiodentale Affrikate

Apfel

ʀ R uvularer Vibrant Regen


Messer s

ʃ S stimmloserpostalveolarerFrikativ

Fischer S

t t stimmloser alveolarerPlosiv

Topf T

ts Ts stimmlose alveolareAffrikate

Zahl


deutsch S

V V stimmhafterlabiodentaler Frikativ

Wasser f

x x stimmloser velarerFrikativ

kochen k

z z stimmhafteralveolarer Frikativ

See s


Orange S

Vokale


böse o

ɐ 6 fast offenerZentralvokal

besser a

ɐ 6_^ nicht silbischer fastoffener Zentralvokal

Klar a


können O

ə @ Schwa Rede @

89




Salz a

a: a: langer ungerundeteroffenerVorderzungenvokal

Sahne a

aɪ aI Diphthong nein a

aʊ aU Diphthong Augen a


Restaurant a

e: e: langer ungerundeterhalbgeschlossenerVorderzungenvokal

Rede e


Keller E


Terrain E

i: i: langer ungerundetergeschlossenerVorderzungenvokal

Lied i


bitte i


Kohl o


Koffer O


Annonce O

ɔʏ OY Diphthong neu O


Bruder u


Wunder u

90




kühl u


Küche u





Hindi (hi-IN)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) und dieSymbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie die vonAmazon Polly unterstützte Tonwiedergabe des Phonems für Hindi-Stimmen.

Zusätzliche Phoneme in Verbindung mit Hindi finden Sie unter Englisch (indisch) (en-IN) (p. 71).


IPA X-SAMPA Beschreibung Beispiel

Konsonanten

pʰ p_h stimmloser aspirierterbilabialer Plosiv

फल (phool)

bʱ b_h stimmhafter aspirierterbilabialer Plosiv

भारी (bhaari)

t t_d stimmloser dentaler Plosiv तापमान (taapmaan)

tʰ t_d_h stimmloser aspirierterdentaler Plosiv

थोडा (thoda)

d d_d stimmhafter dentaler Plosiv दिलली (dilli)

dʱ d_d_h stimmhafter aspirierterdentaler Plosiv

धोबी (dhobi)

ʈ t` stimmloser retroflexer Plosiv कटोरा (katora)

ʈʰ t`_h stimmloser aspirierterretroflexer Plosiv

ठड (thand)

ɖ d` stimmhafter retroflexerPlosiv

डर (darr)

ɖʱ d`_h stimmhafter aspirierterretroflexer Plosiv

ढाल (dhal)

91



tʃʰ tS_h stimmlose aspirierte palataleAffrikate

छाल (chaal)

dʒʱ dZ_h stimmhafte aspiriertepalatale Affrikate

झाल (jhaal)

kʰ k_h stimmloser aspiriertervelarer Plosiv

खान (khan)

ɡʱ g_h stimmhafter aspiriertervelarer Plosiv

घान (ghaan)

ɳ n` retroflexer Nasal कषण (kshan)

ɾ 4 alveolarer Tap राम (ram)

ɽ r` einfacher retroflexer Flap बडा (bada)

ɽʱ r`_h stimmhafter aspirierterretroflexer Flap

बढी (barhi)

ʋ V\ bilabialer Approximant वसल (wasool)

Vokale

ə @_o Schwa अचछा (achhaa)

ə @~ nasalisierterMittelzungenvokal

हसना (hansnaa)

a A_o ungerundeter offener Vor आग (aag)

a A~ nasalisierter ungerundeteroffener Vorderzungenvokal

घडिया (ghariyaan)

ɪ I_o ungerundeter zentralisierterfast geschlossenerVorderzungenvokal

इककीस (ikkees)

ɪ I~ nasalisierter ungerundeterfast geschlossenerVorderzungenvokal

सिचाई (sinchai)

i i_o ungerundeter geschlossenerVorderzungenvokal

बिलली (billee)

i i~ nasalisierter ungerundetergeschlossenerVorderzungenvokal

नही (nahin)

ʊ U_o gerundeter zentralisierterfast geschlossenerHinterzungenvokal

उलल (ullu)

ʊ U~ nasalisierter gerundeterfast geschlossenerHinterzungenvokal

मह (munh)

92



u u_o gerundeter geschlossenerHinterzungenvokal

फल (phool)

u u~ nasalisierter gerundetergeschlossenerHinterzungenvokal

ऊट (oont)

ɔ O_o gerundeter halboffenerHinterzungenvokal

कौन (kaun)

ɔ O~ nasalisiertergerundeter halboffenerHinterzungenvokal

भौ (bhaun)


सोना (sona)

o o~ nasalisierter gerundeterhalbgeschlossenerHinterzungenvokal

कयो (kyon)

ɛ E_o ungerundeter halboffenerVorderzungenvokal

पसा (paisa)

ɛ E~ nasalisierterungerundeter halboffenerVorderzungenvokal

म (main)


एक (ek)

e e~ nasalisierter ungerundeterhalbgeschlossenerVorderzungenvokal

किताब (kitabein)

Isländisch (is-IS)Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für isländische Stimmen.



Konsonanten


grasbakkanum 0

c c stimmloser palatalerPlosiv

pakkin k

cʰ c_h aspirierter stimmloserpalataler Plosiv

anarkistai k

93




héðan k


bóndi t


borð T


duft f


holgóma k


hugur k


heili k


jökull i

kʰ k_h aspirierter stimmloservelarer Plosiv

ósköpunum k


gólf t

l l_0 stimmloser alveolarerlateraler Approximant

fólk t

m m bilabialer Nasal september p

i m_0 stimmloser bilabialerNasal

kompa p

n n alveolarer Nasal númer t

n n_0 stimmloser alveolarerNasal

pöntun t

ɲ J palataler Nasal pælingar J

ŋ N velarer Nasal söngvarann k

ŋ N_0 stimmloser velarerNasal

frænka k

pʰ p_h aspirierter stimmloserbilabialer Plosiv

afplánun p

r r alveolarer Vibrant afskrifta r

r r_0 stimmloser alveolarerVibrant

andvörpum r

94




baðhús s

tʰ t_h aspirierter stimmloseralveolarer Plosiv

tanki t


þeldökki T


silfur f


u


samfélags k

Vokale


þröskuldinum O

œː 9: langer gerundeterhalboffenerVorderzungenvokal

tvö O


nefna a


fara a

au au Diphthong átta a

au: au: Diphthong átján a


kennari E

ɛ: E: langer ungerundeterhalboffenerVorderzungenvokal

dreka E


Gúlíver i


þrír i

95




samspil i

ɪ: I: langer ungerundeterzentralisierter fastgeschlossenerVorderzungenvokal

stig i


regndropar O

ɔ: O: langer gerundeterhalboffener hintererVokal

ullarbolur O

ɔu Ou Diphthong tólf O

ɔu: Ou: Diphthong fjórir O


stúlkan u


frú u


tíu u

ʏ: Y langer gerundeterzentralisierter fastgeschlossenerVorderzungenvokal

gruninn u





Italienisch (it-IT)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für italienische Stimmen.

96




Konsonanten


bacca p


dama t

dz dz stimmhafte alveolareAffrikate

zero s


giro S


famiglia f


gatto k


horror k


dieci i


campo k


lido t

ʎ L palataler lateralerApproximant

aglio J

m m bilabialer Nasal mille p

n n alveolarer Nasal nove t

ɲ J palataler Nasal lasagne J


pizza p

r r alveolarer Vibrant risata r


sei s


scienza S


tavola t

97



ts ts stimmlose alveolareAffrikate

forza s


cielo S


venti f


quattro u


bisogno s


bijou S

Vokale


arco a


tre e


ettaro E


impero i


cento o


otto O


uno u





98


Japanisch (ja-JP)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für japanische Stimmen.


Konsonanten

ɾ 4 alveolarer Tap 練習, renshuu t

ʔ ? Glottallaut あつっ, atsu'


舞踊, buyou p

β B stimmhafter bilabialerFrikativ

ヴィンテージ,vinteeji

B


ききょう, kikyou k


人, hito k


濁点, dakuten t

dʑ dz\ stimmhaftealveolopalataleAffrikate

純, jun J


ご飯, gohan k


本, hon k


屋根, yane i

ɟ J\ stimmhafter palatalerPlosiv

行儀, gyougi J


漢字, kanji k

ɺ l\ alveolarer lateralerTap

釣り, tsuri r

ɺj l\j alveolarer lateralerTap, palatalerApproximant

流行, ryuukou r

m m bilabialer Nasal 飯, meshi p

n n alveolarer Nasal 猫, neko t

99



ɲ J palataler Nasal 日本, nippon J

ɴ N\ uvularer Nasal 缶, kan k


パン, pan p

ɸ p\ stimmloser bilabialerFrikativ

福, huku f


層, sou s

ɕ S\ stimmloseralveolopalatalerFrikativ

書簡, shokan J


手紙, tegami t


釣り, tsuri s

tɕ ts\ stimmlosealveolopalataleAffrikate

吉, kichi J


電話, denwa u


座敷, zashiki s

Vokale

äː a:_" langer ungerundeteroffener Zentralvokal

羽蟻, haari a

ä a_" ungerundeter offenerZentralvokal

仮名, kana a

eː e:_o langer mittlererungerundeterVorderzungenvokal

学生, gakusei @

e e_o ungerundertermittlererVorderzungenvokal

歴, reki @


気, ki i

iː i: langer ungerundetergeschlossenerVorderzungenvokal

詩歌, shiika i

100



ɯ Mio. geschlossenerungerundeterHinterzungenvokal

運, un i

ɯː M: langer geschlossenerungerundeterHinterzungenvokal

宗教, shuukyou i

oː o:_o langer gerundetermittlererHinterzungenvokal

購読, koodoku o

o o_o mittlerer gerundeterHinterzungenvokal

読者, dokusha o

Koreanisch (ko-KR)Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für koreanische Stimmen.


Konsonanten


강, [g]ang k

k# k_t starker stimmloservelarer Plosiv

깨, [kk]e k

n n alveolarer Nasal 남, [n]am t


도, [d]o t

t# t_t starker stimmloseralveolarer Plosiv

때, [tt]e t

ɾ 4 alveolarer Tap 사랑, sa[r]ang t


돌, do[l] t

m m bilabialer Nasal 무, [m]u p


봄, [b]om p

p# p_t starker stimmloserbilabialer Plosiv

뻘, [pp]eol p


새, [s]e s

s# s_t starker stimmloseralveolarer Frikativ

씨, [ss]i s

101



ŋ N velarer Nasal 방, ba[ng] k


조, [j]o J

t#ɕ ts\_t starke stimmlosealveolopalataleAffrikate

찌, [jj]i J

tɕʰ ts\_h aspirierte stimmlosealveolopalataleAffrikate

차, [ch]a J

kʰ k_h aspirierter stimmloservelarer Plosiv

코, [k]o k

tʰ t_h aspirierter stimmloseralveolarer Plosiv

통, [t]ong t

pʰ p_h aspirierter stimmloserbilabialer Plosiv

패, [p]e p


힘, [h]im k


양, [y]ang i


왕, [w]ang u

ɰ M\ velarer Approximant> 의, [wj]i i

Vokale


밥, b[a]b a


정, j[eo]ng E


배, b[e] E


노, n[o] o


둘, d[u]l u

ɯ M geschlossenerungerundeterHinterzungenvokal

은, [eu]n i

102




김, k[i]m i

Norwegisch (nb-NO)Das folgende Diagramm enthält sämtliche Phoneme des Internationalen Phonetischen Alphabets (IPA), dieAmazon Polly für norwegische Stimmen unterstützt, samt den zugehörigen Symbolen aus dem ExtendedSpeech Assessment Methods Phonetic Alphabet (X-SAMPA) und den zugehörigen Mundbildern.


Konsonanten

ɾ 4 alveolarer Tap prøv t


labb p


kino k


ladd t

ɖ d` stimmhafterretroflexer Plosiv

verdi t


fot f

ɡ ɡ stimmhafter velarerVerschlusslaut

tagg k


ha k


gi i


takk k


fall, ball t

ɭ l` lateraler retroflexerApproximant

ærlig t

m m bilabialer Nasal lam p

n n alveolarer Nasal vann t

ɳ n` retroflexer Nasal garn t

ŋ N velarer Nasal sang k

103




hopp p


lass s

ʂ S` stimmloser retroflexerFrikativ

års S


skyt S


lat t

ʈ t` stimmloser retroflexerPlosiv

hardt t

ʋ V\ labiodentalerApproximant

vin f


will x

Vokale


søt o


søtt O

ə @ Schwa ape @

æː {: langer ungerundeterfast offenerVorderzungenvokal

vær a

ʉ } gerundetergeschlossenerZentralvokal

lund u

ʉː }: langer gerundetergeschlossenerZentralvokal

lun u


vært a

ɑ A ungerundeter offenerHinterzungenvokal

hatt a

104




hat a


sen e


send E


vin i


vind i

oː oː langer gerundeterhalbgeschlossenerHinterzungenvokal

våt o


vått O


bok u


bukk u


lyn u


lynne u





105


Polnisch (pl-PL)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für polnische Stimmen.



Konsonanten


bobas, belka p


dar, do t

dz dz stimmhafte alveolareAffrikate

dzwon, widzowie s

dʑ dz\ stimmhaftealveolopalataleAffrikate

dźwięk J

dʐ dz` stimmhafte retroflexeAffrikate

dżem, dżungla S


furtka, film f


gazeta, waga k


chleb, handel k


jak, maja i


kura, marek k


lipa, alicja t

m m bilabialer Nasal matka, molo p

n n alveolarer Nasal norka t

ɲ J palataler Nasal koń, toruń J


pora, stop p

r r alveolarer Vibrant rok, park r


sum, pas s

106




śruba, śnieg J


szum, masz S


tok, stół t


car, co s


ćma, mieć J

tʂ ts` stimmlose retroflexeAffrikate

czas, raczej S


worek, mewa f


łaska, mało u


zero s

ʑ z\ stimmhafteralveolopalatalerFrikativ

źrebię, bieliźnie J

ʐ z` stimmhafterretroflexer Frikativ

żar, żona S

Vokale


ja a


echo E


węże E


ile i


oczy O

107




wąż O


uczta u

ɨ 1 ungerundetergeschlossenerZentralvokal

byk i





Portugiesisch (pt-PT)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für portugiesische Stimmen.



Konsonanten

ɾ 4 alveolarer Tap pira t


dato p


dato t


facto f


gato k


paraguay i


cacto k


galo t

108




galho J

m m bilabialer Nasal mato p

n n alveolarer Nasal nato t

ɲ J palataler Nasal pinha J


pato p

ʀ R\ uvularer Vibrant barroso k


saca s


chato S


tacto t


vaca f


mau u


zaca s


jacto S

Vokale


parto a

a a~ nasalerungerundeter offenerVorderzungenvokal

pega a


pega e

e e~ nasaler ungerundeterhalbgeschlossenerVorderzungenvokal

movem e


café E

109




lingueta i

i i~ nasaler ungerundetergeschlossenerVorderzungenvokal

cinto i


poder o

o o~ nasaler gerundeterhalbgeschlossenerHinterzungenvokal

compra o


cotó O


fui u

u u~ nasaler gerundetergeschlossenerHinterzungenvokal

sunto u





Portugiesisch (brasilianisch) (pt-BR)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für portugiesische (Brasilien) Stimmen.



Konsonanten

ɾ 4 alveolarer Tap pira t


bato p


dato t

110




idade S


facto f


gato k


paraguay i


cacto k


galo t


galho J

m m bilabialer Nasal mato p

n n alveolarer Nasal nato t

ɲ J palataler Nasal pinha J


pato p


saca s


chato S


tacto t


noite S


vaca f


mau u

χ X stimmloser uvularerFrikativ

carro k


zaca s

111




jacto S

Vokale


parto a

a a~ nasalerungerundeter offenerVorderzungenvokal

pensamos a


pega e

e e~ nasaler ungerundeterhalbgeschlossenerVorderzungenvokal

movem e


café E


lingueta i

i i~ nasaler ungerundetergeschlossenerVorderzungenvokal

cinto i


poder o

o o~ nasaler gerundeterhalbgeschlossenerHinterzungenvokal

compra o


cotó O


fui u

u u~ nasaler gerundetergeschlossenerHinterzungenvokal

sunto u




112




Rumänisch (ro-RO)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für rumänische Stimmen.



Konsonanten


bubă p


după t


george S


afacere f


agri# k


harpă k


baie i


co# k


lampa t

m m bilabialer Nasal mama p

n n alveolarer Nasal nor t


pilă p

r r alveolarer Vibrant rampă r


soare s

113




ma#ină S


tata t


#ară s


ceai S


via#ă f


beau u


mozol s


joacă S

Vokale

ə @ Schwa babă @


casa a


elan e

e e_^ nicht silbischerungerundeterhalbgeschlossenerVorderzungenvokal

beau e


mie i


oră o

oa o_â Diphthong oare o


unde u

114




România i





Russisch (ru-RU)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für russische Stimmen.



Konsonanten


борт p

bʲ b' mouillierterstimmhafter bilabialerPlosiv

бюро p


дом t

dʲ d' mouillierterstimmhafteralveolarer Plosiv

дядя t


флаг f

fʲ f' mouillierterstimmloserlabiodentaler Frikativ

февраль f


нога k

ɡʲ g' mouillierterstimmhafter velarerPlosiv

герой k


дизайн, ящик i

115




кот k

kʲ k' mouillierterstimmloser velarerPlosiv

кино k


лампа t

lʲ l' mouillierter alveolarerlateraler Approximant

лес t

m m bilabialer Nasal мама p

mʲ i' mouillierter bilabialerNasal

мяч p

n n alveolarer Nasal нос t

nʲ n' mouillierter alveolarerNasal

няня t


папа p

pʲ p' mouillierterstimmloser bilabialerPlosiv

перо p

r r alveolarer Vibrant роза r

rʲ r' mouillierter alveolarerVibrant

рюмка r


сыр s

sʲ S' mouillierterstimmloser alveolarerFrikativ

сердце, русь s

ɕ: S\: langer stimmloseralveolopalatalerFrikativ

щека J


шум S


точка t

tʲ t' mouillierterstimmloser alveolarerPlosiv

тётя t


царь s

116




час J


вор f

vʲ V' mouillierterstimmhafterlabiodentaler Frikativ

верфь f


хор k

xʲ x' mouillierterstimmloser velarerFrikativ

химия k


зуб s

zʲ z' mouillierterstimmhafteralveolarer Frikativ

зима s

ʑ: z\: langer stimmhafteralveolopalatalerFrikativ

уезжать J

ʐ z` stimmhafterretroflexer Frikativ

жена S

Vokale

ə @ Schwa канарейка @


два, яблоко a


печь e


это E


один, четыре i


кот o

117




муж, вьюга u


мышь i

Spanisch (es-ES)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für spanische Stimmen.



Konsonanten

ɾ 4 alveolarer Tap pero, bravo, amor,eterno

t


bestia p


bebé B


cuando t


arder T


fase, café f


gato, lengua, guerra k


trigo, Argos k


hacia, tierra, radio,viuda

i

ʝ j\ stimmhafter palatalerFrikativ

enhielar, sayo,inyectado, desyerba

J


caña, laca, quisimos k


lino, calor, principal t

118




llave, pollo J

m m bilabialer Nasal madre, comer,anfibio

p

n n alveolarer Nasal nido, anillo, sin t

ɲ J palataler Nasal cabaña, ñoquis J

ŋ N velarer Nasal cinco, venga k


pozo, topo p

r r alveolarer Vibrant perro, enrachado r


saco, casa, puertas s


tamiz, átomo t


chubasco S


cereza, zorro, lacero,paz

T


fuego, fuimos, cuota,cuadro

u


jamón, general, suje,reloj

k


rasgo, mismo s

Vokale


tanque a


peso e


cinco i


bosque o

u u ungerundeterhalbgeschlossenerVorderzungenvokal

publicar u

119




keçi e


dede e


bir i


izah i


keçi i


kıl i

o o langer gerundeterhalbgeschlossenerHinterzungenvokal

kol o


dolar o


durum u


ruhum u


dolu u

Y y geschlossenergerundeterVorderzungenvokal

güvenlik u


aşı u



120





Spanisch, mexikanisch (es-MX)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für die mexikanisch-spanische Stimme.



Konsonanten

ɾ 4 alveolarer Tap pero, bravo, amor,eterno

t


bestia p


bebé B


cuando t


arder T


fase, café f


gato, lengua, guerra k


trigo, Argos k


hacia, tierra, radio,viuda

i

ʝ j\ stimmhafter palatalerFrikativ

enhielar, sayo,inyectado, desyerba

J


caña, laca, quisimos k

l l lateraler alveolarerApproximant

lino, calor, principal t

m m bilabialer Nasal madre, comer,anfibio

p

n n alveolarer Nasal nido, anillo, sin t

121



ɲ J palataler Nasal cabaña, ñoquis J

ŋ N velarer Nasal angosto, increíble k


pozo, topo p

r r alveolarer Vibrant perro, enrachado r


saco, casa, puertas s


show, flash S


tamiz, átomo t


chubasco S


fuego, fuimos, cuota,cuadro

u


jamón, general,peaje, reloj

k


rasgo, mismo s


Harrison k

ɹ r\ postalveolarerApproximant

Brian r


Vancouver f

Vokale

a a ungerundeter offenerZentralvokal

tanque a


peso e


cinco i


bosque o

122




publicar u


dress E


Fort O

ə @ Schwa Lauderdale @





Spanisch, USA (es-US)Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für spanische (USA) Stimmen.


Konsonanten


bed p


dig t


jump S


then T


five f


game k


house k


yes i

123



k k stimmloser velarerPlosiv

cat k


lay t




p p stimmloser bilabialerPlosiv

speak p


red r

s s stimmloser alveolarerFrikativ

seem s

ʃ S stimmloserpostalveolarerFrikativ

ship S

t t stimmloser alveolarerPlosiv

trap t


chart S

Θ T stimmloser dentalerFrikativ

thin T

V V stimmhafterlabiodentaler Frikativ

vest f


west u

z z stimmhafteralveolarer Frikativ

zero s


vision S

Vokale

ə @ Schwa arena @

ɚ @' rhotisches Schwa reader @


trap a


124




ɑ A langer ungerundeteroffenerHinterzungenvokal

father a


ɝ 3` offenesungerundetesrhotisches Schwa

nurse E


dress E

i: i langer ungerundetergeschlossenerVorderzungenvokal

fleece i


kit i

oʊ oU Diphthong goat o

ɔ O langer gerundeterhalboffenerHinterzungenvokal

thought O


u u langer gerundetergeschlossenerHinterzungenvokal

goose u


foot u


strut E





125


Schwedisch (sv-SE)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für schwedische Stimmen.



Konsonanten


bil p


dal t

ɖ d` stimmhafterretroflexerVerschlusslaut

bord t


fil f


gås k


hal k


jag i


kal k


lös t

ɭ l` lateraler retroflexerApproximant

härlig t

m m bilabialer Nasal mil p

n n alveolarer Nasal nålar t

ɳ n` retroflexer Nasal barn t

ŋ N velarer Nasal ring k


pil p

r r alveolarer Vibrant ris r


sil s

126




tjock J


fors, schlager S


tal t

ʈ t` stimmloser retroflexerPlosiv

hjort t


vår f


aula, airways u

ɧ x\ stimmloser palatal-velarer Frikativ

sjuk k

Vokale


föll, förr o

ø 2: langer gerundeterhalbgeschlossenerVorderzungenvokal

föl, nöt, för o

ɵ 8 gerundeterhalbgeschlossenerZentralvokal

buss, full o

ə @ Schwa pojken @

ʉː }: langer gerundetergeschlossenerZentralvokal

hus, ful u


hall, matt a


herr a


hal, mat a


vet, hel e

127




vett, rätt, hetta, häll E

ɛː E: langer ungerundeterhalboffenerVorderzungenvokal

säl, häl, här E:


vit, sil i:


vitt, sill i


hål, mål o


håll, moll O


sol, bot u


bott u


bytt u


syl, syl u





Türkisch (tr-TR)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für türkische Stimmen.

128




Konsonanten

ɾ 4 alveolarer Tap durum t

ɾ 4_0_r stimmloser frikativeralveolarer Tap

bir t

ɾ 4_r frikativer alveolarerTap

raf t


raf p


kedi k


dede t


cam S


fare f


galibi k


hasta k


yat i

ɟ J\ stimmhafter palatalerPlosiv

genç J


akıl k


lale t

ɫ 5 velarisierteralveolarer lateralerApproximant

labirent t

m m bilabialer Nasal maaş p

n n alveolarer Nasal anı t


ip p

129




ses s


aşı S


ütü t


çaba S


ekvator, kahveci,akvaryum, isveçli,teşviki, cetvel

f


ver s


azık S

Vokale


göl 0


banliyö O


kal a


davacı a


özlem, güvenlik,gürel, somersault

a


keçi e


dede E


bir i

130




izah i


keçi i


kıl i


kol o


dolar o


durum u


ruhum u


dolu u


güvenlik u


aşı u





Walisisch (cy-GB)

Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Viseme für walisische Stimmen.

131




Konsonanten


baban p


deg t


garej S


deuddeg T


ffacs f


gadael k


haearn k


astudio i


cant k


lan t

ɬ K stimmloser alveolarerlateraler Frikativ

llan t

m m bilabialer Nasal mae p

i m_0 stimmloser bilabialerNasal

ymhen p

n n alveolarer Nasal naw t

n n_0 stimmloser alveolarerNasal

anhawster t

ŋ N velarer Nasal argyfwng k

ŋ N_0 stimmloser velarerNasal

anghenion k


pump p

r r alveolarer Vibrant rhoi r

132



r r_0 stimmloser alveolarerVibrant

garw r


saith s


siawns S


tegan t


cytsain S


aberth T


prawf f


rhagweld u

χ X stimmloser uvularerFrikativ

chwech k


aids s


rouge S

Vokale

ə @ Schwa ychwanega @


acen a

ai ai Diphthong dau a

au au Diphthong awdur a


mab a

ɑːɨ A:1 Diphthong aelod a


peth e

133




pedwar E

ɛi Ei Diphthong beic E


tri i


miliwn i

ɨu 1u Diphthong unigryw i


oddi o


oddieithr O

ɔi Oi Diphthong troi O

ɔu Ou Diphthong rownd O


cwch u


acwstig u

ʊi Ui Diphthong wyth u





134

Amazon Polly EntwicklerhandbuchAnwenden mehrerer Lexika

Verwalten von LexikaMit Aussprachelexika können Sie die Aussprache von Wörtern anpassen. Amazon Polly stellt API-Vorgänge zum Speichern von Lexika in einer AWS-Region bereit. Diese Lexika gelten dann speziellfür diese bestimmte Region. Sie können eine oder mehrere der Lexika aus dieser Region verwenden,wenn Sie die Textsynthese mithilfe des SynthesizeSpeech-Vorgangs vornehmen. Dies gilt für dasangegebene Lexikon des Eingabetexts, bevor die Synthese beginnt. Weitere Informationen finden Sie unterSynthesizeSpeech (p. 219).

Note

Diese Lexika müssen mit der Angabe zur W3C-Empfehlung des Aussprachelexikonsübereinstimmen. Weitere Informationen dazu finden Sie auf der W3C-Website unter Angaben zumAussprachelexikon (PLS) Version 1.0.

Es folgen Beispiele für die Verwendung von Lexika mit Sprachsynthese-Engines:

• Häufige Wörter werden manchmal mit Zahlen anstelle von Buchstaben stilisiert, wie z. B. „g3t sm4rt“ (getsmart). Menschen können diese Wörter korrekt lesen. Eine Text-To-Speech-Engine (TTS) liest den Textjedoch wörtlich und liest den Namen genau so, wie er buchstabiert wird. An dieser Stelle können SieLexika nutzen, um die synthetische Sprache mit Amazon Polly zu verwenden. In diesem Beispiel könnenSie einen Alias (get smart) für das Wort „g3t sm4rt“ im Lexikon angeben.

• Der Text kann ein Akronym enthalten, z. B. W3C. Sie können mit einem Lexikon einen Alias für das WortW3C definieren, sodass er vollständig in erweiterter Form gelesen wird (World Wide Web Consortium).

Lexika geben Ihnen zusätzliche Kontrolle darüber, wie Amazon Polly Wörter ausspricht, die in der gewählteSprache seltener vorkommen. Beispielsweise können Sie die Aussprache mit einem phonetischenAlphabet angeben. Weitere Informationen dazu finden Sie auf der W3C-Website unter Angaben zumAussprachelexikon (PLS) Version 1.0.

Themen• Anwenden mehrerer Lexika (p. 135)• Verwalten von Lexika mithilfe der Amazon Polly-Konsole (p. 136)• Verwalten von Lexika mithilfe der AWS CLI (p. 139)

Anwenden mehrerer LexikaSie können bis zu fünf Lexika auf Ihren Text anwenden. Wenn dasselbe Graphem in mehr als einemLexikon angezeigt wird, das Sie auf Ihren Text anwenden, kann die Reihenfolge, in der sie angewendetwerden, eine unterschiedliche Sprachausgabe zur Folge haben. Nehmen wir den Beispieltext "Hallo, ichheiße Bob." und zwei Lexeme in verschiedenen Lexika, in denen jeweils das Graphem Bob verwendet wird.

LexA

<lexeme> <grapheme>Bob</grapheme> <alias>Robert</alias></lexeme>

LexB verwendet wird.

135

https://www.w3.org/TR/pronunciation-lexicon/




Amazon Polly EntwicklerhandbuchVerwalten von Lexika mithilfe der Konsole

<lexeme> <grapheme>Bob</grapheme> <alias>Bobby</alias></lexeme>

Wenn die Lexika in der Reihenfolge LexA und LexB aufgelistet werden, lautet die synthetische Sprache„Hallo, ich heiße Robert.“ Wenn sie in der Reihenfolge LexB und LexA aufgeführt werden, lautet diesynthetische Sprache „Hallo, ich heiße Roland.“

Example – Anwenden von LexA vor LexB

aws polly synthesize-speech \--lexicon-names LexA LexB \--output-format mp3 \--text 'Hello, my name is Bob' \--voice-id Justin \bobAB.mp3

Speech Ausgabe: „Hallo, ich heiße Robert.“

Example – Anwenden von LexB vor LexA

aws polly synthesize-speech \--lexicon-names LexB LexA \--output-format mp3 \--text 'Hello, my name is Bob' \--voice-id Justin \bobBA.mp3

Speech Ausgabe: „Hallo, ich heiße Bobby.“

Weitere Informationen zum Anwenden von Lexika mithilfe der Amazon Polly-Konsole finden Sie unterAnwenden von Lexika mithilfe der Konsole (synthetische Sprache) (p. 137).

Verwalten von Lexika mithilfe der Amazon Polly-Konsole

Mit der Amazon Polly-Konsole können Sie Lexika hochladen, herunterladen, Filter anwenden und Lexikalöschen. In den folgenden Verfahren werden die einzelnen Prozesse veranschaulicht.

Hochladen von Lexika mithilfe der KonsoleZum Verwenden eines Aussprachelexikons müssen Sie es zunächst hochladen. Es gibt zwei Positionenauf der Konsole, von denen Sie ein Lexikon hochladen können, die Registerkarte Text-to-Speech und dieRegisterkarte Lexicons.

In den folgenden Prozessen wird beschrieben, wie Sie Lexika hinzufügen, die Sie verwenden können,um festzulegen, wie Wörter und Sätze ausgesprochen werden, die in der gewählten Sprache seltenervorkommen.

So fügen Sie ein Lexikon von der Lexika-Registerkarte hinzu


136


Amazon Polly EntwicklerhandbuchAnwenden von Lexika mithilfe derKonsole (synthetische Sprache)

2. Wählen Sie die Registerkarte Lexicons aus.3. Klicken Sie auf Upload.4. Navigieren Sie zu dem Lexikon, das Sie hochladen möchten. Sie können nur PLS-Dateien mit den

Dateierweiterungen PLS und XML verwenden.5. Klicken Sie auf Open. Wenn ein Lexikon mit dem gleichen Namen (PLS- oder XML-Datei) bereits

vorhanden ist, wird das vorhandene Lexikon durch Hochladen des Lexikons überschrieben.

So fügen Sie ein Lexikon von der Text-To-Speech-Registerkarte hinzu


2. Wählen Sie die Registerkarte Text-to-Speech.3. Wählen Sie Customize pronunciation of words or phrases using lexicons an und wählen Sie dann

Upload lexicon.4. Navigieren Sie zu dem Lexikon, das Sie hochladen möchten. Sie können nur PLS-Dateien mit den

Dateierweiterungen PLS und XML verwenden.5. Klicken Sie auf Open. Wenn ein Lexikon mit dem gleichen Namen (PLS- oder XML-Datei) bereits

vorhanden ist, wird das vorhandene Lexikon durch Hochladen des Lexikons überschrieben.

Anwenden von Lexika mithilfe der Konsole(synthetische Sprache)Im folgenden Verfahren wird gezeigt, wie Sie ein Lexikon auf Ihren Eingabetext anwenden können,indem Sie das W3c.pls-Lexikon so anwenden, dass es „World Wide Web Consortium“ durch „W3C“ersetzt. Wenn Sie mehrere Lexika auf Ihren Text anwenden, Ihrem Text werden sie in der Reihenfolgevon oben nach unten angewendet, dabei hat die erste Übereinstimmung Vorrang vor nachfolgendenÜbereinstimmungen. Ein Lexikon wird nur auf den Text angewendet, wenn die die im Lexikon angegebeneSprache mit der ausgewählten Sprache übereinstimmt.

Sie können ein Lexikon auf Klartext oder SSML-Eingaben anwenden.

Example – Anwenden des W3C.pls-Lexikons

Weitere Informationen zum Erstellen des Lexikons, das Sie für diese Übung benötigen, finden Sie unterVerwenden des PutLexicon-Vorgangs (p. 139). Verwenden Sie einen Texteditor zum Erstellen desW3C.pls Lexikon, das oben im Thema angezeigt wird. Merken Sie sich, wo Sie diese Datei speichern.

So wenden Sie das W3C.pls-Lexikon auf Ihre Eingabe an

In diesem Beispiel setzen wir Lexika ein, um „World Wide Web Consortium“ durch „W3C“ zu ersetzen.Vergleichen Sie das Ergebnis dieser Übung mit dem von Verwenden von SSML (Konsole) (p. 31) fürEnglisch (USA) und eine weitere Sprache.


2. Führen Sie eine der folgenden Aufgaben aus:

• Wählen Sie die Plain text-Registerkarte und geben Sie diesen Text dann in das Texteingabefeld ein.

He was caught up in the game. In the middle of the 10/3/2014 W3C meeting he shouted, "Score!" quite loudly.

137



Amazon Polly EntwicklerhandbuchFiltern der Lexikonliste mithilfe der Konsole

• Wählen Sie die SSML-Registerkarte und geben Sie diesen Text dann in das Texteingabefeld ein.

<speak>He wasn't paying attention.<break time="1s"/>In the middle of the 10/3/2014 W3C meeting he shouted, "Score!" quite loudly.</speak>

3. Wählen Sie in der Choose a language and region-Liste US-Englisch aus, wählen Sie anschließendeine Stimme aus, die Sie für diesen Text verwenden möchten.

4. Wählen Sie Customize pronunciation of words or phrases using lexicons an.5. Wählen Sie aus der Liste der Lexika W3C (English, US) aus.

Wenn das W3C (English, US)-Lexikon nicht aufgeführt ist, wählen Sie Upload lexicon und ladenSie es hoch, anschließend können Sie es aus der Liste wählen. Informationen zum Erstellen diesesLexikons finden Sie unter Verwenden des PutLexicon-Vorgangs (p. 139).

6. Klicken Sie auf Listen to speech, um die Sprachausgabe sofort anzuhören.7. So speichern Sie die Sprachausgabe in einer Datei

a. Wählen Sie Save speech to MP3.b. Wenn Sie ein anderes Dateiformat verwenden möchten: Wählen Sie zunächst die Option Change

file format und dann das gewünschte Dateiformat aus. Klicken Sie anschließend auf Change.

Wiederholen Sie den vorherigen Schritten, wählen Sie jedoch eine andere Sprache, und beachten Sie denUnterschied in der Ausgabe.

Filtern der Lexikonliste mithilfe der KonsoleIm folgenden Verfahren wird beschrieben, wie Sie die Lexikonliste filtern können, damit nur Lexika einergewählten Sprache angezeigt werden.

So filtern Sie nach Sprache aufgelistete Lexika


2. Wählen Sie die Registerkarte Lexicons aus.3. Wählen Sie Filter.4. Wählen Sie aus der Liste der Sprachen die Sprache, nach der Sie filtern möchten.

Die Liste zeigt nur die Lexika für die gewählte Sprache.

Herunterladen von Lexika mithilfe der KonsoleIm folgenden Verfahren wird beschrieben, wie Sie ein Lexikon oder mehrere Lexika herunterladen können.Sie können Lexikoneinträge in der Datei hinzufügen, entfernen oder ändern und sie anschließend wiederhochladen, damit Ihr Lexikon auf dem neuesten Stand bleibt.

So laden Sie ein Lexikon oder mehrere Lexika herunter


2. Wählen Sie die Registerkarte Lexicons aus.3. Wählen Sie das Lexikon oder die Lexika, die Sie herunterladen möchten.

a. Wählen Sie den Namen aus der Liste, um ein einzelnes Lexikon herunterzuladen.

138



Amazon Polly EntwicklerhandbuchLöschen eines Lexikons mithilfe der Konsole

b. Um mehrere Lexika als einzelne komprimierte Archivdatei herunterzuladen, aktivieren Sie dasKontrollkästchen neben den Einträgen in der Liste, die Sie herunterladen möchten.

4. Wählen Sie Herunterladen aus.5. Öffnen Sie den Ordner, aus dem Sie das Lexikon herunterladen möchten.6. Wählen Sie Save aus.

Löschen eines Lexikons mithilfe der KonsoleSo löschen Sie ein Lexikon

Im folgenden Verfahren wird beschrieben, wie Sie ein Lexikon löschen können. Nach dem Löschen desLexikons müssen Sie es wieder hinzufügen, bevor Sie es erneut verwenden können. Sie können einLexikon oder mehrere Lexika gleichzeitig löschen, indem Sie die Kontrollkästchen neben den einzelnenLexika aktivieren.


2. Wählen Sie die Registerkarte Lexicons aus.3. Wählen Sie ein Lexikon oder mehrere zu löschende Lexika aus der Liste, die Sie löschen möchten.4. Wählen Sie Delete.5. Wählen Sie Delete zum Entfernen des Lexikons aus der Region oder Cancel, um es beizubehalten.

Verwalten von Lexika mithilfe der AWS CLIDie folgenden Themen behandeln die AWS CLI-Befehle, die zum Verwalten Ihrer Aussprachelexikabenötigt werden.

Themen• Verwenden des PutLexicon-Vorgangs (p. 139)• Verwenden des GetLexicon-Vorgangs (p. 144)• Verwenden des ListLexicons-Vorgangs (p. 145)• Verwenden des DeleteLexicon-Vorgangs (p. 145)

Verwenden des PutLexicon-VorgangsMit Amazon Polly können Sie PutLexicon (p. 211) verwenden, um Aussprachelexika in einer bestimmtenAWS-Region für Ihr Konto zu speichern. Anschließend können Sie eine oder mehrere dieser gespeichertenLexika in Ihrer SynthesizeSpeech (p. 219)-Anforderung angeben, die Sie anwenden möchten, bevorder Dienst mit der synthetischen Sprache beginnt. Weitere Informationen finden Sie unter Verwalten vonLexika (p. 135).

In diesem Abschnitt werden Beispiele für Lexika und Schritt-für-Schritt-Anweisungen zum Speichern undTesten der Lexika bereitgestellt.

Note

Diese Lexika müssen mit der Angabe zur W3C-Empfehlung des Aussprachelexikonsübereinstimmen. Weitere Informationen dazu finden Sie auf der W3C-Website unter Angaben zumAussprachelexikon (PLS) Version 1.0.

139


https://www.w3.org/TR/pronunciation-lexicon/#S4.7

https://www.w3.org/TR/pronunciation-lexicon/#S4.7

Amazon Polly EntwicklerhandbuchPutLexicon

Beispiel 1: Lexikon mit einem LexemErwägen Sie das folgende W3C-PLS-konforme Lexikon.

<?xml version="1.0" encoding="UTF-8"?><lexicon version="1.0" xmlns="http://www.w3.org/2005/01/pronunciation-lexicon" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd" alphabet="ipa" xml:lang="en-US"> <lexeme> <grapheme>W3C</grapheme> <alias>World Wide Web Consortium</alias> </lexeme></lexicon>

Beachten Sie Folgendes:

• Im <lexicon>-Element werden die folgenden zwei Attribute angegeben:• Das xml:lang-Attribut gibt den Sprachcode an en-US, auf den das Lexikon angewendet wird. In

Amazon Polly können Sie dieses Beispiel-Lexikon verwenden, wenn die im SynthesizeSpeech-Aufruf verwendete Stimme den denselben Sprachcode (en-US) hat.

Note

Sie können den DescribeVoices-Vorgang verwenden, um nach dem mit einer Stimmeverknüpften Sprachcode zu suchen.

• Das alphabet-Attribut gibt IPA an, das heißt, das international phonetische Alphabet (IPA) wird für

die Aussprache verwendet. Das IPA ist eines der Alphabete für das Schreiben von Aussprachen.Amazon Polly unterstützt außerdem das Extended Speech Assessment Methods Phonetic Alphabet(X-SAMPA).

• Das <lexeme>-Element beschreibt die Zuordnung zwischen <grapheme> (d. h. Textdarstellung des

Wortes) und <alias>.

Führen Sie zum Testen dieses Lexikons folgende Schritte aus:

1. Speichern Sie das Lexikon unter dem Namen example.pls.2. Führen Sie den put-lexicon AWS CLI-Befehl aus, um das Lexikon (mit dem Namen w3c) in der

Region us-east-2 zu speichern.

aws polly put-lexicon \--name w3c \--content file://example.pls

3. Führen Sie den synthesize-speech-Befehl aus, um den Beispieltext synthetisch in einem Audio-Stream (speech.mp3) zu bilden, und geben Sie den optionalenlexicon-name-Parameter an.

aws polly synthesize-speech \--text 'W3C is a Consortium' \--voice-id Joanna \--output-format mp3 \

140


--lexicon-names="w3c" \speech.mp3

4. Geben Sie die resultierende speech.mp3-Datei wieder und beachten Sie, dass das Wort W3C in demText durch World Wide Web Consortium ersetzt wird.

Im vorherigen Beispiel-Lexikon wird ein Alias verwendet. Das im Lexikon erwähnte IPA-Alphabet wird nichtverwendet. Das folgende Lexikon gibt eine phonetische Aussprache über das <phoneme>-Element mitdem IPA-Alphabet an.

<?xml version="1.0" encoding="UTF-8"?><lexicon version="1.0" xmlns="http://www.w3.org/2005/01/pronunciation-lexicon" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd" alphabet="ipa" xml:lang="en-US"> <lexeme> <grapheme>pecan</grapheme> <phoneme>p##k##n</phoneme> </lexeme></lexicon>

Führen Sie zum Testen dieses Lexikons die gleichen Schritte aus. Stellen Sie sicher, dass Sie Eingabetextangeben, in dem das Wort „Pecan“ enthalten ist (z. B. „Pecan Pie ist köstlich“).

Beispiel 2: Lexikon mit mehreren LexemenIn diesem Beispiel wird das im Lexikon angegebene Lexem nur auf den synthetischen Eingabetextangewendet. Erwägen Sie das folgende Lexikon:

<?xml version="1.0" encoding="UTF-8"?><lexicon version="1.0" xmlns="http://www.w3.org/2005/01/pronunciation-lexicon" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd" alphabet="ipa" xml:lang="en-US">

<lexeme> <grapheme>W3C</grapheme> <alias>World Wide Web Consortium</alias> </lexeme> <lexeme> <grapheme>W3C</grapheme> <alias>WWW Consortium</alias> </lexeme> <lexeme> <grapheme>Consortium</grapheme> <alias>Community</alias> </lexeme></lexicon>

Das Lexikon gibt drei Lexeme an, von denen zwei einen Alias für das Graphem W3C folgendermaßendefinieren:

• Die erste <lexeme>-Element definiert einen Alias (World Wide Web Consortium).• Das zweite <lexeme> definierte einen alternativen Alias (WWW Consortium).

141


Amazon Polly verwendet die erste Ersetzung für ein in einem Lexikon angegebenes Graphem.

Das dritte <lexeme> definiert eine Ersetzung (Community) für das Wort Consortium.

Testen wir zunächst dieses Lexikon. Nehmen wir an, Sie synthetisieren den folgenden Beispieltext in eineAudiodatei (speech.mp3) und geben das Lexikon in einem Aufruf an SynthesizeSpeech an.

The W3C is a Consortium

SynthesizeSpeech wendet das Lexikon zunächst folgendermaßen an:

• Wie bei dem ersten Lexem wird das Wort W3C in World Wide Web Consortium geändert. Der geänderteText wird wie folgt angezeigt:

The World Wide Web Consortium is a Consortium

• Der im dritten Lexem angegebene Alias wird nur auf das Wort Consortium angewendet, das Teil desursprünglichen Texts war, sodass sich folgender Text ergibt:

The World Wide Web Consortium is a Community.

Sie können dies mithilfe der AWS CLI folgendermaßen testen:

1. Speichern Sie das Lexikon unter dem Namen example.pls.2. Führen Sie den put-lexicon-Befehl aus, um das Lexikon mit dem Namen w3c in der Region us-

east-2 zu speichern.

aws polly put-lexicon \--name w3c \--content file://example.pls

3. Führen Sie den list-lexicons-Befehl aus, um sicherzustellen, dass das w3c-Lexikon in der Listeder Lexika zurückgegeben wird.

aws polly list-lexicons

4. Führen Sie den synthesize-speech-Befehl aus, um den Beispieltext synthetisch in einer Audiodatei(speech.mp3) zu bilden, und geben Sie den optionalen lexicon-name-Parameter an.

aws polly synthesize-speech \--text 'W3C is a Consortium' \--voice-id Joanna \--output-format mp3 \--lexicon-names="w3c" \speech.mp3

5. Geben Sie die speech.mp3-Datei wieder, um sicherzustellen, dass die synthetische Sprache dieTextänderungen widerspiegelt.

Beispiel 3: Angeben mehrerer LexikaBei einem Aufruf an SynthesizeSpeech können Sie mehrere Lexika angeben. In diesem Fallüberschreibt das erste angegeben Lexikon (von links nach rechts) alle vorausgehenden Lexika.

Erwägen Sie die folgenden zwei Lexika. Beachten Sie, dass jedes Lexikon verschiedene Aliase fürdasselbe Graphem W3C beschreibt.

142


• Lexikon 1:w3c.pls

<?xml version="1.0" encoding="UTF-8"?><lexicon version="1.0" xmlns="http://www.w3.org/2005/01/pronunciation-lexicon" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd" alphabet="ipa" xml:lang="en-US"> <lexeme> <grapheme>W3C</grapheme> <alias>World Wide Web Consortium</alias> </lexeme></lexicon>

• Lexikon 2:w3cAlternate.pls

<?xml version="1.0" encoding="UTF-8"?><lexicon version="1.0" xmlns="http://www.w3.org/2005/01/pronunciation-lexicon" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd" alphabet="ipa" xml:lang="en-US">

<lexeme> <grapheme>W3C</grapheme> <alias>WWW Consortium</alias> </lexeme></lexicon>

Nehmen wir an, Sie speichern diese Lexika als w3c und w3cAlternate. Wenn Sie Lexika in derReihenfolge (w3c gefolgt von w3cAlternate) in einem SynthesizeSpeech-Aufruf angeben, hat derim ersten Lexikon für W3C angegebene Alias Vorrang vor dem im zweiten Lexikon angegebenen Alias.Führen Sie zum Testen der Lexika folgende Schritte aus:

1. Speichern Sie die Lexika lokal als w3c.pls und w3cAlternate.pls..2. Laden Sie diese Lexika mithilfe des put-lexicon-AWS CLI-Befehls hoch.

• Laden Sie das w3c.pls-Lexikon hoch und speichern Sie es als w3c.

aws polly put-lexicon \--name w3c \--content file://w3c.pls

• Laden Sie das w3cAlternate.pls-Lexikon als Dienst als w3cAlternate hoch.

aws polly put-lexicon \--name w3cAlternate \--content file://w3cAlternate.pls

3. Führen Sie den synthesize-speech-Befehl aus, um den Beispieltext synthetisch in einemAudio-Stream (speech.mp3) zu bilden, und geben Sie beide Lexika mithilfe des lexicon-name-Parameters an.

aws polly synthesize-speech \--text 'PLS is a W3C recommendation' \--voice-id Joanna \--output-format mp3 \

143

Amazon Polly EntwicklerhandbuchGetLexicon

--lexicon-names '["w3c","w3cAlternative"]' \speech.mp3

4. Testen der speech.mp3 Ergebnisse Sie sollte wie folgt gelesen werden:

PLS is a World Wide Web Consortium recommendation

Zusätzliche Codebeispiele für die PutLexicon-API• Java-Beispiele: PutLexicon (p. 155)• Python (Boto3)-Beispiel: PutLexicon (p. 161)

Verwenden des GetLexicon-VorgangsAmazon Polly stellt zum Abrufen des Inhalts eines Aussprachelexikon den GetLexicon (p. 203)-API-Vorgang bereit, den Sie in Ihrem Konto in einer bestimmten Region gespeichert haben.

Der folgende get-lexicon-AWS CLI-Befehl ruft den Inhalt des example-Lexikons ab.

aws polly get-lexicon \--name example

Falls Sie noch kein Lexikon in Ihrem Konto gespeichert haben, können Sie den PutLexicon-Vorgangverwenden, um eines zu speichern. Weitere Informationen finden Sie unter Verwenden des PutLexicon-Vorgangs (p. 139).

Im Folgenden wird eine Beispielantwort dargestellt: Zusätzlich zum Lexikoninhalt gibt die Antwort denCode der Metadaten zurück, z. B. den Sprachcode, auf den das Lexikon angewendet wird, die Anzahl derim Lexikon definierten Lexeme, den Amazon Resource Name (ARN) der Ressource und die Größe desLexikons in Byte. Der LastModified-Wert ist ein Unix-Zeitstempel.

{ "Lexicon": { "Content": "lexicon content in plain text PLS format", "Name": "example" }, "LexiconAttributes": { "LanguageCode": "en-US", "LastModified": 1474222543.989, "Alphabet": "ipa", "LexemesCount": 1, "LexiconArn": "arn:aws:polly:us-east-2:account-id:lexicon/example", "Size": 495 }}

Zusätzliche Codebeispiele für die GetLexicon-API• Java-Beispiele: GetLexicon (p. 154)• Python (Boto3)-Beispiel: GetLexicon (p. 160)

144

Amazon Polly EntwicklerhandbuchListLexicons

Verwenden des ListLexicons-VorgangsAmazon Polly stellt den ListLexicons (p. 207)-API-Vorgang bereit, mit dem Sie die Liste derAussprachelexika in Ihrem Konto in einer bestimmten AWS-Region abrufen können. Mithilfe des folgendenAWS CLI-Aufrufs werden die Lexika in Ihrem Konto in der Region us-east-2 aufgelistet.

aws polly list-lexicons

Es folgt ein Beispiel für eine Antwort mit zwei Lexika mit den Namen w3c und tomato. Für jedes Lexikongibt die Antwort gibt Metadaten zurück, wie z. B. den Sprachcode, auf das das Lexikon angewendet wird,die Anzahl der im Lexikon definierten Lexeme, die Größe in Byte usw. Der Sprachcode beschreibt eineSprache und ein Gebietsschema, auf die die im Lexikon definierten Lexeme angewendet werden.

{ "Lexicons": [ { "Attributes": { "LanguageCode": "en-US", "LastModified": 1474222543.989, "Alphabet": "ipa", "LexemesCount": 1, "LexiconArn": "arn:aws:polly:aws-region:account-id:lexicon/w3c", "Size": 495 }, "Name": "w3c" }, { "Attributes": { "LanguageCode": "en-US", "LastModified": 1473099290.858, "Alphabet": "ipa", "LexemesCount": 1, "LexiconArn": "arn:aws:polly:aws-region:account-id:lexicon/tomato", "Size": 645 }, "Name": "tomato" } ]}

Zusätzliche Codebeispiele für die ListLexicon-API• Java-Beispiele: ListLexicons (p. 154)• Python (Boto3)-Beispiel: ListLexicon (p. 161)

Verwenden des DeleteLexicon-VorgangsAmazon Polly stellt den DeleteLexicon (p. 198)-API-Vorgang zum Löschen eines Aussprachelexikonsaus einer bestimmten AWS-Region in Ihrem Konto bereit. Die folgende AWS CLI löscht das angegebeneLexikon.


aws polly delete-lexicon \

145

Amazon Polly EntwicklerhandbuchDeleteLexicon

--name example

Zusätzliche Codebeispiele für die DeleteLexicon-API• Java-Beispiele: DeleteLexicon (p. 153)• Python (Boto3)-Beispiel: DeleteLexicon (p. 159)

146

Amazon Polly EntwicklerhandbuchEinrichten der IAM-Richtlinie für die asynchrone Synthese

Lange Audiodateien erstellenUm TTS-Dateien für große Textpassagen zu erstellen, verwenden Sie die Funktionalität der asynchronenSynthese von Amazon Polly. Diese verwendet die drei SpeechSynthesisTask-APIs:

• StartSpeechSynthesisTask: beginnt eine neue Syntheseaufgabe.• GetSpeechSynthesisTask: gibt Details zurück zu einer zuvor übermittelten Syntheseaufgabe.• ListSpeechSynthesisTasks: listet alle übermittelten Syntheseaufgaben auf.

Die SynthesizeSpeech-Operation erzeugt nahezu in Echtzeit Audiomaterial mit meist relativ geringerLatenz. Aus diesem Grund kann die Operation nur 3000 Zeichen generieren.

Die asynchrone Synthesefunktion von Amazon Polly überwindet die Herausforderung derVerarbeitung eines großen Textdokuments, indem sie sowohl die Synthese als auch die Rückgabedes Dokuments ändert. Wenn eine Syntheseanfrage gestellt wird, indem ein Eingabetext mit demBefehl StartSpeechSynthesisTask gesendet wird, stellt Amazon Polly die Anforderungen in eineWarteschlange und verarbeitet sie dann asynchron im Hintergrund, sobald die Systemressourcen verfügbarsind. Amazon Polly lädt dann den resultierenden Sprach- oder Sprachmarkierungs-Stream direkt inIhren (erforderlichen) Amazon Simple Storage Service (Amazon S3)-Bucket und informiert Sie über dieVerfügbarkeit der abgeschlossenen Datei über Ihr (optionales) SNS-Thema.

Auf diese Weise steht die gesamte Funktionalität mit Ausnahme der Verarbeitung in Echtzeit für Texte vonbis zu 100 000 kostenpflichtigen Zeichen (bzw. 200 000 Zeichen insgesamt) zur Verfügung.

Um ein Dokument mit dieser Methode zu erstellen, benötigen Sie einen beschreibbaren Amazon S3-Bucket, in dem die Audiodatei gespeichert werden kann. Sie können benachrichtigt werden, wenn dasgenerierte Audiomaterial bereit ist, indem Sie eine optionale SNS-Themenkennung angeben. Wenn dieSyntheseaufgabe abgeschlossen ist, veröffentlicht Amazon Polly eine Nachricht unter diesem Thema.Diese Meldung kann auch nützliche Fehlerinformationen enthalten, wenn die Syntheseaufgabe nichterfolgreich war. Stellen Sie zu diesem Zweck sicher, dass der Benutzer, der die Syntheseaufgabe erstellt,auch im SNS-Thema veröffentlichen kann. Weitere Informationen zum Erstellen und Abonnieren einesSNS-Themas finden Sie in der Amazon SNS-Dokumentation.

Verschlüsselung

Sie können die Ausgabedatei in verschlüsselter Form in Ihrem S3-Bucket speichern. Dazu aktivieren Siedie Verschlüsselung des Amazon S3-Buckets, die eine der stärksten Blockverschlüsselungen verwendet,die zur Verfügung stehen, nämlich 256-Bit Advanced Encryption Standard (AES-256).

Themen• Einrichten der IAM-Richtlinie für die asynchrone Synthese (p. 147)• Lange Audiodateien erstellen (Konsole) (p. 148)• Lange Audiodateien erstellen (CLI) (p. 149)

Einrichten der IAM-Richtlinie für die asynchroneSynthese

Damit Sie die Funktionalität der asynchronen Synthese nutzen können, benötigen Sie eine IAM-Richtlinie,die Folgendes zulässt:

147

https://docs.aws.amazon.com/sns/latest/dg/welcome.html

https://docs.aws.amazon.com/AmazonS3/latest/dev/bucket-encryption.html

Amazon Polly EntwicklerhandbuchLange Audiodateien erstellen (Konsole)

• Nutzung neuer Amazon Polly-Operationen• Schreiben in den ausgegebenen S3-Bucket• Veröffentlichung im Status des SNS-Themas [optional]

Mit der folgenden Richtlinie werden nur die für die asynchrone Synthese erforderlichen Berechtigungenerteilt. Die Richtlinie kann mit dem IAM-Benutzer verknüpft werden.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "polly:StartSpeechSynthesisTask", "polly:GetSpeechSynthesisTask", "polly:ListSpeechSynthesisTasks" ], "Resource": "*" }, { "Effect": "Allow", "Action": "s3:PutObject", "Resource": "arn:aws:s3:::bucket-name/*" }, { "Effect": "Allow", "Action": "sns:Publish", "Resource": "arn:aws:sns:region:account:topic" } ]}

Weitere Informationen zur Verwendung von IAM-Richtlinien mit Amazon Polly und der Verknüpfung vonIAM-Richtlinien mit IAM-Benutzern finden Sie unter Zugangskontrolle (p. 234).

Lange Audiodateien erstellen (Konsole)Mit der Amazon Polly-Konsole können Sie lange Sprachausgaben erstellen, die die gleiche Funktionalitätbesitzen wie die AWS CLI. Dies erfolgt wie jede andere Synthese über die Registerkarte Text-to-Speech.

Die weiteren Funktionen der asynchronen Synthese sind ebenfalls über die Konsole verfügbar. DieRegisterkarte S3 synthesis tasks (S3-Syntheseaufgabe) zeigt die ListSpeechSynthesisTasks-Funktionalität, die alle im S3-Bucket gespeicherten Aufgaben anzeigt und es Ihnen ermöglicht, diese wennnötig zu filtern. Durch Klicken auf eine bestimmte einzelne Aufgabe werden Details angezeigt, die dieGetSpeechSynthesisTask-Funktionalität abbilden.

So generieren Sie einen großen Text mithilfe der Amazon Polly-Konsole


2. Wählen Sie die Registerkarte Text-to-Speech.3. Geben Sie auf der Registerkarte Plain Text (Klartext) oder SSML Ihren Text in das Eingabefeld ein

oder kopieren Sie ihn in das Eingabefeld.4. Wählen Sie Sprache, Region und Stimme für Ihren Text.5. Wählen Sie Synthesize to S3 (Zu S3 generieren).

148


Amazon Polly EntwicklerhandbuchLange Audiodateien erstellen (CLI)

Note

Die Optionen Download (Herunterladen) und Listen to Speech (Sprache anhören) werdenausgegraut, wenn die Textlänge oberhalb des Limits für die Echtzeit-SynthesizeSpeech-Operation liegt.

6. Wenn Sie die asynchrone Synthese zuvor noch nicht verwendet haben, wird das Feld Change S3synthesis task settings (S3-Syntheseaufgabeneinstellungen ändern) angezeigt, damit Sie einenSpeicherort für die Ausgabedatei wählen können.

a. Geben Sie den Namen des Ziel-Amazon S3-Buckets ein.b. Geben Sie optional den Präfixschlüssel der Ausgabe ein.

Note

Der ausgegebene S3-Bucket muss beschreibbar sein.c. Wenn Sie benachrichtigt werden möchten, sobald die Syntheseaufgabe abgeschlossen ist, geben

Sie die optionale SNS-Themenkennung ein.

Note

Der SNS muss für die Veröffentlichung durch den aktuellen Konsolenbenutzer geöffnetsein, um diese Option nutzen zu können. Weitere Informationen finden Sie unter AmazonSimple Notification Service (SNS).

d. Wählen Sie Synthesize (Generieren).

So ändern Sie die Einstellungen der S3-Syntheseaufgabe

1. Klicken Sie in der Konsole auf der Registerkarte Test-to-Speech auf Change S3 task settings (S3-Aufgabeneinstellungen ändern).

2. Nehmen Sie die gewünschten Änderungen an dem Namen des Ziel-Amazon S3-Buckets, deszugehörigen Präfixschlüssels oder der SNS-Themenkennung vor.

3. Wählen Sie Synthesize (Generieren), wenn Sie fertig sind.

So rufen Sie Informationen zu Ihren Sprachsyntheseaufgaben ab

1. Wählen Sie in der Konsole die Registerkarte S3 Synthesis Tasks (S3-Syntheseaufgaben) aus.2. Die Aufgaben werden nach Datum sortiert angezeigt. Um die Aufgaben zu filtern, wählen Sie Filter

(Filtern) und wählen Sie dann, welcher Filter verwendet werden soll.3. Um die Details einer bestimmten Aufgabe anzuzeigen, wählen Sie die verknüpfte Task ID (Aufgaben-

ID).

Lange Audiodateien erstellen (CLI)Die Funktionalität der asynchronen Synthese von Amazon Polly verwendet drei SpeechSynthesisTask-APIs für das Arbeiten mit großen Textmengen:

• StartSpeechSynthesisTask: beginnt eine neue Syntheseaufgabe.• GetSpeechSynthesisTask: gibt Details zurück zu einer zuvor übermittelten Syntheseaufgabe.• ListSpeechSynthesisTasks: listet alle übermittelten Syntheseaufgaben auf.

Generieren von großen Textmengen (StartSpeechSynthesisTask)

149

https://aws.amazon.com/sns/

https://aws.amazon.com/sns/


Wenn Sie eine Audiodatei erstellen möchten, die größer ist als eine, die Sie mit der EchtzeitfunktionSynthesizeSpeech erstellen können, verwenden Sie die StartSpeechSynthesisTask-Operation.Zusätzlich zu den Argumenten, die für die SynthesizeSpeech-Operation benötigt werden, erfordertStartSpeechSynthesisTask außerdem den Namen eines Amazon S3-Buckets. Zwei weitere optionaleArgumente sind ebenfalls verfügbar: ein Schlüsselpräfix für die Ausgabedatei und der ARN für ein SNS-Thema, wenn Sie eine Statusbenachrichtigung über die Aufgabe erhalten möchten.

• OutputS3BucketName: der Name des Amazon S3-Buckets, in den die Synthese hochgeladen werdensoll. Dieser Bucket muss sich in der gleichen Region befinden wie der Amazon Polly-Service. Zusätzlichsollte der IAM-Benutzer, der für den Anruf verwendet wird, Zugriff auf den Bucket haben. [Erforderlich]

• OutputS3KeyPrefix: Schlüsselpräfix für die Ausgabedatei. Verwenden Sie diesen Parameter, wennSie die Ausgabesprachdatei in einem benutzerdefinierten verzeichnisähnlichen Schlüssel in IhremBucket speichern möchten. [Optional]

• SnsTopicArn: der SNS-Thema-ARN, den Sie verwenden können, wenn Sie über den Status derAufgabe informiert werden möchten. Dieses SNS-Thema muss sich in der gleichen Region befinden wieder Amazon Polly-Service. Zusätzlich sollte der IAM-Benutzer, der für den Aufruf verwendet wird, Zugriffauf das Thema haben. [Optional]

Das folgende Beispiel kann verwendet werden, um den start-speech-synthesis-task-AWS-CLI-Befehl in der Region USA Ost (Ohio) auszuführen:


aws polly start-speech-synthesis-task \ --region us-east-2 \ --endpoint-url "https://polly.us-east-2.amazonaws.com/" \ --output-format mp3 \ --output-s3-bucket-name your-bucket-name \ --output-s3-key-prefix optional/prefix/path/file \ --voice-id Joanna \ --text file://text_file.txt

Dies führt zu einer Antwort, die ähnlich aussieht wie diese:

"SynthesisTask": { "OutputFormat": "mp3", "OutputUri": "https://s3.us-east-2.amazonaws.com/your-bucket-name/optional/prefix/path/file.<task_id>.mp3", "TextType": "text", "CreationTime": [..], "RequestCharacters": [..], "TaskStatus": "scheduled", "TaskId": [task_id], "VoiceId": "Joanna" }

Die start-speech-synthesis-task-Operation gibt mehrere neue Felder zurück:

• OutputUri: der Speicherort Ihrer Ausgabesprachdatei.• TaskId: eine eindeutige Kennung für die von Amazon Polly generierte Sprachsyntheseaufgabe.• CreationTime: Zeitstempel für den Zeitpunkt, zu dem die Aufgabe ursprünglich übermittelt wurde.• RequestCharacters: die Anzahl kostenpflichtiger Zeichen in der Aufgabe.

150


• TaskStatus: gibt Auskunft über den Status der übermittelten Aufgabe.

Sobald Ihre Aufgabe übermittelt wurde, zeigt der ursprüngliche Status scheduled an. WennAmazon Polly die Bearbeitung der Aufgabe beginnt, ändert sich der Status in inProgressund später in completed oder failed. Wenn die Aufgabe fehlschlägt, wird beim Aufrufen derGetSpeechSynthesisTask-Operation oder der ListSpeechSynthesisTasks-Operation eine Fehlermeldungzurückgegeben.

Wenn die Aufgabe abgeschlossen ist, wird die Sprachdatei am angegebenen Speicherort in OutputUriverfügbar.

Informationen zu Ihren Sprachsyntheseaufgaben abrufen

Informationen zu einer Aufgabe, wie z. B. Fehler, Status usw., erhalten Sie mithilfe der Verwendung derGetSpeechSynthesisTask-Operation. Zu diesem Zweck benötigen Sie die task-id, die von derStartSpeechSynthesisTask zurückgegeben wird.

Das folgende Beispiel kann verwendet werden, um den AWS-CLI-Befehl get-speech-synthesis-taskauszuführen:

aws polly get-speech-synthesis-task \--region us-east-2 \--endpoint-url "https:// polly.us-east-2.amazonaws.com/" \--task-id task identifier

Sie können auch alle Sprachsynthese-Aufgaben auflisten, die Sie in der aktuellen Region ausgeführthaben. Verwenden Sie dazu die ListSpeechSynthesisTasks-Operation.

Das folgende Beispiel kann verwendet werden, um den AWS-CLI-Befehl list-speech-synthesis-tasks auszuführen:

aws polly list-speech-synthesis-tasks \--region us-east-2 \--endpoint-url "https:// polly.us-east-2.amazonaws.com/"

151

Amazon Polly EntwicklerhandbuchBeispiel-Code

Code und AnwendungsbeispieleIn diesem Abschnitt finden Sie Beispiel-Codes und Beispielanwendungen, mit deren Hilfe Sie sich mitAmazon Polly vertraut machen können.

Themen• Beispiel-Code (p. 152)• Beispielanwendungen (p. 163)

Das Thema Beispiel-Code enthält Codeausschnitte, die nach Programmiersprachen geordnet und inBeispiele für verschiedene Amazon Polly-Funktionen unterteilt sind. Das Thema Beispielanwendung enthältAnwendungen, die nach Programmiersprache organisiert sind und die unabhängig voneinander zumErkunden von Amazon Polly verwendet werden können.

Wir empfehlen Ihnen, vor der Verwendung dieser Beispiele zunächst den Abschnitt Amazon Polly:Funktionsweise (p. 3) zu lesen und die in Erste Schritte mit Amazon Polly (p. 11) beschriebenen Schrittedurchzuführen.

Beispiel-CodeDieses Thema enthält Codebeispiele für verschiedene Funktionen, die zum Erkunden von Amazon Pollyverwendet werden können.

Beispiel-Code nach Programmiersprache• Java-Beispiele (p. 152)• Python-Beispiele (p. 159)

Java-BeispieleDie folgenden Codebeispiele zeigen, wie Sie mit Java-basierten Anwendungen verschiedene Aufgabenmit Amazon Polly ausführen können. Diese Beispiele sind keine vollständigen Beispiele, können aber ingrößeren Java-Anwendungen enthalten sein, die das AWS SDK for Java verwenden.

Codeausschnitte• DeleteLexicon (p. 153)• DescribeVoices (p. 153)• GetLexicon (p. 154)• ListLexicons (p. 154)• PutLexicon (p. 155)• StartSpeechSynthesisTask (p. 156)• Sprachmarkierungen (p. 157)• SynthesizeSpeech (p. 158)

152

https://aws.amazon.com/documentation/sdk-for-java/

Amazon Polly EntwicklerhandbuchJava-Beispiele

DeleteLexiconDas folgende Java-Codebeispiel zeigt, wie Sie mithilfe von Java-basierten Anwendungen ein bestimmtesin einer AWS-Region gespeichertes Lexikon löschen können. Ein Lexikon, das gelöscht wurde, ist fürdie Sprachsynthese nicht verfügbar und kann auch nicht mit den APIs GetLexicon oder ListLexiconabgerufen werden.

Weitere Informationen zu dieser Operation finden Sie in der Referenz für die API DeleteLexicon.

package com.amazonaws.polly.samples; import com.amazonaws.services.polly.AmazonPolly;import com.amazonaws.services.polly.AmazonPollyClientBuilder;import com.amazonaws.services.polly.model.DeleteLexiconRequest; public class DeleteLexiconSample { private String LEXICON_NAME = "SampleLexicon"; AmazonPolly client = AmazonPollyClientBuilder.defaultClient(); public void deleteLexicon() { DeleteLexiconRequest deleteLexiconRequest = new DeleteLexiconRequest().withName(LEXICON_NAME); try { client.deleteLexicon(deleteLexiconRequest); } catch (Exception e) { System.err.println("Exception caught: " + e); } }}

DescribeVoicesDas folgende Java-Codebeispiel zeigt, wie mithilfe von Java-basierten Anwendungen eine Liste derStimmen erstellt wird, die für die Anforderung der Sprachsynthese verfügbar sind. Sie können optionaleinen Sprachcode angeben, um die verfügbaren Stimmen zu filtern. Wenn Sie beispielsweise en-USangeben, gibt der Vorgang eine Liste aller verfügbaren US-englischen Stimmen zurück.

Weitere Informationen zu dieser Operation finden Sie in der Referenz für die API DescribeVoices.

package com.amazonaws.polly.samples; import com.amazonaws.services.polly.AmazonPolly;import com.amazonaws.services.polly.AmazonPollyClientBuilder;import com.amazonaws.services.polly.model.DescribeVoicesRequest;import com.amazonaws.services.polly.model.DescribeVoicesResult; public class DescribeVoicesSample { AmazonPolly client = AmazonPollyClientBuilder.defaultClient(); public void describeVoices() { DescribeVoicesRequest allVoicesRequest = new DescribeVoicesRequest(); DescribeVoicesRequest enUsVoicesRequest = new DescribeVoicesRequest().withLanguageCode("en-US"); try { String nextToken; do { DescribeVoicesResult allVoicesResult = client.describeVoices(allVoicesRequest);

153

https://docs.aws.amazon.com/polly/latest/dg/API_DeleteLexicon.html

https://docs.aws.amazon.com/polly/latest/dg/API_DescribeVoices.html


nextToken = allVoicesResult.getNextToken(); allVoicesRequest.setNextToken(nextToken); System.out.println("All voices: " + allVoicesResult.getVoices()); } while (nextToken != null); do { DescribeVoicesResult enUsVoicesResult = client.describeVoices(enUsVoicesRequest); nextToken = enUsVoicesResult.getNextToken(); enUsVoicesRequest.setNextToken(nextToken); System.out.println("en-US voices: " + enUsVoicesResult.getVoices()); } while (nextToken != null); } catch (Exception e) { System.err.println("Exception caught: " + e); } }}

GetLexiconDas folgende Java-Codebeispiel zeigt, wie Sie mithilfe von Java-basierten Anwendungen den Inhalt einesbestimmten in einer AWS-Region gespeicherten Aussprachelexikons erstellen können.

Weitere Informationen zu dieser Operation finden Sie in der Referenz für die API GetLexicon.

package com.amazonaws.polly.samples; import com.amazonaws.services.polly.AmazonPolly;import com.amazonaws.services.polly.AmazonPollyClientBuilder;import com.amazonaws.services.polly.model.GetLexiconRequest;import com.amazonaws.services.polly.model.GetLexiconResult; public class GetLexiconSample { private String LEXICON_NAME = "SampleLexicon"; AmazonPolly client = AmazonPollyClientBuilder.defaultClient(); public void getLexicon() { GetLexiconRequest getLexiconRequest = new GetLexiconRequest().withName(LEXICON_NAME); try { GetLexiconResult getLexiconResult = client.getLexicon(getLexiconRequest); System.out.println("Lexicon: " + getLexiconResult.getLexicon()); } catch (Exception e) { System.err.println("Exception caught: " + e); } }}

ListLexiconsDas folgende Java-Codebeispiel zeigt, wie Sie mithilfe von Java-basierten Anwendungen eine Liste der ineiner AWS-Region gespeicherten Aussprachelexika erstellen können.

Weitere Informationen zu dieser Operation finden Sie in der Referenz für die API ListLexicons.

package com.amazonaws.polly.samples;

154

https://docs.aws.amazon.com/polly/latest/dg/API_GetLexicon.html

https://docs.aws.amazon.com/polly/latest/dg/API_ListLexicons.html


import com.amazonaws.services.polly.AmazonPolly;import com.amazonaws.services.polly.AmazonPollyClientBuilder;import com.amazonaws.services.polly.model.LexiconAttributes;import com.amazonaws.services.polly.model.LexiconDescription;import com.amazonaws.services.polly.model.ListLexiconsRequest;import com.amazonaws.services.polly.model.ListLexiconsResult; public class ListLexiconsSample { AmazonPolly client = AmazonPollyClientBuilder.defaultClient(); public void listLexicons() { ListLexiconsRequest listLexiconsRequest = new ListLexiconsRequest(); try { String nextToken; do { ListLexiconsResult listLexiconsResult = client.listLexicons(listLexiconsRequest); nextToken = listLexiconsResult.getNextToken(); listLexiconsRequest.setNextToken(nextToken); for (LexiconDescription lexiconDescription : listLexiconsResult.getLexicons()) { LexiconAttributes attributes = lexiconDescription.getAttributes(); System.out.println("Name: " + lexiconDescription.getName() + ", Alphabet: " + attributes.getAlphabet() + ", LanguageCode: " + attributes.getLanguageCode() + ", LastModified: " + attributes.getLastModified() + ", LexemesCount: " + attributes.getLexemesCount() + ", LexiconArn: " + attributes.getLexiconArn() + ", Size: " + attributes.getSize()); } } while (nextToken != null); } catch (Exception e) { System.err.println("Exception caught: " + e); } }}

PutLexiconDas folgende Java-Codebeispiel zeigt, wie Java-basierte Anwendungen zum Speichern einesAussprachelexikons in einer AWS-Region verwendet werden.

Weitere Informationen zu dieser Operation finden Sie in der Referenz für die API PutLexicon.

package com.amazonaws.polly.samples; import com.amazonaws.services.polly.AmazonPolly;import com.amazonaws.services.polly.AmazonPollyClientBuilder;import com.amazonaws.services.polly.model.PutLexiconRequest; public class PutLexiconSample { AmazonPolly client = AmazonPollyClientBuilder.defaultClient();

private String LEXICON_CONTENT = "<?xml version=\"1.0\" encoding=\"UTF-8\"?>" + "<lexicon version=\"1.0\" xmlns=\"http://www.w3.org/2005/01/pronunciation-lexicon\" xmlns:xsi=\"http://www.w3.org/2001/XMLSchema-instance\" " + "xsi:schemaLocation=\"http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd\" " + "alphabet=\"ipa\" xml:lang=\"en-US\">" + "<lexeme><grapheme>test1</grapheme><alias>test2</alias></lexeme>" + "</lexicon>";

155

https://docs.aws.amazon.com/polly/latest/dg/API_PutLexicon.html


private String LEXICON_NAME = "SampleLexicon"; public void putLexicon() { PutLexiconRequest putLexiconRequest = new PutLexiconRequest() .withContent(LEXICON_CONTENT) .withName(LEXICON_NAME); try { client.putLexicon(putLexiconRequest); } catch (Exception e) { System.err.println("Exception caught: " + e); } }}

StartSpeechSynthesisTaskDas folgende Java-Codebeispiel zeigt, wie auf Java basierende Anwendungen verwendet werden, um einelange Sprachausgabe (bis zu 100 000 kostenpflichtige Zeichen) zu generieren und diese direkt in einemAmazon S3-Bucket zu speichern.

Weitere Informationen finden Sie in der Referenz für API StartSpeechSynthesisTask.

package com.amazonaws.parrot.service.tests.speech.task;

import com.amazonaws.parrot.service.tests.AbstractParrotServiceTest;import com.amazonaws.services.polly.AmazonPolly;import com.amazonaws.services.polly.model.*;import org.awaitility.Duration;

import java.util.concurrent.TimeUnit;

import static org.awaitility.Awaitility.await;

public class StartSpeechSynthesisTaskSample {

private static final int SYNTHESIS_TASK_TIMEOUT_SECONDS = 300; private static final AmazonPolly AMAZON_POLLY_CLIENT = AmazonPollyClientBuilder.defaultClient(); private static final String PLAIN_TEXT = "This is a sample text to be synthesized."; private static final String OUTPUT_FORMAT_MP3 = OutputFormat.Mp3.toString(); private static final String OUTPUT_BUCKET = "synth-books-buckets"; private static final String SNS_TOPIC_ARN = "arn:aws:sns:eu-west-2:561828872312:synthesize-finish-topic"; private static final Duration SYNTHESIS_TASK_POLL_INTERVAL = Duration.FIVE_SECONDS; private static final Duration SYNTHESIS_TASK_POLL_DELAY = Duration.TEN_SECONDS;

public static void main(String... args) { StartSpeechSynthesisTaskRequest request = new StartSpeechSynthesisTaskRequest() .withOutputFormat(OUTPUT_FORMAT_MP3) .withText(PLAIN_TEXT) .withTextType(TextType.Text) .withVoiceId(VoiceId.Amy) .withOutputS3BucketName(OUTPUT_BUCKET) .withSnsTopicArn(SNS_TOPIC_ARN);

StartSpeechSynthesisTaskResult result = AMAZON_POLLY_CLIENT.startSpeechSynthesisTask(request); String taskId = result.getSynthesisTask().getTaskId();

await().with() .pollInterval(SYNTHESIS_TASK_POLL_INTERVAL) .pollDelay(SYNTHESIS_TASK_POLL_DELAY)

156



.atMost(SYNTHESIS_TASK_TIMEOUT_SECONDS, TimeUnit.SECONDS) .until( () -> getSynthesisTaskStatus(taskId).equals(TaskStatus.Completed.toString()) ); }

private static SynthesisTask getSynthesisTask(String taskId) { GetSpeechSynthesisTaskRequest getSpeechSynthesisTaskRequest = new GetSpeechSynthesisTaskRequest() .withTaskId(taskId); GetSpeechSynthesisTaskResult result =AMAZON_POLLY_CLIENT.getSpeechSynthesisTask(getSpeechSynthesisTaskRequest); return result.getSynthesisTask(); }

private static String getSynthesisTaskStatus(String taskId) { GetSpeechSynthesisTaskRequest getSpeechSynthesisTaskRequest = new GetSpeechSynthesisTaskRequest() .withTaskId(taskId); GetSpeechSynthesisTaskResult result =AMAZON_POLLY_CLIENT.getSpeechSynthesisTask(getSpeechSynthesisTaskRequest); return result.getSynthesisTask().getTaskStatus(); }

}

SprachmarkierungenDas folgende Codebeispiel zeigt, wie Java-basierte Anwendungen verwendet werden, umSprachmarkierungen für eingegebenen Text zu synthetisieren. Diese Funktion verwendet dieSynthesizeSpeech API.

Weitere Informationen zur Funktionalität finden Sie unter Sprachmarkierungen (p. 25).

Weitere Informationen zur API finden Sie in der Referenz für die API SynthesizeSpeech.

package com.amazonaws.polly.samples; import com.amazonaws.services.polly.AmazonPolly;import com.amazonaws.services.polly.AmazonPollyClientBuilder;import com.amazonaws.services.polly.model.OutputFormat;import com.amazonaws.services.polly.model.SpeechMarkType;import com.amazonaws.services.polly.model.SynthesizeSpeechRequest;import com.amazonaws.services.polly.model.SynthesizeSpeechResult;import com.amazonaws.services.polly.model.VoiceId; import java.io.File;import java.io.FileOutputStream;import java.io.InputStream; public class SynthesizeSpeechMarksSample { AmazonPolly client = AmazonPollyClientBuilder.defaultClient(); public void synthesizeSpeechMarks() { String outputFileName = "/tmp/speechMarks.json"; SynthesizeSpeechRequest synthesizeSpeechRequest = new SynthesizeSpeechRequest() .withOutputFormat(OutputFormat.Json) .withSpeechMarkTypes(SpeechMarkType.Viseme, SpeechMarkType.Word)

157



.withVoiceId(VoiceId.Joanna) .withText("This is a sample text to be synthesized."); try (FileOutputStream outputStream = new FileOutputStream(new File(outputFileName))) { SynthesizeSpeechResult synthesizeSpeechResult = client.synthesizeSpeech(synthesizeSpeechRequest); byte[] buffer = new byte[2 * 1024]; int readBytes; try (InputStream in = synthesizeSpeechResult.getAudioStream()){ while ((readBytes = in.read(buffer)) > 0) { outputStream.write(buffer, 0, readBytes); } } } catch (Exception e) { System.err.println("Exception caught: " + e); } }}

SynthesizeSpeechDas folgende Java-Codebeispiel zeigt, wie man mit auf Java basierenden Anwendungen Sprachausgabenmit kürzeren Texten für eine echtzeitnahe Verarbeitung generiert.

Weitere Informationen finden Sie in der Referenz für API SynthesizeSpeech.

package com.amazonaws.polly.samples; import com.amazonaws.services.polly.AmazonPolly;import com.amazonaws.services.polly.AmazonPollyClientBuilder;import com.amazonaws.services.polly.model.OutputFormat;import com.amazonaws.services.polly.model.SynthesizeSpeechRequest;import com.amazonaws.services.polly.model.SynthesizeSpeechResult;import com.amazonaws.services.polly.model.VoiceId; import java.io.File;import java.io.FileOutputStream;import java.io.InputStream; public class SynthesizeSpeechSample { AmazonPolly client = AmazonPollyClientBuilder.defaultClient(); public void synthesizeSpeech() { String outputFileName = "/tmp/speech.mp3"; SynthesizeSpeechRequest synthesizeSpeechRequest = new SynthesizeSpeechRequest() .withOutputFormat(OutputFormat.Mp3) .withVoiceId(VoiceId.Joanna) .withText("This is a sample text to be synthesized."); try (FileOutputStream outputStream = new FileOutputStream(new File(outputFileName))) { SynthesizeSpeechResult synthesizeSpeechResult = client.synthesizeSpeech(synthesizeSpeechRequest); byte[] buffer = new byte[2 * 1024]; int readBytes; try (InputStream in = synthesizeSpeechResult.getAudioStream()){ while ((readBytes = in.read(buffer)) > 0) { outputStream.write(buffer, 0, readBytes); } }

158


Amazon Polly EntwicklerhandbuchPython-Beispiele

} catch (Exception e) { System.err.println("Exception caught: " + e); } }}

Python-BeispieleDie folgenden Codebeispiele zeigen, wie Sie mit Python (boto3)-basierten Anwendungen verschiedeneAufgaben mit Amazon Polly ausführen können. Diese Beispiele sind nicht als vollständige Beispielegedacht, können aber in größeren Python-Anwendungen enthalten sein, die die AWS SDK for Python(Boto) verwenden.

Codeausschnitte• DeleteLexicon (p. 159)• GetLexicon (p. 160)• ListLexicon (p. 161)• PutLexicon (p. 161)• StartSpeechSynthesisTask (p. 162)• SynthesizeSpeech (p. 163)

DeleteLexiconIm folgenden Python-Code-Beispiel wird AWS SDK for Python (Boto) verwendet, um ein Lexikon inder in Ihrer lokalen AWS-Konfiguration angegebenen Region zu löschen. In dem Beispiel wird nur dasangegebene Lexikon gelöscht. Dabei werden Sie dazu aufgefordert, zu bestätigen, dass Sie fortfahrenmöchten, bevor das Lexikon tatsächlich gelöscht wird.

Das folgende Codebeispiel verwendet Standard-Anmeldeinformationen in der AWS-SDK-Konfigurationsdatei. Weitere Informationen zum Erstellen der Konfigurationsdatei finden Sie unter Schritt3.1: Einrichten der AWS Command Line Interface (AWS CLI) (p. 14).

Weitere Informationen zu dieser Operation finden Sie in der Referenz für die API DeleteLexicon.

from argparse import ArgumentParserfrom sys import version_info

from boto3 import Sessionfrom botocore.exceptions import BotoCoreError, ClientError

# Define and parse the command line argumentscli = ArgumentParser(description="DeleteLexicon example")cli.add_argument("name", type=str, metavar="LEXICON_NAME")arguments = cli.parse_args()

# Create a client using the credentials and region defined in the adminuser# section of the AWS credentials and configuration filessession = Session(profile_name="adminuser")polly = session.client("polly")

# Request confirmationprompt = input if version_info >= (3, 0) else raw_inputproceed = prompt((u"This will delete the \"{0}\" lexicon," " do you want to proceed? [y,n]: ").format(arguments.name))

159



https://docs.aws.amazon.com/polly/latest/dg/API_DeleteLexicon.html


if proceed in ("y", "Y"): print(u"Deleting {0}...".format(arguments.name))

try: # Request deletion of a lexicon by name response = polly.delete_lexicon(Name=arguments.name) except (BotoCoreError, ClientError) as error: # The service returned an error, exit gracefully cli.error(error)

print("Done.")else: print("Cancelled.")

GetLexiconIm folgenden Python-Code wird AWS SDK for Python (Boto) zum Abrufen aller in einer AWS-Regiongespeicherten Lexika verwendet. In dem Beispiel wird ein Lexikon-Name als Befehlszeilenparameterakzeptiert, er ruft nur das Lexikon ab und gibt dabei den tmp-Pfad an, unter dem es lokal gespeichertwurde.


Weitere Informationen zu dieser Operation finden Sie in der Referenz für die API GetLexicon.

from argparse import ArgumentParserfrom os import pathfrom tempfile import gettempdir


# Define and parse the command line argumentscli = ArgumentParser(description="GetLexicon example")cli.add_argument("name", type=str, metavar="LEXICON_NAME")arguments = cli.parse_args()


print(u"Fetching {0}...".format(arguments.name))

try: # Fetch lexicon by name response = polly.get_lexicon(Name=arguments.name)except (BotoCoreError, ClientError) as error: # The service returned an error, exit gracefully cli.error(error)

# Get the lexicon data from the responselexicon = response.get("Lexicon", {})

# Access the lexicon's contentif "Content" in lexicon: output = path.join(gettempdir(), u"%s.pls" % arguments.name) print(u"Saving to %s..." % output)

try: # Save the lexicon contents to a local file

160

https://docs.aws.amazon.com/polly/latest/dg/API_GetLexicon.html


with open(output, "w") as pls_file: pls_file.write(lexicon["Content"]) except IOError as error: # Could not write to file, exit gracefully cli.error(error)else: # The response didn't contain lexicon data, exit gracefully cli.error("Could not fetch lexicons contents")

print("Done.")

ListLexiconIm folgenden Python-Code-Beispiel wird AWS SDK for Python (Boto) verwendet, um die Lexika in IhremKonto in der Region aufzulisten, die Sie in Ihrer lokalen AWS-Konfiguration angegeben haben. WeitereInformationen zum Erstellen der Konfigurationsdatei finden Sie unter Schritt 3.1: Einrichten der AWSCommand Line Interface (AWS CLI) (p. 14).

Weitere Informationen zu dieser Operation finden Sie in der Referenz für die API ListLexicons.

import sys



try: # Request the list of available lexicons response = polly.list_lexicons()except (BotoCoreError, ClientError) as error: # The service returned an error, exit gracefully print(error) sys.exit(-1)

# Get the list of lexicons in the responselexicons = response.get("Lexicons", [])print("{0} lexicon(s) found".format(len(lexicons)))

# Output a formatted list of lexicons with some of the attributesfor lexicon in lexicons: print((u" - {Name} ({Attributes[LanguageCode]}), " "{Attributes[LexemesCount]} lexeme(s)").format(**lexicon))

PutLexiconDas folgende Java-Codebeispiel zeigt, wie Python (boto3)-basierte Anwendungen zum Speichern einesAussprachelexikons in einer AWS-Region verwendet werden.


Beachten Sie Folgendes:

• Sie müssen den Code aktualisieren, indem Sie einen lokalen Lexikon-Dateinamen und einengespeicherten Lexikon-Namen angeben.

• In diesem Beispiel wird davon ausgegangen, dass Sie in einem Unterverzeichnis mit der Bezeichnungpls Lexikon-Dateien erstellt haben. Sie müssen den Pfad ggf. aktualisieren.

161

https://docs.aws.amazon.com/polly/latest/dg/API_ListLexicons.html





from argparse import ArgumentParser


# Define and parse the command line argumentscli = ArgumentParser(description="PutLexicon example")cli.add_argument("path", type=str, metavar="FILE_PATH")cli.add_argument("-n", "--name", type=str, required=True, metavar="LEXICON_NAME", dest="name")arguments = cli.parse_args()


# Open the PLS lexicon file for readingtry: with open(arguments.path, "r") as lexicon_file: # Read the pls file contents lexicon_data = lexicon_file.read()

# Store the PLS lexicon on the service. # If a lexicon with that name already exists, # its contents will be updated response = polly.put_lexicon(Name=arguments.name, Content=lexicon_data)except (IOError, BotoCoreError, ClientError) as error: # Could not open/read the file or the service returned an error, # exit gracefully cli.error(error)

print(u"The \"{0}\" lexicon is now available for use.".format(arguments.name))

StartSpeechSynthesisTaskIm folgenden Python-Code-Beispiel wird AWS SDK for Python (Boto) verwendet, um die Lexika in IhremKonto in der Region aufzulisten, die Sie in Ihrer lokalen AWS-Konfiguration angegeben haben. WeitereInformationen zum Erstellen der Konfigurationsdatei finden Sie unter Schritt 3.1: Einrichten der AWSCommand Line Interface (AWS CLI) (p. 14).

Weitere Informationen finden Sie in der Referenz für API StartSpeechSynthesisTask.

import boto3import time

polly_client = boto3.Session( aws_access_key_id=’’, aws_secret_access_key=’’, region_name='eu-west-2').client('polly’)

response = polly_client.start_speech_synthesis_task(VoiceId='Joanna', OutputS3BucketName='synth-books-buckets', OutputS3KeyPrefix='key', OutputFormat='mp3',

162



Amazon Polly EntwicklerhandbuchBeispielanwendungen

Text = 'This is a sample text to be synthesized.')

taskId = response['SynthesisTask']['TaskId']

print "Task id is {} ".format(taskId)

task_status = polly_client.get_speech_synthesis_task(TaskId = taskId)

print task_status

SynthesizeSpeechIm folgenden Python-Code-Beispiel wird AWS SDK for Python (Boto) verwendet, um die Lexika in IhremKonto in der Region aufzulisten, die Sie in Ihrer lokalen AWS-Konfiguration angegeben haben. WeitereInformationen zum Erstellen der Konfigurationsdatei finden Sie unter Schritt 3.1: Einrichten der AWSCommand Line Interface (AWS CLI) (p. 14).

Weitere Informationen zur API finden Sie in der Referenz für die API SynthesizeSpeech.

import boto3

polly_client = boto3.Session( aws_access_key_id=, aws_secret_access_key=, region_name='us-west-2').client('polly')

response = polly_client.synthesize_speech(VoiceId='Joanna', OutputFormat='mp3', Text = 'This is a sample text to be synthesized.')

file = open('speech.mp3', 'wb')file.write(response['AudioStream'].read())file.close()

BeispielanwendungenDieser Abschnitt enthält zusätzliche Beispiele in Form von Beispielanwendungen, die zum Erkunden vonAmazon Polly verwendet werden können.

Beispiel-Anwendungen um Programmiersprache• Python-Beispiel (HTML5-Client und Python-Server) (p. 163)• Java-Beispiel (p. 173)• iOS-Beispiel (p. 177)• Android-Beispiel (p. 179)

Python-Beispiel (HTML5-Client und Python-Server)Diese Beispielanwendung enthält:

• Einen HTTP 1.1-Server, der HTTP Chunked Transfer Coding einsetzt (siehe Chunked Transfer Coding)• Eine einfache HTML5-Benutzeroberfläche, die mit dem HTTP 1.1-Server interagiert (siehe unten)

163


https://tools.ietf.org/html/rfc2616#section-3.6.1

Amazon Polly EntwicklerhandbuchPython-Beispiel

Mit diesem Beispiel möchten wir Ihnen zeigen, wie Sie mithilfe von Amazon Polly eine Sprachausgabeüber eine browserbasierte HTML5-Anwendung streamen können. Bei Anwendungsfällen, in denen eineschnelle Reaktion wichtig ist, empfehlen wir, den von Amazon Polly generierten Audiostream parallel zurGenerierung der Sprachausgabe zu streamen. (Beispiele sind Dialogsysteme und die Sprachausgabe vonBildschirmtext.)

Zur Ausführung dieser Beispielanwendung benötigen Sie Folgendes:

• Einen mit den Standards HTML5 und ECMAScript 5 konformen Webbrowser (zum Beispiel Chrome 23.0oder höher, Firefox 21.0 oder höher oder Internet Explorer 9.0 oder höher)

• Python in einer höheren Version als 3.0

So testen Sie die Anwendung:

1. Speichern Sie den Server-Code als Datei server.py. Sie finden den Code unter Python-Beispiel:Code für den Python-Server ("server.py") (p. 168).

2. Speichern Sie den Code für den HTML5-Client als Datei index.html. Sie finden den Code unterPython-Beispiel: HTML5-Benutzeroberfläche ("index.html") (p. 165).

3. Navigieren Sie zu dem Pfad, unter dem Sie die Datei "server.py" gespeichert haben, und führen Siedort den nachfolgenden Befehl aus, um die Anwendung zu starten. (Auf einigen Systemen müssen Siein diesem Befehl möglicherweise python3 statt python verwenden.)

$ python server.py

Sobald die Anwendung startet, wird eine URL im Terminal angezeigt.4. Öffnen Sie die im Terminal angezeigte URL in einem Webbrowser.

Sie können die Adresse und den Port, die der Anwendungsserver verwenden soll, als Parameteran server.py übergeben. Führen Sie python server.py -h aus, um weitere Informationen zuerhalten.

5. Um eine Sprachausgabe abzuspielen, wählen Sie eine Stimme aus der Liste aus, geben Text ein undklicken auf Read. Die Sprachausgabe beginnt, sobald Amazon Polly den ersten nutzbaren Block vonAudiodaten überträgt.

164


6. Um den Python-Server nach Abschluss des Anwendungstests anzuhalten, drücken Sie Strg+C in demTerminal, in dem der Server ausgeführt wird.

Note

Der Server erstellt mithilfe des AWS SDK for Python (Boto) einen Boto3-Client. DieserClient verwendet die Anmeldeinformationen in der auf Ihrem Computer gespeicherten AWS-Konfigurationsdatei, um die Anforderungen an Amazon Polly zu signieren und zu authentifizieren.Weitere Informationen zur Erstellung der AWS-Konfigurationsdatei sowie zur Speicherung derAnmeldeinformationen finden Sie im Abschnitt Konfigurieren der AWS-Befehlszeilenschnittstelleim Benutzerhandbuch für AWS Command Line Interface.

Python-Beispiel: HTML5-Benutzeroberfläche ("index.html")In diesem Abschnitt finden Sie den Code für den unter Python-Beispiel (HTML5-Client und Python-Server) (p. 163) beschriebenen HTML5-Client.

<html>

<head> <title>Text-to-Speech Example Application</title> <script> /* * This sample code requires a web browser with support for both the * HTML5 and ECMAScript 5 standards; the following is a non-comprehensive * list of compliant browsers and their minimum version: * * - Chrome 23.0+ * - Firefox 21.0+ * - Internet Explorer 9.0+ * - Edge 12.0+ * - Opera 15.0+ * - Safari 6.1+ * - Android (stock web browser) 4.4+ * - Chrome for Android 51.0+ * - Firefox for Android 48.0+ * - Opera Mobile 37.0+ * - iOS (Safari Mobile and Chrome) 3.2+ * - Internet Explorer Mobile 10.0+ * - Blackberry Browser 10.0+ */

// Mapping of the OutputFormat parameter of the SynthesizeSpeech API // and the audio format strings understood by the browser var AUDIO_FORMATS = { 'ogg_vorbis': 'audio/ogg', 'mp3': 'audio/mpeg', 'pcm': 'audio/wave; codecs=1' };

/** * Handles fetching JSON over HTTP */ function fetchJSON(method, url, onSuccess, onError) { var request = new XMLHttpRequest(); request.open(method, url, true); request.onload = function () { // If loading is complete if (request.readyState === 4) { // if the request was successful if (request.status === 200) { var data;

165

https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-getting-started.html


// Parse the JSON in the response try { data = JSON.parse(request.responseText); } catch (error) { onError(request.status, error.toString()); }

onSuccess(data); } else { onError(request.status, request.responseText) } } };

request.send(); }

/** * Returns a list of audio formats supported by the browser */ function getSupportedAudioFormats(player) { return Object.keys(AUDIO_FORMATS) .filter(function (format) { var supported = player.canPlayType(AUDIO_FORMATS[format]); return supported === 'probably' || supported === 'maybe'; }); }

// Initialize the application when the DOM is loaded and ready to be // manipulated document.addEventListener("DOMContentLoaded", function () { var input = document.getElementById('input'), voiceMenu = document.getElementById('voice'), text = document.getElementById('text'), player = document.getElementById('player'), submit = document.getElementById('submit'), supportedFormats = getSupportedAudioFormats(player);

// Display a message and don't allow submitting the form if the // browser doesn't support any of the available audio formats if (supportedFormats.length === 0) { submit.disabled = true; alert('The web browser in use does not support any of the' + ' available audio formats. Please try with a different' + ' one.'); }

// Play the audio stream when the form is submitted successfully input.addEventListener('submit', function (event) { // Validate the fields in the form, display a message if // unexpected values are encountered if (voiceMenu.selectedIndex <= 0 || text.value.length === 0) { alert('Please fill in all the fields.'); } else { var selectedVoice = voiceMenu .options[voiceMenu.selectedIndex] .value;

// Point the player to the streaming server player.src = '/read?voiceId=' + encodeURIComponent(selectedVoice) + '&text=' + encodeURIComponent(text.value) + '&outputFormat=' + supportedFormats[0]; player.play(); }

166


// Stop the form from submitting, // Submitting the form is allowed only if the browser doesn't // support Javascript to ensure functionality in such a case event.preventDefault(); });

// Load the list of available voices and display them in a menu fetchJSON('GET', '/voices', // If the request succeeds function (voices) { var container = document.createDocumentFragment();

// Build the list of options for the menu voices.forEach(function (voice) { var option = document.createElement('option'); option.value = voice['Id']; option.innerHTML = voice['Name'] + ' (' + voice['Gender'] + ', ' + voice['LanguageName'] + ')'; container.appendChild(option); });

// Add the options to the menu and enable the form field voiceMenu.appendChild(container); voiceMenu.disabled = false; }, // If the request fails function (status, response) { // Display a message in case loading data from the server // fails alert(status + ' - ' + response); }); });

</script> <style> #input { min-width: 100px; max-width: 600px; margin: 0 auto; padding: 50px; }

#input div { margin-bottom: 20px; }

#text { width: 100%; height: 200px; display: block; }

#submit { width: 100%; } </style></head>

<body> <form id="input" method="GET" action="/read"> <div> <label for="voice">Select a voice:</label> <select id="voice" name="voiceId" disabled> <option value="">Choose a voice...</option>

167


</select> </div> <div> <label for="text">Text to read:</label> <textarea id="text" maxlength="1000" minlength="1" name="text" placeholder="Type some text here..."></textarea> </div> <input type="submit" value="Read" id="submit" /> </form> <audio id="player"></audio></body>

</html>

Python-Beispiel: Code für den Python-Server ("server.py")In diesem Abschnitt finden Sie den Code für den unter Python-Beispiel (HTML5-Client und Python-Server) (p. 163) beschriebenen Python-Server.

""" Example Python 2.7+/3.3+ Application

This application consists of a HTTP 1.1 server using the HTTP chunked transfercoding (https://tools.ietf.org/html/rfc2616#section-3.6.1) and a minimal HTML5user interface that interacts with it.

The goal of this example is to start streaming the speech to the client (theHTML5 web UI) as soon as the first consumable chunk of speech is returned inorder to start playing the audio as soon as possible.For use cases where low latency and responsiveness are strong requirements,this is the recommended approach.

The service documentation contains examples for non-streaming use cases wherewaiting for the speech synthesis to complete and fetching the whole audio streamat once are an option.

To test the application, run 'python server.py' and then open the URLdisplayed in the terminal in a web browser (see index.html for a list ofsupported browsers). The address and port for the server can be passed asparameters to server.py. For more information, run: 'python server.py -h'"""from argparse import ArgumentParserfrom collections import namedtuplefrom contextlib import closingfrom io import BytesIOfrom json import dumps as json_encodeimport osimport sys

if sys.version_info >= (3, 0): from http.server import BaseHTTPRequestHandler, HTTPServer from socketserver import ThreadingMixIn from urllib.parse import parse_qselse: from BaseHTTPServer import BaseHTTPRequestHandler, HTTPServer from SocketServer import ThreadingMixIn from urlparse import parse_qs


ResponseStatus = namedtuple("HTTPStatus", ["code", "message"])

168


ResponseData = namedtuple("ResponseData", ["status", "content_type", "data_stream"])

# Mapping the output format used in the client to the content type for the# responseAUDIO_FORMATS = {"ogg_vorbis": "audio/ogg", "mp3": "audio/mpeg", "pcm": "audio/wave; codecs=1"}CHUNK_SIZE = 1024HTTP_STATUS = {"OK": ResponseStatus(code=200, message="OK"), "BAD_REQUEST": ResponseStatus(code=400, message="Bad request"), "NOT_FOUND": ResponseStatus(code=404, message="Not found"), "INTERNAL_SERVER_ERROR": ResponseStatus(code=500, message="Internal server error")}PROTOCOL = "http"ROUTE_INDEX = "/index.html"ROUTE_VOICES = "/voices"ROUTE_READ = "/read"


class HTTPStatusError(Exception): """Exception wrapping a value from http.server.HTTPStatus"""

def __init__(self, status, description=None): """ Constructs an error instance from a tuple of (code, message, description), see http.server.HTTPStatus """ super(HTTPStatusError, self).__init__() self.code = status.code self.message = status.message self.explain = description

class ThreadedHTTPServer(ThreadingMixIn, HTTPServer): """An HTTP Server that handle each request in a new thread""" daemon_threads = True

class ChunkedHTTPRequestHandler(BaseHTTPRequestHandler): """"HTTP 1.1 Chunked encoding request handler""" # Use HTTP 1.1 as 1.0 doesn't support chunked encoding protocol_version = "HTTP/1.1"

def query_get(self, queryData, key, default=""): """Helper for getting values from a pre-parsed query string""" return queryData.get(key, [default])[0]

def do_GET(self): """Handles GET requests"""

# Extract values from the query string path, _, query_string = self.path.partition('?') query = parse_qs(query_string)

response = None

print(u"[START]: Received GET for %s with query: %s" % (path, query))

try:

169


# Handle the possible request paths if path == ROUTE_INDEX: response = self.route_index(path, query) elif path == ROUTE_VOICES: response = self.route_voices(path, query) elif path == ROUTE_READ: response = self.route_read(path, query) else: response = self.route_not_found(path, query)

self.send_headers(response.status, response.content_type) self.stream_data(response.data_stream)

except HTTPStatusError as err: # Respond with an error and log debug # information if sys.version_info >= (3, 0): self.send_error(err.code, err.message, err.explain) else: self.send_error(err.code, err.message)

self.log_error(u"%s %s %s - [%d] %s", self.client_address[0], self.command, self.path, err.code, err.explain)

print("[END]")

def route_not_found(self, path, query): """Handles routing for unexpected paths""" raise HTTPStatusError(HTTP_STATUS["NOT_FOUND"], "Page not found")

def route_index(self, path, query): """Handles routing for the application's entry point'""" try: return ResponseData(status=HTTP_STATUS["OK"], content_type="text_html", # Open a binary stream for reading the index # HTML file data_stream=open(os.path.join(sys.path[0], path[1:]), "rb")) except IOError as err: # Couldn't open the stream raise HTTPStatusError(HTTP_STATUS["INTERNAL_SERVER_ERROR"], str(err))

def route_voices(self, path, query): """Handles routing for listing available voices""" params = {} voices = []

while True: try: # Request list of available voices, if a continuation token # was returned by the previous call then use it to continue # listing response = polly.describe_voices(**params) except (BotoCoreError, ClientError) as err: # The service returned an error raise HTTPStatusError(HTTP_STATUS["INTERNAL_SERVER_ERROR"], str(err))

# Collect all the voices voices.extend(response.get("Voices", []))

# If a continuation token was returned continue, stop iterating # otherwise if "NextToken" in response: params = {"NextToken": response["NextToken"]}

170


else: break

json_data = json_encode(voices) bytes_data = bytes(json_data, "utf-8") if sys.version_info >= (3, 0) \ else bytes(json_data)

return ResponseData(status=HTTP_STATUS["OK"], content_type="application/json", # Create a binary stream for the JSON data data_stream=BytesIO(bytes_data))

def route_read(self, path, query): """Handles routing for reading text (speech synthesis)""" # Get the parameters from the query string text = self.query_get(query, "text") voiceId = self.query_get(query, "voiceId") outputFormat = self.query_get(query, "outputFormat")

# Validate the parameters, set error flag in case of unexpected # values if len(text) == 0 or len(voiceId) == 0 or \ outputFormat not in AUDIO_FORMATS: raise HTTPStatusError(HTTP_STATUS["BAD_REQUEST"], "Wrong parameters") else: try: # Request speech synthesis response = polly.synthesize_speech(Text=text, VoiceId=voiceId, OutputFormat=outputFormat) except (BotoCoreError, ClientError) as err: # The service returned an error raise HTTPStatusError(HTTP_STATUS["INTERNAL_SERVER_ERROR"], str(err))

return ResponseData(status=HTTP_STATUS["OK"], content_type=AUDIO_FORMATS[outputFormat], # Access the audio stream in the response data_stream=response.get("AudioStream"))

def send_headers(self, status, content_type): """Send out the group of headers for a successful request""" # Send HTTP headers self.send_response(status.code, status.message) self.send_header('Content-type', content_type) self.send_header('Transfer-Encoding', 'chunked') self.send_header('Connection', 'close') self.end_headers()

def stream_data(self, stream): """Consumes a stream in chunks to produce the response's output'""" print("Streaming started...")

if stream: # Note: Closing the stream is important as the service throttles on # the number of parallel connections. Here we are using # contextlib.closing to ensure the close method of the stream object # will be called automatically at the end of the with statement's # scope. with closing(stream) as managed_stream: # Push out the stream's content in chunks while True: data = managed_stream.read(CHUNK_SIZE) self.wfile.write(b"%X\r\n%s\r\n" % (len(data), data))

171


# If there's no more data to read, stop streaming if not data: break

# Ensure any buffered output has been transmitted and close the # stream self.wfile.flush()

print("Streaming completed.") else: # The stream passed in is empty self.wfile.write(b"0\r\n\r\n") print("Nothing to stream.")

# Define and parse the command line argumentscli = ArgumentParser(description='Example Python Application')cli.add_argument( "-p", "--port", type=int, metavar="PORT", dest="port", default=8000)cli.add_argument( "--host", type=str, metavar="HOST", dest="host", default="localhost")arguments = cli.parse_args()

# If the module is invoked directly, initialize the applicationif __name__ == '__main__': # Create and configure the HTTP server instance server = ThreadedHTTPServer((arguments.host, arguments.port), ChunkedHTTPRequestHandler) print("Starting server, use <Ctrl-C> to stop...") print(u"Open {0}://{1}:{2}{3} in a web browser.".format(PROTOCOL, arguments.host, arguments.port, ROUTE_INDEX))

try: # Listen for requests indefinitely server.serve_forever() except KeyboardInterrupt: # A request to terminate has been received, stop the server print("\nShutting down...") server.socket.close()

172

Amazon Polly EntwicklerhandbuchJava-Beispiel

Java-BeispielIn diesem Beispiel zeigen wir Ihnen, wie Sie mithilfe von Amazon Polly eine Sprachausgabe über eineJava-basierte Anwendung streamen können. In diesem Beispiel wird das AWS SDK for Java verwendet,um den angegebenen Text mit einer aus einer Liste ausgewählten Stimme lesen zu lassen.

Der abgebildete Code deckt die wichtigsten Tasks ab, führt aber nur eine minimale Fehlerprüfung durch.Wenn Amazon Polly einen Fehler registriert, wird die Anwendung beendet.

Zur Ausführung dieser Beispielanwendung benötigen Sie Folgendes:

• Java 8 Java Development Kit (JDK)• AWS SDK für Java• Apache Maven

So testen Sie die Anwendung:

1. Stellen Sie sicher, dass für das JDK die Umgebungsvariable "JAVA_HOME" gesetzt ist.

Haben Sie beispielsweise JDK 1.8.0_121 unter Windows unter dem Pfad C:\Program Files\Java\jdk1.8.0_121 installiert, geben Sie Folgendes in die Eingabeaufforderung ein:

set JAVA_HOME=""C:\Program Files\Java\jdk1.8.0_121""

Wenn Sie JDK 1.8.0_121 unter Linux unter dem Pfad /usr/lib/jvm/java8-openjdk-amd64installiert haben, geben Sie Folgendes in die Eingabeaufforderung ein:

export JAVA_HOME=/usr/lib/jvm/java8-openjdk-amd64

2. Legen Sie die Maven-Umgebungsvariablen so fest, dass Maven über die Befehlszeile ausgeführt wird.

Haben Sie beispielsweise Maven 3.3.9 unter Windows unter dem Pfad C:\Program Files\apache-maven-3.3.9 installiert, geben Sie Folgendes ein:

set M2_HOME=""C:\Program Files\apache-maven-3.3.9""set M2=%M2_HOME%\binset PATH=%M2%;%PATH%

Haben Sie Maven 3.3.9 unter Linux unter dem Pfad /home/ec2-user/opt/apache-maven-3.3.9installiert, geben Sie Folgendes ein:

export M2_HOME=/home/ec2-user/opt/apache-maven-3.3.9export M2=$M2_HOME/binexport PATH=$M2:$PATH

3. Erstellen Sie ein neues Verzeichnis mit dem Namen polly-java-demo.4. Erstellen Sie im Verzeichnis polly-java-demo eine neue Datei mit dem Namen pom.xml und fügen

Sie den folgenden Code in diese Datei ein:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.amazonaws.polly</groupId> <artifactId>java-demo</artifactId>

173



http://maven.apache.org/


<version>0.0.1-SNAPSHOT</version>

<dependencies>  <dependency> <groupId>com.amazonaws</groupId> <artifactId>aws-java-sdk-polly</artifactId> <version>1.11.77</version> </dependency>  <dependency> <groupId>com.googlecode.soundlibs</groupId> <artifactId>jlayer</artifactId> <version>1.0.1-1</version> </dependency>

</dependencies> <build> <plugins> <plugin> <groupId>org.codehaus.mojo</groupId> <artifactId>exec-maven-plugin</artifactId> <version>1.2.1</version> <executions> <execution> <goals> <goal>java</goal> </goals> </execution> </executions> <configuration> <mainClass>com.amazonaws.demos.polly.PollyDemo</mainClass> </configuration> </plugin> </plugins> </build></project>

5. Erstellen Sie ein neues Verzeichnis mit dem Namen polly unter src/main/java/com/amazonaws/demos.

6. Erstellen Sie im Verzeichnis polly eine neue Java-Quelldatei mit dem Namen PollyDemo.java undfügen Sie den folgenden Code in diese Datei ein:

package com.amazonaws.demos.polly;

import java.io.IOException;import java.io.InputStream;

import com.amazonaws.ClientConfiguration;import com.amazonaws.auth.DefaultAWSCredentialsProviderChain;import com.amazonaws.regions.Region;import com.amazonaws.regions.Regions;import com.amazonaws.services.polly.AmazonPollyClient;import com.amazonaws.services.polly.model.DescribeVoicesRequest;import com.amazonaws.services.polly.model.DescribeVoicesResult;import com.amazonaws.services.polly.model.OutputFormat;import com.amazonaws.services.polly.model.SynthesizeSpeechRequest;import com.amazonaws.services.polly.model.SynthesizeSpeechResult;import com.amazonaws.services.polly.model.Voice;

import javazoom.jl.player.advanced.AdvancedPlayer;import javazoom.jl.player.advanced.PlaybackEvent;import javazoom.jl.player.advanced.PlaybackListener;

174


public class PollyDemo {

private final AmazonPollyClient polly; private final Voice voice; private static final String SAMPLE = "Congratulations. You have successfully built this working demo of Amazon Polly in Java. Have fun building voice enabled apps with Amazon Polly (that's me!), and always look at the AWS website for tips and tricks on using Amazon Polly and other great services from AWS";

public PollyDemo(Region region) { // create an Amazon Polly client in a specific region polly = new AmazonPollyClient(new DefaultAWSCredentialsProviderChain(), new ClientConfiguration()); polly.setRegion(region); // Create describe voices request. DescribeVoicesRequest describeVoicesRequest = new DescribeVoicesRequest();

// Synchronously ask Amazon Polly to describe available TTS voices. DescribeVoicesResult describeVoicesResult = polly.describeVoices(describeVoicesRequest); voice = describeVoicesResult.getVoices().get(0); }

public InputStream synthesize(String text, OutputFormat format) throws IOException { SynthesizeSpeechRequest synthReq = new SynthesizeSpeechRequest().withText(text).withVoiceId(voice.getId()) .withOutputFormat(format); SynthesizeSpeechResult synthRes = polly.synthesizeSpeech(synthReq);

return synthRes.getAudioStream(); }

public static void main(String args[]) throws Exception { //create the test class PollyDemo helloWorld = new PollyDemo(Region.getRegion(Regions.US_EAST_1)); //get the audio stream InputStream speechStream = helloWorld.synthesize(SAMPLE, OutputFormat.Mp3);

//create an MP3 player AdvancedPlayer player = new AdvancedPlayer(speechStream, javazoom.jl.player.FactoryRegistry.systemRegistry().createAudioDevice());

player.setPlayBackListener(new PlaybackListener() { @Override public void playbackStarted(PlaybackEvent evt) { System.out.println("Playback started"); System.out.println(SAMPLE); } @Override public void playbackFinished(PlaybackEvent evt) { System.out.println("Playback finished"); } }); // play it! player.play(); }}

175


7. Wechseln Sie zurück in das Verzeichnis polly-java-demo, um die Demo zu bereinigen, zukompilieren und auszuführen:

mvn clean compile exec:java

176

Amazon Polly EntwicklerhandbuchiOS-Beispiel

iOS-BeispielIn dem folgenden Beispiel verwenden wir das iOS SDK for Amazon Polly, um den angegebenen Text miteiner aus einer Stimmliste ausgewählten Stimme lesen zu lassen.

Der abgebildete Code deckt die wichtigsten Tasks ab, korrigiert jedoch keine Fehler. Den vollständigenCode finden Sie in der AWS SDK for iOS Amazon Polly-Demo.

Initialisieren

// Region of Amazon Polly.let AwsRegion = AWSRegionType.usEast1 // Cognito pool ID. Pool needs to be unauthenticated pool with// Amazon Polly permissions.let CognitoIdentityPoolId = "YourCognitoIdentityPoolId" // Initialize the Amazon Cognito credentials provider.let credentialProvider = AWSCognitoCredentialsProvider(regionType: AwsRegion, identityPoolId: CognitoIdentityPoolId)

// Create an audio playervar audioPlayer = AVPlayer()

Abrufen einer Liste der verfügbaren Stimmen

// Use the configuration as defaultAWSServiceManager.default().defaultServiceConfiguration = configuration

// Get all the voices (no parameters specified in input) from Amazon Polly// This creates an async task.let task = AWSPolly.default().describeVoices(AWSPollyDescribeVoicesInput()) // When the request is done, asynchronously do the following block// (we ignore all the errors, but in a real-world scenario they need// to be handled)task.continue(successBlock: { (awsTask: AWSTask) -> Any? in // awsTask.result is an instance of AWSPollyDescribeVoicesOutput in // case of the "describeVoices" method let voices = (awsTask.result! as AWSPollyDescribeVoicesOutput).voices return nil})

Generieren der Sprachausgabe

// First, Amazon Polly requires an input, which we need to prepare.// Again, we ignore the errors, however this should be handled in// real applications. Here we are using the URL Builder Request,// since in order to make the synthesis quicker we will pass the// presigned URL to the system audio player.let input = AWSPollySynthesizeSpeechURLBuilderRequest()

// Text to synthesizeinput.text = "Sample text"

// We expect the output in MP3 formatinput.outputFormat = AWSPollyOutputFormat.mp3

// Choose the voice IDinput.voiceId = AWSPollyVoiceId.joanna

177

https://github.com/awslabs/aws-sdk-ios-samples/tree/master/Polly-Sample/Swift

Amazon Polly EntwicklerhandbuchiOS-Beispiel

// Create an task to synthesize speech using the given synthesis inputlet builder = AWSPollySynthesizeSpeechURLBuilder.default().getPreSignedURL(input)

// Request the URL for synthesis resultbuilder.continueOnSuccessWith(block: { (awsTask: AWSTask<NSURL>) -> Any? in // The result of getPresignedURL task is NSURL. // Again, we ignore the errors in the example. let url = awsTask.result!

// Try playing the data using the system AVAudioPlayer self.audioPlayer.replaceCurrentItem(with: AVPlayerItem(url: url as URL)) self.audioPlayer.play()

return nil})

178

Amazon Polly EntwicklerhandbuchAndroid-Beispiel

Android-BeispielIn dem folgenden Beispiel verwenden wir das Android SDK for Amazon Polly, um den angegebenen Textmit einer aus einer Stimmliste ausgewählten Stimme lesen zu lassen.

Der abgebildete Code deckt die wichtigsten Tasks ab, korrigiert jedoch keine Fehler. Den vollständigenCode finden Sie in der AWS SDK for Android Amazon Polly-Demo.

Initialisieren

// Cognito pool ID. Pool needs to be unauthenticated pool with// Amazon Polly permissions.String COGNITO_POOL_ID = "YourCognitoIdentityPoolId";

// Region of Amazon Polly.Regions MY_REGION = Regions.US_EAST_1; // Initialize the Amazon Cognito credentials provider.CognitoCachingCredentialsProvider credentialsProvider = new CognitoCachingCredentialsProvider( getApplicationContext(), COGNITO_POOL_ID, MY_REGION);

// Create a client that supports generation of presigned URLs.AmazonPollyPresigningClient client = new AmazonPollyPresigningClient(credentialsProvider);

Abrufen einer Liste der verfügbaren Stimmen

// Create describe voices request.DescribeVoicesRequest describeVoicesRequest = new DescribeVoicesRequest();

// Synchronously ask Amazon Polly to describe available TTS voices.DescribeVoicesResult describeVoicesResult = client.describeVoices(describeVoicesRequest);List<Voice> voices = describeVoicesResult.getVoices();

Abrufen der URL des Audiostreams

// Create speech synthesis request.SynthesizeSpeechPresignRequest synthesizeSpeechPresignRequest = new SynthesizeSpeechPresignRequest() // Set the text to synthesize. .withText("Hello world!") // Select voice for synthesis. .withVoiceId(voices.get(0).getId()) // "Joanna" // Set format to MP3. .withOutputFormat(OutputFormat.Mp3);

// Get the presigned URL for synthesized speech audio stream.URL presignedSynthesizeSpeechUrl = client.getPresignedSynthesizeSpeechUrl(synthesizeSpeechPresignRequest);

Abspielen der Sprachausgabe

// Use MediaPlayer: https://developer.android.com/guide/topics/media/mediaplayer.html

// Create a media player to play the synthesized audio stream.MediaPlayer mediaPlayer = new MediaPlayer();mediaPlayer.setAudioStreamType(AudioManager.STREAM_MUSIC);

179

https://github.com/awslabs/aws-sdk-android-samples/tree/master/PollyDemo

Amazon Polly EntwicklerhandbuchAndroid-Beispiel

try { // Set media player's data source to previously obtained URL. mediaPlayer.setDataSource(presignedSynthesizeSpeechUrl.toString());} catch (IOException e) { Log.e(TAG, "Unable to set data source for the media player! " + e.getMessage());}

// Prepare the MediaPlayer asynchronously (since the data source is a network stream).mediaPlayer.prepareAsync();

// Set the callback to start the MediaPlayer when it's prepared.mediaPlayer.setOnPreparedListener(new MediaPlayer.OnPreparedListener() { @Override public void onPrepared(MediaPlayer mp) { mp.start(); }});

// Set the callback to release the MediaPlayer after playback is completed.mediaPlayer.setOnCompletionListener(new MediaPlayer.OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.release(); }});

180

Amazon Polly EntwicklerhandbuchEinrichten des Plugins

WordPress-Plugin für Amazon PollyMit dem Amazon Polly-Plugin für WordPress können Sie den Besuchern Ihrer WordPress-WebsiteAudioaufnahmen Ihrer Inhalte zur Verfügung stellen. Verwenden Sie das Plugin zum Erstellen vonAudiodateien in einer der von Amazon Polly unterstützten Stimmen und Sprachen. Ihre Besucher könnendie Audiodaten mithilfe von eingebetteten Audio-Playern und mobilen Anwendungen nach Beliebenstreamen.

Sie können das Plugin konfigurieren, um folgende Aktionen durchzuführen:

• Automatische Erstellung von Audioaufzeichnungen für neue Inhalte bei der Veröffentlichung oderErstellung von Aufzeichnungen für einzelne Beiträge.

• Erstellen Sie Audioaufzeichnungen Ihrer archivierten Inhalte.• Verwenden Sie den Amazon Pollycast RSS-Feed, um Audio-Inhalt als Podcast bereitzustellen.

. .

Note

Bei der folgenden Prozedur können sich Befehls- und Feldnamen geringfügig von denverwendeten Namen unterscheiden.

Themen• Installieren des Plugins (p. 181)

Installieren des PluginsFür die Installation und Konfiguration des Plugins verwenden Sie die Seite Add Plugins (Pluginshinzufügen) von WordPress. Nach der Installation und Aktivierung des Plugins navigieren Sie zur AmazonPolly-Seite Settings (Einstellungen) und verbinden das Plugin mit Ihrem AWS-Konto.

Um das Amazon Polly-Plugin für WordPress zu installieren, benötigen Sie ein AWS-Konto und einefunktionierende WordPress-Installation. Falls Sie kein Konto haben, finden Sie weitere Informationen unterSchritt 1.1: Registrieren bei AWS (p. 11).

Wenn Sie ein AWS-Konto haben, führen Sie die folgenden Schritte aus, um das Plugin zu installieren:

1. Erstellen einer Berechtigungsrichtlinie (p. 181)2. Erstellen eines IAM-Benutzers für das Plugin (p. 182)3. Plugin installieren und konfigurieren (p. 183)

Erstellen einer BerechtigungsrichtlinieErstellen Sie in der AWS Management Console eine AWS Identity and Access Management (IAM)-Berechtigungsrichtlinie mit dem Namen PollyForWordPressPolicy. Bei einer Berechtigungsrichtlinie

181

https://console.aws.amazon.com/

Amazon Polly EntwicklerhandbuchErstellen eines IAM-Benutzers für das Plugin

handelt es sich um ein Dokument, das Berechtigungen definiert, die auf einen Benutzer (oder eine Gruppeoder Rolle) zutreffen. Die Berechtigungen bestimmen, welche Möglichkeiten dem Benutzer in AWS zurVerfügung stehen.Kopieren Sie den folgenden Code und fügen Sie ihn ein:

{

"Version": "2012-10-17", "Statement": [ { "Sid": "Permissions1", "Effect": "Allow", "Action": [ "s3:HeadBucket", "polly:SynthesizeSpeech", "polly:DescribeVoices" ], "Resource": "*" }, { "Sid": "Permissions2", "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:GetBucketAcl", "s3:GetBucketPolicy", "s3:PutObject", "s3:DeleteObject", "s3:CreateBucket", "s3:PutObjectAcl" ], "Resource": [ "arn:aws:s3:::audio_for_wordpress*", "arn:aws:s3:::audio-for-wordpress*" ] } ]}

Weitere Informationen zum Erstellen einer Berechtigungsrichtlinie finden Sie unter Erstellen vonkundenverwalteten Richtlinien.

Erstellen eines IAM-Benutzers für das PluginBevor Sie das Plugin mit Ihrem AWS-Konto verbinden, müssen Sie einen IAM-Benutzer erstellenund diesem Benutzer anschließend die Berechtigungsrichtlinie zuweisen, die Sie in Erstellen einerBerechtigungsrichtlinie (p. 181) für diesen Benutzer erstellt haben. Ein IAM-Benutzer ist eine Person odereine Anwendung unter einem AWS-Konto, die API-Aufrufe für AWS-Produkte ausführen muss.

Wenn Sie WordPress auf Amazon Elastic Compute Cloud (Amazon EC2) bereitstellen, können Sie diesenSchritt überspringen und die IAM-Rolle anstelle eines einzelnen IAM-Benutzers verwenden. WeitereInformationen erhalten Sie unter IAM-Rollen für Amazon EC2 im Amazon EC2-Benutzerhandbuch.

So erstellen Sie einen IAM-Benutzer

1. Melden Sie sich bei der AWS Management Console an und öffnen Sie die IAM-Konsole unter https://console.aws.amazon.com/iam/.

2. Wählen Sie Benutzer.3. Wählen Sie Benutzer hinzufügen.4. Geben Sie für User name (Benutzername) WordPress ein.

182

https://docs.aws.amazon.com/IAM/latest/UserGuide/tutorial_managed-policies.html

https://docs.aws.amazon.com/IAM/latest/UserGuide/tutorial_managed-policies.html

http://docs.aws.amazon.com/AWSEC2/latest/UserGuide/iam-roles-for-amazon-ec2.html

https://console.aws.amazon.com/iam/

https://console.aws.amazon.com/iam/

Amazon Polly EntwicklerhandbuchPlugin installieren und konfigurieren

5. Wählen Sie für Access Type (Zugriffstyp) die Option Programmatic access (ProgrammgesteuerterZugriff) und wählen Sie dann Next: Permissions (Weiter: Berechtigungen).

6. Wählen Sie Attach existing policies direction (Vorhandene Richtlinien direkt anfügen), wählen Sie Ihreneu erstellte Richtlinie (PollyForWordPressPolicy) aus der Liste aus und wählen Sie anschließendNext: Review (Weiter: Prüfen).

7. Wählen Sie Create User.8. Zeichnen Sie die Zugriffsschlüssel-ID und den geheimen Zugriffsschlüssel auf. Sie benötigen sie für

die Konfiguration des Plugins.Important

Dies ist der einzige Zeitpunkt, zu dem Sie auf diese Schlüssel zugreifen können, notieren Siesie also unbedingt.

Plugin installieren und konfigurierenInstallieren Sie das Plugin von GitHub und konfigurieren Sie dieses so, dass Podcasts, alternativeSpeicherorte und andere Optionen aktiviert sind.

Note

Bei der folgenden Prozedur können sich Befehls- und Feldnamen geringfügig von den inWordPress verwendeten Namen unterscheiden.

So installieren und konfigurieren Sie das Plugin

1. Laden Sie das Amazon Polly-Plugin für WordPress von der GitHub-Website für das Amazon PollyPlugin herunter.

2. Wählen Sie auf der Seite WordPress Admin die Option Neues Plugin hinzufügen und installieren undaktivieren Sie das Plugin.

3. Wählen Sie auf der Seite WordPress Admin (WordPress-Admin) die Option Settings (Einstellungen).4. Konfigurieren Sie das Plugin mithilfe einer der folgenden Optionen unter Amazon Polly Settings

(Amazon Polly-Einstellungen):

• AWS access key and AWS secret key (AWS-Zugriffsschlüssel und geheimer AWS-Schlüssel) –AWS-Anmeldeinformationen, mit denen das Plugin Amazon Polly und Amazon Simple StorageService (Amazon S3) verwenden kann. Geben Sie den AWS-Zugriffsschlüssel und den geheimenSchlüssel ein, die Sie in Erstellen eines IAM-Benutzers für das Plugin (p. 182) erstellt haben.Wenn Sie Ihre WordPress-Website auf Amazon EC2 hosten, können Sie statt AnmeldeinformationenIAM-Rollen verwenden. In diesem Fall lassen Sie diese beiden Felder leer.

• Sample rate (Samplerate)—die Samplerate für die erzeugten Audiodateien in Hz. HöhereSampleraten erzeugen eine höhere Audioqualität.

• Voice name (Stimmname) – die Amazon Polly-Stimme, die in der Audiodatei verwendet wird.• Player position (Player-Position) – Wo der Audio-Player auf der Website positioniert werden soll. Sie

können ihn vor oder nach dem Post platzieren, müssen ihn aber nicht unbedingt verwenden. WennSie Ihre Dateien unter Verwendung von Amazon Pollycast als Podcasts bereitstellen wollen, zeigenSie den Audio-Player nicht an.

• New post default (Neue Posts automatisch) –Gibt an Amazon Polly automatisch für alle neuen Postseine Audiodatei erstellen soll. Wählen Sie diese Option, wenn Sie möchten, dass Amazon Polly dieKonfigurationseinstellungen für jeden neuen Post verwendet, um eine Audiodatei zu erstellen.

• Autoplay – Gibt an, ob der Audio-Player automatisch mit der Audio-Wiedergabe beginnt, wenn einBenutzer ihn aufruft.

• Store audio in Amazon S3 (Audio in Amazon S3 speichern) – Wenn Sie Audiodateien in einem S3-Bucket statt auf ihrem Webserver speichern wollen, wählen Sie diese Option. Amazon Polly erstelltden Bucket für Sie. Weitere Informationen sowie Preise finden Sie unter Amazon S3.

183

https://github.com/awslabs/amazon-polly-wordpress-plugin

https://github.com/awslabs/amazon-polly-wordpress-plugin

https://aws.amazon.com/s3

Amazon Polly EntwicklerhandbuchAnpassen von WordPress

• Amazon CloudFront (CDN) domain name (CDN-Domänenname)—: Wenn Sie Ihre Audiodateienmit Amazon CloudFront übertragen möchten, geben Sie den Namen Ihrer CloudFront-Domäne an.Das Plugin verwendet die Domäne zum Streamen von Audio. Wenn Sie noch über keine Domäneverfügen, erstellen Sie eine in Amazon CloudFront.

• ITunes category (iTunes-Kategorie)—: Die Kategorie für Ihren Podcast. Durch die Auswahl einerKategorie ist es für die Podcast-Benutzer einfacher, den Podcast im Podcast-Katalog zu finden.

• ITunes explicit (iTunes explizit)—: Gibt an, ob Amazon Pollycast-Podcasting aktiviert werden soll.• Bulk update all posts (Alle Beiträge gemeinsam aktualisieren): Wählen Sie diese Option, wenn Sie

alle Beiträge so abändern möchten, dass sie diese neuen Plugin-Einstellungen verwenden.5. Wählen Sie Save Changes (Änderungen speichern).

Anpassen der WordPress-SeiteSie können mehrere Optionen zum Anpassen von WordPress-Inhalten nutzen, damit sie besser mit demAmazon Polly-WordPress-Plug-in funktionieren:

• Anpassen der Plug-in-Einstellungen für optimierte Audiodateien (p. 184)• Verwenden von SSML in Inhalten, um das Sprechen zu beeinflussen (p. 184)• Verwenden der Tags "Audio Only" und "Word Only" in Inhalten (p. 185)

Anpassen der Plug-in-Einstellungen für optimierte AudiodateienDie Amazon Polly-WordPress-Plug-in-Einstellungen enthalten drei Optionen, mit denen Sie den Klang desWordPress-Texts für die Audiodatei anpassen können:

• Voice name (Stimmenname): Der Stimmenname und die gewählte Sprache ermöglichen die Auswahldes Geschlechts der Amazon Polly-Stimme. Für jede Sprache sind verschiedene Stimmen verfügbarund innerhalb der Geschlechter stehen für viele Sprachen weitere Optionen zur Verfügung. WeitereInformationen finden Sie unter Stimmen in Amazon Polly (p. 19).

• Automated breaths (Automatische Atemgeräusche): Wenn diese Option aktiviert ist, fügt AmazonPolly automatisch Atemgeräusche an geeigneten Stellen in die Audiodatei ein. Wenn Sie dieseOption aktivieren, können nur noch automatische Atemgeräusche verwendet werden. Sie könnenAtemgeräusche nicht mehr manuell festlegen. Weitere Informationen finden Sie im Abschnitt zuautomatischen Atemgeräuschen.

• Audio speed (Audiogeschwindigkeit): Gibt die Wiedergabegeschwindigkeit für die Audioversion derInhalte an. Zulässig sind Werte von 20 % bis 200 % bezogen auf die Standardgeschwindigkeit derStimme.

1. Wählen Sie auf der Seite WordPress Admin (WordPress-Admin) die Option Settings (Einstellungen).2. Wählen Sie im Menü Settings (Einstellungen) die Option Amazon Polly.3. Ändern Sie die verschiedenen Optionen nach Bedarf.

Verwenden von SSML in Inhalten, um das Sprechen zubeeinflussenAmazon Polly unterstützt mehrere SSML-Tags, mit denen Sie viele Aspekte der Sprachausgabe durchAmazon Polly steuern können. Weitere Informationen zu SSML und Amazon Polly finden Sie unter VonAmazon Polly unterstützte SSML-Tags (p. 37). Einige dieser Tags werden beim Konfigurieren des Plug-insin die Plug-in-Einstellungen ausgegeben. Derzeit kann jedoch nur das Tag <break> direkt im WordPress-Plug-in verwendet werden. Künftige Plug-in-Updates werden weitere Tags verfügbar machen.

184

https://docs.aws.amazon.com/polly/latest/dg/supported-ssml.html#breath-tag

Amazon Polly EntwicklerhandbuchAnpassen von WordPress

Mit dem Tag <break> können Sie eine Pause in gesprochene Textausgaben einfügen. Sie können dieLänge dieser Pause an die individuellen Anforderungen anpassen. Die Standardlänge der Pause entsprichtder Pause nach einem Komma. Weitere Informationen zum Tag <break> finden Sie unter UnterstützteSSML-Tags (p. 37).

Damit WordPress-Text mit SSML-Tags optimiert werden kann, muss die Option "Enable SSMLsupport" (SSML-Unterstützung aktivieren) in den Amazon Polly-Einstellungen auf der Seite WordPressAdmin (WordPress-Admin) ausgewählt werden. Die Option Store audio in Amazon S3 (Audiodaten inAmazon S3 speichern) muss ebenfalls ausgewählt sein, weil Audiodateien mit SSML-Tags in einem S3-Bucket gespeichert werden müssen.

Verwenden der Tags "Audio Only" und "Word Only" in InhaltenGelegentlich fügen Sie Daten in einen Audiopodcast ein, der im Browser nicht wiedergegeben werden soll.Oder Sie möchten, dass etwas im Browser angezeigt, jedoch nicht in die Audiodatei eingefügt wird. Dies istmit den Tags Audio Only und Word Only möglich, die Sie in WordPress-Inhalte einfügen können, umanzuzeigende oder zu sprechende Textteile zu kennzeichnen.

So konvertieren Sie Text in Audiodaten, ohne ihn im Browser darzustellen

1. Isolieren Sie den gewählten Text auf der WordPress-Seite, indem darüber und darunter eine Leerzeileeinfügen.

2. Fügen Sie in die Zeile über dem gewählten Text folgendes Tag ein:

-AMAZONPOLLY-ONLYAUDIO-START-

3. Fügen Sie in die Zeile unter dem Text folgendes Tag ein:

-AMAZONPOLLY-ONLYAUDIO-END-

Sie können auf gleiche Weise vorgehen, um Text im Browser anzeigen zu lassen, ihn jedoch nicht indie Audiodatei aufzunehmen. Verwenden Sie zu in diesem Fall die Tags -AMAZONPOLLY-ONLYWORDS-START- und -AMAZONPOLLY-ONLYWORDS-END- in der beschriebenen Weise.

Beispiel:

Initial text of your blog displayed in the browser and heard in the audio file.] -AMAZONPOLLY-ONLYAUDIO-START- [This part will not be displayed in the browser but will be heard in the audio file.] -AMAZONPOLLY-ONLYAUDIO-END- [Subsequent text of your blog displayed in the browser and heard in the audio file.]

und

[Initial text of your blog displayed in the browser and heard in the audio file.] -AMAZONPOLLY-ONLYWORD-START- This part will be displayed in the browser but will not be heard in the audio file.] -AMAZONPOLLY-ONLYWORD-END- Subsequent text of your blog displayed in the browser and heard in the audio file.

Einfügen von übersetzten Text in einen BeitragDas Amazon Polly-WordPress-Plugin verwendet Amazon Translate, um übersetzte Versionen einesBeitrags in einer oder mehreren Sprachen zu erstellen. Für diesen Service sind neben Englisch vierweitere Sprachen verfügbar: Spanisch, Französisch, Deutsch und Portugiesisch. Die zu verwendendenSprachen und die Stimmen für diese Sprachen werden auf der Seite "Amazon Polly Settings" (AmazonPolly-Einstellungen) der Amazon Translate-Konfiguration konfiguriert.

185

Amazon Polly EntwicklerhandbuchSpeichern der Audiodateien

So übersetzen Sie WordPress-Beiträge in andere Sprachen

1. Erstellen Sie auf der Seite Add New Post (Neuen Beitrag hinzufügen) einen neuen WordPress-Beitragund veröffentlichen Sie ihn.

2. Achten Sie darauf, dass auf dieser Seite die Option Enable Amazon Polly (&POL; aktivieren)ausgewählt ist.

3. Um die ungefähren Kosten für das Erstellen von Audiodateien in der ursprünglichen Sprache undallen zusätzlich ausgewählten Sprachen zu ermitteln, wählen Sie How much will this cost to convert?(Wie viel kostet diese Konvertierung?) Wählen Sie OK, um zur Seite Add New Post (Neuen Beitraghinzufügen) zurückzukehren.

4. Wählen Sie Translate (Übersetzen).

So legen Sie die Sprachen fest, in die der Beitrag übersetzt werden soll

1. Wählen Sie auf der Seite Amazon Polly Settings (Amazon Polly-Einstellungen) unter AmazonTranslate configuration (Amazon Translate-Konfiguration) die Sprache des Beitrags in der Dropdown-Liste Source language (Ausgangssprache).

2. Wählen Sie unter Target languages (Zielsprachen) die Sprachen, in die der Beitrag übersetzt werdensoll.

3. Wählen Sie in der Dropdown-Liste Voice (Stimme) die Stimme für jede Sprache aus.4. Geben Sie eine Bezeichnung für die Sprachauswahl ein.5. Wählen Sie Save Changes.

Audiodateien speichernWenn Sie Inhalt auf Ihrer Website veröffentlichen, wird er zur Synthese an Amazon Polly gesendet.Standardmäßig speichert Amazon Polly neue Audiodateien auf Ihrem Webserver. Außerdem können Siedie Dateien in Amazon Simple Storage Service (Amazon S3) oder in Amazon CloudFront speichern. Dabeihandelt es sich um ein globales Netzwerk zur Bereitstellung von Inhalten (Content Delivery Network, CDN).

Unabhängig davon, wie Sie Ihre Audiodateien speichern, erhalten Benutzer dasselbe Hörerlebnis. Nur derÜbertragungsort ändert sich:

1. Für Audiodateien, die auf dem WordPress-Server gespeichert sind, werden die Dateien direkt vomServer aus übertragen.

2. Für Dateien, die in einem S3-Bucket gespeichert sind, werden die Dateien vom Bucket aus übertragen.3. Wenn Sie CloudFront verwenden, werden die Dateien in Amazon S3 gespeichert und mit CloudFront

übertragen.

186


Sie können wählen, wo Ihre Dateien gespeichert werden sollen, wenn Sie das Amazon Polly-Plugininstallieren.

Positionieren des HTML-PlayersWenn Sie das Amazon Polly-Plugin installieren, wird standardmäßig ein HTML-Player oben auf IhrerWordPress-Website angezeigt, es sei denn, Sie wählen aus, dass er entweder unter dem Text ihrerWebsite oder gar nicht angezeigt werden soll.

Sie können den Player jederzeit neu positionieren, entfernen oder hinzufügen (wenn Sie ihn nicht anzeigenmöchten).

So ändern Sie die Position des Players, entfernen ihn oder fügen ihn Ihrer WordPress-Websitehinzu

1. Wählen Sie auf der Seite WordPress Admin (WordPress-Admin) die Option Settings (Einstellungen).2. Wählen Sie auf der Seite Amazon Polly Settings (Amazon Polly-Einstellungen) für Player position

(Player-Position) die entsprechende Option aus.

Weitere Informationen zur Einstellung von Konfigurationsoptionen finden Sie unter Plugin installieren undkonfigurieren (p. 183).

187


Podcasting mit Amazon PollycastMit den Amazon Pollycast-Feeds können Ihre Besucher Ihre Audioinhalte mithilfe von standardmäßigenPodcast-Anwendungen anhören. RSS 2.0-konforme Pollycast-Feeds bieten die erforderlichen XML-Datenfür die Aggregation durch gebräuchliche mobile Anwendungen und Podcast-Verzeichnisse, z. B. iTunes.

Wenn Sie das Amazon Polly-Plugin installieren, wählen Sie die Option ITunes explicit (iTunes explizit) zumautomatischen Hinzufügen von Amazon Pollycast-Endpunkten zu allen Archiv-URLs von WordPress aus.Auf diese Weise können Sie Podcasts gleichzeitig für die gesamte Website oder zielgerichtet bereitstellen.Wenn Sie bei der Installation des Plugins die iTunes explicit (iTunes explizit)-Option nicht gewählt haben,führen Sie die folgenden Schritte aus:

1. Wählen Sie auf der Seite WordPress Admin (WordPress-Admin) die Option Settings (Einstellungen).2. Wählen Sie auf der Seite Amazon Polly Settings (Amazon Polly-Einstellungen) die Option ITunes

explicit (iTunes explizit) aus.

Sie können Amazon Pollycast-Endpunkte manuell hinzufügen, indem Sie der URL für eine Seite einerPodcasts-Anwendung /amazon-pollycast/ hinzufügen. Beispiel:

example.com/amazon-pollycast/example.com/category/news/amazon-pollycast/example.com/author/john/amazon-pollcast/

188

Amazon Polly EntwicklerhandbuchUnterstützte Regionen

Einschränkungen in Amazon PollyNachfolgend werden Einschränkungen beschrieben, über die Sie sich bei der Verwendung von AmazonPolly im Klaren sein sollten.

Unterstützte RegionenEine Liste der AWS-Regionen, in denen Amazon Polly verfügbar ist, finden Sie unter Regionen undEndpunkte in AWS im Allgemeine Amazon Web Services-Referenz.

Drosselung• Drosselungsrate pro Konto: 100 Transaktionen (Anforderungen oder Operationen) pro Sekunde (TPS),

bei einem Steigerungsmaximum von 120 TPS.

Gleichzeitige Verbindungen pro Konto: 90• Drosselungsrate pro Operation:

Operation Limit

Lexikon

DeleteLexicon

PutLexicon

GetLexicon

ListLexicons

Beliebige 2 Transaktionen pro Sekunde (TPS) kombiniert vondiesen Operationen.

Maximal zulässige Steigerung von 4 TPS.

Sprache

DescribeVoices 80 TPS, bei einem Steigerungsmaximum von 100 TPS

SynthesizeSpeech 80 TPS, bei einem Steigerungsmaximum von 100 TPS

StartSpeechSynthesisTask 10 TPS, bei einem Steigerungsmaximum von 12 TPS

GetSynthesizeSpeechTaskundListSynthesizeSpeechTask

Zulässiges Maximum: 10 TPS insgesamt

Aussprachelexika• Pro Konto können maximal 100 Lexika gespeichert werden.• Als Lexikonname dürfen alphanumerische Zeichenfolgen mit maximal 20 Zeichen verwendet werden.• Ein Lexikon darf maximal 4 000 Zeichen enthalten. (Beachten Sie, dass die Größe des Lexikons Einfluss

auf die Latenz der Operation "SynthesizeSpeech" hat.)

189

http://docs.aws.amazon.com/general/latest/gr/rande.html#pol_region

http://docs.aws.amazon.com/general/latest/gr/rande.html#pol_region

Amazon Polly EntwicklerhandbuchAPI-Operation "SynthesizeSpeech"

• Sie dürfen je <phoneme>- oder <alias>-Ersatz in einem Lexikon maximal 100 Zeichen angeben.

Weitere Informationen zur Verwendung von Lexika finden Sie unter Verwalten von Lexika (p. 135).

API-Operation "SynthesizeSpeech"Bei der Verwendung der API-Operation SynthesizeSpeech gelten folgende Einschränkungen:

• Der Eingabetext darf maximal 3 500 berechnete Zeichen enthalten (6 000 Zeichen insgesamt). SSML-Tags werden nicht als berechnete Zeichen gezählt.

• Sie dürfen maximal fünf Lexika angeben, die auf den Eingabetext angewendet werden sollen.• Der Ausgabe-Audiostream (Synthese) ist auf 10 Minuten beschränkt. Danach wird jeglicher verbleibende

Sprechtext abgeschnitten.

Weitere Informationen finden Sie unter SynthesizeSpeech (p. 219).

Note

Einige Einschränkungen der API-Operation SynthesizeSpeech können mit der API-OperationStartSythensizeSpeechTask umgangen werden. Weitere Informationen finden Sie unterLange Audiodateien erstellen (p. 147).

SpeechSynthesisTask-API-OperationenFolgende Einschränkungen gelten bei der Verwendung der API-OperationenStartSpeechSynthesisTask, GetSpeechSynthesisTask und ListSpeechSynthesisTasks:

• Der Eingabetext darf maximal 100 000 kostenpflichtige Zeichen enthalten (200 000 Zeichen insgesamt).SSML-Tags werden nicht als berechnete Zeichen gezählt.

• Sie dürfen maximal fünf Lexika angeben, die auf den Eingabetext angewendet werden sollen.

Speech Synthesis Markup Language (SSML)Bei der Verwendung von SSML sind folgende Einschränkungen zu beachten:

• Die Tags <audio>, <lexicon>, <lookup> und <voice> werden nicht unterstützt.• Elemente des Typs <break> dürfen jeweils maximal 10 Sekunden angeben.• Das Tag <prosody> unterstützt für das Attribut "rate" keine niedrigeren Werte als –80 %.

Weitere Informationen finden Sie unter Generieren von Sprachausgaben aus SSML-Dokumenten (p. 31).

190

Amazon Polly EntwicklerhandbuchAmazon Polly-Informationen in CloudTrail

Protokollieren von Amazon Polly-API-Aufrufen mit AWS CloudTrail

Amazon Polly ist in AWS CloudTrail integriert, einen Service, der die Aktionen eines Benutzers, einer Rolleoder eines AWS-Service in Amazon Polly aufzeichnet. CloudTrail erfasst alle API-Aufrufe für AmazonPolly als Ereignisse. Zu den erfassten Aufrufen gehören Aufrufe von der Amazon Polly-Konsole und Code-Aufrufe der Amazon Polly-API-Operationen. Wenn Sie einen Trail erstellen, können Sie die kontinuierlicheBereitstellung von CloudTrail-Ereignissen an einen Amazon S3-Bucket, einschließlich Ereignissen fürAmazon Polly, aktivieren. Auch wenn Sie keinen Trail konfigurieren, können Sie die neuesten Ereignissein der CloudTrail-Konsole in Event history (Ereignisverlauf) anzeigen. Mit den von CloudTrail gesammeltenInformationen können Sie die an Amazon Polly gestellte Anforderung, die IP-Adresse, von der dieAnforderung gestellt wurde, den Initiator sowie den Zeitpunkt der Anforderung und weitere Angabenbestimmen.

Weitere Informationen über CloudTrail, einschließlich Konfiguration und Aktivierung, finden Sie im AWSCloudTrail User Guide.

Amazon Polly-Informationen in CloudTrailCloudTrail wird beim Erstellen Ihres AWS-Kontos für Sie aktiviert. Die in Amazon Polly auftretendenunterstützten Aktivitäten werden als CloudTrail-Ereignis zusammen mit anderen AWS-Serviceereignissenin Event history (Ereignisverlauf) aufgezeichnet. Sie können die neusten Ereignisse in Ihr(em) AWS-Kontoanzeigen, suchen und herunterladen. Weitere Informationen finden Sie unter Anzeigen von Ereignissen mitdem CloudTrail-API-Ereignisverlauf.

Erstellen Sie für eine fortlaufende Aufzeichnung der Ereignisse in Ihrem AWS-Konto, darunter Ereignissefür Amazon Polly, einen Trail. Ein Trail ermöglicht CloudTrail die Übermittlung von Protokolldateien aneinen Amazon S3-Bucket. Wenn Sie einen Pfad in der Konsole anlegen, gilt dieser standardmäßig füralle AWS-Regionen. Der Trail protokolliert Ereignisse aus allen Regionen in der AWS-Partition und stelltdie Protokolldateien in dem Amazon S3-Bucket bereit, den Sie angeben. Darüber hinaus können Sieandere AWS-Services konfigurieren, um die in den CloudTrail-Protokollen erfassten Ereignisdaten weiterzu analysieren und entsprechend zu agieren. Weitere Informationen finden Sie unter:

• Übersicht zum Erstellen eines Pfads• In CloudTrail unterstützte Services und Integrationen• Konfigurieren von Amazon SNS-Benachrichtigungen für CloudTrail• Empfangen von CloudTrail-Protokolldateien aus mehreren Regionen und EmpfangenCloudTrail von

Protokolldateien aus mehreren Konten

Amazon Polly unterstützt die Protokollierung der folgenden Aktionen als Ereignisse in CloudTrail-Protokolldateien:

• DeleteLexicon (p. 198)• DescribeVoices (p. 200)• GetLexicon (p. 203)• GetSpeechSynthesisTask (p. 205)• ListLexicons (p. 207)• ListSpeechSynthesisTasks (p. 209)

191

https://docs.aws.amazon.com/awscloudtrail/latest/userguide/

https://docs.aws.amazon.com/awscloudtrail/latest/userguide/

https://docs.aws.amazon.com/awscloudtrail/latest/userguide/view-cloudtrail-events.html

https://docs.aws.amazon.com/awscloudtrail/latest/userguide/view-cloudtrail-events.html

https://docs.aws.amazon.com/awscloudtrail/latest/userguide/cloudtrail-create-and-update-a-trail.html

https://docs.aws.amazon.com/awscloudtrail/latest/userguide/cloudtrail-aws-service-specific-topics.html#cloudtrail-aws-service-specific-topics-integrations

https://docs.aws.amazon.com/awscloudtrail/latest/userguide/getting_notifications_top_level.html

https://docs.aws.amazon.com/awscloudtrail/latest/userguide/receive-cloudtrail-log-files-from-multiple-regions.html

https://docs.aws.amazon.com/awscloudtrail/latest/userguide/cloudtrail-receive-logs-from-multiple-accounts.html

https://docs.aws.amazon.com/awscloudtrail/latest/userguide/cloudtrail-receive-logs-from-multiple-accounts.html

Amazon Polly EntwicklerhandbuchBeispiel: Amazon Polly-Protokolldateieinträge

• PutLexicon (p. 211)• StartSpeechSynthesisTask (p. 213)• SynthesizeSpeech (p. 219)

Jedes Event oder jeder Protokolleintrag enthält Informationen über den Ersteller der Anfrage. Anhand derIdentitätsinformationen zur Benutzeridentität können Sie Folgendes bestimmen:

• Ob die Anfrage mit Root- oder AWS Identity and Access Management-Benutzeranmeldeinformationen(IAM) ausgeführt wurde.

• Ob die Anfrage mit temporären Sicherheitsanmeldeinformationen für eine Rolle oder einen föderiertenBenutzer ausgeführt wurde.

• Ob die Anfrage von einem anderen AWS-Service getätigt wurde.

Weitere Informationen finden Sie unter CloudTrail-Element "userIdentity".

Beispiel: Amazon Polly-ProtokolldateieinträgeEin Trail ist eine Konfiguration, durch die Ereignisse an den von Ihnen angegebenen Amazon S3-Bucket übermittelt werden. CloudTrail-Protokolldateien können einen oder mehrere Einträge enthalten.Ein Ereignis stellt eine einzelne Anfrage aus einer beliebigen Quelle dar und enthält unter anderemInformationen über die angeforderte Aktion, das Datum und die Uhrzeit der Aktion sowie über dieAnfrageparameter. CloudTrail-Protokolldateien sind kein geordnetes Stacktrace der öffentlichen API-Aufrufe und erscheinen daher nicht in einer bestimmten Reihenfolge.

Das folgende Beispiel zeigt einen CloudTrail-Protokolleintrag, der die Aktion SynthesizeSpeechdemonstriert.

{ "Records": [ { "awsRegion": "us-east-2", "eventID": "19bd70f7-5e60-4cdc-9825-936c552278ae", "eventName": "SynthesizeSpeech", "eventSource": "polly.amazonaws.com", "eventTime": "2016-11-02T03:49:39Z", "eventType": "AwsApiCall", "eventVersion": "1.05", "recipientAccountId": "123456789012", "requestID": "414288c2-a1af-11e6-b17f-d7cfc06cb461", "requestParameters": { "lexiconNames": [ "SampleLexicon" ], "outputFormat": "mp3", "sampleRate": "22050", "text": "**********", "textType": "text", "voiceId": "Kendra" }, "responseElements": { "contentType": "audio/mpeg", "requestCharacters": 25 }, "sourceIPAddress": "1.2.3.4", "userAgent": "Amazon CLI/Polly 1.10 API 2016-06-10", "userIdentity": { "accessKeyId": "EXAMPLE_KEY_ID",

192

https://docs.aws.amazon.com/awscloudtrail/latest/userguide/cloudtrail-event-reference-user-identity.html

Amazon Polly EntwicklerhandbuchBeispiel: Amazon Polly-Protokolldateieinträge

"accountId": "123456789012", "arn": "arn:aws:iam::123456789012:user/Alice", "principalId": "EX_PRINCIPAL_ID", "type": "IAMUser", "userName": "Alice" } }

]}

193

Amazon Polly EntwicklerhandbuchAbrufen von CloudWatch-Metriken (Konsole)

Integrieren von CloudWatch inAmazon Polly

Wenn Sie mit Amazon Polly interagieren, werden jede Minute die folgenden Metriken und Dimensionen anCloudWatch gesandt. Sie können die folgenden Vorgehensweisen nutzen, um die Metriken für AmazonPolly anzuzeigen.

Sie können Amazon Polly mit CloudWatch überwachen. Dabei werden Rohdaten von Amazon Pollygesammelt und zu lesbaren, nahezu Echtzeitmetriken verarbeitet. Diese Statistiken werden für einenZeitraum von zwei Wochen aufgezeichnet, damit Sie auf historical information zugreifen könnenund einen besseren Überblick darüber erhalten, wie Ihre Webanwendung oder der Service ausgeführtwerden. Standardmäßig werden die Metrikdaten von Amazon Polly in Abständen von einer Minute anCloudWatch gesandt. Weitere Informationen finden Sie unter Was ist Amazon CloudWatch im AmazonCloudWatch-Benutzerhandbuch.

Abrufen von CloudWatch-Metriken (Konsole)1. Öffnen Sie die CloudWatch-Konsole unter https://console.aws.amazon.com/cloudwatch/.2. Wählen Sie im Navigationsbereich Metrics aus.3. Wählen Sie im Bereich CloudWatch-Metriken nach Kategorie unter der Metrikenkategorie für

Amazon Polly eine Metrikenkategorie aus und scrollen Sie dann im oberen Bereich herunter, um dievollständige Liste der Metriken anzuzeigen.

Abrufen von CloudWatch-Metriken (CLI)Der folgende Code zeigt für Amazon Polly verfügbare Metriken an.

aws cloudwatch list-metrics --namespace "AWS/Polly"

Dieser Befehl gibt eine Liste der Amazon Polly-Metriken aus, die in etwa Folgendermaßen aussieht. DasElement MetricName gibt an, worum es sich bei der Metrik handelt.

{ "Metrics": [ { "Namespace": "AWS/Polly", "Dimensions": [ { "Name": "Operation", "Value": "SynthesizeSpeech" } ], "MetricName": "ResponseLatency" }, {

194

https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html

https://console.aws.amazon.com/cloudwatch/

Amazon Polly EntwicklerhandbuchAmazon Polly-Metriken

"Namespace": "AWS/Polly", "Dimensions": [ { "Name": "Operation", "Value": "SynthesizeSpeech" } ], "MetricName": "RequestCharacters" }

Weitere Informationen finden Sie unter GetMetricStatistics in der Amazon CloudWatch-API-Referenz.

Amazon Polly-MetrikenAmazon Polly erstellt die folgenden Metriken pro Anfrage. Diese Metriken werden zusammengefasst und in1-Minuten-Intervallen an &CW gesendet. Sie sind dort verfügbar.

Metrik Beschreibung

RequestCharacters Anzahl der Zeichen in der Anfrage. Es handelt sichausschließlich um kostenpflichtige Zeichen ohne SSML-Tags.

Gültige Dimension: Operation

Gültige Statistiken: Minimum, Maximum, Durchschnitt,SampleCount, Summe

Einheit: Anzahl

ResponseLatency Latenz zwischen der Anfrage und dem Start desStreamings.

Gültige Dimensionen: Operation

Gültige Statistiken: Minimum, Maximum, Durchschnitt,SampleCount

Einheit: Millisekunden

2XXCount Bei einer erfolgreichen Antwort wird der HTTP-Fehlercode 200 zurückgegeben.


Gültige Statistiken: Durchschnitt, SampleCount, Summe

Einheit: Anzahl

4XXCount Bei einem Fehler wird der HTTP-Fehlercode 400zurückgegeben. Für jede erfolgreiche Antwort wird null(0) zurückgegeben.



Einheit: Anzahl

195

https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html

Amazon Polly EntwicklerhandbuchDimensionen für Amazon Polly-Metriken

Metrik Beschreibung

5XXCount Bei einem Fehler wird der HTTP-Fehlercode 500zurückgegeben. Für jede erfolgreiche Antwort wird null(0) zurückgegeben.



Einheit: Anzahl

Dimensionen für Amazon Polly-MetrikenDie Amazon Polly-Metriken verwenden den AWS/Polly-Namespace und stellen Metriken für folgendeDimension bereit:

Dimension Beschreibung

Operation Die Metriken werden entsprechend der API-Methodegruppiert, auf die sie sich beziehen. Die möglichenWerte lauten SynthesizeSpeech, PutLexicon,DescribeVoices usw.

196

Amazon Polly EntwicklerhandbuchActions

Amazon Polly-API-ReferenzDieser Abschnitt enthält die API-Referenz zu Amazon Polly.

Note

Authentifizierte API-Aufrufe müssen mithilfe dem Signature Version 4-Signaturprozess signiertwerden. Weitere Informationen dazu finden Sie unter Signieren von AWS-API-Anfragen imAllgemeine Amazon Web Services-Referenz.

Topics

• Actions (p. 197)• Data Types (p. 223)

ActionsThe following actions are supported:

• DeleteLexicon (p. 198)• DescribeVoices (p. 200)• GetLexicon (p. 203)• GetSpeechSynthesisTask (p. 205)• ListLexicons (p. 207)• ListSpeechSynthesisTasks (p. 209)• PutLexicon (p. 211)• StartSpeechSynthesisTask (p. 213)• SynthesizeSpeech (p. 219)

197

https://docs.aws.amazon.com/general/latest/gr/signing_aws_api_requests.html


DeleteLexiconDeletes the specified pronunciation lexicon stored in an AWS Region. A lexicon which has been deletedis not available for speech synthesis, nor is it possible to retrieve it using either the GetLexicon orListLexicon APIs.

For more information, see Managing Lexicons.

Request SyntaxDELETE /v1/lexicons/LexiconName HTTP/1.1

URI Request ParametersThe request requires the following URI parameters.

Name (p. 198)

The name of the lexicon to delete. Must be an existing lexicon in the region.

Pattern: [0-9A-Za-z]{1,20}

Request BodyThe request does not have a request body.

Response SyntaxHTTP/1.1 200

Response ElementsIf the action is successful, the service sends back an HTTP 200 response with an empty HTTP body.

ErrorsLexiconNotFoundException

Amazon Polly can't find the specified lexicon. This could be caused by a lexicon that is missing, itsname is misspelled or specifying a lexicon that is in a different region.

Verify that the lexicon exists, is in the region (see ListLexicons (p. 207)) and that you spelled its nameis spelled correctly. Then try again.

HTTP Status Code: 404ServiceFailureException

An unknown condition has caused a service failure.

HTTP Status Code: 500

See AlsoFor more information about using this API in one of the language-specific AWS SDKs, see the following:

198

https://docs.aws.amazon.com/polly/latest/dg/managing-lexicons.html


• AWS Command Line Interface• AWS SDK for .NET• AWS SDK for C++• AWS SDK for Go• AWS SDK for Go - Pilot• AWS SDK for Java• AWS SDK for JavaScript• AWS SDK for PHP V3• AWS SDK for Python• AWS SDK for Ruby V2

199

https://docs.aws.amazon.com/goto/aws-cli/polly-2016-06-10/DeleteLexicon

https://docs.aws.amazon.com/goto/DotNetSDKV3/polly-2016-06-10/DeleteLexicon

https://docs.aws.amazon.com/goto/SdkForCpp/polly-2016-06-10/DeleteLexicon

https://docs.aws.amazon.com/goto/SdkForGoV1/polly-2016-06-10/DeleteLexicon

https://docs.aws.amazon.com/goto/SdkForGoPilot/polly-2016-06-10/DeleteLexicon

https://docs.aws.amazon.com/goto/SdkForJava/polly-2016-06-10/DeleteLexicon

https://docs.aws.amazon.com/goto/AWSJavaScriptSDK/polly-2016-06-10/DeleteLexicon

https://docs.aws.amazon.com/goto/SdkForPHPV3/polly-2016-06-10/DeleteLexicon

https://docs.aws.amazon.com/goto/boto3/polly-2016-06-10/DeleteLexicon

https://docs.aws.amazon.com/goto/SdkForRubyV2/polly-2016-06-10/DeleteLexicon

Amazon Polly EntwicklerhandbuchDescribeVoices

DescribeVoicesReturns the list of voices that are available for use when requesting speech synthesis. Each voice speaksa specified language, is either male or female, and is identified by an ID, which is the ASCII version of thevoice name.

When synthesizing speech ( SynthesizeSpeech ), you provide the voice ID for the voice you want fromthe list of voices returned by DescribeVoices.

For example, you want your news reader application to read news in a specific language, but giving a userthe option to choose the voice. Using the DescribeVoices operation you can provide the user with a listof available voices to select from.

You can optionally specify a language code to filter the available voices. For example, if you specify en-US,the operation returns a list of all available US English voices.

This operation requires permissions to perform the polly:DescribeVoices action.

Request Syntax

GET /v1/voices?Engine=Engine&IncludeAdditionalLanguageCodes=IncludeAdditionalLanguageCodes&LanguageCode=LanguageCode&NextToken=NextToken HTTP/1.1


Engine (p. 200)

Specifies the engine (standard or neural) used by Amazon Polly when processing input text forspeech synthesis.

Valid Values: standard | neuralIncludeAdditionalLanguageCodes (p. 200)

Boolean value indicating whether to return any bilingual voices that use the specified language asan additional language. For instance, if you request all languages that use US English (es-US), andthere is an Italian voice that speaks both Italian (it-IT) and US English, that voice will be included if youspecify yes but not if you specify no.

LanguageCode (p. 200)

The language identification tag (ISO 639 code for the language name-ISO 3166 country code) forfiltering the list of voices returned. If you don't specify this optional parameter, all available voices arereturned.

Valid Values: arb | cmn-CN | cy-GB | da-DK | de-DE | en-AU | en-GB | en-GB-WLS| en-IN | en-US | es-ES | es-MX | es-US | fr-CA | fr-FR | is-IS | it-IT |ja-JP | hi-IN | ko-KR | nb-NO | nl-NL | pl-PL | pt-BR | pt-PT | ro-RO | ru-RU | sv-SE | tr-TR

NextToken (p. 200)

An opaque pagination token returned from the previous DescribeVoices operation. If present, thisindicates where to continue the listing.

Length Constraints: Minimum length of 0. Maximum length of 4096.

200



Response Syntax

HTTP/1.1 200Content-type: application/json

{ "NextToken": "string", "Voices": [ { "AdditionalLanguageCodes": [ "string" ], "Gender": "string", "Id": "string", "LanguageCode": "string", "LanguageName": "string", "Name": "string", "SupportedEngines": [ "string" ] } ]}

Response ElementsIf the action is successful, the service sends back an HTTP 200 response.

The following data is returned in JSON format by the service.

NextToken (p. 201)

The pagination token to use in the next request to continue the listing of voices. NextToken isreturned only if the response is truncated.

Type: String

Length Constraints: Minimum length of 0. Maximum length of 4096.Voices (p. 201)

A list of voices with their properties.

Type: Array of Voice (p. 231) objects

ErrorsInvalidNextTokenException

The NextToken is invalid. Verify that it's spelled correctly, and then try again.




201




202

https://docs.aws.amazon.com/goto/aws-cli/polly-2016-06-10/DescribeVoices

https://docs.aws.amazon.com/goto/DotNetSDKV3/polly-2016-06-10/DescribeVoices

https://docs.aws.amazon.com/goto/SdkForCpp/polly-2016-06-10/DescribeVoices

https://docs.aws.amazon.com/goto/SdkForGoV1/polly-2016-06-10/DescribeVoices

https://docs.aws.amazon.com/goto/SdkForGoPilot/polly-2016-06-10/DescribeVoices

https://docs.aws.amazon.com/goto/SdkForJava/polly-2016-06-10/DescribeVoices

https://docs.aws.amazon.com/goto/AWSJavaScriptSDK/polly-2016-06-10/DescribeVoices

https://docs.aws.amazon.com/goto/SdkForPHPV3/polly-2016-06-10/DescribeVoices

https://docs.aws.amazon.com/goto/boto3/polly-2016-06-10/DescribeVoices

https://docs.aws.amazon.com/goto/SdkForRubyV2/polly-2016-06-10/DescribeVoices


GetLexiconReturns the content of the specified pronunciation lexicon stored in an AWS Region. For more information,see Managing Lexicons.

Request Syntax

GET /v1/lexicons/LexiconName HTTP/1.1


Name (p. 203)

Name of the lexicon.



Response Syntax


{ "Lexicon": { "Content": "string", "Name": "string" }, "LexiconAttributes": { "Alphabet": "string", "LanguageCode": "string", "LastModified": number, "LexemesCount": number, "LexiconArn": "string", "Size": number }}



Lexicon (p. 203)

Lexicon object that provides name and the string content of the lexicon.

Type: Lexicon (p. 224) object

203



LexiconAttributes (p. 203)

Metadata of the lexicon, including phonetic alphabetic used, language code, lexicon ARN, number oflexemes defined in the lexicon, and size of lexicon in bytes.

Type: LexiconAttributes (p. 225) object

ErrorsLexiconNotFoundException








204

https://docs.aws.amazon.com/goto/aws-cli/polly-2016-06-10/GetLexicon

https://docs.aws.amazon.com/goto/DotNetSDKV3/polly-2016-06-10/GetLexicon

https://docs.aws.amazon.com/goto/SdkForCpp/polly-2016-06-10/GetLexicon

https://docs.aws.amazon.com/goto/SdkForGoV1/polly-2016-06-10/GetLexicon

https://docs.aws.amazon.com/goto/SdkForGoPilot/polly-2016-06-10/GetLexicon

https://docs.aws.amazon.com/goto/SdkForJava/polly-2016-06-10/GetLexicon

https://docs.aws.amazon.com/goto/AWSJavaScriptSDK/polly-2016-06-10/GetLexicon

https://docs.aws.amazon.com/goto/SdkForPHPV3/polly-2016-06-10/GetLexicon

https://docs.aws.amazon.com/goto/boto3/polly-2016-06-10/GetLexicon

https://docs.aws.amazon.com/goto/SdkForRubyV2/polly-2016-06-10/GetLexicon

Amazon Polly EntwicklerhandbuchGetSpeechSynthesisTask

GetSpeechSynthesisTaskRetrieves a specific SpeechSynthesisTask object based on its TaskID. This object contains informationabout the given speech synthesis task, including the status of the task, and a link to the S3 bucketcontaining the output of the task.

Request Syntax

GET /v1/synthesisTasks/TaskId HTTP/1.1


TaskId (p. 205)

The Amazon Polly generated identifier for a speech synthesis task.

Pattern: ^[a-zA-Z0-9_-]{1,100}$


Response Syntax


{ "SynthesisTask": { "CreationTime": number, "Engine": "string", "LanguageCode": "string", "LexiconNames": [ "string" ], "OutputFormat": "string", "OutputUri": "string", "RequestCharacters": number, "SampleRate": "string", "SnsTopicArn": "string", "SpeechMarkTypes": [ "string" ], "TaskId": "string", "TaskStatus": "string", "TaskStatusReason": "string", "TextType": "string", "VoiceId": "string" }}



205

Amazon Polly EntwicklerhandbuchGetSpeechSynthesisTask

SynthesisTask (p. 205)

SynthesisTask object that provides information from the requested task, including output format,creation time, task status, and so on.

Type: SynthesisTask (p. 228) object

ErrorsInvalidTaskIdException

The provided Task ID is not valid. Please provide a valid Task ID and try again.



HTTP Status Code: 500SynthesisTaskNotFoundException

The Speech Synthesis task with requested Task ID cannot be found.




206

https://docs.aws.amazon.com/goto/aws-cli/polly-2016-06-10/GetSpeechSynthesisTask

https://docs.aws.amazon.com/goto/DotNetSDKV3/polly-2016-06-10/GetSpeechSynthesisTask

https://docs.aws.amazon.com/goto/SdkForCpp/polly-2016-06-10/GetSpeechSynthesisTask

https://docs.aws.amazon.com/goto/SdkForGoV1/polly-2016-06-10/GetSpeechSynthesisTask

https://docs.aws.amazon.com/goto/SdkForGoPilot/polly-2016-06-10/GetSpeechSynthesisTask

https://docs.aws.amazon.com/goto/SdkForJava/polly-2016-06-10/GetSpeechSynthesisTask

https://docs.aws.amazon.com/goto/AWSJavaScriptSDK/polly-2016-06-10/GetSpeechSynthesisTask

https://docs.aws.amazon.com/goto/SdkForPHPV3/polly-2016-06-10/GetSpeechSynthesisTask

https://docs.aws.amazon.com/goto/boto3/polly-2016-06-10/GetSpeechSynthesisTask

https://docs.aws.amazon.com/goto/SdkForRubyV2/polly-2016-06-10/GetSpeechSynthesisTask


ListLexiconsReturns a list of pronunciation lexicons stored in an AWS Region. For more information, see ManagingLexicons.

Request Syntax

GET /v1/lexicons?NextToken=NextToken HTTP/1.1


NextToken (p. 207)

An opaque pagination token returned from previous ListLexicons operation. If present, indicateswhere to continue the list of lexicons.



Response Syntax


{ "Lexicons": [ { "Attributes": { "Alphabet": "string", "LanguageCode": "string", "LastModified": number, "LexemesCount": number, "LexiconArn": "string", "Size": number }, "Name": "string" } ], "NextToken": "string"}



Lexicons (p. 207)

A list of lexicon names and attributes.

207




Type: Array of LexiconDescription (p. 227) objectsNextToken (p. 207)

The pagination token to use in the next request to continue the listing of lexicons. NextToken isreturned only if the response is truncated.

Type: String









208

https://docs.aws.amazon.com/goto/aws-cli/polly-2016-06-10/ListLexicons

https://docs.aws.amazon.com/goto/DotNetSDKV3/polly-2016-06-10/ListLexicons

https://docs.aws.amazon.com/goto/SdkForCpp/polly-2016-06-10/ListLexicons

https://docs.aws.amazon.com/goto/SdkForGoV1/polly-2016-06-10/ListLexicons

https://docs.aws.amazon.com/goto/SdkForGoPilot/polly-2016-06-10/ListLexicons

https://docs.aws.amazon.com/goto/SdkForJava/polly-2016-06-10/ListLexicons

https://docs.aws.amazon.com/goto/AWSJavaScriptSDK/polly-2016-06-10/ListLexicons

https://docs.aws.amazon.com/goto/SdkForPHPV3/polly-2016-06-10/ListLexicons

https://docs.aws.amazon.com/goto/boto3/polly-2016-06-10/ListLexicons

https://docs.aws.amazon.com/goto/SdkForRubyV2/polly-2016-06-10/ListLexicons

Amazon Polly EntwicklerhandbuchListSpeechSynthesisTasks

ListSpeechSynthesisTasksReturns a list of SpeechSynthesisTask objects ordered by their creation date. This operation can filter thetasks by their status, for example, allowing users to list only tasks that are completed.

Request SyntaxGET /v1/synthesisTasks?MaxResults=MaxResults&NextToken=NextToken&Status=Status HTTP/1.1


MaxResults (p. 209)

Maximum number of speech synthesis tasks returned in a List operation.

Valid Range: Minimum value of 1. Maximum value of 100.NextToken (p. 209)

The pagination token to use in the next request to continue the listing of speech synthesis tasks.

Length Constraints: Minimum length of 0. Maximum length of 4096.Status (p. 209)

Status of the speech synthesis tasks returned in a List operation

Valid Values: scheduled | inProgress | completed | failed


Response SyntaxHTTP/1.1 200Content-type: application/json

{ "NextToken": "string", "SynthesisTasks": [ { "CreationTime": number, "Engine": "string", "LanguageCode": "string", "LexiconNames": [ "string" ], "OutputFormat": "string", "OutputUri": "string", "RequestCharacters": number, "SampleRate": "string", "SnsTopicArn": "string", "SpeechMarkTypes": [ "string" ], "TaskId": "string", "TaskStatus": "string", "TaskStatusReason": "string", "TextType": "string", "VoiceId": "string"

209

Amazon Polly EntwicklerhandbuchListSpeechSynthesisTasks

} ]}



NextToken (p. 209)

An opaque pagination token returned from the previous List operation in this request. If present, thisindicates where to continue the listing.

Type: String

Length Constraints: Minimum length of 0. Maximum length of 4096.SynthesisTasks (p. 209)

List of SynthesisTask objects that provides information from the specified task in the list request,including output format, creation time, task status, and so on.

Type: Array of SynthesisTask (p. 228) objects








210

https://docs.aws.amazon.com/goto/aws-cli/polly-2016-06-10/ListSpeechSynthesisTasks

https://docs.aws.amazon.com/goto/DotNetSDKV3/polly-2016-06-10/ListSpeechSynthesisTasks

https://docs.aws.amazon.com/goto/SdkForCpp/polly-2016-06-10/ListSpeechSynthesisTasks

https://docs.aws.amazon.com/goto/SdkForGoV1/polly-2016-06-10/ListSpeechSynthesisTasks

https://docs.aws.amazon.com/goto/SdkForGoPilot/polly-2016-06-10/ListSpeechSynthesisTasks

https://docs.aws.amazon.com/goto/SdkForJava/polly-2016-06-10/ListSpeechSynthesisTasks

https://docs.aws.amazon.com/goto/AWSJavaScriptSDK/polly-2016-06-10/ListSpeechSynthesisTasks

https://docs.aws.amazon.com/goto/SdkForPHPV3/polly-2016-06-10/ListSpeechSynthesisTasks

https://docs.aws.amazon.com/goto/boto3/polly-2016-06-10/ListSpeechSynthesisTasks

https://docs.aws.amazon.com/goto/SdkForRubyV2/polly-2016-06-10/ListSpeechSynthesisTasks


PutLexiconStores a pronunciation lexicon in an AWS Region. If a lexicon with the same name already exists in theregion, it is overwritten by the new lexicon. Lexicon operations have eventual consistency, therefore, itmight take some time before the lexicon is available to the SynthesizeSpeech operation.

For more information, see Managing Lexicons.

Request SyntaxPUT /v1/lexicons/LexiconName HTTP/1.1Content-type: application/json

{ "Content": "string"}


Name (p. 211)

Name of the lexicon. The name must follow the regular express format [0-9A-Za-z]{1,20}. That is, thename is a case-sensitive alphanumeric string up to 20 characters long.


Request BodyThe request accepts the following data in JSON format.

Content (p. 211)

Content of the PLS lexicon as string data.

Type: String

Required: Yes

Response SyntaxHTTP/1.1 200

Response ElementsIf the action is successful, the service sends back an HTTP 200 response with an empty HTTP body.

ErrorsInvalidLexiconException

Amazon Polly can't find the specified lexicon. Verify that the lexicon's name is spelled correctly, andthen try again.

211



HTTP Status Code: 400LexiconSizeExceededException

The maximum size of the specified lexicon would be exceeded by this operation.

HTTP Status Code: 400MaxLexemeLengthExceededException

The maximum size of the lexeme would be exceeded by this operation.

HTTP Status Code: 400MaxLexiconsNumberExceededException

The maximum number of lexicons would be exceeded by this operation.



HTTP Status Code: 500UnsupportedPlsAlphabetException

The alphabet specified by the lexicon is not a supported alphabet. Valid values are x-sampa and ipa.

HTTP Status Code: 400UnsupportedPlsLanguageException

The language specified in the lexicon is unsupported. For a list of supported languages, see LexiconAttributes.




212

https://docs.aws.amazon.com/polly/latest/dg/API_LexiconAttributes.html

https://docs.aws.amazon.com/polly/latest/dg/API_LexiconAttributes.html

https://docs.aws.amazon.com/goto/aws-cli/polly-2016-06-10/PutLexicon

https://docs.aws.amazon.com/goto/DotNetSDKV3/polly-2016-06-10/PutLexicon

https://docs.aws.amazon.com/goto/SdkForCpp/polly-2016-06-10/PutLexicon

https://docs.aws.amazon.com/goto/SdkForGoV1/polly-2016-06-10/PutLexicon

https://docs.aws.amazon.com/goto/SdkForGoPilot/polly-2016-06-10/PutLexicon

https://docs.aws.amazon.com/goto/SdkForJava/polly-2016-06-10/PutLexicon

https://docs.aws.amazon.com/goto/AWSJavaScriptSDK/polly-2016-06-10/PutLexicon

https://docs.aws.amazon.com/goto/SdkForPHPV3/polly-2016-06-10/PutLexicon

https://docs.aws.amazon.com/goto/boto3/polly-2016-06-10/PutLexicon

https://docs.aws.amazon.com/goto/SdkForRubyV2/polly-2016-06-10/PutLexicon

Amazon Polly EntwicklerhandbuchStartSpeechSynthesisTask

StartSpeechSynthesisTaskAllows the creation of an asynchronous synthesis task, by starting a new SpeechSynthesisTask.This operation requires all the standard information needed for speech synthesis, plus the name of anAmazon S3 bucket for the service to store the output of the synthesis task and two optional parameters(OutputS3KeyPrefix and SnsTopicArn). Once the synthesis task is created, this operation will return aSpeechSynthesisTask object, which will include an identifier of this task as well as the current status.

Request Syntax

POST /v1/synthesisTasks HTTP/1.1Content-type: application/json

{ "Engine": "string", "LanguageCode": "string", "LexiconNames": [ "string" ], "OutputFormat": "string", "OutputS3BucketName": "string", "OutputS3KeyPrefix": "string", "SampleRate": "string", "SnsTopicArn": "string", "SpeechMarkTypes": [ "string" ], "Text": "string", "TextType": "string", "VoiceId": "string"}

URI Request ParametersThe request does not use any URI parameters.


Engine (p. 213)

Specifies the engine (standard or neural) for Amazon Polly to use when processing input text forspeech synthesis. Using a voice that is not supported for the engine selected will result in an error.

Type: String

Valid Values: standard | neural

Required: NoLanguageCode (p. 213)

Optional language code for the Speech Synthesis request. This is only necessary if using a bilingualvoice, such as Aditi, which can be used for either Indian English (en-IN) or Hindi (hi-IN).

If a bilingual voice is used and no language code is specified, Amazon Polly will use the defaultlanguage of the bilingual voice. The default language for any voice is the one returned by theDescribeVoices operation for the LanguageCode parameter. For example, if no language code isspecified, Aditi will use Indian English rather than Hindi.

Type: String

213




Required: NoLexiconNames (p. 213)

List of one or more pronunciation lexicon names you want the service to apply during synthesis.Lexicons are applied only if the language of the lexicon is the same as the language of the voice.

Type: Array of strings

Array Members: Maximum number of 5 items.


Required: NoOutputFormat (p. 213)

The format in which the returned output will be encoded. For audio stream, this will be mp3,ogg_vorbis, or pcm. For speech marks, this will be json.

Type: String

Valid Values: json | mp3 | ogg_vorbis | pcm

Required: YesOutputS3BucketName (p. 213)

Amazon S3 bucket name to which the output file will be saved.

Type: String

Pattern: ^[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9]$

Required: YesOutputS3KeyPrefix (p. 213)

The Amazon S3 key prefix for the output speech file.

Type: String

Pattern: ^[0-9a-zA-Z\/\!\-_\.\*\']{0,800}$

Required: NoSampleRate (p. 213)

The audio frequency specified in Hz.

The valid values for mp3 and ogg_vorbis are "8000", "16000", "22050", and "24000". The default valuefor standard voices is "22050". The default value for neural voices is "24000".

Valid values for pcm are "8000" and "16000" The default value is "16000".

Type: String

Required: NoSnsTopicArn (p. 213)

ARN for the SNS topic optionally used for providing status notification for a speech synthesis task.

214


Type: String

Pattern: ârn:aws(-(cn|iso(-b)?|us-gov))?:sns:[a-z0-9_-]{1,50}:\d{12}:[a-zA-Z0-9_-]{1,256}$

Required: NoSpeechMarkTypes (p. 213)

The type of speech marks returned for the input text.



Valid Values: sentence | ssml | viseme | word

Required: NoText (p. 213)

The input text to synthesize. If you specify ssml as the TextType, follow the SSML format for the inputtext.

Type: String

Required: YesTextType (p. 213)

Specifies whether the input text is plain text or SSML. The default value is plain text.

Type: String

Valid Values: ssml | text

Required: NoVoiceId (p. 213)

Voice ID to use for the synthesis.

Type: String

Valid Values: Aditi | Amy | Astrid | Bianca | Brian | Carla | Carmen | Celine| Chantal | Conchita | Cristiano | Dora | Emma | Enrique | Ewa | Filiz |Geraint | Giorgio | Gwyneth | Hans | Ines | Ivy | Jacek | Jan | Joanna |Joey | Justin | Karl | Kendra | Kimberly | Lea | Liv | Lotte | Lucia | Mads| Maja | Marlene | Mathieu | Matthew | Maxim | Mia | Miguel | Mizuki | Naja| Nicole | Penelope | Raveena | Ricardo | Ruben | Russell | Salli | Seoyeon| Takumi | Tatyana | Vicki | Vitoria | Zeina | Zhiyu

Required: Yes

Response Syntax


{ "SynthesisTask": { "CreationTime": number,

215


"Engine": "string", "LanguageCode": "string", "LexiconNames": [ "string" ], "OutputFormat": "string", "OutputUri": "string", "RequestCharacters": number, "SampleRate": "string", "SnsTopicArn": "string", "SpeechMarkTypes": [ "string" ], "TaskId": "string", "TaskStatus": "string", "TaskStatusReason": "string", "TextType": "string", "VoiceId": "string" }}



SynthesisTask (p. 215)

SynthesisTask object that provides information and attributes about a newly submitted speechsynthesis task.

Type: SynthesisTask (p. 228) object

ErrorsEngineNotSupportedException

This engine is not compatible with the voice that you have designated. Choose a new voice that iscompatible with the engine or change the engine and restart the operation.

HTTP Status Code: 400InvalidS3BucketException

The provided Amazon S3 bucket name is invalid. Please check your input with S3 bucket namingrequirements and try again.

HTTP Status Code: 400InvalidS3KeyException

The provided Amazon S3 key prefix is invalid. Please provide a valid S3 object key name.

HTTP Status Code: 400InvalidSampleRateException

The specified sample rate is not valid.

HTTP Status Code: 400InvalidSnsTopicArnException

The provided SNS topic ARN is invalid. Please provide a valid SNS topic ARN and try again.


216


InvalidSsmlException

The SSML you provided is invalid. Verify the SSML syntax, spelling of tags and values, and then tryagain.

HTTP Status Code: 400LanguageNotSupportedException

The language specified is not currently supported by Amazon Polly in this capacity.

HTTP Status Code: 400LexiconNotFoundException



HTTP Status Code: 404MarksNotSupportedForFormatException

Speech marks are not supported for the OutputFormat selected. Speech marks are only available forcontent in json format.



HTTP Status Code: 500SsmlMarksNotSupportedForTextTypeException

SSML speech marks are not supported for plain text-type input.

HTTP Status Code: 400TextLengthExceededException

The value of the "Text" parameter is longer than the accepted limits. For the SynthesizeSpeech API,the limit for input text is a maximum of 6000 characters total, of which no more than 3000 can be billedcharacters. For the StartSpeechSynthesisTask API, the maximum is 200,000 characters, of whichno more than 100,000 can be billed characters. SSML tags are not counted as billed characters.



• AWS Command Line Interface• AWS SDK for .NET• AWS SDK for C++• AWS SDK for Go• AWS SDK for Go - Pilot• AWS SDK for Java• AWS SDK for JavaScript

217

https://docs.aws.amazon.com/goto/aws-cli/polly-2016-06-10/StartSpeechSynthesisTask

https://docs.aws.amazon.com/goto/DotNetSDKV3/polly-2016-06-10/StartSpeechSynthesisTask

https://docs.aws.amazon.com/goto/SdkForCpp/polly-2016-06-10/StartSpeechSynthesisTask

https://docs.aws.amazon.com/goto/SdkForGoV1/polly-2016-06-10/StartSpeechSynthesisTask

https://docs.aws.amazon.com/goto/SdkForGoPilot/polly-2016-06-10/StartSpeechSynthesisTask

https://docs.aws.amazon.com/goto/SdkForJava/polly-2016-06-10/StartSpeechSynthesisTask

https://docs.aws.amazon.com/goto/AWSJavaScriptSDK/polly-2016-06-10/StartSpeechSynthesisTask


• AWS SDK for PHP V3• AWS SDK for Python• AWS SDK for Ruby V2

218

https://docs.aws.amazon.com/goto/SdkForPHPV3/polly-2016-06-10/StartSpeechSynthesisTask

https://docs.aws.amazon.com/goto/boto3/polly-2016-06-10/StartSpeechSynthesisTask

https://docs.aws.amazon.com/goto/SdkForRubyV2/polly-2016-06-10/StartSpeechSynthesisTask

Amazon Polly EntwicklerhandbuchSynthesizeSpeech

SynthesizeSpeechSynthesizes UTF-8 input, plain text or SSML, to a stream of bytes. SSML input must be valid, well-formedSSML. Some alphabets might not be available with all the voices (for example, Cyrillic might not be read atall by English voices) unless phoneme mapping is used. For more information, see How it Works.

Request Syntax

POST /v1/speech HTTP/1.1Content-type: application/json

{ "Engine": "string", "LanguageCode": "string", "LexiconNames": [ "string" ], "OutputFormat": "string", "SampleRate": "string", "SpeechMarkTypes": [ "string" ], "Text": "string", "TextType": "string", "VoiceId": "string"}

URI Request ParametersThe request does not use any URI parameters.


Engine (p. 219)


Type: String


Required: NoLanguageCode (p. 219)

Optional language code for the Synthesize Speech request. This is only necessary if using a bilingualvoice, such as Aditi, which can be used for either Indian English (en-IN) or Hindi (hi-IN).


Type: String


219

https://docs.aws.amazon.com/polly/latest/dg/how-text-to-speech-works.html



Required: NoLexiconNames (p. 219)

List of one or more pronunciation lexicon names you want the service to apply during synthesis.Lexicons are applied only if the language of the lexicon is the same as the language of the voice. Forinformation about storing lexicons, see PutLexicon.




Required: NoOutputFormat (p. 219)


When pcm is used, the content returned is audio/pcm in a signed 16-bit, 1 channel (mono), little-endianformat.

Type: String


Required: YesSampleRate (p. 219)




Type: String

Required: NoSpeechMarkTypes (p. 219)





Required: NoText (p. 219)

Input text to synthesize. If you specify ssml as the TextType, follow the SSML format for the inputtext.

Type: String

Required: Yes

220



TextType (p. 219)

Specifies whether the input text is plain text or SSML. The default value is plain text. For moreinformation, see Using SSML.

Type: String


Required: NoVoiceId (p. 219)

Voice ID to use for the synthesis. You can get a list of available voice IDs by calling the DescribeVoicesoperation.

Type: String


Required: Yes

Response Syntax

HTTP/1.1 200Content-Type: ContentTypex-amzn-RequestCharacters: RequestCharacters

AudioStream


The response returns the following HTTP headers.

ContentType (p. 221)

Specifies the type audio stream. This should reflect the OutputFormat parameter in your request.• If you request mp3 as the OutputFormat, the ContentType returned is audio/mpeg.• If you request ogg_vorbis as the OutputFormat, the ContentType returned is audio/ogg.• If you request pcm as the OutputFormat, the ContentType returned is audio/pcm in a signed 16-

bit, 1 channel (mono), little-endian format.• If you request json as the OutputFormat, the ContentType returned is audio/json.

RequestCharacters (p. 221)

Number of characters synthesized.

The response returns the following as the HTTP body.

221

https://docs.aws.amazon.com/polly/latest/dg/ssml.html



AudioStream (p. 221)

Stream containing the synthesized speech.

ErrorsEngineNotSupportedException

This engine is not compatible with the voice that you have designated. Choose a new voice that iscompatible with the engine or change the engine and restart the operation.

HTTP Status Code: 400InvalidSampleRateException

The specified sample rate is not valid.

HTTP Status Code: 400InvalidSsmlException

The SSML you provided is invalid. Verify the SSML syntax, spelling of tags and values, and then tryagain.

HTTP Status Code: 400LanguageNotSupportedException

The language specified is not currently supported by Amazon Polly in this capacity.

HTTP Status Code: 400LexiconNotFoundException



HTTP Status Code: 404MarksNotSupportedForFormatException

Speech marks are not supported for the OutputFormat selected. Speech marks are only available forcontent in json format.



HTTP Status Code: 500SsmlMarksNotSupportedForTextTypeException

SSML speech marks are not supported for plain text-type input.

HTTP Status Code: 400TextLengthExceededException

The value of the "Text" parameter is longer than the accepted limits. For the SynthesizeSpeech API,the limit for input text is a maximum of 6000 characters total, of which no more than 3000 can be billed

222

Amazon Polly EntwicklerhandbuchData Types

characters. For the StartSpeechSynthesisTask API, the maximum is 200,000 characters, of whichno more than 100,000 can be billed characters. SSML tags are not counted as billed characters.




Data TypesThe following data types are supported:

• Lexicon (p. 224)• LexiconAttributes (p. 225)• LexiconDescription (p. 227)• SynthesisTask (p. 228)• Voice (p. 231)

223

https://docs.aws.amazon.com/goto/aws-cli/polly-2016-06-10/SynthesizeSpeech

https://docs.aws.amazon.com/goto/DotNetSDKV3/polly-2016-06-10/SynthesizeSpeech

https://docs.aws.amazon.com/goto/SdkForCpp/polly-2016-06-10/SynthesizeSpeech

https://docs.aws.amazon.com/goto/SdkForGoV1/polly-2016-06-10/SynthesizeSpeech

https://docs.aws.amazon.com/goto/SdkForGoPilot/polly-2016-06-10/SynthesizeSpeech

https://docs.aws.amazon.com/goto/SdkForJava/polly-2016-06-10/SynthesizeSpeech

https://docs.aws.amazon.com/goto/AWSJavaScriptSDK/polly-2016-06-10/SynthesizeSpeech

https://docs.aws.amazon.com/goto/SdkForPHPV3/polly-2016-06-10/SynthesizeSpeech

https://docs.aws.amazon.com/goto/boto3/polly-2016-06-10/SynthesizeSpeech

https://docs.aws.amazon.com/goto/SdkForRubyV2/polly-2016-06-10/SynthesizeSpeech

Amazon Polly EntwicklerhandbuchLexicon

LexiconProvides lexicon name and lexicon content in string format. For more information, see PronunciationLexicon Specification (PLS) Version 1.0.

ContentsContent

Lexicon content in string format. The content of a lexicon must be in PLS format.

Type: String

Required: NoName


Type: String


Required: No


• AWS SDK for C++• AWS SDK for Go• AWS SDK for Go - Pilot• AWS SDK for Java• AWS SDK for Ruby V2

224



https://docs.aws.amazon.com/goto/SdkForCpp/polly-2016-06-10/Lexicon

https://docs.aws.amazon.com/goto/SdkForGoV1/polly-2016-06-10/Lexicon

https://docs.aws.amazon.com/goto/SdkForGoPilot/polly-2016-06-10/Lexicon

https://docs.aws.amazon.com/goto/SdkForJava/polly-2016-06-10/Lexicon

https://docs.aws.amazon.com/goto/SdkForRubyV2/polly-2016-06-10/Lexicon

Amazon Polly EntwicklerhandbuchLexiconAttributes

LexiconAttributesContains metadata describing the lexicon such as the number of lexemes, language code, and so on. Formore information, see Managing Lexicons.

ContentsAlphabet

Phonetic alphabet used in the lexicon. Valid values are ipa and x-sampa.

Type: String

Required: NoLanguageCode

Language code that the lexicon applies to. A lexicon with a language code such as "en" would beapplied to all English languages (en-GB, en-US, en-AUS, en-WLS, and so on.

Type: String


Required: NoLastModified

Date lexicon was last modified (a timestamp value).

Type: Timestamp

Required: NoLexemesCount

Number of lexemes in the lexicon.

Type: Integer

Required: NoLexiconArn

Amazon Resource Name (ARN) of the lexicon.

Type: String

Required: NoSize

Total size of the lexicon, in characters.

Type: Integer

Required: No


225


Amazon Polly EntwicklerhandbuchLexiconAttributes


226

https://docs.aws.amazon.com/goto/SdkForCpp/polly-2016-06-10/LexiconAttributes

https://docs.aws.amazon.com/goto/SdkForGoV1/polly-2016-06-10/LexiconAttributes

https://docs.aws.amazon.com/goto/SdkForGoPilot/polly-2016-06-10/LexiconAttributes

https://docs.aws.amazon.com/goto/SdkForJava/polly-2016-06-10/LexiconAttributes

https://docs.aws.amazon.com/goto/SdkForRubyV2/polly-2016-06-10/LexiconAttributes

Amazon Polly EntwicklerhandbuchLexiconDescription

LexiconDescriptionDescribes the content of the lexicon.

ContentsAttributes

Provides lexicon metadata.

Type: LexiconAttributes (p. 225) object

Required: NoName


Type: String


Required: No



227

https://docs.aws.amazon.com/goto/SdkForCpp/polly-2016-06-10/LexiconDescription

https://docs.aws.amazon.com/goto/SdkForGoV1/polly-2016-06-10/LexiconDescription

https://docs.aws.amazon.com/goto/SdkForGoPilot/polly-2016-06-10/LexiconDescription

https://docs.aws.amazon.com/goto/SdkForJava/polly-2016-06-10/LexiconDescription

https://docs.aws.amazon.com/goto/SdkForRubyV2/polly-2016-06-10/LexiconDescription

Amazon Polly EntwicklerhandbuchSynthesisTask

SynthesisTaskSynthesisTask object that provides information about a speech synthesis task.

ContentsCreationTime

Timestamp for the time the synthesis task was started.

Type: Timestamp

Required: NoEngine


Type: String



Optional language code for a synthesis task. This is only necessary if using a bilingual voice, such asAditi, which can be used for either Indian English (en-IN) or Hindi (hi-IN).


Type: String


Required: NoLexiconNames

List of one or more pronunciation lexicon names you want the service to apply during synthesis.Lexicons are applied only if the language of the lexicon is the same as the language of the voice.




Required: NoOutputFormat


Type: String

228




Required: NoOutputUri

Pathway for the output speech file.

Type: String

Required: NoRequestCharacters

Number of billable characters synthesized.

Type: Integer

Required: NoSampleRate




Type: String

Required: NoSnsTopicArn

ARN for the SNS topic optionally used for providing status notification for a speech synthesis task.

Type: String

Pattern: ârn:aws(-(cn|iso(-b)?|us-gov))?:sns:[a-z0-9_-]{1,50}:\d{12}:[a-zA-Z0-9_-]{1,256}$

Required: NoSpeechMarkTypes





Required: NoTaskId

The Amazon Polly generated identifier for a speech synthesis task.

Type: String

Pattern: ^[a-zA-Z0-9_-]{1,100}$

Required: No

229


TaskStatus

Current status of the individual speech synthesis task.

Type: String

Valid Values: scheduled | inProgress | completed | failed

Required: NoTaskStatusReason

Reason for the current status of a specific speech synthesis task, including errors if the task has failed.

Type: String

Required: NoTextType

Specifies whether the input text is plain text or SSML. The default value is plain text.

Type: String


Required: NoVoiceId

Voice ID to use for the synthesis.

Type: String


Required: No



230

https://docs.aws.amazon.com/goto/SdkForCpp/polly-2016-06-10/SynthesisTask

https://docs.aws.amazon.com/goto/SdkForGoV1/polly-2016-06-10/SynthesisTask

https://docs.aws.amazon.com/goto/SdkForGoPilot/polly-2016-06-10/SynthesisTask

https://docs.aws.amazon.com/goto/SdkForJava/polly-2016-06-10/SynthesisTask

https://docs.aws.amazon.com/goto/SdkForRubyV2/polly-2016-06-10/SynthesisTask

Amazon Polly EntwicklerhandbuchVoice

VoiceDescription of the voice.

ContentsAdditionalLanguageCodes

Additional codes for languages available for the specified voice in addition to its default language.

For example, the default language for Aditi is Indian English (en-IN) because it was first used for thatlanguage. Since Aditi is bilingual and fluent in both Indian English and Hindi, this parameter wouldshow the code hi-IN.



Required: NoGender

Gender of the voice.

Type: String

Valid Values: Female | Male

Required: NoId

Amazon Polly assigned voice ID. This is the ID that you specify when calling the SynthesizeSpeechoperation.

Type: String



Language code of the voice.

Type: String


Required: No

231

Amazon Polly EntwicklerhandbuchVoice

LanguageName

Human readable name of the language in English.

Type: String

Required: NoName

Name of the voice (for example, Salli, Kendra, etc.). This provides a human readable voice name thatyou might display in your application.

Type: String

Required: NoSupportedEngines

Specifies which engines (standard or neural) that are supported by a given voice.



Required: No



232

https://docs.aws.amazon.com/goto/SdkForCpp/polly-2016-06-10/Voice

https://docs.aws.amazon.com/goto/SdkForGoV1/polly-2016-06-10/Voice

https://docs.aws.amazon.com/goto/SdkForGoPilot/polly-2016-06-10/Voice

https://docs.aws.amazon.com/goto/SdkForJava/polly-2016-06-10/Voice

https://docs.aws.amazon.com/goto/SdkForRubyV2/polly-2016-06-10/Voice

Amazon Polly EntwicklerhandbuchAuthentifizierung

Authentifizierung und Zugriffskontrollefür Amazon Polly

Für den Zugriff auf Amazon Polly sind Anmeldeinformationen erforderlich. Diese Anmeldeinformationenmüssen über Berechtigungen für den Zugriff auf AWS-Ressourcen, wie beispielsweise eine Amazon Pollylexicon- oder eine Amazon Elastic Compute Cloud (Amazon EC2)-Instance, verfügen. In den folgendenAbschnitten wird beschrieben, wie Sie mithilfe von AWS Identity and Access Management (IAM) undAmazon Polly dauerhaft Zugriff auf Ihre Ressourcen erhalten können.

• Authentifizierung (p. 233)• Zugangskontrolle (p. 234)

AuthentifizierungSie können mit einer der folgenden Identitäten auf AWS zugreifen:

• Stammbenutzer des AWS-Kontos – Wenn Sie ein AWS-Konto neu erstellen, enthält es zunächst nureine einzelne Anmeldeidentität, die über Vollzugriff auf sämtliche AWS-Services und -Ressourcenim Konto verfügt. Diese Identität wird als Root-Benutzer des AWS-Kontos bezeichnet. Um aufes zuzugreifen, müssen Sie sich mit der E-Mail-Adresse und dem Passwort anmelden, die zurErstellung des Kontos verwendet wurden. Wir raten ausdrücklich davon ab, den Root-Benutzer fürAlltagsaufgaben einschließlich administrativen Aufgaben zu verwenden. Bleiben Sie stattdessen beider bewährten Methode, den Root-Benutzer nur zu verwenden, um Ihren ersten IAM-Benutzer zuerstellen. Anschließend legen Sie die Anmeldedaten für den Root-Benutzer an einem sicheren Ort abund verwenden ihn nur, um einige Konto- und Service-Verwaltungsaufgaben durchzuführen.

• IAM-Benutzer – Ein IAM-Benutzer ist eine Identität in Ihrem AWS-Konto mit bestimmtenbenutzerdefinierten Berechtigungen (z. B. die Berechtigung zum Erstellen von a lexicon in AmazonPolly). Sie können einen IAM-Benutzernamen und ein Passwort für die Anmeldung bei sicherenAWS-Webseiten verwenden. Dazu zählen beispielsweise die AWS Management Console, AWS-Diskussionsforen und das AWS Support Center.

Zusätzlich zu einem Benutzernamen und Passwort können Sie Zugriffsschlüssel für jeden Benutzererstellen. Verwenden Sie diese Schlüssel, wenn Sie über eines der verschiedenen SDKs oder über dieAWS Command Line Interface (CLI) programmgesteuert auf AWS-Services zugreifen. Das SDK und dieCLI-Tools verwenden die Zugriffsschlüssel, um Ihre Anfrage verschlüsselt zu signieren. Wenn Sie keineAWS-Tools verwenden, müssen Sie die Anforderung selbst signieren. Amazon Polly supportsSignatureVersion 4 ein Protokoll für die Authentifizierung eingehender API-Anfragen. Weitere Informationen zurAuthentifizierung von Anfragen finden Sie unter Signature Version 4-Signaturprozess im AWS GeneralReference.

• IAM-Rolle – Eine IAM-Rolle ist eine IAM-Identität, die Sie in Ihrem Konto mit bestimmten Berechtigungen

erstellen können. Eine IAM-Rolle ist einem IAM-Benutzer insofern sehr ähnlich, weil es sich hierbeium eine AWS-Identität mit Berechtigungsrichtlinien handelt, die festlegen, welche Aktionen die

233

https://docs.aws.amazon.com/IAM/latest/UserGuide/introduction.html

https://docs.aws.amazon.com/IAM/latest/UserGuide/best-practices.html#create-iam-users

https://docs.aws.amazon.com/IAM/latest/UserGuide/best-practices.html#create-iam-users

https://docs.aws.amazon.com/IAM/latest/UserGuide/id_users.html

https://console.aws.amazon.com/

https://forums.aws.amazon.com/

https://forums.aws.amazon.com/

https://console.aws.amazon.com/support/home#/

https://docs.aws.amazon.com/IAM/latest/UserGuide/id_credentials_access-keys.html

https://aws.amazon.com/tools/#sdk

https://aws.amazon.com/cli/

https://docs.aws.amazon.com/general/latest/gr/signature-version-4.html

https://docs.aws.amazon.com/IAM/latest/UserGuide/id_roles.html

Amazon Polly EntwicklerhandbuchZugangskontrolle

Identität in AWS ausführen kann und welche nicht. Eine Rolle ist jedoch nicht einer einzigen Personzugeordnet, sondern kann von allen Personen angenommen werden, die diese Rolle benötigen. EinerRolle sind außerdem keine standardmäßigen, langfristigen Anmeldeinformationen (Passwörter oderZugriffsschlüssel) zugeordnet. Wenn Sie eine Rolle annehmen, erhalten Sie stattdessen temporäreAnmeldeinformationen für Ihre Rollensitzung. IAM-Rollen mit temporären Anmeldeinformationen sind infolgenden Situationen hilfreich:

• Zugriff für verbundene Benutzer – Statt einen IAM-Benutzer zu erstellen, können Sie vorhandene

Identitäten von AWS Directory Service, aus Ihrem Unternehmens-Benutzerverzeichnis oder von einemWeb-Identitätsanbieter verwenden. Diese werden als verbundene Benutzer bezeichnet. AWS weisteinem verbundenen Benutzer eine Rolle zu, wenn der Zugriff über einen Identitätsanbieter angefordertwird. Weitere Informationen zu verbundenen Benutzern finden Sie unter Verbundene Benutzer undRollen im IAM-Benutzerhandbuch.

• Zugriff auf AWS-Services: – Eine Servicerolle ist eine IAM-Rolle, die ein Service übernimmt, um

Aktionen in Ihrem Konto für Sie auszuführen. Beim Einrichten einiger AWS-Serviceumgebungenmüssen Sie eine Rolle für den zu übernehmenden Service definieren. Diese Servicerolle muss alle fürden Service erforderlichen Berechtigungen für den Zugriff auf die AWS-Ressourcen, die erforderlichsind, enthalten. Servicerollen unterscheiden sich von Service zu Service, aber viele erlauben Ihnen,Ihre Berechtigungen auszuwählen, solange Sie die dokumentierten Anforderungen für diesen Serviceerfüllen. Service-Rollen bieten nur Zugriff innerhalb Ihres Kontos und können nicht genutzt werden,um Zugriff auf Services in anderen Konten zu erteilen. Sie können eine Servicerolle in IAM erstellen,ändern und löschen. Sie können beispielsweise eine Rolle erstellen, mit der Amazon Redshift inIhrem Namen auf einen Amazon S3-Bucket zugreifen und Daten aus diesem Bucket in einen AmazonRedshift-Cluster laden kann. Weitere Informationen finden Sie unter Erstellen einer Rolle zumDelegieren von Berechtigungen an einen AWS-Service im IAM-Benutzerhandbuch.

• Anwendungen, die auf Amazon EC2 ausgeführt werden: – Sie können eine IAM-Rolle nutzen,

um temporäre Anmeldeinformationen für Anwendungen zu verwalten, die auf einer EC2-Instance ausgeführt werden und AWS CLI- oder AWS-API-Anforderungen durchführen. Das istempfehlenswerter als Zugriffsschlüssel innerhalb der EC2 Instance zu speichern. Erstellen Sie einInstance-Profil, das an die Instance angefügt ist, um eine AWS-Rolle einer EC2-Instance zuzuweisenund die Rolle für sämtliche Anwendungen der Instance bereitzustellen. Ein Instance-Profil enthältdie Rolle und ermöglicht, dass Programme, die in der EC2-Instance ausgeführt werden, temporäreAnmeldeinformationen erhalten. Weitere Informationen finden Sie unter Verwenden einer IAM-Rollezum Erteilen von Berechtigungen für Anwendungen, die auf Amazon EC2-Instances ausgeführtwerden im IAM-Benutzerhandbuch.

ZugangskontrolleSie können über gültige Anmeldeinformationen zur Authentifizierung Ihrer Anforderungen verfügen, dochSie können die Amazon Polly-Ressourcen nur mit entsprechenden Berechtigungen erstellen oder daraufzugreifen. So benötigen Sie beispielsweise Berechtigungen zum Erstellen eines Amazon Polly lexicon.

In den folgenden Abschnitten wird die Verwaltung von Berechtigungen für Amazon Polly beschrieben. Wirempfehlen Ihnen, zunächst die Übersicht zu lesen.

• Übersicht über die Verwaltung von Zugriffsberechtigungen für Ihre Amazon Polly-Ressourcen (p. 235)• Verwenden von identitätsbasierten Richtlinien (IAM-Richtlinien) für Amazon Polly (p. 238)• Amazon Polly-API-Berechtigungen: Aktionen, Berechtigungen und Ressourcenreferenz (p. 242)

234

https://docs.aws.amazon.com/IAM/latest/UserGuide/id_roles_providers.html

https://docs.aws.amazon.com/IAM/latest/UserGuide/introduction_access-management.html#intro-access-roles

https://docs.aws.amazon.com/IAM/latest/UserGuide/introduction_access-management.html#intro-access-roles

https://docs.aws.amazon.com/IAM/latest/UserGuide/id_roles_create_for-service.html

https://docs.aws.amazon.com/IAM/latest/UserGuide/id_roles_create_for-service.html

https://docs.aws.amazon.com/IAM/latest/UserGuide/id_roles_use_switch-role-ec2.html



Amazon Polly EntwicklerhandbuchÜbersicht über die Verwaltung des Zugriffs

Übersicht über die Verwaltung vonZugriffsberechtigungen für Ihre Amazon Polly-Ressourcen

Jede AWS-Ressource ist Eigentum eines AWS-Kontos und die Berechtigungen für die Erstellung einerRessource oder den Zugriff darauf werden durch Berechtigungsrichtlinien geregelt. Ein Kontoadministratorkann IAM-Identitäten (d. h. Benutzer, Gruppen und Rollen) Berechtigungsrichtlinien zuweisen. MancheServices (z. B. AWS Lambda) unterstützen auch die Zuweisung von Berechtigungsrichtlinien zuRessourcen.

Note

Ein Kontoadministrator (oder Administratorbenutzer) ist ein Benutzer mit Administratorrechten.Weitere Informationen finden Sie unter Bewährte Methoden für IAM im IAM-Benutzerhandbuch.

Beim Erteilen von Berechtigungen entscheiden Sie, wer die Berechtigungen erhält, für welche Ressourcendie Berechtigungen gelten und welche Aktionen an diesen Ressourcen gestattet werden sollen.

Themen• Amazon Polly-Ressourcen und -Operationen (p. 235)• Grundlegendes zum Eigentum an Ressourcen (p. 235)• Verwalten des Zugriffs auf Ressourcen (p. 236)• Festlegen der Richtlinienelemente: Aktionen, Effekte und Prinzipale (p. 237)• Angeben von Bedingungen in einer Richtlinie (p. 238)

Amazon Polly-Ressourcen und -OperationenIn Amazon Polly ist die primäre Ressource a lexicon. In einer Richtlinie identifizieren Sie die Ressource, fürwelche die Richtlinie gilt, mithilfe eines Amazon-Ressourcennamens (ARN).

Diese Ressourcen und Unterressourcen sind eindeutigen Amazon-Ressourcennamen (ARNs) zugeordnet(siehe Tabelle unten).

Ressourcentyp ARN-Format

Lexicon arn:aws:polly:region:account-id:lexicon/LexiconName

Amazon Polly bietet eine Reihe von Operationen für die Arbeit mit Amazon Polly-Ressourcen. Eine Listeder verfügbaren Operationen finden Sie unter Amazon Polly Amazon Polly-API-Referenz (p. 197).

Grundlegendes zum Eigentum an RessourcenDas AWS-Konto ist Eigentümer aller Ressourcen, die innerhalb des Kontos erstellt werden, unabhängigdavon, wer sie erstellt. Genauer gesagt ist Ressourceneigentümer das AWS-Konto der Prinzipal-Entität(d. h. das Stammkonto, ein IAM-Benutzer oder eine IAM-Rolle), die die Ressourcenerstellungsanforderungauthentifiziert. Die Funktionsweise wird anhand der folgenden Beispiele deutlich:

• Wenn Sie die Stammkonto-Anmeldeinformationen für Ihr AWS-Konto verwenden, um a lexicon zuerstellen, ist Ihr AWS-Konto der Eigentümer der Ressource (in Amazon Polly ist die Ressource alexicon).

235

https://docs.aws.amazon.com/IAM/latest/UserGuide/best-practices.html

https://docs.aws.amazon.com/IAM/latest/UserGuide/id_roles_terms-and-concepts.html

Amazon Polly EntwicklerhandbuchVerwalten des Zugriffs auf Ressourcen

• Wenn Sie in Ihrem AWS-Konto einen IAM-Benutzer einrichten und diesem Berechtigungen zum Erstellenvon a lexicon erteilen, kann der Benutzer a lexicon erstellen. Jedoch ist Ihr AWS-Konto, dem derBenutzer angehört, der Eigentümer der lexicon-Ressourcen.

• Wenn Sie in Ihrem AWS-Konto eine IAM-Rolle mit Berechtigungen zum Erstellen von a lexiconeinrichten, kann jeder, der die Rolle übernimmt, a lexicon erstellen. Ihr AWS-Konto, dem der Benutzerangehört, ist der Eigentümer der lexicon-Ressourcen.

Verwalten des Zugriffs auf RessourcenEine Berechtigungsrichtlinie beschreibt, wer Zugriff auf welche Objekte hat. Im folgenden Abschnitt werdendie verfügbaren Optionen zum Erstellen von Berechtigungsrichtlinien erläutert.

Note

Dieser Abschnitt behandelt die Verwendung von IAM im Zusammenhang mit Amazon Polly.Er enthält keine detaillierten Informationen über den IAM-Service. Eine umfassende IAM-Dokumentation finden Sie unter Was ist IAM? im IAM-Benutzerhandbuch. Informationen über dieIAM-Richtliniensyntax und Beschreibungen finden Sie in der AWS IAM Policy Reference (AWSIAM-Richtlinienreferenz) im IAM-Benutzerhandbuch.

Richtlinien, die einer IAM-Identität angefügt wurden, werden als identitätsbasierte Richtlinien (IAM-Richtlinien) bezeichnet, während Richtlinien, die einer Ressource angefügt wurden, als ressourcenbasierteRichtlinien bezeichnet werden. Amazon Polly unterstützt Richtlinien auf Identititätsbasis.

Themen• Identitätsbasierte Richtlinien (IAM-Richtlinien) (p. 236)• Ressourcenbasierte Richtlinien (p. 237)

Identitätsbasierte Richtlinien (IAM-Richtlinien)Richtlinien können IAM-Identitäten zugewiesen werden. Sie können z. B. Folgendes tun:

• Eine Berechtigungsrichtlinie einem Benutzer oder einer Gruppe in Ihrem Konto anfügen – – Um einemBenutzer die Berechtigung zum Erstellen einer Amazon Polly-Ressource wie z. B. a lexicon zu erteilen,können Sie einem Benutzer oder einer Gruppe, der der Benutzer angehört, eine Berechtigungsrichtlinieanfügen.

• Einer Rolle eine Berechtigungsrichtlinie zuweisen (kontoübergreifende Berechtigungen erteilen) – Siekönnen einer IAM-Rolle eine identitätsbasierte Berechtigungsrichtlinie zuweisen, um kontoübergreifendeBerechtigungen zu erteilen. Beispielsweise kann der Administrator in Konto A eine Rolle erstellen, umeinem anderen AWS-Konto (z. B. Konto B) oder einem AWS-Service kontoübergreifende Berechtigungenzu erteilen. Dazu geht er folgendermaßen vor:1. Der Administrator von Konto A erstellt eine IAM-Rolle und fügt dieser eine Berechtigungsrichtlinie an,

die Berechtigungen für Ressourcen in Konto A erteilt.2. Der Administrator von Konto A weist der Rolle eine Vertrauensrichtlinie zu, die Konto B als den

Prinzipal identifiziert, der die Rolle übernehmen kann.3. Der Administrator von Konto B kann nun Berechtigungen zur Übernahme der Rolle an alle Benutzer in

Konto B delegieren. Daraufhin können die Benutzer in Konto B auf Ressourcen von Konto A zugreifen.Der Prinzipal in der Vertrauensrichtlinie kann auch ein AWS-Service-Prinzipal sein. Somit können Sieauch einem AWS-Service die Berechtigungen zur Übernahme der Rolle erteilen.

Weitere Informationen zum Delegieren von Berechtigungen mithilfe von IAM finden Sie unterZugriffsverwaltung im IAM-Benutzerhandbuch.

236

https://docs.aws.amazon.com/IAM/latest/UserGuide/introduction.html

https://docs.aws.amazon.com/IAM/latest/UserGuide/reference_policies.html


https://docs.aws.amazon.com/IAM/latest/UserGuide/access.html

Amazon Polly EntwicklerhandbuchFestlegen der Richtlinienelemente:

Aktionen, Effekte und Prinzipale

Nachfolgend sehen Sie eine Beispielrichtlinie, die den Benutzer dazu berechtigt, Lexika in einer Region zuspeichern, Lexika abzurufen sowie alle aktuell verfügbaren Lexika aufzulisten.

Amazon Polly unterstützt identitätsbasierte Richtlinien für Aktionen auf Ressourcenebene. Daher wirdfür den Wert Resource der ARN angegeben. Beispiel: arn:aws:polly:us-east-2:account-id:lexicon/* als Resource-Wert definiert Berechtigungen für alle im Besitz des angegebenenBenutzers befindlichen Lexika in der Region us-east-2.

{ "Version": "2012-10-17", "Statement": [{ "Sid": "AllowPut-Get-ListActions", "Effect": "Allow", "Action": [ "polly:PutLexicon", "polly:GetLexicon", "polly:ListLexicons"], "Resource": "arn:aws:polly:us-east-2:account-id:lexicon/*" } ]}

Weitere Informationen zur Verwendung von identitätsbasierten Richtlinien mit Amazon Polly finden Sieunter Verwenden von identitätsbasierten Richtlinien (IAM-Richtlinien) für Amazon Polly (p. 238). WeitereInformationen zu Benutzern, Gruppen, Rollen und Berechtigungen finden Sie unter Identitäten (Benutzer,Gruppen und Rollen) im IAM-Benutzerhandbuch.

Ressourcenbasierte RichtlinienAndere Services, z. B. Amazon S3, unterstützen auch ressourcenbasierte Berechtigungsrichtlinien.Beispielsweise können Sie einem S3-Bucket eine ressourcenbasierte Richtlinie zuweisen, um dieZugriffsberechtigungen für diesen Bucket zu verwalten. Amazon Polly bietet keine Unterstützung fürressourcenbasierte Richtlinien.

Festlegen der Richtlinienelemente: Aktionen, Effekteund PrinzipaleFür jede Amazon Polly-Ressource definiert der Dienst eine Reihe von API-Operationen. Zur Erteilungvon Berechtigungen für diese API-Operationen definiert Amazon Polly Aktionen, die Sie in einer Richtlinieangeben können. Einige API-Operationen erfordern möglicherweise Berechtigungen für mehr als eineAktion, um die API-Operation auszuführen. Weitere Informationen zu Ressourcen und API-Operationenfinden Sie unter Amazon Polly-Ressourcen und -Operationen (p. 235) und Amazon Polly-API-Referenz (p. 197).

Grundlegende Richtlinienelemente:

• Resource – – Sie verwenden einen Amazon-Ressourcennamen (ARN), um die Ressource anzugeben,auf die die identitätsbasierte Richtlinie angewendet werden soll. Weitere Informationen finden Sie unterAmazon Polly-Ressourcen und -Operationen (p. 235).

• Aktion – – Mit Aktionsschlüsselwörtern geben Sie die Ressourcenoperationen an, die Sie zulassen oderverweigern möchten. Mit polly:PutLexicon beispielsweise können Sie ein Lexikon in einer Regionspeichern.

• Effekt – – Die von Ihnen festgelegte Auswirkung (entweder Zugriffserlaubnis oder Zugriffsverweigerung),wenn ein Benutzer die jeweilige Aktion anfordert. Wenn Sie den Zugriff auf eine Ressource nichtausdrücklich gestatten ("Allow"), wird er automatisch verweigert. Sie können den Zugriff auf eineRessource auch explizit verweigern. So können Sie sicherstellen, dass Benutzer nicht darauf zugreifenkönnen, auch wenn der Zugriff durch eine andere Richtlinie gestattet wird.

237

https://docs.aws.amazon.com/IAM/latest/UserGuide/id.html

https://docs.aws.amazon.com/IAM/latest/UserGuide/id.html

Amazon Polly EntwicklerhandbuchAngeben von Bedingungen in einer Richtlinie

• Prinzipal – In identitätsbasierten Richtlinien (IAM-Richtlinien) ist der Benutzer, dem die Richtlinieangefügt ist, automatisch der Prinzipal. In ressourcenbasierten Richtlinien müssen Sie den Benutzer,das Konto, den Service oder die sonstige Entität angeben, die die Berechtigungen erhalten soll (gilt nurfür ressourcenbasierte Richtlinien). Amazon Polly bietet keine Unterstützung für ressourcenbasierteRichtlinien.

Weitere Informationen zur IAM-Richtliniensyntax und entsprechende Beschreibungen enthält die AWS IAM-Richtlinienreferenz im IAM-Benutzerhandbuch.

Eine mit einer Liste von allen Amazon Polly-API-Operationen und den Ressourcen, für welchediese gelten, finden Sie unter Amazon Polly-API-Berechtigungen: Aktionen, Berechtigungen undRessourcenreferenz (p. 242).

Angeben von Bedingungen in einer RichtlinieBeim Erteilen von Berechtigungen können Sie mithilfe der Sprache der Zugriffsrichtlinie die Bedingungenangeben, wann die Richtlinie wirksam werden soll. Beispielsweise kann festgelegt werden, dass eineRichtlinie erst ab einem bestimmten Datum gilt. Weitere Informationen zum Angeben von Bedingungen ineiner Richtliniensyntax finden Sie im Thema Bedingung im IAM-Benutzerhandbuch.

Bedingungen werden mithilfe vordefinierter Bedingungsschlüssel formuliert. Für Amazon Polly gibtes keine speziellen Bedingungsschlüssel. Stattdessen können Sie nach Bedarf die AWS-weitenBedingungsschlüssel verwenden. Eine vollständige Liste der AWS-weiten Schlüssel finden Sie unterVerfügbare Schlüssel für Bedingungen im IAM-Benutzerhandbuch.

Verwenden von identitätsbasierten Richtlinien (IAM-Richtlinien) für Amazon Polly

Dieses Thema enthält Beispiele zu identitätsbasierten Richtlinien, die verdeutlichen, wie einKontoadministrator IAM-Identitäten (d. h. Benutzern, Gruppen und Rollen) Berechtigungsrichtlinienzuweisen und somit Berechtigungen zur Durchführung von Operationen für Amazon Polly-Ressourcenerteilen kann.

Important

Wir empfehlen Ihnen, zunächst die einführenden Themen zu lesen, in denen die Grundkonzepteund verfügbaren Optionen zum Verwalten des Zugriffs auf Ihre Amazon Polly-Ressourcenerläutert werden. Weitere Informationen finden Sie unter Übersicht über die Verwaltung vonZugriffsberechtigungen für Ihre Amazon Polly-Ressourcen (p. 235).

Themen• Erforderliche Berechtigungen für die Verwendung der Amazon Polly-Konsole (p. 239)• Von AWS verwaltete (vordefinierte) Richtlinien für Amazon Polly (p. 240)• Beispiele für vom Kunden verwaltete Richtlinien (p. 240)

Hier ein Beispiel für eine Berechtigungsrichtlinie.

{ "Version": "2012-10-17", "Statement": [{ "Sid": "AllowGet-Delete-ListActions", "Effect": "Allow", "Action": [

238



https://docs.aws.amazon.com/IAM/latest/UserGuide/reference_policies_elements.html#Condition

https://docs.aws.amazon.com/IAM/latest/UserGuide/reference_policies_elements.html#AvailableKeys

Amazon Polly EntwicklerhandbuchErforderliche Berechtigungen für die

Verwendung der Amazon Polly-Konsole

"polly:GetLexicon", "polly:DeleteLexicon", "polly:ListLexicons"], "Resource": "*" } ], "Statement": [{ "Sid": "NoOverrideMyLexicons", "Effect": "Deny", "Action": [ "polly:PutLexicon"], "Resource": "arn:aws:polly:us-east-2:123456789012:lexicon/my*" } ]}

Die Richtlinie enthält zwei Anweisungen:

• Die erste Anweisung erteilt eine Berechtigung zur Anwendung von drei Polly-Aktionen(polly:GetLexicon, polly:DeleteLexicon und polly:ListLexicons) auf jedes beliebigeLexikon. Wenn Sie als Ressource das Platzhalterzeichen (*) angeben, werden universelleBerechtigungen zur Durchführung der Aktionen erteilt. Dann können die Aktionen in allen Regionenangewendet werden und auf alle Lexika, die sich im Besitz des betreffenden Kontos befinden.

• Die zweite Anweisung verweigert explizit die Berechtigung zur Durchführung einer bestimmten Polly-Aktion (polly:PutLexicon). Der als Ressource angegebene ARN legt fest, dass diese Berechtigungfür alle Lexika gilt, die sich in der Region us-east-2 befinden und deren Name mit den Buchstaben"my" beginnt.

Eine Tabellenliste mit allen Amazon Polly-API-Aktionen und den Ressourcen, für die diesegelten, finden Sie unter Amazon Polly-API-Berechtigungen: Aktionen, Berechtigungen undRessourcenreferenz (p. 242).

Erforderliche Berechtigungen für die Verwendung derAmazon Polly-KonsoleDamit Benutzer mit der Amazon Polly-Konsole arbeiten können, müssen sie über einen Mindestsatz anBerechtigungen verfügen, die es ihnen erlauben, die Amazon Polly-Ressourcen in ihrem AWS-Konto zubeschreiben.

Wenn Sie eine IAM-Richtlinie erstellen, die strenger ist als die mindestens erforderlichen Berechtigungen,funktioniert die Konsole nicht wie vorgesehen für Benutzer mit dieser IAM-Richtlinie.

Für Benutzer, die nur Aufrufe an die AWS CLI oder Amazon Polly-API durchführen, müssen Sie keineMindestberechtigungen in der Konsole erteilen.

Um die Amazon Polly-Konsole nutzen zu können, müssen Sie allen Amazon Polly-APIs Berechtigungenerteilen. Weitere Berechtigungen sind nicht erforderlich. Die unten abgebildete Berechtigungsrichtliniegenügt, um die Amazon Polly-Konsole nutzen zu können.

}"Version": "2012-10-17", "Statement": [{ "Sid": "Console-AllowAllPollyActions", "Effect": "Allow", "Action": [ "polly:*"], "Resource": "*" }

239

Amazon Polly EntwicklerhandbuchVon AWS verwaltete (vordefinierte)

Richtlinien für Amazon Polly

]}

Von AWS verwaltete (vordefinierte) Richtlinien fürAmazon PollyDurch die Bereitstellung von eigenständigen IAM-Richtlinien, die von AWS erstellt und administriertwerden, deckt AWS viele häufige Anwendungsfälle ab. Diese von AWS verwalteten Richtlinien erteilendie erforderlichen Berechtigungen für viele häufige Anwendungsfälle, sodass Sie nicht mühsam ermittelnmüssen, welche Berechtigungen erforderlich sind. Weitere Informationen finden Sie unter AWS-verwalteteRichtlinien im IAM-Benutzerhandbuch.

Die folgenden AWS-verwalteten Richtlinien, die Sie Benutzern in Ihrem Konto anfügen können, geltenspeziell für Amazon Polly:

• AmazonPollyReadOnlyAccess – Gewährt schreibgeschützten Zugriff auf Ressourcen und erlaubt dieAuflistung von Lexika, den Abruf von Lexika, die Auflistung verfügbarer Stimmen und die Generierungvon Sprachausgabe (einschließlich der Anwendung von Lexika auf die generierte Sprachausgabe).

• AmazonPollyFullAccess – Erlaubt vollen Zugriff auf Ressourcen und alle unterstützten Operationen.

Note

Sie können diese Berechtigungsrichtlinien prüfen, indem Sie sich bei der IAM-Konsole anmeldenund dort nach bestimmten Richtlinien suchen.

Sie können auch Ihre eigenen, benutzerdefinierten IAM-Richtlinien erstellen, um Berechtigungen fürAmazon Polly-Aktionen und -Ressourcen zu gewähren. Die benutzerdefinierten Richtlinien können Siedann den IAM-Benutzern oder -Gruppen zuweisen, die diese Berechtigungen benötigen.

Beispiele für vom Kunden verwaltete RichtlinienIn diesem Abschnitt finden Sie Beispiele für Benutzerrichtlinien, die Berechtigungen für verschiedeneAmazon Polly-Aktionen gewähren. Diese Richtlinien sind nur wirksam, wenn Sie AWS SDKs oder die AWSCLI verwenden. Wenn Sie die Konsole verwenden, müssen Sie allen Amazon Polly-APIs Berechtigungenerteilen. Näheres hierzu finden Sie unter Erforderliche Berechtigungen für die Verwendung der AmazonPolly-Konsole (p. 239).

Note

In allen Beispielen werden die Region "us-east-2" und fiktive Konto-IDs verwendet.

Beispiele• Beispiel 1: Erlauben sämtlicher Amazon Polly-Aktionen (p. 240)• Beispiel 2: Erlauben sämtlicher Polly-Aktionen außer "DeleteLexicon" (p. 241)• Beispiel 3: Erlauben von "DeleteLexicon" (p. 241)• Beispiel 4: Erlauben von "DeleteLexicon" in einer bestimmten Region (p. 242)• Beispiel 5: Erlauben von "DeleteLexicon" für ein bestimmtes Lexikon (p. 242)

Beispiel 1: Erlauben sämtlicher Amazon Polly-AktionenNach der Registrierung (siehe Schritt 1.1: Registrieren bei AWS (p. 11)) erstellen Sie einenAdministratorbenutzer, der Ihr Konto verwaltet. Er kann unter anderem Benutzer erstellen undBenutzerberechtigungen verwalten.

240

https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_managed-vs-inline.html#aws-managed-policies

https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_managed-vs-inline.html#aws-managed-policies

Amazon Polly EntwicklerhandbuchBeispiele für vom Kunden verwaltete Richtlinien

Sie können einen Benutzer erstellen, der Berechtigungen zur Durchführung sämtlicher Amazon Polly-Aktionen hat, die für die Arbeit mit Amazon Polly benötigt werden. Diesem Benutzer können Sie diefolgende Berechtigungsrichtlinie zuweisen:

{ "Version": "2012-10-17", "Statement": [{ "Sid": "AllowAllPollyActions", "Effect": "Allow", "Action": [ "polly:*"], "Resource": "*" } ]}

Beispiel 2: Erlauben sämtlicher Polly-Aktionen außer"DeleteLexicon"Die folgende Berechtigungsrichtlinie erteilt dem Benutzer Berechtigungen zur Durchführung sämtlicherAktionen außer der Aktion DeleteLexicon. Die Berechtigungen zum Löschen werden explizit verwehrt,und zwar in allen Regionen.

{ "Version": "2012-10-17", "Statement": [{ "Sid": "AllowAllActions-DenyDelete", "Effect": "Allow", "Action": [ "polly:DescribeVoices", "polly:GetLexicon", "polly:PutLexicon", "polly:SynthesizeSpeech", "polly:ListLexicons"], "Resource": "*" } { "Sid": "DenyDeleteLexicon", "Effect": "Deny", "Action": [ "polly:DeleteLexicon"], "Resource": "*" } ]}

Beispiel 3: Erlauben von "DeleteLexicon"Die folgende Berechtigungsrichtlinie gewährt dem Benutzer Berechtigungen zur Löschung jedes beliebigenin Ihrem Besitz befindlichen Lexikons. Es spielt keine Rolle, zu welchem Projekt das Lexikon gehört oder inwelcher Region es sich befindet.

{ "Version": "2012-10-17", "Statement": [{ "Sid": "AllowDeleteLexicon", "Effect": "Allow", "Action": [ "polly:DeleteLexicon"],

241

Amazon Polly EntwicklerhandbuchReferenztabelle für Amazon Polly-API-Berechtigungen

"Resource": "*" } ]}

Beispiel 4: Erlauben von "DeleteLexicon" in einer bestimmtenRegionDie folgende Berechtigungsrichtlinie erteilt dem Benutzer Berechtigungen zur Löschung jedes beliebigenLexikons, das sich in einer bestimmten Region befindet (hier "us-east-2"). Es spielt keine Rolle, zu welchemProjekt das Lexikon gehört.

{ "Version": "2012-10-17", "Statement": [{ "Sid": "AllowDeleteSpecifiedRegion", "Effect": "Allow", "Action": [ "polly:DeleteLexicon"], "Resource": "arn:aws:polly:us-east-2:123456789012:lexicon/*" } ]}

Beispiel 5: Erlauben von "DeleteLexicon" für ein bestimmtesLexikonDie folgende Berechtigungsrichtlinie erteilt dem Benutzer Berechtigungen zur Löschung eines bestimmtenin Ihrem Besitz befindlichen Lexikons (hier "myLexicon") in einer bestimmten Region (hier "us-east-2").

{ "Version": "2012-10-17", "Statement": [{ "Sid": "AllowDeleteForSpecifiedLexicon", "Effect": "Allow", "Action": [ "polly:DeleteLexicon"], "Resource": "arn:aws:polly:us-east-2:123456789012:lexicon/myLexicon" } ]}

Amazon Polly-API-Berechtigungen: Aktionen,Berechtigungen und Ressourcenreferenz

Wenn Sie die Zugangskontrolle (p. 234) einrichten und eine Berechtigungsrichtlinie für eine IAM-Identität(identitätsbasierte Richtlinie) verfassen, können Sie die folgende Liste als Referenz verwenden. In derAuflistung sind sämtliche Amazon Polly-API-Operationen sowie die zugehörigen Aktionen und AWS-Ressourcen, für die Sie Berechtigungen erteilen können, aufgeführt. Die Aktionen geben Sie im FeldAction und den Wert für die Ressource im Feld Resource der Richtlinie an.

Zum Formulieren von Bedingungen in Ihren Amazon Polly-Richtlinien können Sie die globalen AWS-Bedingungsschlüssel verwenden. Eine vollständige Liste der AWS-weiten Schlüssel finden Sie unterVerfügbare Schlüssel im IAM-Benutzerhandbuch.

242

https://docs.aws.amazon.com/IAM/latest/UserGuide/reference_policies_elements.html#AvailableKeys

Amazon Polly EntwicklerhandbuchReferenztabelle für Amazon Polly-API-Berechtigungen

Note

Um eine Aktion anzugeben, verwenden Sie das Präfix polly gefolgt vom Namen der API-Operation (z. B. polly:GetLexicon).

Amazon Polly unterstützt identitätsbasierte Richtlinien für Aktionen auf Ressourcenebene. Daher wirdfür den Wert Resource der ARN angegeben. Beispiel: arn:aws:polly:us-east-2:account-id:lexicon/* als Resource-Wert definiert Berechtigungen für alle im Besitz des angegebenenBenutzers befindlichen Lexika in der Region us-east-2.

Da Amazon Polly keine Berechtigungen für Aktionen auf Ressourcenebene unterstützt, wird in den meistenRichtlinien ein Platzhalterzeichen (*) für den Wert Resource angegeben. Sollte es jedoch notwendigsein, Berechtigungen auf eine bestimmte Region zu beschränken, wird das Platzhalterzeichen durch denentsprechenden ARN ersetzt: arn:aws:polly:region:account-id:lexicon/*.

Amazon Polly-API und erforderliche Berechtigungen für Aktionen

API-Operation: DeleteLexicon (p. 198)

Erforderliche Berechtigungen (API-Aktion): polly:DeleteLexicon

Ressourcen: arn:aws:polly:region:account-id:lexicon/LexiconNameAPI-Operation: DescribeVoices (p. 200)

Erforderliche Berechtigungen (API-Aktion): polly:DescribeVoices

Ressourcen: arn:aws:polly:region:account-id:lexicon/voice-nameAPI-Operation: GetLexicon (p. 203)

Erforderliche Berechtigungen (API-Aktion): polly:GetLexicon

Ressourcen: arn:aws:polly:region:account-id:lexicon/voice-nameAPI-Operation: ListLexicons (p. 207)

Erforderliche Berechtigungen (API-Aktion): polly:ListLexicons

Ressourcen: arn:aws:polly:region:account-id:lexicon/*API-Operation: PutLexicon (p. 211)

Erforderliche Berechtigungen (API-Aktion): polly:ListLexicons

Ressourcen: *API-Operation: SynthesizeSpeech (p. 219)

Erforderliche Berechtigungen (API-Aktion): polly:SynthesizeSpeech

Ressourcen: *

243


Dokumentverlauf für Amazon PollyIn der folgenden Tabelle sind wichtige Änderungen in jeder Version des Amazon Polly-Entwicklerhandbuchs beschrieben. Um Benachrichtigungen über Aktualisierungen dieser Dokumentationzu erhalten, können Sie einen RSS-Feed abonnieren.

• Letzte Aktualisierung der Dokumentation: 2. August 2018

update-history-change update-history-description update-history-date

Neue Stimmenhinzugefügt (p. 244)

Neue Stimmen hinzugefügt: Lucia(weiblich, spanisch) und Bianca(weiblich, Italienisch).

August 2, 2018

Neue Sprachehinzugefügt (p. 244)

Neue Sprache hinzugefügt:mexikanisches Spanisch (es-MX). Diese Sprache verwendetdie weibliche Stimme von Mia.

August 2, 2018


Neue Sprache hinzugefügt: Hindi(hi-IN). Diese Stimme verwendetdie weibliche Stimme vonAditi, die auch für das indischeEnglisch verwendet wird. Somitist Aditi die erste zweisprachigeStimme von Amazon Polly.

August 2, 2018

Neue SSML-Funktionhinzugefügt (p. 244)

Hinzufügen von Maximale Dauerder generierten Sprachausgabe.

July 17, 2018

Neue Funktionhinzugefügt (p. 244)

Hinzufügen von Sprachsynthesevon langen Textpassagen (biszu 100.000 kostenpflichtigeZeichen).

July 17, 2018

Neue Stimmehinzugefügt (p. 244)

Neue Stimme wurde hinzugefügt:Léa (weiblich, Französisch).

June 5, 2018

Regionale Erweiterung (p. 244) Erweiterung des Amazon Polly-Service auf alle kommerziellenRegionen.

June 4, 2018


Neue Sprache hinzugefügt:Koreanisch (ko-KR).

June 4, 2018

Erweiterte Funktion (p. 244) Erweiterung der Amazon Polly-WordPress-Plugin-Funktion,einschließlich Hinzufügen vonAmazon Translate-Funktionen.

June 4, 2018

Neue Stimmenhinzugefügt (p. 244)

Zwei neue Stimmen wurdenhinzugefügt: Aditi (weiblich,indisches Englisch) und Seoyeon(weiblich, koreanisch).

November 15, 2017

244

https://docs.aws.amazon.com/polly/latest/dg/supported-ssml.html#maxduration-tag

https://docs.aws.amazon.com/polly/latest/dg/supported-ssml.html#maxduration-tag

https://docs.aws.amazon.com/polly/latest/dg/asynchronous.html

https://docs.aws.amazon.com/polly/latest/dg/asynchronous.html


Neue Funktion (p. 244) Hinzufügen einer neuenSprachmarkierungs-Funktionsowie Erweitern der SSML-Funktionen.

April 19, 2017

Neues Handbuch (p. 244) Dies ist die erste Versiondes Amazon Polly-Entwicklerhandbuchs.

November 30, 2016

245

https://docs.aws.amazon.com/polly/latest/dg/speechmarks.html

https://docs.aws.amazon.com/polly/latest/dg/ssml.html


AWS-GlossarDie aktuelle AWS-Terminologie finden Sie im AWS-Glossar im AWS General Reference.

246

https://docs.aws.amazon.com/general/latest/gr/glos-chap.html

Documents

Amazon Polly - Entwicklerhandbuch · Amazon Polly Entwicklerhandbuch Verwenden Sie Amazon Polly zum ersten Mal? Was ist Amazon Polly? Amazon Polly ist ein Cloud-Service, der Text