Upload
vukhuong
View
234
Download
0
Embed Size (px)
Citation preview
Amazon Polly Entwicklerhandbuch
Amazon Polly: EntwicklerhandbuchCopyright © 2019 Amazon Web Services, Inc. and/or its affiliates. All rights reserved.
Amazon's trademarks and trade dress may not be used in connection with any product or service that is not Amazon's,in any manner that is likely to cause confusion among customers, or in any manner that disparages or discreditsAmazon. All other trademarks not owned by Amazon are the property of their respective owners, who may or may notbe affiliated with, connected to, or sponsored by Amazon.
Amazon Polly Entwicklerhandbuch
Table of ContentsWas ist Amazon Polly? ....................................................................................................................... 1
Verwenden Sie Amazon Polly zum ersten Mal? .............................................................................. 1Funktionsweise ................................................................................................................................... 3
Die nächsten Themen ................................................................................................................. 3Stimmen in Amazon Polly ............................................................................................................ 3
Verfügbare Stimmen ........................................................................................................... 4Anhören der Stimmen ......................................................................................................... 6Sprechgeschwindigkeit ........................................................................................................ 7
Häufige Fragen .......................................................................................................................... 8Allgemeine Fragen .............................................................................................................. 8Inhalt-Rendering ................................................................................................................. 8Datensicherheit und Vertraulichkeit ........................................................................................ 9
Erste Schritte ................................................................................................................................... 11Schritt 1: Einrichten eines Kontos und eines Benutzers ................................................................... 11
Schritt 1.1: Registrieren bei AWS ........................................................................................ 11Schritt 1.2: Erstellen eines IAM-Benutzers ............................................................................ 12Nächster Schritt ................................................................................................................ 12
Schritt 2: Erste Schritte mit der Konsole ....................................................................................... 13Übung 1: Schnelleinstieg in die Sprachausgabegenerierung (Konsole) ....................................... 13Übung 2: Generieren einer Sprachausgabe (aus einfachem Eingabetext) ................................... 13Nächster Schritt ................................................................................................................ 14
Schritt 3: Erste Schritte mit der AWS CLI ...................................................................................... 14Schritt 3.1: Einrichten vonAWS CLI ..................................................................................... 14Schritt 3.2: Einstiegsübung ................................................................................................. 16
Die nächsten Themen ............................................................................................................... 17Einrichten von Python und Testen des Beispielcodes ............................................................. 17
Stimmen in Amazon Polly .................................................................................................................. 19Verfügbare Stimmen ................................................................................................................... 4Zweisprachige Stimmen ............................................................................................................. 20Anhören der Stimmen ................................................................................................................. 6Sprechgeschwindigkeit ................................................................................................................ 7
Ändern Ihrer Sprechgeschwindigkeit .................................................................................... 22Von Amazon Polly unterstützte Sprachen ..................................................................................... 23
Sprachmarkierungen .......................................................................................................................... 25Typen von Sprachmarkierungen .................................................................................................. 25
Mundbilder und Amazon Polly ............................................................................................ 25Verwenden von Sprachmarkierungen ........................................................................................... 26
Anfordern von Sprachmarkierungen ..................................................................................... 26Sprachmarkierungsausgaben .............................................................................................. 27Beispiele für Sprachmarkierungen ....................................................................................... 28
Anfordern von Sprachmarkierungen über die Amazon Polly-Konsole ................................................. 29Verwenden von SSML ....................................................................................................................... 31
Verwenden von SSML in der Konsole .......................................................................................... 31Verwenden von SSML in der AWS-CLI ........................................................................................ 32
Verwenden von SSML mit dem Befehl „Synthesize-Speech“ .................................................... 33Generieren eines Dokuments mit verbesserten SSML-Tags ..................................................... 34Verwenden von SSML für typische Amazon Polly-Aufgaben .................................................... 34
Von Amazon Polly unterstützte SSML-Tags .................................................................................. 37Unterstützte SSML-Tags .................................................................................................... 37
Verwalten von Lexika ....................................................................................................................... 135Anwenden mehrerer Lexika ...................................................................................................... 135Verwalten von Lexika mithilfe der Konsole .................................................................................. 136
Hochladen von Lexika mithilfe der Konsole ......................................................................... 136Anwenden von Lexika mithilfe der Konsole (synthetische Sprache) .......................................... 137
iii
Amazon Polly Entwicklerhandbuch
Filtern der Lexikonliste mithilfe der Konsole ......................................................................... 138Herunterladen von Lexika mithilfe der Konsole ..................................................................... 138Löschen eines Lexikons mithilfe der Konsole ....................................................................... 139
Verwalten von Lexika mithilfe der AWS CLI ................................................................................ 139PutLexicon ..................................................................................................................... 139GetLexicon ..................................................................................................................... 144ListLexicons .................................................................................................................... 145DeleteLexicon ................................................................................................................. 145
Lange Audiodateien erstellen ............................................................................................................ 147Einrichten der IAM-Richtlinie für die asynchrone Synthese ............................................................ 147Lange Audiodateien erstellen (Konsole) ...................................................................................... 148Lange Audiodateien erstellen (CLI) ............................................................................................ 149
Code und Anwendungsbeispiele ........................................................................................................ 152Beispiel-Code ......................................................................................................................... 152
Java-Beispiele ................................................................................................................ 152Python-Beispiele ............................................................................................................. 159
Beispielanwendungen .............................................................................................................. 163Python-Beispiel ............................................................................................................... 163Java-Beispiel .................................................................................................................. 173iOS-Beispiel .................................................................................................................... 177Android-Beispiel .............................................................................................................. 179
WordPress-Plugin ............................................................................................................................ 181Einrichten des Plugins ............................................................................................................. 181
Erstellen einer Berechtigungsrichtlinie ................................................................................. 181Erstellen eines IAM-Benutzers für das Plugin ...................................................................... 182Plugin installieren und konfigurieren ................................................................................... 183Anpassen von WordPress ................................................................................................ 184Speichern der Audiodateien .............................................................................................. 186
Einschränkungen ............................................................................................................................. 189Unterstützte Regionen .............................................................................................................. 189Drosselung ............................................................................................................................. 189Aussprachelexika .................................................................................................................... 189API-Operation "SynthesizeSpeech" ............................................................................................ 190SpeechSynthesisTask-API-Operationen ...................................................................................... 190Speech Synthesis Markup Language (SSML) .............................................................................. 190
Protokollieren von Amazon Polly-API-Aufrufen mit AWS CloudTrail ......................................................... 191Amazon Polly-Informationen in CloudTrail ................................................................................... 191Beispiel: Amazon Polly-Protokolldateieinträge .............................................................................. 192
Integration von CloudWatch .............................................................................................................. 194Abrufen von CloudWatch-Metriken (Konsole) ............................................................................... 194Abrufen von CloudWatch-Metriken (CLI) ..................................................................................... 194Amazon Polly-Metriken ............................................................................................................. 195Dimensionen für Amazon Polly-Metriken ..................................................................................... 196
API-Referenz .................................................................................................................................. 197Actions .................................................................................................................................. 197
DeleteLexicon ................................................................................................................. 198DescribeVoices ............................................................................................................... 200GetLexicon ..................................................................................................................... 203GetSpeechSynthesisTask ................................................................................................. 205ListLexicons .................................................................................................................... 207ListSpeechSynthesisTasks ................................................................................................ 209PutLexicon ..................................................................................................................... 211StartSpeechSynthesisTask ................................................................................................ 213SynthesizeSpeech ........................................................................................................... 219
Data Types ............................................................................................................................ 223Lexicon .......................................................................................................................... 224LexiconAttributes ............................................................................................................. 225
iv
Amazon Polly Entwicklerhandbuch
LexiconDescription .......................................................................................................... 227SynthesisTask ................................................................................................................ 228Voice ............................................................................................................................. 231
Authentifizierung und Zugriffskontrolle ................................................................................................ 233Authentifizierung ...................................................................................................................... 233Zugangskontrolle ..................................................................................................................... 234Übersicht über die Verwaltung des Zugriffs ................................................................................. 235
Amazon Polly-Ressourcen und -Operationen ....................................................................... 235Grundlegendes zum Eigentum an Ressourcen ..................................................................... 235Verwalten des Zugriffs auf Ressourcen ............................................................................... 236Festlegen der Richtlinienelemente: Aktionen, Effekte und Prinzipale ........................................ 237Angeben von Bedingungen in einer Richtlinie ...................................................................... 238
Verwenden von identitätsbasierten Richtlinien (IAM-Richtlinien) ...................................................... 238Erforderliche Berechtigungen für die Verwendung der Amazon Polly-Konsole ............................ 239Von AWS verwaltete (vordefinierte) Richtlinien für Amazon Polly ............................................. 240Beispiele für vom Kunden verwaltete Richtlinien ................................................................... 240
Referenztabelle für Amazon Polly-API-Berechtigungen .................................................................. 242Dokumentverlauf ............................................................................................................................. 244AWS-Glossar .................................................................................................................................. 246
v
Amazon Polly EntwicklerhandbuchVerwenden Sie Amazon Polly zum ersten Mal?
Was ist Amazon Polly?Amazon Polly ist ein Cloud-Service, der Text in natürliche Sprache konvertiert. Sie können Amazon Pollyverwenden, um Anwendungen zu entwickeln, die das Engagement und die Verfügbarkeit erhöhen. AmazonPolly unterstützt mehrere Sprachen und umfasst eine Vielzahl lebensechter Stimmen. So können SieAnwendungen mit Sprachfunktion erstellen, die in verschiedenen Regionen funktionieren und immer dieideale Stimme für Ihre Kunden verwenden. Bei Amazon Polly zahlen Sie nur für den Text, aus dem eineSprachausgabe generiert wird. Die von Amazon Polly erzeugte Sprachausgabe kann ohne zusätzlicheKosten zwischengespeichert und wiedergegeben werden.
Häufige Anwendungsfälle für Amazon Polly sind u. a. mobile Anwendungen wie Newsreader, Spiele,eLearning-Plattformen, barrierefreie Anwendungen für sehbehinderte Personen sowie der schnellwachsende Bereich der IoT-Geräte (Internet of Things).
Amazon Polly ist zertifiziert für die Verwendung mit regulierten Workloads für HIPAA (Health InsurancePortability and Accountability Act von 1996) und GovCloud.
Amazon Polly ist nicht für die Verwendung mit PCI-DSS (Payment Card Industry Data Security Standard)oder FedRAMP zertifiziert.
Die Nutzung von Amazon Polly bietet unter anderem folgende Vorteile:
• Hohe Qualität: Amazon Polly verwendet eine erstklassige Sprachausgabetechnologie, um natürlicheSprache mit hoher Aussprachegenauigkeit zu generieren (einschließlich Abkürzungen, Langform vonAkronymen, Interpretation von Datum/Uhrzeit und Klärung von Homografen).
• Niedrige Latenz: Amazon Polly sorgt für schnelle Reaktionszeiten, wodurch es sich gut für
Anwendungsfälle wie Dialogsysteme eignet, in denen eine geringe Latenz Voraussetzung ist.
• Unterstützung einer breiten Palette an Sprachen und Stimmen: Amazon Polly unterstützt Dutzende
von Stimmen und mehrere Sprachen und bietet für die meisten Sprachen sowohl männliche als auchweibliche Stimmen.
• Kosteneffektiv: – Dank des nutzungsabhängigen Modells von Amazon Polly fallen keine
Einrichtungskosten an. Sie können klein anfangen und das System an Ihre wachsende Anwendunganpassen.
• Cloud-basierte Lösung: In Geräte integrierte Sprachausgabelösungen erfordern erhebliche
Datenverarbeitungsressourcen, insbesondere CPU-Leistung, RAM und Festplattenspeicher. Dieskann zu höheren Entwicklungskosten und höherem Stromverbrauch bei Geräten wie Tablets,Smartphones usw. führen. Im Gegensatz dazu reduziert die Umwandlung von Text zu Sprache in derCloud den lokalen Ressourcenbedarf deutlich. So können alle verfügbaren Sprachen und Stimmenmit bestmöglicher Qualität unterstützt werden. Darüber hinaus sind Sprachverbesserungen für alleEndbenutzer sofort verfügbar und erfordern keine zusätzliche Aktualisierung der Geräte.
Verwenden Sie Amazon Polly zum ersten Mal?Wenn Sie Amazon Polly zum ersten Mal verwenden, empfehlen wir, sich die folgenden Abschnittenacheinander durchzulesen:
1
Amazon Polly EntwicklerhandbuchVerwenden Sie Amazon Polly zum ersten Mal?
1. Amazon Polly: Funktionsweise (p. 3): Dieser Abschnitt enthält eine Einführung in verschiedeneAmazon Polly-Eingaben und -Optionen, die Sie verwenden können, um eine durchgehende Erfahrung zuschaffen.
2. Erste Schritte mit Amazon Polly (p. 11): In diesem Abschnitt erstellen Sie Ihr Konto und testen dieSprachausgabe mit Amazon Polly.
3. Beispielanwendungen (p. 163): In diesem Abschnitt finden Sie weitere Beispiele, mit deren Hilfe Siesich mit Amazon Polly vertraut machen können.
2
Amazon Polly EntwicklerhandbuchDie nächsten Themen
Amazon Polly: FunktionsweiseAmazon Polly wandelt Eingabetext in natürliche gesprochene Sprache um. Sie müssen nur eine derMethoden zur Generierung von Sprachausgabe aufrufen, den zu generierenden Text eingeben, eineder verfügbaren "Text-to-Speech (TTS)"-Stimmen auswählen und ein Audioausgabeformat festlegen.Anschließend generiert Amazon Polly aus dem bereitgestellten Text einen hochwertigen Sprach-Audiostream.
• Eingabetext: Geben Sie den zu synthetisierenden Text ein. Amazon Polly generiert daraus einenAudiostream. Die Eingabedaten können im Nur-Text- oder im SSML-Format (Speech Synthesis MarkupLanguage) bereitgestellt werden. Bei SSML können Sie verschiedene Sprachaspekte wie Aussprache,Lautstärke, Tonlage und Sprechgeschwindigkeit steuern. Weitere Informationen finden Sie unterGenerieren von Sprachausgaben aus SSML-Dokumenten (p. 31).
• Verfügbare Stimmen: Amazon Polly bietet ein Portfolio mehrerer Sprachen und eine Vielzahl von
Stimmen, einschließlich einer zweisprachigen Stimme (sowohl für Englisch und Hindi). Bei den meistenSprachen haben Sie die Wahl zwischen verschiedenen männlichen und weiblichen Stimmen. Siemüssen die Stimm-ID nur beim Starten der Sprachsyntheseaufgabe angeben. Der Service verwendetdann diese Stimme, um den Text in Sprache umzuwandeln. Amazon Polly ist kein Übersetzungsdienst– die Sprachausgabe erfolgt in der Sprache, in der der Text abgefasst ist. Jedoch werden Zahlen mitZiffern (z. B. 53 anstatt dreiundfünfzig) in der Sprache der gewählten Stimme ausgegeben. WeitereInformationen finden Sie unter Stimmen in Amazon Polly.
• Ausgabeformat: Amazon Polly kann die generierten Sprachinhalte in mehreren Formaten ausgeben.
Wählen Sie das Audioformat, das Ihren Anforderungen am besten entspricht. Entscheiden Sie sichbeispielsweise für das MP3- oder Ogg Vorbis-Format, um die Sprachausgabe in Web- und mobilenAnwendungen zu nutzen. Das PCM-Ausgabeformat eignet sich dagegen für AWS IoT-Geräte undTelefonielösungen.
Die nächsten ThemenFalls Sie Amazon Polly noch nicht kennen, sollten Sie die folgenden Themen in der angegebenenReihenfolge lesen:
• Erste Schritte mit Amazon Polly (p. 11)• Beispielanwendungen (p. 163)• Einschränkungen in Amazon Polly (p. 189)
Stimmen in Amazon PollyAmazon Polly bietet eine Vielzahl verschiedener Stimmen in mehreren Sprachen, die verwendet werden,wenn Sprache aus Text synthetisiert wird.
3
Amazon Polly EntwicklerhandbuchVerfügbare Stimmen
Verfügbare Stimmen
SpracheWeiblicheNamen/ID
MännlicheNamen/ID
Arabisch(arb)Zeina
Chinesisch,Mandarin(cmn-CN)
Zhiyu
Dänisch(da-DK)
NajaMads
Niederländisch(nl-NL)
LotteRuben
Englisch(australisch)(en-AU)
NicoleRussell
Englisch(britisch)(en-GB)
Amy
Emma
Brian
Englisch(indisch)(en-IN)
Aditi(zweisprachigmitHindi)
Raveena
Englisch(amerikanisch)(en-US)
Ivy
Joanna
Kendra
Kimberly
Salli
Joey
Justin
Matthew
Englisch(walisisch)(en-GB-WLS)
Geraint
Französisch(fr-FR)
Céline/CelineMathieu
4
Amazon Polly EntwicklerhandbuchVerfügbare Stimmen
SpracheWeiblicheNamen/ID
MännlicheNamen/ID
KanadischesFranzösisch(fr-CA)
Chantal
Deutsch(de-DE)
Marlene
Vicki
Hans
Hindi(hi-IN)
Aditi(zweisprachigmitindischemEnglisch)
Isländisch(is-IS)
Dóra/DoraKarl
Italienisch(it-IT)
Carla
Bianca
Giorgio
Japanisch(ja-JP)
MizukiTakumi
Koreanisch(ko-KR)
Seoyeon
Norwegisch(nb-NO)
Liv
Polnisch(pl-PL)
Ewa
Maja
Jacek
Jan.
Portugiesisch(brasilianisch)(pt-BR)
Vitória/VitoriaRicardo
Portugiesisch(europäisch)(pt-PT)
Inês/InesCristiano
Rumänisch(ro-RO)
Carmen
5
Amazon Polly EntwicklerhandbuchAnhören der Stimmen
SpracheWeiblicheNamen/ID
MännlicheNamen/ID
Russisch(ru-RU)
TatyanaMaxim
Spanisch(europäisch)(es-ES)
Conchita
Lucia
Enrique
Spanisch(mexikanisch)(es-MX)
Mia
Spanisch(USA)(es-US)
Penélope/PenelopeMiguel
Schwedisch(sv-SE)
Astrid
Türkisch(tr-TR)
Filiz
Walisisch(cy-GB)
Gwyneth
Um eine kontinuierliche Unterstützung der Kunden zu gewährleisten, planen wir nicht Stimmeneinzustellen. Dies gilt sowohl für die derzeit verfügbaren als auch für zukünftige Stimmen.
Anhören der StimmenSie können die Amazon Polly-Konsole verwenden, um sich ein Beispiel einer der verfügbaren Stimmen inAmazon Polly anzuhören
So hören Sie sich eine Stimme in Amazon Polly an
1. Melden Sie sich an bei der AWS-Managementkonsole an und öffnen Sie die Amazon Polly-Konsole.2. Wählen Sie die Registerkarte Text-to-Speech.3. Wählen Sie eine Sprache, eine Region und eine Stimme aus4. Geben Sie Text ein, den die Stimme sprechen soll, oder verwenden Sie die Standardwortgruppe und
wählen Sie dann Listen to speech (Sprache anhören).
Sie können alle von Amazon Polly angebotenen Sprachen wählen. Die Konsole zeigt die für diese Spracheverfügbaren Stimmen an. In den meisten Fällen gibt es mindestens eine männliche und eine weiblicheStimme, oft mehr als jeweils eine. Eine Stimme ist zweisprachig (Hindi und indisches Englisch) und einigehaben nur eine einzige Stimme.
6
Amazon Polly EntwicklerhandbuchSprechgeschwindigkeit
Note
Das Stimmenverzeichnis und die Anzahl der enthaltenen Sprachen werden laufend aktualisiert,um weitere Optionen einzubeziehen. Um eine neue Sprache oder Stimme vorzuschlagen, könnenSie uns auf dieser Seite Ihr Feedback hinterlassen. Leider sind wir nicht in der Lage, Pläne für dieVeröffentlichung bestimmter neuer Sprachen zu kommentieren.
Jede Stimme wird mithilfe von Muttersprachlern erstellt, sodass es je nach Stimme Variationen geben kann,auch in derselben Sprache. Bei der Auswahl einer Stimme für Ihr Projekt sollten Sie jede mögliche Stimmemit einem Textabschnitt testen, um herauszufinden, welche sich am besten für Ihre Anforderungen eignet.
SprechgeschwindigkeitAufgrund der natürlichen Variation zwischen Stimmen spricht jede verfügbare Stimme den Text in einergeringfügig anderen Geschwindigkeit. Beispiel: Bei den Stimmen für Englisch (USA) sind Ivy und Joannaetwas schneller als Matthew und bedeutend schneller als Joey bei der Aussprache von: „Mary had a littlelamb“.
Da so viele Variationen zwischen Stimmen bestehen und der Grad der Variation vom gesprochenenText abhängen kann, ist für Amazon Polly-Stimmen keine Standardgeschwindigkeit (Wörter pro Minute)verfügbar. Sie können jedoch mittels Sprachmarkierungen herausfinden, wie lange es dauert, bis IhreStimme den ausgewählten Text spricht. Weitere Informationen zur Verwendung von Sprachmarkierungenin Amazon Polly finden Sie unter Verwenden von Sprachmarkierungen (p. 26).
So finden Sie heraus, wie lange es in etwa dauert, eine Textpassage zu sprechen
1. Öffnen Sie die AWS-CLI.2. Führen Sie den folgenden Code aus, und fügen Sie je nach Bedarf ein
aws polly synthesize-speech \ --language-code optional language code if needed --output-format json \ --voice-id [name of desired voice] \ --text '[desired text]' \ --speech-mark-types='["viseme"]' \ LengthOfText.txt
3. Öffnen Sie LengthOfText.txt
Wenn der Text "Mary had a little lamb" lautet, lauten die letzten Zeilen, die von Amazon Polly ausgegebenwerden, wie folgt:
{"time":882,"type":"viseme","value":"t"} {"time":964,"type":"viseme","value":"a"} {"time":1082,"type":"viseme","value":"p"}
Das letzte Mundbild, d. h. der Klang der letzten Buchstaben in „lamb“, beginnt 1082 Millisekunden nachdem Beginn der Sprachausgabe. Dies ist zwar nicht genau die Länge des Audiomaterials, kommt demjedoch ziemlich nahe und dient als Grundlage für den Vergleich zwischen Stimmen.
Bei bestimmten Anwendungen stellen Sie möglicherweise fest, dass Ihnen die Stimme langsamer oderschneller besser gefallen würde. Wenn die Sprechgeschwindigkeit ein Problem darstellt, bietet IhnenAmazon Polly die Möglichkeit, diese mithilfe von SSML-Tags zu ändern.
Beispiel: Wenn Ihre gewünschte Zielgruppe zwar Englisch spricht, aber nicht fließend, können Sie dieSprechgeschwindigkeit verlangsamen, um ihr etwas mehr Zeit zum Verstehen zu geben.
Mit Amazon Polly können Sie die Sprechgeschwindigkeit mithilfe des SSML-Tags <prosody>verlangsamen:
7
Amazon Polly EntwicklerhandbuchHäufige Fragen
<prosody rate="slow">Mary had a little lamb.</prosody>
Es sind fünf verschiedene Geschwindigkeitsoptionen verfügbar: x-slow, slow, medium, fast und x-fast. Die Geschwindigkeit der einzelnen Optionen ist ungefähr, der von der von Ihnen bevorzugtenStimme abhängig ist. Daher empfehlen wir das Testen der Stimme, um festzustellen, ob sie IhreAnforderungen erfüllt. Die Option medium ist die normale Sprechgeschwindigkeit.
Häufige FragenDieses Thema enthält Antworten auf Fragen, die häufig zu Amazon Polly gestellt werden.
Themen• Allgemeine Fragen (p. 8)• Inhalt-Rendering (p. 8)• Datensicherheit und Vertraulichkeit (p. 9)
Allgemeine FragenF: Meine Texte weisen unterschiedliche Codierungsstandards auf. Welchen Standard kann ich mit AmazonPolly verwenden?
Amazon Polly unterstützt derzeit nur die UTF-8-Codierung.
F: Kann ich die Sprachausgabe speichern?
Wenn Sie die SynthesizeSpeech-Operation verwenden, können Sie die Sprachausgabe für dieVerwendung auf Ihrem eigenen System speichern. Sie können auch Amazon Polly aufrufen unddann die Datei mit einem beliebigen Verschlüsselungsschlüssel verschlüsseln und in Amazon SimpleStorage Service (Amazon S3) oder einem anderen sicheren Speicher speichern. Der AmazonPolly-SynthesizeSpeech-Aufruf ist zustandslos und keiner Kundenidentität zugeordnet. Sie können esspäter nicht mehr von Amazon Polly abrufen.
Wenn Sie die StartSpeechSynthesisTask-Operation verwenden (asynchrone Synthese), wird dieAusgabe der Synthese automatisch in einem Amazon S3-Bucket gespeichert. Anschließend könnenSie diese nach Belieben abrufen. Weitere Informationen zu diesem Thema finden Sie unter LangeAudiodateien erstellen (p. 147).
Inhalt-RenderingFrage: Ich möchte dieselbe Stimme in zwei verschiedenen Sprachen verwenden. Gibt es zweisprachigeStimmen?
Derzeit ist nur eine Stimme zweisprachig: Aditi (Hindi und indisches Englisch). Die Verwendung einerzweisprachigen Stimme ermöglicht Ihnen, Sprachausgabe zu generieren, die entweder eine der Sprachenfür sich alleine oder beide in einem einzigen Text enthält. Mit Aditi kann Amazon Polly auch eineSprachausgabe generieren, die sowohl Dewanagari (Hindi-Schrift) als auch Romanagari (lateinischeSchrift) enthält.
Wir arbeiten ständig daran, die Sprachoptionen von Amazon Polly zu verbessern, einschließlich derErhöhung der Anzahl von zweisprachigen Stimmen. Weitere Informationen finden Sie unter ZweisprachigeStimmen (p. 20)
F: Welche pcm-Details werden verwendet, wenn PCM als Ausgabeformat ausgewählt ist?
8
Amazon Polly EntwicklerhandbuchDatensicherheit und Vertraulichkeit
Wenn pcm verwendet wird, wird der Inhalt als audio/pcm in einem signierten 16-Bit-, einkanaligen (Mono)Little-Endian-Format zurückgegeben.
F: Ein Teil meines Textes wird mit der Betonung auf der falschen Silbe herausgegeben, wenn er vonAmazon Polly gesprochen wird. Ich habe sogar versucht, einen Accent aigu (U+0301) zu verwenden, umdie Betonung zu markieren, aber sie ist immer noch auf der falschen Silbe. Wie lässt sich dieses Problembeheben?
Amazon Polly erkennt derzeit nicht den Accent aigu (U+0301) als Silbenbetonung in einem Wort. Es gibtjedoch zwei Möglichkeiten, wie Sie die Betonung in einem Wort ändern können. Sie können ein IPA-Zeichen und SSML-Tags verwenden, um die Aussprache des Wortes zu ändern. Weitere Informationenfinden Sie unter Von Amazon Polly unterstützte SSML-Tags (p. 37). In einigen Sprachen können Sieauch einen Apostroph unmittelbar nach der Silbe verwenden, um eine Änderung der Betonung anzuzeigen.Zum Beispiel haben auf Russisch die Wörter страны und страны verschiedene Betonungen (hier miteinem Accent aigu markiert). Aufgrund der identischen Schreibweise wird Amazon Polly sie jedoch beidemit der Betonung der letzten Silbe gemäß dem Standardsprachgebrauch aussprechen. Sie können einenApostroph verwenden, um die alternativ betonte Silbe wie in стран'ы zu markieren. Amazon Polly wirddann die korrekte Silbe betonen.
F: Wenn ich Aufzählungszeichen in meinem Text verwende, werden sie von Amazon Polly nicht richtigwiedergegeben. Es sagt jedes Mal „Minus“, wenn es auftritt. Was soll ich tun?
Wenn Sie "-" (einen Bindestrich) als Ersatz für einen Aufzählungspunkt verwenden, wird dies in einigenSprachen von Amazon Polly als Minuszeichen dargestellt. Wenn Sie Bindestriche als Ersatz füreinen Aufzählungspunkt verwenden möchten, können Sie dies mit einem Lexikoneintrag tun. WeitereInformationen finden Sie unter Verwalten von Lexika (p. 135).
F: Ich benutze das „/“ (Schrägstrich)-Symbol häufig in meinem Text, besonders wenn ich „und / oder“ und„ja / nein“ sage. Wie gibt Amazon Polly dies wieder?
Im Englischen gibt Amazon Polly "und/oder" in Sprache als "und oder" wieder. Momentan ist diese Regel inanderen Sprachen nicht verfügbar. In anderen Sprachen als im Englischen, gibt Amazon Polly "ja/nein" als"ja Schrägstrich nein" aus. Wenn Sie dieses Verhalten ändern möchten, können Sie einen Lexikoneintragverwenden. Weitere Informationen finden Sie unter Verwalten von Lexika (p. 135).
F: Wenn ich Text aus einer vorhandenen Quelle verwende, um mit der AWS CLI auf einem Linux-RechnerSprache zu synthetisieren, scheinen einige UTF-8-Zeichen nicht mit Amazon Polly zu funktionieren, obwohldieselben Zeichen mit der Konsole korrekt zu funktionieren scheinen. Was passiert?
Dies basiert darauf, wie die Unix-Shell Unicode behandelt und ist kein Amazon Polly-spezifischesProblem. Zwei Optionen stehen zur Verfügung: Sie können die problematischen Zeichen finden und sie imEingabetext ersetzen, oder Sie können eine alternative Methode zum Zugriff auf Amazon Polly verwenden,bei der dieses Problem nicht auftritt, z. B. die PHP-Benutzeroberfläche. Dies ist ein bekanntes Problem, andem wir arbeiten und nur einige wenige ungewöhnliche Unicode-Zeichen haben dieses Problem.
F: Wenn ich versuche, Text aus einer Quelle mit IPA-Symbolen (International Phonetic Alphabet) zusynthetisieren, erkennt Amazon Polly diese nicht und versucht sogar, einige davon auszusprechen. Wielässt sich dieses Problem beheben?
Amazon Polly erkennt IPA-Symbole nicht, es sei denn, sie werden mit SSML (Speech SynthesisMarkup Language) beschrieben. Da jedoch kleine Abschnitte von IPA-Symbolen normalerweise einenAussprachehilfe für einen Leser angeben, kann dieser Abschnitt in vielen Fällen durch einfaches Löschenaus dem Eingabetext entfernt werden. Sie können auch ein Lexikon verwenden, um die Art der Darstellungdurch Amazon Polly zu ändern. Weitere Informationen finden Sie unter Generieren von Sprachausgabenaus SSML-Dokumenten (p. 31) und Verwalten von Lexika (p. 135).
Datensicherheit und VertraulichkeitF: Kann ich die Anforderungsprotokollierung mit Anforderungs-APIs deaktivieren?
9
Amazon Polly EntwicklerhandbuchDatensicherheit und Vertraulichkeit
Ja, Sie können dies anfordern, indem Sie sich an AWS Support wenden.
F: Kann ich bestimmte Datenfelder so maskieren, dass sie nicht gespeichert werden? (Wenn ichbeispielsweise Text mit vertraulichen Daten konvertiere, ihn aber nicht auf den AWS-Systemen speichernmöchte, kann ich ihn dann maskieren?
Nein. Amazon Polly bietet derzeit keine Unterstützung für diese Funktion.
F: Der Text, den ich mit Amazon Polly verwenden möchte, ist vertraulich. Wie werden meine Datengeschützt?
Alle Textübermittlungen werden während der Übertragung durch Secure Sockets Layer (SSL) geschütztund unter Verwendung von RSA-Verschlüsselung gespeichert. Wir halten die Serviceprotokolle und denText getrennt, damit der Inhalt nicht mit der Kunden-ID verknüpft werden kann. Als Ergebnis verbindetAmazon Polly keine Texteinreichungen mit der Kundenidentität.
F: Wie lange werden Daten aufbewahrt?
Amazon Polly behält Daten für 14 Tage. Danach werden sie automatisch von unserem System gelöscht.
F: Kann ich anfordern, die Daten zuvor gelöscht werden müssen?
Ja, Sie können dies anfordern, indem Sie sich an AWS Support wenden.
10
Amazon Polly EntwicklerhandbuchSchritt 1: Einrichten eines Kontos und eines Benutzers
Erste Schritte mit Amazon PollyAmazon Polly stellt einfache API-Operationen bereit, die sich unkompliziert in bereits vorhandeneAnwendungen integrieren lassen. Eine Liste der unterstützten Operationen finden Sie unterActions (p. 197). Sie haben die Wahl zwischen den folgenden Optionen:
• AWS-SDKs: Wenn Sie die SDKs verwenden, werden Ihre Anforderungen an Amazon Polly automatischmit den Anmeldeinformationen signiert und authentifiziert, die Sie angeben. Diese Variante ist dieempfohlene Option für die Anwendungsprogrammierung.
• AWS CLI: Über die AWS CLI können Sie auf sämtliche Amazon Polly-Funktionen zugreifen, ohne Codeschreiben zu müssen.
In den folgenden Artikeln finden Sie Informationen zur Einrichtung sowie eine Einführungsübung.
Themen• Schritt 1: Einrichten eines AWS-Kontos und Erstellen eines Benutzers (p. 11)• Schritt 2: Erste Schritte mit der Konsole (p. 13)• Schritt 3: Erste Schritte mit der AWS CLI (p. 14)• Die nächsten Themen (p. 17)
Schritt 1: Einrichten eines AWS-Kontos undErstellen eines Benutzers
Bevor Sie Amazon Polly zum ersten Mal verwenden, führen Sie die folgenden Schritte aus:
1. Schritt 1.1: Registrieren bei AWS (p. 11)2. Schritt 1.2: Erstellen eines IAM-Benutzers (p. 12)
Schritt 1.1: Registrieren bei AWSBei Ihrer ersten Amazon Web Services (AWS)-Anmeldung wird Ihr Konto automatisch für alle Dienste inAWS – einschließlich Amazon Polly – registriert. Berechnet werden Ihnen aber nur die Services, die Sienutzen.
Mit Amazon Polly zahlen Sie nur für die Ressourcen, die Sie wirklich nutzen. Wenn Sie ein neuer AWS-Kunde sind, können Sie kostenlos mit Amazon Polly beginnen. Weitere Informationen finden Sie unterKostenloses Nutzungskontingent für AWS.
Haben Sie bereits ein AWS-Konto, können Sie mit dem nächsten Schritt fortfahren. Wenn Sie noch keinAWS-Konto haben, führen Sie die folgenden Schritte zum Erstellen eines Kontos aus.
So erstellen Sie ein Amazon-Konto
1. Öffnen Sie https://portal.aws.amazon.com/billing/signup.
11
Amazon Polly EntwicklerhandbuchSchritt 1.2: Erstellen eines IAM-Benutzers
2. Folgen Sie den Onlineanweisungen.
Der Anmeldeprozess beinhaltet auch einen Telefonanruf und die Eingabe eines Verifizierungscodesüber die Telefontastatur.
Notieren Sie sich die ID Ihres AWS-Kontos. Sie benötigen sie im nächsten Schritt.
Schritt 1.2: Erstellen eines IAM-BenutzersWenn Sie in AWS auf Services wie Amazon Polly zugreifen, müssen Sie Anmeldeinformationen angeben.So kann der Service ermitteln, ob Sie über die notwendigen Berechtigungen für den Zugriff auf seineRessourcen verfügen. Für die Konsole müssen Sie Ihr Passwort eingeben. Sie können für Ihr AWS-KontoZugriffsschlüssel erstellen, um auf die AWS CLI oder die API zuzugreifen. Wir raten Ihnen jedoch davonab, mittels der Anmeldeinformationen für Ihr AWS-Konto auf AWS zuzugreifen. Stattdessen empfehlen wir,AWS Identity and Access Management (IAM) zu verwenden. Erstellen Sie einen IAM-Benutzer und fügenSie den Benutzer zu einer IAM-Gruppe mit Administrator-Berechtigungen hinzu. Anschließend gewährenSie dem von Ihnen erstellten IAM-Benutzer administrative Berechtigungen. Danach können Sie mithilfeeiner speziellen URL und der Anmeldeinformationen des IAM-Benutzers auf AWS zugreifen.
Wenn Sie sich zwar bei AWS angemeldet, aber für sich selbst keinen IAM-Benutzer erstellt haben, könnenSie mithilfe der IAM-Konsole einen Benutzer erstellen.
Für die Erste-Schritte-Übungen in diesem Handbuch wird davon ausgegangen, dass Sie einen Benutzernamens (adminuser) mit Administratorrechten haben. Befolgen Sie die Schritte zum Einrichten desadminuser in Ihrem Konto.
Erstellen eines Administrator-Benutzers und Anmelden in der Konsole
1. Erstellen Sie einen Administrator-Benutzer namens adminuser in Ihrem AWS-Konto. Anweisungenfinden Sie unter Erstellen Ihres ersten Administratorbenutzers und Ihrer ersten Administratorgruppe inIAM im IAM-Benutzerhandbuch.
2. Ein Benutzer kann sich in der AWS Management Console mit einer speziellen URL anmelden.Weitere Informationen finden Sie unter Wie sich Benutzer bei Ihrem Konto anmelden im IAM-Benutzerhandbuch.
Important
In den Einstiegsübungen werden die Anmeldeinformationen des Administratorbenutzersverwendet. Für höhere Sicherheit empfehlen wir, zum Programmieren und Testen vonProduktionsanwendungen einen servicespezifischen Administratorbenutzer zu erstellen,der ausschließlich Berechtigungen zur Durchführung von Amazon Polly-Aktionen hat. EineBeispielrichtlinie, die Amazon Polly-spezifische Berechtigungen erteilt, finden Sie unter Beispiel 1:Erlauben sämtlicher Amazon Polly-Aktionen (p. 240).
Weitere Informationen zu IAM finden Sie unter:
• AWS Identity and Access Management (IAM)• Erste Schritte• IAM-Benutzerhandbuch
Nächster SchrittSchritt 2: Erste Schritte mit der Konsole (p. 13)
12
Amazon Polly EntwicklerhandbuchSchritt 2: Erste Schritte mit der Konsole
Schritt 2: Erste Schritte mit der KonsoleDie Amazon Polly-Konsole ist die einfachste Möglichkeit, die Amazon Polly-Funktionen zur Generierungvon Sprachausgabe zu testen und zu verwenden. Die Amazon Polly-Konsole unterstützt die Generierungvon Sprachausgabe aus einfachem Eingabetext ("plain text") oder SSML-Eingabetext.
Themen• Übung 1: Schnelleinstieg in die Sprachausgabegenerierung (Konsole) (p. 13)• Übung 2: Generieren einer Sprachausgabe (aus einfachem Eingabetext) (p. 13)• Nächster Schritt (p. 14)
Übung 1: Schnelleinstieg in dieSprachausgabegenerierung (Konsole)In diesem Schnelleinstieg wird die schnellste Methode vorgestellt, die Qualität der Sprachausgabe vonAmazon Polly zu testen. Wenn Sie die Registerkarte Text-to-Speech auswählen, wird im Textfeld für dieTexteingabe automatisch ein Beispieltext geladen, sodass Sie Amazon Polly sofort testen können.
So funktioniert ein Schnelltest von Amazon Polly
1. Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die Amazon Polly-Konsole unterhttps://console.aws.amazon.com/polly/.
2. Wählen Sie die Registerkarte Text-to-Speech.3. (Optional) Wählen Sie SSML aus.4. Wählen Sie eine Sprache, eine Region und eine Stimme aus.5. Wählen Sie Listen to speech.
Anleitungen für umfassendere Tests finden Sie in den folgenden Artikeln:
• Übung 2: Generieren einer Sprachausgabe (aus einfachem Eingabetext) (p. 13)• Verwenden von SSML (Konsole) (p. 31)• Anwenden von Lexika mithilfe der Konsole (synthetische Sprache) (p. 137)
Übung 2: Generieren einer Sprachausgabe (auseinfachem Eingabetext)Nachfolgend ist erläutert, wie Sie eine Sprachausgabe aus einfachem Eingabetext ("plain text") generierenkönnen. Beachten Sie vor allem die Sprachausgabe für "W3C" und das Datum "10/3" (3. Oktober).
So generieren Sie eine Sprachausgabe aus einfachem Eingabetext:
1. Wählen Sie nach der Anmeldung bei der Amazon Polly-Konsole Get started (Erste Schritte) undwählen Sie dann die Registerkarte Text-to-Speech.
2. Wählen Sie die Registerkarte Plain text.3. Geben Sie den folgenden Text in das Eingabefeld ein oder kopieren Sie ihn in das Feld:
He was caught up in the game. In the middle of the 10/3/2014 W3C meetinghe shouted, "Score!" quite loudly.
13
Amazon Polly EntwicklerhandbuchNächster Schritt
4. Wählen Sie in der Choose a language and region-Liste US-Englisch aus, wählen Sie anschließendeine Stimme aus, die Sie für diesen Text verwenden möchten.
5. Klicken Sie auf Listen to speech, um die Sprachausgabe sofort anzuhören.6. Speichern Sie die Sprachausgabe auf einem der beiden folgenden Wege in einer Datei:
a. Wählen Sie Save speech to MP3.b. Wenn Sie ein anderes Dateiformat verwenden möchten: Wählen Sie zunächst die Option Change
file format und dann das gewünschte Dateiformat aus. Klicken Sie anschließend auf Change.
Umfassendere Beispiele finden Sie in den folgenden Artikeln:
• Anwenden von Lexika mithilfe der Konsole (synthetische Sprache) (p. 137)• Verwenden von SSML (Konsole) (p. 31)
Nächster SchrittSchritt 3: Erste Schritte mit der AWS CLI (p. 14)
Schritt 3: Erste Schritte mit der AWS CLIFast alle Amazon Polly-Operationen, die über die AWS CLI-Konsole verfügbar sind, lassen sich auchüber die Amazon Polly-Konsole durchführen. Allerdings können Sie sich über die AWS CLI nicht dieSprachausgabe anhören. Stattdessen müssen Sie die Sprachausgabe in einer Datei speichern und dieseDatei anschließend in einer Anwendung öffnen, die sie abspielen kann.
Themen• Schritt 3.1: Einrichten der AWS Command Line Interface (AWS CLI) (p. 14)• Schritt 3.2: Einstiegsübung mit der AWS CLI (p. 16)
Schritt 3.1: Einrichten der AWS Command LineInterface (AWS CLI)Befolgen Sie die Schritte zum Herunterladen und Konfigurieren der AWS Command Line Interface (AWSCLI).
Important
Für diese Einstiegsübung benötigen Sie nicht die AWS CLI. Für einige der Übungen in diesemHandbuch wird die AWS CLI jedoch benötigt. Sie können diesen Schritt überspringen und direktzu Schritt 3.2: Einstiegsübung mit der AWS CLI (p. 16) navigieren. Die AWS CLI kann späternach Bedarf eingerichtet werden.
So richten Sie die AWS CLI ein
1. Laden Sie die AWS CLI herunter und konfigurieren Sie sie. Anleitungen können Sie den folgendenThemen im Benutzerhandbuch für AWS Command Line Interface entnehmen:
• Einrichtung der AWS Command Line Interface• Konfigurieren der AWS Command Line Interface
2. Fügen Sie ein benanntes Profil für den Administratorbenutzer in der AWS CLI-Konfigurationsdateihinzu. Verwenden Sie dieses Profil beim Ausführen der AWS CLI-Befehle. Weitere Informationen zu
14
Amazon Polly EntwicklerhandbuchSchritt 3.1: Einrichten vonAWS CLI
benannten Profilen finden Sie unter Benannte Profile im Benutzerhandbuch für AWS Command LineInterface.
[profile adminuser] aws_access_key_id = adminuser access key ID aws_secret_access_key = adminuser secret access key region = aws-region
Eine Liste der verfügbaren AWS-Regionen sowie der von Amazon Polly unterstützten Regionen findenSie unter Regionen und Endpunkte im Allgemeine Amazon Web Services-Referenz.
Note
Wenn Sie bei der Konfiguration der AWS CLI eine von Amazon Polly unterstützte Regionverwendet haben, können Sie die Zeile unten aus den AWS CLI-Codebeispielen entfernen:
--region aws-region
3. Geben Sie den folgenden Hilfebefehl in die Eingabeaufforderung ein, um die Einrichtung zuüberprüfen:
aws help
Im AWS CLI-Fenster sollte eine Liste aller gültigen AWS-Befehle angezeigt werden.
So aktivieren Sie Amazon Polly in der AWS CLI (optional):
Wenn Sie die AWS CLI bereits zu einem früheren Zeitpunkt heruntergeladen und konfiguriert haben,müssen Sie die AWS CLI möglicherweise neu konfigurieren, damit Amazon Polly verfügbar ist. Diefolgende Anleitung beschreibt, wie Sie überprüfen, ob das nötig ist, und was Sie tun müssen, wennAmazon Polly nicht automatisch verfügbar ist.
1. Geben Sie den folgenden Hilfebefehl in die Eingabeaufforderung ein, um zu überprüfen, ob AmazonPolly verfügbar ist:
aws polly help
Wenn eine Beschreibung von Amazon Polly und eine Liste der gültigen Befehle angezeigt wird und imAWS CLI-Fenster erscheint, ist Amazon Polly in der AWS CLI verfügbar und kann sofort verwendetwerden. In diesem Fall können Sie die übrigen Schritte dieser Anleitung überspringen. Fahren Sie fortmit Schritt 2, falls keine entsprechende Ausgabe angezeigt wird.
2. Aktivieren Sie Amazon Polly auf eine der beiden folgenden Arten:
a. Deinstallieren Sie die AWS CLI und installieren Sie sie neu.
Eine Anleitung finden Sie im folgenden Abschnitt im Benutzerhandbuch für AWS Command LineInterface: Installieren der AWS Command Line Interface.
oderb. Laden Sie die Datei service-2.json herunter.
Führen Sie über die Eingabeaufforderung folgenden Befehl aus:
aws configure add-model --service-model file://service-2.json --service-name polly
3. Überprüfen Sie nochmals, ob Amazon Polly verfügbar ist:
15
Amazon Polly EntwicklerhandbuchSchritt 3.2: Einstiegsübung
aws polly help
Die Beschreibung von Amazon Polly sollte jetzt angezeigt werden.
Nächster SchrittSchritt 3.2: Einstiegsübung mit der AWS CLI (p. 16)
Schritt 3.2: Einstiegsübung mit der AWS CLIJetzt können Sie die Amazon Polly-Funktionen zur Generierung von Sprachausgabe testen. In dieserÜbung rufen Sie die Operation SynthesizeSpeech durch Übergabe eines Beispieltexts auf. Dieresultierende Audioausgabe können Sie als Datei speichern und abspielen.
1. Führen Sie den AWS CLI-Befehl synthesize-speech aus, um eine Sprachausgabe aus demBeispieltext zu generieren und in einer Audiodatei (hello.mp3) zu speichern.
Das folgende AWS CLI-Beispiel ist für Unix, Linux und macOS formatiert. Für Windows ersetzen Sieden umgekehrten Schrägstrich (\), das Unix-Fortsetzungszeichen, am Ende der jeweiligen Zeile durchein Caretzeichen (^) und verwenden vollständige Anführungszeichen (") um den Eingabetext undeinfache Anführungszeichen (') für innere Tags.
aws polly synthesize-speech \ --output-format mp3 \ --voice-id Joanna \ --text 'Hello, my name is Joanna. I learned about the W3C on 10/3 of last year.' \ hello.mp3
In dem Aufruf an synthesize-speech geben Sie den Beispieltext an, aus dem die Sprachausgabegeneriert werden soll, die zu verwendende Stimme (durch Angabe einer Stimm-ID wie nachfolgend inSchritt 3 erklärt) und das Ausgabeformat. Der Befehl speichert die resultierende Audioausgabe in derDatei hello.mp3.
Neben der MP3-Datei generiert die oben beschriebene Operation zudem die folgende Ausgabe in derKonsole:
{ "ContentType": "audio/mpeg", "RequestCharacters": "71"}
2. Geben Sie die Datei hello.mp3 wieder, um die Sprachausgabe zu überprüfen.3. Eine Liste der verfügbaren Stimmen können Sie über die Operation DescribeVoices abrufen.
Führen Sie den folgenden describe-voices-AWS CLI-Befehl aus.
aws polly describe-voices
Als Antwort gibt Amazon Polly eine Liste aller verfügbaren Stimmen zurück. In der Antwort sind für jedeStimme folgende Metadaten aufgelistet: Stimm-ID, Sprachcode, Name der Sprache und Geschlechtder Stimme. Das folgende Beispiel zeigt eine mögliche Antwort:
{ "Voices": [ {
16
Amazon Polly EntwicklerhandbuchDie nächsten Themen
"Gender": "Female", "Name": "Salli", "LanguageName": "US English", "Id": "Salli", "LanguageCode": "en-US" }, { "Gender": "Female", "Name": "Joanna", "LanguageName": "US English", "Id": "Kendra", "LanguageCode": "en-US" } ]}
Optional können Sie den Sprachcode angeben, um die verfügbaren Stimmen für eine bestimmteSprache abzurufen. Amazon Polly unterstützt Dutzende verschiedener Stimmen. Das folgende Beispielruft alle Stimmen für brasilianisches Portugiesisch ab:
aws polly describe-voices \ --language-code pt-BR
Eine Liste der Sprachcodes finden Sie unter Von Amazon Polly unterstützte Sprachen (p. 23). Beidiesen Sprachcodes handelt es sich um die W3C-Tags zur Sprachenidentifizierung (ISO 639-Codefür den Namen der Sprache-ISO 3166-Ländercode). Beispiele sind "en-US (amerikanischesEnglisch)", "en-GB (britisches Englisch)" und "es-ES (Spanisch)".
Alternativ können Sie auch über die Option help in der AWS CLI eine Liste aller Sprachcodes abrufen:
aws polly describe-voices help
Die nächsten ThemenIn diesem Handbuch finden Sie auch noch weitere Beispiele. Einige dieser Beispiele sind Python-Codebeispiele, die das AWS SDK for Python (Boto) für API-Aufrufe an Amazon Polly verwenden. Wirempfehlen Ihnen, Python einzurichten und den Beispielcode aus dem nachfolgenden Abschnitt zu testen.Weitere Beispiele finden Sie unter Beispielanwendungen (p. 163).
Einrichten von Python und Testen des BeispielcodesSie benötigen das AWS SDK for Python (Boto), um den Python-Beispielcode testen zu können. EineAnleitung finden Sie unter AWS SDK für Python (Boto3).
So testen Sie den Python-Beispielcode:
Der folgende Python-Beispielcode führt folgende Aktionen durch:
• Er verwendet das AWS SDK for Python (Boto), um eine SynthesizeSpeech Anforderung an AmazonPolly zu senden (durch Übergeben von einfachem Eingabetext).
• Er greift auf den resultierenden Audiostream in der Antwort zu und speichert die Audioausgabe in einerDatei auf der lokalen Festplatte (speech.mp3).
• Er spielt die Audiodatei mit dem Standard-Audioplayer des lokalen Systems ab.
Speichern Sie den Code in einer Datei ("example.py") und führen Sie die Datei aus.
17
Amazon Polly EntwicklerhandbuchEinrichten von Python und Testen des Beispielcodes
"""Getting Started Example for Python 2.7+/3.3+"""from boto3 import Sessionfrom botocore.exceptions import BotoCoreError, ClientErrorfrom contextlib import closingimport osimport sysimport subprocessfrom tempfile import gettempdir
# Create a client using the credentials and region defined in the [adminuser]# section of the AWS credentials file (~/.aws/credentials).session = Session(profile_name="adminuser")polly = session.client("polly")
try: # Request speech synthesis response = polly.synthesize_speech(Text="Hello world!", OutputFormat="mp3", VoiceId="Joanna")except (BotoCoreError, ClientError) as error: # The service returned an error, exit gracefully print(error) sys.exit(-1)
# Access the audio stream from the responseif "AudioStream" in response: # Note: Closing the stream is important as the service throttles on the # number of parallel connections. Here we are using contextlib.closing to # ensure the close method of the stream object will be called automatically # at the end of the with statement's scope. with closing(response["AudioStream"]) as stream: output = os.path.join(gettempdir(), "speech.mp3")
try: # Open a file for writing the output as a binary stream with open(output, "wb") as file: file.write(stream.read()) except IOError as error: # Could not write to file, exit gracefully print(error) sys.exit(-1)
else: # The response didn't contain audio data, exit gracefully print("Could not stream audio") sys.exit(-1)
# Play the audio using the platform's default playerif sys.platform == "win32": os.startfile(output)else: # the following works on Mac and Linux. (Darwin = mac, xdg-open = linux). opener = "open" if sys.platform == "darwin" else "xdg-open" subprocess.call([opener, output])
Weitere Beispiele sowie eine Beispielanwendung finden Sie unter Beispielanwendungen (p. 163).
18
Amazon Polly EntwicklerhandbuchVerfügbare Stimmen
Stimmen in Amazon PollyAmazon Polly bietet eine Vielzahl verschiedener Stimmen in mehreren Sprachen, die verwendet werden,wenn Sprache aus Text synthetisiert wird.
Verfügbare StimmenSprache Weibliche Namen/ID Männliche Namen/ID
Arabisch (arb) Zeina
Chinesisch, Mandarin (cmn-CN) Zhiyu
Dänisch (da-DK) Naja Mads
Niederländisch (nl-NL) Lotte Ruben
Englisch (australisch) (en-AU) Nicole Russell
Englisch (britisch) (en-GB) Amy
Emma
Brian
Englisch (indisch) (en-IN) Aditi (zweisprachig mit Hindi)
Raveena
Englisch, amerikanisch (en-US) Ivy
Joanna
Kendra
Kimberly
Salli
Joey
Justin
Matthew
Englisch (walisisch) (en-GB-WLS)
Geraint
Französisch (fr-FR) Céline/Celine
Léa
Mathieu
Französisch (kanadisch) (fr-CA) Chantal
Deutsch (de-DE) Marlene
Vicki
Hans
Hindi (hi-IN) Aditi (zweisprachig mit indischemEnglisch)
Isländisch (is-IS) Dóra/Dora Karl
19
Amazon Polly EntwicklerhandbuchZweisprachige Stimmen
Sprache Weibliche Namen/ID Männliche Namen/ID
Italienisch (it-IT) Carla
Bianca
Giorgio
Japanisch (ja-JP) Mizuki Takumi
Koreanisch (ko-KR) Seoyeon
Norwegisch (nb-NO) Liv
Polnisch (pl-PL) Ewa
Maja
Jacek
Jan.
Portugiesisch (brasilianisch) (pt-BR)
Vitória/Vitoria Ricardo
Portugiesisch, europäisch (pt-PT) Inês/Ines Cristiano
Rumänisch (ro-RO) Carmen
Russisch (ru-RU) Tatyana Maxim
Spanisch, europäisch (es-ES) Conchita
Lucia
Enrique
Spanisch (mexikanisch) (es-MX) Mia
Spanisch (USA) (en-US) Penélope/Penelope Miguel
Schwedisch (sv-SE) Astrid
Türkisch (tr-TR) Filiz
Walisisch (cy-GB) Gwyneth
Um eine kontinuierliche Unterstützung der Kunden zu gewährleisten, planen wir nicht Stimmeneinzustellen. Dies gilt sowohl für die derzeit verfügbaren als auch für zukünftige Stimmen.
Zweisprachige StimmenEine zweisprachige Stimme wie Aditi (indisches Englisch und Hindi) kann zwei Sprachen fließendsprechen. Dadurch haben Sie die Möglichkeit, für Wörter und Sätze aus beiden Sprachen in einemeinzigen Text dieselbe Stimme zu verwenden.
Aditi ist derzeit als einzige zweisprachige Stimme verfügbar.
Verwenden einer zweisprachigen Stimme (Aditi)
Aditi spricht sowohl indisches Englisch (en-IN) als auch Hindi (hi-IN) fließend. Sie können Sprachinhaltesowohl auf Englisch als auch auf Hindi generieren, und die Stimme kann sogar innerhalb desselben Satzeszwischen den beiden Sprachen wechseln.
Hindi kann in zwei verschiedenen Formen verwendet werden:
• Dewanagari: "उसन कहा, खल तोह अब शर होगा"
20
Amazon Polly EntwicklerhandbuchAnhören der Stimmen
• Romanagari (mithilfe des lateinischen Alphabets): "Usne kahan, khel toh ab shuru hoga"
Außerdem ist eine Mischung aus Englisch und Hindi in einer oder beiden Formen innerhalb eines einzigenSatzes möglich:
• Dewanagari + Englisch: "This is the song कभी कभी अदिति"• Romanagari + Englisch: "This is the song from the movie Jaane Tu Ya Jaane Na."• Dewanagari + Romanagari + Englisch: "This is the song कभी कभी अदिति from the movie Jaane Tu Ya
Jaane Na."
Da es sich bei Aditi um eine zweisprachige Stimme handelt, wird der Text in all diesen Fällen richtiggelesen, denn Amazon Polly kann zwischen den Sprachen und Schriften unterscheiden.
Amazon Polly unterstützt auch Zahlen, Datum, Uhrzeit und Devisionexpansion auf Englisch (arabischeZiffern) und auf Hindi (Dewanagari-Ziffern). Arabische Ziffern werden standardmäßig in indischem Englischgelesen. Mit dem Sprachcode-Parameter hi-IN können Sie bewirken, dass Amazon Polly sie auf Hindiliest.
Anhören der StimmenSie können die Amazon Polly-Konsole verwenden, um sich ein Beispiel einer der verfügbaren Stimmen inAmazon Polly anzuhören
So hören Sie sich eine Stimme in Amazon Polly an
1. Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die Amazon Polly-Konsole unterhttps://console.aws.amazon.com/polly/.
2. Wählen Sie die Registerkarte Text-to-Speech.3. Wählen Sie eine Sprache, eine Region und eine Stimme aus4. Geben Sie Text ein, den die Stimme sprechen soll, oder verwenden Sie die Standardwortgruppe und
wählen Sie dann Listen to speech (Sprache anhören).
Sie können alle von Amazon Polly angebotenen Sprachen wählen. Die Konsole zeigt die für diese Spracheverfügbaren Stimmen an. In den meisten Fällen gibt es mindestens eine männliche und eine weiblicheStimme, oft mehr als jeweils eine. Ein paar verfügen nur über eine einzige Stimme. Eine vollständige Listefinden Sie unter Stimmen in Amazon Polly (p. 19)
Note
Das Stimmenverzeichnis und die Anzahl der enthaltenen Sprachen werden laufend aktualisiert,um weitere Optionen einzubeziehen. Um eine neue Sprache oder Stimme vorzuschlagen, könnenSie uns auf dieser Seite Ihr Feedback hinterlassen. Leider sind wir nicht in der Lage, Pläne für dieVeröffentlichung bestimmter neuer Sprachen zu kommentieren.
Jede Stimme wird mithilfe von Muttersprachlern erstellt, sodass es je nach Stimme Variationen geben kann,auch in derselben Sprache. Bei der Auswahl einer Stimme für Ihr Projekt sollten Sie jede mögliche Stimmemit einem Textabschnitt testen, um herauszufinden, welche sich am besten für Ihre Anforderungen eignet.
SprechgeschwindigkeitAufgrund der natürlichen Variation zwischen Stimmen spricht jede verfügbare Stimme den Text in einergeringfügig anderen Geschwindigkeit. Beispiel: Bei den Stimmen für Englisch (USA) sind Ivy und Joanna
21
Amazon Polly EntwicklerhandbuchÄndern Ihrer Sprechgeschwindigkeit
etwas schneller als Matthew, wenn sie sagen: „Mary had a little lamb.“ Beide sind erheblich schneller alsJoey, wenn sie denselben Text sprechen.
Da so viele Variationen zwischen Stimmen bestehen und der Grad der Variation vom gesprochenenText abhängen kann, ist für Amazon Polly-Stimmen keine Standardgeschwindigkeit (Wörter pro Minute)verfügbar. Sie können jedoch mittels Sprachmarkierungen herausfinden, wie lange es dauert, bis IhreStimme den ausgewählten Text spricht. Weitere Informationen zur Verwendung von Sprachmarkierungenin Amazon Polly finden Sie unter Verwenden von Sprachmarkierungen (p. 26).
So finden Sie heraus, wie lange es in etwa dauert, eine Textpassage zu sprechen
1. Öffnen Sie die AWS-CLI.2. Führen Sie den folgenden Code aus, und fügen Sie je nach Bedarf ein
aws polly synthesize-speech \ --output-format json \ --voice-id [name of desired voice] \ --text '[desired text]' \ --speech-mark-types='["viseme"]' \ LengthOfText.txt
3. Öffnen Sie LengthOfText.txt
Wenn der Text "Mary had a little lamb" lautet, lauten die letzten Zeilen, die von Amazon Polly ausgegebenwerden, wie folgt:
{"time":882,"type":"viseme","value":"t"}{"time":964,"type":"viseme","value":"a"}{"time":1082,"type":"viseme","value":"p"}
Das letzte Mundbild, d. h. der Klang der letzten Buchstaben in „lamb“, beginnt 1082 Millisekunden nachdem Beginn der Sprachausgabe. Dies ist zwar nicht genau die Länge der Audiospur, aber zumindest nahedran. Sie können 1082 Millisekunden als Grundlage für Vergleiche der Sprechgeschwindigkeit zwischenStimmen verwenden.
Ändern Ihrer SprechgeschwindigkeitBei bestimmten Anwendungen stellen Sie möglicherweise fest, dass Ihnen die Stimme langsamer oderschneller besser gefallen würde. Wenn die Sprechgeschwindigkeit ein Problem darstellt, bietet IhnenAmazon Polly die Möglichkeit, diese mithilfe von SSML-Tags zu ändern.
Beispiel:
Ihre Organisation erstellt eine Anwendung, die Migranten Bücher vorliest. Die Zielgruppe sprichtEnglisch, aber nicht fließend. In diesem Fall können Sie in Betracht ziehen, die Sprechgeschwindigkeit zuverlangsamen, damit Ihre Zielgruppe beim Vorlesen durch die Anwendung ein wenig mehr Zeit erhält, umdas Vorgelesene zu verstehen.
Mit Amazon Polly können Sie die Sprechgeschwindigkeit mithilfe des SSML-Tags <prosody>verlangsamen:
<speak> In some cases, it might help your audience to <prosody rate="85%">slow the speaking rate slightly to aid in comprehension.</prosody><speak
oder
22
Amazon Polly EntwicklerhandbuchVon Amazon Polly unterstützte Sprachen
<speak> In some cases, it might help your audience to <prosody rate="85%">slow the speaking rate slightly to aid in comprehension.</prosody><speak
Zwei Geschwindigkeitsoptionen stehen Ihnen bei der Verwendung von SSML mit Amazon Polly zurVerfügung:
• Voreingestellte Geschwindigkeiten: x-slow, slow, medium, fast und x-fast. In diesen Fällen handeltes sich bei der Geschwindigkeit der jeweiligen Option je nach bevorzugter Stimme um einen geschätztenWert. Die medium-Option ist die normale Sprechgeschwindigkeit.
• n% der Sprechgeschwindigkeit: jeder Prozentsatz der Sprechgeschwindigkeit zwischen 20 % und200 % kann verwendet werden. In diesen Fällen können Sie genau die gewünschte Geschwindigkeitwählen. Bei der tatsächlichen Sprechgeschwindigkeit handelt es sich jedoch um einen ungefähren Wert,abhängig von der gewählten Stimme. 100 % wird als normale Sprechgeschwindigkeit betrachtet.
Da die Geschwindigkeit der einzelnen Optionen ungefähr ist und von der von Ihnen gewählten Stimmeabhängig ist, empfehlen wir das Testen der von Ihnen ausgewählten Stimme bei verschiedenenGeschwindigkeiten, um festzustellen, welche Geschwindigkeit genau Ihren Anforderungen entspricht.
Weitere Informationen zur effektivsten Verwendung des prosody-Tags finden Sie unter Steuern vonLautstärke, Sprechgeschwindigkeit und Tonlage (p. 42).
Von Amazon Polly unterstützte SprachenDie folgenden Sprachen werden von Amazon Polly unterstützt und können verwendet werden, um Sprachezu synthetisieren. Jede Sprache weist einen Sprachcode auf. Bei diesen Sprachcodes handelt es sich umdie W3C-Tags zur Sprachenidentifizierung (ISO 639-3 für den Namen der Sprache und ISO 3166 fürden Ländercode).
Wählen Sie bei umfassenden Tabellen, die Phoneme und Mundbilder anzeigen, die der jeweiligen Sprachezugeordnet sind, den Link für die jeweilige Sprache in der Tabelle unten.
Sprache Sprachcode
Arabisch (arb) (p. 57) arb
Chinesisch, Mandarin (cmn-CN) (p. 60) cmn-CN
Dänisch (da-DK) (p. 63) da-DK
Niederländisch (nl-NL) (p. 66) nl-NL
Englisch (australisch) (en-AU) (p. 69) en-AU
Englisch (britisch) (en-GB) (p. 74) en-GB
Englisch (indisch) (en-IN) (p. 71) en-IN
Englisch (indisch) (en-IN) (p. 77) en-US
Englisch (walisisch) (en-GB-WSL) (p. 80) en-GB-WLS
Französisch (fr-FR) (p. 83) fr-FR
Kanadisches Französisch (fr-CA) (p. 85) fr-CA
23
Amazon Polly EntwicklerhandbuchVon Amazon Polly unterstützte Sprachen
Sprache Sprachcode
Hindi (hi-IN) (p. 91) hi-IN
Deutsch (de-DE) (p. 88) de-DE
Isländisch (is-IS) (p. 93) is-IS
Italienisch (it-IT) (p. 96) it-IT
Japanisch (ja-JP) (p. 99) ja-JP
Koreanisch (ko-KR) (p. 101) ko-KR
Norwegisch (nb-NO) (p. 103) nb-NO
Polnisch (pl-PL) (p. 106) pl-PL
Portugiesisch (brasilianisch) (pt-BR) (p. 110) pt-BR
Portugiesisch (pt-PT) (p. 108) pt-PT
Rumänisch (ro-RO) (p. 113) ro-RO
Russisch (ru-RU) (p. 115) ru-RU
Spanisch (es-ES) (p. 118) es-ES
Spanisch, mexikanisch (es-MX) (p. 121) es-MX
Spanisch, USA (es-US) (p. 123) es-US
Schwedisch (sv-SE) (p. 126) sv-SE
Türkisch (tr-TR) (p. 128) tr-TR
Walisisch (cy-GB) (p. 131) cy-GB
Weitere Informationen finden Sie unter Phonem- und Mundbildtabellen für unterstützte Sprachen (p. 56).
24
Amazon Polly EntwicklerhandbuchTypen von Sprachmarkierungen
SprachmarkierungenSprachmarkierungen sind Metadaten, die eine Sprachausgabe beschreiben. Sie kennzeichnenbeispielsweise Anfang und Ende von Sätzen und Wörtern im Audiostream. Wenn Sie für einen TextSprachmarkierungen anfordern, gibt Amazon Polly statt einer Sprachausgabe diese Metadaten zurück.Wenn Sie die Sprachmarkierungen zusammen mit dem Audiostream der Sprachausgabe verwenden,können Sie die visuelle Darstellung Ihrer Anwendungen verbessern.
Beispielsweise können Sie durch eine Kombination der Metadaten mit dem aus Ihrem Text generiertenAudiostream die Sprachausgabe mit einer Gesichtsanimation synchronisieren (Lippensynchronisation) odergeschriebenen Text parallel zur Sprachausgabe hervorheben.
Themen• Typen von Sprachmarkierungen (p. 25)• Verwenden von Sprachmarkierungen (p. 26)• Anfordern von Sprachmarkierungen über die Amazon Polly-Konsole (p. 29)
Typen von SprachmarkierungenSprachmarkierungen werden mithilfe der SpeechMarkTypes-Option für den SynthesizeSpeech-Befehl oderden StartSpeechSynthesisTask-Befehl angefordert. Dabei geben Sie an, welche Metadatenelemente fürIhren Eingabetext zurückgegeben werden sollen. Sie können bis zu vier verschiedene Metadatentypenanfordern, müssen pro Anforderung jedoch mindestens einen Typ angeben. Durch eine solche Anfragewird keine Audioausgabe generiert.
Zum Beispiel in der AWS CLI:
--speech-mark-types='["sentence", "word", "viseme", "ssml"]'
Amazon Polly generiert Sprachmarkierungen unter Verwendung der folgenden Elemente:
• sentence: Kennzeichnet ein Satzelement im Eingabetext.• word: Kennzeichnet ein Wortelement im Text.• viseme: Beschreibt die Gesichts- und Mundbewegungen bei der Aussprache der Phoneme. Weitere
Informationen finden Sie unter Mundbilder und Amazon Polly (p. 25).• ssml: Beschreibt ein <mark>-Element aus dem SSML-Eingabetext. Weitere Informationen finden Sie
unter Generieren von Sprachausgaben aus SSML-Dokumenten (p. 31).
Mundbilder und Amazon PollyEin Mundbild steht für die Position von Gesicht und Mund bei der Aussprache eines Wortes. Es ist dasvisuelle Äquivalent eines Phonems, der akustischen Grundeinheit der Wortbildung. Damit sind Mundbilderdie visuellen Grundbausteine der Sprache.
Jede Sprache verfügt über einen Satz von Mundbildern, die ihre spezifischen Phoneme darstellen. Zujedem Phonem einer Sprache gibt es ein Mundbild, das beschreibt, wie sich der Mund formt, wenn derentsprechende Laut gebildet wird. Allerdings hat nicht jedes Phonem ein einzigartiges Mundbild, denn
25
Amazon Polly EntwicklerhandbuchVerwenden von Sprachmarkierungen
viele Phoneme werden mit identischer Mund- und Gesichtsform ausgesprochen, auch wenn sie sichlautlich unterscheiden. Im Englischen beispielsweise unterscheiden sich die Worte "pet" und "bet" lautlichvoneinander. Rein visuell betrachtet (ohne den zugehörigen Sprachlaut) sind Gesichts- und Mundform beiihrer Aussprache jedoch jeweils identisch.
Die folgende Tabelle enthält eine Teilmenge der Phoneme des Internationalen Phonetischen Alphabets(IPA) und die Symbole aus dem Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA)sowie die zugehörigen Mundbilder für Stimmen mit der Sprache US-Englisch.
Eine vollständige Tabelle sowie Tabellen für alle verfügbaren Sprachen finden Sie unter Phonem- undMundbildtabellen für unterstützte Sprachen (p. 56).
IPA X-SAMPA Beschreibung Beispiel Mundbild
Konsonanten
b b stimmhafter bilabialerPlosiv
bed p
d d stimmhafteralveolarer Plosiv
dig t
dʒ dZ stimmhaftepostalveolareAffrikate
jump S
ð D stimmhafter dentalerFrikativ
then T
f f stimmloserlabiodentaler Frikativ
five f
g g stimmhafter velarerPlosiv
game k
h h stimmloser glottalerFrikativ
house k
... ... ... ... ...
Verwenden von SprachmarkierungenAnfordern von SprachmarkierungenVerwenden Sie den Befehl synthesize-speech, um Sprachmarkierungen für einen Eingabetextanzufordern. Neben dem Eingabetext sind außerdem die folgenden Elemente erforderlich, damit dieseMetadaten zurückgegeben werden können:
• output-format
Amazon Polly unterstützt für die Rückgabe von Sprachmarkierungen ausschließlich das JSON-Format.
--output-format json
Wenn Sie ein nicht unterstütztes Ausgabeformat angeben, löst Amazon Polly eine Ausnahme aus.
26
Amazon Polly EntwicklerhandbuchSprachmarkierungsausgaben
• voice-id
Geben Sie dieselbe Stimme an, die zur Generierung des Sprachausgabe-Audiostreams verwendet wird.Nur so ist sichergestellt, dass die Metadaten auch zu dem entsprechenden Audiostream passen. Dieverfügbaren Stimmen haben nicht alle dieselbe Sprechgeschwindigkeit. Wenn Sie nicht die Stimmeverwenden, mit der die Sprachausgabe generiert wurde, werden die Metadaten nicht zum Audiostreampassen.
--voice-id Joanna
• speech-mark-types
Geben Sie an, welche Sprachmarkierungstypen zurückgegeben werden sollen. Sie können jedenbeliebigen Sprachmarkierungstyp anfordern oder auch sämtliche Sprachmarkierungstypen. Sie müssenaber mindestens einen Typ angeben.
--speech-mark-types='["sentence", "word", "viseme", "ssml"]'
• text-type
Standardmäßig ist als Eingabetext für Amazon Polly einfacher Text ("plain text") festgelegt. Sollen SSML-Sprachmarkierungen zurückgegeben werden, müssen Sie text-type ssml angeben.
• outfile
Geben Sie die Ausgabedatei an, in die die Metadaten geschrieben werden sollen.
MaryLamb.txt
Das folgende AWS CLI-Beispiel ist für Unix, Linux und macOS formatiert. Für Windows ersetzen Sie denumgekehrten Schrägstrich (\), das Unix-Fortsetzungszeichen, am Ende der jeweiligen Zeile durch einCaretzeichen (^) und verwenden vollständige Anführungszeichen (") um den Eingabetext und einfacheAnführungszeichen (') für innere Tags.
aws polly synthesize-speech \ --output-format json \ --voice-id Voice ID \ --text 'Input text' \ --speech-mark-types='["sentence", "word", "viseme"]' \ outfile
SprachmarkierungsausgabenAmazon Polly gibt Sprachmarkierungsobjekte in einem JSON-Stream zurück, der Zeilenumbrüche alsTrennzeichen verwendet. Ein Sprachmarkierungsobjekt enthält die folgenden Felder:
• time: der Zeitstempel in Millisekunden relativ zum Beginn des entsprechenden Audiostreams• type: der Sprachmarkierungstyp ("sentence", "word", "viseme" oder "ssml")• start: der Versatz in Byte des Objektbeginns im Eingabetext (ohne Mundbildmarkierungen)• end: der Versatz in Byte des Objektendes im Eingabetext in (ohne Mundbildmarkierungen)• value: variabel je nach Sprachmarkierungstyp
• SSML: SSML-Tag des Typs <mark>• viseme: der Name des Mundbilds
27
Amazon Polly EntwicklerhandbuchBeispiele für Sprachmarkierungen
• word oder sentence: eine Teilzeichenfolge des Eingabetexts, gekennzeichnet durch die Felder "start"und "end"
Zum Beispiel erzeugt Amazon Polly das folgende word-Sprachmarkierungsobjekt aus dem Text "Maryhatte ein kleines Lamm":
{"time":373,"type":"word","start":5,"end":8,"value":"had"}
Das beschriebene Wort ("had") beginnt 373 Millisekunden nach Start des Audiostreams. Sein Anfang liegtbei Byte 5, sein Ende bei Byte 8 des Eingabetexts.
Note
Diese Metadaten wurden für die Stimme Joanna generiert. Wenn Sie für denselben Eingabetexteine andere Stimme verwenden, sehen die Metadaten möglicherweise anders aus.
Beispiele für SprachmarkierungenDie folgenden Beispiele für Sprachmarkierungsanforderungen illustrieren gängige Anforderungen undderen Ausgabe.
Beispiel 1: Sprachmarkierungen ohne SSMLIm nachfolgenden Beispiel sehen Sie die Bildschirmausgabe der angeforderten Metadaten fürden einfachen Satz "Mary had a little lamb". Um das Beispiel einfach zu halten, haben wir SSML-Sprachmarkierungen hier außen vor gelassen.
Das folgende AWS CLI-Beispiel ist für Unix, Linux und macOS formatiert. Für Windows ersetzen Sie denumgekehrten Schrägstrich (\), das Unix-Fortsetzungszeichen, am Ende der jeweiligen Zeile durch einCaretzeichen (^) und verwenden vollständige Anführungszeichen (") um den Eingabetext und einfacheAnführungszeichen (') für innere Tags.
aws polly synthesize-speech \ --output-format json \ --voice-id Joanna \ --text 'Mary had a little lamb.' \ --speech-mark-types='["viseme", "word", "sentence"]' \ MaryLamb.txt
Wenn Sie diese Anfrage senden, gibt Amazon Polly eine .txt-Datei mit folgendem Inhalt zurück:
{"time":0,"type":"sentence","start":0,"end":23,"value":"Mary had a little lamb."}{"time":6,"type":"word","start":0,"end":4,"value":"Mary"}{"time":6,"type":"viseme","value":"p"}{"time":73,"type":"viseme","value":"E"}{"time":180,"type":"viseme","value":"r"}{"time":292,"type":"viseme","value":"i"}{"time":373,"type":"word","start":5,"end":8,"value":"had"}{"time":373,"type":"viseme","value":"k"}{"time":460,"type":"viseme","value":"a"}{"time":521,"type":"viseme","value":"t"}{"time":604,"type":"word","start":9,"end":10,"value":"a"}{"time":604,"type":"viseme","value":"@"}{"time":643,"type":"word","start":11,"end":17,"value":"little"}{"time":643,"type":"viseme","value":"t"}
28
Amazon Polly EntwicklerhandbuchAnfordern von Sprachmarkierungen
über die Amazon Polly-Konsole
{"time":739,"type":"viseme","value":"i"}{"time":769,"type":"viseme","value":"t"}{"time":799,"type":"viseme","value":"t"}{"time":882,"type":"word","start":18,"end":22,"value":"lamb"}{"time":882,"type":"viseme","value":"t"}{"time":964,"type":"viseme","value":"a"}{"time":1082,"type":"viseme","value":"p"}
In dieser Ausgabe wurden sämtliche Teile des Texts in Sprachmarkierungen überführt:
• Der Satz "Mary had a little lamb."• Jedes Wort im Text: "Mary", "had", "a", "little" und "lamb"• Das Mundbild für jeden Laut im zugehörigen Audiostream: "p", "E", "r", "i" usw. Weitere Informationen zu
Mundbildern finden Sie unter Mundbilder und Amazon Polly (p. 25).
Beispiel 2: Sprachmarkierungen mit SSMLDie Generierung von Sprachmarkierungen aus SSML-erweitertem Text funktioniert ähnlich wiedie Generierung aus Text ohne SSML. Sie verwenden den Befehl synthesize-speech undgeben wie im nachfolgenden Beispiel dargestellt den SSML-erweiterten Text und die gewünschtenSprachmarkierungstypen an. Zur besseren Lesbarkeit haben wir in diesem Beispiel Mundbild-Sprachmarkierungen weggelassen. Diese könnten jedoch ebenfalls angefordert werden.
Das folgende AWS CLI-Beispiel ist für Unix, Linux und macOS formatiert. Für Windows ersetzen Sie denumgekehrten Schrägstrich (\), das Unix-Fortsetzungszeichen, am Ende der jeweiligen Zeile durch einCaretzeichen (^) und verwenden vollständige Anführungszeichen (") um den Eingabetext und einfacheAnführungszeichen (') für innere Tags.
aws polly synthesize-speech \ --output-format json \ --voice-id Joanna \ --text-type ssml \ --text '<speak><prosody volume="+20dB">Mary had <break time="300ms"/>a little <mark name="animal"/>lamb</prosody></speak>' \ --speech-mark-types='["sentence", "word", "ssml"]' \ output.txt
Wenn Sie diese Anfrage senden, gibt Amazon Polly eine .txt-Datei mit folgendem Inhalt zurück:
{"time":0,"type":"sentence","start":31,"end":95,"value":"Mary had <break time=\"300ms\"\/>a little <mark name=\"animal\"\/>lamb"}{"time":6,"type":"word","start":31,"end":35,"value":"Mary"}{"time":325,"type":"word","start":36,"end":39,"value":"had"}{"time":897,"type":"word","start":40,"end":61,"value":"<break time=\"300ms\"\/>"}{"time":1291,"type":"word","start":61,"end":62,"value":"a"}{"time":1373,"type":"word","start":63,"end":69,"value":"little"}{"time":1635,"type":"ssml","start":70,"end":91,"value":"animal"}{"time":1635,"type":"word","start":91,"end":95,"value":"lamb"}
Anfordern von Sprachmarkierungen über dieAmazon Polly-Konsole
Sie können die Konsole verwenden, um Sprachmarkierungen von Amazon Polly anzufordern.Anschließend können Sie die Metadaten anzeigen oder in einer Datei speichern.
29
Amazon Polly EntwicklerhandbuchAnfordern von Sprachmarkierungen
über die Amazon Polly-Konsole
So generieren Sie Sprachmarkierungen über die Konsole:
1. Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die Amazon Polly-Konsole unterhttps://console.aws.amazon.com/polly/.
2. Wählen Sie die Registerkarte Text-to-Speech.3. Verwenden Sie weiterhin die Registerkarte Plain Text oder wählen Sie die Registerkarte SSML.4. Geben Sie Ihren Text in das Eingabefeld ein oder kopieren Sie ihn in das Eingabefeld.5. Wählen Sie für Sprache und Region die Sprache für Ihren Text.6. Wählen Sie unter Voice die Stimme aus, die Sie für den Text verwenden möchten.7. Wenn Sie die Textaussprache ändern möchten: Wählen Sie zunächst Customize Pronunciation aus
und anschließend unter Apply Lexicon das gewünschte Lexikon.8. Wählen Sie Listen to speech aus, um zu überprüfen, ob die Sprachausgabe Ihren Wünschen
entspricht.9. Wählen Sie Change File Format.
Note
Beim Download im Format MP3, OGG oder PCM werden keine Sprachmarkierungengeneriert.
10. Für File Format, wählen Sie Speech Marks.11. Wählen Sie unter Speech Mark Types aus, welche Sprachmarkierungstypen generiert werden
sollen. Die Option zur Auswahl von SSML-Metadaten ist nur auf der Registerkarte SSML verfügbar.Weitere Informationen zur Verwendung von SSML mit Amazon Polly finden Sie unter Generieren vonSprachausgaben aus SSML-Dokumenten (p. 31).
12. Wählen Sie Change.13. Wählen Sie Download Speech Marks.
30
Amazon Polly EntwicklerhandbuchVerwenden von SSML in der Konsole
Generieren von Sprachausgaben ausSSML-Dokumenten
Sie können Amazon Polly zum Generieren von Sprache aus Plain Text oder aus Dokumentenverwenden, die SSML-Tags (Speech Synthesis Markup Language) enthalten. Mit SSML-Tags können SieSprachaspekte wie Aussprache, Lautstärke und Sprechgeschwindigkeit anpassen und steuern.
Amazon Polly unterstützt SSML Version 1.1 gemäß der Definition in der folgenden W3C-Empfehlung:
• Speech Synthesis Markup Language (SSML) Version 1.1, W3C-Empfehlung 7. September 2010
Sie können SSML in der Amazon Polly-Konsole oder über die AWS CLI verwenden. In den folgendenThemen wird beschrieben, wie Sie mit SSML Sprachausgaben generieren und die Ausgabe kontrollierenkönnen, damit sie exakt Ihren Anforderungen entspricht.
Themen• Verwenden von SSML (Konsole) (p. 31)• Verwenden von SSML (AWS CLI) (p. 32)• Von Amazon Polly unterstützte SSML-Tags (p. 37)
Verwenden von SSML (Konsole)Mit SSML-Tags können Sie Sprachaspekte wie Aussprache, Lautstärke und Sprechgeschwindigkeitanpassen und steuern. In der AWS-Konsole wird der Text mit SSML-Tags, den Sie in Audiodatenkonvertieren möchten, auf der Registerkarte „SSML“ der Seite „Text-to-Speech“ eingegeben. Obwohl imKlartext eingegebener Text auf den Standardeinstellungen für die gewählte Sprache und Stimme beruht,informiert Text mit SSML-Tags Amazon Polly nicht nur darüber, was Sie sagen möchten, sondern auch,wie Sie es sagen möchten. Mit Ausnahme der hinzugefügten SSML-Tags synthetisiert Amazon PollyText mit SSML-Tags auf die gleiche Weise wie Klartext. Weitere Informationen finden Sie unter Übung 2:Generieren einer Sprachausgabe (aus einfachem Eingabetext) (p. 13).
Bei der Verwendung von SSML umschließen Sie den gesamten Text mit einem <speak>-Tag, damitAmazon Polly weiß, dass Sie SSML verwenden. Beispiel:
<speak>Hi! My name is Joanna. I will read any text you type here.</speak>
Anschließend verwenden Sie spezifische SSML-Tags für den Text innerhalb der <speak>-Tags,um die Art und Weise anzupassen, wie der Text klingen soll. Sie können eine Pause hinzufügen, dieGeschwindigkeit der Sprachausgabe ändern, die Lautstärke der Stimme erhöhen oder senken oder vieleweitere Anpassungen hinzufügen, sodass der Text für Sie richtig klingt. Eine vollständige Liste der SSML-Tags, die Sie verwenden können, finden Sie unter Unterstützte SSML-Tags (p. 37).
Im folgenden Beispiel verwenden Sie ein SSML-Tag, um Amazon Polly anzuweisen, "World Wide WebConsortium" durch "W3C" zu ersetzen, wenn ein kurzer Absatz gesprochen wird. Sie können Tags auchverwenden, um eine Pause einzufügen oder ein Wort flüstern zu lassen. Vergleichen Sie das Ergebnisdieser Übung mit dem von Anwenden von Lexika mithilfe der Konsole (synthetische Sprache) (p. 137).
Weitere Informationen und Beispiele zu SSML finden Sie unter Unterstützte SSML-Tags (p. 37).
31
Amazon Polly EntwicklerhandbuchVerwenden von SSML in der AWS-CLI
So generieren Sie Sprachausgaben aus Text mit SSML-Tags (Konsole)
1. Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die Amazon Polly-Konsole unterhttps://console.aws.amazon.com/polly/.
2. Wählen Sie – falls erforderlich – die Registerkarte Text-to-Speech (Text in Sprache).3. Wählen Sie die Registerkarte SSML.4. Geben Sie den folgenden Text in das Textfeld ein:
<speak> He was caught up in the game.<break time="1s"/> In the middle of the 10/3/2014 <sub alias="World Wide Web Consortium">W3C</sub> meeting, he shouted, "Score!" quite loudly. When his boss stared at him, he repeated <amazon:effect name="whispered">"Score"</amazon:effect> in a whisper.</speak>
Die SSML-Tags weisen Amazon Polly an, wie der Text gerendert werden soll:
• <break time="1s"/> weist Amazon Polly an, zwischen den ersten zwei Sätzen eine Sekunde zupausieren.
• <sub alias="World Wide Web Consortium">W3C</sub> weist Amazon Polly an, dasAkronym "W3C" durch "World Wide Web Consortium" zu ersetzen.
• <amazon:effect name="whispered">Score</amazon:effect> weist Amazon Polly an, daszweite Vorkommen von "Score" zu flüstern.
Note
Wenn Sie die AWS CLI verwenden, schließen Sie den Eingabetext in Anführungszeichenein, um ihn vom umgebenden Code zu unterscheiden. Die Amazon Polly-Konsole zeigt denCode nicht, Sie schließen den Eingabetext deshalb nicht in Anführungszeichen ein.
5. Wählen Sie für Choose a language and region (Sprache und Region wählen) die Option English US(Englisch USA) und dann eine Stimme.
6. Wählen Sie Listen to speech (Sprachausgabe anhören) aus, um die Sprachausgabe anzuhören.7. Wählen Sie Download [format] (Download [Format]) aus, um die Sprachausgabedatei zu speichern.
Wenn Sie die Datei in einem anderen Format speichern möchten, wählen Sie Change file format(Dateiformat ändern) und dann das gewünschte Format aus. Wählen Sie anschließend Change(Ändern) und Download [format] (Download [Format]) aus.
Verwenden von SSML (AWS CLI)Sie können die AWS CLI verwenden, um SSML-Eingabetext zu synthetisieren. Die folgenden Beispielezeigen, wie Sie häufige Aufgaben über die AWS CLI ausführen.
Themen• Verwenden von SSML mit dem Befehl „Synthesize-Speech“ (p. 33)• Generieren eines Dokuments mit verbesserten SSML-Tags (p. 34)• Verwenden von SSML für typische Amazon Polly-Aufgaben (p. 34)
32
Amazon Polly EntwicklerhandbuchVerwenden von SSML mit dem Befehl „Synthesize-Speech“
Verwenden von SSML mit dem Befehl „Synthesize-Speech“In diesem Beispiel wird gezeigt, wie der Befehl synthesize-speech mit einer SSML-Zeichenfolgeverwendet wird. Wenn Sie den Befehl synthesize-speech verwenden, geben Sie üblicherweiseFolgendes an:
• Eingabetext (erforderlich)• Öffnendes und schließendes Tag (erforderlich)• Das Ausgabeformat• Eine Stimme
In diesem Beispiel geben Sie eine einfache Textzeichenfolge in Anführungszeichen sowie dieerforderlichen öffnenden und schließenden <speak></speak>-Tags an.
Important
Auch wenn Sie den Eingabetext in der Amazon Polly-Konsole nicht in Anführungszeicheneinschließen, müssen Sie in der AWS CLI Anführungszeichen verwenden. Außerdem müssen Siezwischen den Anführungszeichen unterscheiden, die den Eingabetext einschließen, sowie denAnführungszeichen, die für einzelne Tags erforderlich sind.Sie können beispielsweise den Eingabetext in Standardanführungszeichen (") einschließenund einfache Anführungszeichen (') für eingebettete Tags verwenden – oder umgekehrt.Beide Varianten funktionieren für Unix, Linux und macOS. Für Windows müssen Sie denEingabetext dagegen in Standardanführungszeichen einschließen und für die Tags einfacheAnführungszeichen verwenden.Unter allen Betriebssystemen können Sie den Eingabetext in Standardanführungszeichen (")einschließen und einfache Anführungszeichen (') für eingebettete Tags verwenden. Beispiel:
--text "<speak>Hello <break time='300ms'/> World</speak>"
Unter Unix, Linux und macOS können Sie auch umgekehrt vorgehen, also den Eingabetext ineinfache Anführungszeichen (') einschließen und Standardanführungszeichen (") für eingebetteteTags verwenden:
--text '<speak>Hello <break time="300ms"/> World</speak>'
Das folgende AWS CLI-Beispiel ist für Unix, Linux und macOS formatiert. Für Windows ersetzen Sie denumgekehrten Schrägstrich (\), das Unix-Fortsetzungszeichen, am Ende der jeweiligen Zeile durch einCaretzeichen (^) und verwenden vollständige Anführungszeichen (") um den Eingabetext und einfacheAnführungszeichen (') für innere Tags.
aws polly synthesize-speech \--text-type ssml \--text '<speak>Hello world</speak>' \--output-format mp3 \--voice-id Joanna \speech.mp3
Sie können die Sprachausgabe anhören, indem Sie die resultierende speech.mp3-Datei mit einem Audio-Player abspielen.
33
Amazon Polly EntwicklerhandbuchGenerieren eines Dokuments mit verbesserten SSML-Tags
Generieren eines Dokuments mit verbesserten SSML-TagsBei längeren Eingabedaten ist es wahrscheinlich komfortabler, den SSML-Inhalt in einer Datei zu speichernund den Dateinamen dann im synthesize-speech-Befehl anzugeben. Sie können beispielsweiseFolgendes in einer Datei namens example.xml speichern:
<?xml version="1.0"?><speak version="1.1" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2001/10/synthesis http://www.w3.org/TR/speech-synthesis11/synthesis.xsd" xml:lang="en-US">Hello World</speak>
Das Attribut xml:lang gibt en-US (Englisch (USA)) als Sprache für den Eingabetext an. WeitereInformationen dazu, wie sich die Sprache des Eingabetexts und die Sprache der gewählten Stimme auf dieSynthesizeSpeech-Operation auswirken, finden Sie unter Verbessern der Aussprache fremdsprachigerWörter (p. 36).
So führen Sie eine Datei mit SSML-Tags aus
1. Speichern Sie die SSML-Daten in einer Datei (zum Beispiel als example.xml).2. Führen Sie den folgenden synthesize-speech-Befehl in dem Pfad aus, in dem die XML-Datei
gespeichert ist. Verwenden Sie die SSML-Datei als Eingabe, indem Sie anstelle des Eingabetextsfile:\\example.xml angeben. Weil dieser Befehl auf eine Datei verweist und nicht deneigentlichen Eingabetext enthält, werden keine Anführungszeichen verwendet.
Note
Das folgende AWS-CLI-Beispiel ist für Unix, Linux und macOS formatiert. Ersetzen Sie unterWindows den umgekehrten Schrägstrich (\), das Unix-Fortsetzungszeichen, am Ende jederZeile durch ein Caret-Zeichen oder Zirkumflex (^).
aws polly synthesize-speech \--text-type ssml \--text file://example.xml \--output-format mp3 \--voice-id Joanna \speech.mp3
3. Sie können die Sprachausgabe anhören, indem Sie die resultierende speech.mp3-Datei mit einemAudio-Player abspielen.
Verwenden von SSML für typische Amazon Polly-AufgabenDie folgenden Beispiele zeigen, wie Sie mit SSML-Tags typische Amazon Polly-Aufgaben ausführenkönnen. Informationen zu weiteren SSML-Tags finden Sie unter Von Amazon Polly unterstützte SSML-Tags (p. 37).
Verwenden Sie den folgenden synthesize-speech-Befehl mit geeignetem Text mit SSML-Tags, um diefolgenden Beispiele zu testen:
Das folgende AWS CLI-Beispiel ist für Unix, Linux und macOS formatiert. Für Windows ersetzen Sie denumgekehrten Schrägstrich (\), das Unix-Fortsetzungszeichen, am Ende der jeweiligen Zeile durch ein
34
Amazon Polly EntwicklerhandbuchVerwenden von SSML für typische Amazon Polly-Aufgaben
Caretzeichen (^) und verwenden vollständige Anführungszeichen (") um den Eingabetext und einfacheAnführungszeichen (') für innere Tags.
aws polly synthesize-speech \--text-type ssml \--text '<speak>Hello <break time="300ms"/> World</speak>' \--output-format mp3 \--voice-id Joanna \speech.mp3
Hinzufügen einer PauseVerwenden Sie das Element <break>, um zwischen Wörtern eine Pause hinzuzufügen. Im folgendenSSML-Befehl synthesize-speech wird das Element <break> verwendet, um eine Pause von300 Millisekunden zwischen den Worten „Hello“ und „World“ einzufügen.
<speak> Hello <break time="300ms"/> World.</speak>
Steuern von Lautstärke, Tonlage und GeschwindigkeitVerwenden Sie das Element <prosody>, um Tonlage, Sprechgeschwindigkeit und Sprechlautstärke zusteuern.
• Im folgenden "synthesize-speech"-Befehl wird das Element <prosody> zum Steuern der Lautstärkeverwendet:
<speak> <prosody volume="+20dB">Hello world</prosody></speak>
• Im folgenden synthesize-speech-Befehl wird das Element <prosody> verwendet, um die Tonlagezu steuern:
<speak> <prosody pitch="x-high">Hello world.</prosody></speak>
• Im folgenden synthesize-speech-Befehl wird das Element <prosody> verwendet, um dieSprechgeschwindigkeit anzugeben:
<speak> <prosody rate="x-fast">Hello world.</prosody></speak>
• Sie können in einem <prosody>-Element mehrere Attribute festlegen, wie die folgenden Beispielezeigen:
<speak> <prosody volume="x-loud" pitch="x-high" rate="x-fast">Hello world.</prosody></speak>
35
Amazon Polly EntwicklerhandbuchVerwenden von SSML für typische Amazon Polly-Aufgaben
FlüsternZum Flüstern von Wörtern können Sie das Element <amazon:effect name="whispered"> verwenden.Im folgenden Beispiel weist das <amazon:effect name="whispered">-Element Amazon Polly an,"little lamb" zu flüstern:
<speak> Mary has a <amazon:effect name="whispered">little lamb.</amazon:effect></speak>
Dieser Effekt kann mit dem Element <prosody> verstärkt werden, das die Geschwindigkeit der geflüstertenSprachausgabe etwas verlangsamt.
Betonen von WörternUm ein Wort oder eine Wendung zu betonen, verwenden Sie das Element <emphasis>.
<speak> <emphasis level="strong">Hello</emphasis> world how are you?</speak>
Festlegen der Aussprache bestimmter WörterMit dem Element <say-as> können Sie den Typ des zu sprechenden Texts angeben.
In der folgenden SSML-Anweisung gibt <say-as> beispielsweise an, dass der Text "4/6" als Datuminterpretiert werden soll. Das Attribut interpret-as="date" format="dm" gibt an, dass der Text alsDatum im Format Monat/Tag gesprochen werden soll.
Sie können das Element <say-as> auch verwenden, um Amazon Polly anzuweisen, Zahlen alsBruchzahlen, Telefonnummern, Maßeinheiten usw. zu sprechen.
<speak> Today is <say-as interpret-as="date" format="md" >4/6</say-as></speak>
Die Sprachausgabe lautet: "Today is June 4th." Das Tag <say-as> gibt an, wie der Text interpretiertwerden soll, indem weitere Informationen mit dem Attribut interpret-as bereitgestellt werden.
Spielen Sie die resultierende speech.mp3-Datei ab, um die Sprachausgabe zu prüfen.
Weitere Informationen zu diesem Element finden Sie unter Steuern des Sprechens spezieller Wortarten (p. 46).
Verbessern der Aussprache fremdsprachiger WörterAmazon Polly unterstellt, dass der Eingabetext in der von der gewählten Stimme gesprochenen Sprachevorliegt. Um die Aussprache fremdsprachiger Wörter im Eingabetext zu verbessern, gehen Sie imsynthesize-speech-Aufruf folgendermaßen vor: Geben Sie die Zielsprache mit dem Attribut xml:langan. Dies weist Amazon Polly an, auf die mit Tags gekennzeichneten fremdsprachigen Wörter andereAusspracheregeln anzuwenden.
Die folgenden Beispiele zeigen, wie Sie unterschiedliche Sprachkombinationen im Eingabetext verwendenund Stimmen sowie die Aussprache für fremdsprachige Wörter angeben. Eine vollständige Liste derverfügbaren Sprachen finden Sie unter Von Amazon Polly unterstützte Sprachen (p. 23).
36
Amazon Polly EntwicklerhandbuchVon Amazon Polly unterstützte SSML-Tags
Im folgenden Beispiel spricht die Stimme (Joanna) US-Englisch. Standardmäßig unterstellt Amazon Polly,dass der Eingabetext in der von der Stimme gesprochenen Sprache (in diesem Fall US-Englisch) vorliegt.Wenn Sie das Tag xml:lang verwenden, interpretiert Amazon Polly den Text als Spanisch. Der Textwird so gesprochen, wie die gewählte Stimme spanische Wörter aussprechen würde. Dabei werden dieAusspracheregeln für die Fremdsprache verwendet. Ohne dieses Tag wird der Text unter Verwendung derAusspracheregeln für die gewählte Stimme gesprochen.
<speak> That restaurant is terrific. <lang xml:lang="es-ES">Mucho gusto.</lang></speak>
Da die Sprache des Eingabetexts Englisch ist, ordnet Amazon Polly die spanischen Phoneme akustischmöglichst ähnlichen englischen Phonemen zu. Dies hat zur Folge, dass Joanna den Text als gebürtige US-Amerikanerin spricht, spanische Wörter also richtig, aber mit US-amerikanischem Akzent ausspricht.
Note
Einige Sprachen sind ähnlicher als andere, deshalb funktionieren einige Sprachkombinationenbesser.
Von Amazon Polly unterstützte SSML-TagsIndem Sie den Eingabetext durch SSML-Tags ergänzen, erhalten Sie mehr Kontrolle darüber, wie AmazonPolly Sprachausgaben daraus generiert.
Sie können beispielsweise eine lange Pause in den Text einfügen oder Sprechgeschwindigkeit oderTonlage ändern. Amazon Polly ermöglicht diese Kontrolle mit einer Teilmenge der unter Speech SynthesisMarkup Language (SSML) Version 1.1, W3C Recommendation definierten SSML-Tags.
Unterstützte SSML-TagsAmazon Polly unterstützt die folgenden SSML-Tags:
Aktion SSML-Tag
Hinzufügen einer Pause (p. 38) <break>
Betonen von Wörtern (p. 39) <emphasis>
Angeben einer anderen Sprache für bestimmteWörter (p. 39)
<lang>
Einfügen eines benutzerdefinierten Tags in denText (p. 40)
<mark>
Hinzufügen einer Pause zwischen Absätzen (p. 41)
<p>
Verwenden phonetischer Aussprache (p. 41) <phoneme>
Steuern von Lautstärke, Sprechgeschwindigkeitund Tonlage (p. 42)
<prosody>
Festlegen einer maximalen Dauer der generiertenSprachausgabe (p. 44)
<prosody amazon:max-duration>
37
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Aktion SSML-Tag
Hinzufügen einer Pause zwischen Sätzen (p. 46)
<s>
Steuern des Sprechens spezieller Wortarten (p. 46)
<say-as>
Identifizieren von Text mit SSML-Tags (p. 38) <speak>
Aussprache von Akronymen und Abkürzungen (p. 49)
<sub>
Verbessern der Aussprache durch Angabe derWortart (p. 49)
<w>
Hinzufügen von Atemgeräuschen (p. 50) <amazon:auto-breaths>
Hinzufügen einer Dynamikkomprimierung (p. 52)
<amazon:effect name="drc">
Weicheres Sprechen (p. 54) <amazon:effect phonation="soft">
Steuern des Timbres (p. 54) <amazon:effect vocal-tract-length>
Flüstern (p. 55) <amazon: effect name="whispered">
Nicht unterstützte SSML-Tags im Eingabetext führen zu Fehlern.
Identifizieren von Text mit SSML-Tags<speak>
Das Tag <speak> ist das Stammelement aller Amazon Polly-SSML-Texte. Der gesamte Text mit SSML-Tags muss in ein Paar <speak>-Tags eingeschlossen werden.
<speak>Mary had a little lamb.</speak>
Hinzufügen einer Pause<break>
Verwenden Sie das Tag <break>, um Ihrem Text eine Pause hinzuzufügen. Sie können eine Pause aufGrundlage der Stärke (entspricht der Pause nach einem Komma, Satz oder Absatz) oder den Wert auf einebestimmte Dauer in Sekunden oder Millisekunden festlegen. Wenn Sie kein Attribut angeben, um die Längeder Pause zu bestimmen, verwendet Amazon Polly den Standardwert <break strength="medium">,der die Länge einer Pause nach einem Komma hinzufügt.
Werte des Attributs strength:
• none: Keine Pause. Verwenden Sie none, um standardmäßig auftretende Pausen – z. B. nach einemPunkt – zu entfernen.
• x-weak: Hat die gleiche Wirkung wie none, keine Pause.• weak: Legt eine Pause derselben Dauer wie die Pause nach einem Komma fest.• medium: Hat die gleiche Wirkung wie weak.• strong: Legt eine Pause derselben Dauer wie die Pause nach einem Satz fest.• x-strong: Legt eine Pause derselben Dauer wie die Pause nach einem Absatz fest.
38
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Werte des Attributs time:
• [number]s: Dauer der Pause in Sekunden. Die maximale Dauer ist 10s.• [number]ms: Dauer der Pause in Millisekunden. Die maximale Dauer ist 10000ms.
Beispiel:
<speak> Mary had a little lamb <break time="3s"/>Whose fleece was white as snow.</speak>
Wenn Sie kein Attribut mit dem break-Tag verwenden, variiert das Ergebnis je nach Text:
• Wenn sich neben dem break-Tag keine anderen Satzzeichen befinden, wird eine <breakstrength="medium"> (Pause in Komma-Länge) erstellt.
• Wenn sich das Tag neben einem Komma befindet, wird es zu einer <break strength="strong">(Pause in Satz-Länge).
• Wenn sich das Tag neben einem Punkt befindet, wird es zu einer <break strength="x-strong">(Pause in Absatz-Länge).
Betonen von Wörtern<emphasis>
Verwenden Sie das Tag <emphasis>, um Wörter zu betonen. Die Betonung von Wörtern wirkt sich aufSprechgeschwindigkeit und -lautstärke aus. Eine stärkere Betonung lässt Amazon Polly den Text lauter undlangsamer sprechen. Bei weniger Betonung wird leiser und schneller gesprochen. Die Stärke der Betonunggeben Sie mit dem Attribut level an.
Werte des Attributs level:
• Strong: Erhöht die Lautstärke und verlangsamt die Sprechgeschwindigkeit, sodass die Sprachausgabelauter und langsamer erfolgt.
• Moderate: Erhöht die Lautstärke und verlangsamt die Sprechgeschwindigkeit in geringerem Umfang alsstrong. Moderate ist die Standardeinstellung.
• Reduced: Verringert die Lautstärke und beschleunigt die Sprechgeschwindigkeit. Die Sprachausgabe istweicher und schneller.
Note
Die normale Sprechgeschwindigkeit und -lautstärke liegen zwischen moderate und reduced.
Beispiel:
<speak> I already told you I <emphasis level="strong">really like</emphasis> that person.</speak>
Angeben einer anderen Sprache für bestimmte Wörter<lang>
Mit dem Tag <lang> können Sie eine andere Sprache für ein Wort, eine Wendung oder einen Satzangeben. Fremdsprachige Wörter und Wendungen werden in der Regel besser gesprochen, wenn
39
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
sie in ein Paar <lang>-Tags eingeschlossen werden. Verwenden Sie zum Angeben der Sprache dasAttribut xml:lang. Eine vollständige Liste der verfügbaren Sprachen finden Sie unter Von Amazon Pollyunterstützte Sprachen (p. 23).
Sofern Sie nicht das Tag <lang> anwenden, werden alle Wörter im Eingabetext in der Sprache derStimme gesprochen, die mit voice-id angegeben wurde. Wenn Sie das Tag <lang> anwenden, werdendie Wörter in jener Sprache gesprochen.
Beispiel: Wenn die voice-id Joanna (US-Englisch) entspricht, spricht Amazon Polly den folgenden Textmit der Stimme von Joanna und ohne französischen Akzent:
<speak> Je ne parle pas français.</speak>
Wenn Sie die Stimme von Joanna mit dem Tag <lang> verwenden, spricht Amazon Polly den Satz mit derStimme von Joanna in einem Französisch mit amerikanischem Akzent:
<speak> <lang xml:lang="fr-FR">Je ne parle pas français.</lang>.</speak>
Da Joanna keine französische Muttersprachlerin ist, basiert die Aussprache auf ihrer Muttersprache, alsoUS-Englisch. Eine Person mit perfekter französischer Aussprache würde beispielsweise das Wort françaismit einem uvularen Vibrant (/R/) sprechen. Joannas Stimme (US-Englisch) spricht dieses Phonem dagegenwie /r/.
Wenn Sie die voice-id von Giorgio verwenden, der Italienisch spricht, gibt Amazon Polly den folgendenText mit der Stimme von Giorgio und italienischer Aussprache wieder:
<speak> Mi piace Bruce Springsteen.</speak>
Wenn Sie dieselbe Stimme mit dem folgenden Tag <lang> verwenden, spricht Amazon Polly "BruceSpringsteen" englisch, aber mit italienischem Akzent aus:
<speak> Mi piace <lang xml:lang="en-US">Bruce Springsteen.</lang></speak>
Dieses Tag kann auch als Ersatz für die optionale DefaultLangCode-Option bei der Generierung vonSprachausgabe verwendet werden. In diesem Fall ist es jedoch erforderlich, dass Sie Ihren Text mit SSMLformatieren.
Einfügen eines benutzerdefinierten Tags in den Text<mark>
Um ein benutzerdefiniertes Tag im Text zu platzieren, verwenden Sie das Tag <mark>. Amazon Polly führtaufgrund dieses Tags keine Aktion aus, gibt aber die Position des Tags in den SSML-Metadaten zurück.Bei diesem Tag kann es sich um eine beliebige hervorzuhebende Information handeln, sofern das folgendeFormat eingehalten wird:
<mark name="tag_name"/>
40
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Beispiel: Der Tag-Name lautet "animal" und der Eingabetext:
<speak> Mary had a little <mark name="animal"/>lamb.</speak>
In diesem Fall kann Amazon Polly die folgenden SSML-Metadaten zurückgeben:
{"time":767,"type":"ssml","start":25,"end":46,"value":"animal"}
Hinzufügen einer Pause zwischen Absätzen<p>
Mit dem Tag <p> können Sie eine Pause zwischen Absätzen im Text einfügen. Mit diesem Tag wird einelängere Pause als die eingefügt, die Muttersprachler üblicherweise nach Kommas oder am Satzendeeinfügen. Schließen Sie den Absatz in das Tag <p> ein:
<speak> <p>This is the first paragraph. There should be a pause after this text is spoken.</p> <p>This is the second paragraph.</p> </speak>
Dies entspricht der Angabe einer Pause mit <break strength="x-strong"/>.
Verwenden phonetischer Aussprache<phoneme>
Mit dem Tag <phoneme> können Sie Amazon Polly veranlassen, für bestimmten Text phonetischeAussprache zu verwenden.
Für das Tag <phoneme> sind zwei Attribute erforderlich. Sie zeigen das von Amazon Polly verwendetephonetische Alphabet und die phonetischen Symbole der korrigierten Aussprache an:
• alphabet
• ipa: Gibt an, dass das IPA (International Phonetic Alphabet) verwendet wird.• x-sampa: Gibt an, dass X-SAMPA (Extended Speech Assessment Methods Phonetic Alphabet)
verwendet wird.• ph
• Gibt die phonetischen Symbole für die Aussprache an. Weitere Informationen finden Sie unterPhonem- und Mundbildtabellen für unterstützte Sprachen (p. 56)
Mit dem Tag <phoneme> verwendet Amazon Polly die mit dem Attribut ph angegebene Ausspracheanstelle der Standardaussprache, die für die Sprache der gewählten Stimme gilt.
Das Wort „pecan“ kann beispielsweise auf zwei Arten ausgesprochen werden. Im folgenden Beispiel wirddem Wort „pecan“ in jeder Zeile eine andere Aussprache zugewiesen. Amazon Polly spricht „pecan“ gemäßden ph-Attributen aus, statt die Standardaussprache zu verwenden.
International Phonetic Alphabet (IPA)
<speak>
41
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
You say, <phoneme alphabet="ipa" ph="p##k##n">pecan</phoneme>. I say, <phoneme alphabet="ipa" ph="#pi.kæn">pecan</phoneme>.</speak>
Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA)
<speak> You say, <phoneme alphabet='x-sampa' ph='pI"kA:n'>pecan</phoneme>. I say, <phoneme alphabet='x-sampa' ph='"pi.k{n'>pecan</phoneme>. </speak>
Außerdem verwendet das Mandarin-Chinesische Pinyin für die phonetische Aussprache.
Pinyin
<speak> ## <phoneme alphabet="x-amazon-pinyin" ph="bo2">#</phoneme># ## <phoneme alphabet="x-amazon-pinyin" ph="bao2">#</phoneme>#</speak>
Steuern von Lautstärke, Sprechgeschwindigkeit und Tonlage<prosody>
Mit dem prosody-Tag können Sie Lautstärke, Geschwindigkeit und Tonlage Ihrer gewählten Stimmesteuern.
Lautstärke, Sprechgeschwindigkeit und Tonlage sind von der jeweils gewählten Stimme abhängig. Nebenden Unterschieden der Stimmen für verschiedene Sprachen gibt es auch Unterschiede zwischen Stimmen,die dieselbe Sprache sprechen. Hieraus erklärt sich, dass es trotz zwischen den Sprachen ähnlicherAttribute klare Unterschiede von Sprache zu Sprache gibt. Absolute Werte existieren nicht.
Das Tag prosody hat drei Attribute, für die jeweils unterschiedliche Werte verfügbar sind. Jedes Attributverwendet die gleiche Syntax:
<prosody attribute="value"></prosody>
• volume
• default: Setzt die Lautstärke auf den Standardwert für die aktuelle Stimme zurück.• silent, x-soft, soft, medium, loud, x-loud: Legt die Lautstärke auf einen vordefinierten Wert für
die aktuelle Stimme fest.• +ndB, -ndB: Ändert die Lautstärke relativ zum aktuellen Pegel. Ein Wert von +0dB bedeutet keine
Änderung, +6dB bedeutet in etwa eine Verdoppelung der aktuellen Lautstärke und -6dB bedeutetungefähr eine Halbierung der aktuellen Lautstärke.
Sie können die Lautstärke für eine Passage beispielsweise folgendermaßen einstellen:
<speak> Sometimes it can sometimes be useful to <prosody volume="loud">increase the volume for a specific speech.</prosody> </speak>
Sie können die Lautstärke auch folgendermaßen festlegen:
<speak> And sometimes a lower volume <prosody volume="-6dB">is a more effective way of
42
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
interacting with your audience.</prosody> </speak>
• rate
• x-slow, slow, medium, fast,x-fast. Legt die Tonlage auf einen vordefinierten Wert für diegewählte Stimme fest.
• n%: Eine Änderung der Sprechgeschwindigkeit um einen Prozentsatz (nicht negativ). Beispiel:Ein Wert von 100 % bedeutet, dass die Sprechgeschwindigkeit unverändert bleibt. Ein Wert von200 % bedeutet, dass die Sprechgeschwindigkeit verdoppelt, und ein Wert von 50 %, dass dieSprechgeschwindigkeit halbiert wird. Der Wert kann zwischen 20 und 200 % liegen.
Sie können die Sprechgeschwindigkeit für eine Passage beispielsweise folgendermaßen einstellen:
<speak> For dramatic purposes, you might wish to <prosody rate="slow">speed up the speaking rate of your text.</prosody> </speak>
Sie können die Lautstärke auch folgendermaßen festlegen:
<speak> Although in some cases, it might help your audience to <prosody rate="85%">slow the speaking rate slightly to aid in comprehension.</prosody> </speak>
• pitch
• default: Setzt die Tonlage auf den Standardwert für die aktuelle Stimme zurück.• x-low, low, medium, high, x-high: Legt die Tonlage auf einen vordefinierten Wert für die aktuelle
Stimme fest.• +n% oder -n%: passt die Tonhöhe um einen relativen Prozentsatz an. Beispiel: Ein Wert von +0%
bedeutet keine Änderung der Baseline-Tonhöhe, +5% führt zu einer etwas höheren Baseline-Tonhöheund -5% führt zu einer etwas niedrigeren Baseline-Tonhöhe.
Sie können die Tonlage für eine Passage beispielsweise folgendermaßen einstellen:
<speak> Do you like sythesized speech <prosody pitch="high">with a pitch that is higher than normal?</prosody> </speak>
Sie können die Lautstärke auch folgendermaßen festlegen:
<speak> Or do you prefer your speech <prosody pitch="-10%">with a somewhat lower pitch?</prosody> </speak>
Das Tag <prosody> muss mindestens ein Attribut, kann aber auch mehrere enthalten.
<speak> Each morning when I wake up, <prosody volume="loud" rate="x-slow">I speak quite slowly and deliberately until I have my coffee.</prosody></speak>
Es kann zudem folgendermaßen mit verschachtelten Tags kombiniert werden:43
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
<speak> <prosody rate="85%">Sometimes combining attributes <prosody pitch="-10%">can change the impression your audience has of a voice</prosody> as well.</prosody> </speak>
Festlegen einer maximalen Dauer der generiertenSprachausgabe<prosody amazon:max-duration>
Um zu steuern, wie lange eine Sprachausgabe dauern soll, wenn sie generiert wird, verwenden Sie das<prosody>-Tag mit dem amazon:max-duration-Attribut.
Die Dauer der Sprachsynthese variiert je nach gewählter Stimme geringfügig. Dies erschwert dieAbstimmung von generierter Sprache mit Visualisierungen oder anderen Aktivitäten, die ein präzisesTiming erfordern. Dieses Problem tritt verstärkt bei Übersetzungsanwendungen auf, da die Zeit, diebenötigt wird, um bestimmte Phrasen zu sagen, je nach Sprache stark variieren kann.
Das <prosody amazon:max-duration>-Tag passt die synthetisierte Sprache an die gewünschte Daueran.
Dieses Tag verwendet folgende Syntax:
<prosody amazon:max-duration="time duration">
Mit dem <prosody amazon:max-duration>-Tag können Sie die Dauer in Sekunden oder Millisekundenfestlegen:
• ns: maximale Dauer in Sekunden.• nms: maximale Dauer in Millisekunden.
Beispiel: Der folgende gesprochene Text hat eine maximale Dauer von 2 Sekunden:
<speak> <prosody amazon:max-duration="2s"> Human speech is a powerful way to communicate. </prosody></speak>
Wenn Text innerhalb des Tags platziert wird, überschreitet er die angegebene Dauer nicht. Wenn diegewählte Stimme oder Sprache normalerweise mehr Zeit als diese Dauer in Anspruch nehmen würde,beschleunigt Amazon Polly die Sprachausgabe so, dass sie in die angegebene Dauer passt.
Wenn die angegebene Dauer länger als die benötigt Zeit ist, um den Text mit einer normalenGeschwindigkeit zu lesen, liest Amazon Polly die Rede mit normaler Geschwindigkeit. Es verlangsamtweder die Sprachausgabe noch werden Stilleperioden hinzugefügt. Die resultierende Audioausgabe ist alsokürzer als angefordert.
Note
Amazon Polly erhöht die Geschwindigkeit nicht mehr als um das Fünffache der normalenGeschwindigkeit. Wenn Text schneller gesprochen wird, ergibt er in der Regel keinen Sinn. Wenneine Sprachausgabe auch bei maximaler Beschleunigung nicht in die angegebene Dauer passt,wird das Audiomaterial beschleunigt, ist dann jedoch länger als die angegebene Dauer.
44
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Sie können einen einzelnen Satz oder mehrere Sätze innerhalb eines <prosody amazon:max-duration>-Tags und mehrere <prosody amazon:max-duration>-Tags in Ihrem Text verwenden.
Beispiel:
<speak> <prosody amazon:max-duration="2400ms"> Human speech is a powerful way to communicate. </prosody> <break strength="strong"/> <prosody amazon:max-duration="5100ms"> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody> <break strength="strong"/> <prosody amazon:max-duration="8900ms"> We naturally understand this information, which is why speech is ideal for creating applications where a screen isn’t practical or possible, or simply isn’t convenient. </prosody></speak>
Die Verwendung des <prosody amazon:max-duration>-Tags kann die Latenz steigern, wenn AmazonPolly generierte Sprachausgabe zurückgibt. Der Grad der Latenz hängt von der Passage und ihrer Längeab. Wir empfehlen die Verwendung von Text aus relativ kurzen Textpassagen.
Einschränkungen
Es gibt Einschränkungen sowohl bei der Verwendung des <prosody amazon:max-duration>-Tags alsauch bei der Funktion des Tags mit anderen SSML-Tags:
• Der Text innerhalb eines <prosody amazon:max-duration>-Tags kann nicht mehr als 1 500Zeichen betragen.
• Sie können keine <prosody amazon:max-duration>-Tags verschachteln. Wenn Sie ein <prosodyamazon:max-duration>-Tag in ein anderes integrieren, ignoriert Amazon Polly das innere Tag.
Im folgenden Beispiel wird das <prosody amazon:max-duration="5s">-Tag ignoriert:
<speak> <prosody amazon:max-duration="16s"> Human speech is a powerful way to communicate. <prosody amazon:max-duration="5s"> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody>
We naturally understand this information, which is why speech is ideal for creating applications where a screen isn’t practical or possible, or simply isn’t convenient. </prosody></speak>
• Es ist nicht möglich, die <prosody>-Tags mit dem rate-Attribut innerhalb eines <prosodyamazon:max-duration>-Tags zu verwenden. Denn beide beeinflussen die Geschwindigkeit, mit derder Text gesprochen wird.
Im folgenden Beispiel ignoriert Amazon Polly das <prosody rate="2">-Tag:
45
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
<speak> <prosody amazon:max-duration="7500ms"> Human speech is a powerful way to communicate. <prosody rate="2"> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody> </prosody></speak>
Pausiert und max-duration
Bei der Verwendung Ihres max-duration-Tags können Sie weiterhin Pausen in Ihren Text einfügen.Allerdings gibt Amazon Polly die Länge der Pause bei der Berechnung der maximalen Sprechdauer an.Zusätzlich behält Amazon Polly die kurzen Pausen bei, die auftreten, wenn Kommata und Punkte innerhalbeiner Passage gesetzt werden, und gibt die maximale Dauer an.
Beispiel: Im folgenden Block kommen Pausen von 600 Millisekunden und die durch Kommata und Punkteverursachten Pausen innerhalb der 8-Sekunden-Sprachausgabe vor:
<speak> <prosody amazon:max-duration="8s"> Human speech is a powerful way to communicate. <break time="600ms"/> Even a simple ‘Hello’ can convey a lot of information depending on the pitch, intonation, and tempo. </prosody></speak>
Hinzufügen einer Pause zwischen Sätzen<s>
Mit dem Tag <s> können Sie eine Pause zwischen Zeilen oder Sätzen im Text einfügen. Die Verwendungdieses Tags hat die gleiche Wirkung wie:
• Beenden eines Satzes mit einem Punkt (.)• Angeben einer Pause mit <break strength="strong"/>
Im Unterschied zum Tag <break> schließt das Tag <s> den Satz ein. Das ist beim Generieren vonSprachausgabe nützlich, deren Eingabetext zeilen- statt satzweise angeordnet ist, also beispielsweise beiGedichten.
Im folgenden Beispiel sorgt das Tag <s> für eine kurze Pause nach dem ersten und zweiten Satz. Derletzte Satz hat kein <s>-Tag. Es folgt aber trotzdem eine kurze Pause, weil er mit einem Punkt endet.
<speak> <s>Mary had a little lamb</s> <s>Whose fleece was white as snow</s> And everywhere that Mary went, the lamb was sure to go.</speak>
Steuern des Sprechens spezieller Wortarten<say-as>
46
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Verwenden Sie das Tag <say-as> mit dem Attribut interpret-as, um Amazon Polly mitzuteilen, wiebestimmte Zeichen, Wörter oder Zahlen gesprochen werden sollen. So können Sie Kontext bereitstellenund Mehrdeutigkeiten in Bezug auf das Rendern des Texts durch Amazon Polly beseitigen.
Das Tag say-as verwendet ein Attribut (<interpret-as>), für das mehrere mögliche Werten existieren.Jeder dieser Werte verwendet die gleiche Syntax:
<say-as interpret-as="value">[text to be interpreted]</say-as>
Die folgenden Werte können mit interpret-as verwendet werden:
• characters oder spell-out: Buchstabiert jeden Buchstaben im Text (z. B. a-b-c).• cardinal oder number: Interpretiert den numerischen Text als Kardinalzahl (z. B. 1.234).• ordinal: Interpretiert den numerischen Text als Ordnungszahl (z. B. 1.234).• digits: Spricht jede Ziffer einzeln (wie in 1-2-3-4).• fraction: Interpretiert numerischen Text als Bruch. Dies funktioniert sowohl für gemeine Brüche wie
3/20 als auch für gemischte Brüche wie 2 ½. Weitere Informationen hierzu finden Sie unten.• unit: Interpretiert einen numerischen Text als Messwert. Der Wert sollte eine Zahl oder ein Bruch
gefolgt von einer Einheit ohne Leerstelle wie in 1/2inch oder nur eine Einheit wie in 1meter sein.• date: Interpretiert den Text als Datum. Das Datumsformat muss durch das Formatattribut festgelegt
werden. Weitere Informationen hierzu finden Sie unten.• time: interpretiert den numerischen Text als Dauer in Minuten und Sekunden (z. B. 1'21").• address: Interpretiert den Text als Teil einer Angabe von Straße und Hausnummer.• expletive: Der im Tag eingeschlossene Inhalt wird durch einen Piepton überdeckt.• telephone: Interpretiert den numerischen Text als sieben- oder zehnstellige Telefonnummer, z. B.2025551212. Sie können diesen Wert auch für Nebenstellen wie in 2025551212x345 verwenden.Weitere Informationen hierzu finden Sie unten.
Note
Derzeit ist die Option telephone nur für englischsprachige Stimmen verfügbar.
Bruchzahlen
Amazon Polly interpretiert Werte innerhalb des say-as-Tags mit dem Attribut interpret-as="fraction" als einfache Brüche. Im Folgenden wird die Syntax für Bruchzahlen beschrieben.
• Bruchzahlen
Syntax: Kardinalzahl/Kardinalzahl wie 2/9.
Beispiel: <say-as interpret-as="fraction">2/9</say-as> wird ausgesprochen als "two ninth".• Nicht negative gemischte Nummer
Syntax: Kardinalzahl+Kardinalzahl/Kardinalzahl, z. B. 3+1/2.
Beispiel: <say-as interpret-as="fraction">3+1/2</say-as> wird ausgesprochen als "threeand a half".
Note
Zwischen "3" und "1/2" muss sich ein + befinden. Amazon Polly unterstützt keine gemischtenZahlen ohne das +, wie z. B. "3 1/2".
Datumsangaben
47
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Wenn interpret-as auf date gesetzt ist, müssen Sie auch das Datumsformat angeben.
Für dieses Tag gilt folgende Syntax:
<say-as interpret-as="date" format="format">[date]</say-as>
Beispiel:
<speak> I was born on <say-as interpret-as="date" format="dmy">12-31-1900</say-as>.</speak>
Die folgenden Formate können für das Attribut date angegeben werden.
• mdy: Monat-Tag-Jahr.• dmy: Tag-Monat-Jahr.• ymd: Jahr-Monat-Tag.• md: Monat-Tag.• dm: Tag-Monat.• ym: Jahr-Monat.• my: Monat-Jahr.• d: Tag.• m: Monat.• y: Jahr.• yyyymmdd: Jahr-Monat-Tag. Wenn Sie dieses Format verwenden, können Sie Amazon Polly mithilfe von
Fragezeichen veranlassen, die betreffenden Teile des Datums auszulassen.
Beispiel: Amazon Polly gibt Folgendes als "22. September" wieder:
<say-as interpret-as="date">????0922</say-as>
Format ist nicht erforderlich.
Telefonnummer
Amazon Polly versucht auch ohne das Tag <say-as>, den Eingabetext basierend auf der Formatierungkorrekt zu interpretieren. Wenn der Text die Ziffernfolge "202-555-1212" enthält, interpretiert Amazon Pollydies als zehnstellige Telefonnummer und spricht jede Ziffer einzeln. Jeder Bindestrich wird durch einekurze Pause repräsentiert. In diesem Fall müssen Sie <say-as interpret-as="telephone"> nichtverwenden. Wenn Sie jedoch den Text "2025551212" eingeben und möchten, dass Amazon Polly ihn alsTelefonnummer spricht, müssen Sie <say-as interpret-as="telephone"> angeben.
Die Logik zur Interpretation der einzelnen Elemente ist sprachspezifisch. Die Aussprache vonTelefonnummern unterscheidet sich beispielsweise zwischen US-amerikanischem und britischem Englisch(in Großbritannien werden aufeinanderfolgende gleiche Ziffern zusammengefasst, z. B. "double five" oder"triple four"). Sie können das folgende Beispiel mit einer US-amerikanischen und einer britischen Stimmetesten, um den Unterschied zu hören:
<speak> Richard's number is <say-as interpret-as="telephone">2122241555</say-as></speak>
48
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Aussprache von Akronymen und Abkürzungen<sub>
Verwenden Sie das <sub>-Tag mit dem alias-Attribut, um gewählten Text – z. B. ein Akronym oder eineAbkürzung – durch ein anderes Wort (oder eine andere Aussprache) zu ersetzen.
Es gilt folgende Syntax:
<sub alias="new word">abbreviation</sub>
Im folgenden Beispiel wird der Name "Mercury" anstelle des chemischen Symbols für das Elementgesprochen, um den Audioinhalt verständlicher zu machen.
<speak> My favorite chemical element is <sub alias="Mercury">Hg</sub>, because it looks so shiny. </speak>
Verbessern der Aussprache durch Angabe der Wortart<w>
Sie können das Tag <w> verwenden, um die Aussprache von Wörtern anzupassen, indem Sie die Wortartoder eine alternative Bedeutung angeben. Dies erfolgt mithilfe des Attributs role.
Dieses Tag verwendet folgende Syntax:
<w role="attribute">text</w>
Folgende Werte können für das Attribut role angegeben werden:
So geben Sie die Wortart an:
• amazon:VB: Das Wort wird als Verb (in der Gegenwartsform) interpretiert.• amazon:VBD: Das Wort wird als Vergangenheitsform oder als Partizip Perfekt interpretiert.
Beispiel: Je nach Wortart variiert die Aussprache des Wortes „read“ im US-Englischen in Abhängigkeit vomTag:
<speak> The word <say-as interpret-as="characters">read</say-as> may be interpreted as either the present simple form <w role="amazon:VB">read</w>, or the past participle form <w role="amazon:VBD">read</w>.</speak>
So geben Sie eine alternative Bedeutung an:
• amazon:SENSE_1: Der nicht standardmäßige Wortsinn wird verwendet (sofern vorhanden).Beispiel: Das Substantiv „bass“ wird je nach Bedeutung anders ausgesprochen. DieStandardbedeutung ist die tiefste Tonlage in der Musik. Die alternative Bedeutung ist eine Speziesvon Süßwasserfischen, die auch als „bass“ bezeichnet, aber anders ausgesprochen wird. Durch<w role="amazon:SENSE_1">bass</w> wird in der Sprachausgabe die nichtstandardmäßigeAussprache (für den Süßwasserfisch) verwendet.
Dieser Unterschied ist hörbar, wenn Sie Folgendes synthetisieren:
49
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
<speak> Depending on your meaning, the word <say-as interpret-as="characters">bass</say-as> may be interpreted as either a musical element: read, or as its alternative meaning, a fresh waterfish <w role="amazon:SENSE_1">bass</w>.</speak>
Note
Einige Sprachen weisen möglicherweise eine andere Auswahl unterstützter Sprachelemente auf.
Hinzufügen von Atemgeräuschen<amazon:breath> und <amazon:auto-breaths>
Natürlich klingende Sprache besteht aus richtig gesprochenen Wörtern und Atemgeräuschen. WennSie der synthetisierten Sprachausgabe Atemgeräusche hinzufügen, klingt sie natürlicher. Die Tags<amazon:breath> und <amazon:auto-breaths> stellen Atemgeräusche bereit. Ihnen stehen folgendeOptionen zur Verfügung:
• Manueller Modus: Sie legen Position, Dauer und Lautstärke des Atemgeräusches im Text fest• Automatischer Modus: Amazon Polly fügt automatisch Atemgeräusche in die Sprachausgabe ein.• Gemischter Modus: Sie und Amazon Polly fügen Atemgeräusche hinzu.
Manueller Modus
Im manuellen Modus platzieren Sie das Tag <amazon:breath/> im Eingabetext an der Stelle, an derdas Atemgeräusch hörbar werden soll. Sie können Dauer und Lautstärke des Atemgeräusches mit denAttributen duration und volume festlegen:
• duration: legt die Dauer des Atemgeräusches fest. Folgende Werte sind zulässig: default, x-short,short, medium, long, x-long. Der Standardwert ist medium.
• volume: Legt die Lautstärke des Atemgeräusches fest. Folgende Werte sind zulässig: default, x-soft, soft, medium, loud, x-loud. Der Standardwert ist medium.
Note
Die exakte Dauer und Lautstärke der betreffenden Attributwerte ist von der verwendeten AmazonPolly-Stimme abhängig.
Sie können ein Atemgeräusch mit Standardwerten festlegen, indem Sie <amazon:breath/> ohneAttribute verwenden.
Um beispielsweise Dauer und Lautstärke eines Atemgeräusches mit Attributen festzulegen, verwenden Siefolgende Attributwerte:
<speak> Sometimes you want to insert only <amazon:breath duration="medium" volume="x-loud"/>a single breath.</speak>
Für ein Atemgeräusch mit Standardwerten verwenden Sie einfach das Tag:
<speak>
50
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Sometimes you need <amazon:breath/>to insert one or more average breathes <amazon:breath/> so that the text sounds correct.</speak>
Sie können folgendermaßen Atemgeräusche in eine Textpassage einfügen:
<speak> <amazon:breath duration="long" volume="x-loud"/> <prosody rate="120%"> <prosody volume="loud"> Wow! <amazon:breath duration="long" volume="loud"/> </prosody> That was quite fast <amazon:breath duration="medium" volume="x-loud"/>. I almost beat my personal best time on this track. </prosody></speak>
Automatischer Modus
Im automatischen Modus verwenden Sie das Tag <amazon:auto-breaths>, um Amazon Pollyanzuweisen, automatisch Atemgeräusche in angemessenen Intervallen zu erzeugen. Sie können dieHäufigkeit der Intervalle sowie Lautstärke und Dauer einstellen. Platzieren Sie das Tag </amazon:auto-breaths> am Anfang und das entsprechende schließende Tag am Ende des Textes, für den automatischAtemgeräusche generiert werden sollen.
Note
Im Unterschied zum Tag <amazon:breath/> für den manuellen Modus ist für <amazon:auto-breaths> ein schließendes Tag (</amazon:auto-breaths>) erforderlich.
Sie können die folgenden optionalen Attribute mit dem Tag <amazon:auto-breaths> verwenden:
• volume: Legt die Lautstärke der Atemgeräusche fest. Folgende Werte sind zulässig: default, x-soft,soft, medium, loud, x-loud. Der Standardwert ist medium.
• frequency: Steuert, wie oft Atemgeräusche im Text generiert werden. Folgende Werte sind zulässig:default, x-low, low, medium, high, x-high. Der Standardwert ist medium.
• duration: Legt die Dauer des Atemgeräusches fest. Folgende Werte sind zulässig: default, x-short, short, medium, long, x-long. Der Standardwert ist medium.
Standardmäßig hängt die Häufigkeit der Atemgeräusche vom Eingabetext ab. Atemgeräusche treten häufignach Kommas und Punkten auf.
Die folgenden Beispiele demonstrieren die Verwendung des Tags <amazon:auto-breaths>. Um zuentscheiden, welche Optionen für Ihren Inhalt geeignet sind, können Sie die entsprechenden Beispiele indie Amazon Polly-Konsole kopieren und sich die Unterschiede anhören.
• Automatischer Modus ohne optionale Parameter
<speak> <amazon:auto-breaths>Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech- enabled products. Amazon Polly is a text-to-speech service that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech- enabled applications that work in many different countries.</amazon:auto-breaths>
51
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
</speak>
• Automatischer Modus mit Lautstärkeregelung: Für nicht angegebene Parameter (duration undfrequency) werden die Standardwerte (medium) verwendet.
<speak> <amazon:auto-breaths volume="x-soft">Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech-enabled products. Amazon Polly is a text-to-speech service, that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech- enabled applications that work in many different countries.</amazon:auto-breaths></speak>
• Automatischer Modus mit Häufigkeitsregelung: Für nicht angegebene Parameter (duration undvolume) werden die Standardwerte (medium) verwendet.
<speak> <amazon:auto-breaths frequency="x-low">Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech-enabled products. Amazon Polly is a text-to-speech service, that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech- enabled applications that work in many different countries.</amazon:auto-breaths></speak>
• Automatischer Modus mit mehreren Parametern: Wird der Parameter Duration nicht angegeben,verwendet Amazon Polly den Standardwert (medium).
<speak> <amazon:auto-breaths volume="x-loud" frequency="x-low">Amazon Polly is a service that turns text into lifelike speech, allowing you to create applications that talk and build entirely new categories of speech-enabled products. Amazon Polly is a text-to-speech service, that uses advanced deep learning technologies to synthesize speech that sounds like a human voice. With dozens of lifelike voices across a variety of languages, you can select the ideal voice and build speech-enabled applications that work in many different countries.</amazon:auto-breaths></speak>
Hinzufügen einer Dynamikkomprimierung
<amazon:effect name="drc">
Je nach dem in einer Audiodatei verwendeten Text, der Sprache und der Stimme reichen die Töne vonleise bis laut. Umgebungsgeräusche, wie z. B. der Klang eines sich bewegenden Fahrzeugs, können oftdie leisen Töne überdecken, wodurch die Audiospur schwer zu hören ist. Um die Lautstärke bestimmter
52
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Sounds in Ihrer Audiodatei zu erhöhen, verwenden Sie den Tag für die Dynamikbereichkomprimierung(drc).
Das drc-Tag stellt einen mittleren „Lautstärke“-Schwellenwert für Ihr Audiomaterial ein und erhöhtdie Lautstärke (die Verstärkung) der Sounds um diesen Schwellenwert. Es wendet die größteVerstärkungszunahme an, die dem Schwellenwert am nächsten ist, und die Verstärkungszunahme wirdweiter weg vom Schwellenwert verringert.
Dadurch werden die Klänge des mittleren Bereichs in einer geräuschvollen Umgebung besser hörbar,wodurch die gesamte Audiodatei klarer wird.
Der drc-Tag ist ein boolescher Parameter (entweder vorhanden oder nicht). Es verwendet die Syntax:<amazon:effect name="drc"> und wird mit </amazon:effect> geschlossen.
Sie können das Tag drc mit jeder Sprache oder Sprache verwenden, die von Amazon Polly unterstütztwird. Sie können es auf einen ganzen Abschnitt der Aufnahme oder nur für einige Wörter anwenden.Beispiel:
<speak> Some audio is difficult to hear in a moving vehicle, but <amazon:effect name="drc"> this audio is less difficult to hear in a moving vehicle.</amazon:effect></speak>
Note
Wenn Sie „drc“ in der amazon:effect -Syntax verwenden, wird die Groß-/Kleinschreibungbeachtet.
Verwenden von drc mit dem prosody volume-Tag
Wie die folgende Grafik zeigt, erhöht der Tag prosody volume die Lautstärke einer gesamten Audiodateigleichmäßig vom ursprünglichen Level (gepunktete Linie) auf einen angepassten Level (durchgezogeneLinie). Um die Lautstärke bestimmter Teile der Datei weiter erhöhen, verwenden Sie den drc-Tag mit demprosody volume-Tag. Die Kombination von Tags hat keine Auswirkungen auf die Einstellungen des Tagsprosody volume.
Wenn Sie die Tags drc und prosody volume zusammen verwenden, wendet Amazon Polly zuerst dasTag drc an und erhöht damit die mittleren Töne (die in der Nähe des Schwellenwerts liegen). Dann wendetes den Tag prosody volume an und erhöht die Lautstärke der gesamten Audiospur weiter gleichmäßig.
53
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Um die Tags zusammen zu verwenden, verschachteln Sie sie ineinander. Beispiel:
<speak> <prosody volume="loud">This text needs to be understandable and loud. <amazon:effect name="drc"> This text also needs to be more understandable in a moving car.</amazon:effect></prosody> </speak>
In diesem Text erhöht der Tag prosody volume die Lautstärke der gesamten Passage auf „laut“- Der Tagdrc erhöht die Lautstärke der Mittelwerte im zweiten Satz.
Note
Wenn Sie die Tags drc und prosody volume zusammen verwenden, verwenden Sie XML-Standardpraktiken zum Verschachteln von Tags.
Weicheres Sprechen<amazon:effect phonation="soft">
Sie können angeben, dass Eingabetext weicher als normal gesprochen werden soll, indem Sie das Tag<amazon:effect phonation="soft"> verwenden.
Es gilt folgende Syntax:
<amazon:effect phonation="soft">text</amazon:effect>
Sie können dieses Tag beispielsweise folgendermaßen mit der Stimme Matthew verwenden:
<speak> This is Matthew speaking in my normal voice. <amazon:effect phonation="soft">This is Matthew speaking in my softer voice.</amazon:effect></speak>
Steuern des Timbres<amazon:effect vocal-tract-length>
Timbre ist die Klangqualität einer Stimme, mit der Sie den Unterschied zwischen Stimmen erkennenkönnen, selbst wenn sie die gleiche Tonhöhe und Lautstärke haben. Eine der wichtigsten physiologischenEigenschaften, die zur Sprachtimbre beiträgt, ist die Länge des Vokaltraktes. Der Vokaltrakt ist eineLufthöhle, die sich von der Oberseite der Stimmfalten bis zum Rand der Lippen erstreckt.
Um das Timbre der Sprachausgabe in Amazon Polly zu steuern, verwenden Sie das Tag vocal-tract-length. Dieser Tag hat die Wirkung, die Länge des Vokaltrakts des Sprechers zu verändern, was wie eineÄnderung der Sprechergröße klingt. Wenn Sie die vocal-tract-lengtherhöhen, klingt der Sprecherphysikalisch größer. Wenn Sie es verringern, klingt der Sprecher kleiner. Dieses Tag kann zusammen mitjeder Stimme im Sprachausgabeportfolio von Amazon Polly verwendet werden.
54
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Verwenden Sie die folgenden Werte, um das Timbre zu ändern:
• +n% oder -n%: Passt die Vokaltraktlänge um einen relativen Prozentsatz der derzeit verwendetenStimme an. Beispiel: +4 % oder -2 %. Gültige Werte liegen zwischen 100 % und -50 %. Werte außerhalbdieses Bereichs werden abgeschnitten. Zum Beispiel klingt +111 % wie +100 % und -60 % klingt wie -50%.
• n%: Ändert die Länge des Vokaltrakts auf einen absoluten Prozentsatz der Länge der aktuellen Stimme.Zum Beispiel 110 % oder 75 %. Ein absoluter Wert von 110 % entspricht einem relativen Wert von +10%. Ein absoluter Wert von 100 % entspricht dem Standardwert für die aktuelle Stimme.
Das folgende Beispiel zeigt, wie die Länge des Vokaltrakts geändert wird, um das Timbre zu ändern:
<speak> This is my original voice, without any modifications. <amazon:effect vocal-tract-length="+15%"> Now, imagine that I am much bigger. </amazon:effect> <amazon:effect vocal-tract-length="-15%"> Or, perhaps you prefer my voice when I'm very small. </amazon:effect> You can also control the timbre of my voice by making minor adjustments. <amazon:effect vocal-tract-length="+10%"> For example, by making me sound just a little bigger. </amazon:effect><amazon:effect vocal-tract-length="-10%"> Or, making me sound only somewhat smaller. </amazon:effect> </speak>
Kombinieren von mehreren Tags
Sie können das Tag vocal-tract-length mit jedem anderen SSML-Tag kombinieren, das von AmazonPolly unterstützt wird. Da Timbre (Vokaltraktlänge) und Tonhöhe eng miteinander verbunden sind, könnenSie die besten Ergebnisse erzielen, wenn Sie sowohl den vocal-tract-length als auch den <prosodypitch>-Tag verwenden. Um die realistischste Stimme zu erzeugen, empfehlen wir Ihnen, unterschiedlicheProzentsätze der Änderungen für die beiden Tags zu verwenden. Experimentieren Sie mit verschiedenenKombinationen, um die gewünschten Ergebnisse zu erzielen.
Das folgende Beispiel zeigt, wie Tags kombiniert werden.
<speak> The pitch and timbre of a person's voice are connected in human speech. <amazon:effect vocal-tract-length="-15%"> If you are going to reduce the vocal tract length, </amazon:effect><amazon:effect vocal-tract-length="-15%"> <prosody pitch="+20%"> you might consider increasing the pitch, too. </prosody></amazon:effect> <amazon:effect vocal-tract-length="+15%"> If you choose to lengthen the vocal tract, </amazon:effect> <amazon:effect vocal-tract-length="+15%"> <prosody pitch="-10%"> you might also want to lower the pitch. </prosody></amazon:effect></speak>
Flüstern
<amazon:effect name="whispered">
Dieses Tag gibt an, dass der Eingabetext nicht normal gesprochen, sondern geflüstert werden soll. DiesesTag kann zusammen mit jeder Stimme im Sprachausgabeportfolio von Amazon Polly verwendet werden.
Für dieses Tag gilt folgende Syntax:
<amazon:effect name=”whispered”>text</amazon:effect>
55
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Beispiel:
<speak> <amazon:effect name="whispered">If you make any noise, </amazon:effect> she said, <amazon:effect name="whispered">they will hear us.</amazon:effect></speak>
In diesem Fall wird die generierte Sprachausgabe geflüstert, während der Ausdruck "she said" von dergewählten Amazon Polly-Stimme als normale Sprachausgabe gesprochen wird.
Sie können den „Flüstereffekt“ noch verstärken, indem Sie den Satzrhythmus je nach Belieben um bis zu10 % verlangsamen.
Beispiel:
<speak> When any voice is made to whisper, <amazon:effect name="whispered"> <prosody rate="-10%">the sound is slower and quieter than normal speech </prosody></amazon:effect></speak>
Beim Erstellen der Sprachmarkierungen für eine Flüsterstimme muss der Audiostream diese ebenfallsenthalten, um sicherzustellen, dass die Sprachmarkierungen zum Audiostream passen.
Phonem- und Mundbildtabellen für unterstützte SprachenDie folgenden Tabellen listen die Phoneme für die von unterstützten Amazon Polly Sprachen zusammenmit Beispielen und den entsprechenden Visemen auf.
Themen• Arabisch (arb) (p. 57)• Chinesisch, Mandarin (cmn-CN) (p. 60)• Dänisch (da-DK) (p. 63)• Niederländisch (nl-NL) (p. 66)• Englisch (australisch) (en-AU) (p. 69)• Englisch (indisch) (en-IN) (p. 71)• Englisch (britisch) (en-GB) (p. 74)• Englisch (USA) (p. 77)• Englisch (walisisch) (en-GB-WSL) (p. 80)• Französisch (fr-FR) (p. 83)• Kanadisches Französisch (fr-CA) (p. 85)• Deutsch (de-DE) (p. 88)• Hindi (hi-IN) (p. 91)• Isländisch (is-IS) (p. 93)• Italienisch (it-IT) (p. 96)• Japanisch (ja-JP) (p. 99)• Koreanisch (ko-KR) (p. 101)• Norwegisch (nb-NO) (p. 103)• Polnisch (pl-PL) (p. 106)• Portugiesisch (pt-PT) (p. 108)• Portugiesisch (brasilianisch) (pt-BR) (p. 110)
56
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
• Rumänisch (ro-RO) (p. 113)• Russisch (ru-RU) (p. 115)• Spanisch (es-ES) (p. 118)• Spanisch, mexikanisch (es-MX) (p. 121)• Spanisch, USA (es-US) (p. 123)• Schwedisch (sv-SE) (p. 126)• Türkisch (tr-TR) (p. 128)• Walisisch (cy-GB) (p. 131)
Arabisch (arb)
Die folgende Tabelle listet die Phoneme des International Phonetic Alphabet (IPA), die Symbole desExtended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) und die entsprechenden Viseme fürdie arabische Stimme Zeinas auf, die von Amazon Polly unterstützt werden.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Mundbild
Konsonanten
ʔ ? Glottallaut أنا
ʕ ?\ stimmhafterpharyngaler Frikativ
عمر k
b b stimmhafter bilabialerVerschlusslaut
بلد p
d d stimmhafteralveolarerVerschlusslaut
داري t
dˤ d_?\ emphatischerstimmhafteralveolarerVerschlusslaut
ضوء t
dʒ dZ stimmhaftepostalveolareAffrikate
جميل S
ð D stimmhafter dentalerFrikativ
ذلك T
ðˤ D_?\ emphatischerstimmhafter dentalerFrikativ
ظلام T
f f stimmloserlabiodentaler Frikativ
فصل f
ɡ g stimmhafter velarerVerschlusslaut
إنجلترا k
ɣ G stimmhafter velarerFrikativ
غرب k
57
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Mundbild
h h stimmloser glottalerFrikativ
هذا k
j j palatalerApproximant
يمشي i
k k stimmloser velarerVerschlusslaut
كلب k
l l alveolarer lateralerApproximant
لاقى t
lˠ l_G emphatischeralveolarer lateralerApproximant
الله t
i i bilabialer Nasal ماذا p
n n alveolarer Nasal نور t
p p stimmloser bilabialerVerschlusslaut
حبس p
q q stimmloser uvularerVerschlusslaut
قريب k
r r alveolarer Vibrant رمل r
S S stimmloser alveolarerReibelaut
سؤال s
sˤ s_?\ emphatischerstimmloser alveolarerReibelaut
صاحب s
ʃ S stimmloserpostalveolarerReibelaut
شكر S
t t stimmloser alveolarerVerschlusslaut
تمر t
tˤ t_?\ emphatischerstimmloser alveolarerVerschlusslaut
طالب t
θ T stimmloser dentalerReibelaut
ثلاث T
V V stimmhafterlabiodentalerReibelaut
فيتامين f
w w labiovelarerApproximant
ولد u
x x stimmloser velarerReibelaut
خوف k
58
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Mundbild
ħ X\ stimmloserpharyngalerReibelaut
حول k
z z stimmhafteralveolarer Reibelaut
زهور s
Vokale
a a ungerundeter offenervorderer Vokal
برد a
aː a: langer ungerundeteroffener vordererVokal
دار a
ɑˤ A_?\ emphatischerungerundeter offenerhinterer Vokal
طبل a
ɑˤː A_?\: emphatischer langerungerundeter offenerhinterer Vokal
ظالم a
u u gerundetergeschlossenerhinterer Vokal
شرب u
u: u: langer gerundetergeschlossenerhinterer Vokal
سور u
uˤ u_?\ emphatischergerundetergeschlossenerhinterer Vokal
بد u
uˤː u_?\: emphatischerlanger gerundetergeschlossenerhinterer Vokal
طول u
i i ungerundetergeschlossenervorderer Vokal
بنت i
iː i: langer ungerundetergeschlossenervorderer Vokal
حزين i
iˤ i_?\ emphatischerungerundetergeschlossenervorderer Vokal
ضد i
59
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Mundbild
iˤː i_?\: emphatischerlanger ungerundetergeschlossenervorderer Vokal
ماضي i
e e ungerundeterhalbgeschlossenervorderer Vokal
ماركت e
eː e: langer ungerundeterhalbgeschlossenervorderer Vokal
موديل e
ɔ O gerundeterhalboffener hintererVokal
تكنولوجي O
ɔː O: langer gerundeterhalboffener hintererVokal
تليفزيون O
Chinesisch, Mandarin (cmn-CN)In der folgenden Tabelle finden Sie die Pinyin- und International Phonetic Alphabet (IPA)-Phoneme fürdie chinesische (Mandarin) Stimme, die von Amazon Polly unterstützt wird. Pinyin ist der internationaleStandard für die Standardtranskribierung des Chinesischen. IPA und X-SAMPA werden nicht häufigverwendet, sind jedoch für die Unterstützung des Englischen verfügbar. Die IPA- und X-SAMPA-Symbolein der Tabelle dienen lediglich Referenzzwecken und sollten nicht für die Transkribierung des Chinesischenverwendet werden. Pinyin-Beispiele und die entsprechenden Viseme werden ebenfalls angezeigt.
Verwenden Sie das phoneme alphabet="x-amazon-phonetic standard used"-Tag, wennAmazon Polly die phonetische Aussprache nach Pinyin verwenden soll.
Die folgenden Beispiele zeigen dies für die verschiedenen Standards.
Pinyin:
<speak> ## <phoneme alphabet="x-amazon-pinyin" ph="bo2">#</phoneme># ## <phoneme alphabet="x-amazon-pinyin" ph="bao2">#</phoneme>#</speak>
IPA:
<speak> ## <phoneme alphabet="ipa" ph="p##k##n">pecan</phoneme># ## <phoneme alphabet="ipa" ph="#pi.kæn">pecan</phoneme>#</speak>
X-SAMPA:
<speak> ## <phoneme alphabet='x-sampa' ph='pI"kA:n'>pecan</phoneme># ## <phoneme alphabet='x-sampa' ph='"pi.k{n'>pecan</phoneme>#</speak>
60
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Note
Amazon Polly akzeptiert ausschließlich in UTF-8 codierte Mandarin-Chinesisch-Eingaben. Der GB18030-Codierungsstandard wird derzeit von Amazon Polly nicht unterstützt.
Tabelle der Phoneme/Viseme
Pinyin IPA X-SAMPA
Beschreibung Pinyin-Beispiel Viseme
Konsonanten
f f f stimmloser labiodentalerFrikativ
发, fa1 f
h h h stimmloser glottaler Frikativ 和, he2 k
g k k stimmloser velarerVerschlusslaut
古, gu3 k
k kʰ k_h aspirierter stimmloservelarer Plosiv
苦, ku3 k
l l l alveolarer lateralerApproximant
拉, la1 t
i m m bilabialer Nasal 骂, ma4 p
n n n alveolarer Nasal 那, na4 t
ng ŋ N velarer Nasal 正, zheng4 k
b p p stimmloser bilabialerVerschlusslaut
爸, ba4 p
p pʰ p_h aspirierter stimmloserbilabialer Plosiv
怕, pa4 p
s s s stimmloser alveolarerReibelaut
四, si4 s
x ɕ S\ stimmloser alveolopalatalerFrikativ
西, xi1 J
sh ʂ S` stimmloser retroflexerFrikativ
是, shi4 S
d t t stimmloser alveolarerVerschlusslaut
打, da3 t
t tʰ t_h aspirierter stimmloseralveolarer Plosiv
他, ta1 t
zh ʈʂ t`s` stimmlose retroflexeAffrikate
之, zhi1 S
ch ʈʂʰ t`s`_h aspirierter stimmloserretroflexer Plosiv
吃, chi1 S
s ts ts stimmlose alveolareAffrikate
字, zi4 s
61
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Pinyin IPA X-SAMPA
Beschreibung Pinyin-Beispiel Viseme
j tɕ ts\ stimmlose alveolopalataleAffrikate
鸡, ji1 J
q tɕʰ ts\_h aspirierte stimmlosealveolopalatale Affrikate
七, qi1 J
c tsʰ ts_h aspirierte stimmlosealveolare Affrikate
次, ci4 s
w w w labiovelarer Approximant 我, wo3 u
r ʐ z` stimmhafter retroflexerFrikativ
日, ri4 S
„ht“- und „r“-farbige Silben
er ɚ @` rhotisches mittlererzentraler Vokal
二, er4 @
-r r-farbige Silbe 馅儿, xianr4 @
Vokale
e ɤ 7 halbgeschlossenerungerundeterHinterzungenvokal
恶, e4 e
e ə @ Schwa 恩, en1 @
a a a ungerundeter offenervorderer Vokal
安, an1 a
ai aɪ aI Diphthong 爱, ai4 a
ao aʊ aU Diphthong 奥, ao4 a
ei eɪ e Diphthong 诶, ei4 e
e ɛ E ungerundeter halboffenerVorderzungenvokal
姐, jie3 E
i i i ungerundetergeschlossener vordererVokal
鸡, ji1 i
ou oʊ oU Diphthong 欧, ou1 o
o ɔ O gerundeter halboffenerhinterer Vokal
哦, o4 o
u u u gerundeter geschlossenerhinterer Vokal
主, zhu3 u
yu y y geschlossener gerundetervorderer Vokal
于, yu2 u
Tonmarkierungen und zusätzliche Symbole
62
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Pinyin IPA X-SAMPA
Beschreibung Pinyin-Beispiel Viseme
1 hoher Ton 淤, yu1
2 steigender Ton 鱼, yu2
3 niedriger (fallend-steigender) Ton
语, yu3
4 fallender Ton 育, yu4
0 neutraler Ton 的, de0
- . . Silbengrenze 语音 yu3-yin1
Dänisch (da-DK)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für dänische Stimmen.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
b b stimmhafter bilabialerVerschlusslaut
bat p
d d stimmhafteralveolarerVerschlusslaut
da t
ð D stimmhafter dentalerFrikativ
mad, thriller T
f f stimmloserlabiodentaler Frikativ
fat f
g g stimmhafter velarerVerschlusslaut
gat k
h h stimmloser glottalerFrikativ
hat k
j j palatalerApproximant
jo i
k k stimmloser velarerVerschlusslaut
kat k
l l alveolarer lateralerApproximant
ladt t
m m bilabialer Nasal mat p
n n alveolarer Nasal nay t
63
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ŋ N velarer Nasal lang k
p p stimmloser bilabialerVerschlusslaut
pande p
r r alveolarer Vibrant thriller, story r
ʁ R stimmhafter uvularerFrikativ
rat k
s s stimmloser alveolarerReibelaut
sat s
t t stimmloser alveolarerVerschlusslaut
tal t
V V stimmhafterlabiodentalerReibelaut
vat f
w w labialisierter velarerApproximant
hav, weekend u
Vokale
ø 2 gerundeterhalbgeschlossenerVorderzungenvokal
øst o
ø: 2: langer gerundeterhalbgeschlossenerVorderzungenvokal
øse o
ɐ 6 fast offenerZentralvokal
mor a
œ 9 gerundeterhalboffenerVorderzungenvokal
skøn, grønt O
œ: 9: langer gerundeterhalboffenerVorderzungenvokal
høne, gøre O
ə @ Schwa ane @
æː {: langer ungerundeterfast offenerVorderzungenvokal
male a
a a ungerundeter offenervorderer Vokal
man a
æ { ungerundeterfast offenerVorderzungenvokal
adresse a
64
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ɑ A ungerundeter offenerHinterzungenvokal
lak, tak a
ɑ: A: langer ungerundeteroffenerHinterzungenvokal
rase a
e e ungerundeterhalbgeschlossenervorderer Vokal
midt e
e: e: langer ungerundeterhalbgeschlossenervorderer Vokal
mele e
ɛ E ungerundeterhalboffenerVorderzungenvokal
mæt E
ɛ: E: langer ungerundeterhalboffenerVorderzungenvokal
mæle E
i i ungerundetergeschlossenervorderer Vokal
mit i
i: i: langer ungerundetergeschlossenervorderer Vokal
mile i
o o gerundeterhalbgeschlossenerHinterzungenvokal
foto o
o: o: langer gerundeterhalbgeschlossenerHinterzungenvokal
mole o
ɔ O gerundeterhalboffener hintererVokal
mund O
ɔ: O: langer gerundeterhalboffener hintererVokal
måle O
ɒː Q: langer gerundeteroffenerHinterzungenvokal
morse O
u u gerundetergeschlossenerhinterer Vokal
lusk u
u: u: langer gerundetergeschlossenerhinterer Vokal
mule u
65
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ʌ V ungerundet halboffenan Hinterzunge
kører E
y y geschlossenergerundeter vordererVokal
yt u
y: y: langer gerundetergeschlossenerVorderzungenvokal
hyle u
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
Niederländisch (nl-NL)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für niederländische Stimmen.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
b b stimmhafter bilabialerVerschlusslaut
bak p
d d stimmhafteralveolarerVerschlusslaut
dak t
dʒ dZ stimmhaftepostalveolareAffrikate
manager S
f f stimmloserlabiodentaler Frikativ
fel f
g g stimmhafter velarerVerschlusslaut
goal k
ɣ G stimmhafter velarerFrikativ
hoed k
ɦ h\ stimmhafter glottalerFrikativ
hand k
j j palatalerApproximant
ja i
66
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
k k stimmloser velarerVerschlusslaut
kap k
l l alveolarer lateralerApproximant
land t
m m bilabialer Nasal met p
n n alveolarer Nasal net t
ŋ N velarer Nasal bang k
p p stimmloser bilabialerVerschlusslaut
pak p
r r alveolarer Vibrant rand r
s s stimmloser alveolarerReibelaut
sein s
ʃ S stimmloserpostalveolarerReibelaut
show S
t t stimmloser alveolarerVerschlusslaut
tak t
V V stimmhafterlabiodentalerReibelaut
vel f
ʋ V\ labiodentalerApproximant
wit f
x x stimmloser velarerReibelaut
toch k
z z stimmhafteralveolarer Reibelaut
ziin s
ʒ Z stimmhafterpostalveolarerFrikativ
bagage S
Vokale
øː 2: langer gerundeterhalbgeschlossenerVorderzungenvokal
neus o
œy 9y Diphthong buit O
ə @ Schwa de @
a: a: langer ungerundeteroffener vordererVokal
baad a
67
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ɑ: A ungerundeter offenerHinterzungenvokal
bad a
e: e: langer ungerundeterhalbgeschlossenervorderer Vokal
beet e
ɜː 3: langer ungerundeterhalboffenerZentralvokal
barrière E
ɛ E ungerundeterhalboffenerVorderzungenvokal
bed E
ɛi Ei Diphthong beet E
i i ungerundetergeschlossenervorderer Vokal
vier i
ɪ I ungerundeterzentralisierter fastgeschlossenerVorderzungenvokal
pit i
o: o: langer gerundeterhalbgeschlossenerHinterzungenvokal
boot o
ɔ O gerundeterhalboffener hintererVokal
pot O
u u gerundetergeschlossenerhinterer Vokal
hoed u
ʌu Vu Diphthong fout E
yː y: langer gerundetergeschlossenerVorderzungenvokal
fuut u
ʏ Y gerundeterzentralisierter fastgeschlossenerVorderzungenvokal
hut u
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
68
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Englisch (australisch) (en-AU)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für englische (Australien) Stimmen.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
b b stimmhafter bilabialerVerschlusslaut
bed p
d d stimmhafteralveolarerVerschlusslaut
dig t
dʒ dZ stimmhaftepostalveolareAffrikate
jump S
ð D stimmhafter dentalerFrikativ
then T
f f stimmloserlabiodentaler Frikativ
five f
g g stimmhafter velarerVerschlusslaut
game k
h h stimmloser glottalerFrikativ
house k
j j palatalerApproximant
yes i
k k stimmloser velarerVerschlusslaut
cat k
l l alveolarer lateralerApproximant
lay t
l l= silbischer alveolarerlateraler Approximant
battle t
m m bilabialer Nasal mouse p
i i= silbischer bilabialerNasal
anthem p
n n alveolarer Nasal nap t
n n= silbischer alveolarerNasal
nap t
ŋ N velarer Nasal thing k
p p stimmloser bilabialerVerschlusslaut
pin p
69
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ɹ r\ alveolarerApproximant
red r
s s stimmloser alveolarerReibelaut
seem s
ʃ S stimmloserpostalveolarerReibelaut
ship S
t t stimmloser alveolarerVerschlusslaut
task t
tʃ tS stimmlosepostalveolareAffrikate
chart S
Θ T stimmloser dentalerReibelaut
thin T
V V stimmhafterlabiodentalerReibelaut
vest f
w w labiovelarerApproximant
west u
z z stimmhafteralveolarer Reibelaut
zero s
ʒ Z stimmhafterpostalveolarerFrikativ
vision S
Vokale
ə @ Schwa arena @
əʊ @U Diphthong goat @
æ { ungerundeterfast offenerVorderzungenvokal
trap a
aɪ aI Diphthong price a
aʊ aU Diphthong mouth a
ɑː A: langer ungerundeteroffenerHinterzungenvokal
father a
eɪ eI Diphthong face e
ɜː 3: langer ungerundeterhalboffenerZentralvokal
nurse E
70
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ɛ E ungerundeterhalboffenerVorderzungenvokal
dress E
ɛə E@ Diphthong square E
i: i langer ungerundetergeschlossenervorderer Vokal
fleece i
ɪ I ungerundeterzentralisierter fastgeschlossenerVorderzungenvokal
kit i
ɪə I@ Diphthong near i
ɔː OI langer gerundeterhalboffener hintererVokal
thought O
ɔɪ OI Diphthong choice O
ɒ Q gerundeter offenerHinterzungenvokal
lot O
u: u: langer gerundetergeschlossenerHinterzungenvokal
goose u
ʊ U gerundeterzentralisierter fastgeschlossenerHinterzungenvokal
foot u
ʊə U@ Diphthong cure u
ʌ V ungerundeterhalboffenerHinterzungenvokal
strut E
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
Englisch (indisch) (en-IN)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für englische (Indien) Stimmen.
Zusätzliche Phoneme in Verbindung mit indischem Englisch finden Sie unter Hindi (hi-IN) (p. 91).
71
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
b b stimmhafter bilabialerVerschlusslaut
bed p
d d stimmhafteralveolarerVerschlusslaut
dig t
dʒ dZ stimmhaftepostalveolareAffrikate
jump S
ð D stimmhafter dentalerFrikativ
then T
f f stimmloserlabiodentaler Frikativ
five f
g g stimmhafter velarerVerschlusslaut
game k
h h stimmloser glottalerFrikativ
house k
j j palatalerApproximant
yes i
k k stimmloser velarerVerschlusslaut
cat k
l l alveolarer lateralerApproximant
lay t
l l= silbischer alveolarerlateraler Approximant
battle t
m m bilabialer Nasal mouse p
i i= silbischer bilabialerNasal
anthem p
n n alveolarer Nasal nap t
n n= silbischer alveolarerNasal
nap t
ŋ N velarer Nasal thing k
p p stimmloser bilabialerVerschlusslaut
pin p
ɹ r\ alveolarerApproximant
red r
s s stimmloser alveolarerReibelaut
seem s
72
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ʃ S stimmloserpostalveolarerReibelaut
ship S
t t stimmloser alveolarerVerschlusslaut
task t
tʃ tS stimmlosepostalveolareAffrikate
chart S
Θ T stimmloser dentalerReibelaut
thin T
V V stimmhafterlabiodentalerReibelaut
vest f
w w labiovelarerApproximant
west u
z z stimmhafteralveolarer Reibelaut
zero s
ʒ Z stimmhafterpostalveolarerFrikativ
vision S
Vokale
ə @ Schwa arena @
əʊ @U Diphthong goat @
æ { ungerundeterfast offenerVorderzungenvokal
trap a
aɪ aI Diphthong price a
aʊ aU Diphthong mouth a
ɑː A: langer ungerundeteroffenerHinterzungenvokal
father a
eɪ eI Diphthong face e
ɜː 3: langer ungerundeterhalboffenerZentralvokal
nurse E
ɛ E ungerundeterhalboffenerVorderzungenvokal
dress E
ɛə E@ Diphthong square E
73
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
i: i langer ungerundetergeschlossenervorderer Vokal
fleece i
ɪ I ungerundeterzentralisierter fastgeschlossenerVorderzungenvokal
kit i
ɪə I@ Diphthong near i
ɔː OI langer gerundeterhalboffener hintererVokal
thought O
ɔɪ OI Diphthong choice O
ɒ Q gerundeter offenerHinterzungenvokal
lot O
u: u: langer gerundetergeschlossenerHinterzungenvokal
goose u
ʊ U gerundeterzentralisierter fastgeschlossenerHinterzungenvokal
foot u
ʊə U@ Diphthong cure u
ʌ V ungerundeterhalboffenerHinterzungenvokal
strut E
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
Englisch (britisch) (en-GB)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für englische (Großbritannien) Stimmen.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
b b stimmhafter bilabialerVerschlusslaut
bed p
74
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
d d stimmhafteralveolarerVerschlusslaut
dig t
dʒ dZ stimmhaftepostalveolareAffrikate
jump S
ð D stimmhafter dentalerFrikativ
then T
f f stimmloserlabiodentaler Frikativ
five f
g g stimmhafter velarerVerschlusslaut
game k
h h stimmloser glottalerFrikativ
house k
j j palatalerApproximant
yes i
k k stimmloser velarerVerschlusslaut
cat k
l l alveolarer lateralerApproximant
lay t
l l= silbischer alveolarerlateraler Approximant
battle t
m m bilabialer Nasal mouse p
i i= silbischer bilabialerNasal
anthem p
n n alveolarer Nasal nap t
n n= silbischer alveolarerNasal
button t
ŋ N velarer Nasal thing k
p p stimmloser bilabialerVerschlusslaut
pin p
ɹ r\ alveolarerApproximant
red r
s s stimmloser alveolarerReibelaut
seem s
ʃ S stimmloserpostalveolarerReibelaut
ship S
t t stimmloser alveolarerVerschlusslaut
task t
75
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
tʃ tS stimmlosepostalveolareAffrikate
chart S
Θ T stimmloser dentalerReibelaut
thin T
V V stimmhafterlabiodentalerReibelaut
vest f
w w labiovelarerApproximant
west u
z z stimmhafteralveolarer Reibelaut
zero s
ʒ Z stimmhafterpostalveolarerFrikativ
vision S
Vokale
ə @ Schwa arena @
əʊ @U Diphthong goat @
æ { ungerundeterfast offenerVorderzungenvokal
trap a
aɪ aI Diphthong price a
aʊ aU Diphthong mouth a
ɑː A: langer ungerundeteroffenerHinterzungenvokal
father a
eɪ eI Diphthong face e
ɜː 3: langer ungerundeterhalboffenerZentralvokal
nurse E
ɛ E ungerundeterhalboffenerVorderzungenvokal
dress E
ɛə E@ Diphthong square E
i: i langer ungerundetergeschlossenervorderer Vokal
fleece i
76
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ɪ I ungerundeterzentralisierter fastgeschlossenerVorderzungenvokal
kit i
ɪə I@ Diphthong near i
ɔː O: langer gerundeterhalboffener hintererVokal
thought O
ɔɪ OI Diphthong choice O
ɒ Q gerundeter offenerHinterzungenvokal
lot O
u: u: langer gerundetergeschlossenerHinterzungenvokal
goose u
ʊ U gerundeterzentralisierter fastgeschlossenerHinterzungenvokal
foot u
ʊə U@ Diphthong cure u
ʌ V ungerundeterhalboffenerHinterzungenvokal
strut E
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
Englisch (USA)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für englische (USA) Stimmen.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
b b stimmhafter bilabialerVerschlusslaut
bed p
d d stimmhafteralveolarerVerschlusslaut
dig t
77
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
dʒ dZ stimmhaftepostalveolareAffrikate
jump S
ð D stimmhafter dentalerFrikativ
then T
f f stimmloserlabiodentaler Frikativ
five f
ɡ g stimmhafter velarerVerschlusslaut
game k
h h stimmloser glottalerFrikativ
house k
j j palatalerApproximant
yes i
k k stimmloser velarerVerschlusslaut
cat k
l l alveolarer lateralerApproximant
lay t
m m bilabialer Nasal mouse p
n n alveolarer Nasal nap t
ŋ N velarer Nasal thing k
p p stimmloser bilabialerVerschlusslaut
speak p
ɹ r\ alveolarerApproximant
red r
s s stimmloser alveolarerReibelaut
seem s
ʃ S stimmloserpostalveolarerReibelaut
ship S
t t stimmloser alveolarerVerschlusslaut
trap t
tʃ tS stimmlosepostalveolareAffrikate
chart S
θ T stimmloser dentalerReibelaut
thin T
V V stimmhafterlabiodentalerReibelaut
vest f
78
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
w w labiovelarerApproximant
west u
z z stimmhafteralveolarer Reibelaut
zero s
ʒ Z stimmhafterpostalveolarerFrikativ
vision S
Vokale
ə @ Schwa arena @
ɚ @` rhotisches Schwa reader @
æ { ungerundeterfast offenerVorderzungenvokal
trap a
aɪ aI Diphthong price a
aʊ aU Diphthong mouth a
ɑ A langer ungerundeteroffenerHinterzungenvokal
father a
eɪ eI Diphthong face e
ɝ 3` offenesungerundetesrhotisches Schwa
nurse E
ɛ E ungerundeterhalboffenerVorderzungenvokal
dress E
i i langer ungerundetergeschlossenervorderer Vokal
fleece i
ɪ I ungerundeterzentralisierter fastgeschlossenerVorderzungenvokal
kit i
oʊ oU Diphthong goat o
ɔ O langer gerundeterhalboffenerHinterzungenvokal
thought O
ɔɪ OI Diphthong choice O
u u langer gerundetergeschlossenerHinterzungenvokal
goose u
79
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ʊ U gerundeterzentralisierter fastgeschlossenerHinterzungenvokal
foot u
ʌ V ungerundeterhalboffenerHinterzungenvokal
strut E
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
Englisch (walisisch) (en-GB-WSL)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für englische (Wales) Stimmen.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
b b stimmhafter bilabialerVerschlusslaut
bed p
d d stimmhafteralveolarerVerschlusslaut
dig t
dʒ dZ stimmhaftepostalveolareAffrikate
jump S
ð D stimmhafter dentalerFrikativ
then T
f f stimmloserlabiodentaler Frikativ
five f
g g stimmhafter velarerVerschlusslaut
game k
h h stimmloser glottalerFrikativ
house k
j j palatalerApproximant
yes i
k k stimmloser velarerVerschlusslaut
cat k
80
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
l l alveolarer lateralerApproximant
lay t
l l= silbischer alveolarerlateraler Approximant
battle t
m m bilabialer Nasal mouse p
i i= silbischer bilabialerNasal
anthem p
n n alveolarer Nasal nap t
n n= silbischer alveolarerNasal
nap t
ŋ N velarer Nasal thing k
p p stimmloser bilabialerVerschlusslaut
pin p
ɹ r\ alveolarerApproximant
red r
s s stimmloser alveolarerReibelaut
seem s
ʃ S stimmloserpostalveolarerReibelaut
ship S
t t stimmloser alveolarerVerschlusslaut
task t
tʃ tS stimmlosepostalveolareAffrikate
chart S
Θ T stimmloser dentalerReibelaut
thin T
V V stimmhafterlabiodentalerReibelaut
vest f
w w labiovelarerApproximant
west u
z z stimmhafteralveolarer Reibelaut
zero s
ʒ Z stimmhafterpostalveolarerFrikativ
vision S
Vokale
ə @ Schwa arena @
81
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
əʊ @U Diphthong goat @
æ { ungerundeterfast offenerVorderzungenvokal
trap a
aɪ aI Diphthong price a
aʊ aU Diphthong mouth a
ɑː A: langer ungerundeteroffenerHinterzungenvokal
father a
eɪ eI Diphthong face e
ɜː 3: langer ungerundeterhalboffenerZentralvokal
nurse E
ɛ E ungerundeterhalboffenerVorderzungenvokal
dress E
ɛə E@ Diphthong square E
i: i langer ungerundetergeschlossenervorderer Vokal
fleece i
ɪ I ungerundeterzentralisierter fastgeschlossenerVorderzungenvokal
kit i
ɪə I@ Diphthong near i
ɔː OI langer gerundeterhalboffener hintererVokal
thought O
ɔɪ OI Diphthong choice O
ɒ Q gerundeter offenerHinterzungenvokal
lot O
u: u: langer gerundetergeschlossenerHinterzungenvokal
goose u
ʊ U gerundeterzentralisierter fastgeschlossenerHinterzungenvokal
foot u
ʊə U@ Diphthong cure u
82
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ʌ V ungerundeterhalboffenerHinterzungenvokal
strut E
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
Französisch (fr-FR)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für französische Stimmen.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
b b stimmhafter bilabialerVerschlusslaut
boire p
d d stimmhafteralveolarerVerschlusslaut
madame t
f f stimmloserlabiodentaler Frikativ
femme f
g g stimmhafter velarerVerschlusslaut
grand k
ɥ H labiopalatalerApproximant
bruit u
j j palatalerApproximant
meilleur i
k k stimmloser velarerVerschlusslaut
quatre k
l l alveolarer lateralerApproximant
malade t
m m bilabialer Nasal maison p
n n alveolarer Nasal astronome t
ɲ J palataler Nasal baigner J
ŋ N velarer Nasal parking k
83
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
p p stimmloser bilabialerVerschlusslaut
pomme p
ʁ R stimmhafter uvularerFrikativ
amoureux k
s s stimmloser alveolarerReibelaut
santé s
ʃ S stimmloserpostalveolarerReibelaut
chat S
t t stimmloser alveolarerVerschlusslaut
téléphone t
V V stimmhafterlabiodentalerReibelaut
vrai f
w w labiovelarerApproximant
soir u
z z stimmhafteralveolarer Reibelaut
raison s
ʒ Z stimmhafterpostalveolarerFrikativ
aubergine S
Vokale
ø 2 gerundeterhalbgeschlossenerVorderzungenvokal
deux o
œ 9 gerundeterhalboffenerVorderzungenvokal
neuf O
œ 9~ nasaler halboffenergerundeterVorderzungenvokal
brun O
ə @ Schwa je @
a a ungerundeter offenervorderer Vokal
table a
ɑ A~ nasaler offenerungerundeterHinterzungenvokal
camembert a
e e ungerundeterhalbgeschlossenervorderer Vokal
marché e
84
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ɛ E ungerundeterhalboffenerVorderzungenvokal
neige E
ɛ E~ nasaler ungerundeterhalboffenerVorderzungenvokal
sapin E
i i ungerundetergeschlossenervorderer Vokal
mille i
o o gerundeterhalbgeschlossenerHinterzungenvokal
hôpital o
ɔ O gerundeterhalboffener hintererVokal
homme O
ɔ O~ nasaler gerundeterhalboffenerHinterzungenvokal
bon O
u u gerundetergeschlossenerhinterer Vokal
sous u
y y geschlossenergerundeter vordererVokal
dur u
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
Kanadisches Französisch (fr-CA)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für französische (Kanada) Stimmen.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
b b stimmhafter bilabialerVerschlusslaut
boire p
85
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
d d stimmhafteralveolarerVerschlusslaut
madame t
f f stimmloserlabiodentaler Frikativ
femme f
g g stimmhafter velarerVerschlusslaut
grand k
ɥ H labiopalatalerApproximant
bruit u
j j palatalerApproximant
meilleur i
k k stimmloser velarerVerschlusslaut
quatre k
l l alveolarer lateralerApproximant
malade t
m m bilabialer Nasal maison p
n n alveolarer Nasal astronome t
ɲ J palataler Nasal baigner J
ŋ N velarer Nasal parking k
p p stimmloser bilabialerVerschlusslaut
pomme p
ʁ R stimmhafter uvularerFrikativ
amoureux k
s s stimmloser alveolarerReibelaut
santé s
ʃ S stimmloserpostalveolarerReibelaut
chat S
t t stimmloser alveolarerVerschlusslaut
téléphone t
V V stimmhafterlabiodentalerReibelaut
vrai f
w w labiovelarerApproximant
soir u
z z stimmhafteralveolarer Reibelaut
raison s
ʒ Z stimmhafterpostalveolarerFrikativ
aubergine S
86
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
Vokale
ø 2 gerundeterhalbgeschlossenerVorderzungenvokal
deux o
œ 9 gerundeterhalboffenerVorderzungenvokal
neuf O
œ 9~ nasaler halboffenergerundeterVorderzungenvokal
brun O
ə @ Schwa je @
a a ungerundeter offenerVor
table a
ɑ A~ nasaler offenerungerundeterHinterzungenvokal
camembert a
e e ungerundeterhalbgeschlossenerVorderzungenvokal
marché e
ɛ E ungerundeterhalboffenerVorderzungenvokal
neige E
ɛ E~ nasaler ungerundeterhalboffenerVorderzungenvokal
sapin E
i i ungerundetergeschlossenerVorderzungenvokal
mille i
o o gerundeterhalbgeschlossenerHinterzungenvokal
hôpital o
ɔ O gerundeterhalboffenerHinterzungenvokal
homme O
ɔ O~ nasaler gerundeterhalboffenerHinterzungenvokal
bon O
u u gerundetergeschlossenerHinterzungenvokal
sous u
y y geschlossenergerundeterVorderzungenvokal
dur u
87
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
Deutsch (de-DE)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für deutsche Stimmen.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
ʔ ? Glottallaut
b b stimmhafter bilabialerVerschlusslaut
Bier p
d d stimmhafteralveolarerVerschlusslaut
Dach t
ç C stimmloser palatalerFrikativ
ich k
dʒ dZ stimmhaftepostalveolareAffrikate
Dschungel S
f f stimmloserlabiodentaler Frikativ
Vogel f
g g stimmhafter velarerPlosiv
Gabel k
h h stimmloser glottalerFrikativ
Haus k
j j stimmloser glottalerFrikativ
jemand i
k k stimmloser velarerPlosiv
Kleid k
l l alveolarer lateralerApproximant
Loch t
m m bilabialer Nasal Milch p
n n alveolarer Nasal Natur t
88
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ŋ N velarer Nasal klingen k
p p stimmloser bilabialerPlosiv
Park p
pf pf stimmloselabiodentale Affrikate
Apfel
ʀ R uvularer Vibrant Regen
s s stimmloser alveolarerReibelaut
Messer s
ʃ S stimmloserpostalveolarerFrikativ
Fischer S
t t stimmloser alveolarerPlosiv
Topf T
ts Ts stimmlose alveolareAffrikate
Zahl
tʃ tS stimmlosepostalveolareAffrikate
deutsch S
V V stimmhafterlabiodentaler Frikativ
Wasser f
x x stimmloser velarerFrikativ
kochen k
z z stimmhafteralveolarer Frikativ
See s
ʒ Z stimmhafterpostalveolarerFrikativ
Orange S
Vokale
øː 2: langer gerundeterhalbgeschlossenerVorderzungenvokal
böse o
ɐ 6 fast offenerZentralvokal
besser a
ɐ 6_^ nicht silbischer fastoffener Zentralvokal
Klar a
œ 9 gerundeterhalboffenerVorderzungenvokal
können O
ə @ Schwa Rede @
89
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
a a ungerundeter offenerVor
Salz a
a: a: langer ungerundeteroffenerVorderzungenvokal
Sahne a
aɪ aI Diphthong nein a
aʊ aU Diphthong Augen a
ɑ A~ nasaler offenerungerundeterHinterzungenvokal
Restaurant a
e: e: langer ungerundeterhalbgeschlossenerVorderzungenvokal
Rede e
ɛ E ungerundeterhalboffenerVorderzungenvokal
Keller E
ɛ E~ nasaler ungerundeterhalboffenerVorderzungenvokal
Terrain E
i: i: langer ungerundetergeschlossenerVorderzungenvokal
Lied i
ɪ I ungerundeterzentralisierter fastgeschlossenerVorderzungenvokal
bitte i
o: o: langer gerundeterhalbgeschlossenerHinterzungenvokal
Kohl o
ɔ O gerundeterhalboffenerHinterzungenvokal
Koffer O
ɔ O~ nasaler gerundeterhalboffenerHinterzungenvokal
Annonce O
ɔʏ OY Diphthong neu O
u: u: langer gerundetergeschlossenerhinterer Vokal
Bruder u
ʊ U gerundeterzentralisierter fastgeschlossenerHinterzungenvokal
Wunder u
90
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
y: y: langer gerundetergeschlossenerVorderzungenvokal
kühl u
ʏ Y gerundeterzentralisierter fastgeschlossenerVorderzungenvokal
Küche u
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
Hindi (hi-IN)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) und dieSymbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie die vonAmazon Polly unterstützte Tonwiedergabe des Phonems für Hindi-Stimmen.
Zusätzliche Phoneme in Verbindung mit Hindi finden Sie unter Englisch (indisch) (en-IN) (p. 71).
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel
Konsonanten
pʰ p_h stimmloser aspirierterbilabialer Plosiv
फल (phool)
bʱ b_h stimmhafter aspirierterbilabialer Plosiv
भारी (bhaari)
t t_d stimmloser dentaler Plosiv तापमान (taapmaan)
tʰ t_d_h stimmloser aspirierterdentaler Plosiv
थोडा (thoda)
d d_d stimmhafter dentaler Plosiv दिलली (dilli)
dʱ d_d_h stimmhafter aspirierterdentaler Plosiv
धोबी (dhobi)
ʈ t` stimmloser retroflexer Plosiv कटोरा (katora)
ʈʰ t`_h stimmloser aspirierterretroflexer Plosiv
ठड (thand)
ɖ d` stimmhafter retroflexerPlosiv
डर (darr)
ɖʱ d`_h stimmhafter aspirierterretroflexer Plosiv
ढाल (dhal)
91
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel
tʃʰ tS_h stimmlose aspirierte palataleAffrikate
छाल (chaal)
dʒʱ dZ_h stimmhafte aspiriertepalatale Affrikate
झाल (jhaal)
kʰ k_h stimmloser aspiriertervelarer Plosiv
खान (khan)
ɡʱ g_h stimmhafter aspiriertervelarer Plosiv
घान (ghaan)
ɳ n` retroflexer Nasal कषण (kshan)
ɾ 4 alveolarer Tap राम (ram)
ɽ r` einfacher retroflexer Flap बडा (bada)
ɽʱ r`_h stimmhafter aspirierterretroflexer Flap
बढी (barhi)
ʋ V\ bilabialer Approximant वसल (wasool)
Vokale
ə @_o Schwa अचछा (achhaa)
ə @~ nasalisierterMittelzungenvokal
हसना (hansnaa)
a A_o ungerundeter offener Vor आग (aag)
a A~ nasalisierter ungerundeteroffener Vorderzungenvokal
घडिया (ghariyaan)
ɪ I_o ungerundeter zentralisierterfast geschlossenerVorderzungenvokal
इककीस (ikkees)
ɪ I~ nasalisierter ungerundeterfast geschlossenerVorderzungenvokal
सिचाई (sinchai)
i i_o ungerundeter geschlossenerVorderzungenvokal
बिलली (billee)
i i~ nasalisierter ungerundetergeschlossenerVorderzungenvokal
नही (nahin)
ʊ U_o gerundeter zentralisierterfast geschlossenerHinterzungenvokal
उलल (ullu)
ʊ U~ nasalisierter gerundeterfast geschlossenerHinterzungenvokal
मह (munh)
92
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel
u u_o gerundeter geschlossenerHinterzungenvokal
फल (phool)
u u~ nasalisierter gerundetergeschlossenerHinterzungenvokal
ऊट (oont)
ɔ O_o gerundeter halboffenerHinterzungenvokal
कौन (kaun)
ɔ O~ nasalisiertergerundeter halboffenerHinterzungenvokal
भौ (bhaun)
o o gerundeterhalbgeschlossenerHinterzungenvokal
सोना (sona)
o o~ nasalisierter gerundeterhalbgeschlossenerHinterzungenvokal
कयो (kyon)
ɛ E_o ungerundeter halboffenerVorderzungenvokal
पसा (paisa)
ɛ E~ nasalisierterungerundeter halboffenerVorderzungenvokal
म (main)
e e ungerundeterhalbgeschlossenerVorderzungenvokal
एक (ek)
e e~ nasalisierter ungerundeterhalbgeschlossenerVorderzungenvokal
किताब (kitabein)
Isländisch (is-IS)Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für isländische Stimmen.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
b b stimmhafter bilabialerVerschlusslaut
grasbakkanum 0
c c stimmloser palatalerPlosiv
pakkin k
cʰ c_h aspirierter stimmloserpalataler Plosiv
anarkistai k
93
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ç C stimmloser palatalerFrikativ
héðan k
d d stimmhafteralveolarerVerschlusslaut
bóndi t
ð D stimmhafter dentalerFrikativ
borð T
f f stimmloserlabiodentaler Frikativ
duft f
g g stimmhafter velarerVerschlusslaut
holgóma k
ɣ G stimmhafter velarerFrikativ
hugur k
h h stimmloser glottalerFrikativ
heili k
j j palatalerApproximant
jökull i
kʰ k_h aspirierter stimmloservelarer Plosiv
ósköpunum k
l l alveolarer lateralerApproximant
gólf t
l l_0 stimmloser alveolarerlateraler Approximant
fólk t
m m bilabialer Nasal september p
i m_0 stimmloser bilabialerNasal
kompa p
n n alveolarer Nasal númer t
n n_0 stimmloser alveolarerNasal
pöntun t
ɲ J palataler Nasal pælingar J
ŋ N velarer Nasal söngvarann k
ŋ N_0 stimmloser velarerNasal
frænka k
pʰ p_h aspirierter stimmloserbilabialer Plosiv
afplánun p
r r alveolarer Vibrant afskrifta r
r r_0 stimmloser alveolarerVibrant
andvörpum r
94
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
s s stimmloser alveolarerReibelaut
baðhús s
tʰ t_h aspirierter stimmloseralveolarer Plosiv
tanki t
θ T stimmloser dentalerReibelaut
þeldökki T
V V stimmhafterlabiodentalerReibelaut
silfur f
w w labialisierter velarerApproximant
u
x x stimmloser velarerReibelaut
samfélags k
Vokale
œ 9 gerundeterhalboffenerVorderzungenvokal
þröskuldinum O
œː 9: langer gerundeterhalboffenerVorderzungenvokal
tvö O
a a ungerundeter offenerVor
nefna a
a: a: langer ungerundeteroffenerVorderzungenvokal
fara a
au au Diphthong átta a
au: au: Diphthong átján a
ɛ E ungerundeterhalboffenerVorderzungenvokal
kennari E
ɛ: E: langer ungerundeterhalboffenerVorderzungenvokal
dreka E
i i ungerundetergeschlossenerVorderzungenvokal
Gúlíver i
i: i: langer ungerundetergeschlossenerVorderzungenvokal
þrír i
95
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ɪ I ungerundeterzentralisierter fastgeschlossenerVorderzungenvokal
samspil i
ɪ: I: langer ungerundeterzentralisierter fastgeschlossenerVorderzungenvokal
stig i
ɔ O gerundeterhalboffenerHinterzungenvokal
regndropar O
ɔ: O: langer gerundeterhalboffener hintererVokal
ullarbolur O
ɔu Ou Diphthong tólf O
ɔu: Ou: Diphthong fjórir O
u u gerundetergeschlossenerHinterzungenvokal
stúlkan u
u: u: langer gerundetergeschlossenerhinterer Vokal
frú u
ʏ Y gerundeterzentralisierter fastgeschlossenerVorderzungenvokal
tíu u
ʏ: Y langer gerundeterzentralisierter fastgeschlossenerVorderzungenvokal
gruninn u
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
Italienisch (it-IT)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für italienische Stimmen.
96
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
b b stimmhafter bilabialerVerschlusslaut
bacca p
d d stimmhafteralveolarerVerschlusslaut
dama t
dz dz stimmhafte alveolareAffrikate
zero s
dʒ dZ stimmhaftepostalveolareAffrikate
giro S
f f stimmloserlabiodentaler Frikativ
famiglia f
g g stimmhafter velarerVerschlusslaut
gatto k
h h stimmloser glottalerFrikativ
horror k
j j palatalerApproximant
dieci i
k k stimmloser velarerVerschlusslaut
campo k
l l alveolarer lateralerApproximant
lido t
ʎ L palataler lateralerApproximant
aglio J
m m bilabialer Nasal mille p
n n alveolarer Nasal nove t
ɲ J palataler Nasal lasagne J
p p stimmloser bilabialerVerschlusslaut
pizza p
r r alveolarer Vibrant risata r
s s stimmloser alveolarerReibelaut
sei s
ʃ S stimmloserpostalveolarerReibelaut
scienza S
t t stimmloser alveolarerVerschlusslaut
tavola t
97
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ts ts stimmlose alveolareAffrikate
forza s
tʃ tS stimmlosepostalveolareAffrikate
cielo S
V V stimmhafterlabiodentalerReibelaut
venti f
w w labiovelarerApproximant
quattro u
z z stimmhafteralveolarer Reibelaut
bisogno s
ʒ Z stimmhafterpostalveolarerFrikativ
bijou S
Vokale
a a ungerundeter offenerVor
arco a
e e ungerundeterhalbgeschlossenerVorderzungenvokal
tre e
ɛ E ungerundeterhalboffenerVorderzungenvokal
ettaro E
i i ungerundetergeschlossenerVorderzungenvokal
impero i
o o gerundeterhalbgeschlossenerHinterzungenvokal
cento o
ɔ O gerundeterhalboffenerHinterzungenvokal
otto O
u u gerundetergeschlossenerHinterzungenvokal
uno u
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
98
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Japanisch (ja-JP)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für japanische Stimmen.
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
ɾ 4 alveolarer Tap 練習, renshuu t
ʔ ? Glottallaut あつっ, atsu'
b b stimmhafter bilabialerVerschlusslaut
舞踊, buyou p
β B stimmhafter bilabialerFrikativ
ヴィンテージ,vinteeji
B
c c stimmloser palatalerPlosiv
ききょう, kikyou k
ç C stimmloser palatalerFrikativ
人, hito k
d d stimmhafteralveolarerVerschlusslaut
濁点, dakuten t
dʑ dz\ stimmhaftealveolopalataleAffrikate
純, jun J
ɡ g stimmhafter velarerVerschlusslaut
ご飯, gohan k
h h stimmloser glottalerFrikativ
本, hon k
j j palatalerApproximant
屋根, yane i
ɟ J\ stimmhafter palatalerPlosiv
行儀, gyougi J
k k stimmloser velarerVerschlusslaut
漢字, kanji k
ɺ l\ alveolarer lateralerTap
釣り, tsuri r
ɺj l\j alveolarer lateralerTap, palatalerApproximant
流行, ryuukou r
m m bilabialer Nasal 飯, meshi p
n n alveolarer Nasal 猫, neko t
99
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ɲ J palataler Nasal 日本, nippon J
ɴ N\ uvularer Nasal 缶, kan k
p p stimmloser bilabialerVerschlusslaut
パン, pan p
ɸ p\ stimmloser bilabialerFrikativ
福, huku f
s s stimmloser alveolarerReibelaut
層, sou s
ɕ S\ stimmloseralveolopalatalerFrikativ
書簡, shokan J
t t stimmloser alveolarerVerschlusslaut
手紙, tegami t
ts ts stimmlose alveolareAffrikate
釣り, tsuri s
tɕ ts\ stimmlosealveolopalataleAffrikate
吉, kichi J
w w labiovelarerApproximant
電話, denwa u
z z stimmhafteralveolarer Reibelaut
座敷, zashiki s
Vokale
äː a:_" langer ungerundeteroffener Zentralvokal
羽蟻, haari a
ä a_" ungerundeter offenerZentralvokal
仮名, kana a
eː e:_o langer mittlererungerundeterVorderzungenvokal
学生, gakusei @
e e_o ungerundertermittlererVorderzungenvokal
歴, reki @
i i ungerundetergeschlossenerVorderzungenvokal
気, ki i
iː i: langer ungerundetergeschlossenerVorderzungenvokal
詩歌, shiika i
100
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ɯ Mio. geschlossenerungerundeterHinterzungenvokal
運, un i
ɯː M: langer geschlossenerungerundeterHinterzungenvokal
宗教, shuukyou i
oː o:_o langer gerundetermittlererHinterzungenvokal
購読, koodoku o
o o_o mittlerer gerundeterHinterzungenvokal
読者, dokusha o
Koreanisch (ko-KR)Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für koreanische Stimmen.
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
k k stimmloser velarerVerschlusslaut
강, [g]ang k
k# k_t starker stimmloservelarer Plosiv
깨, [kk]e k
n n alveolarer Nasal 남, [n]am t
t t stimmloser alveolarerVerschlusslaut
도, [d]o t
t# t_t starker stimmloseralveolarer Plosiv
때, [tt]e t
ɾ 4 alveolarer Tap 사랑, sa[r]ang t
l l alveolarer lateralerApproximant
돌, do[l] t
m m bilabialer Nasal 무, [m]u p
p p stimmloser bilabialerVerschlusslaut
봄, [b]om p
p# p_t starker stimmloserbilabialer Plosiv
뻘, [pp]eol p
s s stimmloser alveolarerReibelaut
새, [s]e s
s# s_t starker stimmloseralveolarer Frikativ
씨, [ss]i s
101
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ŋ N velarer Nasal 방, ba[ng] k
tɕ ts\ stimmlosealveolopalataleAffrikate
조, [j]o J
t#ɕ ts\_t starke stimmlosealveolopalataleAffrikate
찌, [jj]i J
tɕʰ ts\_h aspirierte stimmlosealveolopalataleAffrikate
차, [ch]a J
kʰ k_h aspirierter stimmloservelarer Plosiv
코, [k]o k
tʰ t_h aspirierter stimmloseralveolarer Plosiv
통, [t]ong t
pʰ p_h aspirierter stimmloserbilabialer Plosiv
패, [p]e p
h h stimmloser glottalerFrikativ
힘, [h]im k
j j palatalerApproximant
양, [y]ang i
w w labiovelarerApproximant
왕, [w]ang u
ɰ M\ velarer Approximant> 의, [wj]i i
Vokale
a a ungerundeter offenerVor
밥, b[a]b a
ʌ V ungerundeterhalboffenerHinterzungenvokal
정, j[eo]ng E
ɛ E ungerundeterhalboffenerVorderzungenvokal
배, b[e] E
o o gerundeterhalbgeschlossenerHinterzungenvokal
노, n[o] o
u u gerundetergeschlossenerHinterzungenvokal
둘, d[u]l u
ɯ M geschlossenerungerundeterHinterzungenvokal
은, [eu]n i
102
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
i i ungerundetergeschlossenerVorderzungenvokal
김, k[i]m i
Norwegisch (nb-NO)Das folgende Diagramm enthält sämtliche Phoneme des Internationalen Phonetischen Alphabets (IPA), dieAmazon Polly für norwegische Stimmen unterstützt, samt den zugehörigen Symbolen aus dem ExtendedSpeech Assessment Methods Phonetic Alphabet (X-SAMPA) und den zugehörigen Mundbildern.
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
ɾ 4 alveolarer Tap prøv t
b b stimmhafter bilabialerVerschlusslaut
labb p
ç C stimmloser palatalerFrikativ
kino k
d d stimmhafteralveolarerVerschlusslaut
ladd t
ɖ d` stimmhafterretroflexer Plosiv
verdi t
f f stimmloserlabiodentaler Frikativ
fot f
ɡ ɡ stimmhafter velarerVerschlusslaut
tagg k
h h stimmloser glottalerFrikativ
ha k
j j palatalerApproximant
gi i
k k stimmloser velarerVerschlusslaut
takk k
l l alveolarer lateralerApproximant
fall, ball t
ɭ l` lateraler retroflexerApproximant
ærlig t
m m bilabialer Nasal lam p
n n alveolarer Nasal vann t
ɳ n` retroflexer Nasal garn t
ŋ N velarer Nasal sang k
103
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
p p stimmloser bilabialerVerschlusslaut
hopp p
s s stimmloser alveolarerReibelaut
lass s
ʂ S` stimmloser retroflexerFrikativ
års S
ʃ S stimmloserpostalveolarerReibelaut
skyt S
t t stimmloser alveolarerVerschlusslaut
lat t
ʈ t` stimmloser retroflexerPlosiv
hardt t
ʋ V\ labiodentalerApproximant
vin f
w w labiovelarerApproximant
will x
Vokale
øː 2: langer gerundeterhalbgeschlossenerVorderzungenvokal
søt o
œ 9 gerundeterhalboffenerVorderzungenvokal
søtt O
ə @ Schwa ape @
æː {: langer ungerundeterfast offenerVorderzungenvokal
vær a
ʉ } gerundetergeschlossenerZentralvokal
lund u
ʉː }: langer gerundetergeschlossenerZentralvokal
lun u
æ { ungerundeterfast offenerVorderzungenvokal
vært a
ɑ A ungerundeter offenerHinterzungenvokal
hatt a
104
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ɑː A: langer ungerundeteroffenerHinterzungenvokal
hat a
e: e: langer ungerundeterhalbgeschlossenerVorderzungenvokal
sen e
ɛ E ungerundeterhalboffenerVorderzungenvokal
send E
i: i: langer ungerundetergeschlossenerVorderzungenvokal
vin i
ɪ I ungerundeterzentralisierter fastgeschlossenerVorderzungenvokal
vind i
oː oː langer gerundeterhalbgeschlossenerHinterzungenvokal
våt o
ɔ O gerundeterhalboffenerHinterzungenvokal
vått O
u: u: langer gerundetergeschlossenerhinterer Vokal
bok u
ʊ U gerundeterzentralisierter fastgeschlossenerHinterzungenvokal
bukk u
y: y: langer gerundetergeschlossenerVorderzungenvokal
lyn u
ʏ Y gerundeterzentralisierter fastgeschlossenerVorderzungenvokal
lynne u
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
105
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Polnisch (pl-PL)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für polnische Stimmen.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
b b stimmhafter bilabialerVerschlusslaut
bobas, belka p
d d stimmhafteralveolarerVerschlusslaut
dar, do t
dz dz stimmhafte alveolareAffrikate
dzwon, widzowie s
dʑ dz\ stimmhaftealveolopalataleAffrikate
dźwięk J
dʐ dz` stimmhafte retroflexeAffrikate
dżem, dżungla S
f f stimmloserlabiodentaler Frikativ
furtka, film f
g g stimmhafter velarerVerschlusslaut
gazeta, waga k
h h stimmloser glottalerFrikativ
chleb, handel k
j j palatalerApproximant
jak, maja i
k k stimmloser velarerVerschlusslaut
kura, marek k
l l alveolarer lateralerApproximant
lipa, alicja t
m m bilabialer Nasal matka, molo p
n n alveolarer Nasal norka t
ɲ J palataler Nasal koń, toruń J
p p stimmloser bilabialerVerschlusslaut
pora, stop p
r r alveolarer Vibrant rok, park r
s s stimmloser alveolarerReibelaut
sum, pas s
106
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ɕ S\ stimmloseralveolopalatalerFrikativ
śruba, śnieg J
ʂ S` stimmloser retroflexerFrikativ
szum, masz S
t t stimmloser alveolarerVerschlusslaut
tok, stół t
ts ts stimmlose alveolareAffrikate
car, co s
tɕ ts\ stimmlosealveolopalataleAffrikate
ćma, mieć J
tʂ ts` stimmlose retroflexeAffrikate
czas, raczej S
V V stimmhafterlabiodentalerReibelaut
worek, mewa f
w w labialisierter velarerApproximant
łaska, mało u
z z stimmhafteralveolarer Reibelaut
zero s
ʑ z\ stimmhafteralveolopalatalerFrikativ
źrebię, bieliźnie J
ʐ z` stimmhafterretroflexer Frikativ
żar, żona S
Vokale
a a ungerundeter offenerVor
ja a
ɛ E ungerundeterhalboffenerVorderzungenvokal
echo E
ɛ E~ nasaler ungerundeterhalboffenerVorderzungenvokal
węże E
i i ungerundetergeschlossenerVorderzungenvokal
ile i
ɔ O gerundeterhalboffenerHinterzungenvokal
oczy O
107
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ɔ O~ nasaler gerundeterhalboffenerHinterzungenvokal
wąż O
u u gerundetergeschlossenerHinterzungenvokal
uczta u
ɨ 1 ungerundetergeschlossenerZentralvokal
byk i
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
Portugiesisch (pt-PT)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für portugiesische Stimmen.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
ɾ 4 alveolarer Tap pira t
b b stimmhafter bilabialerVerschlusslaut
dato p
d d stimmhafteralveolarerVerschlusslaut
dato t
f f stimmloserlabiodentaler Frikativ
facto f
g g stimmhafter velarerVerschlusslaut
gato k
j j palatalerApproximant
paraguay i
k k stimmloser velarerVerschlusslaut
cacto k
l l alveolarer lateralerApproximant
galo t
108
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ʎ L palataler lateralerApproximant
galho J
m m bilabialer Nasal mato p
n n alveolarer Nasal nato t
ɲ J palataler Nasal pinha J
p p stimmloser bilabialerVerschlusslaut
pato p
ʀ R\ uvularer Vibrant barroso k
s s stimmloser alveolarerReibelaut
saca s
ʃ S stimmloserpostalveolarerReibelaut
chato S
t t stimmloser alveolarerVerschlusslaut
tacto t
V V stimmhafterlabiodentalerReibelaut
vaca f
w w labiovelarerApproximant
mau u
z z stimmhafteralveolarer Reibelaut
zaca s
ʒ Z stimmhafterpostalveolarerFrikativ
jacto S
Vokale
a a ungerundeter offenerVor
parto a
a a~ nasalerungerundeter offenerVorderzungenvokal
pega a
e e ungerundeterhalbgeschlossenerVorderzungenvokal
pega e
e e~ nasaler ungerundeterhalbgeschlossenerVorderzungenvokal
movem e
ɛ E ungerundeterhalboffenerVorderzungenvokal
café E
109
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
i i ungerundetergeschlossenerVorderzungenvokal
lingueta i
i i~ nasaler ungerundetergeschlossenerVorderzungenvokal
cinto i
o o gerundeterhalbgeschlossenerHinterzungenvokal
poder o
o o~ nasaler gerundeterhalbgeschlossenerHinterzungenvokal
compra o
ɔ O gerundeterhalboffenerHinterzungenvokal
cotó O
u u gerundetergeschlossenerHinterzungenvokal
fui u
u u~ nasaler gerundetergeschlossenerHinterzungenvokal
sunto u
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
Portugiesisch (brasilianisch) (pt-BR)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für portugiesische (Brasilien) Stimmen.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
ɾ 4 alveolarer Tap pira t
b b stimmhafter bilabialerVerschlusslaut
bato p
d d stimmhafteralveolarerVerschlusslaut
dato t
110
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
dʒ dZ stimmhaftepostalveolareAffrikate
idade S
f f stimmloserlabiodentaler Frikativ
facto f
g g stimmhafter velarerVerschlusslaut
gato k
j j palatalerApproximant
paraguay i
k k stimmloser velarerVerschlusslaut
cacto k
l l alveolarer lateralerApproximant
galo t
ʎ L palataler lateralerApproximant
galho J
m m bilabialer Nasal mato p
n n alveolarer Nasal nato t
ɲ J palataler Nasal pinha J
p p stimmloser bilabialerVerschlusslaut
pato p
s s stimmloser alveolarerReibelaut
saca s
ʃ S stimmloserpostalveolarerReibelaut
chato S
t t stimmloser alveolarerVerschlusslaut
tacto t
tʃ tS stimmlosepostalveolareAffrikate
noite S
V V stimmhafterlabiodentalerReibelaut
vaca f
w w labiovelarerApproximant
mau u
χ X stimmloser uvularerFrikativ
carro k
z z stimmhafteralveolarer Reibelaut
zaca s
111
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ʒ Z stimmhafterpostalveolarerFrikativ
jacto S
Vokale
a a ungerundeter offenerVor
parto a
a a~ nasalerungerundeter offenerVorderzungenvokal
pensamos a
e e ungerundeterhalbgeschlossenerVorderzungenvokal
pega e
e e~ nasaler ungerundeterhalbgeschlossenerVorderzungenvokal
movem e
ɛ E ungerundeterhalboffenerVorderzungenvokal
café E
i i ungerundetergeschlossenerVorderzungenvokal
lingueta i
i i~ nasaler ungerundetergeschlossenerVorderzungenvokal
cinto i
o o gerundeterhalbgeschlossenerHinterzungenvokal
poder o
o o~ nasaler gerundeterhalbgeschlossenerHinterzungenvokal
compra o
ɔ O gerundeterhalboffenerHinterzungenvokal
cotó O
u u gerundetergeschlossenerHinterzungenvokal
fui u
u u~ nasaler gerundetergeschlossenerHinterzungenvokal
sunto u
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
112
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
. . Silbengrenze A.la.ba.ma
Rumänisch (ro-RO)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für rumänische Stimmen.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
b b stimmhafter bilabialerVerschlusslaut
bubă p
d d stimmhafteralveolarerVerschlusslaut
după t
dʒ dZ stimmhaftepostalveolareAffrikate
george S
f f stimmloserlabiodentaler Frikativ
afacere f
g g stimmhafter velarerVerschlusslaut
agri# k
h h stimmloser glottalerFrikativ
harpă k
j j palatalerApproximant
baie i
k k stimmloser velarerVerschlusslaut
co# k
l l alveolarer lateralerApproximant
lampa t
m m bilabialer Nasal mama p
n n alveolarer Nasal nor t
p p stimmloser bilabialerVerschlusslaut
pilă p
r r alveolarer Vibrant rampă r
s s stimmloser alveolarerReibelaut
soare s
113
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ʃ S stimmloserpostalveolarerReibelaut
ma#ină S
t t stimmloser alveolarerVerschlusslaut
tata t
ts ts stimmlose alveolareAffrikate
#ară s
tʃ tS stimmlosepostalveolareAffrikate
ceai S
V V stimmhafterlabiodentalerReibelaut
via#ă f
w w labiovelarerApproximant
beau u
z z stimmhafteralveolarer Reibelaut
mozol s
ʒ Z stimmhafterpostalveolarerFrikativ
joacă S
Vokale
ə @ Schwa babă @
a a ungerundeter offenerVor
casa a
e e ungerundeterhalbgeschlossenerVorderzungenvokal
elan e
e e_^ nicht silbischerungerundeterhalbgeschlossenerVorderzungenvokal
beau e
i i ungerundetergeschlossenerVorderzungenvokal
mie i
o o gerundeterhalbgeschlossenerHinterzungenvokal
oră o
oa o_^a Diphthong oare o
u u gerundetergeschlossenerHinterzungenvokal
unde u
114
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ɨ 1 ungerundetergeschlossenerZentralvokal
România i
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
Russisch (ru-RU)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für russische Stimmen.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
b b stimmhafter bilabialerVerschlusslaut
борт p
bʲ b' mouillierterstimmhafter bilabialerPlosiv
бюро p
d d stimmhafteralveolarerVerschlusslaut
дом t
dʲ d' mouillierterstimmhafteralveolarer Plosiv
дядя t
f f stimmloserlabiodentaler Frikativ
флаг f
fʲ f' mouillierterstimmloserlabiodentaler Frikativ
февраль f
g g stimmhafter velarerVerschlusslaut
нога k
ɡʲ g' mouillierterstimmhafter velarerPlosiv
герой k
j j palatalerApproximant
дизайн, ящик i
115
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
k k stimmloser velarerVerschlusslaut
кот k
kʲ k' mouillierterstimmloser velarerPlosiv
кино k
l l alveolarer lateralerApproximant
лампа t
lʲ l' mouillierter alveolarerlateraler Approximant
лес t
m m bilabialer Nasal мама p
mʲ i' mouillierter bilabialerNasal
мяч p
n n alveolarer Nasal нос t
nʲ n' mouillierter alveolarerNasal
няня t
p p stimmloser bilabialerVerschlusslaut
папа p
pʲ p' mouillierterstimmloser bilabialerPlosiv
перо p
r r alveolarer Vibrant роза r
rʲ r' mouillierter alveolarerVibrant
рюмка r
s s stimmloser alveolarerReibelaut
сыр s
sʲ S' mouillierterstimmloser alveolarerFrikativ
сердце, русь s
ɕ: S\: langer stimmloseralveolopalatalerFrikativ
щека J
ʂ S` stimmloser retroflexerFrikativ
шум S
t t stimmloser alveolarerVerschlusslaut
точка t
tʲ t' mouillierterstimmloser alveolarerPlosiv
тётя t
ts ts stimmlose alveolareAffrikate
царь s
116
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
tɕ ts\ stimmlosealveolopalataleAffrikate
час J
V V stimmhafterlabiodentalerReibelaut
вор f
vʲ V' mouillierterstimmhafterlabiodentaler Frikativ
верфь f
x x stimmloser velarerReibelaut
хор k
xʲ x' mouillierterstimmloser velarerFrikativ
химия k
z z stimmhafteralveolarer Reibelaut
зуб s
zʲ z' mouillierterstimmhafteralveolarer Frikativ
зима s
ʑ: z\: langer stimmhafteralveolopalatalerFrikativ
уезжать J
ʐ z` stimmhafterretroflexer Frikativ
жена S
Vokale
ə @ Schwa канарейка @
a a ungerundeter offenerVor
два, яблоко a
e e ungerundeterhalbgeschlossenerVorderzungenvokal
печь e
ɛ E ungerundeterhalboffenerVorderzungenvokal
это E
i i ungerundetergeschlossenerVorderzungenvokal
один, четыре i
o o gerundeterhalbgeschlossenerHinterzungenvokal
кот o
117
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
u u gerundetergeschlossenerHinterzungenvokal
муж, вьюга u
ɨ 1 ungerundetergeschlossenerZentralvokal
мышь i
Spanisch (es-ES)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für spanische Stimmen.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
ɾ 4 alveolarer Tap pero, bravo, amor,eterno
t
b b stimmhafter bilabialerVerschlusslaut
bestia p
β B stimmhafter bilabialerFrikativ
bebé B
d d stimmhafteralveolarerVerschlusslaut
cuando t
ð D stimmhafter dentalerFrikativ
arder T
f f stimmloserlabiodentaler Frikativ
fase, café f
g g stimmhafter velarerVerschlusslaut
gato, lengua, guerra k
ɣ G stimmhafter velarerFrikativ
trigo, Argos k
j j palatalerApproximant
hacia, tierra, radio,viuda
i
ʝ j\ stimmhafter palatalerFrikativ
enhielar, sayo,inyectado, desyerba
J
k k stimmloser velarerVerschlusslaut
caña, laca, quisimos k
l l alveolarer lateralerApproximant
lino, calor, principal t
118
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ʎ L palataler lateralerApproximant
llave, pollo J
m m bilabialer Nasal madre, comer,anfibio
p
n n alveolarer Nasal nido, anillo, sin t
ɲ J palataler Nasal cabaña, ñoquis J
ŋ N velarer Nasal cinco, venga k
p p stimmloser bilabialerVerschlusslaut
pozo, topo p
r r alveolarer Vibrant perro, enrachado r
s s stimmloser alveolarerReibelaut
saco, casa, puertas s
t t stimmloser alveolarerVerschlusslaut
tamiz, átomo t
tʃ tS stimmlosepostalveolareAffrikate
chubasco S
θ T stimmloser dentalerReibelaut
cereza, zorro, lacero,paz
T
w w labialisierter velarerApproximant
fuego, fuimos, cuota,cuadro
u
x x stimmloser velarerReibelaut
jamón, general, suje,reloj
k
z z stimmhafteralveolarer Reibelaut
rasgo, mismo s
Vokale
a a ungerundeter offenerVor
tanque a
e e ungerundeterhalbgeschlossenerVorderzungenvokal
peso e
i i ungerundetergeschlossenerVorderzungenvokal
cinco i
o o gerundeterhalbgeschlossenerHinterzungenvokal
bosque o
u u ungerundeterhalbgeschlossenerVorderzungenvokal
publicar u
119
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
e e ungerundeterhalbgeschlossenerVorderzungenvokal
keçi e
ɛ E ungerundeterhalboffenerVorderzungenvokal
dede e
i i ungerundetergeschlossenerVorderzungenvokal
bir i
i: i: langer ungerundetergeschlossenerVorderzungenvokal
izah i
ɪ I ungerundeterzentralisierter fastgeschlossenerVorderzungenvokal
keçi i
ɯ Mio. geschlossenerungerundeterHinterzungenvokal
kıl i
o o langer gerundeterhalbgeschlossenerHinterzungenvokal
kol o
o: o: langer gerundeterhalbgeschlossenerHinterzungenvokal
dolar o
u u gerundetergeschlossenerHinterzungenvokal
durum u
u: u: langer gerundetergeschlossenerhinterer Vokal
ruhum u
ʊ U gerundeterzentralisierter fastgeschlossenerHinterzungenvokal
dolu u
Y y geschlossenergerundeterVorderzungenvokal
güvenlik u
ʏ Y gerundeterzentralisierter fastgeschlossenerVorderzungenvokal
aşı u
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
120
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
Spanisch, mexikanisch (es-MX)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für die mexikanisch-spanische Stimme.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
ɾ 4 alveolarer Tap pero, bravo, amor,eterno
t
b b stimmhafter bilabialerVerschlusslaut
bestia p
β B stimmhafter bilabialerFrikativ
bebé B
d d stimmhafteralveolarerVerschlusslaut
cuando t
ð D stimmhafter dentalerFrikativ
arder T
f f stimmloserlabiodentaler Frikativ
fase, café f
g g stimmhafter velarerVerschlusslaut
gato, lengua, guerra k
ɣ G stimmhafter velarerFrikativ
trigo, Argos k
j j palatalerApproximant
hacia, tierra, radio,viuda
i
ʝ j\ stimmhafter palatalerFrikativ
enhielar, sayo,inyectado, desyerba
J
k k stimmloser velarerVerschlusslaut
caña, laca, quisimos k
l l lateraler alveolarerApproximant
lino, calor, principal t
m m bilabialer Nasal madre, comer,anfibio
p
n n alveolarer Nasal nido, anillo, sin t
121
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ɲ J palataler Nasal cabaña, ñoquis J
ŋ N velarer Nasal angosto, increíble k
p p stimmloser bilabialerVerschlusslaut
pozo, topo p
r r alveolarer Vibrant perro, enrachado r
s s stimmloser alveolarerReibelaut
saco, casa, puertas s
ʃ S stimmloserpostalveolarerReibelaut
show, flash S
t t stimmloser alveolarerVerschlusslaut
tamiz, átomo t
tʃ tS stimmlosepostalveolareAffrikate
chubasco S
w w labialisierter velarerApproximant
fuego, fuimos, cuota,cuadro
u
x x stimmloser velarerReibelaut
jamón, general,peaje, reloj
k
z z stimmhafteralveolarer Reibelaut
rasgo, mismo s
h h stimmloser glottalerFrikativ
Harrison k
ɹ r\ postalveolarerApproximant
Brian r
V V stimmhafterlabiodentalerReibelaut
Vancouver f
Vokale
a a ungerundeter offenerZentralvokal
tanque a
e e ungerundeterhalbgeschlossenerVorderzungenvokal
peso e
i i ungerundetergeschlossenerVorderzungenvokal
cinco i
o o gerundeterhalbgeschlossenerHinterzungenvokal
bosque o
122
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
u u gerundetergeschlossenerHinterzungenvokal
publicar u
ɛ E ungerundeterhalboffenerVorderzungenvokal
dress E
ɔ O gerundeterhalboffenerHinterzungenvokal
Fort O
ə @ Schwa Lauderdale @
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
Spanisch, USA (es-US)Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für spanische (USA) Stimmen.
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
b b stimmhafter bilabialerVerschlusslaut
bed p
d d stimmhafteralveolarerVerschlusslaut
dig t
dʒ dZ stimmhaftepostalveolareAffrikate
jump S
ð D stimmhafter dentalerFrikativ
then T
f f stimmloserlabiodentaler Frikativ
five f
g g stimmhafter velarerPlosiv
game k
h h stimmloser glottalerFrikativ
house k
j j palatalerApproximant
yes i
123
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
k k stimmloser velarerPlosiv
cat k
l l alveolarer lateralerApproximant
lay t
m m bilabialer Nasal mouse p
n n alveolarer Nasal nap t
ŋ N velarer Nasal thing k
p p stimmloser bilabialerPlosiv
speak p
ɹ r\ alveolarerApproximant
red r
s s stimmloser alveolarerFrikativ
seem s
ʃ S stimmloserpostalveolarerFrikativ
ship S
t t stimmloser alveolarerPlosiv
trap t
tʃ tS stimmlosepostalveolareAffrikate
chart S
Θ T stimmloser dentalerFrikativ
thin T
V V stimmhafterlabiodentaler Frikativ
vest f
w w labiovelarerApproximant
west u
z z stimmhafteralveolarer Frikativ
zero s
ʒ Z stimmhafterpostalveolarerFrikativ
vision S
Vokale
ə @ Schwa arena @
ɚ @' rhotisches Schwa reader @
æ { ungerundeterfast offenerVorderzungenvokal
trap a
aɪ aI Diphthong price a
124
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
aʊ aU Diphthong mouth a
ɑ A langer ungerundeteroffenerHinterzungenvokal
father a
eɪ eI Diphthong face e
ɝ 3` offenesungerundetesrhotisches Schwa
nurse E
ɛ E ungerundeterhalboffenerVorderzungenvokal
dress E
i: i langer ungerundetergeschlossenerVorderzungenvokal
fleece i
ɪ I ungerundeterzentralisierter fastgeschlossenerVorderzungenvokal
kit i
oʊ oU Diphthong goat o
ɔ O langer gerundeterhalboffenerHinterzungenvokal
thought O
ɔɪ OI Diphthong choice O
u u langer gerundetergeschlossenerHinterzungenvokal
goose u
ʊ U gerundeterzentralisierter fastgeschlossenerHinterzungenvokal
foot u
ʌ V ungerundeterhalboffenerHinterzungenvokal
strut E
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
125
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Schwedisch (sv-SE)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für schwedische Stimmen.
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
b b stimmhafter bilabialerVerschlusslaut
bil p
d d stimmhafteralveolarerVerschlusslaut
dal t
ɖ d` stimmhafterretroflexerVerschlusslaut
bord t
f f stimmloserlabiodentaler Frikativ
fil f
g g stimmhafter velarerVerschlusslaut
gås k
h h stimmloser glottalerFrikativ
hal k
j j palatalerApproximant
jag i
k k stimmloser velarerVerschlusslaut
kal k
l l alveolarer lateralerApproximant
lös t
ɭ l` lateraler retroflexerApproximant
härlig t
m m bilabialer Nasal mil p
n n alveolarer Nasal nålar t
ɳ n` retroflexer Nasal barn t
ŋ N velarer Nasal ring k
p p stimmloser bilabialerVerschlusslaut
pil p
r r alveolarer Vibrant ris r
s s stimmloser alveolarerReibelaut
sil s
126
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ɕ S\ stimmloseralveolopalatalerFrikativ
tjock J
ʂ S` stimmloser retroflexerFrikativ
fors, schlager S
t t stimmloser alveolarerVerschlusslaut
tal t
ʈ t` stimmloser retroflexerPlosiv
hjort t
V V stimmhafterlabiodentalerReibelaut
vår f
w w labiovelarerApproximant
aula, airways u
ɧ x\ stimmloser palatal-velarer Frikativ
sjuk k
Vokale
ø 2 gerundeterhalbgeschlossenerVorderzungenvokal
föll, förr o
ø 2: langer gerundeterhalbgeschlossenerVorderzungenvokal
föl, nöt, för o
ɵ 8 gerundeterhalbgeschlossenerZentralvokal
buss, full o
ə @ Schwa pojken @
ʉː }: langer gerundetergeschlossenerZentralvokal
hus, ful u
a a ungerundeter offenerVor
hall, matt a
æ { ungerundeterfast offenerVorderzungenvokal
herr a
ɑː A: langer ungerundeteroffenerHinterzungenvokal
hal, mat a
e: e: langer ungerundeterhalbgeschlossenerVorderzungenvokal
vet, hel e
127
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ɛ E ungerundeterhalboffenerVorderzungenvokal
vett, rätt, hetta, häll E
ɛː E: langer ungerundeterhalboffenerVorderzungenvokal
säl, häl, här E:
i: i: langer ungerundetergeschlossenerVorderzungenvokal
vit, sil i:
ɪ I ungerundeterzentralisierter fastgeschlossenerVorderzungenvokal
vitt, sill i
o: o: langer gerundeterhalbgeschlossenerHinterzungenvokal
hål, mål o
ɔ O gerundeterhalboffenerHinterzungenvokal
håll, moll O
u: u: langer gerundetergeschlossenerhinterer Vokal
sol, bot u
ʊ U gerundeterzentralisierter fastgeschlossenerHinterzungenvokal
bott u
y y geschlossenergerundeterVorderzungenvokal
bytt u
y: y: langer gerundetergeschlossenerVorderzungenvokal
syl, syl u
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
Türkisch (tr-TR)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Mundbilder für türkische Stimmen.
128
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
ɾ 4 alveolarer Tap durum t
ɾ 4_0_r stimmloser frikativeralveolarer Tap
bir t
ɾ 4_r frikativer alveolarerTap
raf t
b b stimmhafter bilabialerVerschlusslaut
raf p
c c stimmloser palatalerPlosiv
kedi k
d d stimmhafteralveolarerVerschlusslaut
dede t
dʒ dZ stimmhaftepostalveolareAffrikate
cam S
f f stimmloserlabiodentaler Frikativ
fare f
g g stimmhafter velarerPlosiv
galibi k
h h stimmloser glottalerFrikativ
hasta k
j j palatalerApproximant
yat i
ɟ J\ stimmhafter palatalerPlosiv
genç J
k k stimmloser velarerVerschlusslaut
akıl k
l l alveolarer lateralerApproximant
lale t
ɫ 5 velarisierteralveolarer lateralerApproximant
labirent t
m m bilabialer Nasal maaş p
n n alveolarer Nasal anı t
p p stimmloser bilabialerVerschlusslaut
ip p
129
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
s s stimmloser alveolarerReibelaut
ses s
ʃ S stimmloserpostalveolarerReibelaut
aşı S
t t stimmloser alveolarerVerschlusslaut
ütü t
tʃ tS stimmlosepostalveolareAffrikate
çaba S
V V stimmhafterlabiodentalerReibelaut
ekvator, kahveci,akvaryum, isveçli,teşviki, cetvel
f
z z stimmhafteralveolarer Reibelaut
ver s
ʒ Z stimmhafterpostalveolarerFrikativ
azık S
Vokale
ø 2 gerundeterhalbgeschlossenerVorderzungenvokal
göl 0
œ 9 gerundeterhalboffenerVorderzungenvokal
banliyö O
a a ungerundeter offenerVor
kal a
a: a: langer ungerundeteroffenerVorderzungenvokal
davacı a
æ { ungerundeterfast offenerVorderzungenvokal
özlem, güvenlik,gürel, somersault
a
e e ungerundeterhalbgeschlossenerVorderzungenvokal
keçi e
ɛ E ungerundeterhalboffenerVorderzungenvokal
dede E
i i ungerundetergeschlossenerVorderzungenvokal
bir i
130
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
i: i: langer ungerundetergeschlossenerVorderzungenvokal
izah i
ɪ I ungerundeterzentralisierter fastgeschlossenerVorderzungenvokal
keçi i
ɯ Mio. geschlossenerungerundeterHinterzungenvokal
kıl i
o o gerundeterhalbgeschlossenerHinterzungenvokal
kol o
o: o: langer gerundeterhalbgeschlossenerHinterzungenvokal
dolar o
u u gerundetergeschlossenerHinterzungenvokal
durum u
u: u: langer gerundetergeschlossenerhinterer Vokal
ruhum u
ʊ U gerundeterzentralisierter fastgeschlossenerHinterzungenvokal
dolu u
y y geschlossenergerundeterVorderzungenvokal
güvenlik u
ʏ Y gerundeterzentralisierter fastgeschlossenerVorderzungenvokal
aşı u
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
Walisisch (cy-GB)
Die folgende Tabelle enthält sämtliche Phoneme des International Phonetic Alphabet (IPA) unddie Symbole des Extended Speech Assessment Methods Phonetic Alphabet (X-SAMPA) sowie dieentsprechenden von Amazon Polly unterstützten Viseme für walisische Stimmen.
131
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
Tabelle der Phoneme/Viseme
IPA X-SAMPA Beschreibung Beispiel Viseme
Konsonanten
b b stimmhafter bilabialerVerschlusslaut
baban p
d d stimmhafteralveolarerVerschlusslaut
deg t
dʒ dZ stimmhaftepostalveolareAffrikate
garej S
ð D stimmhafter dentalerFrikativ
deuddeg T
f f stimmloserlabiodentaler Frikativ
ffacs f
g g stimmhafter velarerVerschlusslaut
gadael k
h h stimmloser glottalerFrikativ
haearn k
j j palatalerApproximant
astudio i
k k stimmloser velarerVerschlusslaut
cant k
l l alveolarer lateralerApproximant
lan t
ɬ K stimmloser alveolarerlateraler Frikativ
llan t
m m bilabialer Nasal mae p
i m_0 stimmloser bilabialerNasal
ymhen p
n n alveolarer Nasal naw t
n n_0 stimmloser alveolarerNasal
anhawster t
ŋ N velarer Nasal argyfwng k
ŋ N_0 stimmloser velarerNasal
anghenion k
p p stimmloser bilabialerVerschlusslaut
pump p
r r alveolarer Vibrant rhoi r
132
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
r r_0 stimmloser alveolarerVibrant
garw r
s s stimmloser alveolarerReibelaut
saith s
ʃ S stimmloserpostalveolarerReibelaut
siawns S
t t stimmloser alveolarerVerschlusslaut
tegan t
tʃ tS stimmlosepostalveolareAffrikate
cytsain S
θ T stimmloser dentalerReibelaut
aberth T
V V stimmhafterlabiodentalerReibelaut
prawf f
w w labiovelarerApproximant
rhagweld u
χ X stimmloser uvularerFrikativ
chwech k
z z stimmhafteralveolarer Reibelaut
aids s
ʒ Z stimmhafterpostalveolarerFrikativ
rouge S
Vokale
ə @ Schwa ychwanega @
a a ungerundeter offenerVor
acen a
ai ai Diphthong dau a
au au Diphthong awdur a
ɑː A: langer ungerundeteroffenerHinterzungenvokal
mab a
ɑːɨ A:1 Diphthong aelod a
e: e: langer ungerundeterhalbgeschlossenerVorderzungenvokal
peth e
133
Amazon Polly EntwicklerhandbuchUnterstützte SSML-Tags
IPA X-SAMPA Beschreibung Beispiel Viseme
ɛ E ungerundeterhalboffenerVorderzungenvokal
pedwar E
ɛi Ei Diphthong beic E
i: i: langer ungerundetergeschlossenerVorderzungenvokal
tri i
ɪ I ungerundeterzentralisierter fastgeschlossenerVorderzungenvokal
miliwn i
ɨu 1u Diphthong unigryw i
o: o: langer gerundeterhalbgeschlossenerHinterzungenvokal
oddi o
ɔ O gerundeterhalboffenerHinterzungenvokal
oddieithr O
ɔi Oi Diphthong troi O
ɔu Ou Diphthong rownd O
u: u: langer gerundetergeschlossenerhinterer Vokal
cwch u
ʊ U gerundeterzentralisierter fastgeschlossenerHinterzungenvokal
acwstig u
ʊi Ui Diphthong wyth u
Zusätzliche Symbole
ˈ " Hauptakzent Alabama
ˌ % Nebenakzent Alabama
. . Silbengrenze A.la.ba.ma
134
Amazon Polly EntwicklerhandbuchAnwenden mehrerer Lexika
Verwalten von LexikaMit Aussprachelexika können Sie die Aussprache von Wörtern anpassen. Amazon Polly stellt API-Vorgänge zum Speichern von Lexika in einer AWS-Region bereit. Diese Lexika gelten dann speziellfür diese bestimmte Region. Sie können eine oder mehrere der Lexika aus dieser Region verwenden,wenn Sie die Textsynthese mithilfe des SynthesizeSpeech-Vorgangs vornehmen. Dies gilt für dasangegebene Lexikon des Eingabetexts, bevor die Synthese beginnt. Weitere Informationen finden Sie unterSynthesizeSpeech (p. 219).
Note
Diese Lexika müssen mit der Angabe zur W3C-Empfehlung des Aussprachelexikonsübereinstimmen. Weitere Informationen dazu finden Sie auf der W3C-Website unter Angaben zumAussprachelexikon (PLS) Version 1.0.
Es folgen Beispiele für die Verwendung von Lexika mit Sprachsynthese-Engines:
• Häufige Wörter werden manchmal mit Zahlen anstelle von Buchstaben stilisiert, wie z. B. „g3t sm4rt“ (getsmart). Menschen können diese Wörter korrekt lesen. Eine Text-To-Speech-Engine (TTS) liest den Textjedoch wörtlich und liest den Namen genau so, wie er buchstabiert wird. An dieser Stelle können SieLexika nutzen, um die synthetische Sprache mit Amazon Polly zu verwenden. In diesem Beispiel könnenSie einen Alias (get smart) für das Wort „g3t sm4rt“ im Lexikon angeben.
• Der Text kann ein Akronym enthalten, z. B. W3C. Sie können mit einem Lexikon einen Alias für das WortW3C definieren, sodass er vollständig in erweiterter Form gelesen wird (World Wide Web Consortium).
Lexika geben Ihnen zusätzliche Kontrolle darüber, wie Amazon Polly Wörter ausspricht, die in der gewählteSprache seltener vorkommen. Beispielsweise können Sie die Aussprache mit einem phonetischenAlphabet angeben. Weitere Informationen dazu finden Sie auf der W3C-Website unter Angaben zumAussprachelexikon (PLS) Version 1.0.
Themen• Anwenden mehrerer Lexika (p. 135)• Verwalten von Lexika mithilfe der Amazon Polly-Konsole (p. 136)• Verwalten von Lexika mithilfe der AWS CLI (p. 139)
Anwenden mehrerer LexikaSie können bis zu fünf Lexika auf Ihren Text anwenden. Wenn dasselbe Graphem in mehr als einemLexikon angezeigt wird, das Sie auf Ihren Text anwenden, kann die Reihenfolge, in der sie angewendetwerden, eine unterschiedliche Sprachausgabe zur Folge haben. Nehmen wir den Beispieltext "Hallo, ichheiße Bob." und zwei Lexeme in verschiedenen Lexika, in denen jeweils das Graphem Bob verwendet wird.
LexA
<lexeme> <grapheme>Bob</grapheme> <alias>Robert</alias></lexeme>
LexB verwendet wird.
135
Amazon Polly EntwicklerhandbuchVerwalten von Lexika mithilfe der Konsole
<lexeme> <grapheme>Bob</grapheme> <alias>Bobby</alias></lexeme>
Wenn die Lexika in der Reihenfolge LexA und LexB aufgelistet werden, lautet die synthetische Sprache„Hallo, ich heiße Robert.“ Wenn sie in der Reihenfolge LexB und LexA aufgeführt werden, lautet diesynthetische Sprache „Hallo, ich heiße Roland.“
Example – Anwenden von LexA vor LexB
aws polly synthesize-speech \--lexicon-names LexA LexB \--output-format mp3 \--text 'Hello, my name is Bob' \--voice-id Justin \bobAB.mp3
Speech Ausgabe: „Hallo, ich heiße Robert.“
Example – Anwenden von LexB vor LexA
aws polly synthesize-speech \--lexicon-names LexB LexA \--output-format mp3 \--text 'Hello, my name is Bob' \--voice-id Justin \bobBA.mp3
Speech Ausgabe: „Hallo, ich heiße Bobby.“
Weitere Informationen zum Anwenden von Lexika mithilfe der Amazon Polly-Konsole finden Sie unterAnwenden von Lexika mithilfe der Konsole (synthetische Sprache) (p. 137).
Verwalten von Lexika mithilfe der Amazon Polly-Konsole
Mit der Amazon Polly-Konsole können Sie Lexika hochladen, herunterladen, Filter anwenden und Lexikalöschen. In den folgenden Verfahren werden die einzelnen Prozesse veranschaulicht.
Hochladen von Lexika mithilfe der KonsoleZum Verwenden eines Aussprachelexikons müssen Sie es zunächst hochladen. Es gibt zwei Positionenauf der Konsole, von denen Sie ein Lexikon hochladen können, die Registerkarte Text-to-Speech und dieRegisterkarte Lexicons.
In den folgenden Prozessen wird beschrieben, wie Sie Lexika hinzufügen, die Sie verwenden können,um festzulegen, wie Wörter und Sätze ausgesprochen werden, die in der gewählten Sprache seltenervorkommen.
So fügen Sie ein Lexikon von der Lexika-Registerkarte hinzu
1. Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die Amazon Polly-Konsole unterhttps://console.aws.amazon.com/polly/.
136
Amazon Polly EntwicklerhandbuchAnwenden von Lexika mithilfe derKonsole (synthetische Sprache)
2. Wählen Sie die Registerkarte Lexicons aus.3. Klicken Sie auf Upload.4. Navigieren Sie zu dem Lexikon, das Sie hochladen möchten. Sie können nur PLS-Dateien mit den
Dateierweiterungen PLS und XML verwenden.5. Klicken Sie auf Open. Wenn ein Lexikon mit dem gleichen Namen (PLS- oder XML-Datei) bereits
vorhanden ist, wird das vorhandene Lexikon durch Hochladen des Lexikons überschrieben.
So fügen Sie ein Lexikon von der Text-To-Speech-Registerkarte hinzu
1. Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die Amazon Polly-Konsole unterhttps://console.aws.amazon.com/polly/.
2. Wählen Sie die Registerkarte Text-to-Speech.3. Wählen Sie Customize pronunciation of words or phrases using lexicons an und wählen Sie dann
Upload lexicon.4. Navigieren Sie zu dem Lexikon, das Sie hochladen möchten. Sie können nur PLS-Dateien mit den
Dateierweiterungen PLS und XML verwenden.5. Klicken Sie auf Open. Wenn ein Lexikon mit dem gleichen Namen (PLS- oder XML-Datei) bereits
vorhanden ist, wird das vorhandene Lexikon durch Hochladen des Lexikons überschrieben.
Anwenden von Lexika mithilfe der Konsole(synthetische Sprache)Im folgenden Verfahren wird gezeigt, wie Sie ein Lexikon auf Ihren Eingabetext anwenden können,indem Sie das W3c.pls-Lexikon so anwenden, dass es „World Wide Web Consortium“ durch „W3C“ersetzt. Wenn Sie mehrere Lexika auf Ihren Text anwenden, Ihrem Text werden sie in der Reihenfolgevon oben nach unten angewendet, dabei hat die erste Übereinstimmung Vorrang vor nachfolgendenÜbereinstimmungen. Ein Lexikon wird nur auf den Text angewendet, wenn die die im Lexikon angegebeneSprache mit der ausgewählten Sprache übereinstimmt.
Sie können ein Lexikon auf Klartext oder SSML-Eingaben anwenden.
Example – Anwenden des W3C.pls-Lexikons
Weitere Informationen zum Erstellen des Lexikons, das Sie für diese Übung benötigen, finden Sie unterVerwenden des PutLexicon-Vorgangs (p. 139). Verwenden Sie einen Texteditor zum Erstellen desW3C.pls Lexikon, das oben im Thema angezeigt wird. Merken Sie sich, wo Sie diese Datei speichern.
So wenden Sie das W3C.pls-Lexikon auf Ihre Eingabe an
In diesem Beispiel setzen wir Lexika ein, um „World Wide Web Consortium“ durch „W3C“ zu ersetzen.Vergleichen Sie das Ergebnis dieser Übung mit dem von Verwenden von SSML (Konsole) (p. 31) fürEnglisch (USA) und eine weitere Sprache.
1. Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die Amazon Polly-Konsole unterhttps://console.aws.amazon.com/polly/.
2. Führen Sie eine der folgenden Aufgaben aus:
• Wählen Sie die Plain text-Registerkarte und geben Sie diesen Text dann in das Texteingabefeld ein.
He was caught up in the game. In the middle of the 10/3/2014 W3C meeting he shouted, "Score!" quite loudly.
137
Amazon Polly EntwicklerhandbuchFiltern der Lexikonliste mithilfe der Konsole
• Wählen Sie die SSML-Registerkarte und geben Sie diesen Text dann in das Texteingabefeld ein.
<speak>He wasn't paying attention.<break time="1s"/>In the middle of the 10/3/2014 W3C meeting he shouted, "Score!" quite loudly.</speak>
3. Wählen Sie in der Choose a language and region-Liste US-Englisch aus, wählen Sie anschließendeine Stimme aus, die Sie für diesen Text verwenden möchten.
4. Wählen Sie Customize pronunciation of words or phrases using lexicons an.5. Wählen Sie aus der Liste der Lexika W3C (English, US) aus.
Wenn das W3C (English, US)-Lexikon nicht aufgeführt ist, wählen Sie Upload lexicon und ladenSie es hoch, anschließend können Sie es aus der Liste wählen. Informationen zum Erstellen diesesLexikons finden Sie unter Verwenden des PutLexicon-Vorgangs (p. 139).
6. Klicken Sie auf Listen to speech, um die Sprachausgabe sofort anzuhören.7. So speichern Sie die Sprachausgabe in einer Datei
a. Wählen Sie Save speech to MP3.b. Wenn Sie ein anderes Dateiformat verwenden möchten: Wählen Sie zunächst die Option Change
file format und dann das gewünschte Dateiformat aus. Klicken Sie anschließend auf Change.
Wiederholen Sie den vorherigen Schritten, wählen Sie jedoch eine andere Sprache, und beachten Sie denUnterschied in der Ausgabe.
Filtern der Lexikonliste mithilfe der KonsoleIm folgenden Verfahren wird beschrieben, wie Sie die Lexikonliste filtern können, damit nur Lexika einergewählten Sprache angezeigt werden.
So filtern Sie nach Sprache aufgelistete Lexika
1. Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die Amazon Polly-Konsole unterhttps://console.aws.amazon.com/polly/.
2. Wählen Sie die Registerkarte Lexicons aus.3. Wählen Sie Filter.4. Wählen Sie aus der Liste der Sprachen die Sprache, nach der Sie filtern möchten.
Die Liste zeigt nur die Lexika für die gewählte Sprache.
Herunterladen von Lexika mithilfe der KonsoleIm folgenden Verfahren wird beschrieben, wie Sie ein Lexikon oder mehrere Lexika herunterladen können.Sie können Lexikoneinträge in der Datei hinzufügen, entfernen oder ändern und sie anschließend wiederhochladen, damit Ihr Lexikon auf dem neuesten Stand bleibt.
So laden Sie ein Lexikon oder mehrere Lexika herunter
1. Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die Amazon Polly-Konsole unterhttps://console.aws.amazon.com/polly/.
2. Wählen Sie die Registerkarte Lexicons aus.3. Wählen Sie das Lexikon oder die Lexika, die Sie herunterladen möchten.
a. Wählen Sie den Namen aus der Liste, um ein einzelnes Lexikon herunterzuladen.
138
Amazon Polly EntwicklerhandbuchLöschen eines Lexikons mithilfe der Konsole
b. Um mehrere Lexika als einzelne komprimierte Archivdatei herunterzuladen, aktivieren Sie dasKontrollkästchen neben den Einträgen in der Liste, die Sie herunterladen möchten.
4. Wählen Sie Herunterladen aus.5. Öffnen Sie den Ordner, aus dem Sie das Lexikon herunterladen möchten.6. Wählen Sie Save aus.
Löschen eines Lexikons mithilfe der KonsoleSo löschen Sie ein Lexikon
Im folgenden Verfahren wird beschrieben, wie Sie ein Lexikon löschen können. Nach dem Löschen desLexikons müssen Sie es wieder hinzufügen, bevor Sie es erneut verwenden können. Sie können einLexikon oder mehrere Lexika gleichzeitig löschen, indem Sie die Kontrollkästchen neben den einzelnenLexika aktivieren.
1. Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die Amazon Polly-Konsole unterhttps://console.aws.amazon.com/polly/.
2. Wählen Sie die Registerkarte Lexicons aus.3. Wählen Sie ein Lexikon oder mehrere zu löschende Lexika aus der Liste, die Sie löschen möchten.4. Wählen Sie Delete.5. Wählen Sie Delete zum Entfernen des Lexikons aus der Region oder Cancel, um es beizubehalten.
Verwalten von Lexika mithilfe der AWS CLIDie folgenden Themen behandeln die AWS CLI-Befehle, die zum Verwalten Ihrer Aussprachelexikabenötigt werden.
Themen• Verwenden des PutLexicon-Vorgangs (p. 139)• Verwenden des GetLexicon-Vorgangs (p. 144)• Verwenden des ListLexicons-Vorgangs (p. 145)• Verwenden des DeleteLexicon-Vorgangs (p. 145)
Verwenden des PutLexicon-VorgangsMit Amazon Polly können Sie PutLexicon (p. 211) verwenden, um Aussprachelexika in einer bestimmtenAWS-Region für Ihr Konto zu speichern. Anschließend können Sie eine oder mehrere dieser gespeichertenLexika in Ihrer SynthesizeSpeech (p. 219)-Anforderung angeben, die Sie anwenden möchten, bevorder Dienst mit der synthetischen Sprache beginnt. Weitere Informationen finden Sie unter Verwalten vonLexika (p. 135).
In diesem Abschnitt werden Beispiele für Lexika und Schritt-für-Schritt-Anweisungen zum Speichern undTesten der Lexika bereitgestellt.
Note
Diese Lexika müssen mit der Angabe zur W3C-Empfehlung des Aussprachelexikonsübereinstimmen. Weitere Informationen dazu finden Sie auf der W3C-Website unter Angaben zumAussprachelexikon (PLS) Version 1.0.
139
Amazon Polly EntwicklerhandbuchPutLexicon
Beispiel 1: Lexikon mit einem LexemErwägen Sie das folgende W3C-PLS-konforme Lexikon.
<?xml version="1.0" encoding="UTF-8"?><lexicon version="1.0" xmlns="http://www.w3.org/2005/01/pronunciation-lexicon" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd" alphabet="ipa" xml:lang="en-US"> <lexeme> <grapheme>W3C</grapheme> <alias>World Wide Web Consortium</alias> </lexeme></lexicon>
Beachten Sie Folgendes:
• Im <lexicon>-Element werden die folgenden zwei Attribute angegeben:• Das xml:lang-Attribut gibt den Sprachcode an en-US, auf den das Lexikon angewendet wird. In
Amazon Polly können Sie dieses Beispiel-Lexikon verwenden, wenn die im SynthesizeSpeech-Aufruf verwendete Stimme den denselben Sprachcode (en-US) hat.
Note
Sie können den DescribeVoices-Vorgang verwenden, um nach dem mit einer Stimmeverknüpften Sprachcode zu suchen.
• Das alphabet-Attribut gibt IPA an, das heißt, das international phonetische Alphabet (IPA) wird für
die Aussprache verwendet. Das IPA ist eines der Alphabete für das Schreiben von Aussprachen.Amazon Polly unterstützt außerdem das Extended Speech Assessment Methods Phonetic Alphabet(X-SAMPA).
• Das <lexeme>-Element beschreibt die Zuordnung zwischen <grapheme> (d. h. Textdarstellung des
Wortes) und <alias>.
Führen Sie zum Testen dieses Lexikons folgende Schritte aus:
1. Speichern Sie das Lexikon unter dem Namen example.pls.2. Führen Sie den put-lexicon AWS CLI-Befehl aus, um das Lexikon (mit dem Namen w3c) in der
Region us-east-2 zu speichern.
aws polly put-lexicon \--name w3c \--content file://example.pls
3. Führen Sie den synthesize-speech-Befehl aus, um den Beispieltext synthetisch in einem Audio-Stream (speech.mp3) zu bilden, und geben Sie den optionalenlexicon-name-Parameter an.
aws polly synthesize-speech \--text 'W3C is a Consortium' \--voice-id Joanna \--output-format mp3 \
140
Amazon Polly EntwicklerhandbuchPutLexicon
--lexicon-names="w3c" \speech.mp3
4. Geben Sie die resultierende speech.mp3-Datei wieder und beachten Sie, dass das Wort W3C in demText durch World Wide Web Consortium ersetzt wird.
Im vorherigen Beispiel-Lexikon wird ein Alias verwendet. Das im Lexikon erwähnte IPA-Alphabet wird nichtverwendet. Das folgende Lexikon gibt eine phonetische Aussprache über das <phoneme>-Element mitdem IPA-Alphabet an.
<?xml version="1.0" encoding="UTF-8"?><lexicon version="1.0" xmlns="http://www.w3.org/2005/01/pronunciation-lexicon" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd" alphabet="ipa" xml:lang="en-US"> <lexeme> <grapheme>pecan</grapheme> <phoneme>p##k##n</phoneme> </lexeme></lexicon>
Führen Sie zum Testen dieses Lexikons die gleichen Schritte aus. Stellen Sie sicher, dass Sie Eingabetextangeben, in dem das Wort „Pecan“ enthalten ist (z. B. „Pecan Pie ist köstlich“).
Beispiel 2: Lexikon mit mehreren LexemenIn diesem Beispiel wird das im Lexikon angegebene Lexem nur auf den synthetischen Eingabetextangewendet. Erwägen Sie das folgende Lexikon:
<?xml version="1.0" encoding="UTF-8"?><lexicon version="1.0" xmlns="http://www.w3.org/2005/01/pronunciation-lexicon" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd" alphabet="ipa" xml:lang="en-US">
<lexeme> <grapheme>W3C</grapheme> <alias>World Wide Web Consortium</alias> </lexeme> <lexeme> <grapheme>W3C</grapheme> <alias>WWW Consortium</alias> </lexeme> <lexeme> <grapheme>Consortium</grapheme> <alias>Community</alias> </lexeme></lexicon>
Das Lexikon gibt drei Lexeme an, von denen zwei einen Alias für das Graphem W3C folgendermaßendefinieren:
• Die erste <lexeme>-Element definiert einen Alias (World Wide Web Consortium).• Das zweite <lexeme> definierte einen alternativen Alias (WWW Consortium).
141
Amazon Polly EntwicklerhandbuchPutLexicon
Amazon Polly verwendet die erste Ersetzung für ein in einem Lexikon angegebenes Graphem.
Das dritte <lexeme> definiert eine Ersetzung (Community) für das Wort Consortium.
Testen wir zunächst dieses Lexikon. Nehmen wir an, Sie synthetisieren den folgenden Beispieltext in eineAudiodatei (speech.mp3) und geben das Lexikon in einem Aufruf an SynthesizeSpeech an.
The W3C is a Consortium
SynthesizeSpeech wendet das Lexikon zunächst folgendermaßen an:
• Wie bei dem ersten Lexem wird das Wort W3C in World Wide Web Consortium geändert. Der geänderteText wird wie folgt angezeigt:
The World Wide Web Consortium is a Consortium
• Der im dritten Lexem angegebene Alias wird nur auf das Wort Consortium angewendet, das Teil desursprünglichen Texts war, sodass sich folgender Text ergibt:
The World Wide Web Consortium is a Community.
Sie können dies mithilfe der AWS CLI folgendermaßen testen:
1. Speichern Sie das Lexikon unter dem Namen example.pls.2. Führen Sie den put-lexicon-Befehl aus, um das Lexikon mit dem Namen w3c in der Region us-
east-2 zu speichern.
aws polly put-lexicon \--name w3c \--content file://example.pls
3. Führen Sie den list-lexicons-Befehl aus, um sicherzustellen, dass das w3c-Lexikon in der Listeder Lexika zurückgegeben wird.
aws polly list-lexicons
4. Führen Sie den synthesize-speech-Befehl aus, um den Beispieltext synthetisch in einer Audiodatei(speech.mp3) zu bilden, und geben Sie den optionalen lexicon-name-Parameter an.
aws polly synthesize-speech \--text 'W3C is a Consortium' \--voice-id Joanna \--output-format mp3 \--lexicon-names="w3c" \speech.mp3
5. Geben Sie die speech.mp3-Datei wieder, um sicherzustellen, dass die synthetische Sprache dieTextänderungen widerspiegelt.
Beispiel 3: Angeben mehrerer LexikaBei einem Aufruf an SynthesizeSpeech können Sie mehrere Lexika angeben. In diesem Fallüberschreibt das erste angegeben Lexikon (von links nach rechts) alle vorausgehenden Lexika.
Erwägen Sie die folgenden zwei Lexika. Beachten Sie, dass jedes Lexikon verschiedene Aliase fürdasselbe Graphem W3C beschreibt.
142
Amazon Polly EntwicklerhandbuchPutLexicon
• Lexikon 1:w3c.pls
<?xml version="1.0" encoding="UTF-8"?><lexicon version="1.0" xmlns="http://www.w3.org/2005/01/pronunciation-lexicon" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd" alphabet="ipa" xml:lang="en-US"> <lexeme> <grapheme>W3C</grapheme> <alias>World Wide Web Consortium</alias> </lexeme></lexicon>
• Lexikon 2:w3cAlternate.pls
<?xml version="1.0" encoding="UTF-8"?><lexicon version="1.0" xmlns="http://www.w3.org/2005/01/pronunciation-lexicon" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd" alphabet="ipa" xml:lang="en-US">
<lexeme> <grapheme>W3C</grapheme> <alias>WWW Consortium</alias> </lexeme></lexicon>
Nehmen wir an, Sie speichern diese Lexika als w3c und w3cAlternate. Wenn Sie Lexika in derReihenfolge (w3c gefolgt von w3cAlternate) in einem SynthesizeSpeech-Aufruf angeben, hat derim ersten Lexikon für W3C angegebene Alias Vorrang vor dem im zweiten Lexikon angegebenen Alias.Führen Sie zum Testen der Lexika folgende Schritte aus:
1. Speichern Sie die Lexika lokal als w3c.pls und w3cAlternate.pls..2. Laden Sie diese Lexika mithilfe des put-lexicon-AWS CLI-Befehls hoch.
• Laden Sie das w3c.pls-Lexikon hoch und speichern Sie es als w3c.
aws polly put-lexicon \--name w3c \--content file://w3c.pls
• Laden Sie das w3cAlternate.pls-Lexikon als Dienst als w3cAlternate hoch.
aws polly put-lexicon \--name w3cAlternate \--content file://w3cAlternate.pls
3. Führen Sie den synthesize-speech-Befehl aus, um den Beispieltext synthetisch in einemAudio-Stream (speech.mp3) zu bilden, und geben Sie beide Lexika mithilfe des lexicon-name-Parameters an.
aws polly synthesize-speech \--text 'PLS is a W3C recommendation' \--voice-id Joanna \--output-format mp3 \
143
Amazon Polly EntwicklerhandbuchGetLexicon
--lexicon-names '["w3c","w3cAlternative"]' \speech.mp3
4. Testen der speech.mp3 Ergebnisse Sie sollte wie folgt gelesen werden:
PLS is a World Wide Web Consortium recommendation
Zusätzliche Codebeispiele für die PutLexicon-API• Java-Beispiele: PutLexicon (p. 155)• Python (Boto3)-Beispiel: PutLexicon (p. 161)
Verwenden des GetLexicon-VorgangsAmazon Polly stellt zum Abrufen des Inhalts eines Aussprachelexikon den GetLexicon (p. 203)-API-Vorgang bereit, den Sie in Ihrem Konto in einer bestimmten Region gespeichert haben.
Der folgende get-lexicon-AWS CLI-Befehl ruft den Inhalt des example-Lexikons ab.
aws polly get-lexicon \--name example
Falls Sie noch kein Lexikon in Ihrem Konto gespeichert haben, können Sie den PutLexicon-Vorgangverwenden, um eines zu speichern. Weitere Informationen finden Sie unter Verwenden des PutLexicon-Vorgangs (p. 139).
Im Folgenden wird eine Beispielantwort dargestellt: Zusätzlich zum Lexikoninhalt gibt die Antwort denCode der Metadaten zurück, z. B. den Sprachcode, auf den das Lexikon angewendet wird, die Anzahl derim Lexikon definierten Lexeme, den Amazon Resource Name (ARN) der Ressource und die Größe desLexikons in Byte. Der LastModified-Wert ist ein Unix-Zeitstempel.
{ "Lexicon": { "Content": "lexicon content in plain text PLS format", "Name": "example" }, "LexiconAttributes": { "LanguageCode": "en-US", "LastModified": 1474222543.989, "Alphabet": "ipa", "LexemesCount": 1, "LexiconArn": "arn:aws:polly:us-east-2:account-id:lexicon/example", "Size": 495 }}
Zusätzliche Codebeispiele für die GetLexicon-API• Java-Beispiele: GetLexicon (p. 154)• Python (Boto3)-Beispiel: GetLexicon (p. 160)
144
Amazon Polly EntwicklerhandbuchListLexicons
Verwenden des ListLexicons-VorgangsAmazon Polly stellt den ListLexicons (p. 207)-API-Vorgang bereit, mit dem Sie die Liste derAussprachelexika in Ihrem Konto in einer bestimmten AWS-Region abrufen können. Mithilfe des folgendenAWS CLI-Aufrufs werden die Lexika in Ihrem Konto in der Region us-east-2 aufgelistet.
aws polly list-lexicons
Es folgt ein Beispiel für eine Antwort mit zwei Lexika mit den Namen w3c und tomato. Für jedes Lexikongibt die Antwort gibt Metadaten zurück, wie z. B. den Sprachcode, auf das das Lexikon angewendet wird,die Anzahl der im Lexikon definierten Lexeme, die Größe in Byte usw. Der Sprachcode beschreibt eineSprache und ein Gebietsschema, auf die die im Lexikon definierten Lexeme angewendet werden.
{ "Lexicons": [ { "Attributes": { "LanguageCode": "en-US", "LastModified": 1474222543.989, "Alphabet": "ipa", "LexemesCount": 1, "LexiconArn": "arn:aws:polly:aws-region:account-id:lexicon/w3c", "Size": 495 }, "Name": "w3c" }, { "Attributes": { "LanguageCode": "en-US", "LastModified": 1473099290.858, "Alphabet": "ipa", "LexemesCount": 1, "LexiconArn": "arn:aws:polly:aws-region:account-id:lexicon/tomato", "Size": 645 }, "Name": "tomato" } ]}
Zusätzliche Codebeispiele für die ListLexicon-API• Java-Beispiele: ListLexicons (p. 154)• Python (Boto3)-Beispiel: ListLexicon (p. 161)
Verwenden des DeleteLexicon-VorgangsAmazon Polly stellt den DeleteLexicon (p. 198)-API-Vorgang zum Löschen eines Aussprachelexikonsaus einer bestimmten AWS-Region in Ihrem Konto bereit. Die folgende AWS CLI löscht das angegebeneLexikon.
Das folgende AWS CLI-Beispiel ist für Unix, Linux und macOS formatiert. Für Windows ersetzen Sie denumgekehrten Schrägstrich (\), das Unix-Fortsetzungszeichen, am Ende der jeweiligen Zeile durch einCaretzeichen (^) und verwenden vollständige Anführungszeichen (") um den Eingabetext und einfacheAnführungszeichen (') für innere Tags.
aws polly delete-lexicon \
145
Amazon Polly EntwicklerhandbuchDeleteLexicon
--name example
Zusätzliche Codebeispiele für die DeleteLexicon-API• Java-Beispiele: DeleteLexicon (p. 153)• Python (Boto3)-Beispiel: DeleteLexicon (p. 159)
146
Amazon Polly EntwicklerhandbuchEinrichten der IAM-Richtlinie für die asynchrone Synthese
Lange Audiodateien erstellenUm TTS-Dateien für große Textpassagen zu erstellen, verwenden Sie die Funktionalität der asynchronenSynthese von Amazon Polly. Diese verwendet die drei SpeechSynthesisTask-APIs:
• StartSpeechSynthesisTask: beginnt eine neue Syntheseaufgabe.• GetSpeechSynthesisTask: gibt Details zurück zu einer zuvor übermittelten Syntheseaufgabe.• ListSpeechSynthesisTasks: listet alle übermittelten Syntheseaufgaben auf.
Die SynthesizeSpeech-Operation erzeugt nahezu in Echtzeit Audiomaterial mit meist relativ geringerLatenz. Aus diesem Grund kann die Operation nur 3000 Zeichen generieren.
Die asynchrone Synthesefunktion von Amazon Polly überwindet die Herausforderung derVerarbeitung eines großen Textdokuments, indem sie sowohl die Synthese als auch die Rückgabedes Dokuments ändert. Wenn eine Syntheseanfrage gestellt wird, indem ein Eingabetext mit demBefehl StartSpeechSynthesisTask gesendet wird, stellt Amazon Polly die Anforderungen in eineWarteschlange und verarbeitet sie dann asynchron im Hintergrund, sobald die Systemressourcen verfügbarsind. Amazon Polly lädt dann den resultierenden Sprach- oder Sprachmarkierungs-Stream direkt inIhren (erforderlichen) Amazon Simple Storage Service (Amazon S3)-Bucket und informiert Sie über dieVerfügbarkeit der abgeschlossenen Datei über Ihr (optionales) SNS-Thema.
Auf diese Weise steht die gesamte Funktionalität mit Ausnahme der Verarbeitung in Echtzeit für Texte vonbis zu 100 000 kostenpflichtigen Zeichen (bzw. 200 000 Zeichen insgesamt) zur Verfügung.
Um ein Dokument mit dieser Methode zu erstellen, benötigen Sie einen beschreibbaren Amazon S3-Bucket, in dem die Audiodatei gespeichert werden kann. Sie können benachrichtigt werden, wenn dasgenerierte Audiomaterial bereit ist, indem Sie eine optionale SNS-Themenkennung angeben. Wenn dieSyntheseaufgabe abgeschlossen ist, veröffentlicht Amazon Polly eine Nachricht unter diesem Thema.Diese Meldung kann auch nützliche Fehlerinformationen enthalten, wenn die Syntheseaufgabe nichterfolgreich war. Stellen Sie zu diesem Zweck sicher, dass der Benutzer, der die Syntheseaufgabe erstellt,auch im SNS-Thema veröffentlichen kann. Weitere Informationen zum Erstellen und Abonnieren einesSNS-Themas finden Sie in der Amazon SNS-Dokumentation.
Verschlüsselung
Sie können die Ausgabedatei in verschlüsselter Form in Ihrem S3-Bucket speichern. Dazu aktivieren Siedie Verschlüsselung des Amazon S3-Buckets, die eine der stärksten Blockverschlüsselungen verwendet,die zur Verfügung stehen, nämlich 256-Bit Advanced Encryption Standard (AES-256).
Themen• Einrichten der IAM-Richtlinie für die asynchrone Synthese (p. 147)• Lange Audiodateien erstellen (Konsole) (p. 148)• Lange Audiodateien erstellen (CLI) (p. 149)
Einrichten der IAM-Richtlinie für die asynchroneSynthese
Damit Sie die Funktionalität der asynchronen Synthese nutzen können, benötigen Sie eine IAM-Richtlinie,die Folgendes zulässt:
147
Amazon Polly EntwicklerhandbuchLange Audiodateien erstellen (Konsole)
• Nutzung neuer Amazon Polly-Operationen• Schreiben in den ausgegebenen S3-Bucket• Veröffentlichung im Status des SNS-Themas [optional]
Mit der folgenden Richtlinie werden nur die für die asynchrone Synthese erforderlichen Berechtigungenerteilt. Die Richtlinie kann mit dem IAM-Benutzer verknüpft werden.
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "polly:StartSpeechSynthesisTask", "polly:GetSpeechSynthesisTask", "polly:ListSpeechSynthesisTasks" ], "Resource": "*" }, { "Effect": "Allow", "Action": "s3:PutObject", "Resource": "arn:aws:s3:::bucket-name/*" }, { "Effect": "Allow", "Action": "sns:Publish", "Resource": "arn:aws:sns:region:account:topic" } ]}
Weitere Informationen zur Verwendung von IAM-Richtlinien mit Amazon Polly und der Verknüpfung vonIAM-Richtlinien mit IAM-Benutzern finden Sie unter Zugangskontrolle (p. 234).
Lange Audiodateien erstellen (Konsole)Mit der Amazon Polly-Konsole können Sie lange Sprachausgaben erstellen, die die gleiche Funktionalitätbesitzen wie die AWS CLI. Dies erfolgt wie jede andere Synthese über die Registerkarte Text-to-Speech.
Die weiteren Funktionen der asynchronen Synthese sind ebenfalls über die Konsole verfügbar. DieRegisterkarte S3 synthesis tasks (S3-Syntheseaufgabe) zeigt die ListSpeechSynthesisTasks-Funktionalität, die alle im S3-Bucket gespeicherten Aufgaben anzeigt und es Ihnen ermöglicht, diese wennnötig zu filtern. Durch Klicken auf eine bestimmte einzelne Aufgabe werden Details angezeigt, die dieGetSpeechSynthesisTask-Funktionalität abbilden.
So generieren Sie einen großen Text mithilfe der Amazon Polly-Konsole
1. Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die Amazon Polly-Konsole unterhttps://console.aws.amazon.com/polly/.
2. Wählen Sie die Registerkarte Text-to-Speech.3. Geben Sie auf der Registerkarte Plain Text (Klartext) oder SSML Ihren Text in das Eingabefeld ein
oder kopieren Sie ihn in das Eingabefeld.4. Wählen Sie Sprache, Region und Stimme für Ihren Text.5. Wählen Sie Synthesize to S3 (Zu S3 generieren).
148
Amazon Polly EntwicklerhandbuchLange Audiodateien erstellen (CLI)
Note
Die Optionen Download (Herunterladen) und Listen to Speech (Sprache anhören) werdenausgegraut, wenn die Textlänge oberhalb des Limits für die Echtzeit-SynthesizeSpeech-Operation liegt.
6. Wenn Sie die asynchrone Synthese zuvor noch nicht verwendet haben, wird das Feld Change S3synthesis task settings (S3-Syntheseaufgabeneinstellungen ändern) angezeigt, damit Sie einenSpeicherort für die Ausgabedatei wählen können.
a. Geben Sie den Namen des Ziel-Amazon S3-Buckets ein.b. Geben Sie optional den Präfixschlüssel der Ausgabe ein.
Note
Der ausgegebene S3-Bucket muss beschreibbar sein.c. Wenn Sie benachrichtigt werden möchten, sobald die Syntheseaufgabe abgeschlossen ist, geben
Sie die optionale SNS-Themenkennung ein.
Note
Der SNS muss für die Veröffentlichung durch den aktuellen Konsolenbenutzer geöffnetsein, um diese Option nutzen zu können. Weitere Informationen finden Sie unter AmazonSimple Notification Service (SNS).
d. Wählen Sie Synthesize (Generieren).
So ändern Sie die Einstellungen der S3-Syntheseaufgabe
1. Klicken Sie in der Konsole auf der Registerkarte Test-to-Speech auf Change S3 task settings (S3-Aufgabeneinstellungen ändern).
2. Nehmen Sie die gewünschten Änderungen an dem Namen des Ziel-Amazon S3-Buckets, deszugehörigen Präfixschlüssels oder der SNS-Themenkennung vor.
3. Wählen Sie Synthesize (Generieren), wenn Sie fertig sind.
So rufen Sie Informationen zu Ihren Sprachsyntheseaufgaben ab
1. Wählen Sie in der Konsole die Registerkarte S3 Synthesis Tasks (S3-Syntheseaufgaben) aus.2. Die Aufgaben werden nach Datum sortiert angezeigt. Um die Aufgaben zu filtern, wählen Sie Filter
(Filtern) und wählen Sie dann, welcher Filter verwendet werden soll.3. Um die Details einer bestimmten Aufgabe anzuzeigen, wählen Sie die verknüpfte Task ID (Aufgaben-
ID).
Lange Audiodateien erstellen (CLI)Die Funktionalität der asynchronen Synthese von Amazon Polly verwendet drei SpeechSynthesisTask-APIs für das Arbeiten mit großen Textmengen:
• StartSpeechSynthesisTask: beginnt eine neue Syntheseaufgabe.• GetSpeechSynthesisTask: gibt Details zurück zu einer zuvor übermittelten Syntheseaufgabe.• ListSpeechSynthesisTasks: listet alle übermittelten Syntheseaufgaben auf.
Generieren von großen Textmengen (StartSpeechSynthesisTask)
149
Amazon Polly EntwicklerhandbuchLange Audiodateien erstellen (CLI)
Wenn Sie eine Audiodatei erstellen möchten, die größer ist als eine, die Sie mit der EchtzeitfunktionSynthesizeSpeech erstellen können, verwenden Sie die StartSpeechSynthesisTask-Operation.Zusätzlich zu den Argumenten, die für die SynthesizeSpeech-Operation benötigt werden, erfordertStartSpeechSynthesisTask außerdem den Namen eines Amazon S3-Buckets. Zwei weitere optionaleArgumente sind ebenfalls verfügbar: ein Schlüsselpräfix für die Ausgabedatei und der ARN für ein SNS-Thema, wenn Sie eine Statusbenachrichtigung über die Aufgabe erhalten möchten.
• OutputS3BucketName: der Name des Amazon S3-Buckets, in den die Synthese hochgeladen werdensoll. Dieser Bucket muss sich in der gleichen Region befinden wie der Amazon Polly-Service. Zusätzlichsollte der IAM-Benutzer, der für den Anruf verwendet wird, Zugriff auf den Bucket haben. [Erforderlich]
• OutputS3KeyPrefix: Schlüsselpräfix für die Ausgabedatei. Verwenden Sie diesen Parameter, wennSie die Ausgabesprachdatei in einem benutzerdefinierten verzeichnisähnlichen Schlüssel in IhremBucket speichern möchten. [Optional]
• SnsTopicArn: der SNS-Thema-ARN, den Sie verwenden können, wenn Sie über den Status derAufgabe informiert werden möchten. Dieses SNS-Thema muss sich in der gleichen Region befinden wieder Amazon Polly-Service. Zusätzlich sollte der IAM-Benutzer, der für den Aufruf verwendet wird, Zugriffauf das Thema haben. [Optional]
Das folgende Beispiel kann verwendet werden, um den start-speech-synthesis-task-AWS-CLI-Befehl in der Region USA Ost (Ohio) auszuführen:
Das folgende AWS CLI-Beispiel ist für Unix, Linux und macOS formatiert. Für Windows ersetzen Sie denumgekehrten Schrägstrich (\), das Unix-Fortsetzungszeichen, am Ende der jeweiligen Zeile durch einCaretzeichen (^) und verwenden vollständige Anführungszeichen (") um den Eingabetext und einfacheAnführungszeichen (') für innere Tags.
aws polly start-speech-synthesis-task \ --region us-east-2 \ --endpoint-url "https://polly.us-east-2.amazonaws.com/" \ --output-format mp3 \ --output-s3-bucket-name your-bucket-name \ --output-s3-key-prefix optional/prefix/path/file \ --voice-id Joanna \ --text file://text_file.txt
Dies führt zu einer Antwort, die ähnlich aussieht wie diese:
"SynthesisTask": { "OutputFormat": "mp3", "OutputUri": "https://s3.us-east-2.amazonaws.com/your-bucket-name/optional/prefix/path/file.<task_id>.mp3", "TextType": "text", "CreationTime": [..], "RequestCharacters": [..], "TaskStatus": "scheduled", "TaskId": [task_id], "VoiceId": "Joanna" }
Die start-speech-synthesis-task-Operation gibt mehrere neue Felder zurück:
• OutputUri: der Speicherort Ihrer Ausgabesprachdatei.• TaskId: eine eindeutige Kennung für die von Amazon Polly generierte Sprachsyntheseaufgabe.• CreationTime: Zeitstempel für den Zeitpunkt, zu dem die Aufgabe ursprünglich übermittelt wurde.• RequestCharacters: die Anzahl kostenpflichtiger Zeichen in der Aufgabe.
150
Amazon Polly EntwicklerhandbuchLange Audiodateien erstellen (CLI)
• TaskStatus: gibt Auskunft über den Status der übermittelten Aufgabe.
Sobald Ihre Aufgabe übermittelt wurde, zeigt der ursprüngliche Status scheduled an. WennAmazon Polly die Bearbeitung der Aufgabe beginnt, ändert sich der Status in inProgressund später in completed oder failed. Wenn die Aufgabe fehlschlägt, wird beim Aufrufen derGetSpeechSynthesisTask-Operation oder der ListSpeechSynthesisTasks-Operation eine Fehlermeldungzurückgegeben.
Wenn die Aufgabe abgeschlossen ist, wird die Sprachdatei am angegebenen Speicherort in OutputUriverfügbar.
Informationen zu Ihren Sprachsyntheseaufgaben abrufen
Informationen zu einer Aufgabe, wie z. B. Fehler, Status usw., erhalten Sie mithilfe der Verwendung derGetSpeechSynthesisTask-Operation. Zu diesem Zweck benötigen Sie die task-id, die von derStartSpeechSynthesisTask zurückgegeben wird.
Das folgende Beispiel kann verwendet werden, um den AWS-CLI-Befehl get-speech-synthesis-taskauszuführen:
aws polly get-speech-synthesis-task \--region us-east-2 \--endpoint-url "https:// polly.us-east-2.amazonaws.com/" \--task-id task identifier
Sie können auch alle Sprachsynthese-Aufgaben auflisten, die Sie in der aktuellen Region ausgeführthaben. Verwenden Sie dazu die ListSpeechSynthesisTasks-Operation.
Das folgende Beispiel kann verwendet werden, um den AWS-CLI-Befehl list-speech-synthesis-tasks auszuführen:
aws polly list-speech-synthesis-tasks \--region us-east-2 \--endpoint-url "https:// polly.us-east-2.amazonaws.com/"
151
Amazon Polly EntwicklerhandbuchBeispiel-Code
Code und AnwendungsbeispieleIn diesem Abschnitt finden Sie Beispiel-Codes und Beispielanwendungen, mit deren Hilfe Sie sich mitAmazon Polly vertraut machen können.
Themen• Beispiel-Code (p. 152)• Beispielanwendungen (p. 163)
Das Thema Beispiel-Code enthält Codeausschnitte, die nach Programmiersprachen geordnet und inBeispiele für verschiedene Amazon Polly-Funktionen unterteilt sind. Das Thema Beispielanwendung enthältAnwendungen, die nach Programmiersprache organisiert sind und die unabhängig voneinander zumErkunden von Amazon Polly verwendet werden können.
Wir empfehlen Ihnen, vor der Verwendung dieser Beispiele zunächst den Abschnitt Amazon Polly:Funktionsweise (p. 3) zu lesen und die in Erste Schritte mit Amazon Polly (p. 11) beschriebenen Schrittedurchzuführen.
Beispiel-CodeDieses Thema enthält Codebeispiele für verschiedene Funktionen, die zum Erkunden von Amazon Pollyverwendet werden können.
Beispiel-Code nach Programmiersprache• Java-Beispiele (p. 152)• Python-Beispiele (p. 159)
Java-BeispieleDie folgenden Codebeispiele zeigen, wie Sie mit Java-basierten Anwendungen verschiedene Aufgabenmit Amazon Polly ausführen können. Diese Beispiele sind keine vollständigen Beispiele, können aber ingrößeren Java-Anwendungen enthalten sein, die das AWS SDK for Java verwenden.
Codeausschnitte• DeleteLexicon (p. 153)• DescribeVoices (p. 153)• GetLexicon (p. 154)• ListLexicons (p. 154)• PutLexicon (p. 155)• StartSpeechSynthesisTask (p. 156)• Sprachmarkierungen (p. 157)• SynthesizeSpeech (p. 158)
152
Amazon Polly EntwicklerhandbuchJava-Beispiele
DeleteLexiconDas folgende Java-Codebeispiel zeigt, wie Sie mithilfe von Java-basierten Anwendungen ein bestimmtesin einer AWS-Region gespeichertes Lexikon löschen können. Ein Lexikon, das gelöscht wurde, ist fürdie Sprachsynthese nicht verfügbar und kann auch nicht mit den APIs GetLexicon oder ListLexiconabgerufen werden.
Weitere Informationen zu dieser Operation finden Sie in der Referenz für die API DeleteLexicon.
package com.amazonaws.polly.samples; import com.amazonaws.services.polly.AmazonPolly;import com.amazonaws.services.polly.AmazonPollyClientBuilder;import com.amazonaws.services.polly.model.DeleteLexiconRequest; public class DeleteLexiconSample { private String LEXICON_NAME = "SampleLexicon"; AmazonPolly client = AmazonPollyClientBuilder.defaultClient(); public void deleteLexicon() { DeleteLexiconRequest deleteLexiconRequest = new DeleteLexiconRequest().withName(LEXICON_NAME); try { client.deleteLexicon(deleteLexiconRequest); } catch (Exception e) { System.err.println("Exception caught: " + e); } }}
DescribeVoicesDas folgende Java-Codebeispiel zeigt, wie mithilfe von Java-basierten Anwendungen eine Liste derStimmen erstellt wird, die für die Anforderung der Sprachsynthese verfügbar sind. Sie können optionaleinen Sprachcode angeben, um die verfügbaren Stimmen zu filtern. Wenn Sie beispielsweise en-USangeben, gibt der Vorgang eine Liste aller verfügbaren US-englischen Stimmen zurück.
Weitere Informationen zu dieser Operation finden Sie in der Referenz für die API DescribeVoices.
package com.amazonaws.polly.samples; import com.amazonaws.services.polly.AmazonPolly;import com.amazonaws.services.polly.AmazonPollyClientBuilder;import com.amazonaws.services.polly.model.DescribeVoicesRequest;import com.amazonaws.services.polly.model.DescribeVoicesResult; public class DescribeVoicesSample { AmazonPolly client = AmazonPollyClientBuilder.defaultClient(); public void describeVoices() { DescribeVoicesRequest allVoicesRequest = new DescribeVoicesRequest(); DescribeVoicesRequest enUsVoicesRequest = new DescribeVoicesRequest().withLanguageCode("en-US"); try { String nextToken; do { DescribeVoicesResult allVoicesResult = client.describeVoices(allVoicesRequest);
153
Amazon Polly EntwicklerhandbuchJava-Beispiele
nextToken = allVoicesResult.getNextToken(); allVoicesRequest.setNextToken(nextToken); System.out.println("All voices: " + allVoicesResult.getVoices()); } while (nextToken != null); do { DescribeVoicesResult enUsVoicesResult = client.describeVoices(enUsVoicesRequest); nextToken = enUsVoicesResult.getNextToken(); enUsVoicesRequest.setNextToken(nextToken); System.out.println("en-US voices: " + enUsVoicesResult.getVoices()); } while (nextToken != null); } catch (Exception e) { System.err.println("Exception caught: " + e); } }}
GetLexiconDas folgende Java-Codebeispiel zeigt, wie Sie mithilfe von Java-basierten Anwendungen den Inhalt einesbestimmten in einer AWS-Region gespeicherten Aussprachelexikons erstellen können.
Weitere Informationen zu dieser Operation finden Sie in der Referenz für die API GetLexicon.
package com.amazonaws.polly.samples; import com.amazonaws.services.polly.AmazonPolly;import com.amazonaws.services.polly.AmazonPollyClientBuilder;import com.amazonaws.services.polly.model.GetLexiconRequest;import com.amazonaws.services.polly.model.GetLexiconResult; public class GetLexiconSample { private String LEXICON_NAME = "SampleLexicon"; AmazonPolly client = AmazonPollyClientBuilder.defaultClient(); public void getLexicon() { GetLexiconRequest getLexiconRequest = new GetLexiconRequest().withName(LEXICON_NAME); try { GetLexiconResult getLexiconResult = client.getLexicon(getLexiconRequest); System.out.println("Lexicon: " + getLexiconResult.getLexicon()); } catch (Exception e) { System.err.println("Exception caught: " + e); } }}
ListLexiconsDas folgende Java-Codebeispiel zeigt, wie Sie mithilfe von Java-basierten Anwendungen eine Liste der ineiner AWS-Region gespeicherten Aussprachelexika erstellen können.
Weitere Informationen zu dieser Operation finden Sie in der Referenz für die API ListLexicons.
package com.amazonaws.polly.samples;
154
Amazon Polly EntwicklerhandbuchJava-Beispiele
import com.amazonaws.services.polly.AmazonPolly;import com.amazonaws.services.polly.AmazonPollyClientBuilder;import com.amazonaws.services.polly.model.LexiconAttributes;import com.amazonaws.services.polly.model.LexiconDescription;import com.amazonaws.services.polly.model.ListLexiconsRequest;import com.amazonaws.services.polly.model.ListLexiconsResult; public class ListLexiconsSample { AmazonPolly client = AmazonPollyClientBuilder.defaultClient(); public void listLexicons() { ListLexiconsRequest listLexiconsRequest = new ListLexiconsRequest(); try { String nextToken; do { ListLexiconsResult listLexiconsResult = client.listLexicons(listLexiconsRequest); nextToken = listLexiconsResult.getNextToken(); listLexiconsRequest.setNextToken(nextToken); for (LexiconDescription lexiconDescription : listLexiconsResult.getLexicons()) { LexiconAttributes attributes = lexiconDescription.getAttributes(); System.out.println("Name: " + lexiconDescription.getName() + ", Alphabet: " + attributes.getAlphabet() + ", LanguageCode: " + attributes.getLanguageCode() + ", LastModified: " + attributes.getLastModified() + ", LexemesCount: " + attributes.getLexemesCount() + ", LexiconArn: " + attributes.getLexiconArn() + ", Size: " + attributes.getSize()); } } while (nextToken != null); } catch (Exception e) { System.err.println("Exception caught: " + e); } }}
PutLexiconDas folgende Java-Codebeispiel zeigt, wie Java-basierte Anwendungen zum Speichern einesAussprachelexikons in einer AWS-Region verwendet werden.
Weitere Informationen zu dieser Operation finden Sie in der Referenz für die API PutLexicon.
package com.amazonaws.polly.samples; import com.amazonaws.services.polly.AmazonPolly;import com.amazonaws.services.polly.AmazonPollyClientBuilder;import com.amazonaws.services.polly.model.PutLexiconRequest; public class PutLexiconSample { AmazonPolly client = AmazonPollyClientBuilder.defaultClient();
private String LEXICON_CONTENT = "<?xml version=\"1.0\" encoding=\"UTF-8\"?>" + "<lexicon version=\"1.0\" xmlns=\"http://www.w3.org/2005/01/pronunciation-lexicon\" xmlns:xsi=\"http://www.w3.org/2001/XMLSchema-instance\" " + "xsi:schemaLocation=\"http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd\" " + "alphabet=\"ipa\" xml:lang=\"en-US\">" + "<lexeme><grapheme>test1</grapheme><alias>test2</alias></lexeme>" + "</lexicon>";
155
Amazon Polly EntwicklerhandbuchJava-Beispiele
private String LEXICON_NAME = "SampleLexicon"; public void putLexicon() { PutLexiconRequest putLexiconRequest = new PutLexiconRequest() .withContent(LEXICON_CONTENT) .withName(LEXICON_NAME); try { client.putLexicon(putLexiconRequest); } catch (Exception e) { System.err.println("Exception caught: " + e); } }}
StartSpeechSynthesisTaskDas folgende Java-Codebeispiel zeigt, wie auf Java basierende Anwendungen verwendet werden, um einelange Sprachausgabe (bis zu 100 000 kostenpflichtige Zeichen) zu generieren und diese direkt in einemAmazon S3-Bucket zu speichern.
Weitere Informationen finden Sie in der Referenz für API StartSpeechSynthesisTask.
package com.amazonaws.parrot.service.tests.speech.task;
import com.amazonaws.parrot.service.tests.AbstractParrotServiceTest;import com.amazonaws.services.polly.AmazonPolly;import com.amazonaws.services.polly.model.*;import org.awaitility.Duration;
import java.util.concurrent.TimeUnit;
import static org.awaitility.Awaitility.await;
public class StartSpeechSynthesisTaskSample {
private static final int SYNTHESIS_TASK_TIMEOUT_SECONDS = 300; private static final AmazonPolly AMAZON_POLLY_CLIENT = AmazonPollyClientBuilder.defaultClient(); private static final String PLAIN_TEXT = "This is a sample text to be synthesized."; private static final String OUTPUT_FORMAT_MP3 = OutputFormat.Mp3.toString(); private static final String OUTPUT_BUCKET = "synth-books-buckets"; private static final String SNS_TOPIC_ARN = "arn:aws:sns:eu-west-2:561828872312:synthesize-finish-topic"; private static final Duration SYNTHESIS_TASK_POLL_INTERVAL = Duration.FIVE_SECONDS; private static final Duration SYNTHESIS_TASK_POLL_DELAY = Duration.TEN_SECONDS;
public static void main(String... args) { StartSpeechSynthesisTaskRequest request = new StartSpeechSynthesisTaskRequest() .withOutputFormat(OUTPUT_FORMAT_MP3) .withText(PLAIN_TEXT) .withTextType(TextType.Text) .withVoiceId(VoiceId.Amy) .withOutputS3BucketName(OUTPUT_BUCKET) .withSnsTopicArn(SNS_TOPIC_ARN);
StartSpeechSynthesisTaskResult result = AMAZON_POLLY_CLIENT.startSpeechSynthesisTask(request); String taskId = result.getSynthesisTask().getTaskId();
await().with() .pollInterval(SYNTHESIS_TASK_POLL_INTERVAL) .pollDelay(SYNTHESIS_TASK_POLL_DELAY)
156
Amazon Polly EntwicklerhandbuchJava-Beispiele
.atMost(SYNTHESIS_TASK_TIMEOUT_SECONDS, TimeUnit.SECONDS) .until( () -> getSynthesisTaskStatus(taskId).equals(TaskStatus.Completed.toString()) ); }
private static SynthesisTask getSynthesisTask(String taskId) { GetSpeechSynthesisTaskRequest getSpeechSynthesisTaskRequest = new GetSpeechSynthesisTaskRequest() .withTaskId(taskId); GetSpeechSynthesisTaskResult result =AMAZON_POLLY_CLIENT.getSpeechSynthesisTask(getSpeechSynthesisTaskRequest); return result.getSynthesisTask(); }
private static String getSynthesisTaskStatus(String taskId) { GetSpeechSynthesisTaskRequest getSpeechSynthesisTaskRequest = new GetSpeechSynthesisTaskRequest() .withTaskId(taskId); GetSpeechSynthesisTaskResult result =AMAZON_POLLY_CLIENT.getSpeechSynthesisTask(getSpeechSynthesisTaskRequest); return result.getSynthesisTask().getTaskStatus(); }
}
SprachmarkierungenDas folgende Codebeispiel zeigt, wie Java-basierte Anwendungen verwendet werden, umSprachmarkierungen für eingegebenen Text zu synthetisieren. Diese Funktion verwendet dieSynthesizeSpeech API.
Weitere Informationen zur Funktionalität finden Sie unter Sprachmarkierungen (p. 25).
Weitere Informationen zur API finden Sie in der Referenz für die API SynthesizeSpeech.
package com.amazonaws.polly.samples; import com.amazonaws.services.polly.AmazonPolly;import com.amazonaws.services.polly.AmazonPollyClientBuilder;import com.amazonaws.services.polly.model.OutputFormat;import com.amazonaws.services.polly.model.SpeechMarkType;import com.amazonaws.services.polly.model.SynthesizeSpeechRequest;import com.amazonaws.services.polly.model.SynthesizeSpeechResult;import com.amazonaws.services.polly.model.VoiceId; import java.io.File;import java.io.FileOutputStream;import java.io.InputStream; public class SynthesizeSpeechMarksSample { AmazonPolly client = AmazonPollyClientBuilder.defaultClient(); public void synthesizeSpeechMarks() { String outputFileName = "/tmp/speechMarks.json"; SynthesizeSpeechRequest synthesizeSpeechRequest = new SynthesizeSpeechRequest() .withOutputFormat(OutputFormat.Json) .withSpeechMarkTypes(SpeechMarkType.Viseme, SpeechMarkType.Word)
157
Amazon Polly EntwicklerhandbuchJava-Beispiele
.withVoiceId(VoiceId.Joanna) .withText("This is a sample text to be synthesized."); try (FileOutputStream outputStream = new FileOutputStream(new File(outputFileName))) { SynthesizeSpeechResult synthesizeSpeechResult = client.synthesizeSpeech(synthesizeSpeechRequest); byte[] buffer = new byte[2 * 1024]; int readBytes; try (InputStream in = synthesizeSpeechResult.getAudioStream()){ while ((readBytes = in.read(buffer)) > 0) { outputStream.write(buffer, 0, readBytes); } } } catch (Exception e) { System.err.println("Exception caught: " + e); } }}
SynthesizeSpeechDas folgende Java-Codebeispiel zeigt, wie man mit auf Java basierenden Anwendungen Sprachausgabenmit kürzeren Texten für eine echtzeitnahe Verarbeitung generiert.
Weitere Informationen finden Sie in der Referenz für API SynthesizeSpeech.
package com.amazonaws.polly.samples; import com.amazonaws.services.polly.AmazonPolly;import com.amazonaws.services.polly.AmazonPollyClientBuilder;import com.amazonaws.services.polly.model.OutputFormat;import com.amazonaws.services.polly.model.SynthesizeSpeechRequest;import com.amazonaws.services.polly.model.SynthesizeSpeechResult;import com.amazonaws.services.polly.model.VoiceId; import java.io.File;import java.io.FileOutputStream;import java.io.InputStream; public class SynthesizeSpeechSample { AmazonPolly client = AmazonPollyClientBuilder.defaultClient(); public void synthesizeSpeech() { String outputFileName = "/tmp/speech.mp3"; SynthesizeSpeechRequest synthesizeSpeechRequest = new SynthesizeSpeechRequest() .withOutputFormat(OutputFormat.Mp3) .withVoiceId(VoiceId.Joanna) .withText("This is a sample text to be synthesized."); try (FileOutputStream outputStream = new FileOutputStream(new File(outputFileName))) { SynthesizeSpeechResult synthesizeSpeechResult = client.synthesizeSpeech(synthesizeSpeechRequest); byte[] buffer = new byte[2 * 1024]; int readBytes; try (InputStream in = synthesizeSpeechResult.getAudioStream()){ while ((readBytes = in.read(buffer)) > 0) { outputStream.write(buffer, 0, readBytes); } }
158
Amazon Polly EntwicklerhandbuchPython-Beispiele
} catch (Exception e) { System.err.println("Exception caught: " + e); } }}
Python-BeispieleDie folgenden Codebeispiele zeigen, wie Sie mit Python (boto3)-basierten Anwendungen verschiedeneAufgaben mit Amazon Polly ausführen können. Diese Beispiele sind nicht als vollständige Beispielegedacht, können aber in größeren Python-Anwendungen enthalten sein, die die AWS SDK for Python(Boto) verwenden.
Codeausschnitte• DeleteLexicon (p. 159)• GetLexicon (p. 160)• ListLexicon (p. 161)• PutLexicon (p. 161)• StartSpeechSynthesisTask (p. 162)• SynthesizeSpeech (p. 163)
DeleteLexiconIm folgenden Python-Code-Beispiel wird AWS SDK for Python (Boto) verwendet, um ein Lexikon inder in Ihrer lokalen AWS-Konfiguration angegebenen Region zu löschen. In dem Beispiel wird nur dasangegebene Lexikon gelöscht. Dabei werden Sie dazu aufgefordert, zu bestätigen, dass Sie fortfahrenmöchten, bevor das Lexikon tatsächlich gelöscht wird.
Das folgende Codebeispiel verwendet Standard-Anmeldeinformationen in der AWS-SDK-Konfigurationsdatei. Weitere Informationen zum Erstellen der Konfigurationsdatei finden Sie unter Schritt3.1: Einrichten der AWS Command Line Interface (AWS CLI) (p. 14).
Weitere Informationen zu dieser Operation finden Sie in der Referenz für die API DeleteLexicon.
from argparse import ArgumentParserfrom sys import version_info
from boto3 import Sessionfrom botocore.exceptions import BotoCoreError, ClientError
# Define and parse the command line argumentscli = ArgumentParser(description="DeleteLexicon example")cli.add_argument("name", type=str, metavar="LEXICON_NAME")arguments = cli.parse_args()
# Create a client using the credentials and region defined in the adminuser# section of the AWS credentials and configuration filessession = Session(profile_name="adminuser")polly = session.client("polly")
# Request confirmationprompt = input if version_info >= (3, 0) else raw_inputproceed = prompt((u"This will delete the \"{0}\" lexicon," " do you want to proceed? [y,n]: ").format(arguments.name))
159
Amazon Polly EntwicklerhandbuchPython-Beispiele
if proceed in ("y", "Y"): print(u"Deleting {0}...".format(arguments.name))
try: # Request deletion of a lexicon by name response = polly.delete_lexicon(Name=arguments.name) except (BotoCoreError, ClientError) as error: # The service returned an error, exit gracefully cli.error(error)
print("Done.")else: print("Cancelled.")
GetLexiconIm folgenden Python-Code wird AWS SDK for Python (Boto) zum Abrufen aller in einer AWS-Regiongespeicherten Lexika verwendet. In dem Beispiel wird ein Lexikon-Name als Befehlszeilenparameterakzeptiert, er ruft nur das Lexikon ab und gibt dabei den tmp-Pfad an, unter dem es lokal gespeichertwurde.
Das folgende Codebeispiel verwendet Standard-Anmeldeinformationen in der AWS-SDK-Konfigurationsdatei. Weitere Informationen zum Erstellen der Konfigurationsdatei finden Sie unter Schritt3.1: Einrichten der AWS Command Line Interface (AWS CLI) (p. 14).
Weitere Informationen zu dieser Operation finden Sie in der Referenz für die API GetLexicon.
from argparse import ArgumentParserfrom os import pathfrom tempfile import gettempdir
from boto3 import Sessionfrom botocore.exceptions import BotoCoreError, ClientError
# Define and parse the command line argumentscli = ArgumentParser(description="GetLexicon example")cli.add_argument("name", type=str, metavar="LEXICON_NAME")arguments = cli.parse_args()
# Create a client using the credentials and region defined in the adminuser# section of the AWS credentials and configuration filessession = Session(profile_name="adminuser")polly = session.client("polly")
print(u"Fetching {0}...".format(arguments.name))
try: # Fetch lexicon by name response = polly.get_lexicon(Name=arguments.name)except (BotoCoreError, ClientError) as error: # The service returned an error, exit gracefully cli.error(error)
# Get the lexicon data from the responselexicon = response.get("Lexicon", {})
# Access the lexicon's contentif "Content" in lexicon: output = path.join(gettempdir(), u"%s.pls" % arguments.name) print(u"Saving to %s..." % output)
try: # Save the lexicon contents to a local file
160
Amazon Polly EntwicklerhandbuchPython-Beispiele
with open(output, "w") as pls_file: pls_file.write(lexicon["Content"]) except IOError as error: # Could not write to file, exit gracefully cli.error(error)else: # The response didn't contain lexicon data, exit gracefully cli.error("Could not fetch lexicons contents")
print("Done.")
ListLexiconIm folgenden Python-Code-Beispiel wird AWS SDK for Python (Boto) verwendet, um die Lexika in IhremKonto in der Region aufzulisten, die Sie in Ihrer lokalen AWS-Konfiguration angegeben haben. WeitereInformationen zum Erstellen der Konfigurationsdatei finden Sie unter Schritt 3.1: Einrichten der AWSCommand Line Interface (AWS CLI) (p. 14).
Weitere Informationen zu dieser Operation finden Sie in der Referenz für die API ListLexicons.
import sys
from boto3 import Sessionfrom botocore.exceptions import BotoCoreError, ClientError
# Create a client using the credentials and region defined in the adminuser# section of the AWS credentials and configuration filessession = Session(profile_name="adminuser")polly = session.client("polly")
try: # Request the list of available lexicons response = polly.list_lexicons()except (BotoCoreError, ClientError) as error: # The service returned an error, exit gracefully print(error) sys.exit(-1)
# Get the list of lexicons in the responselexicons = response.get("Lexicons", [])print("{0} lexicon(s) found".format(len(lexicons)))
# Output a formatted list of lexicons with some of the attributesfor lexicon in lexicons: print((u" - {Name} ({Attributes[LanguageCode]}), " "{Attributes[LexemesCount]} lexeme(s)").format(**lexicon))
PutLexiconDas folgende Java-Codebeispiel zeigt, wie Python (boto3)-basierte Anwendungen zum Speichern einesAussprachelexikons in einer AWS-Region verwendet werden.
Weitere Informationen zu dieser Operation finden Sie in der Referenz für die API PutLexicon.
Beachten Sie Folgendes:
• Sie müssen den Code aktualisieren, indem Sie einen lokalen Lexikon-Dateinamen und einengespeicherten Lexikon-Namen angeben.
• In diesem Beispiel wird davon ausgegangen, dass Sie in einem Unterverzeichnis mit der Bezeichnungpls Lexikon-Dateien erstellt haben. Sie müssen den Pfad ggf. aktualisieren.
161
Amazon Polly EntwicklerhandbuchPython-Beispiele
Das folgende Codebeispiel verwendet Standard-Anmeldeinformationen in der AWS-SDK-Konfigurationsdatei. Weitere Informationen zum Erstellen der Konfigurationsdatei finden Sie unter Schritt3.1: Einrichten der AWS Command Line Interface (AWS CLI) (p. 14).
Weitere Informationen zu dieser Operation finden Sie in der Referenz für die API PutLexicon.
from argparse import ArgumentParser
from boto3 import Sessionfrom botocore.exceptions import BotoCoreError, ClientError
# Define and parse the command line argumentscli = ArgumentParser(description="PutLexicon example")cli.add_argument("path", type=str, metavar="FILE_PATH")cli.add_argument("-n", "--name", type=str, required=True, metavar="LEXICON_NAME", dest="name")arguments = cli.parse_args()
# Create a client using the credentials and region defined in the adminuser# section of the AWS credentials and configuration filessession = Session(profile_name="adminuser")polly = session.client("polly")
# Open the PLS lexicon file for readingtry: with open(arguments.path, "r") as lexicon_file: # Read the pls file contents lexicon_data = lexicon_file.read()
# Store the PLS lexicon on the service. # If a lexicon with that name already exists, # its contents will be updated response = polly.put_lexicon(Name=arguments.name, Content=lexicon_data)except (IOError, BotoCoreError, ClientError) as error: # Could not open/read the file or the service returned an error, # exit gracefully cli.error(error)
print(u"The \"{0}\" lexicon is now available for use.".format(arguments.name))
StartSpeechSynthesisTaskIm folgenden Python-Code-Beispiel wird AWS SDK for Python (Boto) verwendet, um die Lexika in IhremKonto in der Region aufzulisten, die Sie in Ihrer lokalen AWS-Konfiguration angegeben haben. WeitereInformationen zum Erstellen der Konfigurationsdatei finden Sie unter Schritt 3.1: Einrichten der AWSCommand Line Interface (AWS CLI) (p. 14).
Weitere Informationen finden Sie in der Referenz für API StartSpeechSynthesisTask.
import boto3import time
polly_client = boto3.Session( aws_access_key_id=’’, aws_secret_access_key=’’, region_name='eu-west-2').client('polly’)
response = polly_client.start_speech_synthesis_task(VoiceId='Joanna', OutputS3BucketName='synth-books-buckets', OutputS3KeyPrefix='key', OutputFormat='mp3',
162
Amazon Polly EntwicklerhandbuchBeispielanwendungen
Text = 'This is a sample text to be synthesized.')
taskId = response['SynthesisTask']['TaskId']
print "Task id is {} ".format(taskId)
task_status = polly_client.get_speech_synthesis_task(TaskId = taskId)
print task_status
SynthesizeSpeechIm folgenden Python-Code-Beispiel wird AWS SDK for Python (Boto) verwendet, um die Lexika in IhremKonto in der Region aufzulisten, die Sie in Ihrer lokalen AWS-Konfiguration angegeben haben. WeitereInformationen zum Erstellen der Konfigurationsdatei finden Sie unter Schritt 3.1: Einrichten der AWSCommand Line Interface (AWS CLI) (p. 14).
Weitere Informationen zur API finden Sie in der Referenz für die API SynthesizeSpeech.
import boto3
polly_client = boto3.Session( aws_access_key_id=, aws_secret_access_key=, region_name='us-west-2').client('polly')
response = polly_client.synthesize_speech(VoiceId='Joanna', OutputFormat='mp3', Text = 'This is a sample text to be synthesized.')
file = open('speech.mp3', 'wb')file.write(response['AudioStream'].read())file.close()
BeispielanwendungenDieser Abschnitt enthält zusätzliche Beispiele in Form von Beispielanwendungen, die zum Erkunden vonAmazon Polly verwendet werden können.
Beispiel-Anwendungen um Programmiersprache• Python-Beispiel (HTML5-Client und Python-Server) (p. 163)• Java-Beispiel (p. 173)• iOS-Beispiel (p. 177)• Android-Beispiel (p. 179)
Python-Beispiel (HTML5-Client und Python-Server)Diese Beispielanwendung enthält:
• Einen HTTP 1.1-Server, der HTTP Chunked Transfer Coding einsetzt (siehe Chunked Transfer Coding)• Eine einfache HTML5-Benutzeroberfläche, die mit dem HTTP 1.1-Server interagiert (siehe unten)
163
Amazon Polly EntwicklerhandbuchPython-Beispiel
Mit diesem Beispiel möchten wir Ihnen zeigen, wie Sie mithilfe von Amazon Polly eine Sprachausgabeüber eine browserbasierte HTML5-Anwendung streamen können. Bei Anwendungsfällen, in denen eineschnelle Reaktion wichtig ist, empfehlen wir, den von Amazon Polly generierten Audiostream parallel zurGenerierung der Sprachausgabe zu streamen. (Beispiele sind Dialogsysteme und die Sprachausgabe vonBildschirmtext.)
Zur Ausführung dieser Beispielanwendung benötigen Sie Folgendes:
• Einen mit den Standards HTML5 und ECMAScript 5 konformen Webbrowser (zum Beispiel Chrome 23.0oder höher, Firefox 21.0 oder höher oder Internet Explorer 9.0 oder höher)
• Python in einer höheren Version als 3.0
So testen Sie die Anwendung:
1. Speichern Sie den Server-Code als Datei server.py. Sie finden den Code unter Python-Beispiel:Code für den Python-Server ("server.py") (p. 168).
2. Speichern Sie den Code für den HTML5-Client als Datei index.html. Sie finden den Code unterPython-Beispiel: HTML5-Benutzeroberfläche ("index.html") (p. 165).
3. Navigieren Sie zu dem Pfad, unter dem Sie die Datei "server.py" gespeichert haben, und führen Siedort den nachfolgenden Befehl aus, um die Anwendung zu starten. (Auf einigen Systemen müssen Siein diesem Befehl möglicherweise python3 statt python verwenden.)
$ python server.py
Sobald die Anwendung startet, wird eine URL im Terminal angezeigt.4. Öffnen Sie die im Terminal angezeigte URL in einem Webbrowser.
Sie können die Adresse und den Port, die der Anwendungsserver verwenden soll, als Parameteran server.py übergeben. Führen Sie python server.py -h aus, um weitere Informationen zuerhalten.
5. Um eine Sprachausgabe abzuspielen, wählen Sie eine Stimme aus der Liste aus, geben Text ein undklicken auf Read. Die Sprachausgabe beginnt, sobald Amazon Polly den ersten nutzbaren Block vonAudiodaten überträgt.
164
Amazon Polly EntwicklerhandbuchPython-Beispiel
6. Um den Python-Server nach Abschluss des Anwendungstests anzuhalten, drücken Sie Strg+C in demTerminal, in dem der Server ausgeführt wird.
Note
Der Server erstellt mithilfe des AWS SDK for Python (Boto) einen Boto3-Client. DieserClient verwendet die Anmeldeinformationen in der auf Ihrem Computer gespeicherten AWS-Konfigurationsdatei, um die Anforderungen an Amazon Polly zu signieren und zu authentifizieren.Weitere Informationen zur Erstellung der AWS-Konfigurationsdatei sowie zur Speicherung derAnmeldeinformationen finden Sie im Abschnitt Konfigurieren der AWS-Befehlszeilenschnittstelleim Benutzerhandbuch für AWS Command Line Interface.
Python-Beispiel: HTML5-Benutzeroberfläche ("index.html")In diesem Abschnitt finden Sie den Code für den unter Python-Beispiel (HTML5-Client und Python-Server) (p. 163) beschriebenen HTML5-Client.
<html>
<head> <title>Text-to-Speech Example Application</title> <script> /* * This sample code requires a web browser with support for both the * HTML5 and ECMAScript 5 standards; the following is a non-comprehensive * list of compliant browsers and their minimum version: * * - Chrome 23.0+ * - Firefox 21.0+ * - Internet Explorer 9.0+ * - Edge 12.0+ * - Opera 15.0+ * - Safari 6.1+ * - Android (stock web browser) 4.4+ * - Chrome for Android 51.0+ * - Firefox for Android 48.0+ * - Opera Mobile 37.0+ * - iOS (Safari Mobile and Chrome) 3.2+ * - Internet Explorer Mobile 10.0+ * - Blackberry Browser 10.0+ */
// Mapping of the OutputFormat parameter of the SynthesizeSpeech API // and the audio format strings understood by the browser var AUDIO_FORMATS = { 'ogg_vorbis': 'audio/ogg', 'mp3': 'audio/mpeg', 'pcm': 'audio/wave; codecs=1' };
/** * Handles fetching JSON over HTTP */ function fetchJSON(method, url, onSuccess, onError) { var request = new XMLHttpRequest(); request.open(method, url, true); request.onload = function () { // If loading is complete if (request.readyState === 4) { // if the request was successful if (request.status === 200) { var data;
165
Amazon Polly EntwicklerhandbuchPython-Beispiel
// Parse the JSON in the response try { data = JSON.parse(request.responseText); } catch (error) { onError(request.status, error.toString()); }
onSuccess(data); } else { onError(request.status, request.responseText) } } };
request.send(); }
/** * Returns a list of audio formats supported by the browser */ function getSupportedAudioFormats(player) { return Object.keys(AUDIO_FORMATS) .filter(function (format) { var supported = player.canPlayType(AUDIO_FORMATS[format]); return supported === 'probably' || supported === 'maybe'; }); }
// Initialize the application when the DOM is loaded and ready to be // manipulated document.addEventListener("DOMContentLoaded", function () { var input = document.getElementById('input'), voiceMenu = document.getElementById('voice'), text = document.getElementById('text'), player = document.getElementById('player'), submit = document.getElementById('submit'), supportedFormats = getSupportedAudioFormats(player);
// Display a message and don't allow submitting the form if the // browser doesn't support any of the available audio formats if (supportedFormats.length === 0) { submit.disabled = true; alert('The web browser in use does not support any of the' + ' available audio formats. Please try with a different' + ' one.'); }
// Play the audio stream when the form is submitted successfully input.addEventListener('submit', function (event) { // Validate the fields in the form, display a message if // unexpected values are encountered if (voiceMenu.selectedIndex <= 0 || text.value.length === 0) { alert('Please fill in all the fields.'); } else { var selectedVoice = voiceMenu .options[voiceMenu.selectedIndex] .value;
// Point the player to the streaming server player.src = '/read?voiceId=' + encodeURIComponent(selectedVoice) + '&text=' + encodeURIComponent(text.value) + '&outputFormat=' + supportedFormats[0]; player.play(); }
166
Amazon Polly EntwicklerhandbuchPython-Beispiel
// Stop the form from submitting, // Submitting the form is allowed only if the browser doesn't // support Javascript to ensure functionality in such a case event.preventDefault(); });
// Load the list of available voices and display them in a menu fetchJSON('GET', '/voices', // If the request succeeds function (voices) { var container = document.createDocumentFragment();
// Build the list of options for the menu voices.forEach(function (voice) { var option = document.createElement('option'); option.value = voice['Id']; option.innerHTML = voice['Name'] + ' (' + voice['Gender'] + ', ' + voice['LanguageName'] + ')'; container.appendChild(option); });
// Add the options to the menu and enable the form field voiceMenu.appendChild(container); voiceMenu.disabled = false; }, // If the request fails function (status, response) { // Display a message in case loading data from the server // fails alert(status + ' - ' + response); }); });
</script> <style> #input { min-width: 100px; max-width: 600px; margin: 0 auto; padding: 50px; }
#input div { margin-bottom: 20px; }
#text { width: 100%; height: 200px; display: block; }
#submit { width: 100%; } </style></head>
<body> <form id="input" method="GET" action="/read"> <div> <label for="voice">Select a voice:</label> <select id="voice" name="voiceId" disabled> <option value="">Choose a voice...</option>
167
Amazon Polly EntwicklerhandbuchPython-Beispiel
</select> </div> <div> <label for="text">Text to read:</label> <textarea id="text" maxlength="1000" minlength="1" name="text" placeholder="Type some text here..."></textarea> </div> <input type="submit" value="Read" id="submit" /> </form> <audio id="player"></audio></body>
</html>
Python-Beispiel: Code für den Python-Server ("server.py")In diesem Abschnitt finden Sie den Code für den unter Python-Beispiel (HTML5-Client und Python-Server) (p. 163) beschriebenen Python-Server.
""" Example Python 2.7+/3.3+ Application
This application consists of a HTTP 1.1 server using the HTTP chunked transfercoding (https://tools.ietf.org/html/rfc2616#section-3.6.1) and a minimal HTML5user interface that interacts with it.
The goal of this example is to start streaming the speech to the client (theHTML5 web UI) as soon as the first consumable chunk of speech is returned inorder to start playing the audio as soon as possible.For use cases where low latency and responsiveness are strong requirements,this is the recommended approach.
The service documentation contains examples for non-streaming use cases wherewaiting for the speech synthesis to complete and fetching the whole audio streamat once are an option.
To test the application, run 'python server.py' and then open the URLdisplayed in the terminal in a web browser (see index.html for a list ofsupported browsers). The address and port for the server can be passed asparameters to server.py. For more information, run: 'python server.py -h'"""from argparse import ArgumentParserfrom collections import namedtuplefrom contextlib import closingfrom io import BytesIOfrom json import dumps as json_encodeimport osimport sys
if sys.version_info >= (3, 0): from http.server import BaseHTTPRequestHandler, HTTPServer from socketserver import ThreadingMixIn from urllib.parse import parse_qselse: from BaseHTTPServer import BaseHTTPRequestHandler, HTTPServer from SocketServer import ThreadingMixIn from urlparse import parse_qs
from boto3 import Sessionfrom botocore.exceptions import BotoCoreError, ClientError
ResponseStatus = namedtuple("HTTPStatus", ["code", "message"])
168
Amazon Polly EntwicklerhandbuchPython-Beispiel
ResponseData = namedtuple("ResponseData", ["status", "content_type", "data_stream"])
# Mapping the output format used in the client to the content type for the# responseAUDIO_FORMATS = {"ogg_vorbis": "audio/ogg", "mp3": "audio/mpeg", "pcm": "audio/wave; codecs=1"}CHUNK_SIZE = 1024HTTP_STATUS = {"OK": ResponseStatus(code=200, message="OK"), "BAD_REQUEST": ResponseStatus(code=400, message="Bad request"), "NOT_FOUND": ResponseStatus(code=404, message="Not found"), "INTERNAL_SERVER_ERROR": ResponseStatus(code=500, message="Internal server error")}PROTOCOL = "http"ROUTE_INDEX = "/index.html"ROUTE_VOICES = "/voices"ROUTE_READ = "/read"
# Create a client using the credentials and region defined in the adminuser# section of the AWS credentials and configuration filessession = Session(profile_name="adminuser")polly = session.client("polly")
class HTTPStatusError(Exception): """Exception wrapping a value from http.server.HTTPStatus"""
def __init__(self, status, description=None): """ Constructs an error instance from a tuple of (code, message, description), see http.server.HTTPStatus """ super(HTTPStatusError, self).__init__() self.code = status.code self.message = status.message self.explain = description
class ThreadedHTTPServer(ThreadingMixIn, HTTPServer): """An HTTP Server that handle each request in a new thread""" daemon_threads = True
class ChunkedHTTPRequestHandler(BaseHTTPRequestHandler): """"HTTP 1.1 Chunked encoding request handler""" # Use HTTP 1.1 as 1.0 doesn't support chunked encoding protocol_version = "HTTP/1.1"
def query_get(self, queryData, key, default=""): """Helper for getting values from a pre-parsed query string""" return queryData.get(key, [default])[0]
def do_GET(self): """Handles GET requests"""
# Extract values from the query string path, _, query_string = self.path.partition('?') query = parse_qs(query_string)
response = None
print(u"[START]: Received GET for %s with query: %s" % (path, query))
try:
169
Amazon Polly EntwicklerhandbuchPython-Beispiel
# Handle the possible request paths if path == ROUTE_INDEX: response = self.route_index(path, query) elif path == ROUTE_VOICES: response = self.route_voices(path, query) elif path == ROUTE_READ: response = self.route_read(path, query) else: response = self.route_not_found(path, query)
self.send_headers(response.status, response.content_type) self.stream_data(response.data_stream)
except HTTPStatusError as err: # Respond with an error and log debug # information if sys.version_info >= (3, 0): self.send_error(err.code, err.message, err.explain) else: self.send_error(err.code, err.message)
self.log_error(u"%s %s %s - [%d] %s", self.client_address[0], self.command, self.path, err.code, err.explain)
print("[END]")
def route_not_found(self, path, query): """Handles routing for unexpected paths""" raise HTTPStatusError(HTTP_STATUS["NOT_FOUND"], "Page not found")
def route_index(self, path, query): """Handles routing for the application's entry point'""" try: return ResponseData(status=HTTP_STATUS["OK"], content_type="text_html", # Open a binary stream for reading the index # HTML file data_stream=open(os.path.join(sys.path[0], path[1:]), "rb")) except IOError as err: # Couldn't open the stream raise HTTPStatusError(HTTP_STATUS["INTERNAL_SERVER_ERROR"], str(err))
def route_voices(self, path, query): """Handles routing for listing available voices""" params = {} voices = []
while True: try: # Request list of available voices, if a continuation token # was returned by the previous call then use it to continue # listing response = polly.describe_voices(**params) except (BotoCoreError, ClientError) as err: # The service returned an error raise HTTPStatusError(HTTP_STATUS["INTERNAL_SERVER_ERROR"], str(err))
# Collect all the voices voices.extend(response.get("Voices", []))
# If a continuation token was returned continue, stop iterating # otherwise if "NextToken" in response: params = {"NextToken": response["NextToken"]}
170
Amazon Polly EntwicklerhandbuchPython-Beispiel
else: break
json_data = json_encode(voices) bytes_data = bytes(json_data, "utf-8") if sys.version_info >= (3, 0) \ else bytes(json_data)
return ResponseData(status=HTTP_STATUS["OK"], content_type="application/json", # Create a binary stream for the JSON data data_stream=BytesIO(bytes_data))
def route_read(self, path, query): """Handles routing for reading text (speech synthesis)""" # Get the parameters from the query string text = self.query_get(query, "text") voiceId = self.query_get(query, "voiceId") outputFormat = self.query_get(query, "outputFormat")
# Validate the parameters, set error flag in case of unexpected # values if len(text) == 0 or len(voiceId) == 0 or \ outputFormat not in AUDIO_FORMATS: raise HTTPStatusError(HTTP_STATUS["BAD_REQUEST"], "Wrong parameters") else: try: # Request speech synthesis response = polly.synthesize_speech(Text=text, VoiceId=voiceId, OutputFormat=outputFormat) except (BotoCoreError, ClientError) as err: # The service returned an error raise HTTPStatusError(HTTP_STATUS["INTERNAL_SERVER_ERROR"], str(err))
return ResponseData(status=HTTP_STATUS["OK"], content_type=AUDIO_FORMATS[outputFormat], # Access the audio stream in the response data_stream=response.get("AudioStream"))
def send_headers(self, status, content_type): """Send out the group of headers for a successful request""" # Send HTTP headers self.send_response(status.code, status.message) self.send_header('Content-type', content_type) self.send_header('Transfer-Encoding', 'chunked') self.send_header('Connection', 'close') self.end_headers()
def stream_data(self, stream): """Consumes a stream in chunks to produce the response's output'""" print("Streaming started...")
if stream: # Note: Closing the stream is important as the service throttles on # the number of parallel connections. Here we are using # contextlib.closing to ensure the close method of the stream object # will be called automatically at the end of the with statement's # scope. with closing(stream) as managed_stream: # Push out the stream's content in chunks while True: data = managed_stream.read(CHUNK_SIZE) self.wfile.write(b"%X\r\n%s\r\n" % (len(data), data))
171
Amazon Polly EntwicklerhandbuchPython-Beispiel
# If there's no more data to read, stop streaming if not data: break
# Ensure any buffered output has been transmitted and close the # stream self.wfile.flush()
print("Streaming completed.") else: # The stream passed in is empty self.wfile.write(b"0\r\n\r\n") print("Nothing to stream.")
# Define and parse the command line argumentscli = ArgumentParser(description='Example Python Application')cli.add_argument( "-p", "--port", type=int, metavar="PORT", dest="port", default=8000)cli.add_argument( "--host", type=str, metavar="HOST", dest="host", default="localhost")arguments = cli.parse_args()
# If the module is invoked directly, initialize the applicationif __name__ == '__main__': # Create and configure the HTTP server instance server = ThreadedHTTPServer((arguments.host, arguments.port), ChunkedHTTPRequestHandler) print("Starting server, use <Ctrl-C> to stop...") print(u"Open {0}://{1}:{2}{3} in a web browser.".format(PROTOCOL, arguments.host, arguments.port, ROUTE_INDEX))
try: # Listen for requests indefinitely server.serve_forever() except KeyboardInterrupt: # A request to terminate has been received, stop the server print("\nShutting down...") server.socket.close()
172
Amazon Polly EntwicklerhandbuchJava-Beispiel
Java-BeispielIn diesem Beispiel zeigen wir Ihnen, wie Sie mithilfe von Amazon Polly eine Sprachausgabe über eineJava-basierte Anwendung streamen können. In diesem Beispiel wird das AWS SDK for Java verwendet,um den angegebenen Text mit einer aus einer Liste ausgewählten Stimme lesen zu lassen.
Der abgebildete Code deckt die wichtigsten Tasks ab, führt aber nur eine minimale Fehlerprüfung durch.Wenn Amazon Polly einen Fehler registriert, wird die Anwendung beendet.
Zur Ausführung dieser Beispielanwendung benötigen Sie Folgendes:
• Java 8 Java Development Kit (JDK)• AWS SDK für Java• Apache Maven
So testen Sie die Anwendung:
1. Stellen Sie sicher, dass für das JDK die Umgebungsvariable "JAVA_HOME" gesetzt ist.
Haben Sie beispielsweise JDK 1.8.0_121 unter Windows unter dem Pfad C:\Program Files\Java\jdk1.8.0_121 installiert, geben Sie Folgendes in die Eingabeaufforderung ein:
set JAVA_HOME=""C:\Program Files\Java\jdk1.8.0_121""
Wenn Sie JDK 1.8.0_121 unter Linux unter dem Pfad /usr/lib/jvm/java8-openjdk-amd64installiert haben, geben Sie Folgendes in die Eingabeaufforderung ein:
export JAVA_HOME=/usr/lib/jvm/java8-openjdk-amd64
2. Legen Sie die Maven-Umgebungsvariablen so fest, dass Maven über die Befehlszeile ausgeführt wird.
Haben Sie beispielsweise Maven 3.3.9 unter Windows unter dem Pfad C:\Program Files\apache-maven-3.3.9 installiert, geben Sie Folgendes ein:
set M2_HOME=""C:\Program Files\apache-maven-3.3.9""set M2=%M2_HOME%\binset PATH=%M2%;%PATH%
Haben Sie Maven 3.3.9 unter Linux unter dem Pfad /home/ec2-user/opt/apache-maven-3.3.9installiert, geben Sie Folgendes ein:
export M2_HOME=/home/ec2-user/opt/apache-maven-3.3.9export M2=$M2_HOME/binexport PATH=$M2:$PATH
3. Erstellen Sie ein neues Verzeichnis mit dem Namen polly-java-demo.4. Erstellen Sie im Verzeichnis polly-java-demo eine neue Datei mit dem Namen pom.xml und fügen
Sie den folgenden Code in diese Datei ein:
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.amazonaws.polly</groupId> <artifactId>java-demo</artifactId>
173
Amazon Polly EntwicklerhandbuchJava-Beispiel
<version>0.0.1-SNAPSHOT</version>
<dependencies> <!-- https://mvnrepository.com/artifact/com.amazonaws/aws-java-sdk-polly --> <dependency> <groupId>com.amazonaws</groupId> <artifactId>aws-java-sdk-polly</artifactId> <version>1.11.77</version> </dependency> <!-- https://mvnrepository.com/artifact/com.googlecode.soundlibs/jlayer --> <dependency> <groupId>com.googlecode.soundlibs</groupId> <artifactId>jlayer</artifactId> <version>1.0.1-1</version> </dependency>
</dependencies> <build> <plugins> <plugin> <groupId>org.codehaus.mojo</groupId> <artifactId>exec-maven-plugin</artifactId> <version>1.2.1</version> <executions> <execution> <goals> <goal>java</goal> </goals> </execution> </executions> <configuration> <mainClass>com.amazonaws.demos.polly.PollyDemo</mainClass> </configuration> </plugin> </plugins> </build></project>
5. Erstellen Sie ein neues Verzeichnis mit dem Namen polly unter src/main/java/com/amazonaws/demos.
6. Erstellen Sie im Verzeichnis polly eine neue Java-Quelldatei mit dem Namen PollyDemo.java undfügen Sie den folgenden Code in diese Datei ein:
package com.amazonaws.demos.polly;
import java.io.IOException;import java.io.InputStream;
import com.amazonaws.ClientConfiguration;import com.amazonaws.auth.DefaultAWSCredentialsProviderChain;import com.amazonaws.regions.Region;import com.amazonaws.regions.Regions;import com.amazonaws.services.polly.AmazonPollyClient;import com.amazonaws.services.polly.model.DescribeVoicesRequest;import com.amazonaws.services.polly.model.DescribeVoicesResult;import com.amazonaws.services.polly.model.OutputFormat;import com.amazonaws.services.polly.model.SynthesizeSpeechRequest;import com.amazonaws.services.polly.model.SynthesizeSpeechResult;import com.amazonaws.services.polly.model.Voice;
import javazoom.jl.player.advanced.AdvancedPlayer;import javazoom.jl.player.advanced.PlaybackEvent;import javazoom.jl.player.advanced.PlaybackListener;
174
Amazon Polly EntwicklerhandbuchJava-Beispiel
public class PollyDemo {
private final AmazonPollyClient polly; private final Voice voice; private static final String SAMPLE = "Congratulations. You have successfully built this working demo of Amazon Polly in Java. Have fun building voice enabled apps with Amazon Polly (that's me!), and always look at the AWS website for tips and tricks on using Amazon Polly and other great services from AWS";
public PollyDemo(Region region) { // create an Amazon Polly client in a specific region polly = new AmazonPollyClient(new DefaultAWSCredentialsProviderChain(), new ClientConfiguration()); polly.setRegion(region); // Create describe voices request. DescribeVoicesRequest describeVoicesRequest = new DescribeVoicesRequest();
// Synchronously ask Amazon Polly to describe available TTS voices. DescribeVoicesResult describeVoicesResult = polly.describeVoices(describeVoicesRequest); voice = describeVoicesResult.getVoices().get(0); }
public InputStream synthesize(String text, OutputFormat format) throws IOException { SynthesizeSpeechRequest synthReq = new SynthesizeSpeechRequest().withText(text).withVoiceId(voice.getId()) .withOutputFormat(format); SynthesizeSpeechResult synthRes = polly.synthesizeSpeech(synthReq);
return synthRes.getAudioStream(); }
public static void main(String args[]) throws Exception { //create the test class PollyDemo helloWorld = new PollyDemo(Region.getRegion(Regions.US_EAST_1)); //get the audio stream InputStream speechStream = helloWorld.synthesize(SAMPLE, OutputFormat.Mp3);
//create an MP3 player AdvancedPlayer player = new AdvancedPlayer(speechStream, javazoom.jl.player.FactoryRegistry.systemRegistry().createAudioDevice());
player.setPlayBackListener(new PlaybackListener() { @Override public void playbackStarted(PlaybackEvent evt) { System.out.println("Playback started"); System.out.println(SAMPLE); } @Override public void playbackFinished(PlaybackEvent evt) { System.out.println("Playback finished"); } }); // play it! player.play(); }}
175
Amazon Polly EntwicklerhandbuchJava-Beispiel
7. Wechseln Sie zurück in das Verzeichnis polly-java-demo, um die Demo zu bereinigen, zukompilieren und auszuführen:
mvn clean compile exec:java
176
Amazon Polly EntwicklerhandbuchiOS-Beispiel
iOS-BeispielIn dem folgenden Beispiel verwenden wir das iOS SDK for Amazon Polly, um den angegebenen Text miteiner aus einer Stimmliste ausgewählten Stimme lesen zu lassen.
Der abgebildete Code deckt die wichtigsten Tasks ab, korrigiert jedoch keine Fehler. Den vollständigenCode finden Sie in der AWS SDK for iOS Amazon Polly-Demo.
Initialisieren
// Region of Amazon Polly.let AwsRegion = AWSRegionType.usEast1 // Cognito pool ID. Pool needs to be unauthenticated pool with// Amazon Polly permissions.let CognitoIdentityPoolId = "YourCognitoIdentityPoolId" // Initialize the Amazon Cognito credentials provider.let credentialProvider = AWSCognitoCredentialsProvider(regionType: AwsRegion, identityPoolId: CognitoIdentityPoolId)
// Create an audio playervar audioPlayer = AVPlayer()
Abrufen einer Liste der verfügbaren Stimmen
// Use the configuration as defaultAWSServiceManager.default().defaultServiceConfiguration = configuration
// Get all the voices (no parameters specified in input) from Amazon Polly// This creates an async task.let task = AWSPolly.default().describeVoices(AWSPollyDescribeVoicesInput()) // When the request is done, asynchronously do the following block// (we ignore all the errors, but in a real-world scenario they need// to be handled)task.continue(successBlock: { (awsTask: AWSTask) -> Any? in // awsTask.result is an instance of AWSPollyDescribeVoicesOutput in // case of the "describeVoices" method let voices = (awsTask.result! as AWSPollyDescribeVoicesOutput).voices return nil})
Generieren der Sprachausgabe
// First, Amazon Polly requires an input, which we need to prepare.// Again, we ignore the errors, however this should be handled in// real applications. Here we are using the URL Builder Request,// since in order to make the synthesis quicker we will pass the// presigned URL to the system audio player.let input = AWSPollySynthesizeSpeechURLBuilderRequest()
// Text to synthesizeinput.text = "Sample text"
// We expect the output in MP3 formatinput.outputFormat = AWSPollyOutputFormat.mp3
// Choose the voice IDinput.voiceId = AWSPollyVoiceId.joanna
177
Amazon Polly EntwicklerhandbuchiOS-Beispiel
// Create an task to synthesize speech using the given synthesis inputlet builder = AWSPollySynthesizeSpeechURLBuilder.default().getPreSignedURL(input)
// Request the URL for synthesis resultbuilder.continueOnSuccessWith(block: { (awsTask: AWSTask<NSURL>) -> Any? in // The result of getPresignedURL task is NSURL. // Again, we ignore the errors in the example. let url = awsTask.result!
// Try playing the data using the system AVAudioPlayer self.audioPlayer.replaceCurrentItem(with: AVPlayerItem(url: url as URL)) self.audioPlayer.play()
return nil})
178
Amazon Polly EntwicklerhandbuchAndroid-Beispiel
Android-BeispielIn dem folgenden Beispiel verwenden wir das Android SDK for Amazon Polly, um den angegebenen Textmit einer aus einer Stimmliste ausgewählten Stimme lesen zu lassen.
Der abgebildete Code deckt die wichtigsten Tasks ab, korrigiert jedoch keine Fehler. Den vollständigenCode finden Sie in der AWS SDK for Android Amazon Polly-Demo.
Initialisieren
// Cognito pool ID. Pool needs to be unauthenticated pool with// Amazon Polly permissions.String COGNITO_POOL_ID = "YourCognitoIdentityPoolId";
// Region of Amazon Polly.Regions MY_REGION = Regions.US_EAST_1; // Initialize the Amazon Cognito credentials provider.CognitoCachingCredentialsProvider credentialsProvider = new CognitoCachingCredentialsProvider( getApplicationContext(), COGNITO_POOL_ID, MY_REGION);
// Create a client that supports generation of presigned URLs.AmazonPollyPresigningClient client = new AmazonPollyPresigningClient(credentialsProvider);
Abrufen einer Liste der verfügbaren Stimmen
// Create describe voices request.DescribeVoicesRequest describeVoicesRequest = new DescribeVoicesRequest();
// Synchronously ask Amazon Polly to describe available TTS voices.DescribeVoicesResult describeVoicesResult = client.describeVoices(describeVoicesRequest);List<Voice> voices = describeVoicesResult.getVoices();
Abrufen der URL des Audiostreams
// Create speech synthesis request.SynthesizeSpeechPresignRequest synthesizeSpeechPresignRequest = new SynthesizeSpeechPresignRequest() // Set the text to synthesize. .withText("Hello world!") // Select voice for synthesis. .withVoiceId(voices.get(0).getId()) // "Joanna" // Set format to MP3. .withOutputFormat(OutputFormat.Mp3);
// Get the presigned URL for synthesized speech audio stream.URL presignedSynthesizeSpeechUrl = client.getPresignedSynthesizeSpeechUrl(synthesizeSpeechPresignRequest);
Abspielen der Sprachausgabe
// Use MediaPlayer: https://developer.android.com/guide/topics/media/mediaplayer.html
// Create a media player to play the synthesized audio stream.MediaPlayer mediaPlayer = new MediaPlayer();mediaPlayer.setAudioStreamType(AudioManager.STREAM_MUSIC);
179
Amazon Polly EntwicklerhandbuchAndroid-Beispiel
try { // Set media player's data source to previously obtained URL. mediaPlayer.setDataSource(presignedSynthesizeSpeechUrl.toString());} catch (IOException e) { Log.e(TAG, "Unable to set data source for the media player! " + e.getMessage());}
// Prepare the MediaPlayer asynchronously (since the data source is a network stream).mediaPlayer.prepareAsync();
// Set the callback to start the MediaPlayer when it's prepared.mediaPlayer.setOnPreparedListener(new MediaPlayer.OnPreparedListener() { @Override public void onPrepared(MediaPlayer mp) { mp.start(); }});
// Set the callback to release the MediaPlayer after playback is completed.mediaPlayer.setOnCompletionListener(new MediaPlayer.OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.release(); }});
180
Amazon Polly EntwicklerhandbuchEinrichten des Plugins
WordPress-Plugin für Amazon PollyMit dem Amazon Polly-Plugin für WordPress können Sie den Besuchern Ihrer WordPress-WebsiteAudioaufnahmen Ihrer Inhalte zur Verfügung stellen. Verwenden Sie das Plugin zum Erstellen vonAudiodateien in einer der von Amazon Polly unterstützten Stimmen und Sprachen. Ihre Besucher könnendie Audiodaten mithilfe von eingebetteten Audio-Playern und mobilen Anwendungen nach Beliebenstreamen.
Sie können das Plugin konfigurieren, um folgende Aktionen durchzuführen:
• Automatische Erstellung von Audioaufzeichnungen für neue Inhalte bei der Veröffentlichung oderErstellung von Aufzeichnungen für einzelne Beiträge.
• Erstellen Sie Audioaufzeichnungen Ihrer archivierten Inhalte.• Verwenden Sie den Amazon Pollycast RSS-Feed, um Audio-Inhalt als Podcast bereitzustellen.
. .
Note
Bei der folgenden Prozedur können sich Befehls- und Feldnamen geringfügig von denverwendeten Namen unterscheiden.
Themen• Installieren des Plugins (p. 181)
Installieren des PluginsFür die Installation und Konfiguration des Plugins verwenden Sie die Seite Add Plugins (Pluginshinzufügen) von WordPress. Nach der Installation und Aktivierung des Plugins navigieren Sie zur AmazonPolly-Seite Settings (Einstellungen) und verbinden das Plugin mit Ihrem AWS-Konto.
Um das Amazon Polly-Plugin für WordPress zu installieren, benötigen Sie ein AWS-Konto und einefunktionierende WordPress-Installation. Falls Sie kein Konto haben, finden Sie weitere Informationen unterSchritt 1.1: Registrieren bei AWS (p. 11).
Wenn Sie ein AWS-Konto haben, führen Sie die folgenden Schritte aus, um das Plugin zu installieren:
1. Erstellen einer Berechtigungsrichtlinie (p. 181)2. Erstellen eines IAM-Benutzers für das Plugin (p. 182)3. Plugin installieren und konfigurieren (p. 183)
Erstellen einer BerechtigungsrichtlinieErstellen Sie in der AWS Management Console eine AWS Identity and Access Management (IAM)-Berechtigungsrichtlinie mit dem Namen PollyForWordPressPolicy. Bei einer Berechtigungsrichtlinie
181
Amazon Polly EntwicklerhandbuchErstellen eines IAM-Benutzers für das Plugin
handelt es sich um ein Dokument, das Berechtigungen definiert, die auf einen Benutzer (oder eine Gruppeoder Rolle) zutreffen. Die Berechtigungen bestimmen, welche Möglichkeiten dem Benutzer in AWS zurVerfügung stehen.Kopieren Sie den folgenden Code und fügen Sie ihn ein:
{
"Version": "2012-10-17", "Statement": [ { "Sid": "Permissions1", "Effect": "Allow", "Action": [ "s3:HeadBucket", "polly:SynthesizeSpeech", "polly:DescribeVoices" ], "Resource": "*" }, { "Sid": "Permissions2", "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:GetBucketAcl", "s3:GetBucketPolicy", "s3:PutObject", "s3:DeleteObject", "s3:CreateBucket", "s3:PutObjectAcl" ], "Resource": [ "arn:aws:s3:::audio_for_wordpress*", "arn:aws:s3:::audio-for-wordpress*" ] } ]}
Weitere Informationen zum Erstellen einer Berechtigungsrichtlinie finden Sie unter Erstellen vonkundenverwalteten Richtlinien.
Erstellen eines IAM-Benutzers für das PluginBevor Sie das Plugin mit Ihrem AWS-Konto verbinden, müssen Sie einen IAM-Benutzer erstellenund diesem Benutzer anschließend die Berechtigungsrichtlinie zuweisen, die Sie in Erstellen einerBerechtigungsrichtlinie (p. 181) für diesen Benutzer erstellt haben. Ein IAM-Benutzer ist eine Person odereine Anwendung unter einem AWS-Konto, die API-Aufrufe für AWS-Produkte ausführen muss.
Wenn Sie WordPress auf Amazon Elastic Compute Cloud (Amazon EC2) bereitstellen, können Sie diesenSchritt überspringen und die IAM-Rolle anstelle eines einzelnen IAM-Benutzers verwenden. WeitereInformationen erhalten Sie unter IAM-Rollen für Amazon EC2 im Amazon EC2-Benutzerhandbuch.
So erstellen Sie einen IAM-Benutzer
1. Melden Sie sich bei der AWS Management Console an und öffnen Sie die IAM-Konsole unter https://console.aws.amazon.com/iam/.
2. Wählen Sie Benutzer.3. Wählen Sie Benutzer hinzufügen.4. Geben Sie für User name (Benutzername) WordPress ein.
182
Amazon Polly EntwicklerhandbuchPlugin installieren und konfigurieren
5. Wählen Sie für Access Type (Zugriffstyp) die Option Programmatic access (ProgrammgesteuerterZugriff) und wählen Sie dann Next: Permissions (Weiter: Berechtigungen).
6. Wählen Sie Attach existing policies direction (Vorhandene Richtlinien direkt anfügen), wählen Sie Ihreneu erstellte Richtlinie (PollyForWordPressPolicy) aus der Liste aus und wählen Sie anschließendNext: Review (Weiter: Prüfen).
7. Wählen Sie Create User.8. Zeichnen Sie die Zugriffsschlüssel-ID und den geheimen Zugriffsschlüssel auf. Sie benötigen sie für
die Konfiguration des Plugins.Important
Dies ist der einzige Zeitpunkt, zu dem Sie auf diese Schlüssel zugreifen können, notieren Siesie also unbedingt.
Plugin installieren und konfigurierenInstallieren Sie das Plugin von GitHub und konfigurieren Sie dieses so, dass Podcasts, alternativeSpeicherorte und andere Optionen aktiviert sind.
Note
Bei der folgenden Prozedur können sich Befehls- und Feldnamen geringfügig von den inWordPress verwendeten Namen unterscheiden.
So installieren und konfigurieren Sie das Plugin
1. Laden Sie das Amazon Polly-Plugin für WordPress von der GitHub-Website für das Amazon PollyPlugin herunter.
2. Wählen Sie auf der Seite WordPress Admin die Option Neues Plugin hinzufügen und installieren undaktivieren Sie das Plugin.
3. Wählen Sie auf der Seite WordPress Admin (WordPress-Admin) die Option Settings (Einstellungen).4. Konfigurieren Sie das Plugin mithilfe einer der folgenden Optionen unter Amazon Polly Settings
(Amazon Polly-Einstellungen):
• AWS access key and AWS secret key (AWS-Zugriffsschlüssel und geheimer AWS-Schlüssel) –AWS-Anmeldeinformationen, mit denen das Plugin Amazon Polly und Amazon Simple StorageService (Amazon S3) verwenden kann. Geben Sie den AWS-Zugriffsschlüssel und den geheimenSchlüssel ein, die Sie in Erstellen eines IAM-Benutzers für das Plugin (p. 182) erstellt haben.Wenn Sie Ihre WordPress-Website auf Amazon EC2 hosten, können Sie statt AnmeldeinformationenIAM-Rollen verwenden. In diesem Fall lassen Sie diese beiden Felder leer.
• Sample rate (Samplerate)—die Samplerate für die erzeugten Audiodateien in Hz. HöhereSampleraten erzeugen eine höhere Audioqualität.
• Voice name (Stimmname) – die Amazon Polly-Stimme, die in der Audiodatei verwendet wird.• Player position (Player-Position) – Wo der Audio-Player auf der Website positioniert werden soll. Sie
können ihn vor oder nach dem Post platzieren, müssen ihn aber nicht unbedingt verwenden. WennSie Ihre Dateien unter Verwendung von Amazon Pollycast als Podcasts bereitstellen wollen, zeigenSie den Audio-Player nicht an.
• New post default (Neue Posts automatisch) –Gibt an Amazon Polly automatisch für alle neuen Postseine Audiodatei erstellen soll. Wählen Sie diese Option, wenn Sie möchten, dass Amazon Polly dieKonfigurationseinstellungen für jeden neuen Post verwendet, um eine Audiodatei zu erstellen.
• Autoplay – Gibt an, ob der Audio-Player automatisch mit der Audio-Wiedergabe beginnt, wenn einBenutzer ihn aufruft.
• Store audio in Amazon S3 (Audio in Amazon S3 speichern) – Wenn Sie Audiodateien in einem S3-Bucket statt auf ihrem Webserver speichern wollen, wählen Sie diese Option. Amazon Polly erstelltden Bucket für Sie. Weitere Informationen sowie Preise finden Sie unter Amazon S3.
183
Amazon Polly EntwicklerhandbuchAnpassen von WordPress
• Amazon CloudFront (CDN) domain name (CDN-Domänenname)—: Wenn Sie Ihre Audiodateienmit Amazon CloudFront übertragen möchten, geben Sie den Namen Ihrer CloudFront-Domäne an.Das Plugin verwendet die Domäne zum Streamen von Audio. Wenn Sie noch über keine Domäneverfügen, erstellen Sie eine in Amazon CloudFront.
• ITunes category (iTunes-Kategorie)—: Die Kategorie für Ihren Podcast. Durch die Auswahl einerKategorie ist es für die Podcast-Benutzer einfacher, den Podcast im Podcast-Katalog zu finden.
• ITunes explicit (iTunes explizit)—: Gibt an, ob Amazon Pollycast-Podcasting aktiviert werden soll.• Bulk update all posts (Alle Beiträge gemeinsam aktualisieren): Wählen Sie diese Option, wenn Sie
alle Beiträge so abändern möchten, dass sie diese neuen Plugin-Einstellungen verwenden.5. Wählen Sie Save Changes (Änderungen speichern).
Anpassen der WordPress-SeiteSie können mehrere Optionen zum Anpassen von WordPress-Inhalten nutzen, damit sie besser mit demAmazon Polly-WordPress-Plug-in funktionieren:
• Anpassen der Plug-in-Einstellungen für optimierte Audiodateien (p. 184)• Verwenden von SSML in Inhalten, um das Sprechen zu beeinflussen (p. 184)• Verwenden der Tags "Audio Only" und "Word Only" in Inhalten (p. 185)
Anpassen der Plug-in-Einstellungen für optimierte AudiodateienDie Amazon Polly-WordPress-Plug-in-Einstellungen enthalten drei Optionen, mit denen Sie den Klang desWordPress-Texts für die Audiodatei anpassen können:
• Voice name (Stimmenname): Der Stimmenname und die gewählte Sprache ermöglichen die Auswahldes Geschlechts der Amazon Polly-Stimme. Für jede Sprache sind verschiedene Stimmen verfügbarund innerhalb der Geschlechter stehen für viele Sprachen weitere Optionen zur Verfügung. WeitereInformationen finden Sie unter Stimmen in Amazon Polly (p. 19).
• Automated breaths (Automatische Atemgeräusche): Wenn diese Option aktiviert ist, fügt AmazonPolly automatisch Atemgeräusche an geeigneten Stellen in die Audiodatei ein. Wenn Sie dieseOption aktivieren, können nur noch automatische Atemgeräusche verwendet werden. Sie könnenAtemgeräusche nicht mehr manuell festlegen. Weitere Informationen finden Sie im Abschnitt zuautomatischen Atemgeräuschen.
• Audio speed (Audiogeschwindigkeit): Gibt die Wiedergabegeschwindigkeit für die Audioversion derInhalte an. Zulässig sind Werte von 20 % bis 200 % bezogen auf die Standardgeschwindigkeit derStimme.
1. Wählen Sie auf der Seite WordPress Admin (WordPress-Admin) die Option Settings (Einstellungen).2. Wählen Sie im Menü Settings (Einstellungen) die Option Amazon Polly.3. Ändern Sie die verschiedenen Optionen nach Bedarf.
Verwenden von SSML in Inhalten, um das Sprechen zubeeinflussenAmazon Polly unterstützt mehrere SSML-Tags, mit denen Sie viele Aspekte der Sprachausgabe durchAmazon Polly steuern können. Weitere Informationen zu SSML und Amazon Polly finden Sie unter VonAmazon Polly unterstützte SSML-Tags (p. 37). Einige dieser Tags werden beim Konfigurieren des Plug-insin die Plug-in-Einstellungen ausgegeben. Derzeit kann jedoch nur das Tag <break> direkt im WordPress-Plug-in verwendet werden. Künftige Plug-in-Updates werden weitere Tags verfügbar machen.
184
Amazon Polly EntwicklerhandbuchAnpassen von WordPress
Mit dem Tag <break> können Sie eine Pause in gesprochene Textausgaben einfügen. Sie können dieLänge dieser Pause an die individuellen Anforderungen anpassen. Die Standardlänge der Pause entsprichtder Pause nach einem Komma. Weitere Informationen zum Tag <break> finden Sie unter UnterstützteSSML-Tags (p. 37).
Damit WordPress-Text mit SSML-Tags optimiert werden kann, muss die Option "Enable SSMLsupport" (SSML-Unterstützung aktivieren) in den Amazon Polly-Einstellungen auf der Seite WordPressAdmin (WordPress-Admin) ausgewählt werden. Die Option Store audio in Amazon S3 (Audiodaten inAmazon S3 speichern) muss ebenfalls ausgewählt sein, weil Audiodateien mit SSML-Tags in einem S3-Bucket gespeichert werden müssen.
Verwenden der Tags "Audio Only" und "Word Only" in InhaltenGelegentlich fügen Sie Daten in einen Audiopodcast ein, der im Browser nicht wiedergegeben werden soll.Oder Sie möchten, dass etwas im Browser angezeigt, jedoch nicht in die Audiodatei eingefügt wird. Dies istmit den Tags Audio Only und Word Only möglich, die Sie in WordPress-Inhalte einfügen können, umanzuzeigende oder zu sprechende Textteile zu kennzeichnen.
So konvertieren Sie Text in Audiodaten, ohne ihn im Browser darzustellen
1. Isolieren Sie den gewählten Text auf der WordPress-Seite, indem darüber und darunter eine Leerzeileeinfügen.
2. Fügen Sie in die Zeile über dem gewählten Text folgendes Tag ein:
-AMAZONPOLLY-ONLYAUDIO-START-
3. Fügen Sie in die Zeile unter dem Text folgendes Tag ein:
-AMAZONPOLLY-ONLYAUDIO-END-
Sie können auf gleiche Weise vorgehen, um Text im Browser anzeigen zu lassen, ihn jedoch nicht indie Audiodatei aufzunehmen. Verwenden Sie zu in diesem Fall die Tags -AMAZONPOLLY-ONLYWORDS-START- und -AMAZONPOLLY-ONLYWORDS-END- in der beschriebenen Weise.
Beispiel:
Initial text of your blog displayed in the browser and heard in the audio file.] -AMAZONPOLLY-ONLYAUDIO-START- [This part will not be displayed in the browser but will be heard in the audio file.] -AMAZONPOLLY-ONLYAUDIO-END- [Subsequent text of your blog displayed in the browser and heard in the audio file.]
und
[Initial text of your blog displayed in the browser and heard in the audio file.] -AMAZONPOLLY-ONLYWORD-START- This part will be displayed in the browser but will not be heard in the audio file.] -AMAZONPOLLY-ONLYWORD-END- Subsequent text of your blog displayed in the browser and heard in the audio file.
Einfügen von übersetzten Text in einen BeitragDas Amazon Polly-WordPress-Plugin verwendet Amazon Translate, um übersetzte Versionen einesBeitrags in einer oder mehreren Sprachen zu erstellen. Für diesen Service sind neben Englisch vierweitere Sprachen verfügbar: Spanisch, Französisch, Deutsch und Portugiesisch. Die zu verwendendenSprachen und die Stimmen für diese Sprachen werden auf der Seite "Amazon Polly Settings" (AmazonPolly-Einstellungen) der Amazon Translate-Konfiguration konfiguriert.
185
Amazon Polly EntwicklerhandbuchSpeichern der Audiodateien
So übersetzen Sie WordPress-Beiträge in andere Sprachen
1. Erstellen Sie auf der Seite Add New Post (Neuen Beitrag hinzufügen) einen neuen WordPress-Beitragund veröffentlichen Sie ihn.
2. Achten Sie darauf, dass auf dieser Seite die Option Enable Amazon Polly (&POL; aktivieren)ausgewählt ist.
3. Um die ungefähren Kosten für das Erstellen von Audiodateien in der ursprünglichen Sprache undallen zusätzlich ausgewählten Sprachen zu ermitteln, wählen Sie How much will this cost to convert?(Wie viel kostet diese Konvertierung?) Wählen Sie OK, um zur Seite Add New Post (Neuen Beitraghinzufügen) zurückzukehren.
4. Wählen Sie Translate (Übersetzen).
So legen Sie die Sprachen fest, in die der Beitrag übersetzt werden soll
1. Wählen Sie auf der Seite Amazon Polly Settings (Amazon Polly-Einstellungen) unter AmazonTranslate configuration (Amazon Translate-Konfiguration) die Sprache des Beitrags in der Dropdown-Liste Source language (Ausgangssprache).
2. Wählen Sie unter Target languages (Zielsprachen) die Sprachen, in die der Beitrag übersetzt werdensoll.
3. Wählen Sie in der Dropdown-Liste Voice (Stimme) die Stimme für jede Sprache aus.4. Geben Sie eine Bezeichnung für die Sprachauswahl ein.5. Wählen Sie Save Changes.
Audiodateien speichernWenn Sie Inhalt auf Ihrer Website veröffentlichen, wird er zur Synthese an Amazon Polly gesendet.Standardmäßig speichert Amazon Polly neue Audiodateien auf Ihrem Webserver. Außerdem können Siedie Dateien in Amazon Simple Storage Service (Amazon S3) oder in Amazon CloudFront speichern. Dabeihandelt es sich um ein globales Netzwerk zur Bereitstellung von Inhalten (Content Delivery Network, CDN).
Unabhängig davon, wie Sie Ihre Audiodateien speichern, erhalten Benutzer dasselbe Hörerlebnis. Nur derÜbertragungsort ändert sich:
1. Für Audiodateien, die auf dem WordPress-Server gespeichert sind, werden die Dateien direkt vomServer aus übertragen.
2. Für Dateien, die in einem S3-Bucket gespeichert sind, werden die Dateien vom Bucket aus übertragen.3. Wenn Sie CloudFront verwenden, werden die Dateien in Amazon S3 gespeichert und mit CloudFront
übertragen.
186
Amazon Polly EntwicklerhandbuchSpeichern der Audiodateien
Sie können wählen, wo Ihre Dateien gespeichert werden sollen, wenn Sie das Amazon Polly-Plugininstallieren.
Positionieren des HTML-PlayersWenn Sie das Amazon Polly-Plugin installieren, wird standardmäßig ein HTML-Player oben auf IhrerWordPress-Website angezeigt, es sei denn, Sie wählen aus, dass er entweder unter dem Text ihrerWebsite oder gar nicht angezeigt werden soll.
Sie können den Player jederzeit neu positionieren, entfernen oder hinzufügen (wenn Sie ihn nicht anzeigenmöchten).
So ändern Sie die Position des Players, entfernen ihn oder fügen ihn Ihrer WordPress-Websitehinzu
1. Wählen Sie auf der Seite WordPress Admin (WordPress-Admin) die Option Settings (Einstellungen).2. Wählen Sie auf der Seite Amazon Polly Settings (Amazon Polly-Einstellungen) für Player position
(Player-Position) die entsprechende Option aus.
Weitere Informationen zur Einstellung von Konfigurationsoptionen finden Sie unter Plugin installieren undkonfigurieren (p. 183).
187
Amazon Polly EntwicklerhandbuchSpeichern der Audiodateien
Podcasting mit Amazon PollycastMit den Amazon Pollycast-Feeds können Ihre Besucher Ihre Audioinhalte mithilfe von standardmäßigenPodcast-Anwendungen anhören. RSS 2.0-konforme Pollycast-Feeds bieten die erforderlichen XML-Datenfür die Aggregation durch gebräuchliche mobile Anwendungen und Podcast-Verzeichnisse, z. B. iTunes.
Wenn Sie das Amazon Polly-Plugin installieren, wählen Sie die Option ITunes explicit (iTunes explizit) zumautomatischen Hinzufügen von Amazon Pollycast-Endpunkten zu allen Archiv-URLs von WordPress aus.Auf diese Weise können Sie Podcasts gleichzeitig für die gesamte Website oder zielgerichtet bereitstellen.Wenn Sie bei der Installation des Plugins die iTunes explicit (iTunes explizit)-Option nicht gewählt haben,führen Sie die folgenden Schritte aus:
1. Wählen Sie auf der Seite WordPress Admin (WordPress-Admin) die Option Settings (Einstellungen).2. Wählen Sie auf der Seite Amazon Polly Settings (Amazon Polly-Einstellungen) die Option ITunes
explicit (iTunes explizit) aus.
Sie können Amazon Pollycast-Endpunkte manuell hinzufügen, indem Sie der URL für eine Seite einerPodcasts-Anwendung /amazon-pollycast/ hinzufügen. Beispiel:
example.com/amazon-pollycast/example.com/category/news/amazon-pollycast/example.com/author/john/amazon-pollcast/
188
Amazon Polly EntwicklerhandbuchUnterstützte Regionen
Einschränkungen in Amazon PollyNachfolgend werden Einschränkungen beschrieben, über die Sie sich bei der Verwendung von AmazonPolly im Klaren sein sollten.
Unterstützte RegionenEine Liste der AWS-Regionen, in denen Amazon Polly verfügbar ist, finden Sie unter Regionen undEndpunkte in AWS im Allgemeine Amazon Web Services-Referenz.
Drosselung• Drosselungsrate pro Konto: 100 Transaktionen (Anforderungen oder Operationen) pro Sekunde (TPS),
bei einem Steigerungsmaximum von 120 TPS.
Gleichzeitige Verbindungen pro Konto: 90• Drosselungsrate pro Operation:
Operation Limit
Lexikon
DeleteLexicon
PutLexicon
GetLexicon
ListLexicons
Beliebige 2 Transaktionen pro Sekunde (TPS) kombiniert vondiesen Operationen.
Maximal zulässige Steigerung von 4 TPS.
Sprache
DescribeVoices 80 TPS, bei einem Steigerungsmaximum von 100 TPS
SynthesizeSpeech 80 TPS, bei einem Steigerungsmaximum von 100 TPS
StartSpeechSynthesisTask 10 TPS, bei einem Steigerungsmaximum von 12 TPS
GetSynthesizeSpeechTaskundListSynthesizeSpeechTask
Zulässiges Maximum: 10 TPS insgesamt
Aussprachelexika• Pro Konto können maximal 100 Lexika gespeichert werden.• Als Lexikonname dürfen alphanumerische Zeichenfolgen mit maximal 20 Zeichen verwendet werden.• Ein Lexikon darf maximal 4 000 Zeichen enthalten. (Beachten Sie, dass die Größe des Lexikons Einfluss
auf die Latenz der Operation "SynthesizeSpeech" hat.)
189
Amazon Polly EntwicklerhandbuchAPI-Operation "SynthesizeSpeech"
• Sie dürfen je <phoneme>- oder <alias>-Ersatz in einem Lexikon maximal 100 Zeichen angeben.
Weitere Informationen zur Verwendung von Lexika finden Sie unter Verwalten von Lexika (p. 135).
API-Operation "SynthesizeSpeech"Bei der Verwendung der API-Operation SynthesizeSpeech gelten folgende Einschränkungen:
• Der Eingabetext darf maximal 3 500 berechnete Zeichen enthalten (6 000 Zeichen insgesamt). SSML-Tags werden nicht als berechnete Zeichen gezählt.
• Sie dürfen maximal fünf Lexika angeben, die auf den Eingabetext angewendet werden sollen.• Der Ausgabe-Audiostream (Synthese) ist auf 10 Minuten beschränkt. Danach wird jeglicher verbleibende
Sprechtext abgeschnitten.
Weitere Informationen finden Sie unter SynthesizeSpeech (p. 219).
Note
Einige Einschränkungen der API-Operation SynthesizeSpeech können mit der API-OperationStartSythensizeSpeechTask umgangen werden. Weitere Informationen finden Sie unterLange Audiodateien erstellen (p. 147).
SpeechSynthesisTask-API-OperationenFolgende Einschränkungen gelten bei der Verwendung der API-OperationenStartSpeechSynthesisTask, GetSpeechSynthesisTask und ListSpeechSynthesisTasks:
• Der Eingabetext darf maximal 100 000 kostenpflichtige Zeichen enthalten (200 000 Zeichen insgesamt).SSML-Tags werden nicht als berechnete Zeichen gezählt.
• Sie dürfen maximal fünf Lexika angeben, die auf den Eingabetext angewendet werden sollen.
Speech Synthesis Markup Language (SSML)Bei der Verwendung von SSML sind folgende Einschränkungen zu beachten:
• Die Tags <audio>, <lexicon>, <lookup> und <voice> werden nicht unterstützt.• Elemente des Typs <break> dürfen jeweils maximal 10 Sekunden angeben.• Das Tag <prosody> unterstützt für das Attribut "rate" keine niedrigeren Werte als –80 %.
Weitere Informationen finden Sie unter Generieren von Sprachausgaben aus SSML-Dokumenten (p. 31).
190
Amazon Polly EntwicklerhandbuchAmazon Polly-Informationen in CloudTrail
Protokollieren von Amazon Polly-API-Aufrufen mit AWS CloudTrail
Amazon Polly ist in AWS CloudTrail integriert, einen Service, der die Aktionen eines Benutzers, einer Rolleoder eines AWS-Service in Amazon Polly aufzeichnet. CloudTrail erfasst alle API-Aufrufe für AmazonPolly als Ereignisse. Zu den erfassten Aufrufen gehören Aufrufe von der Amazon Polly-Konsole und Code-Aufrufe der Amazon Polly-API-Operationen. Wenn Sie einen Trail erstellen, können Sie die kontinuierlicheBereitstellung von CloudTrail-Ereignissen an einen Amazon S3-Bucket, einschließlich Ereignissen fürAmazon Polly, aktivieren. Auch wenn Sie keinen Trail konfigurieren, können Sie die neuesten Ereignissein der CloudTrail-Konsole in Event history (Ereignisverlauf) anzeigen. Mit den von CloudTrail gesammeltenInformationen können Sie die an Amazon Polly gestellte Anforderung, die IP-Adresse, von der dieAnforderung gestellt wurde, den Initiator sowie den Zeitpunkt der Anforderung und weitere Angabenbestimmen.
Weitere Informationen über CloudTrail, einschließlich Konfiguration und Aktivierung, finden Sie im AWSCloudTrail User Guide.
Amazon Polly-Informationen in CloudTrailCloudTrail wird beim Erstellen Ihres AWS-Kontos für Sie aktiviert. Die in Amazon Polly auftretendenunterstützten Aktivitäten werden als CloudTrail-Ereignis zusammen mit anderen AWS-Serviceereignissenin Event history (Ereignisverlauf) aufgezeichnet. Sie können die neusten Ereignisse in Ihr(em) AWS-Kontoanzeigen, suchen und herunterladen. Weitere Informationen finden Sie unter Anzeigen von Ereignissen mitdem CloudTrail-API-Ereignisverlauf.
Erstellen Sie für eine fortlaufende Aufzeichnung der Ereignisse in Ihrem AWS-Konto, darunter Ereignissefür Amazon Polly, einen Trail. Ein Trail ermöglicht CloudTrail die Übermittlung von Protokolldateien aneinen Amazon S3-Bucket. Wenn Sie einen Pfad in der Konsole anlegen, gilt dieser standardmäßig füralle AWS-Regionen. Der Trail protokolliert Ereignisse aus allen Regionen in der AWS-Partition und stelltdie Protokolldateien in dem Amazon S3-Bucket bereit, den Sie angeben. Darüber hinaus können Sieandere AWS-Services konfigurieren, um die in den CloudTrail-Protokollen erfassten Ereignisdaten weiterzu analysieren und entsprechend zu agieren. Weitere Informationen finden Sie unter:
• Übersicht zum Erstellen eines Pfads• In CloudTrail unterstützte Services und Integrationen• Konfigurieren von Amazon SNS-Benachrichtigungen für CloudTrail• Empfangen von CloudTrail-Protokolldateien aus mehreren Regionen und EmpfangenCloudTrail von
Protokolldateien aus mehreren Konten
Amazon Polly unterstützt die Protokollierung der folgenden Aktionen als Ereignisse in CloudTrail-Protokolldateien:
• DeleteLexicon (p. 198)• DescribeVoices (p. 200)• GetLexicon (p. 203)• GetSpeechSynthesisTask (p. 205)• ListLexicons (p. 207)• ListSpeechSynthesisTasks (p. 209)
191
Amazon Polly EntwicklerhandbuchBeispiel: Amazon Polly-Protokolldateieinträge
• PutLexicon (p. 211)• StartSpeechSynthesisTask (p. 213)• SynthesizeSpeech (p. 219)
Jedes Event oder jeder Protokolleintrag enthält Informationen über den Ersteller der Anfrage. Anhand derIdentitätsinformationen zur Benutzeridentität können Sie Folgendes bestimmen:
• Ob die Anfrage mit Root- oder AWS Identity and Access Management-Benutzeranmeldeinformationen(IAM) ausgeführt wurde.
• Ob die Anfrage mit temporären Sicherheitsanmeldeinformationen für eine Rolle oder einen föderiertenBenutzer ausgeführt wurde.
• Ob die Anfrage von einem anderen AWS-Service getätigt wurde.
Weitere Informationen finden Sie unter CloudTrail-Element "userIdentity".
Beispiel: Amazon Polly-ProtokolldateieinträgeEin Trail ist eine Konfiguration, durch die Ereignisse an den von Ihnen angegebenen Amazon S3-Bucket übermittelt werden. CloudTrail-Protokolldateien können einen oder mehrere Einträge enthalten.Ein Ereignis stellt eine einzelne Anfrage aus einer beliebigen Quelle dar und enthält unter anderemInformationen über die angeforderte Aktion, das Datum und die Uhrzeit der Aktion sowie über dieAnfrageparameter. CloudTrail-Protokolldateien sind kein geordnetes Stacktrace der öffentlichen API-Aufrufe und erscheinen daher nicht in einer bestimmten Reihenfolge.
Das folgende Beispiel zeigt einen CloudTrail-Protokolleintrag, der die Aktion SynthesizeSpeechdemonstriert.
{ "Records": [ { "awsRegion": "us-east-2", "eventID": "19bd70f7-5e60-4cdc-9825-936c552278ae", "eventName": "SynthesizeSpeech", "eventSource": "polly.amazonaws.com", "eventTime": "2016-11-02T03:49:39Z", "eventType": "AwsApiCall", "eventVersion": "1.05", "recipientAccountId": "123456789012", "requestID": "414288c2-a1af-11e6-b17f-d7cfc06cb461", "requestParameters": { "lexiconNames": [ "SampleLexicon" ], "outputFormat": "mp3", "sampleRate": "22050", "text": "**********", "textType": "text", "voiceId": "Kendra" }, "responseElements": { "contentType": "audio/mpeg", "requestCharacters": 25 }, "sourceIPAddress": "1.2.3.4", "userAgent": "Amazon CLI/Polly 1.10 API 2016-06-10", "userIdentity": { "accessKeyId": "EXAMPLE_KEY_ID",
192
Amazon Polly EntwicklerhandbuchBeispiel: Amazon Polly-Protokolldateieinträge
"accountId": "123456789012", "arn": "arn:aws:iam::123456789012:user/Alice", "principalId": "EX_PRINCIPAL_ID", "type": "IAMUser", "userName": "Alice" } }
]}
193
Amazon Polly EntwicklerhandbuchAbrufen von CloudWatch-Metriken (Konsole)
Integrieren von CloudWatch inAmazon Polly
Wenn Sie mit Amazon Polly interagieren, werden jede Minute die folgenden Metriken und Dimensionen anCloudWatch gesandt. Sie können die folgenden Vorgehensweisen nutzen, um die Metriken für AmazonPolly anzuzeigen.
Sie können Amazon Polly mit CloudWatch überwachen. Dabei werden Rohdaten von Amazon Pollygesammelt und zu lesbaren, nahezu Echtzeitmetriken verarbeitet. Diese Statistiken werden für einenZeitraum von zwei Wochen aufgezeichnet, damit Sie auf historical information zugreifen könnenund einen besseren Überblick darüber erhalten, wie Ihre Webanwendung oder der Service ausgeführtwerden. Standardmäßig werden die Metrikdaten von Amazon Polly in Abständen von einer Minute anCloudWatch gesandt. Weitere Informationen finden Sie unter Was ist Amazon CloudWatch im AmazonCloudWatch-Benutzerhandbuch.
Abrufen von CloudWatch-Metriken (Konsole)1. Öffnen Sie die CloudWatch-Konsole unter https://console.aws.amazon.com/cloudwatch/.2. Wählen Sie im Navigationsbereich Metrics aus.3. Wählen Sie im Bereich CloudWatch-Metriken nach Kategorie unter der Metrikenkategorie für
Amazon Polly eine Metrikenkategorie aus und scrollen Sie dann im oberen Bereich herunter, um dievollständige Liste der Metriken anzuzeigen.
Abrufen von CloudWatch-Metriken (CLI)Der folgende Code zeigt für Amazon Polly verfügbare Metriken an.
aws cloudwatch list-metrics --namespace "AWS/Polly"
Dieser Befehl gibt eine Liste der Amazon Polly-Metriken aus, die in etwa Folgendermaßen aussieht. DasElement MetricName gibt an, worum es sich bei der Metrik handelt.
{ "Metrics": [ { "Namespace": "AWS/Polly", "Dimensions": [ { "Name": "Operation", "Value": "SynthesizeSpeech" } ], "MetricName": "ResponseLatency" }, {
194
Amazon Polly EntwicklerhandbuchAmazon Polly-Metriken
"Namespace": "AWS/Polly", "Dimensions": [ { "Name": "Operation", "Value": "SynthesizeSpeech" } ], "MetricName": "RequestCharacters" }
Weitere Informationen finden Sie unter GetMetricStatistics in der Amazon CloudWatch-API-Referenz.
Amazon Polly-MetrikenAmazon Polly erstellt die folgenden Metriken pro Anfrage. Diese Metriken werden zusammengefasst und in1-Minuten-Intervallen an &CW gesendet. Sie sind dort verfügbar.
Metrik Beschreibung
RequestCharacters Anzahl der Zeichen in der Anfrage. Es handelt sichausschließlich um kostenpflichtige Zeichen ohne SSML-Tags.
Gültige Dimension: Operation
Gültige Statistiken: Minimum, Maximum, Durchschnitt,SampleCount, Summe
Einheit: Anzahl
ResponseLatency Latenz zwischen der Anfrage und dem Start desStreamings.
Gültige Dimensionen: Operation
Gültige Statistiken: Minimum, Maximum, Durchschnitt,SampleCount
Einheit: Millisekunden
2XXCount Bei einer erfolgreichen Antwort wird der HTTP-Fehlercode 200 zurückgegeben.
Gültige Dimensionen: Operation
Gültige Statistiken: Durchschnitt, SampleCount, Summe
Einheit: Anzahl
4XXCount Bei einem Fehler wird der HTTP-Fehlercode 400zurückgegeben. Für jede erfolgreiche Antwort wird null(0) zurückgegeben.
Gültige Dimensionen: Operation
Gültige Statistiken: Durchschnitt, SampleCount, Summe
Einheit: Anzahl
195
Amazon Polly EntwicklerhandbuchDimensionen für Amazon Polly-Metriken
Metrik Beschreibung
5XXCount Bei einem Fehler wird der HTTP-Fehlercode 500zurückgegeben. Für jede erfolgreiche Antwort wird null(0) zurückgegeben.
Gültige Dimensionen: Operation
Gültige Statistiken: Durchschnitt, SampleCount, Summe
Einheit: Anzahl
Dimensionen für Amazon Polly-MetrikenDie Amazon Polly-Metriken verwenden den AWS/Polly-Namespace und stellen Metriken für folgendeDimension bereit:
Dimension Beschreibung
Operation Die Metriken werden entsprechend der API-Methodegruppiert, auf die sie sich beziehen. Die möglichenWerte lauten SynthesizeSpeech, PutLexicon,DescribeVoices usw.
196
Amazon Polly EntwicklerhandbuchActions
Amazon Polly-API-ReferenzDieser Abschnitt enthält die API-Referenz zu Amazon Polly.
Note
Authentifizierte API-Aufrufe müssen mithilfe dem Signature Version 4-Signaturprozess signiertwerden. Weitere Informationen dazu finden Sie unter Signieren von AWS-API-Anfragen imAllgemeine Amazon Web Services-Referenz.
Topics
• Actions (p. 197)• Data Types (p. 223)
ActionsThe following actions are supported:
• DeleteLexicon (p. 198)• DescribeVoices (p. 200)• GetLexicon (p. 203)• GetSpeechSynthesisTask (p. 205)• ListLexicons (p. 207)• ListSpeechSynthesisTasks (p. 209)• PutLexicon (p. 211)• StartSpeechSynthesisTask (p. 213)• SynthesizeSpeech (p. 219)
197
Amazon Polly EntwicklerhandbuchDeleteLexicon
DeleteLexiconDeletes the specified pronunciation lexicon stored in an AWS Region. A lexicon which has been deletedis not available for speech synthesis, nor is it possible to retrieve it using either the GetLexicon orListLexicon APIs.
For more information, see Managing Lexicons.
Request SyntaxDELETE /v1/lexicons/LexiconName HTTP/1.1
URI Request ParametersThe request requires the following URI parameters.
Name (p. 198)
The name of the lexicon to delete. Must be an existing lexicon in the region.
Pattern: [0-9A-Za-z]{1,20}
Request BodyThe request does not have a request body.
Response SyntaxHTTP/1.1 200
Response ElementsIf the action is successful, the service sends back an HTTP 200 response with an empty HTTP body.
ErrorsLexiconNotFoundException
Amazon Polly can't find the specified lexicon. This could be caused by a lexicon that is missing, itsname is misspelled or specifying a lexicon that is in a different region.
Verify that the lexicon exists, is in the region (see ListLexicons (p. 207)) and that you spelled its nameis spelled correctly. Then try again.
HTTP Status Code: 404ServiceFailureException
An unknown condition has caused a service failure.
HTTP Status Code: 500
See AlsoFor more information about using this API in one of the language-specific AWS SDKs, see the following:
198
Amazon Polly EntwicklerhandbuchDeleteLexicon
• AWS Command Line Interface• AWS SDK for .NET• AWS SDK for C++• AWS SDK for Go• AWS SDK for Go - Pilot• AWS SDK for Java• AWS SDK for JavaScript• AWS SDK for PHP V3• AWS SDK for Python• AWS SDK for Ruby V2
199
Amazon Polly EntwicklerhandbuchDescribeVoices
DescribeVoicesReturns the list of voices that are available for use when requesting speech synthesis. Each voice speaksa specified language, is either male or female, and is identified by an ID, which is the ASCII version of thevoice name.
When synthesizing speech ( SynthesizeSpeech ), you provide the voice ID for the voice you want fromthe list of voices returned by DescribeVoices.
For example, you want your news reader application to read news in a specific language, but giving a userthe option to choose the voice. Using the DescribeVoices operation you can provide the user with a listof available voices to select from.
You can optionally specify a language code to filter the available voices. For example, if you specify en-US,the operation returns a list of all available US English voices.
This operation requires permissions to perform the polly:DescribeVoices action.
Request Syntax
GET /v1/voices?Engine=Engine&IncludeAdditionalLanguageCodes=IncludeAdditionalLanguageCodes&LanguageCode=LanguageCode&NextToken=NextToken HTTP/1.1
URI Request ParametersThe request requires the following URI parameters.
Engine (p. 200)
Specifies the engine (standard or neural) used by Amazon Polly when processing input text forspeech synthesis.
Valid Values: standard | neuralIncludeAdditionalLanguageCodes (p. 200)
Boolean value indicating whether to return any bilingual voices that use the specified language asan additional language. For instance, if you request all languages that use US English (es-US), andthere is an Italian voice that speaks both Italian (it-IT) and US English, that voice will be included if youspecify yes but not if you specify no.
LanguageCode (p. 200)
The language identification tag (ISO 639 code for the language name-ISO 3166 country code) forfiltering the list of voices returned. If you don't specify this optional parameter, all available voices arereturned.
Valid Values: arb | cmn-CN | cy-GB | da-DK | de-DE | en-AU | en-GB | en-GB-WLS| en-IN | en-US | es-ES | es-MX | es-US | fr-CA | fr-FR | is-IS | it-IT |ja-JP | hi-IN | ko-KR | nb-NO | nl-NL | pl-PL | pt-BR | pt-PT | ro-RO | ru-RU | sv-SE | tr-TR
NextToken (p. 200)
An opaque pagination token returned from the previous DescribeVoices operation. If present, thisindicates where to continue the listing.
Length Constraints: Minimum length of 0. Maximum length of 4096.
200
Amazon Polly EntwicklerhandbuchDescribeVoices
Request BodyThe request does not have a request body.
Response Syntax
HTTP/1.1 200Content-type: application/json
{ "NextToken": "string", "Voices": [ { "AdditionalLanguageCodes": [ "string" ], "Gender": "string", "Id": "string", "LanguageCode": "string", "LanguageName": "string", "Name": "string", "SupportedEngines": [ "string" ] } ]}
Response ElementsIf the action is successful, the service sends back an HTTP 200 response.
The following data is returned in JSON format by the service.
NextToken (p. 201)
The pagination token to use in the next request to continue the listing of voices. NextToken isreturned only if the response is truncated.
Type: String
Length Constraints: Minimum length of 0. Maximum length of 4096.Voices (p. 201)
A list of voices with their properties.
Type: Array of Voice (p. 231) objects
ErrorsInvalidNextTokenException
The NextToken is invalid. Verify that it's spelled correctly, and then try again.
HTTP Status Code: 400ServiceFailureException
An unknown condition has caused a service failure.
HTTP Status Code: 500
201
Amazon Polly EntwicklerhandbuchDescribeVoices
See AlsoFor more information about using this API in one of the language-specific AWS SDKs, see the following:
• AWS Command Line Interface• AWS SDK for .NET• AWS SDK for C++• AWS SDK for Go• AWS SDK for Go - Pilot• AWS SDK for Java• AWS SDK for JavaScript• AWS SDK for PHP V3• AWS SDK for Python• AWS SDK for Ruby V2
202
Amazon Polly EntwicklerhandbuchGetLexicon
GetLexiconReturns the content of the specified pronunciation lexicon stored in an AWS Region. For more information,see Managing Lexicons.
Request Syntax
GET /v1/lexicons/LexiconName HTTP/1.1
URI Request ParametersThe request requires the following URI parameters.
Name (p. 203)
Name of the lexicon.
Pattern: [0-9A-Za-z]{1,20}
Request BodyThe request does not have a request body.
Response Syntax
HTTP/1.1 200Content-type: application/json
{ "Lexicon": { "Content": "string", "Name": "string" }, "LexiconAttributes": { "Alphabet": "string", "LanguageCode": "string", "LastModified": number, "LexemesCount": number, "LexiconArn": "string", "Size": number }}
Response ElementsIf the action is successful, the service sends back an HTTP 200 response.
The following data is returned in JSON format by the service.
Lexicon (p. 203)
Lexicon object that provides name and the string content of the lexicon.
Type: Lexicon (p. 224) object
203
Amazon Polly EntwicklerhandbuchGetLexicon
LexiconAttributes (p. 203)
Metadata of the lexicon, including phonetic alphabetic used, language code, lexicon ARN, number oflexemes defined in the lexicon, and size of lexicon in bytes.
Type: LexiconAttributes (p. 225) object
ErrorsLexiconNotFoundException
Amazon Polly can't find the specified lexicon. This could be caused by a lexicon that is missing, itsname is misspelled or specifying a lexicon that is in a different region.
Verify that the lexicon exists, is in the region (see ListLexicons (p. 207)) and that you spelled its nameis spelled correctly. Then try again.
HTTP Status Code: 404ServiceFailureException
An unknown condition has caused a service failure.
HTTP Status Code: 500
See AlsoFor more information about using this API in one of the language-specific AWS SDKs, see the following:
• AWS Command Line Interface• AWS SDK for .NET• AWS SDK for C++• AWS SDK for Go• AWS SDK for Go - Pilot• AWS SDK for Java• AWS SDK for JavaScript• AWS SDK for PHP V3• AWS SDK for Python• AWS SDK for Ruby V2
204
Amazon Polly EntwicklerhandbuchGetSpeechSynthesisTask
GetSpeechSynthesisTaskRetrieves a specific SpeechSynthesisTask object based on its TaskID. This object contains informationabout the given speech synthesis task, including the status of the task, and a link to the S3 bucketcontaining the output of the task.
Request Syntax
GET /v1/synthesisTasks/TaskId HTTP/1.1
URI Request ParametersThe request requires the following URI parameters.
TaskId (p. 205)
The Amazon Polly generated identifier for a speech synthesis task.
Pattern: ^[a-zA-Z0-9_-]{1,100}$
Request BodyThe request does not have a request body.
Response Syntax
HTTP/1.1 200Content-type: application/json
{ "SynthesisTask": { "CreationTime": number, "Engine": "string", "LanguageCode": "string", "LexiconNames": [ "string" ], "OutputFormat": "string", "OutputUri": "string", "RequestCharacters": number, "SampleRate": "string", "SnsTopicArn": "string", "SpeechMarkTypes": [ "string" ], "TaskId": "string", "TaskStatus": "string", "TaskStatusReason": "string", "TextType": "string", "VoiceId": "string" }}
Response ElementsIf the action is successful, the service sends back an HTTP 200 response.
The following data is returned in JSON format by the service.
205
Amazon Polly EntwicklerhandbuchGetSpeechSynthesisTask
SynthesisTask (p. 205)
SynthesisTask object that provides information from the requested task, including output format,creation time, task status, and so on.
Type: SynthesisTask (p. 228) object
ErrorsInvalidTaskIdException
The provided Task ID is not valid. Please provide a valid Task ID and try again.
HTTP Status Code: 400ServiceFailureException
An unknown condition has caused a service failure.
HTTP Status Code: 500SynthesisTaskNotFoundException
The Speech Synthesis task with requested Task ID cannot be found.
HTTP Status Code: 400
See AlsoFor more information about using this API in one of the language-specific AWS SDKs, see the following:
• AWS Command Line Interface• AWS SDK for .NET• AWS SDK for C++• AWS SDK for Go• AWS SDK for Go - Pilot• AWS SDK for Java• AWS SDK for JavaScript• AWS SDK for PHP V3• AWS SDK for Python• AWS SDK for Ruby V2
206
Amazon Polly EntwicklerhandbuchListLexicons
ListLexiconsReturns a list of pronunciation lexicons stored in an AWS Region. For more information, see ManagingLexicons.
Request Syntax
GET /v1/lexicons?NextToken=NextToken HTTP/1.1
URI Request ParametersThe request requires the following URI parameters.
NextToken (p. 207)
An opaque pagination token returned from previous ListLexicons operation. If present, indicateswhere to continue the list of lexicons.
Length Constraints: Minimum length of 0. Maximum length of 4096.
Request BodyThe request does not have a request body.
Response Syntax
HTTP/1.1 200Content-type: application/json
{ "Lexicons": [ { "Attributes": { "Alphabet": "string", "LanguageCode": "string", "LastModified": number, "LexemesCount": number, "LexiconArn": "string", "Size": number }, "Name": "string" } ], "NextToken": "string"}
Response ElementsIf the action is successful, the service sends back an HTTP 200 response.
The following data is returned in JSON format by the service.
Lexicons (p. 207)
A list of lexicon names and attributes.
207
Amazon Polly EntwicklerhandbuchListLexicons
Type: Array of LexiconDescription (p. 227) objectsNextToken (p. 207)
The pagination token to use in the next request to continue the listing of lexicons. NextToken isreturned only if the response is truncated.
Type: String
Length Constraints: Minimum length of 0. Maximum length of 4096.
ErrorsInvalidNextTokenException
The NextToken is invalid. Verify that it's spelled correctly, and then try again.
HTTP Status Code: 400ServiceFailureException
An unknown condition has caused a service failure.
HTTP Status Code: 500
See AlsoFor more information about using this API in one of the language-specific AWS SDKs, see the following:
• AWS Command Line Interface• AWS SDK for .NET• AWS SDK for C++• AWS SDK for Go• AWS SDK for Go - Pilot• AWS SDK for Java• AWS SDK for JavaScript• AWS SDK for PHP V3• AWS SDK for Python• AWS SDK for Ruby V2
208
Amazon Polly EntwicklerhandbuchListSpeechSynthesisTasks
ListSpeechSynthesisTasksReturns a list of SpeechSynthesisTask objects ordered by their creation date. This operation can filter thetasks by their status, for example, allowing users to list only tasks that are completed.
Request SyntaxGET /v1/synthesisTasks?MaxResults=MaxResults&NextToken=NextToken&Status=Status HTTP/1.1
URI Request ParametersThe request requires the following URI parameters.
MaxResults (p. 209)
Maximum number of speech synthesis tasks returned in a List operation.
Valid Range: Minimum value of 1. Maximum value of 100.NextToken (p. 209)
The pagination token to use in the next request to continue the listing of speech synthesis tasks.
Length Constraints: Minimum length of 0. Maximum length of 4096.Status (p. 209)
Status of the speech synthesis tasks returned in a List operation
Valid Values: scheduled | inProgress | completed | failed
Request BodyThe request does not have a request body.
Response SyntaxHTTP/1.1 200Content-type: application/json
{ "NextToken": "string", "SynthesisTasks": [ { "CreationTime": number, "Engine": "string", "LanguageCode": "string", "LexiconNames": [ "string" ], "OutputFormat": "string", "OutputUri": "string", "RequestCharacters": number, "SampleRate": "string", "SnsTopicArn": "string", "SpeechMarkTypes": [ "string" ], "TaskId": "string", "TaskStatus": "string", "TaskStatusReason": "string", "TextType": "string", "VoiceId": "string"
209
Amazon Polly EntwicklerhandbuchListSpeechSynthesisTasks
} ]}
Response ElementsIf the action is successful, the service sends back an HTTP 200 response.
The following data is returned in JSON format by the service.
NextToken (p. 209)
An opaque pagination token returned from the previous List operation in this request. If present, thisindicates where to continue the listing.
Type: String
Length Constraints: Minimum length of 0. Maximum length of 4096.SynthesisTasks (p. 209)
List of SynthesisTask objects that provides information from the specified task in the list request,including output format, creation time, task status, and so on.
Type: Array of SynthesisTask (p. 228) objects
ErrorsInvalidNextTokenException
The NextToken is invalid. Verify that it's spelled correctly, and then try again.
HTTP Status Code: 400ServiceFailureException
An unknown condition has caused a service failure.
HTTP Status Code: 500
See AlsoFor more information about using this API in one of the language-specific AWS SDKs, see the following:
• AWS Command Line Interface• AWS SDK for .NET• AWS SDK for C++• AWS SDK for Go• AWS SDK for Go - Pilot• AWS SDK for Java• AWS SDK for JavaScript• AWS SDK for PHP V3• AWS SDK for Python• AWS SDK for Ruby V2
210
Amazon Polly EntwicklerhandbuchPutLexicon
PutLexiconStores a pronunciation lexicon in an AWS Region. If a lexicon with the same name already exists in theregion, it is overwritten by the new lexicon. Lexicon operations have eventual consistency, therefore, itmight take some time before the lexicon is available to the SynthesizeSpeech operation.
For more information, see Managing Lexicons.
Request SyntaxPUT /v1/lexicons/LexiconName HTTP/1.1Content-type: application/json
{ "Content": "string"}
URI Request ParametersThe request requires the following URI parameters.
Name (p. 211)
Name of the lexicon. The name must follow the regular express format [0-9A-Za-z]{1,20}. That is, thename is a case-sensitive alphanumeric string up to 20 characters long.
Pattern: [0-9A-Za-z]{1,20}
Request BodyThe request accepts the following data in JSON format.
Content (p. 211)
Content of the PLS lexicon as string data.
Type: String
Required: Yes
Response SyntaxHTTP/1.1 200
Response ElementsIf the action is successful, the service sends back an HTTP 200 response with an empty HTTP body.
ErrorsInvalidLexiconException
Amazon Polly can't find the specified lexicon. Verify that the lexicon's name is spelled correctly, andthen try again.
211
Amazon Polly EntwicklerhandbuchPutLexicon
HTTP Status Code: 400LexiconSizeExceededException
The maximum size of the specified lexicon would be exceeded by this operation.
HTTP Status Code: 400MaxLexemeLengthExceededException
The maximum size of the lexeme would be exceeded by this operation.
HTTP Status Code: 400MaxLexiconsNumberExceededException
The maximum number of lexicons would be exceeded by this operation.
HTTP Status Code: 400ServiceFailureException
An unknown condition has caused a service failure.
HTTP Status Code: 500UnsupportedPlsAlphabetException
The alphabet specified by the lexicon is not a supported alphabet. Valid values are x-sampa and ipa.
HTTP Status Code: 400UnsupportedPlsLanguageException
The language specified in the lexicon is unsupported. For a list of supported languages, see LexiconAttributes.
HTTP Status Code: 400
See AlsoFor more information about using this API in one of the language-specific AWS SDKs, see the following:
• AWS Command Line Interface• AWS SDK for .NET• AWS SDK for C++• AWS SDK for Go• AWS SDK for Go - Pilot• AWS SDK for Java• AWS SDK for JavaScript• AWS SDK for PHP V3• AWS SDK for Python• AWS SDK for Ruby V2
212
Amazon Polly EntwicklerhandbuchStartSpeechSynthesisTask
StartSpeechSynthesisTaskAllows the creation of an asynchronous synthesis task, by starting a new SpeechSynthesisTask.This operation requires all the standard information needed for speech synthesis, plus the name of anAmazon S3 bucket for the service to store the output of the synthesis task and two optional parameters(OutputS3KeyPrefix and SnsTopicArn). Once the synthesis task is created, this operation will return aSpeechSynthesisTask object, which will include an identifier of this task as well as the current status.
Request Syntax
POST /v1/synthesisTasks HTTP/1.1Content-type: application/json
{ "Engine": "string", "LanguageCode": "string", "LexiconNames": [ "string" ], "OutputFormat": "string", "OutputS3BucketName": "string", "OutputS3KeyPrefix": "string", "SampleRate": "string", "SnsTopicArn": "string", "SpeechMarkTypes": [ "string" ], "Text": "string", "TextType": "string", "VoiceId": "string"}
URI Request ParametersThe request does not use any URI parameters.
Request BodyThe request accepts the following data in JSON format.
Engine (p. 213)
Specifies the engine (standard or neural) for Amazon Polly to use when processing input text forspeech synthesis. Using a voice that is not supported for the engine selected will result in an error.
Type: String
Valid Values: standard | neural
Required: NoLanguageCode (p. 213)
Optional language code for the Speech Synthesis request. This is only necessary if using a bilingualvoice, such as Aditi, which can be used for either Indian English (en-IN) or Hindi (hi-IN).
If a bilingual voice is used and no language code is specified, Amazon Polly will use the defaultlanguage of the bilingual voice. The default language for any voice is the one returned by theDescribeVoices operation for the LanguageCode parameter. For example, if no language code isspecified, Aditi will use Indian English rather than Hindi.
Type: String
213
Amazon Polly EntwicklerhandbuchStartSpeechSynthesisTask
Valid Values: arb | cmn-CN | cy-GB | da-DK | de-DE | en-AU | en-GB | en-GB-WLS| en-IN | en-US | es-ES | es-MX | es-US | fr-CA | fr-FR | is-IS | it-IT |ja-JP | hi-IN | ko-KR | nb-NO | nl-NL | pl-PL | pt-BR | pt-PT | ro-RO | ru-RU | sv-SE | tr-TR
Required: NoLexiconNames (p. 213)
List of one or more pronunciation lexicon names you want the service to apply during synthesis.Lexicons are applied only if the language of the lexicon is the same as the language of the voice.
Type: Array of strings
Array Members: Maximum number of 5 items.
Pattern: [0-9A-Za-z]{1,20}
Required: NoOutputFormat (p. 213)
The format in which the returned output will be encoded. For audio stream, this will be mp3,ogg_vorbis, or pcm. For speech marks, this will be json.
Type: String
Valid Values: json | mp3 | ogg_vorbis | pcm
Required: YesOutputS3BucketName (p. 213)
Amazon S3 bucket name to which the output file will be saved.
Type: String
Pattern: ^[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9]$
Required: YesOutputS3KeyPrefix (p. 213)
The Amazon S3 key prefix for the output speech file.
Type: String
Pattern: ^[0-9a-zA-Z\/\!\-_\.\*\'\(\)]{0,800}$
Required: NoSampleRate (p. 213)
The audio frequency specified in Hz.
The valid values for mp3 and ogg_vorbis are "8000", "16000", "22050", and "24000". The default valuefor standard voices is "22050". The default value for neural voices is "24000".
Valid values for pcm are "8000" and "16000" The default value is "16000".
Type: String
Required: NoSnsTopicArn (p. 213)
ARN for the SNS topic optionally used for providing status notification for a speech synthesis task.
214
Amazon Polly EntwicklerhandbuchStartSpeechSynthesisTask
Type: String
Pattern: ^arn:aws(-(cn|iso(-b)?|us-gov))?:sns:[a-z0-9_-]{1,50}:\d{12}:[a-zA-Z0-9_-]{1,256}$
Required: NoSpeechMarkTypes (p. 213)
The type of speech marks returned for the input text.
Type: Array of strings
Array Members: Maximum number of 4 items.
Valid Values: sentence | ssml | viseme | word
Required: NoText (p. 213)
The input text to synthesize. If you specify ssml as the TextType, follow the SSML format for the inputtext.
Type: String
Required: YesTextType (p. 213)
Specifies whether the input text is plain text or SSML. The default value is plain text.
Type: String
Valid Values: ssml | text
Required: NoVoiceId (p. 213)
Voice ID to use for the synthesis.
Type: String
Valid Values: Aditi | Amy | Astrid | Bianca | Brian | Carla | Carmen | Celine| Chantal | Conchita | Cristiano | Dora | Emma | Enrique | Ewa | Filiz |Geraint | Giorgio | Gwyneth | Hans | Ines | Ivy | Jacek | Jan | Joanna |Joey | Justin | Karl | Kendra | Kimberly | Lea | Liv | Lotte | Lucia | Mads| Maja | Marlene | Mathieu | Matthew | Maxim | Mia | Miguel | Mizuki | Naja| Nicole | Penelope | Raveena | Ricardo | Ruben | Russell | Salli | Seoyeon| Takumi | Tatyana | Vicki | Vitoria | Zeina | Zhiyu
Required: Yes
Response Syntax
HTTP/1.1 200Content-type: application/json
{ "SynthesisTask": { "CreationTime": number,
215
Amazon Polly EntwicklerhandbuchStartSpeechSynthesisTask
"Engine": "string", "LanguageCode": "string", "LexiconNames": [ "string" ], "OutputFormat": "string", "OutputUri": "string", "RequestCharacters": number, "SampleRate": "string", "SnsTopicArn": "string", "SpeechMarkTypes": [ "string" ], "TaskId": "string", "TaskStatus": "string", "TaskStatusReason": "string", "TextType": "string", "VoiceId": "string" }}
Response ElementsIf the action is successful, the service sends back an HTTP 200 response.
The following data is returned in JSON format by the service.
SynthesisTask (p. 215)
SynthesisTask object that provides information and attributes about a newly submitted speechsynthesis task.
Type: SynthesisTask (p. 228) object
ErrorsEngineNotSupportedException
This engine is not compatible with the voice that you have designated. Choose a new voice that iscompatible with the engine or change the engine and restart the operation.
HTTP Status Code: 400InvalidS3BucketException
The provided Amazon S3 bucket name is invalid. Please check your input with S3 bucket namingrequirements and try again.
HTTP Status Code: 400InvalidS3KeyException
The provided Amazon S3 key prefix is invalid. Please provide a valid S3 object key name.
HTTP Status Code: 400InvalidSampleRateException
The specified sample rate is not valid.
HTTP Status Code: 400InvalidSnsTopicArnException
The provided SNS topic ARN is invalid. Please provide a valid SNS topic ARN and try again.
HTTP Status Code: 400
216
Amazon Polly EntwicklerhandbuchStartSpeechSynthesisTask
InvalidSsmlException
The SSML you provided is invalid. Verify the SSML syntax, spelling of tags and values, and then tryagain.
HTTP Status Code: 400LanguageNotSupportedException
The language specified is not currently supported by Amazon Polly in this capacity.
HTTP Status Code: 400LexiconNotFoundException
Amazon Polly can't find the specified lexicon. This could be caused by a lexicon that is missing, itsname is misspelled or specifying a lexicon that is in a different region.
Verify that the lexicon exists, is in the region (see ListLexicons (p. 207)) and that you spelled its nameis spelled correctly. Then try again.
HTTP Status Code: 404MarksNotSupportedForFormatException
Speech marks are not supported for the OutputFormat selected. Speech marks are only available forcontent in json format.
HTTP Status Code: 400ServiceFailureException
An unknown condition has caused a service failure.
HTTP Status Code: 500SsmlMarksNotSupportedForTextTypeException
SSML speech marks are not supported for plain text-type input.
HTTP Status Code: 400TextLengthExceededException
The value of the "Text" parameter is longer than the accepted limits. For the SynthesizeSpeech API,the limit for input text is a maximum of 6000 characters total, of which no more than 3000 can be billedcharacters. For the StartSpeechSynthesisTask API, the maximum is 200,000 characters, of whichno more than 100,000 can be billed characters. SSML tags are not counted as billed characters.
HTTP Status Code: 400
See AlsoFor more information about using this API in one of the language-specific AWS SDKs, see the following:
• AWS Command Line Interface• AWS SDK for .NET• AWS SDK for C++• AWS SDK for Go• AWS SDK for Go - Pilot• AWS SDK for Java• AWS SDK for JavaScript
217
Amazon Polly EntwicklerhandbuchStartSpeechSynthesisTask
• AWS SDK for PHP V3• AWS SDK for Python• AWS SDK for Ruby V2
218
Amazon Polly EntwicklerhandbuchSynthesizeSpeech
SynthesizeSpeechSynthesizes UTF-8 input, plain text or SSML, to a stream of bytes. SSML input must be valid, well-formedSSML. Some alphabets might not be available with all the voices (for example, Cyrillic might not be read atall by English voices) unless phoneme mapping is used. For more information, see How it Works.
Request Syntax
POST /v1/speech HTTP/1.1Content-type: application/json
{ "Engine": "string", "LanguageCode": "string", "LexiconNames": [ "string" ], "OutputFormat": "string", "SampleRate": "string", "SpeechMarkTypes": [ "string" ], "Text": "string", "TextType": "string", "VoiceId": "string"}
URI Request ParametersThe request does not use any URI parameters.
Request BodyThe request accepts the following data in JSON format.
Engine (p. 219)
Specifies the engine (standard or neural) for Amazon Polly to use when processing input text forspeech synthesis. Using a voice that is not supported for the engine selected will result in an error.
Type: String
Valid Values: standard | neural
Required: NoLanguageCode (p. 219)
Optional language code for the Synthesize Speech request. This is only necessary if using a bilingualvoice, such as Aditi, which can be used for either Indian English (en-IN) or Hindi (hi-IN).
If a bilingual voice is used and no language code is specified, Amazon Polly will use the defaultlanguage of the bilingual voice. The default language for any voice is the one returned by theDescribeVoices operation for the LanguageCode parameter. For example, if no language code isspecified, Aditi will use Indian English rather than Hindi.
Type: String
Valid Values: arb | cmn-CN | cy-GB | da-DK | de-DE | en-AU | en-GB | en-GB-WLS| en-IN | en-US | es-ES | es-MX | es-US | fr-CA | fr-FR | is-IS | it-IT |ja-JP | hi-IN | ko-KR | nb-NO | nl-NL | pl-PL | pt-BR | pt-PT | ro-RO | ru-RU | sv-SE | tr-TR
219
Amazon Polly EntwicklerhandbuchSynthesizeSpeech
Required: NoLexiconNames (p. 219)
List of one or more pronunciation lexicon names you want the service to apply during synthesis.Lexicons are applied only if the language of the lexicon is the same as the language of the voice. Forinformation about storing lexicons, see PutLexicon.
Type: Array of strings
Array Members: Maximum number of 5 items.
Pattern: [0-9A-Za-z]{1,20}
Required: NoOutputFormat (p. 219)
The format in which the returned output will be encoded. For audio stream, this will be mp3,ogg_vorbis, or pcm. For speech marks, this will be json.
When pcm is used, the content returned is audio/pcm in a signed 16-bit, 1 channel (mono), little-endianformat.
Type: String
Valid Values: json | mp3 | ogg_vorbis | pcm
Required: YesSampleRate (p. 219)
The audio frequency specified in Hz.
The valid values for mp3 and ogg_vorbis are "8000", "16000", "22050", and "24000". The default valuefor standard voices is "22050". The default value for neural voices is "24000".
Valid values for pcm are "8000" and "16000" The default value is "16000".
Type: String
Required: NoSpeechMarkTypes (p. 219)
The type of speech marks returned for the input text.
Type: Array of strings
Array Members: Maximum number of 4 items.
Valid Values: sentence | ssml | viseme | word
Required: NoText (p. 219)
Input text to synthesize. If you specify ssml as the TextType, follow the SSML format for the inputtext.
Type: String
Required: Yes
220
Amazon Polly EntwicklerhandbuchSynthesizeSpeech
TextType (p. 219)
Specifies whether the input text is plain text or SSML. The default value is plain text. For moreinformation, see Using SSML.
Type: String
Valid Values: ssml | text
Required: NoVoiceId (p. 219)
Voice ID to use for the synthesis. You can get a list of available voice IDs by calling the DescribeVoicesoperation.
Type: String
Valid Values: Aditi | Amy | Astrid | Bianca | Brian | Carla | Carmen | Celine| Chantal | Conchita | Cristiano | Dora | Emma | Enrique | Ewa | Filiz |Geraint | Giorgio | Gwyneth | Hans | Ines | Ivy | Jacek | Jan | Joanna |Joey | Justin | Karl | Kendra | Kimberly | Lea | Liv | Lotte | Lucia | Mads| Maja | Marlene | Mathieu | Matthew | Maxim | Mia | Miguel | Mizuki | Naja| Nicole | Penelope | Raveena | Ricardo | Ruben | Russell | Salli | Seoyeon| Takumi | Tatyana | Vicki | Vitoria | Zeina | Zhiyu
Required: Yes
Response Syntax
HTTP/1.1 200Content-Type: ContentTypex-amzn-RequestCharacters: RequestCharacters
AudioStream
Response ElementsIf the action is successful, the service sends back an HTTP 200 response.
The response returns the following HTTP headers.
ContentType (p. 221)
Specifies the type audio stream. This should reflect the OutputFormat parameter in your request.• If you request mp3 as the OutputFormat, the ContentType returned is audio/mpeg.• If you request ogg_vorbis as the OutputFormat, the ContentType returned is audio/ogg.• If you request pcm as the OutputFormat, the ContentType returned is audio/pcm in a signed 16-
bit, 1 channel (mono), little-endian format.• If you request json as the OutputFormat, the ContentType returned is audio/json.
RequestCharacters (p. 221)
Number of characters synthesized.
The response returns the following as the HTTP body.
221
Amazon Polly EntwicklerhandbuchSynthesizeSpeech
AudioStream (p. 221)
Stream containing the synthesized speech.
ErrorsEngineNotSupportedException
This engine is not compatible with the voice that you have designated. Choose a new voice that iscompatible with the engine or change the engine and restart the operation.
HTTP Status Code: 400InvalidSampleRateException
The specified sample rate is not valid.
HTTP Status Code: 400InvalidSsmlException
The SSML you provided is invalid. Verify the SSML syntax, spelling of tags and values, and then tryagain.
HTTP Status Code: 400LanguageNotSupportedException
The language specified is not currently supported by Amazon Polly in this capacity.
HTTP Status Code: 400LexiconNotFoundException
Amazon Polly can't find the specified lexicon. This could be caused by a lexicon that is missing, itsname is misspelled or specifying a lexicon that is in a different region.
Verify that the lexicon exists, is in the region (see ListLexicons (p. 207)) and that you spelled its nameis spelled correctly. Then try again.
HTTP Status Code: 404MarksNotSupportedForFormatException
Speech marks are not supported for the OutputFormat selected. Speech marks are only available forcontent in json format.
HTTP Status Code: 400ServiceFailureException
An unknown condition has caused a service failure.
HTTP Status Code: 500SsmlMarksNotSupportedForTextTypeException
SSML speech marks are not supported for plain text-type input.
HTTP Status Code: 400TextLengthExceededException
The value of the "Text" parameter is longer than the accepted limits. For the SynthesizeSpeech API,the limit for input text is a maximum of 6000 characters total, of which no more than 3000 can be billed
222
Amazon Polly EntwicklerhandbuchData Types
characters. For the StartSpeechSynthesisTask API, the maximum is 200,000 characters, of whichno more than 100,000 can be billed characters. SSML tags are not counted as billed characters.
HTTP Status Code: 400
See AlsoFor more information about using this API in one of the language-specific AWS SDKs, see the following:
• AWS Command Line Interface• AWS SDK for .NET• AWS SDK for C++• AWS SDK for Go• AWS SDK for Go - Pilot• AWS SDK for Java• AWS SDK for JavaScript• AWS SDK for PHP V3• AWS SDK for Python• AWS SDK for Ruby V2
Data TypesThe following data types are supported:
• Lexicon (p. 224)• LexiconAttributes (p. 225)• LexiconDescription (p. 227)• SynthesisTask (p. 228)• Voice (p. 231)
223
Amazon Polly EntwicklerhandbuchLexicon
LexiconProvides lexicon name and lexicon content in string format. For more information, see PronunciationLexicon Specification (PLS) Version 1.0.
ContentsContent
Lexicon content in string format. The content of a lexicon must be in PLS format.
Type: String
Required: NoName
Name of the lexicon.
Type: String
Pattern: [0-9A-Za-z]{1,20}
Required: No
See AlsoFor more information about using this API in one of the language-specific AWS SDKs, see the following:
• AWS SDK for C++• AWS SDK for Go• AWS SDK for Go - Pilot• AWS SDK for Java• AWS SDK for Ruby V2
224
Amazon Polly EntwicklerhandbuchLexiconAttributes
LexiconAttributesContains metadata describing the lexicon such as the number of lexemes, language code, and so on. Formore information, see Managing Lexicons.
ContentsAlphabet
Phonetic alphabet used in the lexicon. Valid values are ipa and x-sampa.
Type: String
Required: NoLanguageCode
Language code that the lexicon applies to. A lexicon with a language code such as "en" would beapplied to all English languages (en-GB, en-US, en-AUS, en-WLS, and so on.
Type: String
Valid Values: arb | cmn-CN | cy-GB | da-DK | de-DE | en-AU | en-GB | en-GB-WLS| en-IN | en-US | es-ES | es-MX | es-US | fr-CA | fr-FR | is-IS | it-IT |ja-JP | hi-IN | ko-KR | nb-NO | nl-NL | pl-PL | pt-BR | pt-PT | ro-RO | ru-RU | sv-SE | tr-TR
Required: NoLastModified
Date lexicon was last modified (a timestamp value).
Type: Timestamp
Required: NoLexemesCount
Number of lexemes in the lexicon.
Type: Integer
Required: NoLexiconArn
Amazon Resource Name (ARN) of the lexicon.
Type: String
Required: NoSize
Total size of the lexicon, in characters.
Type: Integer
Required: No
See AlsoFor more information about using this API in one of the language-specific AWS SDKs, see the following:
225
Amazon Polly EntwicklerhandbuchLexiconAttributes
• AWS SDK for C++• AWS SDK for Go• AWS SDK for Go - Pilot• AWS SDK for Java• AWS SDK for Ruby V2
226
Amazon Polly EntwicklerhandbuchLexiconDescription
LexiconDescriptionDescribes the content of the lexicon.
ContentsAttributes
Provides lexicon metadata.
Type: LexiconAttributes (p. 225) object
Required: NoName
Name of the lexicon.
Type: String
Pattern: [0-9A-Za-z]{1,20}
Required: No
See AlsoFor more information about using this API in one of the language-specific AWS SDKs, see the following:
• AWS SDK for C++• AWS SDK for Go• AWS SDK for Go - Pilot• AWS SDK for Java• AWS SDK for Ruby V2
227
Amazon Polly EntwicklerhandbuchSynthesisTask
SynthesisTaskSynthesisTask object that provides information about a speech synthesis task.
ContentsCreationTime
Timestamp for the time the synthesis task was started.
Type: Timestamp
Required: NoEngine
Specifies the engine (standard or neural) for Amazon Polly to use when processing input text forspeech synthesis. Using a voice that is not supported for the engine selected will result in an error.
Type: String
Valid Values: standard | neural
Required: NoLanguageCode
Optional language code for a synthesis task. This is only necessary if using a bilingual voice, such asAditi, which can be used for either Indian English (en-IN) or Hindi (hi-IN).
If a bilingual voice is used and no language code is specified, Amazon Polly will use the defaultlanguage of the bilingual voice. The default language for any voice is the one returned by theDescribeVoices operation for the LanguageCode parameter. For example, if no language code isspecified, Aditi will use Indian English rather than Hindi.
Type: String
Valid Values: arb | cmn-CN | cy-GB | da-DK | de-DE | en-AU | en-GB | en-GB-WLS| en-IN | en-US | es-ES | es-MX | es-US | fr-CA | fr-FR | is-IS | it-IT |ja-JP | hi-IN | ko-KR | nb-NO | nl-NL | pl-PL | pt-BR | pt-PT | ro-RO | ru-RU | sv-SE | tr-TR
Required: NoLexiconNames
List of one or more pronunciation lexicon names you want the service to apply during synthesis.Lexicons are applied only if the language of the lexicon is the same as the language of the voice.
Type: Array of strings
Array Members: Maximum number of 5 items.
Pattern: [0-9A-Za-z]{1,20}
Required: NoOutputFormat
The format in which the returned output will be encoded. For audio stream, this will be mp3,ogg_vorbis, or pcm. For speech marks, this will be json.
Type: String
228
Amazon Polly EntwicklerhandbuchSynthesisTask
Valid Values: json | mp3 | ogg_vorbis | pcm
Required: NoOutputUri
Pathway for the output speech file.
Type: String
Required: NoRequestCharacters
Number of billable characters synthesized.
Type: Integer
Required: NoSampleRate
The audio frequency specified in Hz.
The valid values for mp3 and ogg_vorbis are "8000", "16000", "22050", and "24000". The default valuefor standard voices is "22050". The default value for neural voices is "24000".
Valid values for pcm are "8000" and "16000" The default value is "16000".
Type: String
Required: NoSnsTopicArn
ARN for the SNS topic optionally used for providing status notification for a speech synthesis task.
Type: String
Pattern: ^arn:aws(-(cn|iso(-b)?|us-gov))?:sns:[a-z0-9_-]{1,50}:\d{12}:[a-zA-Z0-9_-]{1,256}$
Required: NoSpeechMarkTypes
The type of speech marks returned for the input text.
Type: Array of strings
Array Members: Maximum number of 4 items.
Valid Values: sentence | ssml | viseme | word
Required: NoTaskId
The Amazon Polly generated identifier for a speech synthesis task.
Type: String
Pattern: ^[a-zA-Z0-9_-]{1,100}$
Required: No
229
Amazon Polly EntwicklerhandbuchSynthesisTask
TaskStatus
Current status of the individual speech synthesis task.
Type: String
Valid Values: scheduled | inProgress | completed | failed
Required: NoTaskStatusReason
Reason for the current status of a specific speech synthesis task, including errors if the task has failed.
Type: String
Required: NoTextType
Specifies whether the input text is plain text or SSML. The default value is plain text.
Type: String
Valid Values: ssml | text
Required: NoVoiceId
Voice ID to use for the synthesis.
Type: String
Valid Values: Aditi | Amy | Astrid | Bianca | Brian | Carla | Carmen | Celine| Chantal | Conchita | Cristiano | Dora | Emma | Enrique | Ewa | Filiz |Geraint | Giorgio | Gwyneth | Hans | Ines | Ivy | Jacek | Jan | Joanna |Joey | Justin | Karl | Kendra | Kimberly | Lea | Liv | Lotte | Lucia | Mads| Maja | Marlene | Mathieu | Matthew | Maxim | Mia | Miguel | Mizuki | Naja| Nicole | Penelope | Raveena | Ricardo | Ruben | Russell | Salli | Seoyeon| Takumi | Tatyana | Vicki | Vitoria | Zeina | Zhiyu
Required: No
See AlsoFor more information about using this API in one of the language-specific AWS SDKs, see the following:
• AWS SDK for C++• AWS SDK for Go• AWS SDK for Go - Pilot• AWS SDK for Java• AWS SDK for Ruby V2
230
Amazon Polly EntwicklerhandbuchVoice
VoiceDescription of the voice.
ContentsAdditionalLanguageCodes
Additional codes for languages available for the specified voice in addition to its default language.
For example, the default language for Aditi is Indian English (en-IN) because it was first used for thatlanguage. Since Aditi is bilingual and fluent in both Indian English and Hindi, this parameter wouldshow the code hi-IN.
Type: Array of strings
Valid Values: arb | cmn-CN | cy-GB | da-DK | de-DE | en-AU | en-GB | en-GB-WLS| en-IN | en-US | es-ES | es-MX | es-US | fr-CA | fr-FR | is-IS | it-IT |ja-JP | hi-IN | ko-KR | nb-NO | nl-NL | pl-PL | pt-BR | pt-PT | ro-RO | ru-RU | sv-SE | tr-TR
Required: NoGender
Gender of the voice.
Type: String
Valid Values: Female | Male
Required: NoId
Amazon Polly assigned voice ID. This is the ID that you specify when calling the SynthesizeSpeechoperation.
Type: String
Valid Values: Aditi | Amy | Astrid | Bianca | Brian | Carla | Carmen | Celine| Chantal | Conchita | Cristiano | Dora | Emma | Enrique | Ewa | Filiz |Geraint | Giorgio | Gwyneth | Hans | Ines | Ivy | Jacek | Jan | Joanna |Joey | Justin | Karl | Kendra | Kimberly | Lea | Liv | Lotte | Lucia | Mads| Maja | Marlene | Mathieu | Matthew | Maxim | Mia | Miguel | Mizuki | Naja| Nicole | Penelope | Raveena | Ricardo | Ruben | Russell | Salli | Seoyeon| Takumi | Tatyana | Vicki | Vitoria | Zeina | Zhiyu
Required: NoLanguageCode
Language code of the voice.
Type: String
Valid Values: arb | cmn-CN | cy-GB | da-DK | de-DE | en-AU | en-GB | en-GB-WLS| en-IN | en-US | es-ES | es-MX | es-US | fr-CA | fr-FR | is-IS | it-IT |ja-JP | hi-IN | ko-KR | nb-NO | nl-NL | pl-PL | pt-BR | pt-PT | ro-RO | ru-RU | sv-SE | tr-TR
Required: No
231
Amazon Polly EntwicklerhandbuchVoice
LanguageName
Human readable name of the language in English.
Type: String
Required: NoName
Name of the voice (for example, Salli, Kendra, etc.). This provides a human readable voice name thatyou might display in your application.
Type: String
Required: NoSupportedEngines
Specifies which engines (standard or neural) that are supported by a given voice.
Type: Array of strings
Valid Values: standard | neural
Required: No
See AlsoFor more information about using this API in one of the language-specific AWS SDKs, see the following:
• AWS SDK for C++• AWS SDK for Go• AWS SDK for Go - Pilot• AWS SDK for Java• AWS SDK for Ruby V2
232
Amazon Polly EntwicklerhandbuchAuthentifizierung
Authentifizierung und Zugriffskontrollefür Amazon Polly
Für den Zugriff auf Amazon Polly sind Anmeldeinformationen erforderlich. Diese Anmeldeinformationenmüssen über Berechtigungen für den Zugriff auf AWS-Ressourcen, wie beispielsweise eine Amazon Pollylexicon- oder eine Amazon Elastic Compute Cloud (Amazon EC2)-Instance, verfügen. In den folgendenAbschnitten wird beschrieben, wie Sie mithilfe von AWS Identity and Access Management (IAM) undAmazon Polly dauerhaft Zugriff auf Ihre Ressourcen erhalten können.
• Authentifizierung (p. 233)• Zugangskontrolle (p. 234)
AuthentifizierungSie können mit einer der folgenden Identitäten auf AWS zugreifen:
• Stammbenutzer des AWS-Kontos – Wenn Sie ein AWS-Konto neu erstellen, enthält es zunächst nureine einzelne Anmeldeidentität, die über Vollzugriff auf sämtliche AWS-Services und -Ressourcenim Konto verfügt. Diese Identität wird als Root-Benutzer des AWS-Kontos bezeichnet. Um aufes zuzugreifen, müssen Sie sich mit der E-Mail-Adresse und dem Passwort anmelden, die zurErstellung des Kontos verwendet wurden. Wir raten ausdrücklich davon ab, den Root-Benutzer fürAlltagsaufgaben einschließlich administrativen Aufgaben zu verwenden. Bleiben Sie stattdessen beider bewährten Methode, den Root-Benutzer nur zu verwenden, um Ihren ersten IAM-Benutzer zuerstellen. Anschließend legen Sie die Anmeldedaten für den Root-Benutzer an einem sicheren Ort abund verwenden ihn nur, um einige Konto- und Service-Verwaltungsaufgaben durchzuführen.
• IAM-Benutzer – Ein IAM-Benutzer ist eine Identität in Ihrem AWS-Konto mit bestimmtenbenutzerdefinierten Berechtigungen (z. B. die Berechtigung zum Erstellen von a lexicon in AmazonPolly). Sie können einen IAM-Benutzernamen und ein Passwort für die Anmeldung bei sicherenAWS-Webseiten verwenden. Dazu zählen beispielsweise die AWS Management Console, AWS-Diskussionsforen und das AWS Support Center.
Zusätzlich zu einem Benutzernamen und Passwort können Sie Zugriffsschlüssel für jeden Benutzererstellen. Verwenden Sie diese Schlüssel, wenn Sie über eines der verschiedenen SDKs oder über dieAWS Command Line Interface (CLI) programmgesteuert auf AWS-Services zugreifen. Das SDK und dieCLI-Tools verwenden die Zugriffsschlüssel, um Ihre Anfrage verschlüsselt zu signieren. Wenn Sie keineAWS-Tools verwenden, müssen Sie die Anforderung selbst signieren. Amazon Polly supportsSignatureVersion 4 ein Protokoll für die Authentifizierung eingehender API-Anfragen. Weitere Informationen zurAuthentifizierung von Anfragen finden Sie unter Signature Version 4-Signaturprozess im AWS GeneralReference.
• IAM-Rolle – Eine IAM-Rolle ist eine IAM-Identität, die Sie in Ihrem Konto mit bestimmten Berechtigungen
erstellen können. Eine IAM-Rolle ist einem IAM-Benutzer insofern sehr ähnlich, weil es sich hierbeium eine AWS-Identität mit Berechtigungsrichtlinien handelt, die festlegen, welche Aktionen die
233
Amazon Polly EntwicklerhandbuchZugangskontrolle
Identität in AWS ausführen kann und welche nicht. Eine Rolle ist jedoch nicht einer einzigen Personzugeordnet, sondern kann von allen Personen angenommen werden, die diese Rolle benötigen. EinerRolle sind außerdem keine standardmäßigen, langfristigen Anmeldeinformationen (Passwörter oderZugriffsschlüssel) zugeordnet. Wenn Sie eine Rolle annehmen, erhalten Sie stattdessen temporäreAnmeldeinformationen für Ihre Rollensitzung. IAM-Rollen mit temporären Anmeldeinformationen sind infolgenden Situationen hilfreich:
• Zugriff für verbundene Benutzer – Statt einen IAM-Benutzer zu erstellen, können Sie vorhandene
Identitäten von AWS Directory Service, aus Ihrem Unternehmens-Benutzerverzeichnis oder von einemWeb-Identitätsanbieter verwenden. Diese werden als verbundene Benutzer bezeichnet. AWS weisteinem verbundenen Benutzer eine Rolle zu, wenn der Zugriff über einen Identitätsanbieter angefordertwird. Weitere Informationen zu verbundenen Benutzern finden Sie unter Verbundene Benutzer undRollen im IAM-Benutzerhandbuch.
• Zugriff auf AWS-Services: – Eine Servicerolle ist eine IAM-Rolle, die ein Service übernimmt, um
Aktionen in Ihrem Konto für Sie auszuführen. Beim Einrichten einiger AWS-Serviceumgebungenmüssen Sie eine Rolle für den zu übernehmenden Service definieren. Diese Servicerolle muss alle fürden Service erforderlichen Berechtigungen für den Zugriff auf die AWS-Ressourcen, die erforderlichsind, enthalten. Servicerollen unterscheiden sich von Service zu Service, aber viele erlauben Ihnen,Ihre Berechtigungen auszuwählen, solange Sie die dokumentierten Anforderungen für diesen Serviceerfüllen. Service-Rollen bieten nur Zugriff innerhalb Ihres Kontos und können nicht genutzt werden,um Zugriff auf Services in anderen Konten zu erteilen. Sie können eine Servicerolle in IAM erstellen,ändern und löschen. Sie können beispielsweise eine Rolle erstellen, mit der Amazon Redshift inIhrem Namen auf einen Amazon S3-Bucket zugreifen und Daten aus diesem Bucket in einen AmazonRedshift-Cluster laden kann. Weitere Informationen finden Sie unter Erstellen einer Rolle zumDelegieren von Berechtigungen an einen AWS-Service im IAM-Benutzerhandbuch.
• Anwendungen, die auf Amazon EC2 ausgeführt werden: – Sie können eine IAM-Rolle nutzen,
um temporäre Anmeldeinformationen für Anwendungen zu verwalten, die auf einer EC2-Instance ausgeführt werden und AWS CLI- oder AWS-API-Anforderungen durchführen. Das istempfehlenswerter als Zugriffsschlüssel innerhalb der EC2 Instance zu speichern. Erstellen Sie einInstance-Profil, das an die Instance angefügt ist, um eine AWS-Rolle einer EC2-Instance zuzuweisenund die Rolle für sämtliche Anwendungen der Instance bereitzustellen. Ein Instance-Profil enthältdie Rolle und ermöglicht, dass Programme, die in der EC2-Instance ausgeführt werden, temporäreAnmeldeinformationen erhalten. Weitere Informationen finden Sie unter Verwenden einer IAM-Rollezum Erteilen von Berechtigungen für Anwendungen, die auf Amazon EC2-Instances ausgeführtwerden im IAM-Benutzerhandbuch.
ZugangskontrolleSie können über gültige Anmeldeinformationen zur Authentifizierung Ihrer Anforderungen verfügen, dochSie können die Amazon Polly-Ressourcen nur mit entsprechenden Berechtigungen erstellen oder daraufzugreifen. So benötigen Sie beispielsweise Berechtigungen zum Erstellen eines Amazon Polly lexicon.
In den folgenden Abschnitten wird die Verwaltung von Berechtigungen für Amazon Polly beschrieben. Wirempfehlen Ihnen, zunächst die Übersicht zu lesen.
• Übersicht über die Verwaltung von Zugriffsberechtigungen für Ihre Amazon Polly-Ressourcen (p. 235)• Verwenden von identitätsbasierten Richtlinien (IAM-Richtlinien) für Amazon Polly (p. 238)• Amazon Polly-API-Berechtigungen: Aktionen, Berechtigungen und Ressourcenreferenz (p. 242)
234
Amazon Polly EntwicklerhandbuchÜbersicht über die Verwaltung des Zugriffs
Übersicht über die Verwaltung vonZugriffsberechtigungen für Ihre Amazon Polly-Ressourcen
Jede AWS-Ressource ist Eigentum eines AWS-Kontos und die Berechtigungen für die Erstellung einerRessource oder den Zugriff darauf werden durch Berechtigungsrichtlinien geregelt. Ein Kontoadministratorkann IAM-Identitäten (d. h. Benutzer, Gruppen und Rollen) Berechtigungsrichtlinien zuweisen. MancheServices (z. B. AWS Lambda) unterstützen auch die Zuweisung von Berechtigungsrichtlinien zuRessourcen.
Note
Ein Kontoadministrator (oder Administratorbenutzer) ist ein Benutzer mit Administratorrechten.Weitere Informationen finden Sie unter Bewährte Methoden für IAM im IAM-Benutzerhandbuch.
Beim Erteilen von Berechtigungen entscheiden Sie, wer die Berechtigungen erhält, für welche Ressourcendie Berechtigungen gelten und welche Aktionen an diesen Ressourcen gestattet werden sollen.
Themen• Amazon Polly-Ressourcen und -Operationen (p. 235)• Grundlegendes zum Eigentum an Ressourcen (p. 235)• Verwalten des Zugriffs auf Ressourcen (p. 236)• Festlegen der Richtlinienelemente: Aktionen, Effekte und Prinzipale (p. 237)• Angeben von Bedingungen in einer Richtlinie (p. 238)
Amazon Polly-Ressourcen und -OperationenIn Amazon Polly ist die primäre Ressource a lexicon. In einer Richtlinie identifizieren Sie die Ressource, fürwelche die Richtlinie gilt, mithilfe eines Amazon-Ressourcennamens (ARN).
Diese Ressourcen und Unterressourcen sind eindeutigen Amazon-Ressourcennamen (ARNs) zugeordnet(siehe Tabelle unten).
Ressourcentyp ARN-Format
Lexicon arn:aws:polly:region:account-id:lexicon/LexiconName
Amazon Polly bietet eine Reihe von Operationen für die Arbeit mit Amazon Polly-Ressourcen. Eine Listeder verfügbaren Operationen finden Sie unter Amazon Polly Amazon Polly-API-Referenz (p. 197).
Grundlegendes zum Eigentum an RessourcenDas AWS-Konto ist Eigentümer aller Ressourcen, die innerhalb des Kontos erstellt werden, unabhängigdavon, wer sie erstellt. Genauer gesagt ist Ressourceneigentümer das AWS-Konto der Prinzipal-Entität(d. h. das Stammkonto, ein IAM-Benutzer oder eine IAM-Rolle), die die Ressourcenerstellungsanforderungauthentifiziert. Die Funktionsweise wird anhand der folgenden Beispiele deutlich:
• Wenn Sie die Stammkonto-Anmeldeinformationen für Ihr AWS-Konto verwenden, um a lexicon zuerstellen, ist Ihr AWS-Konto der Eigentümer der Ressource (in Amazon Polly ist die Ressource alexicon).
235
Amazon Polly EntwicklerhandbuchVerwalten des Zugriffs auf Ressourcen
• Wenn Sie in Ihrem AWS-Konto einen IAM-Benutzer einrichten und diesem Berechtigungen zum Erstellenvon a lexicon erteilen, kann der Benutzer a lexicon erstellen. Jedoch ist Ihr AWS-Konto, dem derBenutzer angehört, der Eigentümer der lexicon-Ressourcen.
• Wenn Sie in Ihrem AWS-Konto eine IAM-Rolle mit Berechtigungen zum Erstellen von a lexiconeinrichten, kann jeder, der die Rolle übernimmt, a lexicon erstellen. Ihr AWS-Konto, dem der Benutzerangehört, ist der Eigentümer der lexicon-Ressourcen.
Verwalten des Zugriffs auf RessourcenEine Berechtigungsrichtlinie beschreibt, wer Zugriff auf welche Objekte hat. Im folgenden Abschnitt werdendie verfügbaren Optionen zum Erstellen von Berechtigungsrichtlinien erläutert.
Note
Dieser Abschnitt behandelt die Verwendung von IAM im Zusammenhang mit Amazon Polly.Er enthält keine detaillierten Informationen über den IAM-Service. Eine umfassende IAM-Dokumentation finden Sie unter Was ist IAM? im IAM-Benutzerhandbuch. Informationen über dieIAM-Richtliniensyntax und Beschreibungen finden Sie in der AWS IAM Policy Reference (AWSIAM-Richtlinienreferenz) im IAM-Benutzerhandbuch.
Richtlinien, die einer IAM-Identität angefügt wurden, werden als identitätsbasierte Richtlinien (IAM-Richtlinien) bezeichnet, während Richtlinien, die einer Ressource angefügt wurden, als ressourcenbasierteRichtlinien bezeichnet werden. Amazon Polly unterstützt Richtlinien auf Identititätsbasis.
Themen• Identitätsbasierte Richtlinien (IAM-Richtlinien) (p. 236)• Ressourcenbasierte Richtlinien (p. 237)
Identitätsbasierte Richtlinien (IAM-Richtlinien)Richtlinien können IAM-Identitäten zugewiesen werden. Sie können z. B. Folgendes tun:
• Eine Berechtigungsrichtlinie einem Benutzer oder einer Gruppe in Ihrem Konto anfügen – – Um einemBenutzer die Berechtigung zum Erstellen einer Amazon Polly-Ressource wie z. B. a lexicon zu erteilen,können Sie einem Benutzer oder einer Gruppe, der der Benutzer angehört, eine Berechtigungsrichtlinieanfügen.
• Einer Rolle eine Berechtigungsrichtlinie zuweisen (kontoübergreifende Berechtigungen erteilen) – Siekönnen einer IAM-Rolle eine identitätsbasierte Berechtigungsrichtlinie zuweisen, um kontoübergreifendeBerechtigungen zu erteilen. Beispielsweise kann der Administrator in Konto A eine Rolle erstellen, umeinem anderen AWS-Konto (z. B. Konto B) oder einem AWS-Service kontoübergreifende Berechtigungenzu erteilen. Dazu geht er folgendermaßen vor:1. Der Administrator von Konto A erstellt eine IAM-Rolle und fügt dieser eine Berechtigungsrichtlinie an,
die Berechtigungen für Ressourcen in Konto A erteilt.2. Der Administrator von Konto A weist der Rolle eine Vertrauensrichtlinie zu, die Konto B als den
Prinzipal identifiziert, der die Rolle übernehmen kann.3. Der Administrator von Konto B kann nun Berechtigungen zur Übernahme der Rolle an alle Benutzer in
Konto B delegieren. Daraufhin können die Benutzer in Konto B auf Ressourcen von Konto A zugreifen.Der Prinzipal in der Vertrauensrichtlinie kann auch ein AWS-Service-Prinzipal sein. Somit können Sieauch einem AWS-Service die Berechtigungen zur Übernahme der Rolle erteilen.
Weitere Informationen zum Delegieren von Berechtigungen mithilfe von IAM finden Sie unterZugriffsverwaltung im IAM-Benutzerhandbuch.
236
Amazon Polly EntwicklerhandbuchFestlegen der Richtlinienelemente:
Aktionen, Effekte und Prinzipale
Nachfolgend sehen Sie eine Beispielrichtlinie, die den Benutzer dazu berechtigt, Lexika in einer Region zuspeichern, Lexika abzurufen sowie alle aktuell verfügbaren Lexika aufzulisten.
Amazon Polly unterstützt identitätsbasierte Richtlinien für Aktionen auf Ressourcenebene. Daher wirdfür den Wert Resource der ARN angegeben. Beispiel: arn:aws:polly:us-east-2:account-id:lexicon/* als Resource-Wert definiert Berechtigungen für alle im Besitz des angegebenenBenutzers befindlichen Lexika in der Region us-east-2.
{ "Version": "2012-10-17", "Statement": [{ "Sid": "AllowPut-Get-ListActions", "Effect": "Allow", "Action": [ "polly:PutLexicon", "polly:GetLexicon", "polly:ListLexicons"], "Resource": "arn:aws:polly:us-east-2:account-id:lexicon/*" } ]}
Weitere Informationen zur Verwendung von identitätsbasierten Richtlinien mit Amazon Polly finden Sieunter Verwenden von identitätsbasierten Richtlinien (IAM-Richtlinien) für Amazon Polly (p. 238). WeitereInformationen zu Benutzern, Gruppen, Rollen und Berechtigungen finden Sie unter Identitäten (Benutzer,Gruppen und Rollen) im IAM-Benutzerhandbuch.
Ressourcenbasierte RichtlinienAndere Services, z. B. Amazon S3, unterstützen auch ressourcenbasierte Berechtigungsrichtlinien.Beispielsweise können Sie einem S3-Bucket eine ressourcenbasierte Richtlinie zuweisen, um dieZugriffsberechtigungen für diesen Bucket zu verwalten. Amazon Polly bietet keine Unterstützung fürressourcenbasierte Richtlinien.
Festlegen der Richtlinienelemente: Aktionen, Effekteund PrinzipaleFür jede Amazon Polly-Ressource definiert der Dienst eine Reihe von API-Operationen. Zur Erteilungvon Berechtigungen für diese API-Operationen definiert Amazon Polly Aktionen, die Sie in einer Richtlinieangeben können. Einige API-Operationen erfordern möglicherweise Berechtigungen für mehr als eineAktion, um die API-Operation auszuführen. Weitere Informationen zu Ressourcen und API-Operationenfinden Sie unter Amazon Polly-Ressourcen und -Operationen (p. 235) und Amazon Polly-API-Referenz (p. 197).
Grundlegende Richtlinienelemente:
• Resource – – Sie verwenden einen Amazon-Ressourcennamen (ARN), um die Ressource anzugeben,auf die die identitätsbasierte Richtlinie angewendet werden soll. Weitere Informationen finden Sie unterAmazon Polly-Ressourcen und -Operationen (p. 235).
• Aktion – – Mit Aktionsschlüsselwörtern geben Sie die Ressourcenoperationen an, die Sie zulassen oderverweigern möchten. Mit polly:PutLexicon beispielsweise können Sie ein Lexikon in einer Regionspeichern.
• Effekt – – Die von Ihnen festgelegte Auswirkung (entweder Zugriffserlaubnis oder Zugriffsverweigerung),wenn ein Benutzer die jeweilige Aktion anfordert. Wenn Sie den Zugriff auf eine Ressource nichtausdrücklich gestatten ("Allow"), wird er automatisch verweigert. Sie können den Zugriff auf eineRessource auch explizit verweigern. So können Sie sicherstellen, dass Benutzer nicht darauf zugreifenkönnen, auch wenn der Zugriff durch eine andere Richtlinie gestattet wird.
237
Amazon Polly EntwicklerhandbuchAngeben von Bedingungen in einer Richtlinie
• Prinzipal – In identitätsbasierten Richtlinien (IAM-Richtlinien) ist der Benutzer, dem die Richtlinieangefügt ist, automatisch der Prinzipal. In ressourcenbasierten Richtlinien müssen Sie den Benutzer,das Konto, den Service oder die sonstige Entität angeben, die die Berechtigungen erhalten soll (gilt nurfür ressourcenbasierte Richtlinien). Amazon Polly bietet keine Unterstützung für ressourcenbasierteRichtlinien.
Weitere Informationen zur IAM-Richtliniensyntax und entsprechende Beschreibungen enthält die AWS IAM-Richtlinienreferenz im IAM-Benutzerhandbuch.
Eine mit einer Liste von allen Amazon Polly-API-Operationen und den Ressourcen, für welchediese gelten, finden Sie unter Amazon Polly-API-Berechtigungen: Aktionen, Berechtigungen undRessourcenreferenz (p. 242).
Angeben von Bedingungen in einer RichtlinieBeim Erteilen von Berechtigungen können Sie mithilfe der Sprache der Zugriffsrichtlinie die Bedingungenangeben, wann die Richtlinie wirksam werden soll. Beispielsweise kann festgelegt werden, dass eineRichtlinie erst ab einem bestimmten Datum gilt. Weitere Informationen zum Angeben von Bedingungen ineiner Richtliniensyntax finden Sie im Thema Bedingung im IAM-Benutzerhandbuch.
Bedingungen werden mithilfe vordefinierter Bedingungsschlüssel formuliert. Für Amazon Polly gibtes keine speziellen Bedingungsschlüssel. Stattdessen können Sie nach Bedarf die AWS-weitenBedingungsschlüssel verwenden. Eine vollständige Liste der AWS-weiten Schlüssel finden Sie unterVerfügbare Schlüssel für Bedingungen im IAM-Benutzerhandbuch.
Verwenden von identitätsbasierten Richtlinien (IAM-Richtlinien) für Amazon Polly
Dieses Thema enthält Beispiele zu identitätsbasierten Richtlinien, die verdeutlichen, wie einKontoadministrator IAM-Identitäten (d. h. Benutzern, Gruppen und Rollen) Berechtigungsrichtlinienzuweisen und somit Berechtigungen zur Durchführung von Operationen für Amazon Polly-Ressourcenerteilen kann.
Important
Wir empfehlen Ihnen, zunächst die einführenden Themen zu lesen, in denen die Grundkonzepteund verfügbaren Optionen zum Verwalten des Zugriffs auf Ihre Amazon Polly-Ressourcenerläutert werden. Weitere Informationen finden Sie unter Übersicht über die Verwaltung vonZugriffsberechtigungen für Ihre Amazon Polly-Ressourcen (p. 235).
Themen• Erforderliche Berechtigungen für die Verwendung der Amazon Polly-Konsole (p. 239)• Von AWS verwaltete (vordefinierte) Richtlinien für Amazon Polly (p. 240)• Beispiele für vom Kunden verwaltete Richtlinien (p. 240)
Hier ein Beispiel für eine Berechtigungsrichtlinie.
{ "Version": "2012-10-17", "Statement": [{ "Sid": "AllowGet-Delete-ListActions", "Effect": "Allow", "Action": [
238
Amazon Polly EntwicklerhandbuchErforderliche Berechtigungen für die
Verwendung der Amazon Polly-Konsole
"polly:GetLexicon", "polly:DeleteLexicon", "polly:ListLexicons"], "Resource": "*" } ], "Statement": [{ "Sid": "NoOverrideMyLexicons", "Effect": "Deny", "Action": [ "polly:PutLexicon"], "Resource": "arn:aws:polly:us-east-2:123456789012:lexicon/my*" } ]}
Die Richtlinie enthält zwei Anweisungen:
• Die erste Anweisung erteilt eine Berechtigung zur Anwendung von drei Polly-Aktionen(polly:GetLexicon, polly:DeleteLexicon und polly:ListLexicons) auf jedes beliebigeLexikon. Wenn Sie als Ressource das Platzhalterzeichen (*) angeben, werden universelleBerechtigungen zur Durchführung der Aktionen erteilt. Dann können die Aktionen in allen Regionenangewendet werden und auf alle Lexika, die sich im Besitz des betreffenden Kontos befinden.
• Die zweite Anweisung verweigert explizit die Berechtigung zur Durchführung einer bestimmten Polly-Aktion (polly:PutLexicon). Der als Ressource angegebene ARN legt fest, dass diese Berechtigungfür alle Lexika gilt, die sich in der Region us-east-2 befinden und deren Name mit den Buchstaben"my" beginnt.
Eine Tabellenliste mit allen Amazon Polly-API-Aktionen und den Ressourcen, für die diesegelten, finden Sie unter Amazon Polly-API-Berechtigungen: Aktionen, Berechtigungen undRessourcenreferenz (p. 242).
Erforderliche Berechtigungen für die Verwendung derAmazon Polly-KonsoleDamit Benutzer mit der Amazon Polly-Konsole arbeiten können, müssen sie über einen Mindestsatz anBerechtigungen verfügen, die es ihnen erlauben, die Amazon Polly-Ressourcen in ihrem AWS-Konto zubeschreiben.
Wenn Sie eine IAM-Richtlinie erstellen, die strenger ist als die mindestens erforderlichen Berechtigungen,funktioniert die Konsole nicht wie vorgesehen für Benutzer mit dieser IAM-Richtlinie.
Für Benutzer, die nur Aufrufe an die AWS CLI oder Amazon Polly-API durchführen, müssen Sie keineMindestberechtigungen in der Konsole erteilen.
Um die Amazon Polly-Konsole nutzen zu können, müssen Sie allen Amazon Polly-APIs Berechtigungenerteilen. Weitere Berechtigungen sind nicht erforderlich. Die unten abgebildete Berechtigungsrichtliniegenügt, um die Amazon Polly-Konsole nutzen zu können.
}"Version": "2012-10-17", "Statement": [{ "Sid": "Console-AllowAllPollyActions", "Effect": "Allow", "Action": [ "polly:*"], "Resource": "*" }
239
Amazon Polly EntwicklerhandbuchVon AWS verwaltete (vordefinierte)
Richtlinien für Amazon Polly
]}
Von AWS verwaltete (vordefinierte) Richtlinien fürAmazon PollyDurch die Bereitstellung von eigenständigen IAM-Richtlinien, die von AWS erstellt und administriertwerden, deckt AWS viele häufige Anwendungsfälle ab. Diese von AWS verwalteten Richtlinien erteilendie erforderlichen Berechtigungen für viele häufige Anwendungsfälle, sodass Sie nicht mühsam ermittelnmüssen, welche Berechtigungen erforderlich sind. Weitere Informationen finden Sie unter AWS-verwalteteRichtlinien im IAM-Benutzerhandbuch.
Die folgenden AWS-verwalteten Richtlinien, die Sie Benutzern in Ihrem Konto anfügen können, geltenspeziell für Amazon Polly:
• AmazonPollyReadOnlyAccess – Gewährt schreibgeschützten Zugriff auf Ressourcen und erlaubt dieAuflistung von Lexika, den Abruf von Lexika, die Auflistung verfügbarer Stimmen und die Generierungvon Sprachausgabe (einschließlich der Anwendung von Lexika auf die generierte Sprachausgabe).
• AmazonPollyFullAccess – Erlaubt vollen Zugriff auf Ressourcen und alle unterstützten Operationen.
Note
Sie können diese Berechtigungsrichtlinien prüfen, indem Sie sich bei der IAM-Konsole anmeldenund dort nach bestimmten Richtlinien suchen.
Sie können auch Ihre eigenen, benutzerdefinierten IAM-Richtlinien erstellen, um Berechtigungen fürAmazon Polly-Aktionen und -Ressourcen zu gewähren. Die benutzerdefinierten Richtlinien können Siedann den IAM-Benutzern oder -Gruppen zuweisen, die diese Berechtigungen benötigen.
Beispiele für vom Kunden verwaltete RichtlinienIn diesem Abschnitt finden Sie Beispiele für Benutzerrichtlinien, die Berechtigungen für verschiedeneAmazon Polly-Aktionen gewähren. Diese Richtlinien sind nur wirksam, wenn Sie AWS SDKs oder die AWSCLI verwenden. Wenn Sie die Konsole verwenden, müssen Sie allen Amazon Polly-APIs Berechtigungenerteilen. Näheres hierzu finden Sie unter Erforderliche Berechtigungen für die Verwendung der AmazonPolly-Konsole (p. 239).
Note
In allen Beispielen werden die Region "us-east-2" und fiktive Konto-IDs verwendet.
Beispiele• Beispiel 1: Erlauben sämtlicher Amazon Polly-Aktionen (p. 240)• Beispiel 2: Erlauben sämtlicher Polly-Aktionen außer "DeleteLexicon" (p. 241)• Beispiel 3: Erlauben von "DeleteLexicon" (p. 241)• Beispiel 4: Erlauben von "DeleteLexicon" in einer bestimmten Region (p. 242)• Beispiel 5: Erlauben von "DeleteLexicon" für ein bestimmtes Lexikon (p. 242)
Beispiel 1: Erlauben sämtlicher Amazon Polly-AktionenNach der Registrierung (siehe Schritt 1.1: Registrieren bei AWS (p. 11)) erstellen Sie einenAdministratorbenutzer, der Ihr Konto verwaltet. Er kann unter anderem Benutzer erstellen undBenutzerberechtigungen verwalten.
240
Amazon Polly EntwicklerhandbuchBeispiele für vom Kunden verwaltete Richtlinien
Sie können einen Benutzer erstellen, der Berechtigungen zur Durchführung sämtlicher Amazon Polly-Aktionen hat, die für die Arbeit mit Amazon Polly benötigt werden. Diesem Benutzer können Sie diefolgende Berechtigungsrichtlinie zuweisen:
{ "Version": "2012-10-17", "Statement": [{ "Sid": "AllowAllPollyActions", "Effect": "Allow", "Action": [ "polly:*"], "Resource": "*" } ]}
Beispiel 2: Erlauben sämtlicher Polly-Aktionen außer"DeleteLexicon"Die folgende Berechtigungsrichtlinie erteilt dem Benutzer Berechtigungen zur Durchführung sämtlicherAktionen außer der Aktion DeleteLexicon. Die Berechtigungen zum Löschen werden explizit verwehrt,und zwar in allen Regionen.
{ "Version": "2012-10-17", "Statement": [{ "Sid": "AllowAllActions-DenyDelete", "Effect": "Allow", "Action": [ "polly:DescribeVoices", "polly:GetLexicon", "polly:PutLexicon", "polly:SynthesizeSpeech", "polly:ListLexicons"], "Resource": "*" } { "Sid": "DenyDeleteLexicon", "Effect": "Deny", "Action": [ "polly:DeleteLexicon"], "Resource": "*" } ]}
Beispiel 3: Erlauben von "DeleteLexicon"Die folgende Berechtigungsrichtlinie gewährt dem Benutzer Berechtigungen zur Löschung jedes beliebigenin Ihrem Besitz befindlichen Lexikons. Es spielt keine Rolle, zu welchem Projekt das Lexikon gehört oder inwelcher Region es sich befindet.
{ "Version": "2012-10-17", "Statement": [{ "Sid": "AllowDeleteLexicon", "Effect": "Allow", "Action": [ "polly:DeleteLexicon"],
241
Amazon Polly EntwicklerhandbuchReferenztabelle für Amazon Polly-API-Berechtigungen
"Resource": "*" } ]}
Beispiel 4: Erlauben von "DeleteLexicon" in einer bestimmtenRegionDie folgende Berechtigungsrichtlinie erteilt dem Benutzer Berechtigungen zur Löschung jedes beliebigenLexikons, das sich in einer bestimmten Region befindet (hier "us-east-2"). Es spielt keine Rolle, zu welchemProjekt das Lexikon gehört.
{ "Version": "2012-10-17", "Statement": [{ "Sid": "AllowDeleteSpecifiedRegion", "Effect": "Allow", "Action": [ "polly:DeleteLexicon"], "Resource": "arn:aws:polly:us-east-2:123456789012:lexicon/*" } ]}
Beispiel 5: Erlauben von "DeleteLexicon" für ein bestimmtesLexikonDie folgende Berechtigungsrichtlinie erteilt dem Benutzer Berechtigungen zur Löschung eines bestimmtenin Ihrem Besitz befindlichen Lexikons (hier "myLexicon") in einer bestimmten Region (hier "us-east-2").
{ "Version": "2012-10-17", "Statement": [{ "Sid": "AllowDeleteForSpecifiedLexicon", "Effect": "Allow", "Action": [ "polly:DeleteLexicon"], "Resource": "arn:aws:polly:us-east-2:123456789012:lexicon/myLexicon" } ]}
Amazon Polly-API-Berechtigungen: Aktionen,Berechtigungen und Ressourcenreferenz
Wenn Sie die Zugangskontrolle (p. 234) einrichten und eine Berechtigungsrichtlinie für eine IAM-Identität(identitätsbasierte Richtlinie) verfassen, können Sie die folgende Liste als Referenz verwenden. In derAuflistung sind sämtliche Amazon Polly-API-Operationen sowie die zugehörigen Aktionen und AWS-Ressourcen, für die Sie Berechtigungen erteilen können, aufgeführt. Die Aktionen geben Sie im FeldAction und den Wert für die Ressource im Feld Resource der Richtlinie an.
Zum Formulieren von Bedingungen in Ihren Amazon Polly-Richtlinien können Sie die globalen AWS-Bedingungsschlüssel verwenden. Eine vollständige Liste der AWS-weiten Schlüssel finden Sie unterVerfügbare Schlüssel im IAM-Benutzerhandbuch.
242
Amazon Polly EntwicklerhandbuchReferenztabelle für Amazon Polly-API-Berechtigungen
Note
Um eine Aktion anzugeben, verwenden Sie das Präfix polly gefolgt vom Namen der API-Operation (z. B. polly:GetLexicon).
Amazon Polly unterstützt identitätsbasierte Richtlinien für Aktionen auf Ressourcenebene. Daher wirdfür den Wert Resource der ARN angegeben. Beispiel: arn:aws:polly:us-east-2:account-id:lexicon/* als Resource-Wert definiert Berechtigungen für alle im Besitz des angegebenenBenutzers befindlichen Lexika in der Region us-east-2.
Da Amazon Polly keine Berechtigungen für Aktionen auf Ressourcenebene unterstützt, wird in den meistenRichtlinien ein Platzhalterzeichen (*) für den Wert Resource angegeben. Sollte es jedoch notwendigsein, Berechtigungen auf eine bestimmte Region zu beschränken, wird das Platzhalterzeichen durch denentsprechenden ARN ersetzt: arn:aws:polly:region:account-id:lexicon/*.
Amazon Polly-API und erforderliche Berechtigungen für Aktionen
API-Operation: DeleteLexicon (p. 198)
Erforderliche Berechtigungen (API-Aktion): polly:DeleteLexicon
Ressourcen: arn:aws:polly:region:account-id:lexicon/LexiconNameAPI-Operation: DescribeVoices (p. 200)
Erforderliche Berechtigungen (API-Aktion): polly:DescribeVoices
Ressourcen: arn:aws:polly:region:account-id:lexicon/voice-nameAPI-Operation: GetLexicon (p. 203)
Erforderliche Berechtigungen (API-Aktion): polly:GetLexicon
Ressourcen: arn:aws:polly:region:account-id:lexicon/voice-nameAPI-Operation: ListLexicons (p. 207)
Erforderliche Berechtigungen (API-Aktion): polly:ListLexicons
Ressourcen: arn:aws:polly:region:account-id:lexicon/*API-Operation: PutLexicon (p. 211)
Erforderliche Berechtigungen (API-Aktion): polly:ListLexicons
Ressourcen: *API-Operation: SynthesizeSpeech (p. 219)
Erforderliche Berechtigungen (API-Aktion): polly:SynthesizeSpeech
Ressourcen: *
243
Amazon Polly Entwicklerhandbuch
Dokumentverlauf für Amazon PollyIn der folgenden Tabelle sind wichtige Änderungen in jeder Version des Amazon Polly-Entwicklerhandbuchs beschrieben. Um Benachrichtigungen über Aktualisierungen dieser Dokumentationzu erhalten, können Sie einen RSS-Feed abonnieren.
• Letzte Aktualisierung der Dokumentation: 2. August 2018
update-history-change update-history-description update-history-date
Neue Stimmenhinzugefügt (p. 244)
Neue Stimmen hinzugefügt: Lucia(weiblich, spanisch) und Bianca(weiblich, Italienisch).
August 2, 2018
Neue Sprachehinzugefügt (p. 244)
Neue Sprache hinzugefügt:mexikanisches Spanisch (es-MX). Diese Sprache verwendetdie weibliche Stimme von Mia.
August 2, 2018
Neue Sprachehinzugefügt (p. 244)
Neue Sprache hinzugefügt: Hindi(hi-IN). Diese Stimme verwendetdie weibliche Stimme vonAditi, die auch für das indischeEnglisch verwendet wird. Somitist Aditi die erste zweisprachigeStimme von Amazon Polly.
August 2, 2018
Neue SSML-Funktionhinzugefügt (p. 244)
Hinzufügen von Maximale Dauerder generierten Sprachausgabe.
July 17, 2018
Neue Funktionhinzugefügt (p. 244)
Hinzufügen von Sprachsynthesevon langen Textpassagen (biszu 100.000 kostenpflichtigeZeichen).
July 17, 2018
Neue Stimmehinzugefügt (p. 244)
Neue Stimme wurde hinzugefügt:Léa (weiblich, Französisch).
June 5, 2018
Regionale Erweiterung (p. 244) Erweiterung des Amazon Polly-Service auf alle kommerziellenRegionen.
June 4, 2018
Neue Sprachehinzugefügt (p. 244)
Neue Sprache hinzugefügt:Koreanisch (ko-KR).
June 4, 2018
Erweiterte Funktion (p. 244) Erweiterung der Amazon Polly-WordPress-Plugin-Funktion,einschließlich Hinzufügen vonAmazon Translate-Funktionen.
June 4, 2018
Neue Stimmenhinzugefügt (p. 244)
Zwei neue Stimmen wurdenhinzugefügt: Aditi (weiblich,indisches Englisch) und Seoyeon(weiblich, koreanisch).
November 15, 2017
244
Amazon Polly Entwicklerhandbuch
Neue Funktion (p. 244) Hinzufügen einer neuenSprachmarkierungs-Funktionsowie Erweitern der SSML-Funktionen.
April 19, 2017
Neues Handbuch (p. 244) Dies ist die erste Versiondes Amazon Polly-Entwicklerhandbuchs.
November 30, 2016
245
Amazon Polly Entwicklerhandbuch
AWS-GlossarDie aktuelle AWS-Terminologie finden Sie im AWS-Glossar im AWS General Reference.
246