So laden Sie eine verbesserte Siri-Stimme herunter. Apples Sprachassistent Siri

iPhone- und iPad-Benutzer können jetzt Textabfragen und Befehle für Siri eingeben. Aber hier gibt es einen Punkt. In Betaversionen von iOS 11 müssen Sie zwischen Text- und Spracheingabe wählen. Wenn Siri Typing aktiviert ist, akzeptiert Siri keine Sprachbefehle. Es wäre viel komfortabler, wenn Siri automatisch zwischen diesen Optionen wechseln könnte. Möglicherweise wird der Hersteller dies in zukünftigen Versionen berücksichtigen.

So verwenden Sie Siri-Textbefehle:

Gehen Sie wie folgt vor, um Textbefehle für Siri in iOS 11 zu aktivieren:

Schritt 1: Öffnen Sie den Abschnitt „Siri und Suche“ und aktivieren Sie die Option „Hey Siri“ anhören.

Schritt 2: Gehen Sie zu Einstellungen > Allgemein > Barrierefreiheit > Siri.

Schritt 3. Aktivieren Sie den Schalter neben der Option „Texteingabe für Siri“.

Schritt 4: Halten Sie die Home-Taste gedrückt. Anstelle des üblichen Tonsignals erscheint nun die Frage „Wie kann ich helfen“ und eine Standardtastatur auf dem Bildschirm.

Schritt 5: Geben Sie einfach Ihre Abfrage oder Ihren Befehl ein und klicken Sie auf Fertig stellen.

Siris Antwort wird als Text angezeigt. Wenn der virtuelle Assistent die Aufgabe nicht versteht, können Sie auf die Anfrage klicken und sie bearbeiten.

Externe Tastatur

Sprachanfragen an Siri funktionieren auch mit der externen Tastatur auf dem iPad. Das Vorhandensein eines Home-Buttons (wie beim Logitech K811) macht den Eingabevorgang noch komfortabler. Durch Drücken einer Taste und Vorgeben eines Befehls für Siri kann der Benutzer einfache Aufgaben viel schneller erledigen, wie zum Beispiel das Versenden einer Nachricht, das Abspielen von Musik oder das Erstellen einer Notiz.

Diese Art von Funktionalität ist besonders wichtig, da Apple das iPad Pro als Computerersatz positioniert. Nach und nach entwickelt sich iOS zu einem professionellen Betriebssystem, das eng mit der Hardware gekoppelt, immer mit dem Internet verbunden und immer in der Tasche einer Person ist.

In letzter Zeit dringen Sprachassistenten zunehmend in unseren Alltag ein. Die meisten Benutzer des iPhone und anderer Apple-Produkte kennen eines davon – Siri, aber nur wenige verstehen alle Möglichkeiten virtueller Assistenten und wissen, wie sie alle ihre Fähigkeiten und Funktionen nutzen können.

Was ist ein Sprachassistent?

Stellen Sie sich vor, Ihr treuer Freund ist immer an Ihrer Seite, der zu jeder Tages- und Nachtzeit bereit ist, mit Ihnen zu sprechen, alle Ihre Fragen zu beantworten und Anweisungen auszuführen. Gleichzeitig wird er nie müde, hat nie schlechte Laune und wird von Tag zu Tag schlauer und versteht Sie besser. Dabei handelt es sich um Sprachassistenten, die heute alltagstauglich sind.

Sprachassistenten sind in Computer, Tablets, Telefone, Smartwatches, intelligente Lautsprecher und sogar Autos integriert. Es ist wichtig zu verstehen, dass die Interaktion mit dem Sprachassistenten ausschließlich per Sprache erfolgt, ohne die Hände zu benutzen, ohne irgendwelche Tasten zu drücken. Hierbei handelt es sich um eine grundlegend neue Art der Interaktion zwischen einer Person und einem Programm, die der Kommunikation zwischen Menschen sehr ähnlich ist.

Siri von Apple.
Google Assistant Google-Unternehmen.
Alexa von Amazon.
Alice von Yandex.

Wir haben bereits über und geschrieben und werden in diesem Artikel ausführlich über Siri sprechen.

Sprachassistent Siri

Siri ist ein Sprachassistent, der als erster die russische Sprache unterstützte. Erst dann erschien der inländische Sprachassistent, der Ende 2017 veröffentlicht wurde und noch später im Sommer 2018 Russisch sprach. Siri erkennt russische Sprache recht gut, auch wenn in der Nähe Musik läuft oder Fremdgeräusche zu hören sind.

Siri auf dem iPhone SE

Siri gehörte nicht immer Apple. Ursprünglich war es eine separate Anwendung im App Store für iOS. Im Jahr 2010 erwarb Apple Siri Inc. und ihre einzigartige Entwicklung. Kurz nach dem Kauf baute Apple Siri in das iPhone 4S und dann in seine Folgegeräte ein. Dann, im Jahr 2011, wurde Siri das erste Produkt auf dem Markt für persönliche Sprachassistenten.

Siri passt sich jedem Benutzer individuell an, studiert seine Vorlieben und beginnt, seinen „Meister“ besser zu verstehen. Dies macht sich vor allem in der Verbesserung Ihrer Spracherkennung nach den ersten Wochen der Nutzung bemerkbar. Sie können Siri auch mitteilen, wie Sie und die Namen Ihrer Kontakte in Ihrem Adressbuch angesprochen werden sollen, damit Siri Sie besser verstehen kann. Und wenn Siri Namen falsch ausspricht, können Sie sie jederzeit korrigieren und ihr den richtigen Akzent zeigen.

Siri ist auf iPhone, iPad, Mac, Apple Watch, Apple TV und in fast allen modernen Autos über CarPlay verfügbar. Die Art und Weise, wie Sie Siri starten, und die Liste der verfügbaren Befehle variieren je nach Gerät.

So starten Sie Siri auf iPhone, iPad und iPod touch

Starten Sie durch Drücken der Home-Taste

Siri ist auf allen iPhones verfügbar, beginnend mit dem iPhone 4s und mit iOS 5 und höher. Um Siri auf einem iPhone (außer iPhone X) zu starten, müssen Sie die mittlere Home-Taste gedrückt halten.

Um Siri auf dem iPhone X zu starten, müssen Sie die Seitentaste gedrückt halten.

Nach dem Signalton können Sie eine Anfrage stellen. Bei einigen Geräten müssen Sie warten, bis Siri auf dem Bildschirm erscheint, bevor Sie einen Befehl erteilen.

Hey Siri – So aktivieren Sie Siri mit Ihrer Stimme

Siri kann allein mit Ihrer Stimme gestartet werden, ohne dass Sie irgendwelche Tasten drücken müssen. Alles, was Sie tun müssen, ist „Hey Siri“ zu sagen. Nach dem Tonsignal können Sie eine Frage stellen oder einen Befehl erteilen.

Dazu muss auf dem Gerät die „Hey Siri“-Funktion aktiviert sein: Einstellungen → Siri und Suche → „Hey Siri“ hören.

Auf allen iPhone-Modellen, beginnend mit dem iPhone 6s, sowie auf dem iPad Pro kann diese Funktion jederzeit genutzt werden, indem man „Hey Siri“ sagt, damit die Mikrofone des Gadgets sie aufnehmen können. Bei früheren iPhones und iPads funktioniert die Funktion „Immer zuhören“ nur, wenn Ihr Gerät an ein Ladegerät angeschlossen ist.

So aktivieren Sie Siri auf Kopfhörern

Mit einem Original-Apple-Headset mit Fernbedienungstasten oder kompatiblen Bluetooth-Kopfhörern können Sie Siri durch Drücken der mittleren Taste oder der Anruftaste aktivieren. Nach dem Signalton können Sie eine Anfrage stellen.

Verwenden der drahtlosen AirPods von Apple zum Starten von Siri zweimal Berühren Sie nicht die Außenfläche eines Kopfhörers.

Siri auf dem Mac

Siri ist auf Mac-Computern mit macOS 10.12 Sierra und späteren Versionen des Betriebssystems verfügbar. Allerdings ist die Funktionalität des Sprachassistenten auf dem Mac derzeit eingeschränkt. Alles, was Siri hier tun kann, ist FaceTime-Anrufe zu tätigen, Nachrichten zu schreiben, Musik abzuspielen, die Wettervorhersage anzuzeigen und Ihnen bei der Arbeit mit Dateien und Ordnern zu helfen.

Siri auf dem Mac

Es ist erwähnenswert, dass die Arbeit mit Dateien auf einem Computer mithilfe eines Sprachassistenten sehr praktisch ist. Siri kann schnell nach Dateien suchen und sie nach Typ, Datum oder Schlüsselwort sortieren. Wenn Sie Siri beispielsweise sagen: „Zeig mir meine Fotos von gestern“, öffnet sich ein Ordner mit den entsprechenden Mediendateien.

Es gibt mehrere Möglichkeiten, Siri auf dem Mac zu aktivieren:

In zukünftigen Versionen von macOS wird es wahrscheinlich weitere Befehle für Siri geben, darunter auch Befehle für HomeKit. Dies wäre eine logische Fortsetzung von Apples Integration des Sprachassistenten in seine Laptops und Desktops.

Siri-Funktionen

Siri, ein persönlicher Assistent, kann Fragen beantworten, Empfehlungen geben und Befehle ausführen. Schauen wir uns einige davon an.

Dies ist nur ein kleiner Teil von allem, was Siri tun kann. Weitere Befehle finden Sie in unserem Artikel zu Befehlen für Siri. Eine vollständige Liste der Befehle für den Sprachassistenten in iPhones und Home Pod-Smart-Lautsprechern finden Sie in unserer Referenz-Mobilanwendung, die wir regelmäßig aktualisieren. Sie können die Siri Commands-App kostenlos herunterladen. Durch die Installation haben Sie immer die aktuellste Befehlsliste für Ihren Sprachassistenten zur Hand.

Siri ist der treue Assistent jedes Apple-Liebhabers. Mit diesem tollen System können Sie nach dem Wetter suchen, Freunde anrufen, Musik hören und so weiter. Die Funktion beschleunigt die Suche nach benötigten Dingen. Nehmen wir an, Sie bitten Siri, das Wetter für heute in St. Petersburg anzuzeigen, und sie hilft Ihnen gerne weiter. Sie sagen, dass sie sehr bald in der Lage sein wird, den Menschen zuzuhören, da sich viele oft bei ihr über ihre Probleme beschweren und sie nur seelenlos die Nummer des nächstgelegenen psychologischen Dienstes anbietet.

Stellen wir uns also vor, dass Sie ihre Stimme satt haben und sie gerne ändern würden. Viele Leute denken, dass dies unmöglich ist, aber tatsächlich dauert die Arbeit hier nur etwa zwanzig Sekunden.

Schritt eins.

Gehen wir zu den Einstellungen. Wenn überhaupt, befindet sich das Symbol normalerweise auf der ersten Seite des Desktops oder im Ordner „Dienstprogramme“.

Schritt zwei

Nachdem wir die Anwendung gefunden haben, suchen wir nach der Siri-Spalte. Wie Sie wissen, befindet sich dieser Punkt im dritten Abschnitt des Programms.

Schritt drei.

Wechseln Sie neben der Siri-Inschrift die Position der Schaltfläche in den Ein-Modus. Wenn dies bereits geschehen ist, überspringen Sie diesen Schritt.

Schritt vier

Gehen Sie zum Abschnitt „Stimme“ und wählen Sie die Option aus, die Ihnen am besten gefällt. Hier können Sie verschiedene Akzente lernen und das Geschlecht des Sprechers ändern. Nicht alle Sprachen haben einen Akzent, die meisten jedoch schon. Im Allgemeinen ist dies nicht die Hauptsache, da sich die Anwendung selbst nach einer Weile an Sie anpasst.

Möchten Sie einen persönlichen Assistenten auf Ihrem iPhone haben? Zum Beispiel, damit Sie Ihren Tag, Ihre Woche und sogar Ihren Monat planen können und jemand Sie auf angenehme Weise an wichtige Dinge erinnert, Ihre Besprechungen plant, Ihre Aktionen leitet, anruft oder E-Mails direkt von Ihrem Smartphone aus sendet. Ein solches intelligentes Programm für die Siri-Sprachschnittstelle auf dem iPhone wurde in Russland von der SiriPort-Projektgruppe entwickelt.

Die individuellen Eigenschaften des Sprachassistenten Siri entsprechen modernen innovativen Anforderungen an die Schaffung künstlicher Intelligenz. Die Anwendung ist superschlau und kann Sprachbefehle aus allen möglichen Aktionen auf einem Smartphone vollständig ausführen: Teilnehmer aus der Kontaktliste anrufen, Nachrichten senden, die erforderlichen Informationen finden, Lesezeichen und Aufgabentexte erstellen, ohne die Smartphone-Tastatur zu verwenden, sondern nur die Sprachschnittstelle. In diesem Artikel erfahren Sie, wie Sie Siri auf einem iPhone 4 oder iPhone 5 oder 6 Generation installieren.

Bei der neuen lizenzierten persönlichen Assistentenanwendung handelt es sich um ein Spracherkennungsprogramm, das auf allen Apple-Geräten installiert ist. Es sollte hinzugefügt werden, dass der Sprachassistent auf Basis von iOS 7 auf iPhone 4S-Geräten mit Siri, Siri auf iPhone 5, auf iPhone 5S, iPhone 6, iPhone 6S, iPhone 7 Generation funktioniert. Darüber hinaus kann der Assistent das iPad Mini, Mini 2 und Mini 3 bedienen, ist auch auf dem iPod Touch der 5. Generation, auf Apple Watch-Geräten vorhanden und funktioniert auch auf dem iPad der 3. Generation und höher.

Nach der Veröffentlichung von iOS 8.3 kann Siri iPhone auf Russisch konfiguriert werden. iOS 10 auf Geräten der neuen Generation berücksichtigt noch größere Möglichkeiten des Sprachassistenten. Dies erleichtert das Auffinden und Merken persönlicher Informationen erheblich und spart so Zeit und Geld.

Möchten Sie wissen, wie Sie Siri auf dem iPhone aktivieren?

Wenn Sie beispielsweise nicht wissen, wie Sie Siri auf dem iPhone 4–7 einschalten oder nicht verstehen, wie Sie Siri ausschalten, gehen wir Schritt für Schritt vor. Erwägen Sie den Sprachassistenten auf dem iPhone 4S oder iPhone 6S mit Sprachassistenten. Zunächst sollten Sie herausfinden, ob die Anwendung auf dem iPhone 4 oder iPhone 6S installiert ist und warum Siri auf dem iPhone nicht funktioniert. Wenn sich herausstellt, dass das Assistenzprogramm nicht auf dem iPhone ausgeführt werden kann, verzweifeln Sie nicht, Sie können andere, ganz ähnliche Alternativprogramme installieren, zum Beispiel das von der Firma Nuance entwickelte Programm „Dragon Go!“, auf das Sie zugreifen können andere auf dem iPhone installierte Programme wie Google, Netflix, Yelp und andere.

Wenn der Sprachassistent beim Verkauf auf dem iPhone installiert war, befindet er sich höchstwahrscheinlich standardmäßig im aktiven Zustand. Um dies zu überprüfen, halten Sie die Home-Taste auf Ihrem iPhone gedrückt. Siri piept, wenn es betriebsbereit ist. Sie können per Sprachbefehl einen Befehl erteilen: Sagen Sie zum Beispiel deutlich und laut: „Überprüfen Sie Ihre Post!“

Sollte Siri nicht wie gewünscht aktiviert sein, können Sie es wie folgt selbst erledigen. Öffnen Sie den Hauptbildschirm Ihres Telefons und klicken Sie auf „Einstellungen“, suchen Sie den Ordner „Basic“ und starten Sie, da Sie wissen, wie man ihn verwendet, die Anwendung „Siri“. Wenn Sie jedoch mit einem intelligenten Programm arbeiten, können Sie einem Assistenten ein Dutzend Aufgaben übertragen und dabei laut kommunizieren. Versuchen Sie, eine Begrüßung wie „Hey!“ zu sagen. oder „Hey Siri!“ oder sagen Sie: „Wie ist das Wetter, Siri?“ Darüber hinaus können Sie das Geschlecht Ihres Assistenten bestimmen, indem Sie es im Einstellungsbereich auswählen.

So ändern Sie die Stimme oder Sprache von Siri

Wenn der Sprachassistent mit Ihnen in einer Sprache kommuniziert, die Sie nicht verstehen, können Sie seine Sprache ändern. Suchen Sie dazu im Menü „Einstellungen“ des iPhones nach Siri und wählen Sie den Befehl „Siri-Sprache“. Vor Ihnen öffnet sich eine Liste mit Sprachoptionen und nach dem Scrollen wählen Sie die gewünschte aus, mit deren Hilfe der Assistent in Zukunft mit Ihnen kommunizieren wird.

Wenn Sie den Kommunikationsstil einer einzelnen Assistentin programmieren möchten, konfigurieren Sie nicht nur ihre Stimme, sondern auch den festgelegten Anredestil, verschiedene Phrasen, die Sie gerne hören werden. Gehen Sie dazu erneut in den Bereich „Einstellungen“. Starten Sie das Programm „Siri“, suchen Sie die Befehlszeile „Audio-Feedback“ und aktivieren Sie entsprechend die für Sie passende Kommunikationsoption.

Übrigens haben die Entwickler dieses Softwareprodukts den Sprachassistenten mit Bedacht in die Lage versetzt, Stimmen, Intonation, Akzent und sogar Dialekte zu erkennen.

Siri-Modus im Auto

Das Einschalten der Siri-App kann Ihre Aufgaben erheblich erleichtern, indem Sie beim Autofahren die gewünschte Richtung auf der Karte auswählen. Dazu muss das Auto die CarPlay-Software unterstützen oder die in diesem Programm verfügbare Funktion „ohne hinzusehen“ nutzen. Um die Dienste des Assistenten nutzen zu können, müssen Sie ihn anrufen, indem Sie die Sprachbefehlstaste direkt am Lenkrad des Autos drücken und Siri den entsprechenden Befehl erteilen.

Wenn Ihr Auto über einen CarPlay-fähigen Touchscreen verfügt, aktivieren Sie Siri, indem Sie im Bildschirmmenü auf die Home-Taste zugreifen. Wenn Sie einen Befehl aussprechen, wartet der Assistent eine Sprechpause, bevor er mit der Ausführung beginnt. Wenn das Auto jedoch sehr laut ist, ist es besser, mit einer Taste auf dem Bildschirm zu reagieren, die eine Schallwelle sendet. Dann erkennt Siri, dass Sie fertig sind, und beginnt mit der Ausführung der zugewiesenen Aufgabe. Bei Bedarf können Sie in den iPhone-Einstellungen auch lesen, wie Sie Siri deaktivieren.

Sie können den Assistenten auch über ein Bluetooth-Headset sowie über ein USB-Kabel mit der Quelle verbinden. Führen Sie in diesem Fall alle Aktionen in der gleichen Reihenfolge aus.

Siri ist ein Sprachassistent, der erstmals 2011 zusammen mit iOS 5 eingeführt wurde. Seitdem hat er sich natürlich ernsthaft weiterentwickelt: Er lernte verschiedene Sprachen (einschließlich Russisch), kam auf Mac-Computer und lernte von dort aus, mit Programmen zu interagieren Drittentwickler usw., aber erst mit der Ankündigung von iOS 10 machte er einen qualitativen Sprung – jetzt basiert seine Stimme auf Deep Learning, wodurch er natürlicher und sanfter klingen kann. Was Deep Learning ist und wie Siris Stimme synthetisiert wird – darüber werden wir in diesem Artikel sprechen.

Einführung

Sprachsynthese – die künstliche Reproduktion menschlicher Sprache – wird in vielen Bereichen eingesetzt, von Sprachassistenten bis hin zu Spielen. Seit Kurzem ist die Sprachsynthese in Kombination mit der Spracherkennung ein integraler Bestandteil virtueller persönlicher Assistenten wie Siri.

In der Audioindustrie werden zwei Sprachsynthesetechnologien verwendet: Auswahl der Audioeinheit und parametrische Synthese. Die Unit-Selection-Synthese liefert bei ausreichender Anzahl qualitativ hochwertiger Sprachaufnahmen die höchste Qualität und ist daher das am weitesten verbreitete Sprachsyntheseverfahren in kommerziellen Produkten. Andererseits sorgt die parametrische Synthese für eine sehr klare und flüssige Sprache, weist jedoch insgesamt eine geringere Qualität auf. Moderne Systeme zur Auswahl von Toneinheiten vereinen einige der Vorteile beider Ansätze und werden daher als Hybridsysteme bezeichnet. Hybride Methoden zur Einheitenauswahl ähneln klassischen Methoden zur Einheitenauswahl, verwenden jedoch einen parametrischen Ansatz, um vorherzusagen, welche Klangeinheiten ausgewählt werden sollten.

In jüngster Zeit hat Deep Learning im Bereich der Sprachtechnologien an Bedeutung gewonnen und ist herkömmlichen Methoden wie Hidden-Markov-Modellen (HMM) deutlich überlegen, deren Prinzip darin besteht, unbekannte Parameter auf der Grundlage beobachteter Parameter und der erhaltenen Parameter zu lösen können in der zukünftigen Analyse beispielsweise zur Mustererkennung genutzt werden. Deep Learning hat einen völlig neuen Ansatz zur Sprachsynthese ermöglicht, der als Vorwärtswellenformmodellierung bezeichnet wird. Es kann sowohl eine qualitativ hochwertige Synthese der Einheitenauswahl als auch die Flexibilität der parametrischen Synthese bieten. Aufgrund des extrem hohen Rechenaufwands wird es jedoch noch nicht möglich sein, es auf Consumer-Geräten umzusetzen.

Wie Sprachsynthese funktioniert

Die Erstellung eines hochwertigen Text-to-Speech-Systems (TTS) für einen persönlichen Assistenten ist keine leichte Aufgabe. Der erste Schritt besteht darin, eine professionelle Stimme zu finden, die angenehm und leicht verständlich klingt und zu Siris Persönlichkeit passt. Um einige der Variationen in der enormen Vielfalt der menschlichen Sprache einzufangen, sind 10 bis 20 Stunden Sprachaufzeichnung in einem professionellen Studio erforderlich. Die Aufnahmeskripte reichen von Hörbüchern bis hin zu Navigationsanweisungen und von Hinweisen über Antworten bis hin zu witzigen Witzen. Normalerweise kann diese natürliche Sprache nicht in einem Sprachassistenten verwendet werden, da es unmöglich ist, alle möglichen Äußerungen aufzuzeichnen, die der Assistent möglicherweise spricht. Daher basiert die Auswahl von Lauteinheiten in TTS darauf, aufgezeichnete Sprache in ihre elementaren Komponenten, wie z. B. Phoneme, zu zerlegen und diese dann entsprechend dem Eingabetext neu zu kombinieren, um eine völlig neue Sprache zu erzeugen. In der Praxis ist es keine leichte Aufgabe, geeignete Sprachsegmente auszuwählen und miteinander zu kombinieren, da die akustischen Eigenschaften jedes Phonems von seinen Nachbarn und der Intonation der Sprache abhängen, wodurch Spracheinheiten häufig nicht miteinander kompatibel sind. Die folgende Abbildung zeigt, wie Sprache mithilfe einer in Phoneme unterteilten Sprachdatenbank synthetisiert werden kann:

Der obere Teil der Abbildung zeigt die synthetisierte Äußerung „Unit Selection Synthesis“ und ihre phonetische Transkription mithilfe von Phonemen. Das entsprechende synthetische Signal und sein Spektrogramm sind unten dargestellt. Durch Zeilen getrennte Sprachsegmente sind fortlaufende Sprachsegmente aus der Datenbank, die ein oder mehrere Phoneme enthalten können.

Das Hauptproblem bei der Auswahl von Lauteinheiten in TTS besteht darin, eine Folge von Einheiten (z. B. Phoneme) zu finden, die dem eingegebenen Text und der vorhergesagten Intonation entsprechen, vorausgesetzt, sie können ohne hörbare Störungen miteinander kombiniert werden. Traditionell besteht der Prozess aus zwei Teilen: Front-End und Back-End (Datenein- und -ausgang), obwohl in modernen Systemen die Grenze manchmal mehrdeutig sein kann. Der Zweck des Frontends besteht darin, phonetische Transkriptions- und Intonationsinformationen basierend auf dem Quelltext bereitzustellen. Dazu gehört auch die Normalisierung des Quelltextes, der Zahlen, Abkürzungen etc. enthalten kann:

Anhand der vom Textanalysemodul erstellten symbolischen sprachlichen Darstellung sagt das Modul zur Intonationsgenerierung Werte für akustische Eigenschaften wie Phrasendauer und Intonation voraus. Diese Werte werden verwendet, um die geeigneten Toneinheiten auszuwählen. Die Aufgabe der Einheitenauswahl ist sehr komplex, daher verwenden moderne Synthesizer Methoden des maschinellen Lernens, die die Entsprechung zwischen Text und Sprache lernen und dann Sprachmerkmalswerte aus Subtextwerten vorhersagen können. Dieses Modell muss während der Trainingsphase des Synthesizers anhand einer großen Menge an Text- und Sprachdaten erlernt werden. Die Eingabe in dieses Modell sind numerische linguistische Funktionen wie die Identifizierung von Phonemen, Wörtern oder Phrasen, die in eine verwendbare numerische Form umgewandelt werden. Die Ausgabe des Modells besteht aus numerischen akustischen Eigenschaften der Sprache, wie z. B. Spektrum, Grundfrequenz und Phrasendauer. Während der Synthese wird ein trainiertes statistisches Modell verwendet, um Eingabetextmerkmale auf Sprachmerkmale abzubilden, die dann zur Steuerung des Auswahlprozesses der Backend-Audioeinheit verwendet werden, wobei geeignete Intonation und Dauer wichtig sind.

Im Gegensatz zum Frontend ist das Backend weitgehend sprachunabhängig. Es besteht darin, die gewünschten Lauteinheiten auszuwählen und sie zu einer Phrase zu verketten (also zusammenzukleben). Wenn das System trainiert wird, werden die aufgezeichneten Sprachdaten mithilfe einer erzwungenen Ausrichtung zwischen der aufgezeichneten Sprache und dem Aufzeichnungsskript (unter Verwendung akustischer Spracherkennungsmodelle) in einzelne Sprachsegmente segmentiert. Die segmentierte Sprache wird dann verwendet, um eine Datenbank mit Lauteinheiten zu erstellen. Die Datenbank wird außerdem mit wichtigen Informationen wie dem sprachlichen Kontext und den akustischen Eigenschaften jeder Einheit angereichert. Unter Verwendung der erstellten Gerätedatenbank und der vorhergesagten Intonationsfunktionen, die den Auswahlprozess bestimmen, wird eine Viterbi-Suche durchgeführt (oben sind die Zielphoneme, unten sind die möglichen Lautblöcke, die rote Linie ist ihre beste Kombination):

Die Auswahl erfolgt nach zwei Kriterien: Erstens müssen die Klangeinheiten die gleiche (Soll-)Intonation haben, und zweitens müssen die Einheiten möglichst ohne hörbare Störungen an den Grenzen kombiniert werden. Diese beiden Kriterien werden als Ziel- bzw. Verkettungskosten bezeichnet. Die Zielkosten sind die Differenz zwischen den vorhergesagten akustischen Zieleigenschaften und den aus jedem Block extrahierten akustischen Eigenschaften, während die Verkettungskosten die akustische Differenz zwischen aufeinanderfolgenden Einheiten sind:

Sobald die optimale Reihenfolge der Einheiten ermittelt ist, werden die einzelnen Audiosignale verkettet, um eine kontinuierliche synthetische Sprache zu erzeugen.

Hidden-Markov-Modelle (HMMs) werden häufig als statistisches Modell für Zielvorhersagen verwendet, da sie die Verteilungen akustischer Parameter direkt modellieren und somit leicht zur Berechnung der Zielkosten verwendet werden können. Allerdings übertreffen auf Deep Learning basierende Ansätze HMMs bei der parametrischen Sprachsynthese häufig.

Das Ziel des TTS-Systems von Siri besteht darin, ein einzelnes, auf Deep Learning basierendes Modell zu trainieren, das sowohl Ziel- als auch Verkettungskosten für Audioeinheiten in der Datenbank automatisch und genau vorhersagen kann. Daher wird anstelle von HMM ein Mischungsdichtenetzwerk (MDN) verwendet, um Verteilungen für bestimmte Merkmale vorherzusagen. SPNs kombinieren herkömmliche tiefe neuronale Netze (DNNs) mit Gaußschen Modellen.

Ein typisches DNN ist ein künstliches neuronales Netzwerk mit mehreren verborgenen Neuronenschichten zwischen der Eingabe- und Ausgabeschicht. Somit kann ein DNN die komplexe und nichtlineare Beziehung zwischen Eingabe- und Ausgabeeigenschaften modellieren. Im Gegensatz dazu modelliert ein HMM die Wahrscheinlichkeitsverteilung der Ausgabe bei gegebener Eingabe mithilfe einer Reihe von Gaußschen Verteilungen und wird typischerweise mithilfe der Erwartungsmaximierungsmethode trainiert. SPS kombiniert die Vorteile von DNN und HMM, indem es DNN verwendet, um die komplexe Beziehung zwischen Eingabe- und Ausgabedaten zu modellieren, aber am Ausgang eine Wahrscheinlichkeitsverteilung bereitstellt:

Siri verwendet einheitliche Ziel- und Verkettungsmodelle auf Basis von SPS, die die Verteilung sowohl der Zielspracheigenschaften (Spektrum, Tonhöhe und Dauer) als auch der Verkettungskosten zwischen Toneinheiten vorhersagen können. Manchmal sind Sprachmerkmale wie Affixe recht stabil und entwickeln sich langsam – zum Beispiel bei Vokalen. An anderen Stellen kann sich die Sprache recht schnell ändern – zum Beispiel beim Übergang zwischen stimmhaften und stimmlosen Sprachlauten. Um diese Variabilität zu berücksichtigen, muss das Modell in der Lage sein, seine Parameter entsprechend der oben genannten Variabilität anzupassen. ATP tut dies mithilfe von Vorurteilen, die in das Modell integriert sind. Dies ist wichtig, um die Qualität der Synthese zu verbessern, da wir Ziel- und Verkettungskosten spezifisch für den aktuellen Kontext berechnen möchten.

Nach der Zählung der Einheiten anhand der Gesamtkosten mithilfe von ATP wird eine herkömmliche Viterbi-Suche durchgeführt, um die beste Kombination von Klangeinheiten zu finden. Diese werden dann mithilfe der Wellenform-Überlappungsanpassung kombiniert, um optimale Verkettungszeiten zu finden und eine gleichmäßige und kontinuierliche synthetische Sprache zu erzeugen.

Ergebnisse

Um SPS in Siri nutzen zu können, wurden mindestens 15 Stunden hochwertige Sprachaufzeichnungen mit einer Frequenz von 48 kHz aufgezeichnet. Die Sprache wurde mithilfe einer erzwungenen Ausrichtung in Phoneme unterteilt, d. h. es wurde eine automatische Spracherkennung angewendet, um die eingegebene Audiosequenz mit den aus dem Sprachsignal extrahierten akustischen Eigenschaften abzugleichen. Dieser Segmentierungsprozess führte zur Entstehung von etwa 1–2 Millionen Phonemen.

Um den Prozess der Auswahl von Klangeinheiten auf der Grundlage des SPS durchzuführen, wurde ein einzelnes Ziel- und Verkettungsmodell erstellt. Die Eingabedaten für das SPS bestehen hauptsächlich aus binären Werten mit einigen zusätzlichen Merkmalen, die Kontextinformationen darstellen (zwei vorangehende und folgende Phoneme).

Die Qualität des neuen TTS-Siri-Systems ist dem Vorgängersystem überlegen – dies wird durch zahlreiche Tests im Bild unten bestätigt (interessanterweise wurde die neue russische Stimme von Siri am besten bewertet):

Eine bessere Klangqualität ist gerade mit der SPS-basierten Datenbank verbunden – diese sorgt für eine bessere Auswahl und Verkettung von Audioblöcken, höhere Abtastraten (22 kHz gegenüber 48 kHz) und eine verbesserte Audiokomprimierung.

Sie können den Originalartikel lesen (gute Kenntnisse in Englisch und Physik sind erforderlich) und auch anhören, wie sich Siris Stimme in iOS 9, 10 und 11 verändert hat.