Der Held lernt sprechen. (Text-to-Speech)

**Jazz Jackrabbit** · 14.02.2020 23:59

Zitat von sanjaesc

Weiß jemand ob die Synchronsprecher aus Gothic auch in anderen Spielen vertreten sind, so z.B. in Risen, Elex, Arcania...?

Sowas kann man unter anderem auf Mobygames nachschauen, allerdings sind die Listen manchmal nicht vollständig, weil Sprecher nicht immer namentlich in den Credits genannt werden: https://www.mobygames.com/developer/...loperId,37881/
Manchmal findet man auch Einträge auf IMDB oder Synchronsprecherdatenbanken.

Bin wirklich schwer beeindruckt von dieser Technik. Die Mögleichkeiten, die sich dadurch für Gothicmods eröffnen scheinen unendlich. Wenn man jetzt noch etwas Kontrolle darüber hätte wie einzelne Wörter in bestimmten Situationen betont werden, kann man es wahrscheinlich kaum noch von richtigen Sprachaufnahmen unterscheiden.

**Feuerbarde** · 15.02.2020 23:39

Zitat von GenerationLost

Ich hätte ja gesagt, als hauptsächlicher Windows-Nutzer ist Linux Mint mit dem Cinnamon Desktop zu empfehlen. Diese Distro ist in Sachen Look and Feel an Windows angelehnt und wurde auch entsprechend mit dem Gedanken entwickelt, Windows-Nutzern den Umstieg zu erleichtern, was mMn auch ziemlich gut gelungen ist (kurz off topic: ich bin sogar soweit gegangen, dass mein Linux Mint schon fast 1 zu 1 wie Windows XP aussieht, die Theming-Möglichkeiten sind super

).

Wenn dir eine andere Oberfläche aber nichts ausmacht, würde ich Ubuntu mit dem Standard-Desktop (Gnome) empfehlen. Es ist soweit die populärste und mit die anfängerfreundlichste Distro, zu der es auch massenweise Hilfsartikel zu finden gibt, solltest du mal auf Probleme stoßen.

Was Tools etc. angeht, einfach mal ins Software Center (ähnlich wie Apple's AppStore oder der Windows Shop, oder Microsoft Store oder wie auch immer der Kram heißt) schauen und dann siehst du, was es so an tollen Sachen dort gibt. Einfach etwas Zeit lassen und ausprobieren. Für das Thema Sprachausgabe sind die nötigen Tools ja hier bereits im Thread verlinkt.

Zur Installation des ganzen bzgl. Dual-Boot/Multi-Boot: Immer zuerst ganz normal Windows installieren. Zum Schluss dann Linux von einem Live-Stick oder CD, Windows wird dabei als Installation erkannt (die HDDs müssen zu diesem Zeitpunkt natürlich angeschlossen sein, man es aber auch nachträglich einrichten) und es wird entsprechend ein Eintrag im Bootmenü erzeugt, in dem du bei jedem Rechnerstart dann dein System zu booten wählen kannst. Gute Anleitungen zur Installation von gängigen Linux-Distros (Ubuntu/Mint) findest du leicht per Google. Ansonsten kannst du auch ruhig hier nochmal nachfragen (entweder evtl. in einem eigenen Thread oder per PN, das Thema hier muss ja nicht zum "How-To-Linux" Thread werden

).

Ich werde mich der Tage dann mit Ubuntu versuchen, dieses Art Desktopverwaltung kann man wechseln? Ich wäre für etwas erfreulich anderes als Windows wenn ich mich schon damit befassen muss. Kann ruhig verspielt und poppig sein.

Na dann mal versuchen, kann man eine solche Installation dann später durch etwas anderes ersetzen wenn es einem nicht gefällt ohne das Gesamtsystem aus allen Betriebssystemen dabei zu Bruch zu bringen?

Auf diese Sprachtools bin ich wirklich sehr gespannt und denke das ich daran viel Spaß haben könnte. Danke für deinen Rat.

**sanjaesc** · 16.02.2020 10:52

Zitat von Sporthistoriker

Ich werde mich der Tage dann mit Ubuntu versuchen, dieses Art Desktopverwaltung kann man wechseln? Ich wäre für etwas erfreulich anderes als Windows wenn ich mich schon damit befassen muss. Kann ruhig verspielt und poppig sein.

Na dann mal versuchen, kann man eine solche Installation dann später durch etwas anderes ersetzen wenn es einem nicht gefällt ohne das Gesamtsystem aus allen Betriebssystemen dabei zu Bruch zu bringen?

Auf diese Sprachtools bin ich wirklich sehr gespannt und denke das ich daran viel Spaß haben könnte. Danke für deinen Rat.

Als Linux Distribution würde ich auch Ubuntu empfehlen, ist einfach am ausgereiftesten.
Die Frage ist, ob du dann auch eigene Modelle trainieren willst oder nur am generieren von Sprachausgabe interessiert bist?
Wenn du eigene Modelle trainieren willst, solltest du eine GPU (Nvidia) mit mindestens 6GB RAM haben. Interessanter Post bezüglich der GPU Auswahl.
Solltest du nur Sprachausgabe generieren wollen, reicht auch eine Windows Installation mit den nötigen Python Bibliotheken. (Das Generieren funktioniert auch über die CPU)

Vielleicht noch ein kleines Update von mir.
Ich habe mich jetzt intensiver mit der Repository von Mozilla auseinander gesetzt und bin dabei ein multi speaker model zu trainieren.
Hier könnt ihr euch einige Beispiele anhören. (Aktuell noch ohne Vocoder).

Der Vorteil hierbei ist,

ich kann die Betonung der Sprache durch Referenz-Sprachdateien beeinflussen. (Sprache hört sich natürlicher an)
Es sind mehrere Sprecher in einem Modell, aktuell 10.

Sobald es Neuigkeiten gibt, werde ich diese hier Posten.

**GenerationLost** · 16.02.2020 10:56

Zitat von Sporthistoriker

Ich werde mich der Tage dann mit Ubuntu versuchen, dieses Art Desktopverwaltung kann man wechseln? Ich wäre für etwas erfreulich anderes als Windows wenn ich mich schon damit befassen muss. Kann ruhig verspielt und poppig sein.

Na dann mal versuchen, kann man eine solche Installation dann später durch etwas anderes ersetzen wenn es einem nicht gefällt ohne das Gesamtsystem aus allen Betriebssystemen dabei zu Bruch zu bringen?

Auf diese Sprachtools bin ich wirklich sehr gespannt und denke das ich daran viel Spaß haben könnte. Danke für deinen Rat.

Viele verschiedene Linux-Distros kommen in unterschiedlichen "Geschmacksrichtungen", das darunterliegende System an sich ist dabei das Gleiche, nur die Desktop-Umgebung (und damit das Look and Feel der Distro) sind damit verschieden. Einfach mal ein paar verschiedene Anschauen, oder besser selbst ausprobieren.

Man kann theoretisch die Desktop-Umgebung in einer bestehenden Installation wechseln, ist aber für Einsteiger nicht sehr ratsam, da u.U. auch ein bisschen was kaputt gehen kann oder sonstige Probleme entstehen, die sich nicht gerade mit ein paar Klicks lösen lassen. Um das Ganze also Frustfrei zu halten würde ich lieber Neuinstallationen vornehmen, um die Distro zu ersetzen, die dir nicht gefällt. Alles andere sollte dabei unberührt bleiben und Linux erkennt bei der Installation dann nach wie vor die anderen Betriebssysteme und kann sie in die Liste aufnehmen.

Dann mal viel Erfolg und viel Spaß!

**White Troll** · 09.06.2020 13:18

Faszinierendes Thema. Die Ergebnisse können sich echt sehen lassen

Interessant wäre zu sehen, ob in naher Zukunft auch Emotionen in die Stimme eingebaut werden können. Vielleicht geht es ja auch weg vom Text-to-Speech und hin zum Speech-to-Speech: Dass man Texte einspricht (mit Betonungen usw.) und diese dann in der trainierten Stimme ausgegeben werden:

[Video]

Und der darauf folgende Schritt wäre dann Realtime-Conversion. Aber das ist wohl noch Zukunftsmusik.

**Feuerbarde** · 09.06.2020 14:35

Ich bin immer noch nicht weitergekommen, aber auch schwer wenn man min. 20/24 schläft und allgemein seine EDV wieder in Griff bekommen muss. Ich frage mich nur warum es dafür keine Tools gibt die komplett auf Windows laufen, ich denke dann wäre es viel leichter das mehr Leute sich damit beschäftigen. Was ich bisher gesehen und vor allem gehört habe ist echt faszinierend und ich wäre schwer glücklich über etwas mit dem ich mich immer mal wieder beschäftigen könnte, was nebenher noch einen breiteren Nutzen hat.

**sanjaesc** · 13.06.2020 17:45

Zitat von White Troll

Faszinierendes Thema. Die Ergebnisse können sich echt sehen lassen

Interessant wäre zu sehen, ob in naher Zukunft auch Emotionen in die Stimme eingebaut werden können. Vielleicht geht es ja auch weg vom Text-to-Speech und hin zum Speech-to-Speech: Dass man Texte einspricht (mit Betonungen usw.) und diese dann in der trainierten Stimme ausgegeben werden:

Und der darauf folgende Schritt wäre dann Realtime-Conversion. Aber das ist wohl noch Zukunftsmusik.

Ich probiere immer wieder mal etwas aus, wenn die Zeit es zulässt. Zuletzt hatte ich mich daran versucht, dem Modell "Emotionen" zu verleihen. Bis jetzt kann ich zumindest die Sprechgeschwindigkeit und Tonlage steuern, wenn der Datensatz es zulässt. Weiterhin war es mir möglich, recht robuste Modelle mit einem nur sehr limitierten Datensatz zu trainieren. Siehe Cassia Beispiele im unteren Link. Der Datensatz hat nur um die 18 Minuten an Material. Bei Gelegenheit werde ich noch einen Vocoder trainieren, damit das alles natürlicher klingt.

Beispiele: https://drive.google.com/drive/folde...0F?usp=sharing

Falugify · 13.06.2020 18:02

Klingt nicht wirklich gut. Kann die Qualität noch verbessert werden?

**sanjaesc** · 13.06.2020 18:06

Zitat von Falugify

Klingt nicht wirklich gut. Kann die Qualität noch verbessert werden?

Das ist aktuell noch ohne Vocoder ^^, also reines TTS. Ein Vocoder verleiht der Sprache seine Natürlichkeit.

Falugify · 13.06.2020 18:12

Zitat von sanjaesc

Das ist aktuell noch ohne Vocoder ^^, also reines TTS. Ein Vocoder verleiht der Sprache seine Natürlichkeit.

Könntest du davon ein paar Beispiele zeigen, wie das klingen würde?

**sanjaesc** · 13.06.2020 18:26

Zitat von Falugify

Könntest du davon ein paar Beispiele zeigen, wie das klingen würde?

Dieser muss erst noch trainiert werden.
Aktuell wird der Griffin-Lim Algorithmus genutzt, um die Sprachdateien zu erzeugen.

https://google.github.io/tacotron/pu...affect_prosody

In Abschnitt "Prosody vs Audio Quality" kannst du dir Beispiele zwischen Griffin-Lim und einem Vocoder anhören.

**Herobrine** · 13.06.2020 18:38

Zitat von sanjaesc

Ich probiere immer wieder mal etwas aus, wenn die Zeit es zulässt. Zuletzt hatte ich mich daran versucht, dem Modell "Emotionen" zu verleihen. Bis jetzt kann ich zumindest die Sprechgeschwindigkeit und Tonlage steuern, wenn der Datensatz es zulässt. Weiterhin war es mir möglich, recht robuste Modelle mit einem nur sehr limitierten Datensatz zu trainieren. Siehe Cassia Beispiele im unteren Link. Der Datensatz hat nur um die 18 Minuten an Material. Bei Gelegenheit werde ich noch einen Vocoder trainieren, damit das alles natürlicher klingt.

Beispiele: https://drive.google.com/drive/folde...0F?usp=sharing

Mega krass!

Ich bin gespannt, wie sich das im Laufe der nächsten Jahre entwickelt. Die Betonungen sind ja jetzt schon mal richtig gut und das nur mit 18 Minuten an Material. Wenn erstmal der Vocoder fertig ist und die Modelle einfach zu bedienen sind, werden bestimmt die ersten rein TTS vertonten Mods kommen.

**Feuerbarde** · 13.06.2020 22:06

Ich fände es super wenn jemand die ganzen Schritte und alles etwas genauer erklären könnte und wenn man mir sagen könnte, warum wohl so etwas größtenteils an Software nur für Linux erstellt wird, warum gibt es so etwas nicht unter Windows? Ich bin da langfristig gesehen sehr dran interessiert, finde das total faszinierend.

Also wie man das trainiert, so richtig für dumme (wie ich es bin) erklärt, die Schritte, die Programme und alles halt. Das wäre sehr nett.

**sanjaesc** · 13.07.2020 08:53

Habe jetzt angefangen den Vocoder zu trainieren, braucht sehr viel Zeit und Ressourcen...

Hier sind die ersten Ergebnisse:
https://soundcloud.com/sanjaesc-395770686/sets/gothic-tts-tacotron-2

**Feuerbarde** · 13.07.2020 13:49

Zitat von sanjaesc

Habe jetzt angefangen den Vocoder zu trainieren, braucht sehr viel Zeit und Ressourcen...

Hier sind die ersten Ergebnisse:
https://soundcloud.com/sanjaesc-3957.../s-AG2sHY4OutO

Man kann sie leider nicht anhören, sie sind alle auf "privat" gesetzt. Diese "Soundcloud" scheint gut geeignet zu sein um offen daran zu arbeiten. Wenn Du noch Erfahrungen und Anleitungen hast, wäre ich dankbar wen Du sie hier teilst. Einen Rechner dafür habe ich nun zumindest zusammengestellt (ein i5 sollte wohl reichen) soweit, muss mich nun erstmal damit befassen da DOS, Windows XP, Windows 7 und ein Linux-System zu installieren und auch wahlfrei booten zu können. Dafür finde ich mit Google sicher Anleitungen zu der Reihenfolge wie ich das installieren muss. Genug alte SATA-Festplatten habe ich, für Gothic 3 sogar eine SSD.

Haarig wird es wohl bei allem unter Linux, da habe ich absolut keine Ahnung von. Bin aber total heiß auf die Technik und diese genialen Möglichkeiten.

**gladi1994** · 13.07.2020 14:24

Zitat von Sporthistoriker

Man kann sie leider nicht anhören, sie sind alle auf "privat" gesetzt. Diese "Soundcloud" scheint gut geeignet zu sein um offen daran zu arbeiten. Wenn Du noch Erfahrungen und Anleitungen hast, wäre ich dankbar wen Du sie hier teilst. Einen Rechner dafür habe ich nun zumindest zusammengestellt (ein i5 sollte wohl reichen) soweit, muss mich nun erstmal damit befassen da DOS, Windows XP, Windows 7 und ein Linux-System zu installieren und auch wahlfrei booten zu können. Dafür finde ich mit Google sicher Anleitungen zu der Reihenfolge wie ich das installieren muss. Genug alte SATA-Festplatten habe ich, für Gothic 3 sogar eine SSD.

Haarig wird es wohl bei allem unter Linux, da habe ich absolut keine Ahnung von. Bin aber total heiß auf die Technik und diese genialen Möglichkeiten.

Vorhin ging es noch, da hab ich mir ein paar Samples angehört. Keine Ahnung, was da in der Zwischenzeit passiert ist.

Klang echt gut, ich kenne mich damit allerdings null aus.

**Raziel** · 14.07.2020 07:14

Ich brauche Fletchers Stimme

**MadFaTal** · 14.07.2020 15:24

Zitat von sanjaesc

Habe jetzt angefangen den Vocoder zu trainieren, braucht sehr viel Zeit und Ressourcen...

Hier sind die ersten Ergebnisse:
https://soundcloud.com/sanjaesc-395770686/sets/gothic-tts-tacotron-2

Wow, das hört sich richtig echt an.
Das die Geschwindigkeit der verschiedenen Samples wahrnehmbar variiert liegt an deinen Versuchen oder?

Ich hatte bisher keine Zeit mich intensiver damit auseinander zu setzen.
Ich habe dein Helden-Model Ende letzten Jahres verwendet, um für meinen CSP Testlauf fast 10.000 Dialogzeilen des Helden zu vertonen.
Das hat fast eine Woche gedauert. Sehr viel Zeit kann ich nachvollziehen. Kann mir gut vorstellen, dass das trainieren noch zeitaufwendiger ist.
Aber keine schlechte Investition, wären da nicht die Kinderkrankheiten (siehe Frage später).

Über Tipps Modelle anzulernen würde ich mich auch riesig freuen.
Kannst du etwas zu den vielen Ressourcen sagen? Hast du bei deinem System ein Limit wo du denkst, mehr Ressourcen würden sich dort lohnen?
Gibt es neue Links zu Software oder passen die bisherigen Links in diesem Thema noch?

Konntest du Erkenntnisse zu den Kinderkrankheiten gewinnen? Ich habe beim Test Ende letzten Jahres festgestellt,
das einige Sätze ein viele Sekunden andauerndes "Säuseln" angehängt bekommen.
Ebenso sind einige Takes kürzer und es wird nicht der ganze Text der Text-Eingabe generiert.

**Namenloser König** · 14.07.2020 16:50

Zitat von sanjaesc

Habe jetzt angefangen den Vocoder zu trainieren, braucht sehr viel Zeit und Ressourcen...

Hier sind die ersten Ergebnisse:
https://soundcloud.com/sanjaesc-395770686/sets/gothic-tts-tacotron-2

Wow, richtig gut.

Das ist fantastisch!
Ich freue mich auf weitere Ergebnisse und eine breite und unkomplizierte Anwendbarkeit in der Zukunft.

**Jazz Jackrabbit** · 16.07.2020 23:36

Zitat von Sporthistoriker

Man kann sie leider nicht anhören, sie sind alle auf "privat" gesetzt. Diese "Soundcloud" scheint gut geeignet zu sein um offen daran zu arbeiten. Wenn Du noch Erfahrungen und Anleitungen hast, wäre ich dankbar wen Du sie hier teilst. Einen Rechner dafür habe ich nun zumindest zusammengestellt (ein i5 sollte wohl reichen) soweit, muss mich nun erstmal damit befassen da DOS, Windows XP, Windows 7 und ein Linux-System zu installieren und auch wahlfrei booten zu können. Dafür finde ich mit Google sicher Anleitungen zu der Reihenfolge wie ich das installieren muss. Genug alte SATA-Festplatten habe ich, für Gothic 3 sogar eine SSD.

Haarig wird es wohl bei allem unter Linux, da habe ich absolut keine Ahnung von. Bin aber total heiß auf die Technik und diese genialen Möglichkeiten.

Warum installierst du Linux und XP nicht einfach in einer VM unter Windows 7? Stelle ich mir wesentlich einfacher vor als 3 verschiedene OS parallel zu booten.

Ich finde es übrigens erstaunlich, dass es Leute gibt, die im Jahr 2020 noch nichts von Soundcloud gehört haben.

Der Held lernt sprechen. (Text-to-Speech)

Themen-Optionen

Berechtigungen