Der Held lernt sprechen. (Text-to-Speech)

**sanjaesc** · 10.10.2019 20:57

Hi zusammen,

hoffentlich bin ich hier im richtigen Subforum, ansonsten bitte verschieben.

Ich habe mich mal spaßeshalber mit der GitHub Repository WaveRNN auseinandergesetzt.
Damit ist es möglich eigene TTS (Text-to-Speech) Modelle zu trainieren.

Anhand der Dialoge und Audiofiles des Helden aus Gothic 1-3, konnte ich jetzt so ein Modell trainieren.

Als Beispiel: Der Held spricht.

Klingt jetzt natürlich nicht perfekt und man könnte es bestimmt noch weiter optimieren, aber dafür kenne ich mich damit zu wenig aus.

Grüße

PS: Zum selber basteln/ trainieren wird eine Linux Distribution (Ubuntu) empfohlen.

**Woozel** · 10.10.2019 21:42

Das meiste hört sich schon erstaunlich gut an.

Die Audiodateien per Klick auf den Play Button abzuspielen funktioniert aus irgendeinem Grund übrigens im Firefox Browser nicht.
Aus dem Quellcode heraus kann ich die Wave Dateien aber runterladen und abspielen.
In Chrome geht es wie erwartet problemlos.

**Milky-Way** · 10.10.2019 22:25

Ja, dank der vielen bereits vertonten (und beschrifteten) Texte könnte man hoffen, damit zukünftig ganz gute Sprachausgaben hinzubekommen

**diego87** · 10.10.2019 22:27

Woooow, das ist ja der hammer

**Raziel** · 11.10.2019 00:28

Woah, das ist echt beeindruckend. Damit könnte man einiges anstellen

**Jawsome** · 11.10.2019 01:13

Ich arbeite zur Zeit an einem Hörbuch von Gothic. Ist es vielleicht möglich einen Link zu diesem TTS Programm zu erhalten?

**GenerationLost** · 11.10.2019 09:09

Hab mich vorn paar Jahren mal über Speech Synthesis erkundigt, fand ich echt cool. Hätte aber auch echt nicht gedacht, dass es da so schnell ne Open Source Variante zu geben wird, die Ergebnisse sind echt beeindruckend! Gothic bietet aber auch genügend Material um solche Systeme gut trainieren zu können.

Wäre wirklich klasse, wenn du dein trainiertes Modell dem Forum zur Verfügung stellen könntest. So oder so, danke für die Arbeit, this made my day.

**Neconspictor** · 11.10.2019 13:00

Die Qualität ist echt beeindruckend. Allerdings gibt es anscheinend Probleme mit nicht deutschen Begriffen (Stichwort: Gothic). Das dürfte bei Namen problematisch sein. Meinst du, dass man das dem neuronalem Netz beibringen könnte?

**Herobrine** · 12.10.2019 11:03

Alter, genau so etwas wollte ich schon immer haben anstelle von TTS. Das ist ja mal mega krass. Es ist noch nicht perfekt, aber für Mods ist das völlig ausreichend. Gerade gut, wenn man Sprecher hat, die leider schon verstorben sind. Ich hoffe allerdings, dass das später, wenn es mehr ausgereift ist, Synchronsprecher nicht arbeitslos macht.

**TheEternal** · 12.10.2019 11:11

Ich bin auch echt beeindruckt mit der Qualität.

Ich finde in der Qualität wäre jede ausländische Gothic mod spielbar ohne von der Sprache irritiert zu sein.

Kannst du beschreiben wie du das Model trainiert hast, falls es nicht trivial ist?

**blood4ng3l** · 12.10.2019 12:02

Und genau sowas habe ich mir gedacht müsste zu Zeiten von Google Assisstant doch möglich sein,.....und tatsächlich es geht einwandfrei! Das wäre echt Super gut wenn man so die alten TTS only Mods aufpeppen könnte!

Kann man jetzt einfach Text eingeben und er kommt ohne editieren in der Qualität raus? Mit dem entsprechend Trainierten Model?

**Herobrine** · 12.10.2019 12:09

Gab übrigens ja vor einigen Jahren schon einen Thread, wo darüber diskutiert wurde. Krass, wie sich das über die fast drei Jahre entwickelt hat:
https://forum.worldofplayers.de/forum/threads/1480216-Adobe-kündigt-Software-zum-Synthetisieren-von-Voice-Audio-an

**lali** · 12.10.2019 15:50

Wirklich fantastisch. Klingt schon gut. Ich hoffe irgendwer schafft es, das ganze noch weiter zu optimieren.

**Blue Force** · 12.10.2019 15:56

Nicht schlecht! Wieviel Sätze vom Helden hast du eingeben müssen daß die Stimme gelernt wird?

**Ska-Ara** · 12.10.2019 16:07

Die Stimme ist echt viel besser als ich jemals gedacht habe. Vor allem da andere ähnliche Programme immer nur funktionieren wenn man Vorgefertigte Sätze verwendet. .
Das ergebnis ist zwar noch nicht perfekt.. aber ein echt guter schritt dahin und wie andere schrieben, für den Anfang immernoch wesentlich besser als das alt bekante. Kannst du auch mal einen Diego machen?

**Cryp18Struct** · 12.10.2019 17:28

Man sollte an der Stelle vielleicht auch Bedenken das Leute wie Christian Wewerka nun mal ihre Brötchen verdienen indem sie ihre Stimme zu Verfügung stellen.
Sprecher haben also durchaus ein kommerzielles Interesse Leuten (mit dem Rechtssystem) auf die Finger zu hauen falls solche Programme "Konkurrenz" darstellen.
Ich habe keine Ahnung wie die jetzige rechtliche Lage ist was die Stimme von Personen angeht, mit dem Bild anderer Leute kann man definitiv nicht einfach machen was man will.
Siehe auch: "Technoviking": https://irights.info/wp-content/uplo...g-27O63212.pdf
Früher oder später wird es da definitiv einen Rechtsstreit zu geben um zu klären was da erlaubt ist und was nicht was die Stimmen anderer Leute angeht.

**GenerationLost** · 12.10.2019 22:59

Kommerzielles Interesse sicher, aber würde das Model hier ja gar nicht kommerziell genutzt werden, da die Mods ja nicht verkauft werden. Die Community hat doch einen guten Draht zu Bodo Henkel wie mir scheint? Den könnte man ja mal nach seiner Meinung fragen.

Und es kommt ja auch nur eher in Ausnahmefällen vor, dass tatsächlich professionelle Sprecher für Mods gecastet werden (wie jetzt z.B. mit Bodo Henkel für den Trailer), daher würde denen ja eh kein Pfenning an "potenziellem Einkommen" entgehen.

Wie gesagt, jetzt alles nur in kleinem Rahmen bzgl. der Mods betrachtet.
Würden sich solche Systeme nun wirklich als kommerziell genutzte Konkurrenz etablieren, dann gibts da sicher Probleme. Wobei ich mir da soetwas wie den Erwerb von Stimm-Lizenzen denken kann. Ohne einen menschlichen Sprecher, der überhaupt seine Stimme und generell Material zum Anlernen dieser System liefert, läuft da ja eh nichts. Jeder der Interesse an einer Stimme hat und diese kommerziell über TTS in seinen Projekten nutzen will, könnte Lizenzgebühren an den Sprecher zur Kompensation zahlen. Aber wie würde das ganze dann aussehen, für bereits verstorbene Sprecher (wofür solch ein TTS-System sehr wertvoll zur Erhaltung wäre)?
Aber ich glaube, bis so ein Fall eintritt wird noch einige Zeit verstreichen. So gut wie die Ergebnisse bereits sind, sind sie dennoch nicht perfekt und gerade für professionelle, kommerzielle Projekte wohl eher ungeeignet.

**Milky-Way** · 13.10.2019 17:19

An urheberrechtliche Probleme hatte ich bei diesen Sachen bisher weniger gedacht. Stehen die Gothic Sound-Dateien ebenfalls unter der Gothic Mod Lizenz?

Komerzielles Interesse bei Gothic Mods eher gering, aber Urteile dazu wird es sicher aus anderen Anlässen geben.

**uhrparis** · 14.10.2019 20:25

sanjaesc , es wäre doch mal an der Zeit, dass Du dich wieder meldest.
Und lass dich nicht verunsichern durch Leute, die mit ihren rechtlichen Scheiß anfangen.
Da dein Projekt auf eine tränierte Computer Stimme basiert, brauchst Du dir auch keine Sorgen machen.
Du könntest sogar im Fall der Fälle ein Patent auf deine Arbeit anmelden. Dann wäre dein Projekt auf ewig unantastbar.

Mit Audacity lässt sich die gesprochene Sprache nochmals verfeinern.

**Woozel** · 15.10.2019 16:07

Zitat von uhrparis

sanjaesc , es wäre doch mal an der Zeit, dass Du dich wieder meldest.
Und lass dich nicht verunsichern durch Leute, die mit ihren rechtlichen Scheiß anfangen.
Da dein Projekt auf eine tränierte Computer Stimme basiert, brauchst Du dir auch keine Sorgen machen.
Du könntest sogar im Fall der Fälle ein Patent auf deine Arbeit anmelden. Dann wäre dein Projekt auf ewig unantastbar.

Mit Audacity lässt sich die gesprochene Sprache nochmals verfeinern.

Die rechtliche Lage, bzw. wie die in Zukunft vermutlich aussehen könnte, wurde eigentlich schlüssig erklärt ohne die Arbeit von sanjaesc irgendwie einschränken zu wollen.

Und zum Thema, weil es auf einer trainierten Computerstimme basiert und man muss sich keine Sorgen machen:
Und was berechtigt einen dazu die Sprachfiles von Gothic 1 bis 3 zu benutzen, um damit eine Computerstimme zu trainieren, die gehören einem ja nicht.
Hört sich jedenfalls nicht nach dem üblichen Gebrauch an, zu dem eine Spielelizenz berechtigt.

Bei Gothic mit der Modding-Lizenz ist das zwar nicht so streng, aber wenn man z.B. Stimmaufnahmen von einem AAA-Spiel einer großen Videospielfirma oder auch aus einem bekannten Film dafür nimmt, werden die sicher etwas dagegen haben.

Der Held lernt sprechen. (Text-to-Speech)

Themen-Optionen

Der Held lernt sprechen. (Text-to-Speech)

Berechtigungen