Portal-Zone Gothic-Zone Gothic II-Zone Gothic 3-Zone Gothic 4-Zone Modifikationen-Zone Download-Zone Foren-Zone RPG-Zone Almanach-Zone Spirit of Gothic

 

Page 1 of 12 123458 ... Last »
Results 1 to 20 of 224
  1. View Forum Posts #1 Reply With Quote
    Abenteurer
    Join Date
    Oct 2019
    Posts
    69
     
    sanjaesc is offline

    [RELEASE] GameTTS - Text-To-Speech Anwendung

    Hallo zusammen,

    ergänzend zu diesem Thread und endlich mit ausreichend Zeit, habe ich mich wieder mit dem Thema TTS beschäftigen können. (Entschuldigt die Abwesenheit)

    Ohne groß weiter zu schwafeln, will ich euch das von mir zuletzt trainierte TTS-Modell zur Verfügung stellten. (Das Training läuft aktuell seit 2 Wochen und ist noch aktiv)

    Um das Ganze ein wenig zugänglicher zu machen, habe ich eine kleine GUI geschrieben.
    Das ganze ist als WebApp verpackt, heißt ihr braucht einen der gängigen Browser (Chrome, Edge, Firefox).
    Dies war ein erster Versuch, eine solche WebApp zu schreiben, daher solltet ihr nicht allzu viel erwarten.
    Sollte ich das Thema GUI weiter verfolgen, werde ich wahrscheinlich auf Electron oder eine der nativen GUI Bibliotheken von Python umsteigen.

    Anbei der Link zur Anwendung samt Anleitung und den trainierten Modelle.

    Link Anwendung: https://github.com/lexkoro/GameTTS
    Link Modelle: https://drive.google.com/drive/folde...Nb?usp=sharing

    Verwendetes TTS Repository: https://github.com/jaywalnut310/vits

    Viele Grüße

  2. View Forum Posts #2 Reply With Quote
    Ritter Kirides's Avatar
    Join Date
    Jul 2009
    Location
    Norddeutschland
    Posts
    1,669
     
    Kirides is offline
    WOW!

    Das ist grandios!

    Ich habe es gerade mal mit den üblichen verdächtigen probiert (Held, Xardas, Lester, Milten, Gorn, Lieblingswache nr 4)

    Hier sind mal ein paar Samples:
    https://puu.sh/HWdTP.m4a (Bullit, Fletcher, Drax, ...)
    https://puu.sh/HWe4C.m4a (Xardas)

    Ich glaube, ich könnte doch die ein oder andere Quest in meine Mod einbauen...
    Last edited by Kirides; 14.07.2021 at 09:31.

  3. View Forum Posts #3 Reply With Quote
    banned
    Join Date
    Jan 2009
    Location
    Oberösterreich
    Posts
    2,393
     
    Moe is offline
    Es ist so geil! Tausend Dank!

  4. View Forum Posts #4 Reply With Quote
    Veteran N1kX's Avatar
    Join Date
    Aug 2018
    Location
    Serov
    Posts
    549
     
    N1kX is offline
    Is it possible to teach in other languages at all? Just how many Russian voice TTS exist, they are all terrible (I have to make a Polish version of TTS from google neural networks)

  5. View Forum Posts #5 Reply With Quote
    Deus Milgo's Avatar
    Join Date
    Jul 2002
    Posts
    15,473
     
    Milgo is offline
    Sehr interessanter Ansatz. Auch wenn man natürlich die Künstlichkeit der Stimmen heraushören kann, ist das definitiv ein Benefit wenn man die Originalsprecher für eine Mod benutzen möchte.

    Beispiele:
    Xardas: 49_Bodo Henkel_0714195863_tmp_file.mp3
    Held: 58_Christian Wewerka_0714221348_tmp_file.mp3
    Diego: 34_Uwe Koschel_0714998338_tmp_file.mp3
    Milten: 19_Dieter Gring_0714280355_tmp_file.mp3
    Gorn: 93_Helge Heynold_0714047877_tmp_file.mp3
    Lester: 55_Peter Heusch_0714760762_tmp_file.mp3

    Ich finde die Beispiele zeigen gut, was geht und was eben nicht.

    Irgendwann muss man sich auch um rechtliche Einschränkungen Gedanken machen.
    milgo.de | Knovelty | Selbstbefreit auf dem Weg zum Meer ...

  6. View Forum Posts #6 Reply With Quote
    Ritter Kirides's Avatar
    Join Date
    Jul 2009
    Location
    Norddeutschland
    Posts
    1,669
     
    Kirides is offline
    Quote Originally Posted by Milgo View Post
    Sehr interessanter Ansatz. Auch wenn man natürlich die Künstlichkeit der Stimmen heraushören kann, ist das definitiv ein Benefit wenn man die Originalsprecher für eine Mod benutzen möchte.
    Gerade für leute die nur eine "Balancing" Mod machen möchten, aber vielleicht doch ein oder zwei Items mit Missionen verbinden wollen ist sowas ein Segen.
    Unvertonte neue Dialoge in einer bestehenden Welt sind einfach blöd. Genauso wie einem bestehenden NPC plötzlich nur für 3 Zeilen eine neue Stimme zu geben (siehe Gothic 3...)

  7. Visit Homepage View Forum Posts #7 Reply With Quote
    Ehrengarde Plasquar's Avatar
    Join Date
    Nov 2007
    Location
    München
    Posts
    2,542
     
    Plasquar is offline
    Vielen Dank für deine Arbeit an dem Tool sanjaesc!
    Sehe es ähnlich wie Kirides, gerade für nur wenige Dialoge in Balancingmods äußert hilfreich.

    Ich rieche jetzt schon eine Menge neuer Quests in zukünftigen Mods.
    Videos:
    Installation von Gothic 1 in 2022: Hier.
    Installation von Gothic 2 in 2022: Hier.
    Installation von Gothic 3 in 2022: Hier.

  8. View Forum Posts #8 Reply With Quote
    Moderator MadFaTal's Avatar
    Join Date
    May 2010
    Posts
    3,182
     
    MadFaTal is online now
    Herzlichen Dank dafür sanjaesc.
    Ich werde mir das am Wochenende genauer ansehen.

  9. View Forum Posts #9 Reply With Quote
    Provinzheld Herobrine's Avatar
    Join Date
    Oct 2012
    Location
    Minental von Khorinis (Gothic)
    Posts
    213
     
    Herobrine is offline
    Gute Arbeit, dachte schon da kommt nichts mehr.

    Gibt es eine einfache Möglichkeit, noch neue Sprecher mit dem vits-Repo zu trainieren und dem Modell hinzuzufügen? Da fehlt z.B. noch Aart Veder, der Sprecher von Y'Berion.

  10. View Forum Posts #10 Reply With Quote
    Sword Master Jazz Jackrabbit's Avatar
    Join Date
    Dec 2018
    Posts
    814
     
    Jazz Jackrabbit is offline
    Quote Originally Posted by Milgo View Post
    Sehr interessanter Ansatz. Auch wenn man natürlich die Künstlichkeit der Stimmen heraushören kann, ist das definitiv ein Benefit wenn man die Originalsprecher für eine Mod benutzen möchte.

    Beispiele:
    Xardas: 49_Bodo Henkel_0714195863_tmp_file.mp3
    Held: 58_Christian Wewerka_0714221348_tmp_file.mp3
    Diego: 34_Uwe Koschel_0714998338_tmp_file.mp3
    Milten: 19_Dieter Gring_0714280355_tmp_file.mp3
    Gorn: 93_Helge Heynold_0714047877_tmp_file.mp3
    Lester: 55_Peter Heusch_0714760762_tmp_file.mp3

    Ich finde die Beispiele zeigen gut, was geht und was eben nicht.

    Irgendwann muss man sich auch um rechtliche Einschränkungen Gedanken machen.
    Der Satz von Gorn "Hauen wir ihm einfach volles Pfund aufs Maul" hat sich echt natürlich angehört, sogar die Aggressivität der Betonung passt hier perfekt! Kann man eigentlich nicht mehr von einer Originalaufnahme unterscheiden.

  11. View Forum Posts #11 Reply With Quote
    Legend of Ahssûn TheEternal's Avatar
    Join Date
    Jun 2013
    Location
    Frankfurt
    Posts
    4,499
     
    TheEternal is offline
    wir könnten auch die Sprecher aus dem Hörtalk Forum und andere professionelleren Sprecher aus aktuellen Mods hinzufügen.
    Allein LoA + Dirty Swamp + Odyssee sollten mega viele Input Files bieten. zB. für Alexander Mateka.
    [Bild: LoA_Banner_Skyline2.jpg]
    LoA Website
    Checkout Cloudevo: unlimited Cloud-Drive


  12. View Forum Posts #12 Reply With Quote
    Deus Milgo's Avatar
    Join Date
    Jul 2002
    Posts
    15,473
     
    Milgo is offline
    Quote Originally Posted by TheEternal View Post
    wir könnten auch die Sprecher aus dem Hörtalk Forum und andere professionelleren Sprecher aus aktuellen Mods hinzufügen.
    Allein LoA + Dirty Swamp + Odyssee sollten mega viele Input Files bieten. zB. für Alexander Mateka.
    Gerade soetwas finde ich sehr bedenklich. Haben die Leute nicht ein Anrecht darauf zu entscheiden, was mit ihrer Stimme passiert? Noch ist das ganze vielleicht nicht realistisch genug, aber ist Grund genug damit man die Stimmen der Sprecher extrahieren darf? Sprecher im Amateurbereich haben ja nicht einmal eine Kompensation dafür erhalten.
    Ich finde es schon gruselig, dass plötzlich Sprachaufnahmen von Sprechern entstehen können, die heute tot sind.
    milgo.de | Knovelty | Selbstbefreit auf dem Weg zum Meer ...

  13. View Forum Posts #13 Reply With Quote
    Adventurer
    Join Date
    Jul 2014
    Posts
    73
     
    killyouridol is offline
    Quote Originally Posted by sanjaesc View Post
    Hallo zusammen,

    ergänzend zu diesem Thread und endlich mit ausreichend Zeit, habe ich mich wieder mit dem Thema TTS beschäftigen können. (Entschuldigt die Abwesenheit)

    Ohne groß weiter zu schwafeln, will ich euch das von mir zuletzt trainierte TTS-Modell zur Verfügung stellten. (Das Training läuft aktuell seit 2 Wochen und ist noch aktiv)

    Um das Ganze ein wenig zugänglicher zu machen, habe ich eine kleine GUI geschrieben.
    Das ganze ist als WebApp verpackt, heißt ihr braucht einen der gängigen Browser (Chrome, Edge, Firefox).
    Dies war ein erster Versuch, eine solche WebApp zu schreiben, daher solltet ihr nicht allzu viel erwarten.
    Sollte ich das Thema GUI weiter verfolgen, werde ich wahrscheinlich auf Electron oder eine der nativen GUI Bibliotheken von Python umsteigen.

    Anbei der Link zur Anwendung samt Anleitung und den trainierten Modelle.

    Link Anwendung: https://github.com/lexkoro/GameTTS
    Link Modelle: https://drive.google.com/drive/folde...Nb?usp=sharing

    Verwendetes TTS Repository: https://github.com/jaywalnut310/vits

    Viele Grüße

    Hey! Vorne weg natürlich ein großes Danke! Ich selbst verfolge die Sprachsynthese und war immer am überlegen ob man in der Richtung nicht mal was für die Community machen sollte.
    • Dürfte ich dich fragen wieso du dich konkret für VITS entschieden hast? Lag es an der "schnelleren" Trainings- und Inferenzzeit?
    • Hast du das Modell von Grund auf trainiert oder konntest du Transferlernen?
    • Hast du auch andere Modelle in Betracht gezogen wie beispielsweise den Tacotron? Wenn ich VITS richtig überlesen habe ist es ja ein einziges End-to-End Modell. Würde ein mehrstufiges Modell nicht unter Umständen Vorteile bringen? Sei es, dass Teile der Trainingsdatenbeschaffung vielleicht mit der Community gesourced werden könnten.
    • Du meinst dein Modell trainiert noch... Die Frage ist jetzt auch ein bisschen im Anschluss dazu "wie" du trainierst: Wie lange dauert ein VITS durchlauf? Mit welchen Trainingsdaten arbeitest du? Hast du genug? Siehst du bzw. hörst du deutliche Steigerungen nach paar Epochen? Kann man dir bei den Trainingsdaten helfen?
    • Ist der "stochastic duration predictor" parametrierbar? Ich habe immer das Gefühl, dass die Sprachqualität nachlässt, sobald verschiede Betonungen oder "Rythmen" aufgenommen werden. Vielleicht liegt ja hier eine Möglichkeit die Audioqualität zu steigern?


    Musste die Fragen mal los werden Dafür interessiert es mich zu sehr und ich finde es ein zu geiles Werkzeug für die Community.

    Grüße

  14. View Forum Posts #14 Reply With Quote
    Abenteurer
    Join Date
    Oct 2019
    Posts
    69
     
    sanjaesc is offline
    Quote Originally Posted by N1kX View Post
    Is it possible to teach in other languages at all? Just how many Russian voice TTS exist, they are all terrible (I have to make a Polish version of TTS from google neural networks)
    Yes you can, as long as you have the necessary training data to do so. Training data here is the audio data + the associated transcription of what is said.
    Best case with recordings in good quality and no mistakes in the transcription.

    Quote Originally Posted by Herobrine View Post
    Gute Arbeit, dachte schon da kommt nichts mehr.

    Gibt es eine einfache Möglichkeit, noch neue Sprecher mit dem vits-Repo zu trainieren und dem Modell hinzuzufügen? Da fehlt z.B. noch Aart Veder, der Sprecher von Y'Berion.
    Noch nicht ausprobiert, aber wahrscheinlich könnte man das vorhandene Modell um weitere Sprecher nachtrainieren. Ich habe bewusst Sprecher weggelassen, weil diese zu wenig Trainingsdaten hatten.
    Last edited by sanjaesc; 16.07.2021 at 07:47.

  15. View Forum Posts #15 Reply With Quote
    Abenteurer
    Join Date
    Oct 2019
    Posts
    69
     
    sanjaesc is offline
    Quote Originally Posted by killyouridol View Post
    Hey! Vorne weg natürlich ein großes Danke! Ich selbst verfolge die Sprachsynthese und war immer am überlegen ob man in der Richtung nicht mal was für die Community machen sollte
    Hast du das Modell von Grund auf trainiert oder konntest du Transferlernen?
    Dieses Modell habe ich von Grund auf neu trainiert. Ich hatte Transfer-learning auch nur ganz am Anfang meiner Experimente eingesetzt, als ich noch nicht genügend Daten hatte. Da habe ich ein englisches TTS Modell als Grundlage verwendet, die Ergebnisse waren jedoch deutlich schlechter.


    Quote Originally Posted by killyouridol View Post
    Hast du auch andere Modelle in Betracht gezogen wie beispielsweise den Tacotron? Wenn ich VITS richtig überlesen habe ist es ja ein einziges End-to-End Modell. Würde ein mehrstufiges Modell nicht unter Umständen Vorteile bringen? Sei es, dass Teile der Trainingsdatenbeschaffung vielleicht mit der Community gesourced werden könnten.
    Dürfte ich dich fragen wieso du dich konkret für VITS entschieden hast? Lag es an der "schnelleren" Trainings- und Inferenzzeit?
    Die mehrstufigen Modelle nutzen ja die selben Trainingsdaten, Audio + Transkript. Mehrstufig heißt hier TTS + Vocoder, wobei TTS aus dem Text ein Spektrogramm erzeugt und der Vocoder aus dem Spektrogramm ein Audiosignal erzeugt. Ein Vocoder wird dann nur mit den Audiodaten trainiert. VITS hat den Vorteil, dass nicht erst ein TTS Modell und dann noch ein Vocoder Modell trainiert werden muss.
    Es war keine konkrete Entscheidung VITS zu nutzen, eher "Ich probiere den Stand der Technik aus". Zuvor hatte ich auch andere Modelle trainiert, unteranderem Tacotron2 oder auch GlowTTS. Tacotron2 lieferte gute Ergebnisse im Bezug auf die Natürlichkeit des gesprochenen. Man kann auch den gesprochenen Stil variieren. Hier war die Synthese jedoch nicht immer robust, beispielsweise brach diese mitten im Satz ab. GlowTTS ist robuster, klingt aber hörbar unnatürlicher, eher durchweg monoton.
    Das aktuelle Ergebnis vom VITS Training war nur ein erster Test, um zu sehen, wie die Qualität ist. War am Ende positiv überrascht, weshalb ich es auch geteilt habe.

    Bezüglich der Datenbeschaffung, dies wäre problematisch, oder? Dafür müsste jeder eine Kopie des Produkts haben, um die Daten teilen zu können?


    Quote Originally Posted by killyouridol View Post
    Du meinst dein Modell trainiert noch... Die Frage ist jetzt auch ein bisschen im Anschluss dazu "wie" du trainierst: Wie lange dauert ein VITS durchlauf? Mit welchen Trainingsdaten arbeitest du? Hast du genug? Siehst du bzw. hörst du deutliche Steigerungen nach paar Epochen? Kann man dir bei den Trainingsdaten helfen?
    Trainiert wird auf einer Tesla V100 von NVIDIA mit 32GB Speicher. Was genau meinst du mit Durchlauf?
    Trainingsdaten sind hierbei Audiodaten samt Transkription, welche ich aus den Spielen extrahiert habe. Es sind aktuell ca. 88.000 Files.
    Das wichtigste hierbei ist natürlich saubere Audiodaten mit korrekter Transkription zu haben. Was Deep Learning angeht heißt es natürlich, je mehr Daten desto besser.


    Quote Originally Posted by killyouridol View Post
    Ist der "stochastic duration predictor" parametrierbar? Ich habe immer das Gefühl, dass die Sprachqualität nachlässt, sobald verschiede Betonungen oder "Rythmen" aufgenommen werden. Vielleicht liegt ja hier eine Möglichkeit die Audioqualität zu steigern?
    Man könnte hier versuchen mit MFA genauere Vorhersagen über die Dauer der einzelnen phoneme zu extrahieren. Zum duration predictor kann ich leider nicht viel sagen, muss mich da selber erst einlesen.

  16. View Forum Posts #16 Reply With Quote
    Ritter Raubkopiesäbel's Avatar
    Join Date
    Feb 2014
    Posts
    1,475
     
    Raubkopiesäbel is offline
    Ich wüsste gerne, ob die generierten .wav Dateien in Gothic 1 & 2 abgespielt werden ohne diese nachträglich bearbeiten zu müssen. Vielleicht hat das schon wer getestet?

    Was kann man mit dem Reiter "Datei" machen?

  17. View Forum Posts #17 Reply With Quote
    Drachentöter Blubbler's Avatar
    Join Date
    Dec 2004
    Posts
    4,452
     
    Blubbler is offline
    Könnte man so falsch vertonte Dialogzeilen reparieren?
    Z. B. diese 2 Dialogzeilen sind in G1 von Lees Sprecher vertont statt vom Helden:
    https://vocaroo.com/1f0OiwcSSlbO
    https://vocaroo.com/1gtoR2EGdqef

  18. View Forum Posts #18 Reply With Quote
    Knight GenerationLost's Avatar
    Join Date
    Apr 2009
    Location
    Whereabouts Unknown
    Posts
    1,651
     
    GenerationLost is offline
    Coole Sache! Bräuchtest du evtl. Hilfe im Bereich GUI? Du meinstest in deinem Eingangspost zwar du schaust dir evtl. noch native Python libs an, aber ich könnte dir evtl. eine WPF-App dafür schreiben, da es eh erstmal Windows-Spezifisch ist. Das würde wohl auch die Nutzung bzw. Installation nochmal etwas vereinfachen.

  19. View Forum Posts #19 Reply With Quote
    Abenteurer
    Join Date
    Oct 2019
    Posts
    69
     
    sanjaesc is offline
    Quote Originally Posted by Raubkopiesäbel View Post
    Was kann man mit dem Reiter "Datei" machen?
    Dort kann eine Textdatei eingelesen werden, um mehrere Sätze zu generieren. Zusätzlich kann auch eine Sprecher ID angehängt werden, die dann für den jeweiligen Satz genommen wird.
    Beispiel: https://github.com/lexkoro/GameTTS/b...input_file.csv


    Quote Originally Posted by GenerationLost View Post
    Coole Sache! Bräuchtest du evtl. Hilfe im Bereich GUI? Du meinstest in deinem Eingangspost zwar du schaust dir evtl. noch native Python libs an, aber ich könnte dir evtl. eine WPF-App dafür schreiben, da es eh erstmal Windows-Spezifisch ist. Das würde wohl auch die Nutzung bzw. Installation nochmal etwas vereinfachen.
    WPF war ursprünglich auch meine erste Überlegung. Aber wie würdest du die python Skripte aufrufen? Als subprocess? Wäre es möglich die App mit .NET Core für beide Systeme kompatibel zu machen?
    Es gibt dann noch IronPython, aber ich weiß nicht, ob es mit den ganzen Abhängigkeiten kompatibel ist.
    Last edited by sanjaesc; 16.07.2021 at 16:35.

  20. View Forum Posts #20 Reply With Quote
    Knight GenerationLost's Avatar
    Join Date
    Apr 2009
    Location
    Whereabouts Unknown
    Posts
    1,651
     
    GenerationLost is offline
    Quote Originally Posted by sanjaesc View Post
    WPF war ursprünglich auch meine erste Überlegung. Aber wie würdest du die python Skripte aufrufen? Als subprocess? Wäre es möglich die App mit .NET Core für beide Systeme kompatibel zu machen?
    Es gibt dann noch IronPython, aber ich weiß nicht, ob es mit den ganzen Abhängigkeiten kompatibel ist.
    Genau, einfach als neuer Prozess. Ich gehe davon aus, das läuft bei deiner Web App so ähnlich? Was meinst du mit "beiden Systemen"? .NET Core läuft ja auf allen gängigen Desktop-OSses, es wäre da nur eine Frage des GUI-Frameworks. WPF ist halt an Windows gebunden und MAUI ist erst noch in der Preview. Sonst gibt es auch weiterhin noch ein paar Cross-Platform Ansätze, z.B. Avalonia.

Page 1 of 12 123458 ... Last »

Posting Permissions

  • You may not post new threads
  • You may not post replies
  • You may not post attachments
  • You may not edit your posts
Impressum | Link Us | intern
World of Gothic © by World of Gothic Team
Gothic, Gothic 2 & Gothic 3 are © by Piranha Bytes & Egmont Interactive & JoWooD Productions AG, all rights reserved worldwide