Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
wiki:software:beuthbot:berichte:ws2020:zwischen:aktueller-stand [22.11.2020 14:58] Robert Xaver Halwaß |
wiki:software:beuthbot:berichte:ws2020:zwischen:aktueller-stand [24.11.2020 14:16] (aktuell) Robert Xaver Halwaß [DokuWiki Plugins] |
||
---|---|---|---|
Zeile 31: | Zeile 31: | ||
- | ==== Text 2 Speech Recherche ==== | + | ==== Text To Speech Recherche ==== |
* Say.js | * Say.js | ||
* https:// | * https:// | ||
Zeile 40: | Zeile 40: | ||
* https:// | * https:// | ||
- | ==== Speech | + | ==== Speech |
- | === Mozilla Voice STT (DeepSpeech) === | + | In diesem Projekt soll es ermöglicht werden, dass Nutzer ebenfalls Sprachnachrichten an den BeuthBot schicken können um mit diesem zu interagieren. Um dieses umzusetzen ist eine sogenanntes Speech-To-Text-Programm erforderlich, |
+ | Der Recherche ergab eine Vielzahl an Lösungen, jedoch sind nur drei für das Projekt geeignet, da nur für diese ein vortrainiertes Modell für die deutschen Sprache verfügbar ist. Diese sind: | ||
- | https:// | + | === Mozilla Voice STT (DeepSpeech) === |
- | https:// | + | * https:// |
+ | | ||
+ | * Entwickler: Mozilla | ||
* Opensource | * Opensource | ||
* Offline nutzbar | * Offline nutzbar | ||
Zeile 51: | Zeile 54: | ||
* Deutsches Modell | * Deutsches Modell | ||
* WER: 15% | * WER: 15% | ||
- | * Zukunft ungewiss | + | * Zukunft ungewiss |
=== Kaldi === | === Kaldi === | ||
- | https:// | + | * https:// |
- | http:// | + | |
+ | * http:// | ||
+ | * Entwickler: Kaldi | ||
* Opensource | * Opensource | ||
* Offline nutzbar | * Offline nutzbar | ||
Zeile 62: | Zeile 67: | ||
=== Wav2Letter === | === Wav2Letter === | ||
- | https:// | + | * https:// |
+ | * http:// | ||
+ | * Entwickler: Facebook Research | ||
* Opensource | * Opensource | ||
* Offline nutzbar | * Offline nutzbar | ||
* Deutsche Modelle | * Deutsche Modelle | ||
- | * WER: 4% | + | * WER: 3,97% |
+ | |||
+ | Während des Projekts gilt es, diese drei Lösungen zu testen, miteinander zu vergleichen und darauf basierend die beste Lösung auszuwählen und im BeuthBot zu implementieren. | ||
+ | |||
+ | Die STT-Programme ohne verfügbares deutsches Modell sind folgende: | ||
=== Espresso === | === Espresso === | ||
- | https:// | + | * https:// |
+ | * Entwickler: Freewym | ||
* Opensource | * Opensource | ||
* Offline nutzbar | * Offline nutzbar | ||
* Kein deutsches Modell | * Kein deutsches Modell | ||
- | === Nvidea | + | === OpenSeq2Seq === |
- | https:// | + | |
+ | * Entwickler: NVIDIA | ||
* Opensource | * Opensource | ||
* Offline nutzbar | * Offline nutzbar | ||
* Kein Deutsches Modell | * Kein Deutsches Modell | ||
- | === WER Vergleich 2017 === | + | |
+ | === Word Error Rate (WER) === | ||
+ | |||
+ | Um die Qualität eines STT-Modells zu messen, wird der sogenannte Word Error Rate (WER) Wert verwendet. Dieser Wert gibt an, basierend auf dem Testdatensatz, | ||
+ | |||
+ | Unten befindet sich eine Auflistung von WER-Werten von kommerziellen STT-Diensten für die englische Sprache aus dem Jahre 2017. Darunter befindet sich ebenfalls die WER-Werte der recherchierten OpenSoruce-Lösungen. Da alle Dienste unterschiedliche Datensätze zum Training und Test verwenden, sind diese Ergebnisse nicht komplett vergleichbar, | ||
* Google (8%) | * Google (8%) | ||
* Microsoft (5.9%) | * Microsoft (5.9%) | ||
Zeile 87: | Zeile 105: | ||
* Baidu (16%) | * Baidu (16%) | ||
* Hound (5%) | * Hound (5%) | ||
+ | |||
+ | * Mozilla Voice STT (15%) | ||
+ | * Kaldi (8,44%) | ||
+ | * Wav2Letter (3,97%) | ||
Quelle: | Quelle: | ||
https:// | https:// | ||
+ | |||
+ | |||
+ | ==== DokuWiki Plugins ==== | ||
+ | |||
+ | === edittable === | ||
+ | Standartmäßig werden im Ziemer' | ||
+ | |||
+ | === PageBreak === | ||
+ | Die finale Abgabe des Zwischenberichtes sollte in Form eines PDFs abgeben werden. Das Ziemer' | ||
+ | mitzuteilen wann ein Seitenumbruch passieren. Damit konnten wir nach jedem Kapitel und Feature-Tabelle einen Seitenumbruch hinzufügen. Dies hat die Übersichtlichkeit des Zwischenberichtes deutlich erhöht. https:// | ||
+ | |||