wiki.ziemers.de

ziemer's informatik Wiki

Benutzer-Werkzeuge

Webseiten-Werkzeuge


wiki:software:beuthbot:berichte:ws2020:zwischen:geplanter-stand-features:bot13

Dies ist eine alte Version des Dokuments!


BOT-13: Komponente zur Umwandlung von Sprache zu Text (STT)
Es soll ermöglicht werden, dass Benutzern neben Textnachrichten auch mittels Sprachnachrichten mit dem BeuthBot kommunizieren können. Dabei sollen die Sprachnachrichten mittels eines neuen Services in Text übersetzt werden und dann wie andere Textnachrichten verarbeitet werden. Hierzui sollen 3 bekannte STT-Frameworks (Kaldi, Mozilla Voice STT und Wav2Letter) getestet und vergleichen werden. Basierend darauf soll eine Entscheidung getroffen werden, welches Framework schlussendlich in der Production-Environment verwendet werden soll. Das Framework wird dann in Form eines neuen Micro-Services in den BeuthBot integriert.
Initiale Schätzung 3 Tage
Programmiersprachen * Python (Mozilla Voice STT)
* C++ (Kaldi, WAV2Letter)
* Kaldi
* Mozilla Voice STT
* WAV2Letter
Services * STT
Abhängigkeiten * BOT-43: Erstellung eines Common-Frameworks für (Content-)Services
Anforderungen * Die Übersetzung soll mittels neuronaler Netzte geschehen
* Nur Sprachnachrichten auf Deutsch sollen übersetzt werden
* Das verwendete Framework muss OpenSource sein und Lokal auf dem BeuthBot-Server ausführbar sein
* Es soll keine Model-Adapation durchgeführt werden
Tasks * BOT-69: WAV2Letter testen
* BOT-70: Mozilla Voice testen
* BOT-73: Kaldi testen
* BOT-71: Framework aussuchen
* BOT-122: Micro-Service erstellen
* BOT-123: Sprachnachricht in WAV umwandeln
wiki/software/beuthbot/berichte/ws2020/zwischen/geplanter-stand-features/bot13.1606131659.txt.gz · Zuletzt geändert: 23.11.2020 12:40 von Robert Xaver Halwaß