wiki.ziemers.de

ziemer's informatik Wiki

Benutzer-Werkzeuge

Webseiten-Werkzeuge


wiki:software:beuthbot:berichte:ws2020:abschluss:stt

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
wiki:software:beuthbot:berichte:ws2020:abschluss:stt [13.01.2021 15:43]
Robert Xaver Halwaß [Umsetzung]
wiki:software:beuthbot:berichte:ws2020:abschluss:stt [14.01.2021 09:47] (aktuell)
Robert Xaver Halwaß
Zeile 19: Zeile 19:
 Als Grundlage für die Umsetzung als MicroService im BeuthBot wurde der Cat-Microservice (https://github.com/beuthbot/beuthbot/tree/master/cat_microservice) verwendet, welcher auf dem "bhtbotservice"-Framework . Zur Umsetzung von DeepSpeech wurde eines der offizielle Beispiele (https://github.com/mozilla/DeepSpeech-examples/tree/r0.9/nodejs_wav) verwendet. Aufgrund dieser beider Vorlagen, erwies sich die Umsetzung größtenteils als sehr intuitiv. Dateien werden im Request-Body als Form-Data für den Key "audio" abgelegt. Innerhalb des Services werden die empfangenen Dateien dann mittels des Programms "Sox" in ein für DeepSpeech kompatibles Format gebracht. Als Grundlage für die Umsetzung als MicroService im BeuthBot wurde der Cat-Microservice (https://github.com/beuthbot/beuthbot/tree/master/cat_microservice) verwendet, welcher auf dem "bhtbotservice"-Framework . Zur Umsetzung von DeepSpeech wurde eines der offizielle Beispiele (https://github.com/mozilla/DeepSpeech-examples/tree/r0.9/nodejs_wav) verwendet. Aufgrund dieser beider Vorlagen, erwies sich die Umsetzung größtenteils als sehr intuitiv. Dateien werden im Request-Body als Form-Data für den Key "audio" abgelegt. Innerhalb des Services werden die empfangenen Dateien dann mittels des Programms "Sox" in ein für DeepSpeech kompatibles Format gebracht.
 Der fertige Service ermöglicht es somit, Sprachnachrichten in unterschiedlichsten Audio-Formaten (WAV, OGG und MP3) an den Service via HTTP-Request zu schicken und innerhalb einiger Sekunden eine Textversion der Sprachnachricht zu erhalten.  Der fertige Service ermöglicht es somit, Sprachnachrichten in unterschiedlichsten Audio-Formaten (WAV, OGG und MP3) an den Service via HTTP-Request zu schicken und innerhalb einiger Sekunden eine Textversion der Sprachnachricht zu erhalten. 
 +
 +**german-v0-9-0.pb: **
 +Nicht optionale Modelldatei
 +
 +**german-v-0-9-0.scorer: **
 +Optionale Scorer-Datei, verbessert Ergebnisse
  
 **Request** **Request**
 <code> <code>
-curl --request POST 'localhost:3000/stt' --form 'audio=@"/test.ogg"'+curl --request POST 'localhost:7002/stt' --form 'audio=@"test.ogg"'
 </code> </code>
  
wiki/software/beuthbot/berichte/ws2020/abschluss/stt.1610548985.txt.gz · Zuletzt geändert: 13.01.2021 15:43 von Robert Xaver Halwaß