tomedo intelligence: Spracherkennung

Question

Hi,

läuft die lokale Spacherkennung zufällig über Whisper? Ich bin gerade am experimentieren mit einer eigenen freeswitch-implementation und hätte whisper ohnehin als Server auf einem M4 MacMini mit whisper.cpp laufen. Die Performance ist recht ordentlich (ca. auf Niveau einer 3080Ti):

https://github.com/ggml-org/whisper.cpp/issues/89#issuecomment-2827317514

Damit liesse sich tomedo intelligence über z.B. Wyoming-Protokoll, oder direkt über den Websocket an einen lokalen Whisper-Server anbinden und man könnte sich die cloudanbindung sparen.

VG

JM

Gefragt 28 Apr in Frage von Johannes Müller (21.6k Punkte)

1 Antwort

oleFinkeisen · Answer 1 · 2025-04-28T15:26:35+0000

Halle Herr Müller,
Unsere Spracherkennung läuft tatsächlich über Whisper. Allerdings mit medizinischen Daten finetuned.

Sofern Sie die nötigen Ressourcen haben (mindestens ein M1), wird die Spracherkennung für tomedo.Intelligence zukünftig lokal bei Ihnen laufen. Ich bin mir daher gerade nicht sicher, ob ich Ihr Ziel richtig verstehe.

Viele Grüße
Jan-Ole Finkeisen

Beantwortet 28 Apr von oleFinkeisen (2.3k Punkte)

whisper.cpp hat den whisper-server als lokale webapi: https://github.com/ggml-org/whisper.cpp/tree/gg/whisper-short-audio-check/examples/server

Appliances wie HomeAssistant oder freeswitch benutzen diesen Server als Speech-to-Text-Engine. Also nicht fünfmal whisper für jede Appliance, sondern ein Server für alle gleichzeitig.

Wyoming ist ein Protokoll für Spracherkennung das benutzt werden kann um Befehle zu triggern: https://github.com/rhasspy/wyoming

Der Vorteil an whisper.cpp ist auch z.b. über Llama Dialekte verstehen zu können:

https://huggingface.co/Mario12355/swabian_german_translator

https://github.com/ggml-org/whisper.cpp/tree/master/examples/talk-llama

Ist das tomedo-model open source?

Kommentiert 28 Apr von Johannes Müller (21.6k Punkte)

Bei uns auf dem Land fällt leider häufiger das Internet aus, so dass mir eine lokale Lösung immer besser als eine Cloulösung gefällt ... so ein iMac von 2013 ist dafür aber leider nicht mehr geeignet :) Da hilft auch kein Opencore Legacy...aber der M4 Mini macht das ohne Probleme...daher wäre schön wenn das finegetunte Model von Zollsoft zur Verfügung gestellt werden könnte. Da würde dann die freeswitch-Telefonanlage ja auch davon profitieren.

Mit Anbindung an die versprochene Webapi könnten dann über Whisper+Llama auch freie Termine und (Wiederholungs-)-Rezeptbestellungen besser funktionieren - und die MFAs wären entlastet! -> Das kommt einer papierlosen Praxis dann schon sehr nahe!

Kommentiert 28 Apr von Johannes Müller (21.6k Punkte)

tomedo intelligence: Spracherkennung

Bitte logge dich ein oder melde dich neu an um zu kommentieren.

Bitte logge dich ein oder melde dich neu an um den Beitrag zu beantworten.

1 Antwort

Bitte logge dich ein oder melde dich neu an um zu kommentieren.

Praxissoftware tomedo®

Beliebte Schlagwörter

tomedo intelligence: Spracherkennung

Bitte logge dich ein oder melde dich neu an um zu kommentieren.

Bitte logge dich ein oder melde dich neu an um den Beitrag zu beantworten.

1 Antwort

Bitte logge dich ein oder melde dich neu an um zu kommentieren.

Praxissoftware tomedo®

Beliebte Schlagwörter

Ähnliche Beiträge