Hi,

läuft die lokale Spacherkennung zufällig über Whisper? Ich bin gerade am experimentieren mit einer eigenen freeswitch-implementation und hätte whisper ohnehin als Server auf einem M4 MacMini mit whisper.cpp laufen. Die Performance ist recht ordentlich (ca. auf Niveau einer 3080Ti):

https://github.com/ggml-org/whisper.cpp/issues/89#issuecomment-2827317514

Damit liesse sich tomedo intelligence über z.B. Wyoming-Protokoll, oder direkt über den Websocket an einen lokalen Whisper-Server anbinden und man könnte sich die cloudanbindung sparen.

VG

JM

Gefragt in Frage von (21.6k Punkte)
0 Punkte
Leider funktioniert die Verbindung zum Tomedoserver nicht.
Eine Anleitung zur Grundinstallation auf einem Apple Silicon Rechner habe ich bereits auf github erstellt. Die Einrichtung als Service in Osx + Wyoming-Server wird noch hinzugefügt wenn freeswitch+fusionPBX+LLama funktionieren.

Dann könnte man auch auf Starface etc. verzichten....

1 Antwort

Halle Herr Müller,
Unsere Spracherkennung läuft tatsächlich über Whisper. Allerdings mit medizinischen Daten finetuned.

Sofern Sie die nötigen Ressourcen haben (mindestens ein M1), wird die Spracherkennung für tomedo.Intelligence zukünftig lokal bei Ihnen laufen. Ich bin mir daher gerade nicht sicher, ob ich Ihr Ziel richtig verstehe.

Viele Grüße
Jan-Ole Finkeisen
Beantwortet von (2.3k Punkte)
0 Punkte
whisper.cpp hat den whisper-server als lokale webapi: https://github.com/ggml-org/whisper.cpp/tree/gg/whisper-short-audio-check/examples/server

Appliances wie HomeAssistant oder freeswitch benutzen diesen Server als Speech-to-Text-Engine. Also nicht fünfmal whisper für jede Appliance, sondern ein Server für alle gleichzeitig.

Wyoming ist ein Protokoll für Spracherkennung das benutzt werden kann um Befehle zu triggern: https://github.com/rhasspy/wyoming

Der Vorteil an whisper.cpp ist auch z.b. über Llama Dialekte verstehen zu können:

https://huggingface.co/Mario12355/swabian_german_translator

https://github.com/ggml-org/whisper.cpp/tree/master/examples/talk-llama

Ist das tomedo-model open source?
Das Interessante dabei ist, dass man weiter seine alten Clients benutzen kann und nicht 10 neue Macs, sondern nur einen einzigen schnellen der für alle Anderen rechnet benötigt.
Hab grad mal mit MFA simuliert: wir sind sprachlos..... das überzeugt mich und wird ein game changer in der Sprechsutnde sein: wieder dem Patienten zugewandt sein, nicht der Mattscheibe. Technik die hilft, nicht ablenkt, vielen Dank Zollsoft für dieses Tool !
Bei uns auf dem Land fällt leider häufiger das Internet aus, so dass mir eine lokale Lösung immer besser als eine Cloulösung gefällt ... so ein iMac von 2013 ist dafür aber leider nicht mehr geeignet :) Da hilft auch kein Opencore Legacy...aber der M4 Mini macht das ohne Probleme...daher wäre schön wenn das finegetunte Model von Zollsoft zur Verfügung gestellt werden könnte. Da würde dann die freeswitch-Telefonanlage ja auch davon profitieren.

Mit Anbindung an die versprochene Webapi könnten dann über Whisper+Llama auch freie Termine und (Wiederholungs-)-Rezeptbestellungen besser funktionieren - und die MFAs wären entlastet! -> Das kommt einer papierlosen Praxis dann schon sehr nahe!
Unser Modell ist schon stark verändert im Vergleich zum Standard-Whisper-Modell. Das werden wir nicht so ohne Weiteres in einen anderen Server bekommen. Ich verstehe aber auch die Notwendigkeit nicht. Ihr M4 ist sicherlich stark genug, um beide Server laufen zu lassen (und auch stark genug, um mehrere Clients die medizinische Spracherkennung machen zu lassen).

Wir könnten aber durchaus darüber nachdenken, die API anzugleichen.
:) Ich hatte schon daran gedacht Ihr Model parallel zum large-V3 als Server laufen zu lassen.

Voraussetzung ist natürlich, dass tomedo die standard-Api oder ein Streaming-Protokoll wie z.B. Wyoming benutzt. Theoretisch liessen sich sogar beide Modelle fusionieren indem man die Tomedodaten als neue Sprache deklariert. Diese kann man über die Api voreinstellen...aber das führt zu weit.

Wäre es möglich das Model mal zu testen?
19,682 Beiträge
28,127 Antworten
50,808 Kommentare
33,313 Nutzer