Spracherkennung mit KI

Für eilige Leser

OpenAIs Whisper Modell hat sich in der Spracherkennung zu einem ernstzunehmenden Konkurrenten für etablierte Anbieter wie Dragon Naturally Speaking oder Wolters Kluwer DictNow entwickelt.
Spracherkennung ist die Grundlage vieler KI-basierter Automatisierungen wie z.B. Meeting-Zusammenfassungen, medizinische Arzt-Patient Gesprächsdokumentation, Sprachsuche in Unternehmensdaten oder auch spezifischer Übersetzungsdienste.
Whisper erzielt bereits in seinem Basis-Modell (70 Millionen Parameter) hervorragende Ergebnisse. So lassen sich nicht nur Diktate bestens zusammenfassen, sondern auch Gespräche protokollieren und die darin vereinbarten Maßnahmen automatisiert extrahieren.
Mithilfe der jetzt verfügbaren Sprachmodelle können unternehmensspezifische Anwendungsfälle perfekt umgesetzt werden. Weg von mühsamer Tipparbeit, hin zur gezielten Spracheingabe und Sprachsteuerung von IT-Systemen und Maschinen.

Tipp zum Ausprobieren

Wer den Anwendungsfall der Zusammenfassung von Gesprächsinhalten aus MS Teams, Zoom oder Google Meet usw., der Analyse von Online Meetings nach Gesprächsanteilen sowie der Extraktion von Next Steps selbst ausprobieren möchte, sollte sich die Anbieter fireflies.ai und read.ai ansehen. Beide hängen sich als stiller Teilnehmer in eine Videokonferenz ein, protokollieren jedes Wort präzise und erstellen daraus eine Gesprächsanalyse nach vorgefertigtem Muster.

Der springende Punkt

In der Automatisierung von Geschäftsprozessen geht es in der Phase der Ideenfindung immer auch darum, den "springenden Punkt" (lat. punctum saltans) zu finden. Anders ausgedrückt: Welcher Beweis muss erbracht werden, damit eine Automatisierungstechnologie für einen Anwendungsfall als wirksam und zielführend einstuft werden kann?

Im Fall von KI-basierten Automatisierung ist das zuallererst die Erkennungsrate (engl. accuracy): Liefert die künstliche Intelligenz ein korrektes Ergebnis? Diese Frage ist so wichtig, weil KI auf stochastischen Verfahren beruht, welche das wahrscheinlichste Ergebnis liefern. Das muss nicht notwendigerweise das korrekte sein, je nachdem wie (gut) das KI-Modell trainiert wurde.

Bei unserem sprachlichen Anwendungsfall ist der springende Punkt die korrekte Transkription der Audioaufnahme in einen Fließtext. Darauf konzentrieren wir uns.

Whisper - das Flüstermodell

OpenAI stellt mit seinem Whisper Modell eine hervorragende Spracherkennungsbibliothek zur Verfügung. Wir integrieren diese mithilfe einer Python Bibliothek. Einzige derzeitige Besonderheit ist, dass Whisper nur 30 Sekunden lange Audiodateien verarbeiten kann. Folglich müssen wir unsere Aufnahme in 30-Sekunden Schnipsel zerteilen, um eine längere Aufnahme zu transkribieren.

Diese Schnipsel liest Whisper nacheinander ein und übersetzt sie in Spektrogramme. Ein Beispiel sehen Sie oben im Titelbild.

Das ist interessant! Whisper erzeugt nicht direkt aus der Audiodatei eine Textdatei sondern nimmt den Umweg über ein graphisches Artefakt - das Spektrogramm. Aus diesem Spektrogramm erschließt sich Whisper sodann durch Mustererkennung nicht nur die gesprochene Sprache (z.B. Deutsch oder Englisch) sondern dekodiert, d.h. transkribiert, den gesprochenen Text. Hier kommt der von OpenAI verfolgte GPT-Ansatz zum Vorschein: Aus Muster mache Zahlen, aus Zahlen mache - hier - Text.

Das geschieht mit jedem 30-Sekunden Schnipsel. Am Ende wird der transkribierte Text aneinander gereiht: Fertig ist die Transkription.

Cui bono?

Wo kann Whisper im Unternehmensumfeld nützlich sein? Neben seiner hohen Erkennungsgenauigkeit besticht die Einfachheit der Nutzung der Whisper Bibliothek. Sie bildet somit eine willkommene Grundlage für spezifische Anwendungen von künstlicher Intelligenz auf Probleme im Unternehmen. Hier einige Beispiele:

Zusammenfassungen von Gesprächen und Verhandlungen (Gesprächsnotizen)
Durchsuchen von längeren Aufzeichnungen nach bestimmten besprochenen Inhalten (semantische Suche)
Sprachsteuerung von nachgelagerter Software (z.B. ERP-System) und Kommunikation mit Maschinen (natürliche Sprachsteuerung)
Gesprochene Interaktion mit AI-Agenten zur automatisierten Erstellung von Datenanalysen, Auswertungen und Dashboards (sprechen statt schreiben)

Menschen, die gerne mittels gesprochener Sprache mit Computersystemen interagieren wollen statt zu tippen, werden diese Möglichkeit schätzen. Whisper ebnet nicht nur den Weg zur Analyse und Verwertung von Gesprochenem als Gegenstand des Interesses; es eröffnet auch eine neue Interaktion mit Unternehmensanwendungen und Unternehmensdaten, wie wir es von Consumer Software wie Apples Siri kennen.