Gespräche auswerten und verarbeiten
Gespräche auswerten und verarbeiten
Für eilige Leser
- Transkription überführt gesprochene Worte in geschriebenen Text. Dieser Text kann anschließend vielfältig im Unternehmenskontext genutzt werden. Wir nennen das Sprachautomatisierung.
- Zusammenfassungen von Gesprächen, Videokonferenzen oder YouTube-Videos sind die bekanntesten Anwendungsfälle. Jedoch können mittels KI zahlreiche weitere anwendungsspezifische Berichte erstellt und weiterführende Automatisierungen angestoßen werden.
- Voraussetzung ist, die Gesprächspartner in der Aufnahme eindeutig zu identifizieren sowie ihnen die Texte korrekt und exakt zuzuordnen. Dieses Vorgehen nennt sich Diarization (“Tagebuchführung”).
- Diarization ermöglicht die sprecherspezifische Interpretation von Inhalten und deren Nutzung. Sie ist Grundlage für automatisch erstellte Arztbriefe, Anwalt-Mandanten Gespräche, Auftragsdokumentation im Banking sowie Versicherungswesen und vieles mehr.
- Zudem können Folgeprozesse automatisch angestoßen werden, wenn z.B. ein Vorgesetzter im Gespräch eine Maßnahme genehmigt, die anschließend einen Genehmigungsprozess im ERP-System veranlasst und entsprechend abschließt.
Tipp zum Ausprobieren
Wer ChatGPT nutzt, sollte sich den neuen Prompt-Guide von OpenAI ansehen. Der Hersteller von ChatGPT hat eine eigene Prompt-Erstellungsanleitung veröffentlicht, wie ein guter und aussagekräftiger Prompt in ChatGPT – und auch über die API – aussehen soll, damit das Ergebnis eine möglichst hohe Qualität erreicht. Hervorzuheben ist, dass OpenAI im Allgemeinen eine sehr verständliche Dokumentation verfasst, sodass auch nicht IT-Fachleute das Beste aus ChatGPT, DALL-E und Whisper für sich herausholen können.
Handlungen erfordern Präzision
Soll Transkription über eine reine Spracherkennung sowie Übersetzung von gesprochenen Wörtern und Sätzen hinausgehen, so ist die eindeutige Zuordnung des Gesagten zu einzelnen Sprechern notwendig.
Videokonferenz-Hersteller wie Microsoft Teams, Zoom, Google Meet, GoToMeeting oder Cisco WebEx können in ihren Produkten bereits jeden Sprecher identifizieren und dessen Äußerungen genau zuordnen, da jeder Videokonferenzteilnehmer einem eigenen Kanal nutzt. Das funktioniert im Grunde zuverlässig, wenn wir von kleineren Zuordnungsfehlern bei Unterbrechungen absehen (z.B. beim “Dazwischenreden”).
Will man beispielsweise eine medizinische Dokumentation auf Basis eines oder mehrerer Arzt-Patient-Gespräche automatisch erstellen und in das Krankenhausinformationssystem bzw. Praxissystem zwecks Dokumentation automatisch einspielen, dann ist die Nutzung der vorgenannten Videokonferenzsysteme oftmals nicht zweckmäßig. Zwar kann der Arzt sich behelfen, indem er während des Termins oder in dessen Anschluss die wesentlichen Informationen in sein Smartphone spricht und von dort aus ein automatischer Transkriptionsprozess stattfindet; allerdings besteht der verständliche Wunsch, das normale Arzt-Patientengespräch direkt zu verarbeitet, sodass die vollständige Aufmerksamkeit dem Patienten entgegengebracht werden kann.
Diarization
KI-basierte Transkriptionsplattformen wie das OpenAI Whisper Modell können zwar ganze Audiodateien in Textdateien umwandeln – und sie so einer Weiterverarbeitung zugänglich machen -, jedoch bieten sie keine Möglichkeit, die einzelnen Sprecher zu identifizieren, sodass es zu Fehlinterpretationen des KI-Modells kommt, wenn z.B. die Beschwerden zu Beginn des Aufnahmeberichts des Krankenhauses separat aufgeführt werden sollen.
Zur Identifikation der Sprecher (z.B. Arzt, Patient, Pflegekraft, Angehöriger usw.) werden deshalb andere KI-Modelle benutzt. Sie heißen Diarization-Modelle und liefern eine Liste mit Einträgen zurück, aus der hervorgeht, welcher Sprecher von welcher Sekunde bis zu welcher Sekunde etwas gesagt hat.
Mit dieser Information wird dann die Aufnahme über Transkriptionsmodelle zu Text weiterverarbeitet, sodass bei der anschließenden, ebenfalls KI-basierten Textauswertungen die Information genutzt werden kann, wer was gesagt hat. Das ist bei der Differenzierung von Inhalten wichtig. So kommt z.B. die Beschwerde vom Patienten, während Therapievorschlag vom Arzt stammt. Fehlt die stimmliche Differenzierung – wie das bei Text der Fall ist – kann kein Computer das gesagte eindeutig zuordnen. Es würden sich vermehrt Fehlinterpretationen einschleichen, die wir gerade in kritischen Bereichen vermeiden müssen.
Anwendungsfälle
Diese Kombination mehrerer KI-Modelle ermöglicht die Automatisierung branchenspezifischer Anwendungsfälle.
So können automatisiert Arztbriefe und Pflegeberichte angefertigt und an den gewünschten Adressaten zugestellt werden, Rechtsanwälte sowie Steuerberater können die Ergebnisse ihrer Beratungsgespräche und die mit ihrem Mandanten abgestimmten nächsten Schritte in der digitalen Akte protokollieren, Banken und Versicherungen können Aufträge und Kundeninteraktionen nicht nur nachhalten sondern daraus umgehend automatisierte Handlungen wie z.B. Kauf- oder Verkaufaufträge oder die Zusendung einer Polizze veranlassen.
Customer Service Desks und Helpdesks können Buchungen mit konkreten, vom Kunden im Gespräch mitgeteilten Details aufnehmen oder Lizenzen für den Gesprächspartner aktiveren bzw. deaktivieren lassen.
Allen Anwendungsfällen ist gemein und liegt zugrunde, dass die künstliche Intelligenz den Sinn des Gesprächs deuten kann sowie dank Zuordnung zum Gesprächspartner in einen Kontext setzen kann. So lassen sich weiterführende Automatisierungsprozesse ohne explizite menschliche Handlung in Folgesystemen veranlassen. Die menschliche Kommunikation dient der Problemlösung, die Umsetzung wird dank KI automatisch durchgeführt.
Transkription mit Diarization eröffnen Unternehmen jeglicher Branche völlig neue Möglichkeiten, ihr Tagesgeschäft zu automatisieren, um ihre eigene Produktivität zu heben, ihren Wettbewerbsvorteil auszubauen, sowie die Zufriedenheit ihrer Mitarbeiter dank Wegfall monotoner Tätigkeiten zu heben.
Kurzum: Aus Worten folgen Taten.
Über Business Automatica GmbH:
Business Automatica senkt Prozesskosten durch Automatisierung manueller Tätigkeiten, hebt die Qualität beim Datenaustausch in komplexen Systemarchitekturen und verbindet On-premise Systeme mit modernen Cloud- und SaaS-Architekturen. Angewandte künstliche Intelligenz im Unternehmen ist dabei ein integraler Bestandteil. Zudem bietet Business Automatica auf Cybersicherheit ausgerichtete Automatisierungslösungen aus der Cloud.