Einsatz von KI zur Datenerfassung

in der Versicherungsbranche

05.07.2024


In der Versicherungsbranche ist die effiziente und reibungslose Dokumentenverarbeitung von entscheidender Bedeutung für den Geschäftserfolg. Sie ermöglicht unter anderem eine schnelle Schadensregulierung und eine verbesserte Kundenbetreuung. Täglich werden dabei zahlreiche Dokumente wie Schadenmeldungen, Rechnungen, Gutachten und Kundenkorrespondenzen verarbeitet. Bisher stützte sich die Branche hauptsächlich auf die Optical Character Recognition (OCR)-Technologie zur Textextraktion aus diesen Dokumenten. Durch ein anschließendes KI-Modell wurden die relevanten Informationen extrahiert und der Text in eine strukturierte Form übersetzt (siehe Abbildung 1).

 

Abbildung 1: Gewöhnlicher, OCR-basierter, zweistufiger Ansatz zur Datenextraktion

 

 

Während OCR-basierte Methoden durchaus ihre Berechtigung haben, überwiegen die Vorteile einer End-to-End Verarbeitung ohne OCR-Nutzung. Insbesondere sind OCR-basierte Ansätze anfällig für Fehlerfortpflanzungen, die durch den herkömmlichen zweistufigen Ansatz entstehen können. Im Gegensatz dazu reduziert die End-to-End Verarbeitung (siehe Abbildung 2) den Rechenaufwand erheblich, eliminiert die Abhängigkeit von externen OCR-Tools und bietet maßgeschneiderte Lösungen für spezifische Unternehmensdokumente. Diese Technologie erleichtert zudem die Generierung von Trainingsdaten durch die direkte Verwendung von Dokument-Text-Paaren.

 

Abbildung 2: End-to-End Ansatz zur Datenextraktion

 

 

Unsere OCR-freie GenAI-Lösung nutzt fortschrittliche Technologien von Google / Naver Clova (OCR-free Document Understanding Transformer) und DeepMind (Perceiver), um ein tiefgehendes Verständnis mehrseitiger Dokumente zu ermöglichen. Sie ist speziell darauf ausgelegt, aus Kfz-Dokumenten sowohl einzelne Felder als auch komplexe Tabellenstrukturen präzise zu extrahieren. Dies markiert einen bedeutenden Fortschritt in der Dokumentenverarbeitung innerhalb der Versicherungsbranche.
Durch die simultane Betrachtung mehrerer Seiten können Zusammenhänge besser erkannt und Informationen präziser extrahiert werden. Details, die auf einer Seite eingeführt und auf einer anderen fortgeführt oder ergänzt werden, können nahtlos integriert werden. Dies führt zu einer umfassenderen und genaueren Datenerfassung, die mit herkömmlichen, seitenbasierten Systemen nicht möglich wäre.
Bei ControlExpert engagieren wir uns fortwährend, die Anforderungen unserer Kunden mit innovativen Lösungen zu bedienen. Unsere jüngste GenAI-Technologie optimiert die Verarbeitung von mehrseitigen Dokumenten signifikant und zeigt unser Bestreben, Prozesse zu verbessern. Wir sind überzeugt, dass diese Technologie einen positiven Einfluss auf die Versicherungsbranche ausüben wird, und freuen uns darauf, unsere Kunden in diesem Bereich zu unterstützen.

 

Deep Dive Architektur:

Das beschriebene Modell nutzt eine Architektur, die es ermöglicht, vollständige Dokumente direkt als Bilder zu verarbeiten, ohne auf traditionelle Texterkennung (OCR) angewiesen zu sein. Der Image Encoder des Modells, stammend aus dem Donut, nimmt die gesammelten Bilder der einzelnen Seiten und wandelt diese in hochdimensionale Embeddings um. Der Perceiver Decoder erhält sowohl die Frage an das Dokument als auch die Image Embeddings per Cross Attention (siehe Abbildung 3: Kombination aus Donut Encoder und Perceiver Decoder (modifizierte Figure 1 aus Perceiver)), um die relevanten Informationen aus den umfangreichen Datenmengen nachzuschlagen und zu extrahieren. Im Gegensatz zu einem herkömmlichen Decoder, bei dem die Embeddings in den Kontext des Modells einfließen und somit eine quadratische Komplexität bezüglich der Kontextlänge entsteht (siehe LLaVA), ermöglicht dieser Ansatz durch die Nutzung von Cross Attention zwischen einem langen Dokument und einer kurzen Frage eine effiziente Speichernutzung. Der Decoder generiert die Antwort auf die Frage, wobei die Ausgabe nicht nur den nächsten Token, sondern auch die Bounding Box und die Dokumentenseite umfasst, die die Antwort enthält.

 

Abbildung 3: Kombination aus Donut Encoder und Perceiver Decoder (modifizierte Figure 1 aus Perceiver)