Digitale Verarbeitung der Eingangspost mit Volltextindizierung

Provinzial NordWest kann mehr als 100.000 Seiten aus Briefen und E-Mail-Dokumenten binnen 24 Stunden verarbeiten und als Datenbasis für Volltextsuchen bereitstellen. KI und Machine Learning machen es möglich.

Der Provinzial NordWest Konzern ist Teil der Sparkassen-Finanzgruppe und einer der größten öffentlichen Versicherungskonzerne in Deutschland.

Das Projekt auf einen Blick

230.000 verarbeite Seiten pro Tag in Spitzenzeiten
70% Erkennungsrate für mehr als 90% der Dokumente

Open Source Tools reduzieren die Kosten auf den Betrieb
Hohe Ergebnisqualität als Basis für weitere KI-Projekte

Ausgangssituation

Der Provinzial NordWest Versicherungskonzern ist in Schleswig-Holstein, Mecklenburg-Vorpommern, Hamburg und Westfalen für seine Kunden vor Ort: Von Westerland bis Rügen und von Viöl bis Hamburg-Harburg reicht das Netz der 220 Versicherungsfachgeschäfte der Provinzial Nord, in Westfalen ist die Westfälische Provinzial zwischen Bocholt und Höxter mit 438 Geschäftsstellen vertreten.

Die PNW digitalisiert schon seit Jahren die Eingangspost (Papier, Fax, Mail) und legt die eingescannten Dokumente digital im Bildformat „TIFF” ab. Aufgrund von Kosten und Rechenlast wurde bisher lediglich die erste Seite einer Dokumentenmappe durch OCR erkannt und zur Klassifikation herangezogen. Ende 2018 wurde das Projekt SHERLOQ (ehemals “Sherlock”) ins Leben gerufen. Zunächst als Proof of Concept entwickelt, hatte SHERLOQ das Ziel, die gesamte Eingangspost als Volltext durchsuchbar abzulegen.

Die PNW verarbeitet täglich weit über 100.000 Seiten aus Briefen und E-Mail-Dokumenten. Grundvoraussetzung war es, diese Last binnen 24 Stunden zu verarbeiten und damit eine tagesaktuelle Datenbasis über die gesamte Eingangspost für Volltextsuchen aus dem CRM bereitzustellen.

Lösung

Das Projekt stellt gleich eine ganze Reihe neuer Anforderungen an die interne Software-Entwicklung und den IT-Betrieb. Der Einsatz moderner, aber heterogener Technologien, wie OpenCV, Tesseract, TensorFlow und Keras, erfordert ein hohes Maß an Flexibilität hinsichtlich Entwicklung, Build und Deployment. Um insbesondere in den letzteren Punkten einen gemeinsamen Standard zu schaffen, werden die einzelnen Services von SHERLOQ in Docker-Containern betrieben.

Zum aktuellen Zeitpunkt besteht SHERLOQ aus neun, lose durch Queues gekoppelte Services, die über die Anzahl ihrer Container individuell skaliert werden können. Das ist insbesondere aufgrund der hohen Last zu bestimmten Kernzeiten, wie am frühen Vormittag oder abends, wichtig. Jeder Service führt Tagebuch über seine aktuellen Durchlaufzeiten. Ein Tesseract-Service benötigt zum Beispiel im Durchschnitt zehn Sekunden pro Seite, während hingegen das Pre-processing, wie Säubern und Hochskalieren, in unter einer Sekunde erledigt ist. Durch die Microservice-Architektur kann SHERLOQ auf dieses Ungleichgewicht ausgerichtet werden.

Um die Texterkennung zu entlasten, werden die Seiten mithilfe eines trainierten, tiefen neuronalen Netzes in Text und Bilddokumente unterteilt. Damit lassen sich bereits zu Beginn größere TIFF-Dateien herausfiltern, die ohnehin keinen Text enthalten. Die Erkennungsrate wird zur Laufzeit anhand eines großen Wörterbuchs in Elasticsearch abgeglichen und gemessen. Elasticsearch stellt im selben Zug auch einen Mechanismus für Wortvorschläge bereit, mit dem SHERLOQ Fehler in der Erkennung noch einmal ausgleicht. In Elasticsearch werden die Volltexte anschließend auch persistiert und bereitgestellt.

Ergebnis

SHERLOQ hat zu Peak-Zeiten 230.000 Seiten pro Tag abgearbeitet. Bei 90 Prozent der eingehenden Dokumente lagen die Erkennungsraten bei über 70 Prozent. Hinzu kommen richtig erkannte Eigennamen, die nicht im Wörterbuch enthalten sind. Das System ist seit September produktiv und hat bereits über 12 Millionen Seiten persistiert, die dem CRM-System mit einer Volltextsuche zur Verfügung stehen.

Außerdem sind bereits neue Projekte auf dem Weg, die auf den Daten aufsetzen. Die Projekte reichen über neue Verfahren zur Dokumentenklassifikation mit Machine-Learning-Modellen bis hin zur Intentionserkennung im Schriftverkehr mit den Kunden. Neben den Ergebnissen des Projekts und den Folgeprojekten im KI- und Data-Science Bereich wurden auch Erfahrungen im Betrieb von Docker und heterogenen Architekturen gemacht. Mithilfe der Container stellt der Betrieb der Anwendung keinen hohen Aufwand dar und ebnet den Weg für eine heterogene Anwendungslandschaft und damit auch für neue Tools und Möglichkeiten.

Illustration von Detektiv Sherloq, der mit Lupe Daten, Bilder, Diagramme, Zip-Files und Briefe untersucht.

SHERLOQ - Alle Funktionen im Überblick

Sherloq ist die Lösung für die Automatisierung deiner Kundenkommunikation. Durch die Kombination aus KI-Framework und Workflow Platform kannst du mit SHERLOQ

Dokumente schneller und effizienter verarbeiten.
Compliance Anforderungen berücksichtigen
deine Fach- und IT-Teams entlasten.
die Kundenzufriedenheit steigern.

Das SHERLOQ-Verfahren integriert sich sehr flexibel und hoch skalierbar in unsere Anwendungslandschaft! Dabei unterstützt Docker hervorragend. Das Nutzenpotenzial der Volltextdatenbank ist sehr groß, was sich sowohl in der Bearbeitung einzelner Dokumente bemerkbar macht, als auch in der übergreifenden Analyse von Dokumenten.
Matthias Kortbus
ITK-Aktivitäten/Dokumente

Noch Fragen zum Projekt?

Möchtest Du KI und Sherloq in deinen Projekten einsetzen? Bist du interessiert an einer individuellen Lösung für dein Unternehmen? Dann lass uns unverbindlich sprechen.

Mark Keinhörster

Head of Berlin, Erfurt, Hamburg, Leipzig, Münster

Mark Keinhörster

Head of Berlin, Erfurt, Hamburg, Leipzig, Münster

Ein Meeting, in dem über ein Projekt diskutiert wird

Weitere Projekte der codecentric AG

Informiere dich über weitere erfolgreiche Projekte, die wir mit unseren Kunden abgeschlossen haben. Vielleicht findest du hier Anregungen für einen Use Case in deinem Unternehmen.

Gemeinsam bessere Projekte umsetzen.

Wir helfen deinem Unternehmen.

Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.

Hilf uns, noch besser zu werden.

Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.

Absenden

Digitale Verarbeitung der Eingangspost mit Volltextindizierung

Das Projekt auf einen Blick

Ausgangssituation