Computer-Vision-Techniken in Kofax Transformation Modules (KTM/KTD)

11.4.2017 | 3 Minuten Lesezeit

„Computer Vision“ ist eines der wichtigsten, aktuellen Themen in der IT. Überall in modernen Systemen kommt diese Technologie zum Einsatz – sei es in den genialen Autos von Tesla („Object Detection“ für Hindernisse, andere Verkehrsteilnehmer, Straßenschilder, etc), Home Automation („Motion Detection“) oder auch Überwachungs -und Fahndungssystemen („Face Detection“).

KTM bietet bereits eine Fülle von Möglichkeiten, um Informationen aus strukurierten oder unstrukturierten Dokumenten auszulesen. Doch was, wenn man auf einmal Objekte auf Fotos (z.B. Bilder von Häusern aus Exposés) oder sogar Gesichter erkennen muss?

Dieser Blogeintrag soll die Grundidee der Erweiterbarkeit von Kofax Transformation Modules anhand von Gesichtserkennung demonstrieren.

1. Das richtige Framework – eine wichtige Entscheidung

Eines der beliebtesten und auch leistungsstärksten Frameworks für Computer-Vision-Technologien ist OpenCV. Dieses wurde in C/C++ implementiert und kann deshalb nicht direkt aus dem Kofax-Umfeld heraus aufgerufen werden. Da KTM immer noch auf die traditionelle Win-Basic-Sprache setzt (Schenkt uns endlich C#!!!!!), benötigen wir einen Wrapper.

Ich habe mich hier für Emgu CV entschieden: http://www.emgu.com/wiki/index.php/Main_Page

Die aktuellste Version des Wrappers findet ihr hier: https://sourceforge.net/projects/emgucv/files/latest/download?source=files

2. Das Coding

Auch wenn man auf dem Gebiet der Computer Vision noch nicht erfahren ist, kann man schon durch die Emgu-Sample-Projekte tolle Ergebnisse erzielen. Ein „Face Detection“-Beispiel findet ihr hier: https://github.com/emgucv/emgucv/tree/master/Emgu.CV.Example/FaceDetection

Wir setzen nun ein einfaches Visual-Studio-Projekt auf (Visual C#, Klassenbibliothek) und schreiben uns eine Methode, die wir wiederum direkt aus KTM heraus aufrufen können.

Die Parameter:

NET 3.5 (limitiert durch den Emgu Wrapper)
x86 (Kofax Transformation Modules ist noch keine reine 64-Bit-Anwendung)
Visual C# Klassenbibliothek
COM-Fähigkeit
Einzubindene Verweise: Emgu.CV.UI.dll, Emgu.CV.UI.GL.dll, Emgu.CV.World.dll und System.Drawing

1using Emgu.CV;
2using Emgu.CV.CvEnum;
3using Emgu.CV.Structure;
4using System;
5using System.Collections.Generic;
6using System.Drawing;
7using System.Runtime.InteropServices;
8 
9namespace FaceDetection
10{
11    [ComVisible(true)]
12    [Guid("7ac97316-8975-48fb-9af7-d137139c011e")]
13    [ProgId("FaceDetection.FDetect")]
14    [ClassInterface(ClassInterfaceType.None)]
15    public class FD : _FDetect
16    {
17        public FD()
18        {
19 
20        }
21 
22        public string recognizeFace(string refImage)
23        {
24            IImage image;
25 
26            image = new UMat(refImage, ImreadModes.Color);
27 
28            long detectionTime;
29            List faces = new List();
30            List eyes = new List();
31 
32            DetectFace.Detect(
33              image, "haarcascade_frontalface_default.xml", "haarcascade_eye.xml",
34              faces, eyes,
35              out detectionTime);
36 
37            foreach (Rectangle face in faces)
38                CvInvoke.Rectangle(image, face, new Bgr(Color.Red).MCvScalar, 2);
39            foreach (Rectangle eye in eyes)
40                CvInvoke.Rectangle(image, eye, new Bgr(Color.Blue).MCvScalar, 2);
41 
42            string path = System.IO.Path.GetTempFileName();
43            image.Save(path);
44            return path;
45        }
46    }
47 
48    public interface _FDetect
49    {
50        string recognizeFace(string refImage);
51    }
52}

Die Methode recognizeFace nimmt den Pfad zu dem ursprünglichen Bild entgegen, versucht Gesicht und Augen zu erkennen und markiert diese dann mit unterschiedlichen Rahmen. Anschließend wird das Bild temporär gespeichert und der Pfad auf das manipulierte Bild zurückgegeben.

3. Integration in KTM/KTD

Als nächstes setzen wir ein einfaches KTM-Projekt auf. Uns reichen eine einfache Dokumentklasse und ein Scriptlokator.

Der Lokator soll nun folgendes machen: Er ruft unsere Bilderkennung auf und tauscht danach das Bild im xDoc aus, so dass wir als Ergebnis das markierte Gesicht sehen:

1Private Sub SL_FaceDetection_LocateAlternatives(ByVal pXDoc As CASCADELib.CscXDocument, ByVal pLocator As CASCADELib.CscXDocField)
2   Dim FSO As Object
3   Dim sCurrentImage As String, oImage As CscImage
4   Dim lField As Long
5   Dim oFaceDetection As FaceDetection.FD
6   Dim image As String
7 
8   Set oFaceDetection = New FaceDetection.FD
9   Set FSO = CreateObject("Scripting.FileSystemObject")
10 
11   sCurrentImage = pXDoc.CDoc.Pages(0).GetImage.FileName
12   image = oFaceDetection.recognizeFace(sCurrentImage)
13   FSO.CopyFile image, sCurrentImage, True
14   Set oImage = New CscImage
15   oImage.Load sCurrentImage
16   pXDoc.CDoc.Pages(0).SetImage oImage
17End Sub

Das Ergebnis kann sich sehen lassen 🙂

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

Niko Blättermann

Head of Observability

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Weitere Beiträge

von Niko Blättermann

Kubernetes-Monitoring mit Instana (Teil 1)

Einführung: Weshalb Kubernetes und Instana? Cloud- oder cloud-ähnliche Dienste bedienen bekanntermaßen das “As a Service”-Prinzip. Egal ob “Software”, “Function” oder “Platform as a Service”, meist steckt eine containerbasierte Infrastruktur dahinter...

Infrastructure
APM
Kubernetes

13.10.2019 | 6 Minuten Lesezeit

Niko Blättermann

Maximilian Mayer

Dein Job bei codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

Vibe coding – Was nun?

Kann man mit KI wirklich Anwendungen erzeugen, ohne selbst coden zu können, mit einem Bruchteil des Aufwands und der Zeit? "Gib dich dem Vibe hin! Erstelle Software nur mit natürlicher Sprache! GenAI ist der Builder. Hör auf, dich zu beschweren und fang...

Künstliche Intelligenz
Generative KI

12.4.2025 | 9 Minuten Lesezeit

Goetz Markgraf

Spring Boot Admin - 10 Jahre Wrap Up

Spring Boot Admin - Wrap Up Nach über 10 Jahren seiner Existenz möchten wir in diesem Blogpost die Geschichte des Spring Boot Admin beleuchten und Hintergründe über die aktuelle Entwicklung geben. Wie hat alles angefangen? Was war die Motivation? Wo ...

Open Source
Spring
Softwareentwicklung
Infrastructure
Backend
Observability

28.2.2025 | 5 Minuten Lesezeit

Stephan Köninger

Kategorisierung von Schnittstellen: Data Interface Quadrants (DIQs)

In der heutigen schnelllebigen und datengesteuerten Welt stehen Unternehmen vor einer zunehmend komplexen Herausforderung: Wie können Datenschnittstellen so gestaltet, implementiert und verwaltet werden, dass sie sowohl den unmittelbaren betrieblichen...

API
Data

30.1.2025 | 9 Minuten Lesezeit

Daniel Kocot

Miriam Greis

Open Source trifft Milliardenmarkt: DeepSeek-R1 mischt die KI-Welt auf

Am 27. Januar 2025 erlebte die Technologiebörse einen unerwarteten Einbruch: Der NVIDIA-Aktienkurs fiel um über 17%, wodurch der Konzern zeitweilig fast 600 Milliarden US-Dollar an Börsenwert verlor und damit einen neuen historischen Rekord am Aktienmarkt...

Künstliche Intelligenz
Generative KI
LLM

29.1.2025 | 8 Minuten Lesezeit

Daniel Ladischenski

Simulation von Elektro-Ladestationen

Usability (UX) und Accessibility (A11y) spielen im Rahmen der E-Mobilität eine ebenso wichtige Rolle wie die Verfügbarkeit von Ladestationen, die Preisgestaltung der E-Autos sowie die Stromkosten für einzelne Ladevorgänge. Studien zeigen 1, dass die ...

Testing
Softwareentwicklung
Test Driven Development
BDD
API

29.1.2025 | 5 Minuten Lesezeit

Stephan Köninger

Wie wir eine KI mit wenigen Worten hacken können

Wie wir eine KI mit wenigen Worten hacken können Künstliche Intelligenz (KI) hat in den letzten Jahren einen erstaunlichen Wandel durchgemacht und ist mittlerweile in vielen Lebensbereichen präsent. Ob in Form von Chatbots, die uns bei alltäglichen Fragen...

IT-Security
Künstliche Intelligenz

27.1.2025 | 4 Minuten Lesezeit

Mehmet Avci

Hexagonale Architektur ist auch nur eine Insel

Stellt euch eine Insel namens "Alistair Island" vor. Diese Insel ist ein lebendiger Ort mit Häusern, fruchtbaren Böden und einer eingespielten Gemeinschaft von Bewohnern, die nach klaren Abläufen leben. Jedes Geschehen auf der Insel ist von Bedeutung...

Softwarearchitektur
Testing
Softwareentwicklung

22.1.2025 | 11 Minuten Lesezeit

Danny Steinbrecher

Die schaurigen Gestalten der Agilität – und warum sie oft zum Scheitern...

Die schaurigen Gestalten der Agilität – und warum sie oft zum Scheitern führenIn der agilen Welt wird es immer lauter: Agilität wird zunehmend als ineffektiv abgetan und sogar für tot erklärt (agile is dead). Doch was steckt wirklich hinter dieser wachsenden...

Agile Methoden
Softwareentwicklung
Agilität
Agile Transformation
Projektmanagement
Change Management

30.10.2024 | 11 Minuten Lesezeit

Nina Nitzsche

60% CO2-Emissionen sparen – Unsere Reise zur nachhaltigen codecentric-...

Uns bei codecentric ist Nachhaltigkeit ein besonderes Anliegen. Das kann man an der B Corp™-Zertifizierung sehen, aber auch daran, dass wir kontinuierlich daran arbeiten, ökologisch nachhaltig und sozial fair zu handeln. Dabei richten wir unser Augenmerk...

Nachhaltigkeit
Green IT
Softwareentwicklung
Webdevelopment
Frontend

9.10.2024 | 9 Minuten Lesezeit

Sandy Tiltmann

Manuel

ArchUnit in der Praxis: Architektur sauber halten und optimieren

Wer kennt es nicht: Ein neues Projekt beginnt oder der alte Code soll endlich aufgeräumt werden. Ein großes Meeting mit allen Entwicklern und Entwicklerinnen wird einberufen: „Diesmal machen wir es sauber, korrekt und strukturiert!“ Architecture-Decision...

Softwarearchitektur
Java
Kotlin
Softwareentwicklung

20.9.2024 | 18 Minuten Lesezeit

Danny Steinbrecher

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

In einem gemeinsamen Projekt haben Tom Scholz und ich Machine Learning (ML) Services gebaut, um einem Kunden bei der Analyse von Dokumenten zu helfen. Eine Proof-Of-Concept Lösung war schnell gebaut, die es nun zu operationalisieren gilt. Hierbei war...

Machine Learning
Python
Data
Data Science

12.9.2024 | 27 Minuten Lesezeit

Patrick Soschinski

Tom Scholz

Die neue Möglichkeit der Dokumentenverarbeitung: Effizienz und Präzision...

Vorwort Willkommen zum zweiten Teil der Blog-Serie über die Intelligente Dokumentenverarbeitung (IDP). Im ersten Artikel haben wir die grundsätzlichen Vorteile und Einsatzmöglichkeiten von IDP beleuchtet. Wir haben darüber gesprochen, wie maschinelles...

Integration
Softwareentwicklung

26.8.2024 | 9 Minuten Lesezeit

René Rother

GenAI für Full Stack EntwicklerInnen - Agent Chi PiTie (Teil 5)

Künstliche Intelligenz ist heutzutage in aller Munde. Die Einsatzgebiete sind vielfältig, der "WOW-Faktor" immer gegeben und das Potenzial noch lange nicht ausgeschöpft. Wo wir heute in vielen Bereichen schon unsere früheren Erwartungen übertroffen ...

LLM
Generative KI
Künstliche Intelligenz

20.8.2024 | 13 Minuten Lesezeit

Robin Schlenker

Die neue Möglichkeit der Dokumentenverarbeitung: Effizienz und Präzision...

In der modernen Geschäftswelt bewegt sich alles in einem atemberaubenden Tempo. Überall gibt es Innovationen, die das Leben erleichtern und Prozesse effizienter gestalten. Eine dieser Technologien ist die Intelligente Dokumentenverarbeitung (IDP). Aber...

Softwareentwicklung
Integration

19.8.2024 | 2 Minuten Lesezeit

René Rother

When Business Meets Technology: Vom Datenprodukt zur Datenarchitektur ...

Zusammenfassung Der Data Product Canvas (DPC) ist ein Werkzeug für die leichtgewichtige und iterative Konzeption von Datenprodukten. Dabei steigert er die Effizienz der Produktdefinition, indem er die wesentlichen Einflussbereiche auf Datenprodukte übersichtlich...

Softwarearchitektur
Data
DDD
Digitale Produktentwicklung

6.8.2024 | 21 Minuten Lesezeit

Daniel Engelhardt

Dr. Florian Rademacher

Charge your APIs Volume 28: Verbesserung von Anwendungs- und Datenintegration...

In der heutigen schnelllebigen Welt ist die nahtlose Integration von Anwendungen und Daten entscheidend für den Erfolg eines Unternehmens. In diesem Blogpost werden Konzepte wie die Maslowsche Pyramide, Team Topologies, evolutionäre Architekturen, API...

API
Data
Integration

25.7.2024 | 9 Minuten Lesezeit

Daniel Kocot

React ist tot, lang lebe React - React 19 ist da

Die Welt der Frontend-Entwicklung hat sich erneut verändert und diesmal ist React 19 der Vorreiter. Mit dieser Version bringt React eine Vielzahl neuer Funktionen und Verbesserungen. Aber die wohl aufregendste Neuerung ist der brandneue Compiler, welcher...

React
Frontend
Softwareentwicklung
JavaScript
Webdevelopment

19.7.2024 | 6 Minuten Lesezeit

Michel Ehmen

GenAI für Full Stack EntwicklerInnen: Sprachverständnis als User Interface...

Ein gutes User Interface zu designen und umzusetzen, ist schwierig. Wir als Full Stack EntwicklerInnen wissen nur zu gut, dass der Teufel im Detail steckt. Einmal ist die Animation schlecht getimed, ein Input schiebt sich über den nächsten, ein Bild...

Künstliche Intelligenz
Generative KI
LLM

18.7.2024 | 12 Minuten Lesezeit

Robin Schlenker

Mule Meetup v9: Es gab etwas zu feiern

Am 3. Juli war es wieder einmal so weit! In Solingen fanden sich Kollegen, Kunden und andere Mule-Enthusiasten, trotz des bergischen Regenwetters, zu einem besonderen Anlass zusammen - dem 10. Geburtstag von Max! Max? Wenn du dich nun fragst, wer Max...

Community
Softwareentwicklung
Integration

7.7.2024 | 2 Minuten Lesezeit

Pasquale Brunelli

GenAI für Full Stack EntwicklerInnen: RAG Evaluation mit TypeScript (Teil...

Disclaimer: Dieser Artikel ist Teil einer Serie. Lies am besten zuerst Teil 1 und Teil 2, um auf dem neuesten Stand zu sein. In der traditionellen Softwareentwicklung sind Tests ein essenzieller Bestandteil. Wir nutzen E2E-Tests, Unit- und Integrationstests...

LLM
Künstliche Intelligenz
Generative KI

3.7.2024 | 15 Minuten Lesezeit

Robin Schlenker

Jetzt für unseren Newsletter anmelden

Alles Wissenswerte auf einen Klick:
Unser Newsletter bietet dir die Möglichkeit, dich ohne großen Aufwand über die aktuellen Themen bei codecentric zu informieren.

Computer-Vision-Techniken in Kofax Transformation Modules (KTM/KTD)

1. Das richtige Framework – eine wichtige Entscheidung

2. Das Coding

3. Integration in KTM/KTD

War dieser Beitrag hilfreich?

Blog-Autor*in

Weitere Beiträge

Kubernetes-Monitoring mit Instana (Teil 1)

Dein Job bei codecentric?

Agile Developer und Consultant (w/d/m)

Weitere Artikel in diesem Themenbereich

Vibe coding – Was nun?

Spring Boot Admin - 10 Jahre Wrap Up

Kategorisierung von Schnittstellen: Data Interface Quadrants (DIQs)

Open Source trifft Milliardenmarkt: DeepSeek-R1 mischt die KI-Welt auf

Simulation von Elektro-Ladestationen

Wie wir eine KI mit wenigen Worten hacken können

Hexagonale Architektur ist auch nur eine Insel

Die schaurigen Gestalten der Agilität – und warum sie oft zum Scheitern...

60% CO2-Emissionen sparen – Unsere Reise zur nachhaltigen codecentric-...

ArchUnit in der Praxis: Architektur sauber halten und optimieren

Lessons learned: Was wir in einem Jahr ML Orchestrierung mit Dagster gelernt...

Die neue Möglichkeit der Dokumentenverarbeitung: Effizienz und Präzision...

GenAI für Full Stack EntwicklerInnen - Agent Chi PiTie (Teil 5)

Die neue Möglichkeit der Dokumentenverarbeitung: Effizienz und Präzision...

When Business Meets Technology: Vom Datenprodukt zur Datenarchitektur ...

Charge your APIs Volume 28: Verbesserung von Anwendungs- und Datenintegration...

React ist tot, lang lebe React - React 19 ist da

GenAI für Full Stack EntwicklerInnen: Sprachverständnis als User Interface...

Mule Meetup v9: Es gab etwas zu feiern

GenAI für Full Stack EntwicklerInnen: RAG Evaluation mit TypeScript (Teil...

Jetzt für unseren Newsletter anmelden