Für viele Menschen ist das Thema KI nicht greifbar. Manche sehen es als große Chance und eine Technologie, die uns alle lästigen Aufgaben abnehmen wird. Für andere hingegen ist es eine große Bedrohung, die viele Arbeitsplätze in Frage stellen könnte. Wieder andere betrachten es einfach nur als Hype und Buzzword-Bingo.
Im Allgemeinen bezeichnet künstliche Intelligenz den Versuch, menschenähnliche Entscheidungsstrukturen in einem nichteindeutigen Umfeld nachzubilden, das heißt einen Computer so zu bauen oder zu programmieren, dass er eigenständig Probleme bearbeiten kann. (Wikipedia)
Eine objektive vollumfängliche Bewertung des Themas ist nicht einfach: Einerseits sind die Zusammenhänge hochkomplex – andererseits wird die Anwendung mit neuen Frameworks und Cloud Infrastruktur immer einfacher und billiger. Damit wird die Technologie für fast jede/n Entwickler*in greifbar und Einstiegshürden sinken immer weiter.
Fakt ist jedoch: Die großen Internetkonzerne investieren unvorstellbare Summen in diesem Umfeld und sehen darin eine der wichtigsten Kompetenzen, um zukünftig am Markt erfolgreich sein zu können.
Bei codecentric haben wir ein dediziertes AI-(Artificial Intelligence-)Team aufgebaut. Erfahrene Entwickler*innen und Data Scientists beschäftigen sich intensiv mit den neuesten Technologien. Dabei bewerten wir differenziert, arbeiten Chancen und Nutzen für unsere Kund*innen heraus und teilen unsere Erfahrungen in Projekten, Publikationen und Trainings.
KI steckt bereits heute in vielen Produkten. Computer können inzwischen ziemlich gut mit uns reden und Bilder verstehen. Gelernt haben sie das nicht „wie früher“ durch ein fest verdrahtetes Programm, sondern dadurch, dass man ihnen viele Beispiele gezeigt hat. So können sie im Prinzip alles lernen, und je mehr Beispiele sie sehen, desto besser werden sie.
Komplexe Aufgaben können sie noch nicht so gut wie ein Mensch lösen – aber die Entwicklung schreitet mit großen Schritten voran. Und bei bestimmten, ganz klar abgegrenzten Aufgaben sind sie dem Menschen zum Teil schon deutlich überlegen.
Okay, die großen Internet-Konzerne investieren massiv in KI – aber welche Bedeutung hat dies für Deutschland? Welche Branchen können von dieser Technologie profitieren? Gibt es auch Anwendungsfälle für kleine Firmen, die nicht über riesige Datenmengen verfügen? Bei welchen Problemen können wir Ihnen helfen?
Die Technologie bietet beeindruckende neue Möglichkeiten. Wir sind der Meinung, dass es in nahezu jeder Branche innovative Anwendungsfälle geben wird. Ja, sogar bei Ihrem Friseursalon gibt es bereits Produkte, die ohne künstliche Intelligenz nicht möglich wären. Alexa kennt inzwischen jeder – in den folgenden Abschnitten wollen wir ein paar weitere Beispiele aufzeigen und zum kreativen Nachdenken anregen…
Viele Kund*innen schreiben viele E-Mails. Um diese zu beantworten, gibt es ganze Support-Abteilungen oder Call Center, die den ganzen Tag die Anliegen oder Beschwerden ihrer Kund*innen abarbeiten. Da diese E-Mails häufig als Freitext formuliert sind, galt diese Aufgabe lange Zeit als nicht automatisierbar. Dies ändert sich gerade.
Schon seit längerer Zeit ist es mit klassischen Machine-Learning-Methoden möglich, E-Mails in „Spam“ oder „Nicht-Spam“ zu unterscheiden. Durch NLP (Natural Language Processing) und Deep Learning ergeben sich zusätzlich neue Möglichkeiten, E-Mails inhaltlich zu verstehen. Maschinen lernen immer zuverlässiger einzelne sogenannte Intents aus Texten herauszulesen. Intents könnten zum Beispiel sein, dass ein/e Kund*in eine Adressänderung, eine Kündigung oder eine Reklamation mitteilen möchte. Ist eine solche Erkennung zuverlässig genug, kann man diese auch gleich automatisch bearbeiten und beantworten.
Wir setzen diese Technologie bereits in mehreren Projekten ein und sehen, dass die Ergebnisse immer besser und besser werden.
Stellen Sie sich einen Optiker in einer stark besuchten Fußgängerzone vor. Tausende von Menschen laufen vorbei. Im Schaufenster steht ein großes Display, das mit dem Kunden interagiert. Schaut der Kunde in diesen „Spiegel“, sieht er sich und bekommt automatisch die neueste Sonnenbrille ins Gesicht gerendert. Das System erkennt, ob die Person männlich oder weiblich, alt oder jung ist, und leitet daraus Produktempfehlungen ab. Die Person bleibt stehen und betrachtet sich im „Spiegel“.
Über Gesten kann sie mit dem Schaufenster interagieren. Das System kann Rabattaktionen einblenden und soziale Netzwerke integrieren, um die Online-Welt mit der Fußgängerzone zu verbinden. Zusätzlich liefert das System Statistiken darüber, wie viele Kunden stehenbleiben, welche Anzeigen am besten funktionieren und wie viele Personen durch das Schaufenster danach den Laden betreten haben.
Das Gleiche funktioniert auch mit einem Reisebüro, wo der Passant plötzlich über einen Sandstrand läuft. Mit einem Schuh- oder Hutgeschäft. Oder in der Spielwarenabteilung eines Kaufhauses, wo im Display die neueste Action-Figur zu sehen ist, die genau die gleichen Bewegungen nachmacht wie das Kind, das mit großen Augen davor steht.
Wie anfangs schon erwähnt, gibt es sogar schon AI-Anwendungen beim Friseursalon. Ein Spiegel (bzw. Bildschirm), der genau anzeigt, wie Mann bzw. Frau nach Anwendung einer bestimmten Tönung aussehen wird.
Ähnliche Anwendungen gibt es im Bereich Kosmetik, wo in Sekunden verschiedenste Schmink-Empfehlungen angezeigt werden können oder im Bereich der Schönheitschirurgie, wo man vorher anschauen kann, wie man nach der OP aussehen wird. Solche Anwendungen laufen natürlich auch zu Hause – ganz einfach im Browser. In Verbindung mit Augmented Reality kann man das auch auf Innenarchitektur / Möbel oder Gestaltung von Badezimmern übertragen.
In diesem Bereich wird es in nächster Zeit sicherlich viele interessante Innovationen geben. Vllt. wollen Sie eine solche Entwicklung voran treiben?
Unter Predictive (Business) Analytics fassen wir Techniken und Methoden aus dem Bereich Big Data, Machine Learning und Data Science zusammen, die aus Business-Daten Vorhersagemodelle generieren. Die Ziele solcher Modelle sind es in der Regel Businessprozesse zu optimieren, Gewinne zu steigern oder Kosten zu sparen.
Zum Beispiel kann ein Supermarkt Vorhersagemodelle nutzen, um vorauszusagen, welche Produkte wann und wie häufig verkauft werden. So lässt sich Einkauf und Lagerbestand optimieren. Wenn zusätzlich Informationen vorhanden sind, welche Produkte von wem häufig zusammen gekauft werden (z.B. über Payback), lassen sich daraus neue Marketingstrategien ableiten. Für Marketingkampagnen lassen sich die Mengen an Daten, die heute in fast allen Branchen vorhanden sind, bereits sehr effektiv nutzen, um vorherzusagen, welche Art von Marketing zu welcher Zeit besonders viele Leads in einer Zielgruppe generieren wird. Das ist besonders für Social Media Marketing relevant geworden.
In anderen Fällen wird anhand von Informationen, die über das Verhalten von Kunden gesammelt wurden, vorausgesagt, welche Kunden in naher Zukunft eventuell kündigen werden. Diese sogenannten Customer-Churn-Modelle können dann helfen, solche Kunden gezielt anzusprechen, um sie nicht zu verlieren, z.B. mit Rabattaktionen.
Aber auch für ein datengetriebenes Recruiting ergeben sich spannende Anwendungsfälle: Algorithmen können eine Vorauswahl von passenden Bewerbern auf Stellen treffen oder ein Matching von offenen Stellen auf (Online-)Job-Profile automatisieren. So haben Recruiter mehr Zeit, sich auf das Wesentliche zu konzentrieren.
Die oben genannten Beispiele sind alle technisch und wirtschaftlich machbar. Teilweise sind sie auch schon umgesetzt. Aber es geht noch mehr. Was tatsächlich heute schon möglich ist, zeigen uns die großen Internet-Konzerne.
Mit Amazon Go hat Amazon einen Supermarkt entwickelt, in dem es keine Kassen mehr gibt. Die Kund*innen checken beim Betreten des Marktes mit ihrem Handy ein. Danach wird mit Computer Vision und anderen Methoden automatisch festgestellt, welche Waren die Kund*innen aus den Regalen nimmt. Am Ende des Einkaufs verlässt man einfach den Laden und die Beträge werden automatisch abgebucht. Dieser Supermarkt ist kein Experiment mehr – er existiert und funktioniert wirklich.
Manche Kritiker*innen stellen künstliche Intelligenz als unausgereifte Spielerei dar, die noch nicht „production-ready“ sei. Firmen, die diese Technologie beherrschen, zeigen jedoch, dass man damit Produkte entwickeln kann, die noch vor ein paar Jahren undenkbar waren.
Haben Sie schon einmal von Google Duplex gehört? Dabei handelt es sich um eine virtuelle Assistenz, die ganz natürliche Gespräche führen kann. Sehen Sie hier ein Beispiel, wie das System bei einer Firma anruft und einen Termin ausmacht:
Das Thema ist breit und nicht ganz einfach abzugrenzen. Es beinhaltet viele Sub-Disziplinen und ist ein Sammelsurium von Buzzwords, bei denen man nur schwer einen Überblick behalten kann. In der folgenden Topic Map stellen wir die wichtigsten Begriffe und deren Zusammenhänge dar. Bei codecentric beschäftigen wir uns vor allem mit den Themenbereichen Deep Learning, Computer Vision, Object Detection, Human Pose Estimation, Natural Language Processing, Reinforcement Learning und Generative Adversarial Networks.
Vor vielen Millionen Jahren kam es auf der Erde zur sogenannten kambrischen Explosion. Dies war ein „relativ kurzer“ Zeitraum, in dem die Artenvielfalt auf der Erde explodiert ist. Manche Forscher*innen sind der Meinung, dass einer der Hauptgründe für diese Explosion die Entwicklung des Sehens war. Plötzlich waren Nahrungssuche, Schutz und Fortpflanzung um ein Vielfaches einfacher geworden.
Im Bereich Computer Vision sind wir im Moment auf einem ähnlichen Pfad. Computer beginnen zu verstehen, was in Bildern oder Videos zu sehen ist. Sie bekommen so die Möglichkeit, die Welt so wahrzunehmen, wie Menschen es tun. Allerdings läuft die heutige Entwicklung um viele Größenordnungen schneller ab als damals in der Evolution. Der Durchbruch gelang im Jahr 2012, als zum ersten Mal ein neuronales Netz den renommierten ImageNet-Wettbewerb gewonnen hat. Seitdem überschlagen sich die Forschungsergebnisse, und es kommen so viele neue wissenschaftliche Veröffentlichungen heraus, die den State-of-the-Art weiter treiben, dass man sie gar nicht mehr alle lesen kann.
Bei codecentric beschäftigen wir uns intensiv mit dem Bereich Computer Vision. Wir sind der Meinung, dass sich die Art und Weise, wie wir mit Maschinen interagieren, in naher Zukunft grundlegend ändern könnte.
Ein spezieller Bereich der Computer Vision ist Object Detection. Hierbei soll der Rechner in einem Bild oder Video erkennen, welche Objekte sich darin befinden und diese entsprechend markieren und benennen. Von Multibox-Detektoren über Faster R-CNNs mit Region Proposal Networks über YOLO und Single-Shot-Detektoren hin zu RetinaNet – heute gibt es zahlreiche Algorithmen und frei verfügbare Software, die gute Ergebnisse liefern, einfach anzuwenden sind und in Echtzeit ablaufen.
Wenn Ihnen das zu viele Fachbegriffe waren, dann schauen Sie doch einfach das folgende Video an. Darin sieht man eine Drohne, die durch unsere Firmenzentrale in Solingen fliegt und dabei Autos, Personen, Laptops und vieles mehr erkennt:
Bei Human Pose Estimation handelt es sich ebenfalls um ein Spezialgebiet der Computer Vision. Manch eine*r kennt das Prinzip vielleicht schon von der heimischen Spielekonsole. Hier gibt es bereits seit mehreren Jahren Spezial-Hardware (z. B. Kinect), die zuverlässig Personen und deren Extremitäten erkennen kann. Damit lassen sich Spiele durch Gesten und Bewegungen steuern und man kann auf „natürliche“ Weise mit dem System interagieren. Problem dabei ist, dass diese Hardware nur unter „Laborbedingungen“ im Wohnzimmer funktioniert. (data2day: Gewinne mit ‘1337’)
Durch neuronale Netze und Deep Learning ist heute Human Pose Estimation auch ohne Spezial-Hardware – z.B. mit einer ganz normalen Webcam und über größere Distanzen – möglich. So könnte man seine Präsentation steuern wie im Film „Minority Report“ oder man kann Systeme entwickeln, die Handlungen von Personen verstehen (Winken, Schlagen, Fallen, etc.). In einem Projekt haben wir mit einer Drohne experimentiert, die autonom eine Person fokussiert und der man über Gesten Steuersignale übermitteln kann. Denkbar sind auch Anwendungen im Leistungssport, wo man Bewegungsabläufe von Athlet*innen genau tracken und optimieren kann. Ebenso könnte man einfach Bewegungen verfolgen und auf Avatare übertragen, um daraus schnell hochwertige Animationen zu erzeugen. Sind Sie aus Hollywood?
Das Thema ist breit und nicht ganz einfach abzugrenzen. Es beinhaltet viele Sub-Disziplinen und ist ein Sammelsurium von Buzzwords, bei denen man nur schwer einen Überblick behalten kann. In der folgenden Topic Map stellen wir die wichtigsten Begriffe und deren Zusammenhänge dar. Bei codecentric beschäftigen wir uns vor allem mit den Themenbereichen Deep Learning, Computer Vision, Object Detection, Human Pose Estimation, Natural Language Processing, Reinforcement Learning und Generative Adversarial Networks.
Im Bereich NLP oder Natural Language Processing versucht man einem Rechner Sprache beizubringen. Zum einen geht es darum, Sprache zu verstehen, zum anderen aber auch darum, natürlich klingende Sprache zu synthetisieren. Die Anwendungsfälle dieser Technologie sind vielfältig. Mit Alexa kennen wir ein neuartiges Human-Machine-Interface, das in unserem Wohnzimmer „wohnt“, dem wir Sprachbefehle erteilen und das uns mit Informationen versorgt. Andere Systeme können in hoher Qualität und in Echtzeit Sprache übersetzen und wieder andere Systeme sind in der Lage den Sinn von Texten zu verstehen – zum Beispiel, um automatisch auf eine E-Mail antworten zu können.
Gerade im Bereich Computer Vision wurden in den letzten Jahren enorme Fortschritte gemacht. Vor allem mit Methoden wie Transfer Learning oder vortrainierten Modellen hat man Grundlagen geschaffen, um nicht immer von Null beginnen zu müssen. Damit lassen sich auch mit kleineren Datenmengen und weniger Budget gute Ergebnisse erzielen und auf vorigen Ergebnissen aufbauen. Diese gelernten Good Practices aus dem Bereich Computer Vision finden auch langsam ihren Weg ins Natural Language Processing – wir gehen daher davon aus, dass es hier in den nächsten Jahren weiterhin einen rasanten Fortschritt geben wird.
Mittlerweile stellen die Cloud-Anbieter auch diverse Text-to-Speech-Systeme zur Verfügung, die man mit wenig Aufwand in seine Applikationen integrieren kann. Wir haben uns diese Systeme einmal genauer angesehen und miteinander verglichen.
Reinforcement Learning (RL) ist ein weiteres Teilgebiet von künstlicher Intelligenz. Beim RL lernen Computer ähnlich wie Kinder durch positive und negative Verstärkung. Das heißt, sie bekommen eine Belohnung, wenn sie etwas Gewünschtes tun und können bestraft werden, wenn sie etwas Falsches tun.
Im RL nennen wir den Computer, der etwas lernen soll, „Agent“ und die Belohnung nennen wir „Reward Function“. Der Agent probiert also zunächst zufällig verschiedene Handlungen aus, bis er einen Reward bekommt. Der Zustand – genannt „State“ – wird dabei gemerkt, um auch komplexe und weitreichende Aktion-Reaktion-Systeme lernen zu können.
Simulation bringt sich selbst das Laufen bei (Quelle: Google DeepMind)
Ein Agent, der zum Beispiel lernt, Super Mario zu spielen, lernt im Prinzip durch Ausprobieren über viele Runden, welche Handlungen ihn gewinnen lassen. Das vermutlich bekannteste Beispiel für einen Computer, der gelernt hat, komplexe Spiele zu spielen, ist AlphaGo, bzw. seine Nachfolger AlphaGo Zero und AlphaZero. Der wesentliche Fortschritt von AlphaGo zu AlphaGo Zero ist, dass AlphaGo noch menschlichen Input bekam, um zu lernen; Google DeepMinds AlphaGo Zero hat sich das Spielen hingegen alleine beigebracht, indem es viele Millionen Male gegen sich selbst gespielt hat. Innerhalb von wenigen Tagen (!) entwickelte die künstliche Intelligenz dabei Spielzüge, auf die vorher kein Mensch gekommen ist und war in der Lage den Weltmeister in einem Spiel zu schlagen, das lange Zeit als zu komplex galt, um es einer Maschine beizubringen.
Dadurch, dass Computer mit RL in der Lage sind, komplexe Handlungsabläufe zu erlernen und flexibel auf die Umgebung zu reagieren, wird Reinforcement Learning zum Beispiel auch in selbstfahrenden Autos und in der Robotik angewendet. So hat Google DeepMind kürzlich gezeigt, wie RL genutzt werden kann, dass ein Agent sich selbst das Laufen beibringt und dabei auch lernt, Hindernisse zu überwinden.
Mit dieser Methode kann ein Computer im Prinzip jede Aufgabe erlernen. Es gibt viele weitere beeindruckende Beispiele. Spannend ist auch, dass die Agenten oft einen ganz anderen Lösungsansatz entwickeln, als wir aufgrund unserer menschlichen Erfahrung erwartet hätten. So hat AlphaGo zum Beispiel ganz neue Spielzüge genutzt oder Roboter, die laufen gelernt haben, tun dies auf eine Art und Weise, die für uns zwar komisch aussieht, aber trotzdem zum Ziel führt.
Ein weiteres, sehr spannendes Feld im Bereich Artificial Intelligence sind GANs oder Generative Adversarial Networks. Hier kombiniert man im Prinzip zwei konkurrierende Netze, die sich gegenseitig auf ein bestimmtes Ziel hin optimieren. Diese Netze sind so in der Lage, neue Inhalte zu erzeugen – man kann damit einen Rechner kreativ werden lassen. Neuronale Netze können sogar „träumen“. Das folgende Bild zeigt ein Beispiel von Googles DeepDream – so sieht es aus, wenn man den Neuronen eines Netzes freien Lauf lässt und es alle ihm bekannten Konzepte wild in eine Visualisierung bringt. Man erkennt darin Fische, Hunde, Gesichter und viele Augen – dies sind die Konzepte, die das Netz während des Trainings gelernt hat.
(Quelle: deepdreamgenerator.com)
Wendet man DeepDream auf ein eigenes Bild an, dann kommt zum Beispiel so etwas heraus:
Vielleicht entwickeln Sie Produkte und möchten zukünftig ein neuronales Netz kreative neue Design Vorschläge generieren lassen?
Es gibt auch bereits Arbeiten, die das Prinzip auf Texte übertragen. Können wir etwas im Stil unseres Lieblingsautors schreiben lassen? Die Kreativität neuronaler Netze hat unendlich viele Anwendungsmöglichkeiten, und viele Bereiche sind bislang noch sehr wenig erforscht.
Aus den oberen beiden Bildern wird durch Style Transfer:
Quelle: deepart.io
Oder aus unserem Büro Gebäude in Solingen wird mit etwas Style Transfer:
Quelle: deepart.io
Sie interessieren sich für Workshops oder Online-Trainings im Bereich künstliche Intelligenz? Derzeit bieten wir einen Workshop zu Deep Learning mit Keras. Dieser umfasst einen kurzen theoretischen Teil zur Einführung in neuronale Netzwerke sowie einen ausführlichen praktischen Teil, in dem ein genereller Workflow zum Erstellen, Testen und Visualisieren neuronaler Netzwerke mit Keras und TensorFlow behandelt wird.
codecentric.AI ist eine Initiative, in der wir Know-how im Bereich künstliche Intelligenz erarbeiten und teilen. Unsere Inhalte veröffentlichen wir vor allem in unserem eigens dafür eingerichteten YouTube-Kanal.
Wir bieten Ihnen spannende Tech-Talks mit Fachwissen an, zum Beispiel während Ihrer Mittagspause in Ihrem Büro, mit Essen und Getränken – und das Ganze kostenlos. Sie müssen lediglich für Appetit und Interesse sorgen!
Oliver ist Autodidakt und konzentriert sich auf die Themen Computer Vision und Deep Learning. Seit 1999 ist er international als IT Consultant unterwegs und bringt umfangreiche Erfahrung in den Bereichen Cloud, Big Data und IT Security mit.
Shirin hat in der Bioinformatik promoviert. Sie wendet Analyse- & Visualisierungsmethoden verschiedenster Bereiche an – z. B. Machine Learning, klassische Statistik, Textanalyse, etc. – um Informationen aus Daten zugänglich und nutzbar zu machen.
Nach ihrer Promotion in Mathematik hat Francesca als Business Intelligence Managerin gearbeitet. Sie arbeitet mit verschiedenen Methoden für die Visualisierung und Analyse von Daten und benutzt Machine-Learning-Modelle, um Vorhersagen zu machen.
Der promovierte Physiker ist Data Scientist bei der codecentric AG. Er analysiert Daten aller Erscheinungsformen und entwickelt datengetriebene, intelligente Lösungen und Produkte für Unternehmen der digital transformierten Welt.
Durch die mathematische Prägung im Zuge seiner Promotion ist es Marcel gewohnt, auftretende Probleme strukturiert zu lösen. Derzeit interessiert er sich insbesondere für aktuelle Technologien rund um das Thema Data Science und Machine Learning.
Berthold ist Informatiker und als Consultant im Data-Science- und AI-Umfeld tätig. Sein Fokus liegt derzeit auf Methoden und Technologien des Machine und Deep Learnings.
Mark ist im Big-Data-Zoo zu Hause und bringt Erfahrungen mit Hadoop und Apache Spark mit. Außerdem beschäftigt er sich mit Docker, Cloud-Technologien und Machine-Learning.
Kai hat Informatik an der RWTH Aachen studiert und ist im Bereich Anwendungsfälle für Computer Vision und Machine Learning seit vielen Jahren aktiv.
In ihrer Forschungsarbeit simulierte und steuerte Agnes biologische Systeme mithilfe von mathematischen Modellen. Als IT Consultant konzentriert sie sich derzeit auf Machine Learning und Cloud-Native-Themen.
Hinweis: In Ihrem Browser ist JavaScript deaktiviert. Für eine bessere und fehlerfreie Nutzung dieser Webseite, aktivieren Sie bitte JavaScript in Ihrem Browser.