Was ist Computer Vision?

Als Teilgebiet der Künstlichen Intelligenz ermöglicht Computer Vision aus visuellen Daten, wie beispielsweise Fotos und Videos, Informationen zu extrahieren. Erst mit den Fortschritten im Bereich von Deep Learning sind beeindruckende Ergebnisse hinsichtlich der Genauigkeit und Geschwindigkeit bei der Bilderkennung möglich geworden. Die typischen Aufgaben von Computer Vision können in folgende Einzelbereiche unterteilt werden:

Objekterkennung
Ein oder mehrere Objekte werden in einem Bild erkannt und mit einem Rahmen („Bounding Box“) gekennzeichnet. Eine weitere Variante der Markierung von Objekten ist die sogenannte Objekt-Segmentierung, mit der das Objekt (fast) pixelgenau eingefärbt wird.

Computer Vision -Objekterkennung und -kategorisierung
Objekt-Klassifizierung
Bei der Objekt-Klassifizierung geht es darum, Objekte in Kategorien, wie z.B. in „Flugzeug“, „Lkw“ oder „Pkw“ einzuteilen, um beispielsweise einzelnen Bilder oder Videosequenzen zu verschlagworten.

Computer Vision – Objektkategorisierung
Bewegungsanalyse
Die Bewegung von Objekten in einer Videosequenz wird untersucht, um z.B. die Bewegungsrichtung eines Objektes zu erkennen („Person setzt sich hin“) oder konkrete Handlungen einer Person zu erfassen.

Erkennung von Bewegungen und Handlungen

Anwendungsszenarien im Computer Vision Bereich

Inspektion von Brücken und hohen Gebäuden

Bisherige Verfahren zur Inspektion von Brücken oder hohen Gebäuden, wie z.B. Windkraftanlagen sind zeit-intensiv und verursachen hohe Kosten. Fliegende Drohnen können das Objekt vollautomatisiert umfliegen und dabei hochauflösende Bilder der Objektoberflächen generieren, die mit Hilfe von Computer Vision auf Anomalien bzw. Schäden hin analysiert werden können. Bei Bedarf können die Ergebnisse mit Daten aus früheren Inspektionen verglichen werden.
Link: Aerial Robotic System for In-Depth Bridge Inspection by Contact

Qualitätssicherung in der Leiterplattenherstellung

Die Herausforderung bei der Inspektion in der Leiterplattenfertigung ist die Vielzahl von möglichen Oberflächenfehler, wie fehlende oder fehlerhaft platzierte Bauelemente, offene Stromkreise, Kurzschlüsse und übermäßiges oder unzureichendes Lot. Im Vergleich zu den klassischen Verfahren der industriellen Bildverarbeitung kann ein auf Deep Learning Algorithmen basierendes Inspektionssystem komplexe Bilder in Echtzeit und mit einer höheren Genauigkeit analysieren. Außerdem können eine automatische Klassifizierung von Fehlern durchgeführt und neue Fehlerarten hinzugefügt werden.
Video: High Speed PCB Inspection Use Case

Fremdkörpererkennung in der Lebensmittelproduktion

Lebensmittelhersteller müssen Produkte zurückrufen, wenn sie unsicher sind. In den meisten Fällen handelt es sich um mikrobiologische Verunreinigungen und um Fremdkörper. Besonders häufig betroffen sind Fleisch- und Fleischerzeugnisse, gefolgt von Milch und Milchprodukten. Mit der Kombination aus hyperspektraler Kameratechnik und Deep Learning Algorithmen lassen sich, nach dem Training von entsprechenden Modellen, Materialen ebenso erkennen wie chemische Zusammensetzungen. Damit können im Vergleich zu den aktuell eingesetzten Röntgengeräten nicht nur metallische Teile identifiziert werden, sondern auch Glas-, Plastiksplitter und Papierreste. Deep Learning Algorithmen sind außerdem in der Lage, Pixel mit ähnlichen spektralen Profilen zusammenzufassen, um zu erkennen, dass sich Fremdkörper unter der Oberfläche z.B. einer Zuckerschicht befinden.
Link: Lebensmittelrückrufe – Tagesspiegel 5.5.2019

Intelligente Verkehrsüberwachung

Bereits seit Längerem werden für die Verkehrsüberwachung und auch für die Städteplanung Verkehrskameras genutzt um beispielsweise die Anzahl der Verkehrsteilnehmer an Verkehrsknotenpunkten zu zählen. Beim Einsatz von klassischen Verfahren der Bildverarbeitung, wie beispielsweise Kontrastfiltern bzw. Algorithmen für die Erkennung von Objektkonturen, sind Änderungen in den Lichtverhältnissen und Wetterbedingungen ein großes Problem für die Genauigkeit bei der Erkennung von Objekten. KI-basierten Algorithmen wie z.B. Mask R-CNN ermöglichen nicht nur eine schnelle, sondern auch hohe Genauigkeit bei der Objekterkennung und verbessern die Qualität der erfassten Daten. Des Weiteren ist eine Kategorisierung in unterschiedliche Fahrzeugklassen, wie Pkw, Lkw, Motorrad etc. mit entsprechendem Training des Deep Learning Algorithmus realisierbar.
Video: Object Detection und Segmentation with Mask R-CNN

Fahrzeugerkennung für Marketinganalysen

Mithilfe von Deep Learning können nicht nur Fahrzeugklassen erkannt werden, sondern durch erweitertes Training der KI-Algorithmen auch eine detailliertere Fahrzeugdemografie (Baujahr, Marke und Modell) ermittelt werden. Werbetreibende könnten sodann diese Daten nutzen, um z.B. kontextbezogene Plakatwerbung auf der Grundlage der Fahrzeugsegmente in bestimmten Stadtgebieten zu platzieren.
Video: Visual vehicle recognition

Automatisierte Parkraumüberwachung

Etwa 30% des gesamten Stadtverkehrs wird bei der Suche nach einem Parkplatz verursacht. Eine interessante Smart-City Anwendungen ist die Überwachung von größeren Parkplatzflächen oder auch von einzelnen Straßenzügen hinsichtlich deren Belegung mit parkenden Fahrzeugen. Dabei liefern auf Lichtmasten bzw. Gebäuden montierte Webcams Live-Stream-Bilder, auf denen dann ein KI-basierter Algorithmus freie und belegte Parkplätze erkennt. In folgendem Video sind deutliche Änderungen der Lichtverhältnisse, wie Schatten von Bäumen und Gebäuden zu sehen. Da bei den klassischen Verfahren der Bilderkennung mit Kontrastfiltern etc. gearbeitet wird, sind solche Kontrastwechsel stets ein großes Problem – jedoch nicht für Deep Learning Algorithmen.
Video: Real-time image-based parking occupancy detection using deep learning

Smart Agriculture

Die Vermeidung von Ernteverlusten ist für die Landwirtschaft eine große Herausforderung. Weltweit verlieren Landwirte jedes Jahr rund 750 Milliarden durch Ernteausfälle. Mit Deep Learning Modellen können Aufnahmen, die per Mobile App oder mit einer Drohne erstellt werden, auf Krankheiten und Schädlingsbefall hin analysiert werden. Oder KI-basierte Kamerasysteme können Nutzpflanzen und Unkraut unterschieden, um somit in vollautomatisierten Unkrautentfernungsmaschinen eingesetzt werden zu können.
Link: WeedMap: A Large-Scale Semantic Weed Mapping Framework Using Aerial Multispectral Imaging and Deep Neural Network for Precision Farming

Handlungserkennung bei Sportereignissen

Die Erkennung bestimmter Aktivitäten im Sport ist aktuelles Forschungsthema im Bereich Computer Vision. Eine automatisierte Analyse von Videoaufzeichnungen bzw. Live-Übertragungen beispielsweise von Fußballspielen ermöglicht die Erkennung und Klassifizierung von Einzelereignissen, wie z.B. Tor, Auswechslung oder Rote bzw. Gelbe Karte. Diese spiel-relevanten Vorkommnisse können als Annotation und mit einem Zeitstempel versehen als Metadaten dem Video hinzugefügt, als Quelle für eine automatisierte, textuelle Live-Berichterstattung genutzt oder für statistische Analysen weiterverarbeitet werden.
Link: SoccerNet

Weitere Artikel zum Thema Computer Vision und industrielle Bildverarbeitung:

8 Computer Vision Anwendungsszenarien für Deep Learning