AutoML erfreut sich einer stetig steigenden Beliebtheit (s. forbes). Nicht zuletzt getrieben von den zahlreichen Erfolgen an praxisbezogenen Analysen. In einer Welt in der immer mehr Devices Daten produzieren und miteinander vernetzt sind, wachsen die Daten die „produziert“ werden überproportional an. Daher ist AutoML von dringender Notwendigkeit um Erkenntnisse aus diesen rasant zunehmenden Daten zeitnah zu gewinnen. Wir gehen davon aus das AutoML in den kommenden Jahren noch mehr an Bedeutung gewinnen wird und die Analysemethoden noch präzisere und schnellere Resultate liefern werden. Das Tätigkeitsfeld des Datenwissenschaftlers wird dadurch nicht wegfallen, vielmehr werden sich seine Schwerpunkte verlagern in speziellere bzw. anspruchsvollere Analysetechniken.
Kurzum: AutoML spart Zeit und Kosten, denn Sie benötigen kein größeres Team an Data Science und Machine Learning Experten. Es ist zudem der einfachste und günstigste Einstieg in die Welt der künstlichen Intelligenz bzw. des maschinellen Lernens.
Was ist AutoML?
Automatisiertes maschinelles Lernen (AutoML) ist der Prozess der Automatisierung des End-to-End-Prozesses der Anwendung von Machine Learning auf reale Probleme. In einer typischen maschinellen Lernanwendung müssen Experten die entsprechenden Methoden der Datenvorverarbeitung, des Feature Engineering, der Feature Extraktion und der Feature Auswahl anwenden, um den Datensatz für das maschinelle Lernen nutzbar zu machen. Im Anschluss an diese Vorverarbeitungsschritte müssen die Praktiker dann den Algorithmus Auswahl und die Hyperparameteroptimierung durchführen, um die prädiktive Leistung des endgültigen maschinellen Lernmodells zu maximieren.
Da viele dieser Schritte oft über die Fähigkeiten von Laien hinausgehen, wurde AutoML als eine auf künstlicher Intelligenz basierende Lösung für die ständig wachsende Herausforderung der Anwendung von maschinellem Lernen entwickelt. Die Automatisierung des End-to-End-Prozesses der Anwendung von maschinellem Lernen bietet die Vorteile, einfachere Lösungen zu produzieren, eine schnellere Erstellung dieser Lösungen und Modelle, die nicht selten Modelle übertreffen, die von Hand entworfen wurden.
Vergleich gängiger Machine Learning Workflow zu AutoML
Ziele der Automatisierung:
Automatisiertes maschinelles Lernen kann verschiedene Phasen des maschinellen Lernprozesses erfassen:
- Automatisierte Datenaufbereitung und -aufnahme (aus Rohdaten und verschiedenen Formaten)
- Automatisierte Spaltentyperkennung, z.B. boolesche, diskrete numerische, kontinuierliche numerische oder Texterkennung.
- Automatisierte Spaltenabsichtserkennung; z.B. Ziel/Etikett, numerisches Merkmal, kategorisches Textmerkmal oder Freitextmerkmal
- Automatisierte Aufgabenerkennung; z.B. binäre Klassifizierung, Regression, Clustering oder Ranking
- Automatisiertes Feature-Engineering
- Feature-Auswahl
- Merkmalextraktion
- Meta-Lernen und Transferlernen
- Erkennung und Behandlung von verzerrten Daten und/oder fehlenden Werten
- Automatisierte Modellauswahl
- Hyperparameter-Optimierung des Lernalgorithmus und Funktionalisierung
- Automatisierte Pipeline Auswahl unter Zeit-, Speicher- und Komplexitätsbeschränkungen
- Automatisierte Auswahl von Bewertungsmetrik / Validierungsverfahren
- Automatisierte Problemprüfung
- Erkennung von „undichten“ Stellen
- Erkennung von Fehlkonfigurationen
- Automatisierte Analyse der erzielten Ergebnisse
- Benutzeroberflächen und Visualisierungen für automatisiertes maschinelles Lernen
Nachfolgend eine Liste von AutoML Anbietern:
- AutoWEKA ist ein Ansatz zur gleichzeitigen Auswahl eines maschinellen Lernalgorithmus und seiner Hyperparameter; kombiniert mit dem WEKA-Paket liefert es automatisch gute Modelle für eine Vielzahl von Datensätzen.
- Auto-sklearn ist eine Erweiterung von AutoWEKA mit der Python-Bibliothek scikit-learn, einem Drop-in-Ersatz für reguläre scikit-learn Klassifikatoren und Regressoren.
- TPOT ist ein Datenwissenschaftlicher Assistent, der maschinelle Lernpipelines mittels genetischer Programmierung optimiert.
- H2O AutoML bietet eine automatisierte Modellauswahl und -zusammenstellung für die H2O-Plattform für maschinelles Lernen und Datenanalyse.
- TransmogrifAI ist eine AutoML-Bibliothek, die auf Spark läuft.
- MLBoX ist eine AutoML-Bibliothek mit drei Komponenten: Vorverarbeitung, Optimierung und Vorhersage.
- Google Cloud AutoML ist eine Produktsuite für maschinelles Lernen, mit der auch Entwickler mit geringen Kenntnissen in diesem Bereich qualitativ hochwertige Modelle trainieren können, die auf ihre jeweiligen Anforderungen zugeschnitten sind.
- Azure Automated ML is based on a breakthrough from our Microsoft Research division. The approach combines ideas from collaborative filtering and Bayesian optimization to search an enormous space of possible machine learning pipelines intelligently and efficiently.
(Hinweis: Die Liste stellt lediglich eine kleine Auswahl von Anbietern dar.)
[bctt tweet=”Was ist AutoML? #AutoML #KI #AI #MachineLearning #ML #Digitalisierung #Automation” username=”AISOMA_AG”]
Haben Sie noch Fragen?
Wir unterstützten Sie bei der Auswahl des geeigneten Anbieters sowie bei der Einführung von Machine Learning Tools und Prozessen in Ihrem Unternehmen.
Sprechen Sie uns an.
Ihr AISOMA Team
Empfehlenswerte & weiterführende Artikel zu diesem Themengebiet: