Oracle kündigt MySQL HeatWave ML an

Von moneycab

04. April 2022, 13:05 Uhr

Zürich – Oracle MySQL HeatWave unterstützt ab sofort maschinelles Lernen (Machine Learning, ML) innerhalb von Datenbanken. Oracle MySQL HeatWave ist damit der einzige MySQL-Cloud-Datenbankservice, der dies zusammen mit Transaktionsverarbeitung und -analyse ermöglicht. MySQL HeatWave ML automatisiert den ML-Lebenszyklus vollständig und speichert alle trainierten Modelle in der MySQL-Datenbank, sodass keine Daten oder das Modell in ein Tool oder einen Service für maschinelles Lernen verschoben werden müssen.

Die Beseitigung des ETL-Prozesses (Extract, Transform, Load) reduziert die Komplexität der Anwendungen, senkt die Kosten, und verbessert die Sicherheit der Daten und des Modells. HeatWave ML ist in allen 37 Oracle-Cloud-Infrastructure- (OCI-) Regionen im Rahmen des MySQL HeatWave Cloud-Datenbankservices verfügbar. Bisher war das Hinzufügen von Machine-Learning-Funktionen zu MySQL-Anwendungen für viele Entwickler sehr schwierig und zeitaufwendig. Zum einen werden Daten aus der Datenbank in ein anderes System extrahiert, um ML-Modelle zu erstellen und bereitzustellen. Dieser Ansatz erzeugt mehrere Silos für die Nutzung von maschinellem Lernen auf Anwendungsdaten und führt zu Latenz durch notwendigen Datenaustausch. Er führt ausserdem zur Verteilung von Daten aus der Datenbank, was diese anfälliger für Sicherheitsbedrohungen macht und zudem das Programmieren in multiplen Entwicklungsumgebungen erschwert. Zum anderen erwarten bestehende Dienste, dass Entwickler für den ML-Modelltrainingsprozess zuständig sind und diesen anleiten. Ansonsten wird das Modell suboptimal, was die Genauigkeit der Vorhersagen beeinträchtigt. Schliesslich enthalten die meisten vorhandenen ML-Lösungen keine Funktionalität, um Erläuterungen dazu zu liefern, warum die von Entwicklern erstellten Modelle spezifische Vorhersagen liefern.

MySQL HeatWave ML löst diese Probleme, indem die Funktionen des maschinellen Lernens nativ in die MySQL-Datenbank integriert werden. So ist kein ETL-Prozess für die Daten zur Übergabe an einen anderen Service erforderlich. HeatWave ML automatisiert den Trainingsprozess vollständig und erstellt ein Modell mit dem besten Algorithmus, den optimalen Funktionen sowie bestmöglichen Hyperparametern für ein bestimmtes Datenset und eine spezifische Aufgabe. Alle von HeatWave ML generierten Modelle können Erläuterungen zu Modellen und Vorhersagen liefern.

Kein anderer Cloud-Datenbankanbieter stellt solche erweiterten ML-Funktionen direkt in seinem Datenbankservice bereit. Oracle veröffentlichte ML-Benchmarks, die unter anderem über eine grosse Anzahl öffentlich zugänglicher Datensets für Klassifizierung und Regression des maschinellen Lernens wie Numerai, Nomao und Bank Marketing durchgeführt wurden. Auf dem kleinsten Cluster trainiert HeatWave ML Machine-Learning-Modelle im Durchschnitt 25-mal schneller als Redshift ML zu einem Prozent der Kosten. Darüber hinaus erhöht sich der Performancevorteil gegenüber Redshift ML, wenn ein Modelltraining in einem grösseren HeatWave-Cluster durchgeführt wird. Solche Trainings sind ein zeitaufwendiger Prozess und da sie sich mit MySQL HeatWave sehr effizient und schnell durchführen lassen, können Kunden ihre Modelle jetzt häufiger nachtrainieren und mit Datenänderungen Schritt halten. Dadurch werden die Modelle auf dem neuesten Stand gehalten und die Genauigkeit der Vorhersagen wird verbessert.

https://youtu.be/cTUCzsYAi94

HeatWave ML bietet im Vergleich zu anderen Cloud-Datenbankservices die folgenden Funktionen:

Vollständig automatisiertes Modelltraining: Alle verschiedenen Phasen beim Erstellen eines Modells mit HeatWave ML sind vollständig automatisiert und erfordern keine Intervention durch Entwickler. Dies führt zu einem optimierten Modell, das genauer ist und keine manuelle Arbeit erfordert, und der Trainingsprozess wird immer abgeschlossen. Andere Cloud-Datenbankservices wie Amazon Redshift bieten Integration mit Funktionen für maschinelles Lernen in externen Services, die während des ML-Trainingsprozesses umfangreiche manuelle Eingaben von Entwicklern erfordern.

Erläuterungen zu Modellen und Inferenzen: Mit der Erklärbarkeit des Modells können Entwickler das Verhalten eines Machine-Learning-Modells nachvollziehen. Wenn beispielsweise eine Bank einem Kunden ein Darlehen verweigert, muss die Bank in der Lage sein zu bestimmen, welche Parameter des Modells berücksichtigt wurden oder ob das Modell Vorurteile enthält. Die Erklärbarkeit von Vorhersagen basiert auf einer Reihe von Techniken, die bei der Beantwortung der Frage helfen, warum ein Maschine-Learning-Modell eine bestimmte Prognose getroffen hat. Erklärungen zur Vorhersage werden heutzutage immer wichtiger, da Unternehmen die Entscheidungen ihrer Machine-Learning-Modelle darlegen können müssen. HeatWave ML integriert im Rahmen seines Modelltrainings sowohl Erläuterungen zu Modellen als auch zur Vorhersage. Infolgedessen können alle von HeatWave ML erstellten Modelle sowohl Modell- als auch Inferenzerläuterungen anbieten ohne die Notwendigkeit von Trainingsdaten zum Zeitpunkt der Erklärung der Inferenz. Oracle hat bereits bestehende Erläuterungstechniken erweitert, um die Performance, Interpretierbarkeit und Qualität zu verbessern. Andere Cloud-Datenbankservices bieten keine so umfassende Erklärbarkeit für alle ihre Machine-Learning-Modelle.

Hyperparameteroptimierung: HeatWave ML implementiert einen neuen auf Gradientensuche basierenden Reduktionsalgorithmus für die Hyperparameteroptimierung. Dadurch kann die Hyperparametersuche parallel ausgeführt werden, ohne die Modellgenauigkeit zu beeinträchtigen. Die Hyperparameteroptimierung ist die zeitaufwendigste Phase des ML-Modelltrainings. Diese einzigartige Funktion bietet HeatWave ML einen erheblichen Performancevorteil gegenüber anderen Cloud-Services für die Erstellung von Machine-Learning-Modellen.

Algorithmusauswahl: HeatWave ML verwendet das Konzept von Proxy-Modellen, um den besten ML-Algorithmus für das Training zu ermitteln. Bei Proxy-Modellen handelt es sich um einfache Modelle mit den Eigenschaften eines vollständigen komplexen Modells. Durch die Verwendung eines einfachen Proxy-Modells wird die Algorithmenauswahl sehr effizient ohne Genauigkeitsverlust durchgeführt. Für die Erstellung von Modellen für maschinelles Lernen sind keine anderen Datenbankservices mit Proxy-Modellierungsfunktion verfügbar.

Intelligentes Data Sampling: Während des Modelltrainings testet HeatWave ML einen kleinen Teil der Daten, um die Performance zu verbessern. Dieses Sampling erfolgt so, dass alle repräsentativen Datenpunkte im Abtastdatensatz erfasst werden. Andere Cloud-Services für die Erstellung von Modellen für maschinelles Lernen nutzen einen weniger effizienten Ansatz, etwa zufälliges Data Sampling, was einen kleinen Prozentsatz von Daten abfragt, ohne die Eigenschaft der Datenverteilung zu berücksichtigen.

Auswahl von Merkmalen: Die Funktion zur Auswahl von Merkmalen (Feature Selection) erlaubt, die Attribute der Trainingsdaten zu bestimmen, die das Verhalten des Machine-Learning-Modells für Vorhersagen beeinflussen. Die Techniken in HeatWave ML zur Merkmalauswahl wurden über ein breites Spektrum von Datensets über mehrere Domains und Anwendungen hinweg trainiert. Aus diesen gesammelten Statistiken und Meta-Informationen kann HeatWave ML die relevanten Merkmale in einem neuen Datenset effizient identifizieren. (Oracle/mc)

MySQL HeatWave ML
Technisches Whitepaper zu MySQL HeatWave ML

Schreibe einen Kommentar