Nachbericht re:Invent 2022 AWS-Chef Selipsky ruft die Parole „Zero-ETL“ aus

Von Michael Matzer

Anbieter zum Thema

Auf der Anwenderkonferenz re:Invent 2022 hat Amazon Web Services (AWS) der ETL-Integrationsmethode den Kampf angesagt und eine Reihe von Datenbank-Integrationen vorgestellt. Generell wird die Skalierbarkeit und Leistung der Datastores erhöht, das ML-Tool Amazon SageMaker verarbeitet nun auch Geodaten. Im IoT-Bereich stellte AWS vier Neuheiten vor.

CEO Adam Selipsky eröffnete mit seiner Keynote die AWS re:invent.
CEO Adam Selipsky eröffnete mit seiner Keynote die AWS re:invent.
(Bild: AWS)

„Integration mit ETL ist wie ein schwarzes Loch“, zitierte CEO Adam Selipsky einen seiner Kunden. Um diese Misere zu beenden, gab er die Parole „Zero ETL“ aus und verkündete die Integration zwischen verschiedenen Amazon-Datenbanken sowie mit Apache Spark. „Amazon Athena for Apache Spark“ eigne sich besonders für komplexe Analysen, wobei die Abfragedauer unter einer Sekunde liegen soll.

Zudem stellte der CEO „Amazon Redshift Integration for Apache Spark“ und „Amazon Athena for Apache Spark” vor und kündigte eine Kooperation zwischen Amazon Aurora und Amazon Redshift an. Die Abfragen sollen fast in Echtzeit ablaufen und ermöglichen die Anwendung von ML-Modellen auf Transaktionsdaten.

Bildergalerie
Bildergalerie mit 6 Bildern

Die Preview für Amazon Aurora MySQL 3 mit Kompatibilität zu MySQL 8.0 steht in der Region USA Ost (Nord-Virginia) bereit. Aurora lasse sich ebenso wie OpenSearch Serverless betreiben, um Ressourcen zu sparen und die Latenzzeit zu verringern. Der Serverless-Betrieb ist schon seit 2018 für Amazon Aurora verfügbar, für Amazon OpenSearch jetzt als Preview.

Apache Spark läuft mit Amazon EMR, Amazon Redshift und Amazon Athena bis zu dreimal schneller als mit Open Source Software. Diese Integration sei auch für Amazon SageMaker und AWS Glue zugänglich. Mit Amazon DataZone sollen Kunden die sogenannte Schatten-IT bekämpfen können, indem sie die Governance-Funktionen dieses Dienstes nutzen. Amazon DataZone ist ein Datenverwaltungsdienst, um Daten zu katalogisieren, zu erkunden, zu teilen und mehr, die nicht nur aus Amazon stammen können, sondern auch aus Data Warehouses von Snowflake oder aus einer Datenbank von Tableau.

Dieser Service ist nicht zu verwechseln mit dem neuen Dienst AWS Clean Rooms, der es erlaubt, im Hinblick auf die Integration von Datenbeständen ganz bestimmte Segmente eines Datenbestandes zwischen zwei Dateneignern, etwa zwischen Vertrieb und Marketing, miteinander zu teilen.

Um die Datenqualität zu erhöhen, zu messen und beizubehalten, bietet AWS in Kürze den Service „AWS Glue Data Quality“ an. Der Aufwand, der mit der Sicherstellung von Datenqualität verbunden sein kann, soll damit von Tagen auf Stunden reduziert werden. Dabei unterscheidet AWS Glue Data Quality den Einsatz bei ruhenden Daten und Daten in einer Pipeline. Das Serverless-Tool schlägt individuell angepasste Regeln vor und lässt sich bis in den Petabyte-Bereich skalieren. Um den Gedanken der Zero-ETL-Integration zu stützen, gibt es nun auch „AWS Glue for Apache Spark“, „AWS Glue for Ray“ und „AWS Glue for Python Shell“.

Skalierung

Als zweites „Schlachtfeld“ nannte Selipsky das Thema Skalierung. Jetzt skaliere Amazon Athena bis auf 128 Terabyte pro Cluster. Amazon Redshift skaliere bis zu Exabytes, Amazon DocumentDB skaliere bis zu 64 TiB pro Cluster, doch mit dem neuen Service DocumentDB Elastic Clusters sei die Kapazität auf Millionen von Lese-/Schreibanfragen und Petabytes an Speicher erweitert worden. Als Kunden nannte der CEO Netflix, die Expedia Group und Philips.

Machine Learning

Machine Learning (ML) spielt für Amazon QuickSight eine zunehmende Rolle. In AWS QuickSight Q ermöglicht ML nicht nur eine Interpretation gesprochener Sprache (NLP), sondern jetzt auch Forecasting und „Warum“-Fragen. Beide Leistungsmerkmale sind bereits verfügbar. Neu sind zudem paginierte Reports in Amazon QuickSight Paginated Reports und neue API-Fähigkeiten: Diese ermöglichten „programmatisches Erstellen und Verwalten von Dashboards in Amazon QuickSight und das Beschleunigen der Migration in die Cloud“.

Auf großen Applaus stieß die Ankündigung, in Amazon SageMaker, dem umfangreichen Framework für ML und KI, nun auch Geodaten für visuelle Vorhersagen zu verarbeiten und vortrainierte neuronale Netze damit arbeiten zu lassen. Der Kunde BMW, mit dem Amazon eine gemeinsame Plattform für Automotive IT erstellt hat, stellte in einer Demonstration vor, wie sich dieses Feature in der Praxis nutzen ließe. Da sich durch den Klimawandel auch die Niederschlagsmengen erhöhten, wäre es vorteilhaft für einen Fahrer, im Voraus darüber informiert zu werden, mit welchen Gefahren er aufgrund von überfluteten Straßen zu rechnen habe.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Damit sich auch Tausende von ML-Modellen zuverlässig und effizient verwalten lassen, bietet AWS nun „ML Governance with AWS SageMaker“ an. Das erleichtere nicht nur die Überwachung und Dokumentation der Modelle, sondern erlaube auch deren Optimierung beim Einsatz.

Eine Anwendung von ML-Modellen soll künftig auch auf allen Gebieten des Gesundheitswesens, der Biowissenschaften und der Genomik möglich sein. Dazu bietet Amazon jetzt die Cloud-Anwendung Amazon Omics an. Damit soll die personalisierte Pflege eines Patienten ebenso realisierbar sein wie beschleunigte Forschung, HIPAA-konformer Datenschutz und die Analyse von Petabytes an Erhebungsdaten, etwa aus einem Amazon HealthLake.

Zuverlässigkeit & Security

Ohne Kundenvertrauen gibt es kein Cloud Computing und um dieses Vertrauen zu rechtfertigen, sollen die Sicherheitsmechanismen ausgebaut werden. Dabei will Selipsky sein Versprechen der Datensouveränität berücksichtigen, sodass lokale Gesetze und Rechtsfragen zur Geltung kommen. Das Schlüsselmanagement für die Verschlüsselung lässt sich nun mit External Key Store (XKS) an Dienstleister auslagern. Die Telekom-Tochter T-Systems hat kürzlich einen entsprechenden Dienst in ihr Paket „Data Protection as a Service“ aufgenommen.

Die Datenbank Amazon Redshift verfügt jetzt über eine Multi-AZ-Fähigkeit, was bedeutet, dass Nutzer ihre Cluster über mehrere Availability Zones hinweg betreiben können, um besser gegen Ausfälle geschützt zu sein. Ebenfalls neu sind die „Trusted Language Extensions for PostgreSQL“, einer mit einigen AWS-Datenbanken kompatiblen Open-Source-Datenbank.

IoT

Eine erhebliche Beschleunigung beim Start sollen AWS-Lambda-Funktionen erfahren, wenn sie die neue Funktionalität Lambda SnapStart nutzen. Das kommt auch IoT-Apps zugute. Die auf Firecracker basierende Funktion soll für 90 Prozent weniger „Kaltstarts“ sorgen. Diese können bis zu zehn Sekunden lang sein, wenn die INIT-Phase der App auf ein Framework wie Spring Boot, Quarkus oder Micronaut angewiesen ist, schreibt AWS-Evangelist Jeff Barr dazu. Der Chefblogger führt einige anschauliche Codebeispiele dazu auf.

AWS IoT Core, ein verwalteter Cloud-Service, präsentiert mit AWS IoT Core Device Location eine neue Funktion, die es Kunden ermöglicht, IoT-Geräte anhand ihrer Standortdaten (etwa Breiten- und Längengrad) zu überwachen und zu verwalten. Mit AWS IoT Core Device Location können Kunden Geschäftsprozesse optimieren, Wartungsarbeiten vereinfachen und automatisieren und neue Geschäftsanwendungsfälle erschließen.

Mit der neuen Device-Location-Funktion können Kunden die geeignete Ortungstechnologie wie das Cloud-unterstützte globale Satellitennavigationssystem (GNSS), WLAN und das Mobilfunknetz wählen, die ihren geschäftlichen und technischen Anforderungen entspricht, ohne auf die stromintensive GPS-Hardware angewiesen zu sein. Kunden in vielen Branchen können den Ortungsdienst nutzen: Logistik, Städte, Gesundheitswesen, Automobile, Fertigung usw. Das Feature erlaubt die Fernüberwachung von Geräten und Maschinen, ohne sie zu verändern. Der neue Service ist u. a. in der Region Frankfurt verfügbar.

AWS IoT TwinMaker

AWS IoT TwinMaker erleichtert die Erstellung digitaler Zwillinge von realen Systemen wie Gebäuden, Fabriken, industrieller Ausrüstung und Produktionslinien. Der Amazon-Athena-Datenkonnektor für AWS IoT TwinMaker ist jetzt für alle Kunden verfügbar. Amazon Athena ist ein interaktiver Abfrageservice, der die Analyse von Daten im Amazon Simple Storage Service (Amazon S3) mit Standard-SQL erleichtert. Mit dem Amazon Athena-Datenkonnektor können Kunden ihre tabellarischen Daten aus dem Amazon-Athena-Datenspeicher mit AWS IoT TwinMaker verbinden und ihren digitalen Zwillingen Kontext und diskrete Informationen hinzufügen.

Mit der Einführung von TwinMaker Knowledge Graph können Kunden nun ihre digitalen Zwillinge abfragen, Daten aus unterschiedlichen Datenquellen kontextualisieren und tiefere Einblicke in ihre realen Systeme gewinnen. Dadurch können Kunden bei der Durchführung von Funktionen wie der Ursachenanalyse Zeit sparen und fundiertere Geschäftsentscheidungen treffen.

Für AWS IoT Core und AWS IoT Core Device Advisor steht das MQTT-5-Protokoll zur Verfügung. „MQTT5 ist ein aktualisierter Standard für die Kommunikation von Gerät zu Gerät, der gegenüber der vorherigen MQTT-Version 3.1.1 erhebliche Funktionsverbesserungen bereithält“”, heißt es seitens AWS.

MQTT 5

MQTT 5 enthält neue Nachrichten-Header, die eine schnellere Verarbeitung von Nachrichten ermöglichen, ohne dass der Nachrichteninhalt dekodiert werden muss, gemeinsame Abonnements, die einen Lastausgleich für den Nachrichtenempfang ermöglichen, das Ablaufen von Nachrichten und Sitzungen, um bessere Timeouts zu ermöglichen, und Anforderungs-/Antwort-Themen, die es den Abonnenten von Nachrichten ermöglichen, dem Absender den Empfang einer Nachricht zu bestätigen.

(ID:48840480)