Open Source Tool Daten flexibel transformieren und bereinigen mit OpenRefine

Von Thomas Joos

Anbieter zum Thema

Das kostenlose Java-Tool OpenRefine kann Daten aus verschiedenen Quellen importieren und auch direkt mit Datenbanken kommunizieren. Das Tool kann darüber hinaus die importierten Daten bereinigen, transformieren, gliedern und für andere Lösungen bereitstellen.

Daten aus verschiedenen Datenquellen bearbeiten, sichten und erforschen – all das leistet OpenRefine.
Daten aus verschiedenen Datenquellen bearbeiten, sichten und erforschen – all das leistet OpenRefine.
(Bild: / CC0)

OpenRefine ist ein Open Source Tool, dessen Aufgabe darin besteht, Daten aus verschiedenen Datenquellen zu bearbeiten, aber auch zu sichten oder zu erforschen, um zu planen, ob eine Bereinigung oder eine Transformation notwendig ist. Auch zum Zusammenführen von Daten aus verschiedenen Quellen oder für das Bereichern und Erweitern von Daten kann OpenRefine zum Einsatz kommen, genauso wie zur Validierung oder zur Deduplizierung.

Auf Anforderung kann das Tool auch Daten aus einer Datenquelle mit einer anderen abgleichen. Es gibt viele Möglichkeiten, die sich mit dem Tool wirklich unproblematisch auf dem lokalen Rechner durchführen lassen, auch auf Rechnern mit Windows 10 und Windows 11. Hier kann OpenRefine auch ohne Installation zum Einsatz kommen.

Bildergalerie
Bildergalerie mit 7 Bildern

Das sind die Vorteile von OpenRefine

Die Stärke des Tools besteht darin, dass es riesige Datenmengen genauso schnell und einfach transformieren und bearbeiten lässt, wie kleinere Datensammlungen. Es gibt nahezu keine Grenze an Datenmengen, die sich mit OpenRefine analysieren lassen. Wichtig ist, dass das Tool auf dem Computer über genügend RAM verfügt. Es sind mindestens ein Gigabyte Datenspeicher für OpenRefine notwendig.

Auch hybride Szenarien mit vielen Datenquellen können mit dem Tool bearbeitet werden. Dabei kann OpenRefine strukturierte Informationen ebenso wie unstrukturierte Daten verarbeiten. Auch heterogene oder inkonsistente Daten lassen sich mit OpenRefine bearbeiten und transformieren.

Bezüglich des Datenschutzes ist OpenRefine ebenfalls ein geeignetes Tool. Das Analysewerkzeug verarbeitet ebenfalls personenbezogene Daten, die unter die DSGVO fallen und stellt dabei sicher, dass niemand an die Daten kommt, während das Tool diese bearbeitet. Die Verarbeitung findet komplett intern statt und auf dem lokalen Computer. Die Verwaltung erfolgt über eine Weboberfläche, es findet aber keinerlei Datenübertragung in die Cloud statt.

Für Linux, Windows und MacOS

Mit OpenRefine lassen sich so gut wie alle Datenbanken anbinden, wenn die verwendete Datenbank-Engine unterstützt wird, doch dazu später mehr. Um die Daten in das Tool zu importieren und zu transformieren, müssen diese entweder manuell eingelesen werden oder über eine Verbindung zu einer Datenbank. Daten aus Dateien sind ebenfalls mit OpenRefine problemlos nutzbar, auch Informationen aus der Zwischenablage. So lassen sich zum Beispiel auch Dateien auf Basis von TSV, CSV, *SV, Excel (.xls und .xlsx), JSON, XML, RDF, XML, und Google Data mit OpenRefine nutzen. Auch bei der Installation ist OpenRefine flexibel. Neben der Installation auf Linux, kann das Open Source Tool mit MacOS oder Windows genutzt werden. Hier ist keine Installation notwendig, sondern die ausführbare Datei lässt sich direkt starten, wenn die Java-integrierte Version zum Einsatz kommt.

OpenRefine in der Praxis

Für den Betrieb von OpenRefine sind die Java Runtime Environment (JRE) und das Java Development Kit (JDK) notwendig. Der Download erfolgt am besten auf der Seite Adoptium.net. Es ist aber auch möglich, OpenRefine auf Windows-Rechnern ohne die Installation von Java zu starten. In diesem Fall laden Sie die Version herunter, in der bereits Java installiert ist.

Der Betrieb von OpenRefine ist relativ einfach. Nach dem Installieren von Java und dem Extrahieren der ZIP-Datei erfolgt der Start am besten mit der Ausführung von „refine.bat“ am Beispiel von Windows. Startet OpenRefine nicht, fügen Sie am Ende der Batch-Datei ein „pause“ hinzu. Dann sehen Sie im Fenster eventuelle Fehler, die den Start verhindern. Alternativ ist der Start auch mit der ausführbaren Datei „openrefine.exe“ möglich, wenn Sie die Version verwenden, in der Java bereits integriert ist.

Die Weboberfläche erreichen Sie über die Adresse http://127.0.0.1:3333 über den lokalen Computer. Generell ist der Einsatz auch nur über die lokale Adresse empfehlenswert, um Sicherheit und Datenschutz zu gewährleisten. OpenRefine bietet keinerlei Authentifizierungsmechanismus an, sondern dient lediglich der Verarbeitung von Daten.

Nach der Installation oder dem Start des Tools steht die Oberfläche zur Verarbeitung der Daten über ein Webinterface zur Verfügung. Hier können mit „Durchsuchen“ schnell und einfach neue Dateien importiert werden. Danach zeigt das Tool in der Weboberfläche auch eine Vorschau der Daten an. Es ist in der Weboberfläche auch möglich, zu filtern und durch die Daten zu browsen. Auf der linken Seite sind die einzelnen Daten zu sehen. Diese sind mit Links versehen. Dadurch können Anwender die Informationen auch öffnen und nach bestimmten Werten und Spalten sortieren. Ein Video zu den umfangreichen Funktionen von OpenRefine ist auf YouTube zu finden:

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Sobald die Daten im Tool eingelesen sind, können sich Anwender an die Bereinigung machen. Dabei funktioniert OpenRefine wie eine Tabellenkalkulation. Dadurch können auch ungeübte Anwender schnell die importierten Daten bereinigen, mit Mitteln aus Tabellenkalkulationen, aber sehr viel schneller und auch bei sehr großen Datenmengen. Dazu kommt, dass OpenRefine alle durchgeführten Aktionen in Echtzeit aktualisiert und in der Tabelle anzeigt. Dadurch sehen Anwender sofort die Auswirkungen ihrer Änderungen.

Nach dem Start der Weboberfläche, kann mit „Create Project“ ein neues Verarbeitungsprojekt erstellt werden. Hier lassen sich auch Daten von Datenbanken importieren, wenn die Daten nicht direkt als einzelne Datei vorliegen. Über „New Connection“ ist es danach möglich aus den verschiedenen Datenbanken den richtigen Typ auszuwählen. Danach sind nur noch die Verbindungsdaten zur Datenbank notwendig. Auf diesem Weg lassen sich zum Beispiel auch Datenbanken von MySQL, PostgreSQL, MariaDB oder SQLlite einlesen. Über „Create Project“ lassen sich außerdem Daten von URLs einlesen oder aus der Zwischenablage. Ebenfalls möglich ist mit „Google Data“ das Einlesen von Daten aus veröffentlichten Google-Tabellen über deren URL.

Artikelfiles und Artikellinks

(ID:48585003)