Nuclia Intranet-Suche mit KI

Von lic.rer.publ. Ariane Rüdiger 4 min Lesedauer

Anbieter zum Thema

Die Suche in unternehmensinternen Beständen unstrukturierter Daten ist seit jeher schwierig. Das spanische Start-up Nuclia verwendet dazu eine neuartige Datenbank und einen KI-Service. So sollen die Produkte mit allen Arten von unstrukturierten Daten fertig werden.Rund 80 Prozent aller firmeninternen Daten sind unstrukturiert: Textfiles, PDFs, zunehmend Audios und Videos, Streams, Social Media – es gibt eine Unzahl von Quellen und Formaten. Das ist eine Herausforderung für Unternehmen.

Keine offenen Fragen mehr? Eine neue Softwarelösung soll die Suche in unternehmensinternen unstrukturierten Daten revolutionieren.
Keine offenen Fragen mehr? Eine neue Softwarelösung soll die Suche in unternehmensinternen unstrukturierten Daten revolutionieren.
(Bild: frei lizenziert / Pixabay)

Wer geschäftlich nutzbare Erkenntnisse gewinnen will, muss diesen heterogenen Datenpool speichern, indexieren und mit Metadaten ausrüsten, um ihn sinnvoll durchsuchen zu können. Zudem stößt die übliche Suche nach Stichworten bei diesen Datenbeständen an ihre Grenzen.

Neue Methode für die Suche in unstrukturierten Datenbeständen

„Wir wollen die unternehmensinterne Informationssuche in unstrukturierten Daten verbessern“, Eudald Camprubí, CEO und Gründer von Nuclia.
„Wir wollen die unternehmensinterne Informationssuche in unstrukturierten Daten verbessern“, Eudald Camprubí, CEO und Gründer von Nuclia.
(Bild: Nuclia)

„Die firmeninterne Suche in internen unstrukturierten Datenbeständen funktioniert traditionell nicht besonders gut“, weiß Eudald Camprubí, CEO und Gründer der Softwareschmiede Nuclia aus Barcelona. Zusammen mit einem langjährigen Freund, Ramon Navarra, den er an der Universität beim technologisch ausgerichteten Studium kennengelernt hatte, gründete er seine Firma. Navarro hat die Rolle des CTO inne.

Rund 20 Entwickler und Ingenieure beschäftigt die Gründung inzwischen. Ziel ist, die Recherche in Textinformationen aller Art zu revolutionieren. Den Venture-Capital-Firmen Crane und Elaia ist diese Idee immerhin 5,5 Millionen Euro Erstrundenfinanzierung wert. Nuclia verkauft sein Produkt als Ende-zu-Ende-Low-Code-API, das alle Arten von textbasierten Daten versteht, indexiert und suchbar macht.

Semantische Sprachmodelle als Basis

Kern der Lösung ist die Nutzung semantischer Sprachmodelle zur Indexierung und zum Verständnis sprachlicher Informationen. Sie wird kombiniert mit KI-gestützter Suche in den Datenbeständen als Cloud-Service (AI-SaaS) und einem Suchfenster, das sich in jede Applikation integrieren lässt.

Auf der Dateneingabeseite befinden sich der Nuclia-Desktop, ein Softwareentwicklungs-Kit und eine REST-Schnittstelle. Sind die Daten eingelesen, müssen sie zuerst die Datenextraktion passieren. Die Textdaten werden mittels der semantischen Sprachmodelle sprachunabhängig gewonnen. „Nur Sprachen, die mit grafischen Zeichen schreiben, wie Chinesisch oder Japanisch sowie Piktogramme, können wir noch nicht so gut“, sagt Navarra, „aber wir stehen auch erst am Anfang der Entwicklung.“

Jede Art von Textdaten lässt sich erfassen

Texte, auch solche in Video- oder Audiofiles, in Datenstreams oder anderen Formaten, werden ausgelesen und verschriftlicht. Links und beliebige andere, vorher festgelegte Inhalte, erkennt das System und extrahiert sie ebenfalls. Alle möglichen Inhalte, etwa Personennamen, Ortsnamen, KFZ-Kennzeichen, Messwerte oder Ähnliches, lassen sich als sogenannte Insights definieren. Diese werden separat extrahiert und sind suchbar.

Im anschließenden Schritt, dem Textverstehen, werden die Texte vektorisiert (also in Zahlenwerte verwandelt), als Vektor in der Nuclia-Datenbank gespeichert und aufsummiert. Namen und andere Indikatoren (Insights) werden zudem extrahiert..

Texte in Videos bildgenau anfahren

Die Architektur von Nuclias Ende-zu-Ende-Lösung für die Erschließung unternehmensinterner unstrukturierter Datenbestände.
Die Architektur von Nuclias Ende-zu-Ende-Lösung für die Erschließung unternehmensinterner unstrukturierter Datenbestände.
(Bild: Nuclia)

Texte, egal, woher sie stammen, werden in Absätze geteilt. Bei audiovisuellen Medien sind die Absätze mit der Laufzeit des Mediums verbunden, sodass man sie bild- oder tongenau aufsuchen kann. Anschließend werden die Daten klassifiziert. Klickt man beispielsweise einen Paragraphen eines erfassten Videos an, fährt das Medium exakt an die Stelle, an der der betreffende Text gesprochen wird.

Anschließend wird die jeweils kundenspezifische NucliaDB gefüllt. Sie enthält die Beziehungen der Daten untereinander, die auf dem Wege der Vektorverarbeitung darstellbar werden. Dazu kommen die semantischen Strukturen, die mit den Sprachmodellen gewonnen werden, die Paragraphen und Dokumente. Diese Daten können in den Clouds der Hyperscaler oder in einer Nuclia-Cloud gespeichert werden.

Auf der Such-Seite befinden sich ebenfalls eine offene Schnittstelle. Auch hier liefert Nuclia ein Softwareentwicklungskit, eine entsprechende Benutzerschnittstelle und ein REST-Interface. Mit Low-Code-Programmierung lässt sich ein Such-Widget in jede Applikation eines Kundenunternehmens einbauen. Von dort kann man dann auf die gesamte NucliaDB zugreifen und sie AI-gestützt durchsuchen. Dazu kommt noch ein Modul zur Verarbeitung natürlicher Sprache (NLP), ebenfalls mit einer REST-Schnittstelle.

Insights selbst bauen

Neben den von Nuclia mitgelieferten Insights lassen sich auch firmenspezifische definieren. Das geschieht mittels weniger Schritte. Im Prinzip wird neue die Kategorie mit einem Namen versehen, z. B. Produktname oder Seriennummer.

Anschließend werden konkrete Werte, die zu der neuen Kategorie passen, in rund 50 Dokumenten markiert und ihr zugewiesen. Dank seiner KI-Fähigkeiten reicht das bei dem System aus, um die jeweilige Kategorie in weiteren Dokumenten selbstständig zu erkennen und zu kategorisieren.

Suchen lassen sich in Form beliebiger Fragen formulieren – auch fremdsprachig. Der Service findet daraufhin alle eingelesenen Dokumente in allen Formaten und Sprachen, in denen entsprechende Daten auftauchen und markiert die gesuchten Antworten. Die sprachübergreifende Suche funktioniert wegen der Kombination von Vektoren und semantischen Sprachmodellen in der NucliaDB.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Lernen durch Einlesen

Um die verwendete KI zu trainieren, müssen Unternehmen ihre Datenbestände einlesen. Dazu können sie bei Nuclia Rechenleistung aus der Google Cloud anmieten. Wie viel Rechenleistung nötig ist, ist einer der Faktoren, die über den Preis des neuen Angebots entscheiden werden. „Unser endgültiges Preismodell ist noch in Arbeit“, sagt CEO Camprubí. Einen Einstieg ermöglicht derzeit eine Version für maximal zehn Gigabyte Daten. Sie kostet 5.000 Euro pro Jahr.

Die Menge der Rechenleistung entscheidet auch darüber, wie lange das Einlesen, Indexieren und Klassifizieren der einzelnen Dokumente dauert.

Die heute etwa 20 Kunden von Nuclia sind Universitäten, multinationale Unternehmen, Kundenserviceunternehmen, Pharmafirmen und andere Unternehmen, die strengen Datenschutzbestimmungen unterliegen. Die Umsätze 2022 betrugen rund 100.000 US-Dollar, doch für 2023 stehen schon Verträge im Wert von knapp einer halben Million US-Dollar in den Büchern – das sind immerhin 500 Prozent mehr.

Zu den nächsten technischen Entwicklungsschritten gehört die Verbesserung der Lösung in Bezug auf das Verständnis von Sprachen, die Bildzeichen verwenden, und von Piktogrammen.

Artikelfiles und Artikellinks

(ID:49033680)