Datenanalyse

Andreas Mühlbauer,

Datenqualität beeinflusst KI-Projekte

Der industrielle Einsatz künstlicher Intelligenz kommt in Deutschland langsam voran. Damit die Technologie ihren vollen Nutzen entfalten kann, ist die Datenqualität entscheidend.

© Unsplash

Im Rahmen einer Befragung des Branchenverbands Bitkom gaben rund 10 % der Unternehmen in Deutschland an, inzwischen KI-Technologie einzusetzen.

KI kann in ganz unterschiedlichen Bereichen wie der Qualitätskontrolle in der Produktion, bei der vorausschauenden Instandhaltung oder bei der Produktionsprozessoptimierung für Entlastung und straffere Prozesse sorgen. Von ihrem Einsatz versprechen sich zudem viele Unternehmen, Expertenwissen zu gewinnen, das ohne KI-gestützte Analysen und Prognosen nicht vorhanden wäre. Die Erwartungen an „Predictive Analytics“ sind sehr hoch. Häufig stellt sich aber Ernüchterung ein, wenn diese Erwartungen enttäuscht werden und sich kein zusätzlicher Erkenntnisgewinn einstellt.

Die Basis für jedes KI-Projekt liegt in der Auswahl eines oder mehrerer passender KI-Modelle. Schon in einer so frühen Phase stellen sich die Weichen für den Erfolg eines Projekts. Denn nicht jedes Modell bringt mit den gleichen Eingaben dieselben Ergebnisse. Das gewählte KI-Modell, die Konfiguration sowie die Menge und Verteilung der Trainingsdaten nehmen Einfluss auf die Ergebnisse. Auch die Zahl der Trainingsläufe spielt eine Rolle – eine weitere wichtige Größe, denn auch die Datenqualität beeinflusst den Ausgang eines KI-Projekts.

Anzeige

Die Datenqualität ist entscheidend

Um zu überzeugenden Ergebnissen beim Einsatz künstlicher Intelligenz zu kommen, muss die Datenqualität bereits beim Zusammenführen der Daten, dem ETL-Prozess (Extract, Transform, Load), betrachtet werden. Die Qualität der Daten lässt sich messen. Die Informatik kennt hier einige Parameter:

Vollständigkeit: Daten gelten dann als vollständig, wenn in einem ETL-Prozess Inhalte und Daten vollständig übernommen worden sind.

Korrektheit: Hier gilt die Faustregel, dass ein Datensatz dann korrekt ist, wenn er mit der Realität übereinstimmt.

Konsistenz: Datensätze dürfen keine logischen Widersprüche untereinander oder zu anderen Datensätzen innerhalb einer Datenquelle aufweisen.

Eindeutigkeit: Ein Datensatz ist dann eindeutig, wenn die beschriebenen Objekte nur einmal dargestellt werden.

Konformität: Die Daten müssen dem definierten Format entsprechen.

Gültigkeit: Die Daten entsprechen den definierten Wertebereichen.

Eine hohe Datenqualität ist insofern beim Einsatz von KI wichtig, als die Technologie noch eine weitere Störgröße kennt, die auch als „Bias“ bezeichnet wird. KI ist von Menschen gemacht, weswegen sie auch nicht wertfrei agieren kann. Vorurteile der Entwicklungsteams fließen in die Programmierung ein, egal ob beabsichtigt oder unbeabsichtigt. Trifft der Bias auf geringe Datenqualität in einem auch noch falsch gewählten Modell, muss die KI zwangsläufig hinter ihren eigenen Möglichkeiten zurückbleiben. Die Bedeutung der Datenqualität lässt sich anhand eines einfachen Beispiels fassen. KI unterscheidet sich in dieser Hinsicht nicht von einer Bildbearbeitung. Diese kann aus einem schlechten Foto eben kein Meisterwerk machen.

Daraus ergibt sich, dass KI-Systeme nur dann korrekte (und vorurteilsfreie) Ergebnisse liefern können, wenn Daten in einem bereinigten und geeigneten Format vorliegen. Neben der Auswahl des geeigneten KI-Modells ist also die Messung der Datenqualität gleich zu Beginn eines KI-Projekts entscheidend. Die Ergebnisse aus der Bestimmung der Qualität gehen dann in eine Analyse ein, aus der hervorgeht, ob weitere Daten zu erheben sind oder noch Lücken vorhanden sind.

Um die besten Ergebnisse zu erzielen, werden im Rahmen von KI-Projekten und Datenanalysen in der Regel die Daten unterschiedlicher Quellen herangezogen. Doch in vielen Organisationen schlummern wichtige Informationen und Daten immer noch in mehr oder weniger großen Datensilos. Ein solches Silo kann bereits die vom Vertrieb in Eigenregie angelegte Datenbank der Kundinnen und Kunden sein, deren Daten anderen Abteilungen vorenthalten wird. In Datenanalysen ist es indes wichtig, dass Daten ungehindert fließen können. Das ist allerdings kein ausschließlich technischer Prozess. Denn Datensilos sind oftmals schlicht das Ergebnis von Silo-Denken, das auch die Datenqualität beeinflusst.

Die Vorteile von KI bewusst machen

Die benötigten Daten gehören oft einem Fachbereich, der auch die Datenqualität verantwortet. Hier ist im Zweifel auch das Wissen vorhanden, welche Informationen noch zu ergänzen wären, oder wo sich diese beschaffen lassen. Nur wird dort dann der Einfluss auf den Erfolg eines Analyseprojekts nicht verstanden. Das liegt häufig daran, dass die beteiligten Personen aus dem Fachbereich nicht die Vorteile erkennen, die sich aus dem Projekt für die eigene Arbeit ergeben. So fehlt dann die Motivation, die Datenqualität zu steigern und Maßnahmen zur Verbesserung der Datenqualität werden eher als lästige Zusatzaufgabe gesehen. Datenanalysen und KI-Projekte sind auch Change-Projekte, in deren Rahmen die Fachbereiche als Data Owner davon zu überzeugen sind, dass ihnen eine bessere Datenqualität Vorteile bringt, also ein echter Mehrwert zu erzielen ist.

Im Rahmen eines solchen Change-Projekts muss erreicht werden, dass die Stakeholder aus den Fachbereichen, Datenanalytiker und Dateningenieure ein gemeinsames Verständnis gewinnen, um als „Data Product“-Team zu agieren. Im Fokus sollten bei der Verbesserung der Datenqualität die Wünsche und die Anforderungen des Fachbereichs stehen, denn diese müssen später auch mit den Informationen arbeiten. KI-Projekte und Datenanalysen sind Team-Projekte und haben entsprechend auch mit der Unternehmenskultur zu tun. Wer überlegt, künstliche Intelligenz einzusetzen, sollte daher zuerst die internen Voraussetzungen schaffen.

Elena Fomenko, Senior Consultant, AI- and Data-Driven product development, Detecon

Anzeige

Das könnte Sie auch interessieren

Anzeige

Messe

LogiMat 2023

Die sich ständig verändernden Märkte erfordern eine flexible und innovative Logistik. Prozesse müssen kontinuierlich überwacht und optimiert werden. Dies erfordert Produkte und Lösungen, mit denen sich die innerbetrieblichen Prozesse optimieren...

mehr...
Anzeige
Anzeige

Contact Software

Elektrisch angetriebener Eyecatcher

Auf der Hannover Messe 2023 macht Contact Software den Nutzen der Digitalisierung mit seiner Low-Code-Plattform Elements konkret erfahrbar: durch einen elektrischen Formel-Rennwagen, seinen Digitalen Zwilling und eine Rennstrecken-Simulation.

mehr...
Anzeige
Anzeige
Anzeige
Anzeige