Freitag, 28. Februar 2025

Generative KITrainingsdaten in Form bringen

[28.08.2023] Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden. Je besser Daten aufbereitet sind, desto effizienter ist die Entwicklung und desto sicherer die spätere KI-Lösung.
Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.

(Bildquelle: 123rf.com/peshkova)

Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.

Sensible Daten aussieben

Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.

Entwicklungszeiten abkürzen

Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.





Anzeige

Weitere Meldungen und Beiträge aus dem Bereich: Panorama
Timo Neumann spricht auf einer Bühne, davor Menschen, die ihm zuhören.

ITDZ Berlin: IT-Nachwuchs automatisiert Prozesse

[28.02.2025] Junge Talente entwickelten beim Hackathon des ITDZ Berlin Lösungen zur Automatisierung von Verwaltungsprozessen. In fünf Teams entstanden Prototypen wie ein KI-Onboarding-Assistent oder ein Bot zur Termin- und Formularhilfe. Eine Neuauflage ist für 2026 geplant. mehr...

Cover der drei Projektberichts-Teile.

Beschaffungsamt: Dienstleistungen nachhaltig beschaffen

[26.02.2025] Die nachhaltige Beschaffung von Dienstleistungen sollte der Regelfall sein – ist in der Praxis jedoch oft sehr komplex. Die Kompetenzstelle für nachhaltige Beschaffung (KNB) beim Beschaffungsamt hat nun eine umfassende Hilfestellung für Beschaffende aller Ebenen veröffentlicht. mehr...

Digital für alle: Bundesweiter Digitaltag im Juni

[26.02.2025] Der Digitaltag findet in diesem Jahr bereits zum sechsten Mal statt. Am 27. Juni sollen im Rahmen des bundesweiten Events digitale Themen verständlich aufbereitet und die Digitalisierung erlebbar gemacht werden. Kommunen, die mit eigenen Angeboten teilnehmen wollen, können sich nun anmelden. mehr...

AKDB: Neuer Rekord für die Briefwahl

[25.02.2025] Die AKDB bewertet den technischen Ablauf der Bundestagswahl 2025 in Bayern positiv: Die Zahl der Briefwahlanträge erreichte ein hohes Niveau, bei der Verarbeitung bewährte sich die Plattform FRED. Auch die im Vorfeld abgehaltene landesweite Generalprobe zur Ergebnisübermittlung war erfolgreich. mehr...

Grafik zur Organisation einer Bundestagswahl. Dargestellt sind vier Sektoren: Wahlorgane, politische Parteien/Vereinigungen, Logistik und die Stimmabgabe vor Ort.

DStGB/CAIS: Umfrage zu Wahlen unter Zeitdruck

[24.02.2025] Die kurze Vorbereitungszeit zur Bundestagswahl 2025 wirkt sich auch auf die Wahlorganisation aus. Das Institut für Digitalisierungsforschung CAIS möchte mögliche Folgen wissenschaftlich untersuchen und lädt kommunale Wahlämter zur Teilnahme an einer kurzen Onlinebefragung ein. mehr...

OSBA: Beschaffung von Open Source Software

[17.02.2025] Bei öffentlichen Ausschreibungen zählt meist der niedrigste Preis. Im Fall von Open Source Software ist dies oftmals zum Schaden des Auftraggebers: Sicherheits- und Wartungsprobleme drohen, wenn Anbieter zu knapp kalkulieren. Die OSBA hat ein Paper zur nachhaltig erfolgreichen Beschaffung veröffentlicht. mehr...

Bayern: Effektiver digitaler Grundstücksverkehr

[14.02.2025] In Bayern werden notarielle Urkunden und Vermessungsdokumente ab sofort digital übermittelt. Das Besondere elektronische Behördenpostfach trägt so dazu bei, den Grundstücksverkehr zu beschleunigen. Es soll künftig auch in weiteren Kommunen und Verfahren eingesetzt werden. mehr...

Balkendiagramm zeigt die Nutzung von E-Government-Diensten in den Jahren 2019-2024. 2018 klag der wert bei 48%, seitem pendeln die Zahlen um 50-55 %.

Cisco Digital Kompass 2025: Bei der Digitalisierung zu langsam

[11.02.2025] Cisco hat eine neue Untersuchung zur Digitalisierung in Deutschland vorgelegt. Demnach gibt es Fortschritte beim Glasfaserausbau und Online-Banking, doch KI und Cybersicherheit bleiben Problemfelder. Besonders die digitale Verwaltung stagniert seit dem Aufwind durch Corona. mehr...

Sachsen-Anhalt: Ideen für digitale Verwaltung gesucht

[11.02.2025] Das Land Sachsen-Anhalt sucht erneut innovative Ideen für die digitale Verwaltung. Gefragt sind digitale Konzepte und Modelle für die vielfältigen Aufgaben der öffentlichen Verwaltung. Bewerbungen sind bis 14. März möglich. mehr...

Detailansicht des Hinterrads eines Fahrrads von schräg hinten.

Lübeck: Fundsachen werden online versteigert

[07.02.2025] Fundsachen, die nach Ablauf der gesetzlichen Aufbewahrungsfrist nicht abgeholt wurden, wird die Hansestadt Lübeck ab sofort online versteigern. mehr...

Eine größere Personengruppe mit vornehmlich dunkel gekleideten, jungen Menschen steht in Fotopose auf einer modernen Treppe.

Ulm: Digitaler Portier im Rathaus

[06.02.2025] Ein digitaler Portier soll künftig im Ulmer Rathaus als erste Anlaufstelle für Anliegen bei der Stadtverwaltung dienen – etwa für Termine oder Auskünfte. Entwickelt wurde das Tool von Fachleuten der städtischen Abteilung Interne Dienste und Studierenden der Technischen Hochschule Ulm. mehr...

Ein Mann tippt über seiner Laptoptastatur schwebende E-Mail-Icons an.
bericht

Leipzig: Erfolgsfaktor Kommunikation

[31.01.2025] Die Leipziger Stadtverwaltung hat ihr E-Mail-System von Lotus Notes auf Microsoft Exchange umgestellt und eine zentrale E-Mail-Archivierung eingeführt. Eine transparente Kommunikation hat das Gelingen des umfassenden Projekts gesichert. mehr...

Materna Virtual Solution: So verändert sich das mobile Arbeiten

[31.01.2025] Mit zunehmender technischer Entwicklung verlagert sich die Arbeit verstärkt auf mobile Geräte. Materna Virtual Solution identifiziert fünf Trends, die im Jahr 2025 maßgeblich das Arbeiten prägen werden – von KI und Datensouveränität bis hin zu Sicherheitslösungen und Mixed Reality. mehr...

Innenminister Michael Ebling (l.) und der Präsident der Universität Koblenz, Prof. Dr. Stefan Wehner, bei der Übergabe einer Urkunde.

Rheinland-Pfalz: Digitalisierung von Kulturerbe

[29.01.2025] Rheinland-Pfalz fördert die Digitalisierung des kulturellen Erbes: Mit rund 284.000 Euro unterstützt das Land das Projekt KuLaDig RLP bis 2026. Ziel ist es, Kommunen – insbesondere im ländlichen Raum – zu helfen, kulturelle Besonderheiten digital zu erfassen und multimedial aufzubereiten. mehr...

Panoramablick über Berlins Innenstadt, in der Mitte der Fernsehturm, im Hintergrund dramatische Wolken

Berlin: Start-ups und Verwaltung zusammenbringen

[27.01.2025] GovTech-Start-ups können die Digitalisierung der öffentlichen Verwaltung wirksam unterstützen. Die Berliner Senatswirtschaftsverwaltung will dieses Potenzial noch besser nutzen und hat jetzt einen Bericht vorgelegt, der zeigt, wie die Zusammenarbeit gelingt. mehr...