Samstag, 11. Januar 2025

Generative KITrainingsdaten in Form bringen

[28.08.2023] Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden. Je besser Daten aufbereitet sind, desto effizienter ist die Entwicklung und desto sicherer die spätere KI-Lösung.
Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.

(Bildquelle: 123rf.com/peshkova)

Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.

Sensible Daten aussieben

Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.

Entwicklungszeiten abkürzen

Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.





Weitere Meldungen und Beiträge aus dem Bereich: Panorama
Logo des Ko-Pionier-Preises auf dunkelblauem Grund

Ko-Pionier-Preis: Besser nachnutzen

[10.01.2025] Der Ko-Pionier-Preis will die Nachnutzung innovativer Verwaltungslösungen fördern. Verwaltungen, die Lösungen erfolgreich übernommen haben, können sich bis 14. Februar 2025 bewerben. Die Preisverleihung findet im März 2025 im Rahmen des Kongresses Digitaler Staat statt. mehr...

Screenshot, der die drei Webinarteilnehmer zeigt.
bericht

Kommune21 im Gespräch: Mammutprojekt RegMo

[08.01.2025] Im jüngsten Webinar aus der Reihe Kommune21 im Gespräch diskutierten Jasmin Deling, Ministerium für Wirtschaft, Industrie, Klimaschutz und Energie NRW, sowie Hartje Bruns von Governikus die aktuellen Entwicklungen im Bereich der Registermodernisierung. mehr...

Lübeck: Faxgeräte abgeschaltet

[08.01.2025] Die Hansestadt Lübeck hat zum Jahresende 2024 die analogen Faxgeräte abgeschaltet. Feuerwehr und der Bereich Wahlen bleiben weiterhin über Fax erreichbar. mehr...

Logo des Ko-Pionier-Preises auf dunkelblauem Hintergrund

Ko-Pionier-Preis: Verwaltungslösungen besser nachnutzen

[07.01.2025] Der neue Ko-Pionier-Preis würdigt Verwaltungen, die bewährte Lösungen erfolgreich übernehmen. Die Initiative Re:Form will damit Nachnutzung fördern und Verwaltungsabläufe effizienter gestalten. Die Preisvergabe erfolgt im März 2025 in Berlin. mehr...

Winterlandschaft Nordschweden

In eigener Sache: Wir machen Winterpause

[23.12.2024] Wir wünschen Ihnen ein frohes Weihnachtsfest, erholsame Feiertage und einen guten Start ins neue Jahr. Aktuelle Meldungen gibt es hier wieder ab dem 6. Januar 2025. mehr...

Marcus Witzke vom Fraunhofer FOKUS, Beauftragte Regina Vollbrecht und Bezirksbürgermeisterin Emine Demirbüken-Wegner beim Start der Indoor-Navigation everGuide im Bezirksamt Reinickendorf.

Berlin: Bezirksrathaus mit Indoor-Navi

[13.12.2024] Im Rathaus in Berlin-Reinickendorf erleichtert eine barrierefreie Indoor-Navigation die Orientierung. Die App everGuide vom Fraunhofer FOKUS ermöglicht Besucherinnen und Besuchern – ob blind oder sehend – eine präzise Navigation zu Räumen, Aufzügen und Ausgängen. mehr...

Screenshot aus dem Bayernportal

Regensburg: Bei der Digitalisierung weit vorne

[12.12.2024] Regensburg bietet inzwischen 327 digitale Verwaltungsleistungen an und erreicht Platz 2 im bayerischen Digitalranking. Bei den Bürgerinnen und Bürgern kommen die Services gut an, wie die Nutzerzahlen zeigen. mehr...

Illustration in hellen, freundlichen Farben: Blick in einen Kita-Raum aus Vogelperspektiv, auf dem Boden spielen Kinder und viel Spielzeug liegt herum.

Magdeburg: Kitas präsentieren sich neu im Netz

[09.12.2024] Magdeburger Eltern, die ihre Kinder bei einer kommunalen Kita anmelden möchten, finden die benötigten Informationen nun gebündelt und übersichtlich auf einer neu eingerichteten Website. mehr...

Das Bild zeigt den belebten Markplatz von Halle (Saale), im Hintergrund sind die fünf Türme der Händelstadt zu erkennen.

Halle (Saale): Gesundheitsamt wird digital

[06.12.2024] Das Modellprojekt Digitales Gesundheitsamt in Halle (Saale) wurde erfolgreich abgeschlossen. Ziel war es, den Fachbereich Gesundheit der Stadt mit digitalen Lösungen nutzerfreundlicher und effizienter zu gestalten. Die Einführung neuer Systeme legt zudem ein Fundament für künftige Innovationen. mehr...

Potsdam: Onlinedienst für Fundsachen

[03.12.2024] Verlorene oder gefundene Gegenstände können in Potsdam jetzt auch online gemeldet werden. Der neue Service erleichtert das Verfahren sowohl für Finderinnen und Finder als auch für Suchende. mehr...

Augsburger Altstadt aus der Vogelperspektive.

Augsburg: Digitaler Stadtplan zur Barrierefreiheit

[26.11.2024] Mit dem digitalen Stadtplan Augsburg barrierefrei hat die bayerische Kommune ein neues Projekt gestartet, das Menschen mit Behinderung detaillierte Informationen zur Barrierefreiheit von Orten und Gebäuden bietet. Alle Angaben wurden durch Begehungen vor Ort überprüft und digital erfasst. mehr...

Baustelle: Blick durch Zaundraht auf einen Pumpenkran zum Heben und Gießen von Beton, im Hintergrund ein Gebäude, das eine Schule sein könnte.

Leipzig: Baumaßnahmen-Dashboard ist online

[26.11.2024] Die Stadt Leipzig hat ein Online-Dashboard zur Schul- und Kitabaustrategie veröffentlicht. Es bietet aktuelle Einblicke in laufende und geplante Baumaßnahmen im Bildungsbereich, übersichtlich dargestellt auf einer Stadtkarte mit detaillierten Informationen zu jedem Projekt. mehr...

Oberbürgermeister Marcus König und Eugenia Strasser halten gemeinsam die Auszeichungsurkunde.

Nürnberg: E-Government-Beauftragte der Stadt ausgezeichnet

[19.11.2024] Nürnbergs E-Government-Beauftragte, Eugenia Strasser, ist mit dem WIN-Award der Vogel IT-Akademie ausgezeichnet worden. Sie belegt somit den zweiten Platz als Woman of the Year 2024. mehr...

Illustration: Klemmbrett mit einem Formular und einem Stift daneben vor hellblauem Hintergrund.

Köln: Bürgerfreundliche Bescheide ausgezeichnet

[18.11.2024] Das Public Service Lab hat die Stadt Köln für ihr Projekt Formularwerkstätten mit dem Preis für gute Verwaltung 2024 ausgezeichnet. Das Kölner Innovationsbüro hilft Fachämtern dabei, Formulare verständlicher zu gestalten und so den Zugang zu staatlichen Angeboten zu verbessern. mehr...

Illustration: Symbolbild für den Public Sector. Mehrere klein dargstellte Menschen arbeiten zwischen einem überdimensionalen Laptop, Tablet und anderen Gegenständen.

Bitkom: Neuer Geschäftsbereich „Public Sector“

[15.11.2024] Der Digitalverband Bitkom strukturiert sich neu: Die Geschäftsbereiche „Public Sector“ und „Digitale Gesellschaft“ werden eigenständige Kompetenzbereiche. Themen wie Künstliche Intelligenz und Digitale Souveränität rücken stärker in den Fokus. mehr...