Es gibt eine Diskrepanz zwischen der theoretisch verfügbaren Menge an Daten und jener, die sich tatsächlich nutzen lässt. Synthetische Daten können nicht nur helfen, diese Lücke zu schließen, sondern bieten auch weitere Vorteile.
Synthetische Daten verfügen über dieselben Eigenschaften wie reale Daten, sie werden aber künstlich erzeugt – mit Hilfe von Computersimulationen, durch Algorithmen oder mittels statistischer Modellierungen. Schon seit den 2000er-Jahren werden solche Daten breiter verwendet und helfen unter anderem dabei, die künstliche Intelligenz in besonders komplexen Anwendungsfällen wie zum Beispiel beim autonomen Fahren zu trainieren. Auch für den Handel ergeben sich dadurch neue Möglichkeiten.
Synthetische Daten haben gegenüber realen Daten deutliche Vorteile: Sie sind in beliebig großen Mengen zu erzeugen, sie sind konsistent, und sie sind funktional identisch. Zudem sind sie schneller, einfacher und damit auch kostengünstiger zu erstellen oder zu bekommen. Sie müssen, anders als ihre realen Geschwister, auch nicht gepflegt oder auf dem neusten Stand gehalten werden. Synthetische Daten verletzen zudem keine Rechte auf den Schutz persönlicher Daten oder geistigen Eigentums. Zu beachten ist hier allerdings, dass die Algorithmen für die Synthese künstlicher zuvor mit realen Daten trainiert werden müssen. Das setzt voraus, dass die Real-Daten zuvor genau für diesen Zweck freigegeben wurden.
Anwendungsfelder für künstliche Daten
Der Einsatz von synthetischen Daten ist in vielen Bereichen denkbar. Die häufig im Marketing genutzten Personas sind ein Prototyp für personenbezogene Daten, denn hier werden Merkmale realer Kund:innen oder Nutzer:innen in künstlichen Charakteren verdichtet. Synthetische Daten könnten hier dafür sorgen, dass Marktforschung und -analyse vereinfacht, Medizinprodukte oder Behandlungen weiterentwickelt oder Finanzprodukte auf ihre Akzeptanz getestet werden. Das gesamte Feld der Predictive Analytics beruht zudem auf personenbezogenen Daten – und wird von synthetisch erzeugten Daten mit am meisten profitieren.
Darüber hinaus gibt es weitere sinnvolle Einsatzmöglichkeiten. So gibt es bereits mit GPT-3 von OpenAI oder dem „Language Model for Dialog Applications“ (LaMDA) von Google AI KI-Sprachmodelle, die eigenständig Texte verfassen können – auf Basis vieler Gigabyte realer Daten aus dem Internet. Das ebenfalls von OpenAI entwickelte DALL-E oder die Anwendung Stable Diffusion erzeugen ebenfalls über Texteingaben künstliche Abbildungen und Fotos.
Synthetische Daten laufen echten den Rang ab
Die Analysten von Gartner schätzen, dass synthetischen Daten die Zukunft gehören: Schon 2024 werden demnach 60 Prozent der für die Entwicklung von KI- und Analyseprojekten verwendeten Daten synthetisch erzeugt worden sein. Und bis 2030, sagt Gartner voraus, werden künstliche den realen Daten in KI-Modellen völlig den Rang abgelaufen haben. Das auf künstliche Intelligenz und Machine Learning spezialisierte US-Analystenhaus Cognilytica taxierte den Markt für die Erzeugung synthetischer Daten bereits 2021 auf rund 110 Millionen USDollar.
Bis 2027 soll der Markt demnach eine Größe von 1,15 Milliarden Dollar erreichen. Einen Teil des Geldes werden Start-ups abschöpfen, die als Daten-Synthetisierer oder gleich als Daten-Provider fungieren. Namen wie Datagen, Gretel.ai, MostlyAI oder Synthesis AI machen die Runde, weil sie Finanzierungen in zweistelliger Millionenhöhe für die Entwicklungen in diesem Marktsegment erhalten haben.
Die Formel ist das A und O
Trotz der genannten Vorteile sind synthetische Daten nicht unumstritten: Ihre Qualität hängt davon ab, wie sie in Modellen, Digital Twins und Algorithmen beschrieben werden. Kurz gesagt: Ist die Formel mangelhaft, sind es die Daten auch. Zudem könnte es zu Akzeptanzproblemen bei Anwender:innen und Konsument:innen kommen, wenn sie um die Künstlichkeit der Daten wissen, mit denen ihnen zum Beispiel Produktempfehlungen gegeben werden.
Dennoch werden die Fortschritte bei der Entwicklung künstlicher Intelligenz, die Fähigkeiten moderner Datenverarbeitung, die konstant hohen Anforderungen an den Schutz personenbezogener und der große Mangel an wirklich nützlichen Daten für einen deutlichen Schub bei der Entwicklung und Verbreitung synthetischer Daten sorgen. Damit wird sich auch der Datenmarkt verändern – mit vielen neuen Unternehmen und Geschäftsmodellen.
Digital Commerce Trends 2023
Dieser Text stammt aus dem diconium-Report „Digital Commerce Trends 2023“. Dort finden Sie acht weitere interessante Texte aus den Themenfeldern Digital Commerce, Sustainability und Data. Der Report steht hier zum kostenlosen Download zur Verfügung.