Skip to content

Datenarten

Datenarten beschreiben die Kategorisierung von Informationen nach ihrem Grad an Formatierung und Ordnung. In der Informationstechnik wird primär zwischen strukturierten, unstrukturierten und halbstrukturierten Daten unterschieden. Diese Einteilung bestimmt maßgeblich die Wahl der Speicherarchitektur – etwa zwischen einem Data Warehouse und einem Data Lake – sowie die Methoden zur Datenverarbeitung und Analyse.

Lernziele

Nach diesem Artikel können die verschiedenen Datenarten fachlich eingeordnet werden:

  • Unterschiede zwischen strukturierten, unstrukturierten und halbstrukturierten Daten benennen.
  • Typische Anwendungsfälle und Speicherorte für die jeweiligen Formate zuordnen.
  • Die Bedeutung halbstrukturierter Formate wie JSON und XML im Datenaustausch erklären.
  • Den Stellenwert unstrukturierter Daten für maschinelles Lernen und KI erfassen.

Einführung

In der Informationstechnik fokussiert sich die Unterscheidung von Datenarten auf die technische Repräsentation und den Grad der Ordnung. Während die Statistik Daten primär nach ihrem Informationsgehalt (Skalenniveaus) klassifiziert, betrachtet die IT-Architektur die Strukturierung, um die Verarbeitbarkeit durch Algorithmen und die Effizienz der Speicherung zu optimieren.

Strukturierte Daten

Strukturierte Daten folgen einem festen, vordefinierten Datenmodell (Schema). Sie sind hochgradig organisiert und lassen sich meist tabellarisch in Zeilen und Spalten abbilden.

  • Eigenschaften: Jedes Datenfeld besitzt einen eindeutigen Datentyp (z. B. Ganzzahl, Zeichenkette, Datum). Es gilt das Prinzip Schema-on-Write: Die Struktur muss bereits vor dem Speichervorgang definiert sein.
  • Verarbeitung: Der Zugriff erfolgt effizient über standardisierte Abfragesprachen wie SQL.
  • Speicherung: Klassischerweise werden diese Daten in relationalen Datenbanksystemen (RDBMS) oder einem Data Warehouse verwaltet.
  • Beispiele: Buchhaltungsdaten, Lagerbestandslisten, Transaktionsdaten im E-Commerce.

Unstrukturierte Daten

Unstrukturierte Daten besitzen kein vordefiniertes Datenmodell und keine interne Struktur, die für Maschinen ohne Vorverarbeitung interpretierbar ist. In modernen Unternehmen machen sie oft rund 80 % der generierten Datenmenge aus.

  • Eigenschaften: Sie liegen in heterogenen Formaten vor und haben häufig einen qualitativen Charakter.
  • Herausforderung: Da sie kein festes Schema besitzen, lassen sie sich nicht direkt mit tabellarischen Abfragen analysieren. Zur Auswertung sind Verfahren der Künstlichen Intelligenz oder Natural Language Processing (NLP) notwendig.
  • Speicherung: Aufgrund des hohen Volumens und der fehlenden Struktur erfolgt die Speicherung häufig in einem Data Lake.
  • Beispiele: E-Mails, Videodateien, PDF-Dokumente, Social-Media-Beiträge.

Halbstrukturierte Daten

Halbstrukturierte Daten (auch semistrukturierte Daten genannt) bilden eine Brücke zwischen den beiden anderen Typen. Sie nutzen Marker, Tags oder Metadaten zur Organisation, ohne an ein starres Tabellenschema gebunden zu sein.

  • Eigenschaften: Diese Daten gelten als „selbstbeschreibend“, da die Informationen über die Struktur (z. B. Schlüssel-Wert-Paare) direkt in der Datei enthalten sind.
  • Flexibilität: Das Schema kann dynamisch angepasst werden, ohne die gesamte Datenbankstruktur ändern zu müssen.
  • Einsatzbereich: Sie sind der Standard für den Datenaustausch zwischen Systemen und für moderne Web-Schnittstellen (APIs).
  • Beispiele:
    • JSON: Standardformat in Webanwendungen und NoSQL-Datenbanken.
    • XML: Klassisches Format für den plattformübergreifenden Austausch komplexer Dokumentstrukturen.
    • CSV: Einfache Listenform, die zwar strukturiert wirkt, aber oft flexibel ohne festes Schema gehandhabt wird.

Kernpunkt: Strukturierte Daten erfordern ein festes Schema vor der Speicherung (Schema-on-Write). Unstrukturierte Daten werden oft in Rohform gespeichert und erst bei der Auswertung interpretiert (Schema-on-Read).

Vergleich der Datenarten

Die folgende Gegenüberstellung verdeutlicht die technischen Unterschiede:

MerkmalStrukturierte DatenHalbstrukturierte DatenUnstrukturierte Daten
SchemaStarr (Schema-on-Write)Flexibel / SelbstbeschreibendKein festes Schema
FormatTabellen (Zeilen/Spalten)Hierarchien (Tags/Keys)Vielfältig (Audio, Text, Media)
AbfrageSQLJSON-Path, XPathKI, Volltextsuche, NLP
SpeicherData WarehouseNoSQL, Cloud StorageData Lake
Anteilca. 20 %Wachsendca. 80 %

Praxisrelevanz: Die 80/20-Regel

In Unternehmen bilden strukturierte Daten oft das operative Rückgrat (z. B. ERP-Systeme). Den größten Wissensschatz stellen jedoch unstrukturierte Daten dar (z. B. Kundenfeedback, Marktberichte). Ziel moderner IT-Strategien ist es, beide Welten zu integrieren, um umfassende Analysen zu ermöglichen.

Häufige Fehler und Tipps

  • Verwechslung mit Statistik: Technische Datenarten (Strukturgrad) dürfen nicht mit statistischen Skalenniveaus (Inhaltstyp wie nominal oder metrisch) gleichgesetzt werden. Erstere entscheiden über die Speicherung, Letztere über die mathematische Auswertung.
  • Unterschätzung unstrukturierter Daten: Nur weil Daten schwerer zu verarbeiten sind, sind sie nicht weniger wertvoll. Sie enthalten oft die entscheidenden Kontextinformationen für strategische Planungen.

Tipps zur Formatwahl

Für den Datenaustausch zwischen Systemen bieten halbstrukturierte Formate wie JSON die beste Balance zwischen Kompatibilität und Flexibilität.

Selbsttest

  1. In welchem Systemtyp werden strukturierte Daten bevorzugt gespeichert?
  2. Warum werden XML- oder JSON-Dateien als „selbstbeschreibend“ bezeichnet?
  3. Welches Verhältnis zwischen strukturierten und unstrukturierten Daten ist in Unternehmen typisch?
  4. Warum ist für die automatisierte Auswertung von Videodaten KI-Unterstützung notwendig?
  5. Welche zwei gängigen Formate eignen sich für den Austausch halbstrukturierter Daten?