Das Kefk Network Wiki befindet sich im Testbetrieb.


Datenstrom

Aus Kefk.

Wechseln zu: Navigation, Suche

Mit Datenströmen (englisch: data streams) bezeichnet man in der Informatik kontinuierliche Abfolgen von Datensätzen, deren Ende nicht im Voraus abzusehen ist. Die einzelnen Datensätze sind dabei von beliebigem, aber festem Typ. Die Menge der Datensätze pro Zeiteinheit (Datenrate) kann variieren und so groß sein, dass nur begrenzte Ressourcen zur Weiterverarbeitung zur Verfügung stehen. Im Gegensatz zu anderen Datenquellen können Datenströme daher nicht als ganzes, sondern nur fortlaufend verarbeitet werden. Insbesondere ist im Gegensatz zu Datenstrukturen mit wahlfreiem Zugriff (wie z. B. Arrays) nur ein sequentieller Zugriff auf die einzelnen Datensätze möglich.

Datenströme werden häufig zur Interprozesskommunikation verwendet, sowohl zur Übertragung von Daten über Netzwerke als auch zur Kommunikation zwischen Prozessen auf einen Rechner. Beispiele für Datenströme sind Wetterdaten sowie Audio- und Videoströme (Streaming Media). Die kontinuierliche Übertragung von Daten über ein Netzwerk wird auch als Streaming bezeichnet.

Inhaltsverzeichnis

Datenströme vs. statische Daten

Nicht strömende, das heißt statische Daten werden in der Regel als Tupel von Werten in Relationen in einer Datenbank gespeichert. Sie sind ungeordnet und begrenzt. Die Daten in Datenströmen besitzen dagegen eine geordnete zeitliche Reihenfolge und können praktisch unbegrenzt auftreten. Während Daten in Relationen auch gezielt aktualisiert und gelöscht werden können, ist in Datenströmen nur das Einfügen von neuen Daten möglich, da nicht auf einzelne Elemente zugegriffen werden kann. Es können allerdings basierend auf ihren Eigenschaften Tupel eines Datenstroms ausgewählt und zu einem neuen Datenstrom umgewandelt werden.

Geschichte

Das Konzept von Datenströmen in der Datenverarbeitung lässt sich unter Anderem auf die von Doug McIlroy vorgeschlagenen Pipes zur Verknüpfung von Makros zurückführen, die 1964 als „communication files“ im Dartmouth Time-Sharing System implementiert waren und 1972 in das Betriebssystem Unix integriert wurden. Dabei handelt es sich um eine Datenverbindung zwischen zwei Prozessen nach dem FIFO-Prinzip. Inzwischen findet sich das Prinzip von Streams in den meisten modernen Programmiersprachen.

Verarbeitung von Datenströmen

Bild:DSMS-Prinzip.png
Verarbeitung von Datenströmen in einem DSMS

Die meisten Datenströme werden mittels speziell auf eine Anwendung zugeschnittenen Programmen verarbeitet. Beispielsweise können Audio/Videoströme mit speziellen Wiedergabeprogrammen abgespielt werden. Zur allgemeinen Verwaltung beliebiger Datenströme werden seit Anfang des 21. Jahrhunderts in der Informatik so genannte Data Stream Management System (DSMS) entwickelt. Diese Systeme, die noch ein relativ neues Forschungsgebiet darstellen, sind vergleichbar mit herkömmlichen Datenbankverwaltungssystemen (DBMS) für statische Daten. Ein Beispiel eines solchen DSMS ist der Stanford Stream Data Manager. Als Anfragesprache wurde in Erweiterung zur SQL im Rahmen dieses Projekts die Continuous Query Language (CQL) entwickelt.

Typische Probleme bei der Verarbeitung von Datenströmen sind große Datenmengen in kurzer Zeit und die begrenzten Ressourcen, die zu ihrer Verarbeitung zur Verfügung stehen. Da die eingehenden Daten nicht alle zwischengespeichert werden können und immer nur ein Ausschnitt der Daten bekannt ist. Damit sind auch nur bestimmte Algorithmen möglich. Auch die zur Auswertung zur Verfügung stehende Zeit ist oft beschränkt, da zeitkritische Anwendungen schnelle Ergebnisse erwarten. Bei Systemen, die innerhalb einer garantierten Zeitspanne ein Ergebnis liefern, spricht man auch von Echtzeitsystemen.

Da die eingehenden Datenströme praktisch unbegrenzt sind, sind die daraus berechneten Ergebnisse einer Verarbeitung von Datenströmen oft selbst wiederum Datenströme. Deshalb wird zwischen eingehenden Datenströmen (ingoing stream, instream oder downstream) und ausgehenden Datenströmen (outgoing stream, upstream) unterschieden.

Literatur

Siehe auch

Weblinks

Wikipedia
Dieses Dokument entstammt in seiner ersten oder einer späteren Version der deutschsprachigen Wikipedia. Es ist dort zu finden unter dem Stichwort Datenstrom, die Liste der bisherigen Autoren befindet sich in der Versionsliste; die Originalfassung kann dort auch bearbeitet werden. Alle Texte der Wikipedia und ihre Derivate stehen unter der GNU-Lizenz für freie Dokumentation.
Persönliche Werkzeuge
Andere Sprachen