Datensatz - Data set

Ein Datensatz (oder Datensatz ) ist eine Sammlung von Daten . Bei tabellarischen Daten entspricht ein Datensatz einer oder mehreren Datenbanktabellen , wobei jede Spalte einer Tabelle eine bestimmte Variable darstellt und jede Zeile einem bestimmten Datensatz des betreffenden Datensatzes entspricht. Der Datensatz listet Werte für jede der Variablen, wie Höhe und Gewicht eines Objekts, für jedes Mitglied des Datensatzes auf. Jeder Wert wird als Datum bezeichnet. Datensätze können auch aus einer Sammlung von Dokumenten oder Dateien bestehen.

In der Open-Data- Disziplin ist der Datensatz die Einheit zur Messung der in einem öffentlichen Open-Data-Repository veröffentlichten Informationen. Das European Open Data Portal aggregiert mehr als eine halbe Million Datensätze. Einige andere Aspekte (Echtzeitdatenquellen, nicht-relationale Datensätze usw.) erschweren es, einen Konsens darüber zu erzielen.

Eigenschaften

Mehrere Merkmale definieren die Struktur und die Eigenschaften eines Datensatzes. Dazu gehören Anzahl und Typen der Attribute oder Variablen sowie verschiedene darauf anwendbare statistische Maße , wie Standardabweichung und Kurtosis .

Die Werte können Zahlen sein, wie reelle Zahlen oder ganze Zahlen , die beispielsweise die Körpergröße einer Person in Zentimetern darstellen, aber auch Nominaldaten sein (dh nicht aus numerischen Werten bestehen), beispielsweise die ethnische Zugehörigkeit einer Person repräsentieren. Allgemeiner gesagt können Werte von jeder der Arten sein, die als Messniveau beschrieben werden . Für jede Variable sind die Werte normalerweise alle gleich. Es können jedoch auch fehlende Werte vorhanden sein, die in irgendeiner Weise angegeben werden müssen.

In der Statistik stammen Datensätze normalerweise aus tatsächlichen Beobachtungen, die durch Stichproben einer statistischen Grundgesamtheit gewonnen wurden , und jede Zeile entspricht den Beobachtungen zu einem Element dieser Grundgesamtheit. Weiterhin können Datensätze durch Algorithmen erzeugt werden , um bestimmte Arten von Software zu testen . Einige moderne statistische Analysesoftware wie SPSS präsentieren ihre Daten immer noch in der klassischen Art von Datensätzen. Wenn Daten fehlen oder verdächtig sind, kann eine Imputationsmethode verwendet werden, um einen Datensatz zu vervollständigen.

Klassische Datensätze

Mehrere klassische Datensätze wurden in der statistischen Literatur ausgiebig verwendet :

Siehe auch

Verweise

Externe Links