Zeitreihenvorhersage

Zeitreihe

Eine Zeitreihe beschreibt die zeitliche Entwicklung einer veränderlichen Größe wie zum Beispiel eines Umsatzes, eines Aktienkurses, eines Lagerbestands oder auch einer Temperatur. Die Beobachtungszeiträume einer Zeitreihe sind regelmäßig: Die Werte werden jährlich, monatlich, täglich, etc. erfasst. Zeitreihen dienen als Grundlage zur Analyse der Vergangenheitswerte aber auch für die Prognose der künftigen Entwicklung. Mehr erfahren über verschiedene Zeitreihen-Typen

Autokorrelation

Autokorrelation bedeutet, dass eine zeitlich veränderliche Größe mit sich selbst, verschoben um eine feste Zeiteinheit (Lag), korreliert. So sind z. B. die Höchsttemperaturen eines Tages mit den Höchsttemperaturen des vorherigen Tages positiv autokorreliert. Auf einen sehr heißen Tag folgt nämlich häufig ein Tag, der ebenfalls eine hohe Tagestemperatur aufweist. Dieses Phänomen kann man zum Teil auch an monatlichen Durchschnittstemperaturen erkennen, wie die folgende Zeitreihe zeigt.

Um die internen Abhängigkeiten in der Zeitreihe zu analysieren, wird diese sukzessive um jeweils einen Monat in die Zukunft verschoben. Bei jedem Schritt wird die Korrelation mit der nicht verschobenen Version berechnet. Dadurch erhält man den folgenden Autokorrelationsplot.

Autokorrelationsplot einer Zeitreihe — Autokorrelationsplot der oben gezeigten Zeitreihe für die Lags 0 bis 7.

Die ermittelten Korrelationswerte werden in Abhängigkeit zum jeweiligen Lag dargestellt. Am Beispiel des Autokorrelationsplots wird deutlich, dass die einzelnen Zeitreihenwerte nicht unabhängig voneinander sind, da beispielsweise der relativ hohe Korrelationswert bei Lag 1 erkennen lässt, dass ein einzelner Wert stark auf den ihm direkt vorausgegangenen Wert reagiert.

Kreuzkorrelation und Indikatoren

Indikator

Um eine Zeitreihe zu modellieren, sind neben intrinsischen Strukturkomponenten wie Trend und Saisonalität oft auch externe Kontextinformation und Einflussgrößen relevant. Enthält eine externe Einflussgröße relevante Information mit zeitlichem Vorlauf, so spricht man von einem Indikator. Ein Indikator antizipiert also künftige Entwicklungen in der zu prognostizierenden Zeitreihe. Den zugehörigen zeitlichen Versatz zwischen Indikator und der zu prognostizierenden Zeitreihe bezeichnet man als den Lag des Indikators. Der Prognosehorizont eines Prognosemodells mit vorlaufendem Indikator entspricht i. d. R. dem Lag des Indikators.

Zeitreihe mit Einflussgröße sowie gelaggter Einflussgröße — Verschiebt man die externe Einflussgröße um drei Monate in die Zukunft, so lässt sich erkennen, dass Auf- und Abwärtsbewegungen in der (gelaggten Einflussgröße) gut mit denen in der zu prognostizierenden Zeitreihe (schwarz) zusammenpassen. Mit einem Vorlauf von drei Monaten nimmt die Einflussgröße frühzeitig zu erwartende Entwicklungen in der Zeitreihe vorweg und bietet so Mehrwert für eine Prognose. In einem Prognoseverfahren lässt sich die Einflussgröße somit gut als Indikator mit Lag 3 nutzen.

Kreuzkorrelation

Die Kreuzkorrelation misst, wie stark zwei Zeitreihen bei unterschiedlicher Zeitverschiebung miteinander korrelieren. Sie untersucht sozusagen, bei welchem zeitlichen Versatz die beiden Zeitreihen am besten zueinander passen. Hierbei ist zu beachten, dass Trends und Saisonalität in den Zeitreihen das Ergebnis verfälschen können und ggf. vorab herauszurechnen sind.

Kreuzkorrelationsplot einer Zeitreihe mit einer Einflussgröße — Die ermittelten Korrelationswerte werden in Abhängigkeit zum zugehörigen Zeitversatz (Lag) in einem Diagramm aufgetragen. Daraus lässt sich erkennen, dass die höchste Korrelation zwischen den beiden Größen bei einer Verschiebung von drei Monaten in die Zukunft vorliegt.

Prognose / Forecasting

Unter Forecasting (dt.: Prognose) versteht man den Prozess, auf Basis von vorhandenen Daten historische Muster wie Trends, Saisonalitäten und Zusammenhänge zu potenziell assoziierten Faktoren zu identifizieren, und diese in die Zukunft fortzuschreiben. Ziel ist es, dass die in der Zukunft liegenden und noch unbekannten Werte durch die ermittelten Forecasts möglichst präzise getroffen werden. Die zugrundeliegenden Daten sind häufig Zeitreihen, z. B. monatliche Verbrauchsdaten, täglicher Umsatz oder wöchentlicher Materialbedarf. Die Prognose bzw. das Forecasting geschieht i.d.R. unter Einsatz von passenden statistischen Prognosemethoden sowie Machine-Learning-Methoden.

Punktprognose / Forecast

(Punkt-)Prognosen bzw. Forecasts sind Schätzungen für die Werte einer Zeitreihe für einen zukünftigen Zeitraum. Um statistische Prognosen zu erstellen, bedient man sich sogenannter Prognosemodelle bzw. Forecast-Methoden.

Plot einer Zeitreihe mit Prognose für die nächsten 12 Monate — Der Übergang von bekannten historischen Zeitreihendaten (schwarz) zu einem geschätzten, zukünftigen Verlauf (blau) für die nächsten 12 Monate wird hier dargestellt. Der schattierte Bereich um die Punktprognose verdeutlicht das dazugehörige Konfidenzintervall.

Prognosezeitraum / Prognosehorizont

Als Prognosezeitraum (auch Prognosehorizont) wird der Zeitraum bezeichnet, für den die Vorhersagen erstellt werden sollen, zum Beispiel 5 Tage, 6 Monate, 7 Jahre.

Plot einer Zeitreihe mit Prognose in einem Prognosezeitraum von 12 Monaten — Der Prognosehorizont erstreckt sich über 12 Monate (von Anfang 2018 bis Anfang 2019), welcher sich nahtlos an das Ende der zur Modellierung genutzten historischen Zeitreihe anschließt.

Prognoseschritt

Der Prognosezeitraum beschreibt die Länge der zukünftigen Zeit, für welche Prognosen bereitgestellt werden. Je nach zeitlicher Granularität der Zeitreihe sind dafür unterschiedlich viele Prognoseschritte nötig. Liegt zum Beispiel eine Zeitreihe auf Monatsbasis vor, so umfasst ein Prognosezeitraum von zwölf Monaten auch zwölf Prognoseschritte. Derselbe Zeitraum von zwölf Monaten beinhaltet bei einer Zeitreihe auf Tagesbasis bereits etwa 12 x 30 = 360 Prognoseschritte. Mit zunehmender Anzahl an Prognoseschritten nimmt üblicherweise die Unsicherheit zu und somit die Prognosequalität ab.

Prognoseintervall

Eine (Punkt-)Prognose wird den künftigen, tatsächlich eintreffenden Wert selten ganz exakt treffen: Die Prognose ist stets mit einer gewissen Unsicherheit behaftet. Diese Unschärfe lässt sich mittels eines Prognoseintervalls quantifizieren. Das Prognoseintervall beschreibt einen Wertebereich um die statistische Punktprognose, der den tatsächlich eintreffenden Wert mit einer vorgegebenen Wahrscheinlichkeit, dem Prognosekonfidenzniveau, überdecken wird.

Prognosekonfidenzniveau

Um die Unsicherheit, mit der eine statistische Prognose behaftet ist, zu quantifizieren, stattet man den Prognosewert mit einem Prognoseintervall und einem dazugehörigen Prognosekonfidenzniveau aus. Das zum Intervall gehörige Prognosekonfidenzniveau misst die Treffsicherheit des Prognoseintervalls, mit der das Intervall den künftigen Wert überdeckt. Je größer das Prognosekonfidenzniveau, desto wahrscheinlicher, dass der künftige Wert vom Intervall überdeckt wird. Ein Prognosekonfidenzniveau von 95 Prozent bedeutet beispielsweise, dass von 100 auf eine bestimmte Weise berechneten Prognoseintervallen im Mittel 95 die wahren (zukünftigen) Zeitreihenwerte enthalten. In etwa 5 Prozent der Fälle dagegen liegen die wahren Zeitreihenwerte außerhalb.

Plot von Prognosen mit Prognoseintervall zum Konfidenzniveau 95% — Der hellblau schattierte Bereich (ab Januar 2018) stellt das Prognoseintervall dar. Dieses beinhaltet die zukünftigen Werte der Zeitreihe mit einer Wahrscheinlichkeit von 95%.

Prognosemethoden (Grundlagen)

Unter einer Prognosemethode oder Forecast-Methode versteht man ein datenbasiertes Verfahren, um gewisse Strukturen in einer Zeitreihe zu identifizieren und diese für eine Prognose nutzbar zu machen. Es legt sozusagen die Regeln zur Erstellung der Prognose fest und schätzt ein für die vorliegende Zeitreihe passendes Prognosemodell. Es gibt eine Vielzahl von klassischen statistischen Prognosemethoden. Ebenso können Regressions- oder Machine-Learning-Verfahren als Prognosemethode genutzt werden. Unterschiedliche Verfahren stellen unterschiedliche Strukturkomponenten der Zeitreihe (Trend, Saisonalität, Einfluss von externen Informationen, Adaptivität, ...) unterschiedlich stark in den Fokus. Wichtige Beispiele für statistische Prognosemethoden sind der gleitende Mittelwert sowie die exponentielle Glättung. Das für eine gegebene Zeitreihe im Einzelfall geeignetste Verfahren mit passenden Einstellungen zu finden ist Gegenstand der Modellauswahl.

Spezifische Prognoseverfahren werden auf dieser Seite erläutert.

Modellauswahl und Validierung

Kovariate / Einflussgröße

Unter einer Kovariaten versteht man in einem (statistischen) Vorhersagemodell eine Einflussgröße, die als Prädiktor fungiert, also potenziell Einfluss auf die vorherzusagende, abhängige Variable hat und daher in einem Vorhersagemodell berücksichtigt wird. So kann beispielsweise die Tageshöchsttemperatur eine Kovariate für die Modellierung und Vorhersage des täglichen Stromverbrauchs einer Stadt sein.

Prognosefehler

Als Prognosefehler bezeichnet man die Differenz zwischen prognostiziertem und eingetretenem Wert.

Vergleich von Prognosen und eingetretenem Wert in der Zeitreihenprognose — Die vorhergesagten Werte (blaue Linie) und die tatsächlich eingetretenen Daten (schwarze Linie) unterscheiden sich durch die jeweiligen Prognosefehler (Residuen), welche durch die roten vertikalen Distanzen markiert sind.

Gütemaß

Um die Güte eines Modells zu beurteilen, können unterschiedliche Gütemaße konstruiert oder herangezogen werden. Die meisten dieser Gütemaße basieren auf einer Auswertung der Prognosefehler. Beispiele für solche Gütekriterien sind z. B. MAE (Mittlerer Absoluter Fehler), MAPE (Mittlerer Absoluter Prozentualer Fehler), MSE (Mittlerer Quadratischer Fehler) und PIS (Periods in Stock). Mehr erfahren zu Prognosefehler und Gütemaßen

Backtesting

Das Backtesting bezeichnet eine Strategie, um die Güte eines Prognosemodells zu evaluieren. Hierbei wird simuliert, welche Prognosen das Modell für einen vergangenen Zeitraum (z. B. für das letzte Jahr) geliefert hätte. Diese werden mit den bereits bekannten, tatsächlich eingetretenen Werten für diesen Zeitraum verglichen. Mehr lernen über Backtesting

Modellauswahl

In der Modellauswahl wird für eine gegebene Zeitreihe das am besten passende Prognosemodell automatisiert identifiziert und die zugehörigen Modellparameter optimal eingestellt. Mehr lernen über Modellauswahl

Ensemble-Methoden

Ensemble-Methoden kombinieren die einzelnen Prognosen verschiedener Basismodelle (Beispielsweise ARIMA, exponentielle Glättung, ...) zu einer Gesamtprognose. Der Kerngedanke eines Ensembles ist, dass sich durch die Kombination der verschiedenen Modelle individuelle Tendenzen ausgleichen, und sich somit eine Prognose höherer Güte ergibt. Die Auswahl und Gewichtung der Basismodelle für das Ensemble kann aufgrund der Ergebnisse der einzelnen Modelle aus dem Backtesting erfolgen.

Aggregation

Hierarchische Aggregation

In vielen Anwendungsfällen sind Zeitreihen organisatorisch-hierarchisch strukturiert oder können mittels Kontextattributeten gruppiert und auf unterschiedliche Ebenen aggregiert werden. Beispielsweise kann bei den monatlichen Umsatzzahlen von Artikeln der Gesamtumsatz aller Artikel, der Gesamtumsatz aller Artikel pro Region, der Umsatz eines jeden einzelnen Artikels oder sogar der Umsatz eines jeden einzelnen Artikels pro Kunde betrachtet werden.

Bei der Identifikation einer optimalen Aggregationsebene für die Modellierung und Forecast-Erstellung spielt zum Einen das spezifische Anwendungsziel eine zentrale Rolle, aber auch die Frage, auf welcher Ebene sich Muster, Strukturen und Zusammenhänge in den Daten bestmöglich erkennen und erlernen lassen.

Mit hierarchischen Prognosen lassen sich multiple, organisatorisch-hierarchische Ebenen verknüpfen und konsistente Prognosen über die Ebenen hinweg erzeugen. Mehr lernen über hierarchische Aggregation

Zeitliche Aggregation

Durch zeitliche Aggregation wird eine Zeitreihe in eine neue Zeitreihe mit gröberer zeitlicher Granularität umgewandelt. So wird aus einer monatlichen Zeitreihe von Monatsumsätzen durch Summierung der jeweils zwölf Monatsumsätze eines Jahres eine jährlichen Zeitreihe von Jahresumsätzen. Im Beispiel dient die Summe als Aggregationsfunktion; je nach Fragestellung sind andere Funktionen denkbar, etwa der Mittelwert, der Median oder das Maximum.

Zur Prognose ist es zumeist zweckmäßig, die zum Prognoseziel passende zeitliche Granularität zu wählen. Soll jeweils der Umsatz der nächsten Monate prognostiziert werden, so wird die monatliche Zeitreihe der Monatsumsätze als Datenbasis genutzt. Der alternative Ansatz die Tagesumsätze auf Basis von Tagesdaten zu prognostizieren und anschließend die Prognosen zeitlich zu aggregieren, um Vorhersagen der Monatsumsätze zu erhalten, führt im Regelfall zu weniger genauen Vorhersagen. Gleiches gilt für die Berechnung einer Vorhersage des Monatsumsatzes aus einem prognostizierten Jahresumsatz (durch Division mit der Anzahl der Monate). Allerdings kann für lange Prognosehorizonte die übliche Vorhersage auf Monatsbasis häufig durch Kombination mit letzterem Ansatz verbessert werden. Mehr lernen über zeitliche Aggregation