Wednesday 10 May 2017

Autoregressiv Bewegter Durchschnitt Unterschied


Autoregressive Integrated Moving Average - ARIMA DEFINITION Autoregressive Integrated Moving Average - ARIMA Ein statistisches Analyse-Modell, das Zeitreihen-Daten verwendet, um zukünftige Trends vorherzusagen. Es ist eine Form der Regressionsanalyse, die künftige Bewegungen entlang der scheinbar zufälligen Wanderung von Aktien und dem Finanzmarkt vorhersagen will, indem sie die Unterschiede zwischen den Werten in der Reihe untersucht, anstatt die tatsächlichen Datenwerte zu verwenden. Lags der differenzierten Serien werden als autoregressiv bezeichnet und Verzögerungen innerhalb der prognostizierten Daten werden als gleitender Durchschnitt bezeichnet. BREAKING DOWN Autoregressive Integrated Moving Average - ARIMA Dieser Modelltyp wird im Allgemeinen als ARIMA (p, d, q) bezeichnet, wobei die Ganzzahlen sich auf den autoregressiven beziehen. Integrierte und gleitende Mittelteile des Datensatzes. ARIMA-Modellierung kann Trends berücksichtigen, Saisonalität. Zyklen, Fehlern und nicht-stationären Aspekten eines Datensatzes bei der Vorhersage. RIMA steht für autoregressive integrierte Moving Average Modelle. Univariate (Einzelvektor) ARIMA ist eine Prognosetechnik, die die zukünftigen Werte einer Serie, die ganz auf ihrer eigenen Trägheit basiert, projiziert. Seine Hauptanwendung liegt im Bereich der kurzfristigen Prognose, die mindestens 40 historische Datenpunkte erfordert. Es funktioniert am besten, wenn Ihre Daten ein stabiles oder konsistentes Muster im Laufe der Zeit mit einem Minimum an Ausreißern aufweisen. Manchmal genannt Box-Jenkins (nach den ursprünglichen Autoren) ist ARIMA in der Regel exponentiellen Glättungstechniken überlegen, wenn die Daten vernünftig lang sind und die Korrelation zwischen vergangenen Beobachtungen stabil ist. Wenn die Daten kurz oder stark flüchtig sind, kann eine Glättungsmethode besser funktionieren. Wenn Sie nicht mindestens 38 Datenpunkte haben, sollten Sie eine andere Methode als ARIMA beachten. Der erste Schritt bei der Anwendung der ARIMA-Methodik ist die Überprüfung der Stationarität. Stationarity impliziert, dass die Serie auf einem ziemlich konstanten Niveau im Laufe der Zeit bleibt. Wenn ein Trend existiert, wie in den meisten wirtschaftlichen oder geschäftlichen Anwendungen, dann sind Ihre Daten nicht stationär. Die Daten sollten auch eine konstante Varianz in ihren Schwankungen über die Zeit zeigen. Dies ist leicht zu sehen mit einer Serie, die stark saisonal und wächst mit einer schnelleren Rate. In einem solchen Fall werden die Höhen und Tiefen in der Saisonalität im Laufe der Zeit dramatischer werden. Ohne dass diese stationären Bedingungen erfüllt sind, können viele der mit dem Prozess verbundenen Berechnungen nicht berechnet werden. Wenn eine grafische Darstellung der Daten eine Nichtstationarität anzeigt, dann sollten Sie die Serie unterscheiden. Das Unterscheiden ist eine hervorragende Möglichkeit, eine nichtstationäre Serie in eine stationäre zu verwandeln. Dies geschieht durch Subtraktion der Beobachtung in der aktuellen Periode von der vorherigen. Wenn diese Umwandlung nur einmal zu einer Serie erfolgt, sagst du, dass die Daten zuerst differenziert wurden. Dieser Prozess eliminiert im Wesentlichen den Trend, wenn Ihre Serie mit einer konstanten Rate wächst. Wenn es mit zunehmender Rate wächst, können Sie das gleiche Verfahren anwenden und die Daten wieder unterscheiden. Ihre Daten würden dann zweiter differenziert. Autokorrelationen sind Zahlenwerte, die angeben, wie sich eine Datenreihe über die Zeit verhält. Genauer gesagt, es misst, wie stark Datenwerte bei einer bestimmten Anzahl von Perioden auseinander mit der Zeit miteinander korreliert sind. Die Anzahl der Perioden auseinander ist in der Regel die Verzögerung genannt. Beispielsweise misst eine Autokorrelation bei Verzögerung 1, wie die Werte 1 Periode auseinander in der ganzen Reihe miteinander korreliert sind. Eine Autokorrelation bei Verzögerung 2 misst, wie die Daten zwei Perioden voneinander getrennt sind. Autokorrelationen können von 1 bis -1 reichen. Ein Wert nahe 1 gibt eine hohe positive Korrelation an, während ein Wert nahe bei -1 eine hohe negative Korrelation impliziert. Diese Maßnahmen werden am häufigsten durch grafische Darstellungen als Korrelate ausgewertet. Ein Korrektogramm zeichnet die Autokorrelationswerte für eine gegebene Reihe bei verschiedenen Verzögerungen auf. Dies wird als Autokorrelationsfunktion bezeichnet und ist bei der ARIMA-Methode sehr wichtig. Die ARIMA-Methodik versucht, die Bewegungen in einer stationären Zeitreihe als Funktion von sogenannten autoregressiven und gleitenden Durchschnittsparametern zu beschreiben. Diese werden als AR-Parameter (autoregessive) und MA-Parameter (gleitende Durchschnitte) bezeichnet. Ein AR-Modell mit nur 1 Parameter kann als geschrieben werden. X (t) A (1) X (t-1) E (t) wobei X (t) Zeitreihe unter Untersuchung A (1) der autoregressive Parameter der Ordnung 1 X (t-1) die Zeitreihe verzögerte 1 Periode E (T) der Fehlerterm des Modells Dies bedeutet einfach, dass jeder gegebene Wert X (t) durch eine Funktion seines vorherigen Wertes X (t-1) plus einen unerklärlichen Zufallsfehler E (t) erklärt werden kann. Wenn der Schätzwert von A (1) 0,30 betrug, würde der aktuelle Wert der Reihe mit 30 seines Wertes 1 verknüpft sein. Natürlich könnte die Serie auf mehr als nur einen vergangenen Wert bezogen werden. Beispielsweise ist X (t) A (1) X (t-1) A (2) X (t-2) E (t) Dies zeigt an, dass der aktuelle Wert der Reihe eine Kombination der beiden unmittelbar vorhergehenden Werte ist, X (t-1) und X (t-2), plus einige zufällige Fehler E (t). Unser Modell ist jetzt ein autoregressives Modell der Ordnung 2. Moving Average Models: Eine zweite Art von Box-Jenkins-Modell heißt ein gleitendes Durchschnittsmodell. Obwohl diese Modelle dem AR-Modell sehr ähnlich sind, ist das Konzept hinter ihnen ganz anders. Bewegliche Durchschnittsparameter beziehen sich auf das, was in der Periode t nur auf die zufälligen Fehler geschieht, die in vergangenen Zeitperioden aufgetreten sind, dh E (t-1), E (t-2) usw. anstelle von X (t-1), X ( T-2), (Xt-3) wie in den autoregressiven Ansätzen. Ein gleitendes Durchschnittsmodell mit einem MA-Term kann wie folgt geschrieben werden. X (t) - B (1) E (t-1) E (t) Der Ausdruck B (1) heißt MA der Ordnung 1. Das negative Vorzeichen vor dem Parameter wird nur für Konvention verwendet und wird üblicherweise ausgedruckt Automatisch von den meisten Computerprogrammen. Das obige Modell sagt einfach, dass jeder gegebene Wert von X (t) direkt nur mit dem zufälligen Fehler in der vorherigen Periode E (t-1) und dem aktuellen Fehlerterm E (t) zusammenhängt. Wie bei autoregressiven Modellen können die gleitenden Durchschnittsmodelle auf Strukturen höherer Ordnung ausgedehnt werden, die unterschiedliche Kombinationen und gleitende Durchschnittslängen abdecken. Die ARIMA-Methodik ermöglicht auch die Erstellung von Modellen, die sowohl autoregressive als auch gleitende Durchschnittsparameter umfassen. Diese Modelle werden oft als gemischte Modelle bezeichnet. Obwohl dies für ein komplizierteres Vorhersage-Tool macht, kann die Struktur tatsächlich die Serie besser simulieren und eine genauere Prognose erzeugen. Pure Modelle implizieren, dass die Struktur nur aus AR - oder MA-Parametern besteht - nicht beides. Die von diesem Ansatz entwickelten Modelle werden in der Regel als ARIMA-Modelle bezeichnet, weil sie eine Kombination von autoregressiven (AR), Integration (I) - beziehen sich auf den umgekehrten Prozess der Differenzierung, um die Prognose zu produzieren, und gleitende durchschnittliche (MA) Operationen. Ein ARIMA-Modell wird üblicherweise als ARIMA (p, d, q) angegeben. Dies stellt die Reihenfolge der autoregressiven Komponenten (p), die Anzahl der differenzierenden Operatoren (d) und die höchste Ordnung des gleitenden Durchschnittsterms dar. Zum Beispiel bedeutet ARIMA (2,1,1), dass Sie ein autoregressives Modell zweiter Ordnung mit einer gleitenden durchschnittlichen Komponente erster Ordnung haben, deren Serie einmal differenziert wurde, um die Stationarität zu induzieren. Kommissionierung der richtigen Spezifikation: Das Hauptproblem in der klassischen Box-Jenkins versucht zu entscheiden, welche ARIMA-Spezifikation - i. e. Wie viele AR - und MA-Parameter enthalten sind. Dies ist, was viel von Box-Jenkings 1976 dem Identifizierungsprozess gewidmet war. Es hing von der grafischen und numerischen Auswertung der Probenautokorrelation und partiellen Autokorrelationsfunktionen ab. Nun, für Ihre Basismodelle ist die Aufgabe nicht allzu schwierig. Jeder hat Autokorrelationsfunktionen, die eine bestimmte Art und Weise aussehen. Wenn du aber in der Komplexität stehst, sind die Muster nicht so leicht zu erkennen. Um die Sache schwieriger zu machen, stellt Ihre Daten nur eine Stichprobe des zugrunde liegenden Prozesses dar. Dies bedeutet, dass Abtastfehler (Ausreißer, Messfehler usw.) den theoretischen Identifikationsvorgang verzerren können. Das ist der Grund, warum traditionelle ARIMA-Modellierung eine Kunst eher als eine Wissenschaft ist. Autoregressive Moving Average ARMA (p, q) Modelle für Time Series Analysis - Teil 1 Im letzten Artikel sahen wir zufällige Spaziergänge und White Noise als grundlegende Zeitreihenmodelle für bestimmte Finanzinstrumente wie Tagesgeld - und Aktienindexkurse. Wir haben festgestellt, dass in einigen Fällen ein zufälliges Wandermodell nicht ausreicht, um das volle Autokorrelationsverhalten des Instruments zu erfassen, das anspruchsvollere Modelle motiviert. In den nächsten Artikeln werden wir drei Arten von Modellen besprechen, nämlich das Autoregressive (AR) Modell der Ordnung p, das Moving Average (MA) Modell der Ordnung q und das gemischte Autogressive Moving Average (ARMA) Modell der Ordnung p , Q Diese Modelle werden uns dabei helfen, mehr von der in einem Instrument vorhandenen seriellen Korrelation zu erfassen oder zu erklären. Letztlich werden sie uns ein Mittel zur Prognose der zukünftigen Preise geben. Es ist jedoch bekannt, dass die finanziellen Zeitreihen eine Eigenschaft besitzen, die als Volatilitätscluster bezeichnet wird. Das heißt, die Volatilität des Instruments ist nicht rechtzeitig konstant. Der Fachbegriff für dieses Verhalten wird als bedingte Heteroskedastizität bezeichnet. Da die AR-, MA - und ARMA-Modelle nicht bedingt heteroskedastisch sind, das heißt, sie berücksichtigen nicht die Volatilitäts-Clustering, werden wir letztlich ein anspruchsvolleres Modell für unsere Vorhersagen benötigen. Solche Modelle umfassen das Autogressive Conditional Heteroskedastic (ARCH) Modell und Generalized Autogressive Conditional Heteroskedastic (GARCH) Modell, und die vielen Varianten davon. GARCH ist in der quantitativen Finanzierung besonders bekannt und wird vor allem für finanzielle Zeitreihensimulationen als Mittel zur Risikoabschätzung eingesetzt. Doch wie bei allen QuantStart-Artikeln möchte ich diese Modelle aus einfacheren Versionen aufbauen, damit wir sehen können, wie jede neue Variante unsere Vorhersagefähigkeit verändert. Trotz der Tatsache, dass AR, MA und ARMA relativ einfache Zeitreihenmodelle sind, sind sie die Basis komplizierterer Modelle wie der Autoregressive Integrated Moving Average (ARIMA) und der GARCH Familie. Daher ist es wichtig, dass wir sie studieren. Eine unserer ersten Trading-Strategien in der Zeitreihen-Artikelserie wird es sein, ARIMA und GARCH zu kombinieren, um die Preise im Voraus vorhersagen zu können. Allerdings müssen wir warten, bis wir beide ARIMA und GARCH separat besprochen haben, bevor wir sie auf eine echte Strategie anwenden. Wie werden wir in diesem Artikel vorgehen, werden wir einige neue Zeitreihenkonzepte skizzieren, die für die restlichen Methoden, die streng sind, gut brauchen Stationarität und das Akaike-Informationskriterium (AIC). Im Anschluss an diese neuen Konzepte werden wir dem traditionellen Muster folgen, um neue Zeitreihenmodelle zu studieren: Begründung - Die erste Aufgabe ist es, einen Grund zu geben, warum sie an einem bestimmten Modell interessiert waren, als Quants. Warum werden wir das Zeitreihenmodell vorstellen Welche Effekte kann es erfassen Was verdienen wir (oder verlieren) durch Hinzufügen zusätzlicher Komplexität Definition - Wir müssen die vollständige mathematische Definition (und damit verbundene Notation) des Zeitreihenmodells zur Minimierung liefern Irgendeine Unklarheit. Zweite Ordnungseigenschaften - Wir diskutieren (und in einigen Fällen ableiten) die Eigenschaften der zweiten Ordnung des Zeitreihenmodells, das seinen Mittelwert, seine Varianz und seine Autokorrelationsfunktion einschließt. Correlogram - Wir verwenden die Eigenschaften zweiter Ordnung, um ein Korrelogramm einer Realisierung des Zeitreihenmodells zu zeichnen, um sein Verhalten zu visualisieren. Simulation - Wir simulieren Realisierungen des Zeitreihenmodells und passen dann das Modell an diese Simulationen an, um sicherzustellen, dass wir genaue Implementierungen haben und den passenden Prozess verstehen. Echte Finanzdaten - Wir passen das Zeitreihenmodell zu realen Finanzdaten und betrachten das Korrelogram der Residuen, um zu sehen, wie das Modell die serielle Korrelation in der Originalreihe berücksichtigt. Vorhersage - Wir erstellen n-Schritt voraus Prognosen des Zeitreihenmodells für bestimmte Realisierungen, um letztlich Handelssignale zu produzieren. Fast alle Artikel, die ich auf Zeitreihenmodellen schreibe, werden in dieses Muster fallen und es wird uns erlauben, die Unterschiede zwischen jedem Modell leicht zu vergleichen, wenn wir weitere Komplexität hinzufügen. Wurden begonnen, indem wir uns die strenge Stationarität und die AIC anschauen. Streng stationär Wir haben die Definition der Stationarität in den Artikel über die serielle Korrelation gegeben. Allerdings, weil wir in den Bereich vieler finanzieller Reihen mit verschiedenen Frequenzen eintreten werden, müssen wir sicherstellen, dass unsere (eventuellen) Modelle die zeitvariable Volatilität dieser Serien berücksichtigen. Insbesondere müssen wir ihre Heteroskedastizität berücksichtigen. Wir werden über dieses Thema kommen, wenn wir versuchen, bestimmte Modelle zu historischen Serien zu passen. Im Allgemeinen kann nicht die gesamte serielle Korrelation in den Resten der angepassten Modelle berücksichtigt werden, ohne Heteroskedastizität zu berücksichtigen. Das bringt uns zurück zum stationär. Eine Reihe ist nicht stationär in der Varianz, wenn sie zeitvariable Volatilität hat, per Definition. Dies motiviert eine rigorosere Definition der Stationarität, nämlich eine strikte Stationarität: Streng stationäre Serie Ein Zeitreihenmodell ist streng stationär, wenn die gemeinsame statistische Verteilung der Elemente x, ldots, x die gleiche ist wie die von xm, ldots, xm, Für alle ti, m. Man kann an diese Definition als einfach denken, daß die Verteilung der Zeitreihe für jede zeitliche Verschiebung unverändert ist. Insbesondere sind der Mittelwert und die Varianz rechtzeitig für eine streng stationäre Reihe konstant und die Autokovarianz zwischen xt und xs (zB) hängt nur von der absoluten Differenz von t und s, t-s ab. Wir werden in künftigen Stellen streng stationäre Serien besprechen. Akaike Information Criterion Ich habe in früheren Artikeln erwähnt, dass wir schließlich zu prüfen, wie man zwischen separaten besten Modellen wählen. Dies gilt nicht nur für die Zeitreihenanalyse, sondern auch für das maschinelle Lernen und allgemeiner für die Statistik im Allgemeinen. Die beiden wichtigsten Methoden, die wir (vorläufig) nutzen werden, sind das Akaike Information Criterion (AIC) und das Bayesian Information Criterion (wie wir mit unseren Artikeln über Bayesian Statistics weiter vorankommen). Nun kurz die AIC betrachten, wie es in Teil 2 des ARMA-Artikels verwendet wird. AIC ist im Wesentlichen ein Werkzeug, um bei der Modellauswahl zu helfen. Das heißt, wenn wir eine Auswahl von statistischen Modellen (einschließlich Zeitreihen) haben, dann schätzt die AIC die Qualität jedes Modells, relativ zu den anderen, die wir zur Verfügung haben. Es basiert auf Informationstheorie. Das ist ein hochinteressantes, tiefes thema, das wir leider nicht zu viel aussehen lassen können. Es versucht, die Komplexität des Modells auszugleichen, was in diesem Fall die Anzahl der Parameter bedeutet, mit wie gut es den Daten entspricht. Lets bieten eine Definition: Akaike Information Criterion Wenn wir die Wahrscheinlichkeit Funktion für ein statistisches Modell, die k Parameter hat und L maximiert die Wahrscheinlichkeit zu nehmen. Dann ist das Akaike Information Criterion gegeben durch: Das bevorzugte Modell, aus einer Auswahl von Modellen, hat die Minium AIC der Gruppe. Sie können sehen, dass die AIC wächst, wie die Anzahl der Parameter, k, erhöht, aber reduziert wird, wenn die negative log-Wahrscheinlichkeit erhöht. Im Wesentlichen bestraft es Modelle, die überfüllt sind. Wir werden AR, MA und ARMA Modelle von unterschiedlichen Aufträgen erstellen und eine Möglichkeit, das beste Modell zu wählen, passen zu einem bestimmten Datensatz, um die AIC zu benutzen. Dies ist, was gut tun, in den nächsten Artikel, vor allem für ARMA-Modelle. Autoregressive (AR) Modelle der Ordnung p Das erste Modell, das die Grundlage von Teil 1 bildet, ist das Autoregressive Modell der Ordnung p, das oft zu AR (p) verkürzt wird. Im vorherigen Artikel betrachteten wir den zufälligen Spaziergang. Wo jeder Begriff xt nur von dem vorherigen Term abhängig ist, x und ein stochastischer weißer Rauschbegriff, wt: Das autoregressive Modell ist einfach eine Erweiterung des zufälligen Spaziergangs, der Begriffe noch weiter in der Zeit enthält. Die Struktur des Modells ist linear. Das ist das Modell hängt linear von den vorherigen Terme ab, mit Koeffizienten für jeden Begriff. Hier kommt der regressive aus autoregressiv Es handelt sich im Wesentlichen um ein Regressionsmodell, bei dem die vorherigen Begriffe die Prädiktoren sind. Autoregressives Modell der Ordnung p Ein Zeitreihenmodell, ist ein autoregressives Modell der Ordnung p. AR (p), wenn: begin xt alpha1 x ldots alphap x wt sum p alphai x wt end Wo ist weißes Rauschen und alphai in mathbb, mit alphap neq 0 für einen autorgressiven Prozess der p-Ordnung. Wenn wir den Backward Shift Operator betrachten. (Siehe vorheriger Artikel), dann können wir das oben beschriebene als Funktionsthema von: begin thetap () xt (1 - alpha1 - alpha2 2 - ldots - alphap) xt wt Ende Vielleicht das erste, was über das AR (p) Modell zu bemerken ist Ist, dass ein zufälliger Spaziergang einfach AR (1) mit alpha1 gleich Eins ist. Wie wir oben erwähnt haben, ist das autogressive Modell eine Erweiterung des zufälligen Spaziergangs, so dass dies sinnvoll ist. Es ist einfach, Vorhersagen mit dem AR (p) - Modell zu machen, zu jeder Zeit t, sobald wir die Alpha-Koeffizienten bestimmt haben, unsere Schätzung Einfach wird: begin hut t alpha1 x ldots alphap x ende Daher können wir n-Schritt voraus Prognosen machen, indem wir Hut t, Hut, Hut, etc. bis zum Hut produzieren. In der Tat, sobald wir die ARMA-Modelle in Teil 2 betrachten, werden wir die R-Vorhersage-Funktion verwenden, um Prognosen (zusammen mit Standard-Fehler-Konfidenz-Intervall-Bands) zu erstellen, die uns helfen, Handelssignale zu erzeugen. Stationarität für autoregressive Prozesse Einer der wichtigsten Aspekte des AR (p) Modells ist, dass es nicht immer stationär ist. In der Tat hängt die Stationarität eines bestimmten Modells von den Parametern ab. Ive berührte dies vorher in einem früheren Artikel. Um festzustellen, ob ein AR (p) - Prozess stationär ist oder nicht, müssen wir die charakteristische Gleichung lösen. Die charakteristische Gleichung ist einfach das autoregressive Modell, das in umgekehrter Verschiebungsform geschrieben ist, auf Null gesetzt: Wir lösen diese Gleichung für. Damit der jeweilige autoregressive Prozeß stationär ist, brauchen wir alle Absolutwerte der Wurzeln dieser Gleichung, um die Einheit zu übersteigen. Dies ist eine äußerst nützliche Eigenschaft und ermöglicht es uns schnell zu berechnen, ob ein AR (p) Prozess stationär ist oder nicht. Wir danken ein paar Beispiele, um diese Idee konkret zu machen: Random Walk - Der AR (1) Prozess mit alpha1 1 hat die charakteristische Gleichung theta 1 -. Offensichtlich hat das Wurzel 1 und ist als solches nicht stationär. AR (1) - Wenn wir alpha1 frac wählen, erhalten wir xt frac x wt. Dies ergibt eine charakteristische Gleichung von 1 - frac 0, die eine Wurzel 4 gt 1 hat und so ist dieses spezielle AR (1) - Verfahren stationär. AR (2) - Wenn wir alpha1 alpha2 frac setzen, dann erhalten wir xt frac x frac x wt. Seine charakteristische Gleichung wird - frac () () 0, was zwei Wurzeln von 1, -2 ergibt. Da dies eine Einheit Wurzel hat, ist es eine nicht-stationäre Serie. Allerdings können andere AR (2) Serien stationär sein. Second Order Properties Der Mittelwert eines AR (p) Prozesses ist Null. Allerdings sind die Autokovarianzen und Autokorrelationen durch rekursive Funktionen, die als die Yule-Walker-Gleichungen bekannt sind, gegeben. Die vollständigen Eigenschaften sind unten angegeben: begin mux E (xt) 0 end begin gammak sum p alphai gamma, enspace k 0 end begin rhok sum p alphai rho, enspace k 0 end Beachten Sie, dass es notwendig ist, die Alpha-Parameterwerte vorher zu kennen Berechnen der Autokorrelationen. Nun, da wir die zweite Ordnungseigenschaften angeben, können wir verschiedene Ordnungen von AR (p) simulieren und die entsprechenden Korrelogramme zeichnen. Simulationen und Correlograms Beginnen wir mit einem AR (1) Prozess. Dies ist ähnlich wie ein zufälliger Spaziergang, außer dass Alpha1 nicht gleich Einheit haben muss. Unser Modell wird alpha1 0.6 haben. Der R-Code für die Erstellung dieser Simulation wird wie folgt gegeben: Beachten Sie, dass unsere for-Schleife von 2 bis 100, nicht 1 bis 100, als xt-1 durchgeführt wird, wenn t0 nicht indexierbar ist. Ähnlich für AR (p) - Verfahren höherer Ordnung kann t von p bis 100 in dieser Schleife reichen. Wir können die Realisierung dieses Modells und des damit verbundenen Korrelogramms mit der Layout-Funktion abbilden: Lasst uns nun versuchen, einen AR (p) Prozess an die simulierten Daten anzuzeigen, die wir gerade generiert haben, um zu sehen, ob wir die zugrunde liegenden Parameter wiederherstellen können. Sie können sich erinnern, dass wir ein ähnliches Verfahren in den Artikel über weiße Lärm und zufällige Wanderungen durchgeführt. Wie sich herausstellt, ist R ein nützliches Kommando für autoregressive Modelle. Wir können diese Methode verwenden, um uns zuerst die beste Ordnung p des Modells zu erzählen (wie von der AIC oben bestimmt) und geben uns Parameterschätzungen für das Alphai, die wir dann verwenden können, um Konfidenzintervalle zu bilden. Für die Vollständigkeit können wir die x-Serie neu erstellen: Jetzt verwenden wir den Befehl ar, um ein autoregressives Modell auf unser simuliertes AR (1) - Prozess zu setzen, wobei die Maximalwahrscheinlichkeitsschätzung (MLE) als Anpassungsverfahren verwendet wird. Wir werden zunächst die bestmöglichste Bestellung extrahieren: Der Befehl ar hat erfolgreich festgestellt, dass unser zugrunde liegendes Zeitreihenmodell ein AR (1) Prozess ist. Wir können dann die Alpha-Parameter (s) Schätzungen: Die MLE-Prozedur hat eine Schätzung, Hut 0.523, die etwas niedriger als der wahre Wert von alpha1 0.6 produziert hat. Schließlich können wir den Standardfehler (mit der asymptotischen Varianz) verwenden, um 95 Konfidenzintervalle um den zugrunde liegenden Parameter zu konstruieren. Um dies zu erreichen, erstellen wir einfach einen Vektor c (-1,96, 1,96) und multiplizieren Sie ihn dann mit dem Standardfehler: Der wahre Parameter fällt in das 95 Konfidenzintervall, wie es von der Tatsache erwartet wurde, dass wir die Realisierung aus dem Modell speziell generiert haben . Wie wäre es, wenn wir das Alpha1 -0.6 ändern. Wie vorher können wir ein AR (p) - Modell mit ar: Einmal wieder erholen wir die richtige Reihenfolge des Modells, mit einem sehr guten Schätzhut -0.597 von alpha1-0.6. Wir sehen auch, dass der wahre Parameter wieder in das 95 Konfidenzintervall fällt. Wir können unseren autoregressiven Prozessen noch mehr Komplexität hinzufügen, indem wir ein Modell der Ordnung 2 simulieren. Insbesondere werden wir alpha10.666 setzen, aber auch alpha2 -0.333 setzen. Erben Sie den vollständigen Code, um die Realisierung zu simulieren und zu plotten, sowie das Korrelogramm für eine solche Serie: Wie zuvor können wir sehen, dass sich das Korrelogramm deutlich von dem des weißen Rauschens unterscheidet, wie es erwartet wird. Es gibt statistisch signifikante Peaks bei k1, k3 und k4. Wieder einmal würden wir den Befehl ar verwenden, um ein AR (p) Modell an unsere zugrunde liegende AR (2) Realisierung anzupassen. Die Prozedur ist ähnlich wie bei der AR (1) - Anpassung: Die korrekte Reihenfolge wurde wiederhergestellt und die Parameter-Schätzungen haben 0.696 und Hut -0.395 sind nicht zu weit von den wahren Parameterwerten von alpha10.666 und alpha2-0.333. Beachten Sie, dass wir eine Konvergenz-Warnmeldung erhalten. Beachten Sie auch, dass R tatsächlich die arima0-Funktion verwendet, um das AR-Modell zu berechnen. Auch in den nachfolgenden Artikeln sind AR (p) Modelle einfach ARIMA (p, 0, 0) Modelle und somit ein AR Modell ist ein Spezialfall von ARIMA ohne Moving Average (MA) Komponente. Nun auch mit dem arima Befehl, um Konfidenzintervalle um mehrere Parameter zu erstellen, weshalb wir uns vernachlässigt haben, es hier zu tun. Jetzt, wo wir einige simulierte Daten erstellt haben, ist es Zeit, die AR (p) - Modelle auf finanzielle Asset-Zeitreihen anzuwenden. Financial Data Amazon Inc. Lets beginnen mit dem Erwerb der Aktienkurs für Amazon (AMZN) mit quantmod wie im letzten Artikel: Die erste Aufgabe ist es, immer den Preis für eine kurze visuelle Inspektion zu plotten. In diesem Fall gut mit den täglichen Schlusskursen: Youll bemerken, dass Quantmod fügt einige Formatierung für uns, nämlich das Datum, und ein etwas hübscheres Diagramm als die üblichen R-Charts: Wir werden jetzt die logarithmischen Rückkehr von AMZN und dann die erste nehmen - Unterschied zwischen der Serie, um die ursprüngliche Preisreihe von einer nicht stationären Serie in eine (potentiell) stationäre zu konvertieren. Dies ermöglicht es uns, Äpfel mit Äpfeln zwischen Aktien, Indizes oder anderen Vermögenswerten zu vergleichen, um sie in späteren multivariaten Statistiken zu verwenden, wie zum Beispiel bei der Berechnung einer Kovarianzmatrix. Wenn Sie eine ausführliche Erklärung wünschen, warum Log-Retouren vorzuziehen sind, schauen Sie sich diesen Artikel bei Quantivity an. Lets erstellen eine neue Serie, amznrt. Um unsere differenzierten Log-Renditen zu halten: Wieder einmal können wir die Serie zeichnen: In diesem Stadium wollen wir das Korrelogramm zeichnen. Wollte sehen, ob die differenzierte Serie wie weißes Rauschen aussieht. Wenn es dann nicht geht, gibt es eine unerklärliche serielle Korrelation, die durch ein autoregressives Modell erklärt werden könnte. Wir bemerken einen statistisch signifikanten Peak bei k2. Daher gibt es eine vernünftige Möglichkeit einer unerklärlichen seriellen Korrelation. Seien Sie sich bewusst, dass dies aufgrund der Probenahme Bias. Als solches können wir versuchen, ein AR (p) - Modell an die Serie anzupassen und Konfidenzintervalle für die Parameter zu erzeugen: Die Anpassung des ar autoregressiven Modells an die erste Reihenfolge differenzierte Reihe von Log-Preisen erzeugt ein AR (2) - Modell mit Hut -0.0278 Und Hut -0.0687. Ive auch die aysmptotische Varianz ausgeben, damit wir Standardfehler für die Parameter berechnen und Konfidenzintervalle erzeugen können. Wir wollen sehen, ob null Teil des 95 Konfidenzintervalls ist, als ob es ist, es reduziert unser Vertrauen, dass wir einen wahren zugrunde liegenden AR (2) Prozess für die AMZN Serie haben. Um die Konfidenzintervalle auf der 95-Ebene für jeden Parameter zu berechnen, verwenden wir die folgenden Befehle. Wir nehmen die Quadratwurzel des ersten Elements der asymptotischen Varianzmatrix, um einen Standardfehler zu erzeugen, dann schaffen Sie Konfidenzintervalle, indem wir sie mit -1.96 bzw. 1.96 für die 95-Ebene multiplizieren: Beachten Sie, dass dies bei der Verwendung der Arima-Funktion einfacher wird , Aber gut warten, bis Teil 2 vor der Einführung es richtig. So können wir sehen, dass für alpha1 Null innerhalb des Konfidenzintervalls enthalten ist, während für alpha2 Null nicht im Konfidenzintervall enthalten ist. Daher sollten wir sehr vorsichtig sein, wenn wir denken, dass wir wirklich ein zugrunde liegendes generatives AR (2) Modell für AMZN haben. Insbesondere stellen wir fest, dass das autoregressive Modell die Volatilitätsclusterung nicht berücksichtigt, was zu einer Clusterung der seriellen Korrelation in finanziellen Zeitreihen führt. Wenn wir die ARCH - und GARCH-Modelle in späteren Artikeln betrachten, werden wir dies berücksichtigen. Wenn wir die nächste Arima-Funktion im nächsten Artikel nutzen, werden wir Vorhersagen der täglichen Log-Preisreihen machen, um uns erlauben zu können, Trading-Signale zu erstellen. SampP500 US Equity Index Neben den einzelnen Aktien können wir auch den US Equity Index, den SampP500, berücksichtigen. Lets bewerben alle vorherigen Befehle auf diese Serie und produzieren die Plots wie bisher: Wir können die Preise aufzeichnen: Wie schon früher, schaffen Sie den ersten Auftragsunterschied der Log-Schlusspreise: Noch einmal können wir die Serie zeichnen: Es ist klar Aus dieser Grafik, dass die Volatilität nicht rechtzeitig stationär ist. Dies spiegelt sich auch in der Handlung des Korrelogramms wider. Es gibt viele Peaks, einschließlich k1 und k2, die statistisch signifikant sind über ein weißes Rauschenmodell hinaus. Darüber hinaus sehen wir Beweise für Langzeit-Prozesse, da es einige statistisch signifikante Peaks bei k16, k18 und k21 gibt: Letztendlich benötigen wir ein anspruchsvolleres Modell als ein autoregressives Modell der Ordnung p. Doch in diesem Stadium können wir noch versuchen, ein solches Modell anzupassen. Lets sehen, was wir bekommen, wenn wir es tun: Mit ar produziert ein AR (22) - Modell, dh ein Modell mit 22 Nicht-Null-Parametern Was sagt uns das. Es ist indikativ, dass es in der seriellen Korrelation wahrscheinlich viel komplexer ist als Ein einfaches lineares Modell der vergangenen Preise kann wirklich rechnen. Allerdings wussten wir das schon, weil wir sehen können, dass es in der Volatilität eine signifikante serielle Korrelation gibt. Zum Beispiel betrachten wir die sehr volatile Periode um 2008. Dies motiviert den nächsten Satz von Modellen, nämlich die Moving Average MA (q) und die Autoregressive Moving Average ARMA (p, q). Gut lernen über diese beiden in Teil 2 dieses Artikels. Wie wir immer wieder erwähnen, führen wir uns letztlich zur ARIMA - und GARCH-Familie von Modellen, die beide eine viel bessere Anpassung an die serielle Korrelationskomplexität des Samp500 bieten. Dies ermöglicht es uns, unsere Prognosen deutlich zu verbessern und letztlich mehr rentable Strategien zu produzieren. Just Getting Started mit quantitativen TradingEs gibt eine Reihe von Ansätzen zur Modellierung Zeitreihen. Wir skizzieren einige der häufigsten Ansätze unten. Trend, saisonale, restliche Zerlegungen Ein Ansatz besteht darin, die Zeitreihe in eine Trend-, Saison - und Restkomponente zu zerlegen. Eine dreifache exponentielle Glättung ist ein Beispiel für diesen Ansatz. Ein anderes Beispiel, genannt saisonale Löss, basiert auf lokal gewichteten kleinsten Quadraten und wird von Cleveland (1993) diskutiert. Wir sprechen nicht über jahreszeitlichen Löss in diesem Handbuch. Häufigkeit basierte Methoden Ein weiterer Ansatz, der üblicherweise in wissenschaftlichen und technischen Anwendungen verwendet wird, besteht darin, die Serie im Frequenzbereich zu analysieren. Ein Beispiel für diesen Ansatz bei der Modellierung eines sinusförmigen Typs Datensatz ist in der Strahlablenkung Fallstudie gezeigt. Die spektrale Darstellung ist das primäre Werkzeug für die Frequenzanalyse von Zeitreihen. Autoregressive (AR) - Modelle Ein gemeinsamer Ansatz zur Modellierung univariater Zeitreihen ist das autoregressive (AR) Modell: Xt delta phi1 X phi2 X cdots phip X At, wobei (Xt) die Zeitreihe ist (At) ist weißes Rauschen und Delta Links (1 - sum p phii rechts) mu. Mit (mu) den Prozessmittel bedeuten. Ein autoregressives Modell ist einfach eine lineare Regression des aktuellen Wertes der Serie gegen einen oder mehrere vorherige Werte der Serie. Der Wert von (p) heißt die Reihenfolge des AR-Modells. AR-Modelle können mit einer von verschiedenen Methoden analysiert werden, einschließlich standardmäßiger linearer Quadrate-Techniken. Sie haben auch eine einfache Interpretation. Moving Average (MA) Modelle Ein weiterer gemeinsamer Ansatz zur Modellierung univariater Zeitreihenmodelle ist das gleitende Mittelwert (MA) Modell: Xt mu At - theta1 A - theta2 A - cdots - thetaq A, wobei (Xt) die Zeitreihe ist (mu ) Ist der Mittelwert der Reihe, (A) sind weiße Rauschbegriffe, und (theta1, ldots, thetaq) sind die Parameter des Modells. Der Wert von (q) heißt die Reihenfolge des MA-Modells. Das heißt, ein gleitender Durchschnittsmodell ist konzeptionell eine lineare Regression des aktuellen Wertes der Reihe gegen das weiße Rauschen oder zufällige Schocks eines oder mehrerer vorheriger Werte der Reihe. Die zufälligen Schocks an jedem Punkt werden von der gleichen Verteilung, typischerweise einer Normalverteilung, mit der Position bei Null und konstantem Maßstab angenommen. Die Unterscheidung in diesem Modell ist, dass diese zufälligen Schocks zu zukünftigen Werten der Zeitreihen übertragen werden. Die Anpassung der MA-Schätzungen ist komplizierter als bei AR-Modellen, da die Fehlerterme nicht beobachtbar sind. Dies bedeutet, dass iterative nichtlineare Anpassungsverfahren anstelle von linearen kleinsten Quadraten verwendet werden müssen. MA-Modelle haben auch eine weniger offensichtliche Interpretation als AR-Modelle. Manchmal wird das ACF und PACF darauf hindeuten, dass ein MA-Modell eine bessere Modellwahl wäre und manchmal auch AR - und MA-Begriffe im selben Modell verwendet werden sollten (siehe Abschnitt 6.4.4.5). Beachten Sie jedoch, dass die Fehlertermine nach dem Modell unabhängig sind und den Standardannahmen für einen univariaten Prozess folgen. Box und Jenkins popularisierten einen Ansatz, der den gleitenden Durchschnitt und die autoregressiven Ansätze in dem Buch Time Series Analysis: Prognose und Kontrolle (Box, Jenkins und Reinsel, 1994) kombiniert. Obwohl sowohl autoregressive als auch gleitende durchschnittliche Ansätze bereits bekannt waren (und ursprünglich von Yule untersucht wurden), war der Beitrag von Box und Jenkins in der Entwicklung einer systematischen Methodik zur Identifizierung und Schätzung von Modellen, die beide Ansätze beinhalten könnten. Das macht Box-Jenkins Modelle zu einer leistungsstarken Klasse von Modellen. Die nächsten Abschnitte werden diese Modelle im Detail besprechen.

No comments:

Post a Comment