點上方人工智慧算法與Python大數據 獲取更多乾貨
在右上方 ··· 設為星標 ★,第一時間獲取資源
僅做學術分享,如有侵權,聯繫刪除
轉載於 :機器學習研究院 作者:daydaymoyu 來源:https://zhuanlan.zhihu.com/p/424609116 參考https://bookdown.org/gary_a_napier/time_series_lecture_notes/ChapterOne.html#time-series-modelling
時間序列的定義一個時間序列過程(
time series process )定義為一個隨機過程
,這是一個按時間排序的隨機變量的集合,也就是將每一個時刻 位置的點作為一個隨機變量。 是索引集合(index set ), 決定定義時序過程 以及產生觀測值 的一個時間集合 。其中假定隨機變量(Random variables )用大寫字母表示,即 ,同時隨機變量的值是從一個分布中採樣給出。而且可以為無限多個時間點 定義隨機變量。觀測(Observations )用小寫字母表示,即 ,觀測可以認為是隨機變量的實現。但通常在實際中,我們的觀測點是有限的,因此定義 個觀測是 。時間序列分析的目標給定一組時間序列數據,通常會要求回答一個或多個有關它的問題。時間序列數據出現的主要問題類型取決於數據的上下文以及收集數據的原因,下面給出一些常見的目標:描述 :描述時間序列的主要特徵,例如:序列是遞增還是遞減;是否有季節性模式(例如,夏季較高,冬季較低);第二個解釋變量如何影響時間序列的值?監控 :檢測時間序列行為何時發生變化,例如銷售額突然下降,或者突然出現峰值。預測 :從當前值預測時間序列的未來值,並量化這些預測中的不確定性,比如根據今天的氣溫預測未來幾天的溫度。回歸 :給定多個時間序列以及與這些序列對應的一個額外的值,找到其中的關係。分類 :給定多個時間序列,將它們按照相似性進行分類。時間序列的建模趨勢(Trend )- 趨勢體現的是時間序列數據均值隨時間的長期變化。如果趨勢存在,它的形狀通常會引起人們的興趣,儘管它可能不是線性的。季節性影響(Seasonal effect )- 季節性影響是時間序列中以固定間隔重複的趨勢。嚴格來說,季節性效應只是每年都會重複的效應,但在更一般的情況下,可以更廣泛地使用該術語來表示任何定期重複的模式。無法解釋的變化(Unexplained variation )- 無法解釋的變化是在任何趨勢和季節性變化被去除後時間序列中其餘的變化。這種無法解釋的變化可能是獨立的,也可能表現出短期相關性。因此,時間序列數據的簡單模型可以用兩種方式表示,分別為加法模型(Additive ): 乘法模型(Multiplicative ): 其中 表示趨勢, 表示季節, 表示無法解釋的變化。在此教程中,給出了兩個例子。即當趨勢和季節性變化獨立作用時,加法模型是合適的,而如果季節性效應的大小取決於趨勢的大小,則需要乘法模型。當趨勢和季節性變化獨立作用時,加法模型是合適的,而如果季節性效應的大小取決於趨勢的大小,則需要乘法模型,簡單的示意圖如下:Example of additive model 時間序列的特性給定一個時間序列過程 和觀測 ,通常我們會使用以下屬性描述其特徵。對所有的 ,時間序列過程的均值函數(mean function )定義為對於真實的數據,通常我們假定均值為一個常數,因此可以估計均值為如果數據的平均值不是恆定的,例如由於趨勢或季節性變化的存在,則應該用其他方法進行估計,這部分內容後面再講。對所有的 ,時間序列過程的方差函數(variance function )定義為對於真實的數據,通常我們假定方差也為一個常數,因此可以估計方差為自協方差和自相關函數(Autocovariance and autocorrelation functions)回憶對任意的隨機變量 和 ,協方差以及相關性測量通過以下定義給出相關性是介於 -1 和 1 之間的協方差的縮放表現,其中 1 表示強正相關,0 表示獨立性,-1 表示強負相關,但通常相關性指的是線性的相關性。對於一個時間序列過程,定義隨機變量 是在不同時間點的測量。它們之間的依賴關係由自協方差和自相關函數描述,添加「auto」前綴以表示兩個隨機變量測量具有相同的數量。對於所有的 ,自協方差函數(autocovariance function (ACVF) )定義為:對於所有的 ,自相關函數(autocorrelation function (ACF) )定義為:以上定義都是理想的情況,也就是在時刻 和時刻 均有若干個採樣數據,這樣才能計算 或者 ,而真實的場景下這一條件卻很難實現,因為通常在某一個時間點,只能獲得1個採樣點的數據。為了計算真實數據的自協方差和自相關函數,通常假設數據中的依賴結構不隨時間變化 。也就是說我們假設也就是說在這個假設下,影響協方差的唯一因素是兩個時間序列中隨機變量的距離 ,這個距離通常稱為滯後lag 。以上計算方式的前提是假設數據中的依賴結構不隨時間變化,協方差不依賴於具體的位置 ,只依賴於滯後 。Estimating the autocorrelation function對於時間序列數據,自協方差和自相關函數測量的是單個時間序列 與其滯後lag 之間的協方差/相關性。這裡給出 , 以及 時自協方差及自相關函數的計算過程。lag=0在滯後 0 (lag=0)處樣本的自協方差函數定義為 ,它是 與 之間的協方差。根據上面的公式,計算方式為因此,滯後 0 處的樣本自協方差函數是樣本方差。類似地,滯後0處的自相關性為lag=1在滯後 1(lag=1)處的樣本自協方差函數是時間序列 和 協方差。它是序列與自身移動一個時間點序列的協方差,根據以上公式,協方差和自相關係數計算方式為在實際應用中,通常假設前 n-1 個觀測值的均值和方差等於最後 n-1 個觀測值的均值和方差,這樣可以簡化上述表達式。此外,對於協方差公式,使用除數 n 而不是無偏 n-2。顯然,當 n 很大時,改變除數對計算幾乎沒有實際影響。lag= 以下連結中找到有助於理解自協方差和自相關函數的交互式示例。https://shiny.maths-stats.gla.ac.uk/gnapier/Time_Series_ACF/shiny.maths-stats.gla.ac.uk/gnapier/Time_Series_ACF/Correlogram圖的解釋Correlogram講自相關函數的計算結果作為縱軸,將滯後 作為橫軸的一種圖。可以很直觀的看出時間序列不同lag之間的相關性。Correlogram會告訴時間序列分析師很多關於時間序列的信息,包括趨勢的存在、季節性變化和短期相關性。這裡用一些例子來說明。Example - purely random data考慮由純隨機過程 生成的時間序列,它沒有趨勢、季節性或短期相關性。原始數據和自相關圖如下所示:當 時, ,因為它是序列與其自身的相關性,通常忽略該值。對於沒有相關性的純隨機序列,通常在滯後 0 處等於 1,但在其他滯後處沒有明顯的相關性證據。Example - short-term correlation沒有趨勢或季節性但具有短期相關性的時間序列數據如下圖所示,並且在前幾個滯後時具有顯著正的自相關,隨後在較大滯後時值接近零。Example - alternating data沒有趨勢或季節性但在大值和小值之間交替的時間序列數據顯示下圖中,並且在奇數滯後時具有負自相關,在偶數滯後時具有正自相關。隨著滯後的增加,自相關越來越接近於零。Example - data with a trend具有趨勢的時間序列數據如下圖所示,並且在滯後偏大時仍然具有正自相關。如果趨勢隨時間下降,則會觀察到相同的相關圖。Example - data with a seasonal effect具有季節性影響的時間序列數據如下圖所示,並且在相關圖中具有規則的季節性模式。Example - data with a trend and a seasonal effect具有趨勢和季節性影響的時間序列數據顯示在下圖中,並且在相關圖中具有規則的季節性模式,由於趨勢的存在,相關圖通常具有正值。平穩性分析嚴格平穩strictly stationary or strongly stationary 嚴格平穩是一種非常苛刻的條件,給定時序過程 ,對於所有的 以及值 ,如果聯合分布 與 相同,則該序列是嚴格平穩的。換句話說,換句話說,將序列的時間原點移動 對其聯合分布沒有影響。當 ,嚴格平穩意味著對於所有的 ,都有 。這也說明時間序列的均值和方差為常數,即 這反過來意味著理論協方差和相關函數隻取決於滯後而不是原始位置。嚴格平穩是非常嚴格的,而真實過程很少符合。一般只有純粹的隨機過程嚴格平穩,因此使用的更多的是弱平穩。weakly stationary
給定時序過程 ,如果該時間序列過程是弱平穩的的,那麼它需要滿足以下條件:嚴格平穩性和弱平穩性之間的區別在於,後者僅假設前兩個矩(均值和方差)隨時間是恆定的,而前者假設較高的矩也是恆定的。Example其中 是均為為 0 且方差為 的隨機過程。那麼 是非平穩 的。因為聲明:本內容來源網絡,版權屬於原作者
圖片來源網絡,不代表本公眾號立場。如有侵權,聯繫刪除
AI博士私人微信,還有少量空位
如何畫出漂亮的深度學習模型圖?
如何畫出漂亮的神經網絡圖?
一文讀懂深度學習中的各種卷積
點個在看支持一下吧