我們在前面的系列中多次提到馬爾可夫鏈 (Markov
Chain),它描述了一種狀態序列,其每個狀態值取決於前面有限個狀態。這種模型,對很多實際問題來講是一種很粗略的簡化。在現實生活中,很多事物相互的關係並不能用一條鏈來串起來。它們之間的關係可能是交叉的、錯綜複雜的。比如在下圖中可以看到,心血管疾病和它的成因之間的關係是錯綜複雜的。顯然無法用一個鏈來表示。
我們可以把上述的有向圖看成一個網絡,它就是貝葉斯網絡。其中每個圓圈表示一個狀態。狀態之間的連線表示它們的因果關係。比如從心血管疾病出發到吸菸的弧線表示心血管疾病可能和吸菸有關。當然,這些關係可以有一個量化的可信度 (belief),用一個概率描述。我們可以通過這樣一張網絡估計出一個人的心血管疾病的可能性。在網絡中每個節點概率的計算,可以用貝葉斯公式來進行,貝葉斯網絡因此而得名。由於網絡的每個弧有一個可信度,貝葉斯網絡也被稱作信念網絡 (belief networks)。
和馬爾可夫鏈類似,貝葉斯網絡中的每個狀態值取決於前面有限個狀態。不同的是,貝葉斯網絡比馬爾可夫鏈靈活,它不受馬爾可夫鏈的鏈狀結構的約束,因此可以更準確地描述事件之間的相關性。可以講,馬爾可夫鏈是貝葉斯網絡的特例,而貝葉斯網絡是馬爾可夫鏈的推廣。
使用貝葉斯網絡必須知道各個狀態之間相關的概率。得到這些參數的過程叫做訓練。和訓練馬爾可夫模型一樣,訓練貝葉斯網絡要用一些已知的數據。比如在訓練上面的網絡,需要知道一些心血管疾病和吸菸、家族病史等有關的情況。相比馬爾可夫鏈,貝葉斯網絡的訓練比較複雜,從理論上講,它是一個 NP-complete 問題,也就是說,對於現在的計算機是不可計算的。但是,對於某些應用,這個訓練過程可以簡化,並在計算上實現。
值得一提的是 IBM Watson 研究所的茨威格博士 (Geoffrey Zweig) 和西雅圖華盛頓大學的比爾默 (Jeff Bilmes) 教授完成了一個通用的貝葉斯網絡的工具包,提供給對貝葉斯網絡有興趣的研究者。
貝葉斯網絡在圖像處理、文字處理、支持決策等方面有很多應用。在文字處理方面,語義相近的詞之間的關係可以用一個貝葉斯網絡來描述。我們利用貝葉斯網絡,可以找出近義詞和相關的詞,在 Google 搜索和 Google 廣告中都有直接的應用。
回復以下關鍵字獲取相關文章:
數據挖掘 | 機器學習 | 數學之美 | 遊戲算法 | 生活數學 | 排名算法 | 大型網站技術演進 | 數學名人 | 學科概述 | 計算機科學 | 搜尋引擎
據說好多人都不知道長按圖片也能關注,你知道嗎?