如何找到好的主題模型量化評價指標?這是一份熱門方法總結

2020-12-05 澎湃新聞

原創 Synced 機器之心

機器之心分析師網絡

分析師:王子嘉

編輯: H4O

基於統計學的主題模型諸如 LDA(Latent Dirichlet Allocation),Biterm 的應用使得針對大量文本進行信息的總結提取成為可能。但是提取的主題到底質量如何,如何進行量化分析和評價,仍然沒有確定的標準。

同時,隨著神經網絡的發展,encoding-decoding, GAN 這種非監督模型開始進入到主題模型的應用中來,如何判斷這些模型產生的主題有效性就更顯得重要了。同時,這些神經網絡本身也可以作為評測的方法之一。

本文就主題模型的評價指標進行討論,對當下比較熱門的評價方法進行總結,並對未來這一領域可能的發展方向進行展望。

1 主題模型

宏觀上講,主題模型就是用來在一系列文檔中發現抽象主題的一種統計模型,一般來說,這些主題是由一組詞表示了。如果一篇文章有一個中心思想,那麼一些特定詞語會更頻繁的出現。比方說,如果一篇文章是在講狗的,那「狗」和「骨頭」等詞出現的頻率會高些。如果一篇文章是在講貓的,那「貓」和「魚」等詞出現的頻率會高些。而有些詞例如「這個」、「和」大概在兩篇文章中出現的頻率會大致相等。如果一篇文章 10% 和貓有關,90% 和狗有關,那麼和狗相關的關鍵字出現的次數大概會是和貓相關的關鍵字出現次數的 9 倍。而一個主題模型則會用數學框架來體現文檔的這種特點。

如圖 1 所示,最左邊的就是各個主題(提前確定好的),然後在文中不同的顏色對應不同的主題,比如黃色可能對應狗,那麼文中跟狗相關的詞都會標成黃色,這樣最後就能獲得一個各個主題可能的主題分布。

圖 1:主題模型(圖源:https://medium.com/@tengyuanchang/%E7%9B%B4%E8%A7%80%E7%90%86%E8%A7%A3-lda-latent-dirichlet-allocation-%E8%88%87%E6%96%87%E4%BB%B6%E4%B8%BB%E9%A1%8C%E6%A8%A1%E5%9E%8B-ab4f26c27184)

本文主要是介紹主題模型的量化評價指標,因此不對主題模型做過多解釋。如果對主題模型沒有什麼基礎的,可以看一下機器之心發過的一篇比較適合入門的教程,有需要可以自取。同時,除了教程中提到的這些概率模型,一些深度學習模型(GAN, Encoding-Decoding 等)也開始進入這一領域,比如基於 GAN 的 ATM(Adversarial-neural Topic Model)就有不錯的表現。

觀察上文提到的那些主題模型,可以發現不管是概率模型 LDA,還是基於深度學習模型 ATM,都面臨一個問題,那就是這些模型該怎麼去評價,這些模型提取出的主題真的有用嗎?換句話說,這些模型提取出的東西真的能表達一個主題嗎?舉個很簡單的例子,當主題模型提取出一個主題(很多詞)時,如果這麼模型是好的,那麼這些詞一定是能表達同一個主題的,如果不好的話那這些詞就是貌合神離。一般來說,主題越多,我們得到的結果就越有分辨性,但是對應的,當主題變多時,結果毫無意義的情況就更加普遍,有些主題只有幾個詞,而且根本詞不對題。除此之外,經過一些專家的實驗,發現貌合神離的情況主要有以下四種:

a. 通過詞對聯繫傳遞後才聯繫在一起的主題。比如說,「糖」,「甘蔗」和「糖醋排骨」,糖產生自甘蔗(主題可以是「甜食」),糖醋排骨中加了糖(主題可以是「料理」),糖醋排骨跟甘蔗卻很難組成一個主題。但是在關係傳遞中(通過「糖」聯繫在一起),這三個詞被放到了同一個主題中。

b. 異常詞。由於算法錯誤或其他什麼原因導致完全不相干的詞出現在這個主題中。

c. 關係不明。詞之間沒有很明確的聯繫。

d. 不平衡。詞之間的聯繫都很明確,但是詞的意義都很寬泛,比如「學科」和「作業」,很難確定一個很明確的主題。

本文剩下的部分首先對兩類評價模型進行介紹,然後分析了這些評價模型的效果,最後對評價模型的發展進行了展望。

2 利用模型中的知識評價主題模型

目前評價的方法大部分都利用了一些參數或者是詞之間的聯繫來確定模型的優劣,很少有直接利用模型中獲得的東西來衡量主題模型的。Xing [4] 最近提出了幾種基於 Gibbs Sampling 過程中估算出的分布進行評價的方式。

2.1 主題穩定性

在 LDA 的 Gibbs Sampling 的過程中會產生(估算)兩個分布——一個是給定文檔時主題的分布,另一個是給定主題時詞的分布 (Φ),而主題穩定性主要考慮的就是第二個分布。

如公式所示,對於一個給定的主題 k,要計算其所有 Gibbs Sampler 提取出的詞分布的平均值與各個 Gibbs Sampler 提取的詞分布的相似度 (原論文 [4] 中使用了 cosine similarity, Euclidean distance, KL-divergence 以及 Jaccard similarity 來計算這個相似度),取和後就得到了這個主題的主題穩定度。

通過公式可以很清晰的看出,相較於前面的計算方式,主題穩定性並不需要參數和多餘的語料庫。然而,有些常用詞的詞頻很高,因此出現在主題中時主題的穩定度會很高,但是它們跟主題卻並不相關,這也就導致一些很差的主題有很高的主題穩定度。

2.2 主題離散度

在前一節中提到過,Gibbs Sampling 產生了兩個分布,主題穩定性使用了第二個分布,也就是通過詞的角度來判斷主題的優劣。而本節的離散度使用的則是第一個分布,也就是說我們的目光轉向了文檔這一層次。通常來說,這個的參數是通過對多個 Gibbs Sampler 的結果取平均而得到的。同時,從這些 Gibbs Sampler 的結果中,我們還可以得到他們的標準方差(standard deviation)。但是標準方差太過敏感,於是為了能夠獲得一個更穩定的結果,我們還可以用平均值除以偏差,以得到變異係數(coefficient of variance,cv)。按常理說,均值和變異係數都可以用來辨別一個主題的好壞,好主題的均值和 cv 應該相對較小,反之則應該較大。在 NYT 語料庫的測試中,這三個評判標準的效果如下圖所示。

圖 2:通過的得到的三種評測結果(圖源:https://arxiv.org/abs/1909.03524)

圖 2 中,藍色代表好主題(3.4 分),橘色代表差主題(1 分),可以看到只有 cv 對於兩個主題的區分度最大,而平均值(mu)和標準方差(sigma)中,藍色和橘色的區分度並不大,也就是說很難分辨出好主題和差主題。

因此,cv 是表徵主題離散度最好的方式,所以某個主題 k 的主題離散度的計算公式可以表達為:

D 表示第 D 篇文章,k 則表示主題 k。

3 模擬人工評測結果

在第一節中提到了主題模型常出現的各種誤差,基於這些誤差,很多人提出了不同的方法,這些方法(包括本文後面提到的)都是為了解決上述一個或多個問題。目前傳統的方法大都是使用了目測或是先驗知識,常見的方法有很多。最直觀的方法就是讓人來判斷提取出的主題好還是不好,但是很明顯,這個方法需要大量的人力物力和時間。因此,人們開始探索如何用公式或是算法來模擬、估計人為判斷的結果。人為判斷的方法主要分為直接方法和間接方法(後文詳述),因此那些模擬人為判斷的算法也就大致可以被分為這兩類。當然這些方法的分類很多,但在本節中介紹的主要是模擬人工測評結果的那一部分,所以分類就按照直接方法和間接方法來分。

有些方法被稱為直接方法,這些方法主要基於語言的內部特性進行判斷,比如說 Newman et al. (2010) 提出的主題連貫性(Topic Coherence)就利用 PMI(Pairwise Pointwise Mutual Information)對主題詞間的連貫性進行計算,後面其他人也對這種連貫性的計算方式進行了改進,但是本質上還是在計算連貫性(會在後文詳述);還有一些方法被稱為間接方法,這些方法不是直接通過語言內部特性進行判斷的,而是採用一些其它的方式,比如在下遊任務中的表現,或是在測試集中的表現(混淆度,perplexity)。就包括。本節剩下的部分就會對這些方法進行詳述。

3.1 混淆度 (perplexity)

簡單來說,混淆度就是利用概率計算某個主題模型在測試集上的表現,混淆度越低,則說明這個主題模型越好。具體來說,就是在給定一個主題分布的情況下,計算某個文檔的 log-likelihood。在下面這個式子裡,Phi 代表給定的主題矩陣,α參數確定主題的分布,w 則指代我們要預測的文章(d,與訓練得到和α的文章的主題相同)。

得到了 log-likelihood 後,perplexity 就很好計算了,公式如下(這裡的分母一般來說就是文章的單詞數):

根據定義可以看出,log-likelihood(log-可能性)越高,也就意味著提取出的主題能表達特定主題的能力越好,這個提取出的主題質量也就越高,混淆度也就越小。但是這裡的 log-likelihood 是沒辦法求的,Wallach09a (http://dirichlet.net/pdf/wallach09evaluation.pdf)中提出了一些對 likelihood 進行估計的方法,感興趣的可以自己看一下,因為其效果並不很好(下面會介紹原因),故而這裡對其計算方法就不做詳述了。

但是為了測試這個方法的有效性,有人在 Amazon Mechanical Turk 平臺上進行了一個大規模實驗。他們在每個話題中找到了基於 perplexity 確定的最有可能的 5 組詞,然後隨機加入了第六組詞,讓參與者找出這組隨機加入的詞。

如果每個參與者都能識別出異常詞,那麼我們可以認為這個提取出的主題是優秀的,可以描述出一個特定的主題。然而,如果許多人把正常的 5 組詞中的一組認成異常詞,這就意味著他們看不出這些詞之間的聯繫有什麼邏輯,我們也就可以認為這個主題不夠好——因為它描述的主題並不明確。這個實驗證明了混淆度的結果與人為判斷的結果不太相關。

3.2 主題連貫性(Coherence)

由於混淆度在很多場景的應用效果不佳,本部分將著重介紹最後一個方法,也就是主題連貫性。主題連貫性主要是用來衡量一個主題內的詞是否是連貫的。那麼這些詞怎麼就算是是連貫的呢?如果這些詞是相互支撐的,那麼這組詞就是連貫的。換句話說,如果把好多個主題的詞放在一起,用完美的聚類器做聚類,那麼同一個主題的詞應該在同一個類別中。根據定義可以發現,第一節中提到的四個問題中的前三個,都可以通過主題連貫性解決。

Newman et al. (2010) 提出使用 PMI 計算主題連貫性後,Mimno et al. (2011) 基於主題連貫性的理念,又使用了一種基於條件概率的方式對連貫性進行計算,Musat et al. (2011) 也在同年提出利用 WordNet 的層級概念來獲取主題間的聯繫;然後,Aletras and Stevenson (2013a) 也提出了一種基於分布相似度的方法來求連貫性。目前來說,比較常見的幾種方法(Roder et al. (2015) 中整理的,在 Gensim 中有打包好的函數,可以直接調用)如下所示(假設有一個主題,包含 {game, sport, ball, team}):

PMI:為了了解其他幾種方式的計算方法,首先要先看一下 PMI 的計算方法(如下圖所示)。在後面的兩個方法中,這裡epsilon 的越小,將會得到越小的結果。這個公式可能看起來有些費解,不過沒關係,可以先放一下,在後面看到例子之後,這個公式就很好理解了。

C_uci:本方法由 University of California Irvine(UCI)的 David Newman 提出,故而稱其為 UCI 方法。本方法的基本原理是基於滑動窗口,對給定主題詞中的所有單詞對(one-set 分割)的點態互信息 (point twise mutual information, PMI) 進行計算。

因此上面提到的示例主題 {game, sport, ball, team} 的 UCI 分數則為:

C_umass:本方法由 University of Massachusetts(UMASS)的 Hanna M. Wallach 等人提出,故而稱其為 UMASS 方法。本方法的基本原理是基於文檔並發計數,利用 one-preceding(每個詞只與位於其前面詞組成詞對)分割和對數條件概率計算連貫度。

因此剛剛的示例主題的 UMass 分數為:

C_npmi:本方法使用歸一化點態互信息 (NPMI) 的,與 C_uci 很類似,只是將 PMI 換成 NPMI,算是 C_uci 的增強版。具體來說,NPMI 的計算方法如下圖所示。

C_v (Coefficient of variance):本方法基於滑動窗口,對主題詞進行 one-set 分割(一個 set 內的任意兩個詞組成詞對進行對比),並使用歸一化點態互信息 (NPMI) 和餘弦相似度來間接獲得連貫度。

C_p:本方法也是基於滑動窗口,但分詞方法為 one-preceding(每個詞只與位於其前面和後面的詞組成詞對),並利用 Fitelson 相關度來表徵連貫度。

3.3 模擬人工判別結果

3.3.1 間接方法

如前文所述,人工判別方法也被分為兩類,一類是直接方法,一類是間接方法。人工判別的間接方法被稱為異常詞檢測,主要就是在主題模型提取出的各個主題中加入一個異常詞,然後讓人來找出這個異常詞。

為了模擬這種間接人工判別的結果,Jey Han Lau(2014)從那些發給人工做判別的主題詞中提取了詞之間的聯繫特徵,提取的方法為以下三種:

然後將這些特徵進行合併,利用 Ranking SVM Regression 來找到異常詞。同時,Jey 還利用了 NPMI 進行詞之間的聯繫特徵進行提取。最終的結果如下圖所示:

相關度比較結果(圖源:https://www.aclweb.org/anthology/E14-1056.pdf)

圖中顯示的是 Jey 的方法(WI-Auto-PMI, WI-Auto-NPMI)與人工判別(WI-Human)的關聯度,可以看到這些方法與人工判別得到的結果還是比較一致的。

3.3.2 直接方法

另外一種人工方法叫直接方法,這種方法就比較簡單粗暴,就是讓人直接對各個主題進行評分。對於這種直接方法,Jey 使用了以下 4 中方法對主題進行評分:

OC(Observed Coherence)-Auto-PMI:對一個主題內的詞計算 PMI,計算方法其實就是 PMI,如下圖所示:

同樣的,Jey 又使用了 NPMI 對主題進行評分,同時,他又使用了 log conditional probability(LCP)進行計算:

最後,Jey 又使用 Aletras and Stevenson (2013a) 中的 distributional similarity(DS)對主題進行了評分。最終的結果如下圖所示:

相關度比較結果(圖源:https://www.aclweb.org/anthology/E14-1056.pdf)

由上圖可知,這些方法與人工判別的結果在大部分結果上還是很一致的,只有部分結果(PMI 等)沒能得到很好的一致性。

4 展望與總結

本文主要介紹了主題模型存在的一些問題和當前比較流行的主題模型評價方法,也對主流的主題模型評價方法進行了簡單的分類。

對於未來,我主要有兩點想法,一是要適應時代的發展,也就是當前越來越多的數據集和越來越多的小數據集的學習模型,如何更好的利用這些數據集,或者如何找到合適的小數據集的處理方式都是很不錯的嘗試方向,甚至直接使用監督模型來對主題模型進行評價都可以;第二個就是要時刻記得本質問題,這也是為什麼我要在文章的第一節就提出主題模型常見錯誤的原因,評價方法的本質還是為了找到這些錯誤,站在這些專家的肩膀上,我們可以把這些常見錯誤分而治之,利用不同的模型解決不同的錯誤,或是如何找到這些錯誤的共同特點,從而完成一個更加通用的建模,這些都是這個領域可以探索的方向。當然這個領域的未來發展方向還有很多,我在這裡也只是拋磚引玉。

希望大家喜歡這種探索的過程!

參考文獻

[1] Rui Wang, Deyu Zhou, and Yulan He. ATM: adversarial-neural topic model.CoRR, abs/1811.00265, 2018

[2] Evaluate Topic Models: Latent Dirichlet Allocation (LDA):https://towardsdatascience.com/evaluate-topic-model-in-python-latent-dirichlet-allocation-lda-7d57484bb5d0

[3] Perplexity To Evaluate Topic Models:http://qpleple.com/perplexity-to-evaluate-topic-models/

[4] Linzi Xing and Michael Paul. 2018. Diagnosing and improving topic models by analyzing posterior variability. In AAAI Conference on Artificial Intelligence (AAAI-18), pages 6005–6012.

[5] Michael Roder, Andreas Both, and Alexander Hinneburg. 2015. Exploring the space of topic coherence measures. In the Eighth ACM International Conference on Web Search and Data Mining, pages 39– 408.

分析師簡介:本文作者為王子嘉,目前在帝國理工學院人工智慧碩士在讀。主要研究方向為 NLP 的推薦等,喜歡前沿技術,熱愛稀奇古怪的想法,是立志做一個不走尋常路的研究者的男人!

關於機器之心全球分析師網絡 Synced Global Analyst Network

機器之心全球分析師網絡是由機器之心發起的全球性人工智慧專業知識共享網絡。在過去的四年裡,已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家,利用自己的學業工作之餘的閒暇時間,通過線上分享、專欄解讀、知識庫構建、報告發布、評測及項目諮詢等形式與全球 AI 社區共享自己的研究思路、工程經驗及行業洞察等專業知識,並從中獲得了自身的能力成長、經驗積累及職業發展。

感興趣加入機器之心全球分析師網絡?點擊閱讀原文,提交申請閱讀原文

原標題:《如何找到好的主題模型量化評價指標?這是一份熱門方法總結》

閱讀原文

相關焦點

  • 如何從航空業核心指標建立量化模型:一個重要的方法
    中信建投 丁魯明原題《量化基本面選股:從邏輯到模型,航空業投資方法探討》2018.8.10首先,我們預測航空指數相對滬深300超額收益的TTM環比增速方向,準確率達71.74%;其次,我們用這三大指標在航空業做指數擇時模型,以航空指數為標的,單向做多,擇時淨值相對航空指數年化超額收益5.48%;最後,利用三大指標在航空業選股,核心思想是不同個股對指標的敏感度不同,從而選出未來表現好的股票,做指數增強模型,策略淨值相對等權基準年化超額收益8.41%,相對航空指數年化超額收益13.64%。
  • 綜合素質評價的量化路徑
    綜合素質評價重在質性區分不是量化差異   綜合素質評價體系的建構,是從一級指標到二級指標,再到末級指標逐級分解的。分解過程中往往會過於注重指標的操作性,容易忽略對評價內容範圍的清晰界定,即界定「行為域」。從教育測量學的角度看,這是必不可少的測量條件。
  • 量化選股策略——多因子模型(圖)
    [ 多因子模型是量化選股中最重要的一類模型,其基本思想就是找到某些和收益率最相關的指標。並根據該指標,構建一個股票組合,期望該組合在未來的一段時間跑贏或者跑輸指數。多因子模型的原理與此類似,我們只要找到那些對企業的收益率最相關的因子即可。  各種多因子模型核心的區別第一是在因子的選取上,第二是在如何用多因子綜合得到一個最終的判斷。  一般而言,多因子選股模型有兩種判斷方法,一是打分法,二是回歸法。  打分法就是根據各個因子的大小對股票進行打分,然後按照一定的權重加權得到一個總分,根據總分再對股票進行篩選。
  • 譯文|用哪些指標量化你的設計效果?
    但是如何才能向他人證明這樣的設計是真實有效的呢?有哪些方法可以量化設計成果呢?如何向老闆證明在設計上的投入是值得的呢?量化設計效果並不是一件很虛幻的事,下文中,我就會列舉很多實際的方法,來證明設計的價值。
  • 傳播效果四度評價法公布 品牌傳播效果可量化評估
    傳播效果四度評價法是修宇博士於2018年9月提出的一種傳播效果量化評估體系。傳播效果四度評價法以媒體與用戶、社會之間的關係為研究核心,以媒體對用戶的認知、態度、行為的影響和用戶對媒體的影響為研究對象。傳播效果四度評價法將衡量傳播效果的多種表徵轉化為傳播度、影響度、友好度、互動度這四個方面的可測指標,並賦予不同的權重,形成全面系統的傳播效果量化評估體系,實現評估結果的可比性。
  • 學術評價指標也該升級了!
    文 | 圳論評論員 王森近日,有媒體調查發現,部分高校盲目追逐ESI指標,為搶奪這一評價的排名,不惜祭出「奇葩招數」,鑽學術評價體系的空子,有些學校和學者的行為,甚至觸碰到了學術不端的禁區。經常聽到有高校宣稱自己的學科ESI排名進入全球1%。那麼何謂ESI?
  • 如何編制水環境承載能力現狀評價報告?有哪些評價方法?
    二、水資源承載能力評價報告常見方法有哪些?目前,水資源環境現狀承載能力評價報告常見方法是指標體系評價法採用統計方法或其他數學方法,選擇單項和多項指標,反映地區水環境承載力現狀和闡值。它具有直觀、簡便、綜合的特點,但是提出問題的精度和深度不夠具體和細緻。常見的主要有向量模法匯、模糊綜合評價法和主成分分析法等。
  • ResNet壓縮20倍,Facebook提出新型無監督模型壓縮量化方法
    概述 本文旨在解決類似 ResNet [1] 這類卷積網絡的模型過大,推理速度慢的問題。相比較之前的量化方法,本文提出來一個向量量化方法,其主要思想是保存網絡重建之後的輸出而不是原始無壓縮網絡的權重。本文提出的方法無需標註數據,並且使用對 CPU 推理友好的字節對齊碼本。
  • 活動總結:第二屆全球數字資產量化大賽閉幕式|TokenInsight
    如何才能儘可能減小極端行情對量化產品業績造成衝擊?這就是之前說的那幾個指標,交易團隊如何控制這個指標,一是不能有太大的敞口,二是槓桿不能過高,比如313即便是2倍槓桿也有可能爆倉。一定要控制倉位和帶有槓桿帳戶的風險度。不能太貪心,賺比特幣是很難的,比特幣是很珍貴的,減產後比特幣的通脹率是小於法幣通脹率的。
  • 科技評價的定性評價與定量評價
    面對全面提高質量和創新驅動發展的時代要求,科技評價中的問題日益顯現:重數量輕質量、重形式輕內容、重短期輕長遠的現象依然存在;評價指標單一化、評價標準定量化、評價方法簡單化、評價結果功利化等傾向沒有得到根本扭轉;分類評價實施不到位,對科技成果轉化、科學普及等工作激勵不足;科技支撐經濟發展和創新人才培養的導向不夠;開放評價、長效評價機制不夠健全,這些問題將嚴重影響科技工作的持續健康發展。
  • 評價指標為何如此必要?有哪些設計之道?
    不好的評價指標往往充斥著人們對於所描述事物的不信任和二次猜忌,也會因為忽略了事物的某些特徵而讓評價指標不夠全面。通過實踐總結,我關注到規則化(Normalization)通常是一個不錯的技術,它能讓問題的描述和考慮的方面更加的集中、不冗餘,從而構建出一個性能優越的評價方法。
  • 如何做一份漂亮的年終總結報告?教你5個實用套路
    編輯導讀:2020年只剩下最後的兩個月,大家又要開始忙著年終總結和明年計劃了。辛苦了一年,報告中需要如何提現才能拿到更多年終獎呢?本文作者從實際工作出發,結合自身經驗,分享了做好年終總結報告的5個思路方法,供大家借鑑。
  • 移動新聞客戶端個性化推薦系統的用戶評價指標研究
    二是因為目前移動新聞客戶端的使用規模非常龐大,但是用戶體驗究竟如何、個性化推薦是否完善等問題一直無據可依,因此行業空白要求相關研究應當深入開展。 在理論上,本研究結合前人的研究,以用戶滿意度作為效度標準,在顧客感知價值理論和使用與滿足理論的基礎上,從用戶角度出發,重點調查用戶對移動新聞客戶端個性化推薦系統的認知、態度和滿意度,並通過量化數據的方式,梳理出具有顯著相關性的用戶評價指標。
  • 小康社會及現代化指標體系評價方法
    我們根據研究的目的,從眾多指標中選擇有代表性的重要指標,組成指標體系,用科學的計算方法算出綜合指數和類指數,從各個側面進行分析、評價其發展趨勢和發現各種社會問題,就稱它為指標體系。這是美國 社會學家埃斯特斯的研究成果,用44個指標組成,在124個國家排序中,中國居77位。 以上是各種綜合指標體系,還有各種部門和專題類指標體系,如生活質量指數、痛苦指數等,不一一列舉。國標社會指標的評估均反映了人的發展,社會的全面發展和可持續發展 ,評價方法比較科學,是值得我們借鑑的。
  • 訓練負荷的量化:訓練強度和訓練量的評價
    一、訓練強度的量化從某種意義上來說,強度=質量。對速度、力量型項目而言,訓練最終所求的就是最快、最高、最遠、最重的表現。所以強度對這類項目而言很重要。下面介紹一些常用的評價強度的指標。1.RM,最大重複次數RM是力量、或爆發力訓練最常用的評價指標。1RM即運動員只能完成一次的重量,約等於極限重量。
  • 如何寫一份彰顯實力的年終總結?從這三大維度出發是關鍵
    2019年馬上就要過去了,每年到這個時候,身邊不少朋友都會因為年終總結而苦惱起來。今年剛畢業的表妹,第一次寫年終總結,她說公司沒有給規定的模板,上司讓大家以文檔形式上交就可以了,所以打算到網上copy一份,然後大概修改一下交上去就完事了。我趕緊回答,千萬別。
  • 感覺如何被量化——實驗法
    有的用戶反饋說產品「太空了」、 「不上流」、「沒有XX好」……看得我們恨不得對產品徹徹底底、裡裡外外來個開膛破肚。這時,卻覺得無從下手!這是因為用戶的反饋往往停留在用戶的感覺層面上,而感覺對我們產品的意義並不大,感覺背後包含的原因和程度是我們更需要了解和挖掘的,這樣就涉及到一個問題,怎麼將感覺進行量化呢?目前量化感覺的方法有很多,本文以「愛情」為例。
  • 如何用量化方法進行用戶研究
    這個方法最大的有點是:量化。把具體的問題用量表(即常見的1-5分打分)方式量化,進行深層次分析,讓很多用戶「說」出自己也沒意識到的對產品的看法和觀點。本次將以引用論文中調查影響用戶使用移動閱讀產品的原因為例,講述具體方法。1、了解背景及他人的研究情況這一步主要是了解要分析的產品的基本情況,包括了:市場、增長、用戶等方方面面。
  • 港科大博士生侯璐:基於損失函數的神經網絡量化方法|分享總結
    這次分享主要是針對於權重量化這一類方法。近期,在雷鋒網 GAIR 大講堂上,來自香港科技大學的博士生侯璐同學分享了深度學習網絡的權重量化的一些最新進展。以及幾篇ICLR的論文解讀。視頻回放地址:http://www.mooc.ai/open/course/473侯璐,香港科技大學在讀博士,主要研究方向為機器學習。
  • 深度研究:回歸模型評價指標R2_score
    回歸模型的性能的評價指標主要有:RMSE(平方根誤差)、MAE(平均絕對誤差)、MSE(平均平方誤差)、R2_score。但是當量綱不同時,RMSE、MAE、MSE難以衡量模型效果好壞。這就需要用到R2_score,實際使用時,會遇到許多問題,今天我們深度研究一下。預備知識 搞清楚R2_score計算之前,我們還需要了解幾個統計學概念。