大數據分析「帕累託法則」的作用

2020-12-04 千家智客

  數據科學中的「帕累託法則」。對於「大數據」(Big data)研究機構Gartner給出了這樣的定義。「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。

 

  帕累託法則是一個非常簡單但功能非常強大的管理工具。企業高管長期以來一直將其用於戰略規劃和決策。諸如20%的商店產生80%的收入,20%的軟體錯誤導致80%的系統崩潰,20%的產品功能驅動80%的銷售等,受到廣泛歡迎,善於分析的企業嘗試在他們自己的商業世界中找到這樣的帕累託法則。

 

  一個多世紀以前,政治經濟學教授維弗雷多·帕累託發表了他對於社會財富分配的研究結果。他所觀察到的嚴重的不平等,例如20%的人擁有80%的財富,令經濟學家、社會學家和政治科學家感到驚訝。在過去的一個世紀中,不同領域的幾位先驅者在包括商業在內的幾種層面上觀察到這種不成比例的分布。關鍵性的那部分少數的投入/原因(如20%的投入)直接影響了絕大多數的產出/效應(如80%的產出),此理論被稱為帕累託法則——也稱為80-20規則。

 

  帕累託法則是一個非常簡單但功能非常強大的管理工具。企業高管長期以來一直將其用於戰略規劃和決策。諸如20%的商店產生80%的收入,20%的軟體錯誤導致80%的系統崩潰,20%的產品功能驅動80%的銷售等,受到廣泛歡迎,善於分析的企業嘗試在他們自己的商業世界中找到這樣的帕累託法則。通過這種方式,他們可以計劃並確定其行動的優先順序。事實上,今天,數據科學在篩選大量複雜數據,以助識別未來帕累託場景方面發揮著重要作用。

 

  不僅數據科學有助於為企業預測新的帕累託場景,但站在數據科學本身的角度看,這一技術也可以從帕累託法則中受益。利用該法則可以使數據科學顯著提高效率。在本文中,筆者將分享一些方法,作為數據科學家,我們可以利用帕累託法則的力量來指導我們的日常工作。

 

  項目優先級排序

 

  如果您是數據科學部門領導/經理,您不可避免地需要幫助為您的組織制定分析策略。雖然不同的業務領導者會提出各自不同的需求,但您必須闡明所有這些組織(或業務單位)需求,並為之制定路線圖,確定優先級。一種簡單的方法是量化解決每個分析需求所能獲得的價值,並按值的遞減順序對它們進行排序。您經常會注意到,少部分的問題/用例擁有不成比例的價值(帕累託法則),應優先於其他問題/優先級。實際上,更好的方法是量化解決/實現每個問題/用例的複雜性,並基於價值和複雜性之間的權衡來優先考慮它們(例如,將它們放在x軸為複雜性,y軸為價值的坐標圖上)。

 

  問題範圍

 

  業務問題往往是模糊和非結構化的,數據科學家的工作需要確定正確的範圍。範圍界定通常需要將注意力集中在問題最重要的方面,並忽略那些價值較低的方面。首先,查看輸出/效果在輸入/原因上的分布將有助於我們了解問題空間中是否存在高級帕累託。隨後,我們可以選擇僅查看某些輸入/輸出或原因/結果。例如,如果20%的商店產生80%的銷售額,我們可以將其餘商店分組到一個集群中並進行分析而不是單獨評估它們。

 

  範圍界定還涉及到對風險的評估——更深層次的評估通常會告訴我們,最重要的項目會帶來更高的風險,而最底層的項目發生的可能性很小(帕累託法則)。我們可以將時間和精力放在一些主要風險上,而不是解決所有風險。

 

  數據規劃

 

  複雜的業務問題需要的數據超出分析數據集中可用的數據。我們需要請求訪問、購買、獲取、抓取、解析、處理和集成來自內部/外部源的數據。它們具有不同的形狀、大小、健康狀態、複雜性、成本等。等待整個數據計劃落實到位,可能會導致項目的延遲不受我們控制。有一種簡單的方法是,根據這些數據對最終解決方案的價值,對這些數據需求進行分類,例如絕對必須擁有、有好處和可選的(帕累託法則)。這將幫助我們專注於絕對必須擁有的東西,而不是被可選的東西分心或拖延。除了價值之外,考慮數據獲取的成本、時間和精力方面的因素將幫助我們更好地對數據規劃工作進行優先級排序。

 

  分析

 

  有種說法是,一名工匠只用20%的工具就能完成80%的工作。這也適用於我們的數據科學家。我們傾向於使用很少的分析和模型來完成我們工作的重要部分(帕累託法則),而其他技術的使用頻率則要低得多。探索性分析中的典型示例包括變量分布、異常檢測、缺失值插補、相關矩陣等。類似地,建模階段的示例包括k折交叉驗證,實際VS預測圖,錯誤分類表,超參數調整分析等構建使用/訪問/實施這些分析的微型自動化(例如庫,代碼片段,可執行文件,UI)可以在分析過程中帶來顯著的效率。

 

  建模

 

  在建模階段,我們不需要很長時間就可以在過程的早期找到一個合理的工作模型。而且到目前為止,大部分提高精度的工作就已經完成了(帕累託法則)。剩下的過程是對模型進行微調,並增加精度。有時,為了使解決方案對業務可行,需要進一步增加精確度。在其他情況下,模型微調對最終的洞察/主張沒有多大價值。作為數據科學家,我們需要認識到這些情況,這樣我們就知道該在哪裡相應地劃定界限。

 

  業務溝通

 

  今天的數據科學生態系統是多學科的。項目團隊可能包括業務分析師、機器學習科學家、大數據工程師、軟體開發人員和多個業務相關人員。這樣的團隊成功的一個關鍵驅動力是溝通。作為一個努力工作的人,你可能會需要溝通所有的工作——挑戰、分析、模型、見解等等。然而,在當今信息過載的世界裡,採取這樣的方法將無濟於事。我們需要認識到「有用的多但重要的少」(帕累託法則),並利用這一認識來簡化我們交流的信息量。同樣,我們呈現和突出的信息需要根據目標受眾(業務涉眾vs數據科學家)進行定製。

 

  帕累託法則與我們而言是一個強大的工具,以正確的方式使用,可以幫助我們整理和優化我們的工作。

 

  大數據分析「帕累託法則」的作用.中琛魔方大數據(www.zcmorefun.com)表示數據科學是指能夠利用科學方法和數據挖掘工具,以數字方式再現和理解複雜的數字、符號、文本、URL、音頻或視頻信息,並能發現新的數據洞察力的工程師或專家(不同於統計學家或分析師)。


相關焦點

  • Excel中帕累託圖是什麼?如何製作帕累託圖進行數據分析?
    也叫做帕累託法則。帕累託圖(也叫做柏拉圖)就是專門分析二八定律的圖表。比如排查質量問題,我們只要花費少量精力和時間解決累計佔比達到80%的導致問題的因素,就能顯著改善質量問題,沒必要花費更多的精力和時間去解決20%的問題。
  • 一分鐘教你學會帕累託圖
    什麼是帕累託圖?帕累託圖是一種按發生頻率大小順序繪製的特殊直方圖,故又名排列圖、主次圖。帕累託圖與帕累託法則一脈相承,帕累託法則認為,相對少量的原因通常造成大多數的問題或缺陷,即80%的問題是由20%的原因導致的,故又稱二八法則或80/20法則。帕累託圖也用於匯總各種類型的數據。
  • 工作效率提升技巧二:帕累託法則
    帕累託法則,就是我們常說的二八法則。這個法則,可以應用的領域很多。但現實生活中,往往這個法則用在了聊天或者抬槓之中。事實上,這個法則可以很好的提升我們的工作效率。01二八法則(帕累託法則),是一個猶太法則。這個法則原意,是按照事情的重要程度安排事情順序時使用。也就是重要的少數,與瑣碎的多數,權衡之道。有些人不太相信二八法則,覺得太絕對了。
  • 七種常見的數據分析法(一):帕累託法則
    什麼是帕累託法則?帕累託法則其實就是我們常說的二八法則,經濟學定律中說80%的財富掌握在20%的人手中,而在運營中可以發現,80%的貢獻度來自於20%的用戶。這張圖中體現了2個法則,也就是二八法則和長尾理論,在數據分析中,建議將這個兩個理論合起來用。但實際上呢,二八法則和長尾理論是相對的,二八法則告訴我們說,你要重視頭部用戶,也就是能產生80%收益的那20%的用戶或商品,而長尾理論告訴我們說要重視長尾效應,也就是剩餘那20%的收益。
  • 學會利用「帕累託法則」,讓工作更高效一點
    本文作者Dipesh Jain提供了一個經濟學上非常常用的一個概念:帕累託法則來解釋、解決這個問題。原文標題Use the Pareto principle to simplify your life。
  • 職場精英思維模式:帕累託80/20高效法則!(附帶方法)
    二八效應即80/20法則(The 80/20 Rule)。這個原理是由十九世紀末期與二十世紀初期的義大利經濟學家兼社會學家帕累託提出的。它的大意是:在任何特定群體中,重要的因子通常只佔少數,而不重要的因子則佔多數,因此只要能控制具有重要性的少數因子即能控制全局。
  • 對於無法定量分析的需求,產品經理靠「帕累託改進」判斷
    帕累託改進是什麼?是指在不損害任何一個人利益的同時,提升至少一個人的境遇。若我們持續做帕累託改進,直到沒有辦法在不損害任何一個人利益的同時,提升至少一個人的境遇,這樣的終極情況稱為帕累託最優。那本文就來跟大家談談對於無法定量分析的需求,產品經理怎麼靠「帕累託改進」進行判斷。
  • QM數據報告:美圖秀秀、美顏相機印證帕累託法則 穩居行業前兩位
    移動網際網路大數據公司QuestMobile 4月拍照攝影榜App月活排名新鮮出爐,美顏相機依然強勢位列第一,B612咔嘰超越Faceu激萌,上升到第二位,輕顏相機與一甜相機分列四至五位。在數據表現上,美顏相機4月份月活躍用戶5639.49萬,活躍滲透率4.86%。
  • 強大的帕累託分布——其可視化實現方法
    1.帕累託分布帕累託分布是一種冪律概率分布,以義大利土木工程師、經濟學家和社會學家維爾弗雷多·帕累託的名字命名,用來描述社會、科學、地球物理、精算和其他各種可觀察到的現象。帕累託分配有時也被稱為帕累託原則或「80-20」規則,即社會財富的80%掌握在20%的人口手中。
  • 帕累託改進
    所謂帕累託改進(PARETO IMPROVEMENT)是以義大利經濟學家帕累託(Vil-fredoPareto)命名的,並基於帕累託最優(PARE-TOEFFICIENCY)基礎之上。帕累託最優是指在不減少一方福利的情況下,就不可能增加另外一方的福利;而帕累託改進是指在不減少一方的福利時,通過改變現有的資源配置而提高另一方的福利。
  • 孩子明明很努力成績卻不好,巧用帕累託法則改善,學會時間管理
    如果你家孩子也在面臨這樣的問題,那麼不妨試著了解一下帕累託法則,或許能夠讓孩子走出這個魔圈。前不久,朋友打電話來尋求幫助。朋友說:我家孩子今年就要小升初了,可是成績不盡人意。孩子自己也很著急,在學校,基本上都是三點一線的模式,別的同學在嬉戲打鬧,他就坐在座位上看書,甚至有的時候還熬夜學習。
  • 帕累託:一個以創造概念、命題而著稱的思想家
    7月15日 - 1923年8月19日),義大利經濟學家、社會學家,對經濟學,社會學和倫理學做出了很多重要的貢獻,特別是在收入分配的研究和個人選擇的分析中。他提出了帕累託最優的概念,並用無異曲線來幫助發展了個體經濟學領域。他的理論影響了墨索裡尼和義大利法西斯主義的發展。帕累託因對義大利20%的人口擁有80%的財產的觀察而著名,後來被約瑟夫朱蘭和其他人概括為帕累託法則(80/20法則),後來進一步概括為帕累託分布的概念。
  • 斯威汽車詮釋「帕累託最優「
    150年前,曾有個叫維弗雷多·帕累託的青年在都靈大學度過了他的大學時光。正如龔大興在SWM斯威G01首發儀式上所說,「天地萬物一體,任何事情都是有聯繫的。」這位叫·帕累託的青年在都靈大學裡的攻讀和思考,日後影響了包括汽車業在內的許多經濟領域,並且與SWM斯威G01產生了奇妙的碰撞與聯繫。
  • 帕累託最優的應用(上)
    帕累託這位老鐵,是義大利非常傑出的經濟學和社會學家,他對經濟學、社會學還有倫理學均做出了很多重要的貢獻。但他最為出名的,還是他創造的帕累託最優這一深刻概念。簡言之,帕累託最優的應用之所以那麼廣泛,是因為它能讓效率達到個人的最大化。
  • 帕累託法則:除了努力,還需要學會時間管理
    簡單來說,他在學習上花了80%的時間,卻只產生了別人用20%的時間就能帶來的效率,這種現象就是"帕累託法則"在小波身上的典型體現。01帕累託法則在學習過程中的體現1. 什麼是帕累託法則。1897年,義大利經濟學者帕累託發現,在任何一組東西中,最重要的只佔約20%,其餘80%儘管是多數,卻是次要的,這就是著名的帕累託法則,又名二八定律。帕累託法則表明,一個人的時間和精力都是非常有限的,要想真正"做好每一件事情",就要學會合理地分配時間和精力。
  • 帕累託法則:20%的人掌握80%的財富,你會是這20%的少數人嗎?
    帕累託分布是義大利經濟學家帕累託提出一條的法則,他主要是告訴我們 :產出與報酬是不平衡的,少數的人做完大部分的工作,而這其中存在著無法解釋的原因。(一)、總有人比我們優秀,我們要和自己比較。在一個國家醫療體系中,20%的人與20%的疾病消家80%的醫療資源,所以這個法則說明:1,多數 只能造成少許的影響 2,少數 而能造成重要的影響,就跟我們常聽見的那句話,真理掌握在少數人手中,是的,在一個群體中精英與笨蛋總是少數,大部分人都是很平凡的。
  • 區塊鏈是否是解決網際網路帕累託困境的最終答案?
    簡簡單單一句話,就將帕累託最優最精華的部分概括到位,即在帕累託最優的條件下,如果一方想要獲得更大的利益,代價只能是損害另一方的利益,別無他法。帕累託最優是描述經濟效率和收入分配方式的一種狀態,當然這種狀態是屬於理想態,這是一種幾乎無法實現的「烏託邦」。
  • 善用「帕累託法則」,讓孩子學會時間管理,在點滴中提高學習效率
    但如果家長能夠善用"帕累託法則"的話,不僅孩子的學習效率會提高,生活惡習也會得到改善。"帕累託法則"又稱作"二八定律",指的是"重要的少數與瑣碎的多數",即在任何特定群體中,只要能控制具有重要性的少數因子即能控制全局。20%的投入和努力產生80%的效益。其本質就是強調時間管理的重要性。
  • 【地質帕累託,見證GI的「數學地質」情懷】地質帕累託,是入門,更是致力於「新一代數學地質」的情懷.
    引子:地質帕累託(也稱廣義帕萊託)模型,用於描述同一區帶內油氣藏(圈閉)的規模分布,是金老師上世紀90年代留俄期間提出。
  • 異地高考改革能符合「帕累託最優原則」嗎?
    那麼這個「帕累託最優原則」到底是什麼?周光禮並沒有解釋,工人日報也沒有作出說明,他們以為我們老百姓什麼都懂呢?晨霧不知道我們的家長中有多少懂得「帕累託最優原則」的?晨霧是1985年的碩士,這也是第一次接觸「帕累託最優原則」這個概念。現在大致弄明白了-- 假如搞不清楚這個名詞的含義,就不可能完全理解周光禮這篇《平等對待所有利益相關者》觀點的含義。