超級菜鳥如何學數據分析?看大牛如何用最接地氣的語言為你指路?

2020-12-28 億信華辰軟體

數據本身是冰冷沒有溫度的,但是如果我們利用好它,通可視化圖表將數據直觀的表現出來,然後對其進行分析,就可以發現背後蘊藏的規律,並將付諸於後續的事情中去,從而對我們的行為有一定的指導意義。

但對於平常人來說,對於數據分析的概念似乎不太明晰,首先我們來看一下數據鏈圖,他用比較接地氣的語言來給我們解釋了數據分析是怎麼做的:

這裡我們選取其中的選菜、做菜、擺盤來詳細展開。

一、如何讓選菜更加高效?(數據源獲取)

關於數據源的獲取,是一個互相促進的過程,有時候可以是人們主觀的想要去搜集一些數據通過分析進而得出結論,另外一種方式可能是去瀏覽一些數據源的網站,這樣反向給自己一些靈感,這個方法在自己「想法枯竭」時還是很好用的。

推薦題主可以去一下這個問題裡去找找數據源,也許會給你一些啟發和選題方向:

1、常用數據公開網站

UCI:該網站目前維護了436個經典的機器學習、數據挖掘數據集,包含分類、聚類、回歸等問題下的多個數據集。

國家數據:數據來源中華人民共和國國家統計局,包含了我國經濟民生等多個方面的數據,並且在月度、季度、年度都有覆蓋,較為全面。

CEIC:涵蓋超過195個國家400多萬個時間序列的數據源,最完整的一套超過128個國家的經濟數據,能夠精確查找GDP、CPI、進口、出口、外資直接投資、零售、銷售以及國際利率等深度數據。

萬得:被譽為中國的Bloomberg,在金融業有著全面的數據覆蓋,金融數據的類目更新非常快,據說很受國內的商業分析者和投資人的親睞。

搜數網:已加載到搜數網站的統計資料達到7,874本,涵蓋1,761,009張統計表格和364,580,479個統計數據,匯集了中國資訊行自92年以來收集的44個行業所有統計和調查數據。

中國統計信息網:國家統計局的官方網站,匯集了全國各級政府各年度的國民經濟和社會發展統計信息,建立了以統計公報為主,統計年鑑、階段發展數據、統計分析、經濟新聞、主要統計指標排行等。

亞馬遜:來自亞馬遜的跨科學雲數據平臺,擁有免費且開源的資料庫,包含化學、生物、經濟等多個領域的數據集。

figshare:研究成果共享平臺,這裡向全世界開放免費的研究成果及科學數據。

github:一個非常全面的數據獲取渠道,包含各個細分領域的資料庫資源,自然科學和社會科學的覆蓋都很全面,適合做研究和數據分析的人員。

這樣一來,我們沒有用到什麼編程和複雜的操作也能高效的得到數據源。

二、研究菜譜讓做菜更加輕鬆(研究模型為自己所用)

分析模型類似於菜譜的功能,初學者可以跟進菜譜的指引也能做出一道大菜來。這裡介紹10個大數據分析模型,供大家思考和使用。

1、戰略分析模型:ROS\RMS矩陣

ROS/RMS(Return Of Sales/Relative MarketShare)矩陣也稱做銷售回報和相對市場份額矩陣,主要是用來分析企業的不同業務單元或產品的發展戰略。該分析模型定義,企業某個業務單元或產品在市場上的銷售額應該與其在市場中的相對份額成正比,並且該業務單元或產品的銷售額越高,該業務單元或產品為企業所提供的銷售回報就應該越高。

數據分析人員根據上圖,可了解企業的某種業務單元或產品的銷售額在由低向高不斷增加,其相對市場份額和銷售回報也在一個「通道」內由低向高不斷增加。如果該業務單元或產品的銷售額增加,而其對企業的銷售回報或相對市場份額降低,那麼企業就不應該在這個時候進入其他領域,應該著重改善這個業務單元或產品的經營狀況。

2、戰略價值分析模型:價值鏈模型

為了提升企業戰略,美國戰略管理學家Porter第一次提出價值鏈分析的方法。企業的競爭優勢來源於企業在設計、生產、營銷、交貨等過程及輔助過程中所進行的許多相互分離的活動,這些活動中的每一種都對企業的相對成本地位有所貢獻,並奠定了企業競爭優勢的基礎。價值鏈模型將一個企業的行為分解為戰略性相關的許多活動,企業正是通過比其競爭對手更廉價或更出色地開展這些重要的戰略活動來贏得競爭優勢的。

在數據分析中,價值鏈模型目的在於幫助企業分析公司運行的哪個環節可以提高客戶價值或降低生產成本。

3、地位分析:三四矩陣

三四矩陣是由波士頓諮詢集團提出的。這個模型用於分析一個成熟市場中企業的競爭地位。在一個穩定的競爭市場中,參與市場競爭的參與者一般分為三類,領先者、參與者、生存者。

領先者一般是指市場佔有率在15%以上,可以對市場變化產生重大影響的企業,如在價格、產量等方面;參與者一般是指市場佔有率介於5%~15%之間的企業,這些企業雖然不能對市場產生重大的影響,但是它們是市場競爭的有效參與者;生存者一般是局部細分市場填補者,這些企業的市場份額都非常低,通常小於5%。

這個模型印證了中國彩電業幾次降價後,各個企業的競爭態勢的變化。在長虹第一次降價後,企業的成本和產量都得到收益,使它迅速成為市場佔有率最大的企業,康佳和TCL則緊隨其後。經過幾次的降價後,企業已經不能再靠價格因素來擴大市場份額了,企業必須創造新的競爭優勢。

4、戰略規劃模型:GE矩陣

GE矩陣法又稱通用電器公司法、麥肯錫矩陣、九盒矩陣法、行業吸引力矩陣是美國通用電氣公司(GE)於70年代開發了新的投資組合分析方法。對企業進行業務選擇和定位具有重要的價值和意義。

數據分析師可通過該分析模型保證企業資源的合理配置,企業也可以嘗試按照發展中業務和已發展業務的混合,與現金產生和現金使用的內在一致性來平衡業務。

5、業務或投資組合:波士頓分析矩陣

波士頓矩陣又稱市場增長率-相對市場份額矩陣、波士頓諮詢集團法、四象限分析法、產品系列結構管理法等。在矩陣中,坐標軸的兩個變量分別是業務單元所在市場的增長程度和所佔據的市場份額。每個象限中的企業處於根本不同的現金流位置,並且應用不同的方式加以管理,這樣就引申出公司如何尋求其總體業務組合。

通過波士頓矩陣進行數據分析,有助於對各公司的業務組合投資組合提供一些解釋並能查企業各個業務單元的經營情況,如果同其他分析方法一起使用會產生非常有益的效果。

6、競爭戰略選擇:戰略鍾

「戰略鍾」是分析企業競爭戰略選擇的一種工具,這種模型為企業的管理人員和諮詢顧問提供了思考競爭戰略和取得競爭優勢的方法。

7、受衝擊戰略調整:SCP分析模型

SCP(structure、conduct、performance)模型,分析在行業或者企業受到表面衝擊時,可能的戰略調整及行為變化。

SCP模型從對特定行業結構、企業行為和經營結果三個角度來分析外部衝擊的影響。

外部衝擊:主要指企業外部經濟環境、政治、技術、文化變遷、消費習慣等因素的變化。行業結構:主要是指外部各種環境的變化對企業所在行業可能的影響,包括行業競爭的變化、產品需求的變化、細分市場的的變化、營銷模型的變化企業行為:主要是指企業針對外部衝擊和行業結構的變化所採取的措施,包括企業方面對相關業務單元的整合、業務的擴張與收縮、運營方式的轉變、管理的變革等以一系列行動。經營結果:主要是指在外部環境方面發生變化的情況下企業在經營利潤、產品成本、市場份額等方面的變化趨勢。

8、解析基本維度:ECIRM戰略模型

ECIRM模型的構成包括了五個核心要素:一是E,代表企業家要素;二是C,代表資本要素;三是I,代表產業要素;四是R,代表資源要素;五是M,代表管理要素。五項要素共同耦合成為一個以企業家精神和企業家能力為核心的公司戰略模型,構成從戰略上系統解析一家企業的五個基本維度。

產業型公司和資本型公司呈現「順時針」方向的成長路徑,而資源型公司和管理型公司則呈現「逆時針」方向的成長路徑。

9、外部環境採用戰略:SPACE矩陣

SPACE矩陣有四個象限分別表示企業採取的進取、保守、防禦和競爭四種戰略模式。這個矩陣的兩個數軸分別代表了企業的兩個內部因素——財務優勢(FS)和競爭優勢(CA);兩個外部因素——環境穩定性(ES)和產業優勢(IS)。這四個因素對於企業的總體戰略地位是最為重要的。

10、機會、優劣、挑戰:SWOT模型

「SWOT」是Strength、Weakness、Opportunity、Threat四個英文單詞的縮寫,這個模型主要是通過分析企業內部和外部存在的優勢和劣勢、機會和挑戰來概括企業內外部研究結果的一種方法。

S-優勢:比較分析企業在外部市場環境、內部經營方面相對於其他競爭對手的優勢;W-劣勢:比較分析企業在外部市場環境、內部經營方面相對於其他競爭對手的劣勢;O-機會:分析在目前的市場競爭態勢下企業存在的發展機會;T-挑戰:分析在目前的市場競爭態勢下企業存在的威脅和挑戰。

優劣勢分析主要是著眼於企業自身的實力及其與競爭對手的比較,而機會和威脅分析將注意力放在外部環境的變化及對企業的可能影響上。在分析時,應把所有的優勢集中在一起,然後用外部的力量來對這些因素進行評估。

三、如何讓擺盤更加高級?(可視化工具助力)

這一步是比較重要的一步,前面我說了對於題主而言前期不要太在意編程能力,因為市面上這種做數據可視化的工具有很多,只要可以利用好他們,同樣可以做出好看的可視化圖表,而且時間成本付出的相對較少。

1、億信華辰豌豆BI

個人版完全免費,可以終生使用,非常適合不懂技術的人員,但是別小瞧他是免費版,功能可是一定都沒有打折扣的。

支持基於列存儲的MPP架構的分布式資料庫進行敏捷分析,百億數據可達到秒級響應,可解決TB甚至PB級超大數據量敏捷分析的難題。

智能化建模,一鍵導入數據,自動識別維度和指標,構建數倉模型;根據拖拽的指標和維度,識別最優的展現形式,所有圖表無需任何設置即可聯動,也可自定義選擇部分圖表參與聯動和下鑽。

除了Excel、TXT之類的文件,還可接入各類資料庫,強大到跌破眼鏡

2、一站式數據分析平臺億信ABI

面向技術人員,有大數據量的處理分析,大屏需求等,產品融合了ETL數據處理、數據建模、數據可視化、數據分析、數據填報、移動應用,功能全面且實用,靈活組合滿足數據分析所有需求。

1、覆蓋基礎報表應用

複雜報表:支持各類報表應用,包含交叉報表、多級表頭的中國式複雜報表、簡歷表等,可滿足用戶各式各樣報表展現訴求。

圖表分析:系統內置數百種圖表組件,任意組合即可製作靈動直觀的數據看板,輔助領導決策。

數據鑽取:系統內置十餘種的鑽取方式,支持文本、報表、統計圖、地圖等各種數據元素上進行鑽取和切片,通過數據指標的層層下鑽,可幫助用戶快速定位問題。

2、多元的數據可視化

領導駕駛艙:系統內置數百種圖表組件,可直觀展示和監測企業運營情況,為企業高層提供一站式決策支持。

大屏可視化:ABI提供多個大屏模板,內置300+酷炫可視化組件,拖拽即可應用,同時具備較高的開放性,允許用戶自定義個性化業務大屏,創建你專屬的大屏可視化效果。

3D可視化:結合全景3D建模和數據分析引擎,可建設智慧城市,3D設備管理等,實現端到端的數據可視化。

GIS地圖應用:無縫對接多個GIS地圖平臺,可實現地理相關信息的綜合數據分析和展現。

說了這麼多還是需要勇敢的邁開第一步,數據分析沒有你想像的那麼高不可攀,千萬不要被自己臆想出來的東西嚇著了,多多看書,多多藉助工具去動手實踐才是最重要的,

相關焦點

  • 為投資指路,企業如何用BI打造一體化財務數據分析平臺
    在現代企業中,財務分析主要是針對企業內部,強調基於企業管理架構、業務維度的數據分析,包括企業成長能力分析、盈利能力分析、抗風險能力分析以及通過預算或績效管理監控企業運營。該部門長期和業務部門打交道,為業務部門提供相應數據,也為企業經營提供參考,被稱為企業的「價值大腦」。
  • R語言數據實戰 | 文本分析
    處理文本數據時,主要難點在應該如何將不規則的文本結構化,並進行描述或建模分析,從而更好地回答我們所研究的目標問題。例如,該如何從一個旅遊產品的名稱中提取和產品等級相關的變量,甚至於如何通過分析小說文本來了解作者的人物情節安排等。為了進一步了解文本分析、對難點各個擊破,接下來的三節內容將分別介紹如何對簡單詞語類文本進行建模、如何從長難句中提取有效信息、如何分析長篇小說中的人物關係。
  • 年薪不到21W免費學,廖雪峰大牛的「大數據分析全棧工程師課程...
    拿不到 Offer 免費學,廖雪峰的「大數據分析全棧工程師」課程第12期開始招生!「騰訊、美團、百度等一線大數據專家傾力指導多個企業級項目實戰+大廠脫敏數據名企內推等就業服務拿不到 21w 年薪退學費」推薦大家關注開課吧高口碑的《大數據分析全棧工程師》課程,能幫你快速成長為符合一線大廠招聘標準的高級數據分析人才。課程現已開設 11 期,有 6000+人參與報名學習。
  • 語言的社會性 —— 如何通過分析語言數據理解社會關係?
    我們如何理解這種差異?而更近一步地,語言究竟承載著怎樣的社會和人際功能,人們如何通過語言建立身份認同,又為何會產生誤解與衝突?在這一期節目中,我們從嘉欣最近的一項關於語言親密度(intimacy in language) 的研究開始,試圖從計算社會科學和計算語言學的視角探討關於人際互動,社會約束以及身份認同的一些話題。
  • 如何成為頂尖黑客,谷歌大牛告訴你
    在多年對網絡安全的學習和思考的過程中,以及常年對黑基和看雪等論壇的觀察,我走了很多彎路,當然也學到了很多東西。 成為黑客的方法是見仁見智的。不同的人告訴你的不一樣,中國的大神一般會告訴你先學c語言,因windows很多底層協議都是用c語言寫的,然後就是windows底層協議。
  • 你「學」「說」英語都沒語言環境嗎?看學Love the Clock如何破題
    你「學」和「說」英語都沒有語言環境嗎?從Love the Clock看如何「學並學好」英語Love the clock算是簡單英語。不過,這是從「用」中文「學」英語角度看的。從用英語「學並學好」英語角度看就不見的「簡單」了。相反,從」簡單」英語裡折射出我們「學並學好」英語能力的缺失,及其補充與培養。
  • 海量數據下的輿情分析,該如何搭建?
    阿里多位P9、P10技術大牛現身說法,用十多年閱歷和經驗,陪你「打怪升級」。點擊下方按鈕,立刻下載!商家的產品設計者需要匯總統計和分析各類平臺的數據做為依據,決定後續的產品發展,公司的公關和市場部門也需要根據輿情作出相應的及時處理,而這一切也意味著傳統的輿情系統升級成為大數據輿情採集和分析系統。
  • 解讀2020數據分析技術十大趨勢,看DataFocus如何持續創新!
    解讀Gartner 2020數據和分析技術十大趨勢,看DataFocus如何持續創新! 新冠疫情對數據分析領域有什麼影響?新的技術又將帶來哪些機會?每個數據分析領域的創新者和從業者都在關注著這些問題。
  • 如何用線性回歸模型做數據分析?
    編輯導語:在日常工作中,很多時候都會用到數據分析的方法,線性回歸模型看起來非常簡單,但實際上它的十分重要;本文作者分享了關於如何用線性回歸模型做數據分析的方法,我們一起來學習一下。
  • 最會數據分析的護士!全世界最有名的白衣天使如何走上可視化之路
    而這一切得益於她對工作中的數據進行記錄和分析。數據可視化改變命運在結束了戰地醫院的工作後,南丁格爾認識了同為醫生、統計學家以及數據可視化忠實粉絲William Farr,是William幫助她整理克裡米亞數據,並進一步對數據進行有效分析。
  • 如果是初學C語言請看完,如何學好C語言絕對精品
    這不僅僅指你在學習過程中要有耐心,要循序漸進,而起也說的是另一個重要的方面:調式程序。調試是寫程序過程中一個重要的方面,如果有人能一次寫成程序,牛啊,而且是大牛,不光是大牛,還是老子騎的那頭青牛,凡人是做不道的!調試是每個程序必定經歷的歷程。經常有同學問我:老師,我的程序完全沒錯誤啊,都是照書抄的啊!怎麼就運行不出來呢?對於這個問題我也看不出來!你們有問題可以找我,找其他的老師,老師找誰啊?
  • 如何對APP進行數據分析?
    日常數據運營指標的監控日常數據運營指標,如下載用戶數、新增用戶數、活躍用戶數、付費用戶數等,這些數據都是運營中最基礎最基本的數據,是大Boss們最關注的核心指標。這些指標對數據的準確性和及時性要求都比較高,所以你一旦進入一個新公司,或者接手一個新項目,第一任務就是要把這些數據梳理好。
  • 如何識別濫竽充數的「數據騙子」
    不同的學科統計學接受的訓練是推斷數據之外的內容,而分析學接受的訓練是探索數據集的內容。換言之,分析學家對數據中的內容作出結論,而統計學家則對數據中沒有的內容作出結論。分析學家幫助你提出好的問題(假設生成),而統計學家幫助你得到好的答案(假設檢驗)。
  • 如何挑選英語啟蒙讀物,藍思分級為你指路
    然後,每個詞群的數據會被放入Lexile官方的方程式中進行運算,計算後的結果放入Rasch測量模型中,最後出來的數據就是該文/書的Lexile級別。簡單點來說,就是通過分析讀物的詞頻和句子長度來進行分級。
  • 如何學習影片分析?
    但是,只研究這些影片勢必會有些狹窄,我們學好電影的最終目的是去找工作,是去拍片子賺錢,如果我們學了半天學的東西無法讓我們拍出賺錢的片子,那也是沒用的。就分析影片來說,我們需要從各個角度對一些被稱為是經典的但又高票房的影片進行分析,還有那些有大明星參加演出的影片也要對其進行分析,因為這是未來你的工作中會遇到的。
  • 康奈爾終身教授教你如何用大數據分析一天內人類情緒變化
    這些事件影響之下,也能讓大家對最簡單情緒傳播有所認知。亞馬遜稱其語音助手Alexa能夠通過分析用戶指令的高低和音量等反應,識別出「快樂、高興、憤怒、悲傷、煩躁、恐懼、厭惡、厭倦、壓力」等情緒,並對相應指令做出回應。
  • 我的數據分析轉行之路
    於是我開始利用空閒時間學習,每天下班之後同住的舍友都要玩上一晚上魔獸,只有我回家躺在宿舍的床上,抱著書就開始啃,當時看過《深入淺出數據分析》、《從數據看市場》等等書,後來又去開始學習Excel數據分析,當時學的東西比較淺,僅僅算是啟蒙。
  • 天鵝莊 大牛如何做到「牛氣沖天」?
    天鵝莊 大牛  從瓶身設計來看,「大牛酒」請來了「最牛」的代言人,以去年上交所樓前更換的新牛為設計原型,通體的燙金色調搭配一個大大的「牛」字,給人以衝勁十足之感,英文名「BIG  9個「最牛」,助力大牛酒「牛氣沖天」  值得注意的是,除了設計理念與產品外觀讓人眼前一亮之外,天鵝莊 大牛還牛在哪裡?微酒記者了解到,天鵝莊團隊為這款產品總結出了9個「最牛」。
  • 數據分析的黃金十二宮,從入門到精通,十二類好書,想要拿走
    數據分析,是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論的過程。單純地談數據分析意義並不大,在談數據分析的作用之前,我們首先要考慮的是受眾對象的實際需要,而對於企業而言,數據分析的作用則主要體現在三大領域:一是對業務的改進優化;二是發現新的市場機會;三是創造更大的商業價值。
  • 如何打造高質量的NLP數據集
    很多剛入行的同學覺得發布一個數據集是最容易灌水的了,燃鵝如果你真的做過就會發現,隨意產生一個數據集很容易,但是若以解決實際問題或讓大家能在上面磕鹽玩耍為目的,來產生一個能用的、質量高的、難度適中的數據集一點都不容易,超級費時費腦子甚至費錢好不好(╯°□°)╯︵┻━┻雖然並沒有刻意的研究數據集該怎麼做,不過因為項目或研究需要,已經被趕鴨子上架的做了近10個數據集了,不過只是在問答