爬坡,從線性回歸開始,數據分析中一大波數學方法即將襲來

2021-02-24 吃數據長大的魚

上面的第三種樣子,是一元線性方程的矩陣表達,或者叫向量形式。從現在開始,就要逐步開始接受並習慣矩陣和向量,這是任何數據分析的基礎,也是所有機器學習和深度學習必須掌握的。拒絕掌握這個,數據分析將步履維艱,機器學習和深度學習將寸步難行。

OK,說了這麼多,但線性回歸有啥用呢?來看個例子,因為沒有實際數據(或不方便用實際數據),我們用自己造的數據來做例子,造數據的過程,也是十分有意思的,能把數據造得客觀合理,其實也是需要一點技術的哈O(∩_∩)O。上造數據的代碼了,還是以學生體育成績為樣本吧:

import pandas as pd
def XM(num=100): xing = ['趙', '錢', '孫', '李', '周', '吳', '鄭', '王', '馮', '陳', '褚', '衛', '蔣', '沈', '韓', '楊', '朱', '秦', '尤', '許', '何', '呂', '施', '張', '孔', '曹', '嚴', '華', '金', '魏', '陶', '姜', '戚', '謝', '鄒', '喻', '柏', '水', '竇', '章', '雲', '蘇', '潘', '葛', '奚', '範', '彭', '郎', '魯', '韋', '昌', '馬', '苗', '鳳', '花', '方', '俞', '任', '袁', '柳', '酆', '鮑', '史', '唐', '費', '廉', '岑', '薛', '雷', '賀', '倪', '湯', '滕', '殷', '羅', '畢', '郝', '鄔', '安', '常', '樂', '於', '時', '傅', '皮', '卞', '齊', '康', '伍', '餘', '元', '卜', '顧', '孟', '平', '黃', '和', '穆', '蕭', '尹', '姚', '邵', '堪', '汪', '祁', '毛', '禹', '狄', '米', '貝', '明', '臧', '計', '伏', '成', '戴', '談', '宋', '茅', '龐', '熊', '紀', '舒', '屈', '項', '祝', '董', '梁']
ming = ['的', '一', '是', '了', '我', '不', '人', '在', '他', '有', '這', '個', '上', '們', '來', '到', '時', '大', '地', '為', '子', '中', '你', '說', '生', '國', '年', '著', '就', '那', '和', '要', '她', '出', '也', '得', '裡', '後', '自', '以', '會', '家', '可', '下', '而', '過', '天', '去', '能', '對', '小', '多', '然', '於', '心', '學', '麼', '之', '都', '好', '看', '起', '發', '當', '沒', '成', '只', '如', '事', '把', '還', '用', '第', '樣', '道', '想', '作', '種', '開', '美', '總', '從', '無', '情', '己', '面', '最', '女', '但', '現', '前', '些', '所', '同', '日', '手', '又', '行', '意', '動', '方', '期', '它', '頭', '經', '長', '兒', '回', '位', '分', '愛', '老', '因', '很', '給', '名', '法', '間', '斯', '知', '世', '什', '兩', '次', '使', '身', '者', '被', '高', '已', '親', '其', '進', '此', '話', '常', '與', '活', '正', '感', '見', '明', '問', '力', '理', '爾', '點', '文', '幾', '定', '本', '公', '特', '做', '外', '孩', '相', '西', '果', '走', '將', '月', '十', '實', '向', '聲', '車', '全', '信', '重', '三', '機', '工', '物', '氣', '每', '並', '別', '真', '打', '太', '新', '比', '才', '便', '夫', '再', '書', '部', '水', '像', '眼', '等', '體', '卻', '加', '電', '主', '界', '門', '利', '海', '受', '聽', '表', '德', '少', '克', '代', '員', '許', '稜', '先', '口', '由', '死', '安', '寫', '性', '馬', '光', '白', '或', '住', '難', '望', '教', '命', '花', '結', '樂', '色', '更', '拉', '東', '神', '記', '處', '讓', '母', '父', '應', '直', '字', '場', '平', '報', '友', '關', '放', '至', '張', '認', '接', '告', '入', '笑', '內', '英', '軍', '候', '民', '歲', '往', '何', '度', '山', '覺', '路', '帶', '萬', '男', '邊', '風', '解', '叫', '任', '金', '快', '原', '吃', '媽', '變', '通', '師', '立', '象', '數', '四', '失', '滿', '戰', '遠', '格', '士', '音', '輕', '目', '條', '呢', '病', '始', '達', '深', '完', '今', '提', '求', '清', '王', '化', '空', '業', '思', '切', '怎', '非', '找', '片', '羅', '錢', '紶', '嗎', '語', '元', '喜', '曾', '離', '飛', '科', '言', '幹', '流', '歡', '約', '各', '即', '指', '合', '反', '題', '必', '該', '論', '交', '終', '林', '請', '醫', '晚', '制', '球', '決', '窢', '傳', '畫', '保', '讀', '運', '及', '則', '房', '早', '院', '量', '苦', '火', '布', '品', '近', '坐', '產', '答', '星', '精', '視', '五', '連', '司', '巴', '奇', '管', '類', '未', '朋', '且', '婚', '臺', '夜', '青', '北', '隊', '久', '乎', '越', '觀', '落', '盡', '形', '影', '紅', '爸', '百', '令', '周', '吧', '識', '步', '希', '亞', '術', '留', '市', '半', '熱', '送', '興', '造', '談', '容', '極', '隨', '演', '收', '首', '根', '講', '整', '式', '取', '照', '辦', '強', '石', '古', '華', '諣', '拿', '計', '您', '裝', '似', '足', '雙', '妻', '尼', '轉', '訴', '米', '稱', '麗', '客', '南', '領', '節', '衣', '站', '黑', '刻', '統', '斷', '福', '城', '故', '歷', '驚', '臉', '選', '包', '緊', '爭', '另', '建', '維', '絕', '樹', '系', '傷', '示', '願', '持', '千', '史', '誰', '準', '聯', '婦', '紀', '基', '買', '志', '靜', '阿', '詩', '獨', '復', '痛', '消', '社', '算', '義', '竟', '確', '酒', '需', '單', '治', '卡', '幸', '蘭', '念', '舉', '僅', '鍾', '怕', '共', '毛', '句', '息', '功', '官', '待', '究', '跟', '穿', '室', '易', '遊', '程', '號', '居', '考', '突', '皮', '哪', '費', '倒', '價', '圖', '具', '剛', '腦', '永', '歌', '響', '商', '禮', '細', '專', '黃', '塊', '腳', '味', '靈', '改', '據', '般', '破', '引', '食', '仍', '存', '眾', '注', '筆', '甚', '某', '沉', '血', '備', '習', '校', '默', '務', '土', '微', '娘', '須', '試', '懷', '料', '調', '廣', '蜖', '蘇', '顯', '賽', '查', '密', '議', '底', '列', '富', '夢', '錯', '座', '參', '八', '除', '跑', '亮', '假', '印', '設', '線', '溫', '雖', '掉', '京', '初', '養', '香', '停', '際', '致', '陽', '紙', '李', '納', '驗', '助', '激', '夠', '嚴', '證', '帝', '飯', '忘', '趣', '支', '春', '集', '丈', '木', '研', '班', '普', '導', '頓', '睡', '展', '跳', '獲', '藝', '六', '波', '察', '群', '皇', '段', '急', '庭', '創', '區', '奧', '器', '謝', '弟', '店', '否', '害', '草', '排', '背', '止', '組', '州', '朝', '封', '睛', '板', '角', '況', '曲', '館', '育', '忙', '質', '河', '續', '哥', '呼', '若', '推', '境', '遇', '雨', '標', '姐', '充', '圍', '案', '倫', '護', '冷', '警', '貝', '著', '雪', '索', '劇', '啊', '船', '險', '煙', '依', '鬥', '值', '幫', '漢', '慢', '佛', '肯', '聞', '唱', '沙', '局', '伯', '族', '低', '玩', '資', '屋', '擊', '速', '顧', '淚', '洲', '團', '聖', '旁', '堂', '兵', '七', '露', '園', '牛', '哭', '旅', '街', '勞', '型', '烈', '姑', '陳', '莫', '魚', '異', '抱', '寶', '權', '魯', '簡', '態', '級', '票', '怪', '尋', '殺', '律', '勝', '份', '汽', '右', '洋', '範', '床', '舞', '秘', '午', '登', '樓', '貴', '吸', '責', '例', '追', '較', '職', '屬', '漸', '左', '錄', '絲', '牙', '黨', '繼', '託', '趕', '章', '智', '衝', '葉', '胡', '吉', '賣', '堅', '喝', '肉', '遺', '救', '修', '松', '臨', '藏', '擔', '戲', '善', '衛', '藥', '悲', '敢', '靠', '伊', '村', '戴', '詞', '森', '耳', '差', '短', '祖', '雲', '規', '窗', '散', '迷', '油', '舊', '適', '鄉', '架', '恩', '投', '彈', '鐵', '博', '雷', '府', '壓', '超', '負', '勒', '雜', '醒', '洗', '採', '毫', '嘴', '畢', '九', '冰', '既', '狀', '亂', '景', '席', '珍', '童', '頂', '派', '素', '脫', '農', '疑', '練', '野', '按', '犯', '拍', '徵', '壞', '骨', '餘', '承', '置', '臓', '彩', '燈', '巨', '琴', '免', '環', '姆', '暗', '換', '技', '翻', '束', '增', '忍', '餐', '洛', '塞', '缺', '憶', '判', '歐', '層', '付', '陣', '瑪', '批', '島', '項', '狗', '休', '懂', '武', '革', '良', '惡', '戀', '委', '擁', '娜', '妙', '探', '呀', '營', '退', '搖', '弄', '桌', '熟', '諾', '宣', '銀', '勢', '獎', '宮', '忽', '套', '康', '供', '優', '課', '鳥', '喊', '降', '夏', '困', '劉', '罪', '亡', '鞋', '健', '模', '敗', '伴', '守', '揮', '鮮', '財', '孤', '槍', '禁', '恐', '夥', '傑', '跡', '妹', '藸', '遍', '蓋', '副', '坦', '牌', '江', '順', '秋', '薩', '菜', '劃', '授', '歸', '浪', '聽', '凡', '預', '奶', '雄', '升', '碃', '編', '典', '袋', '萊', '含', '盛', '濟', '蒙', '棋', '端', '腿', '招', '釋', '介', '燒', '誤', '乾', '坤'] name_group = [] for i in range(num): x = np.random.randint(0, len(xing)-1) m1 = np.random.randint(0, len(ming)-1) m2 = np.random.randint(0, len(ming)-1) name = ('' + xing[x] + ming[m1] + ming[m2]) item = {'姓名': name} name_group.append(item) return name_groupname_group = XM(num=100)name_df = pd.DataFrame(name_group)name_df.to_csv('姓名.csv', encoding='utf-8-sig')

讀取上面的人名文件,下面就開始造數據,注意造數據的方法,用到了回歸方程和矩陣點乘。乘法有好多種,我們一般理解的乘法是叉乘(就是這個×),但矩陣運算裡面,點乘更常用(就是這個 · ),這兩種乘法是有區別的哈,具體區別,篇幅有點長,看官自行百度一下。(深刻理解點乘,能讓你迅速成為合格的數據分析師)

身高、體重、BMI值、100米跑步成績、1000米跑步成績,有點像實際數據吧(●'◡'●),下面開始分析一下,身高、體重、bmi和100m、1000m之間的關係。

但這種圖,我是畫不出來的,只能根據數值去腦補了。在單獨因子並不能很好的說明問題的時候,有時候組合因子,是可以對模型效果做出提升的。現實世界中通常都會出現這種疊加增益情況。

相關焦點

  • spss操作入門(三):回歸分析
    ——王國維詞《蝶戀花》    回歸分析是一種處理變量的統計相關關係的一種數理統計方法。回歸分析的基本思想是: 雖然自變量和因變量之間沒有嚴格的、確定性的函數關係, 但可以設法找出最能代表它們之間關係的數學表達形式。
  • 數據科學28 |回歸模型-單因素協方差分析和回歸診斷
    單因素協方差分析(ANCOVA)例:swiss數據集library
  • 一文讀懂R語言如何實現逐步回歸分析 ——【生物和醫學統計】
    逐步回歸分析是以AIC信息統計量為準則,通過選擇最小的AIC信息統計量,來達到刪除或增加變量的目的。R語言中用於逐步回歸分析的函數step(),drop1(),add1()。#1.載入數據 首先對數據進行多元線性回歸分析tdata<-data.frame(x1=c( 7, 1,11,11, 7,11, 3, 1, 2,21, 1,11,10),x2=c(26,29,56,31,52,55,71,31,54,47,40,66,68),x3=c( 6,15, 8,
  • 數據分析案例:預測乳腺癌是否復發
    ,其中34位5年內病情復發,另外44位5年內未見復發,現需要對19位經過治療的病人,分析其在5年內是否會復發,並評估模型的準確性及可行性。數據說明       訓練數據包含78位乳腺癌病人樣本,他們中的34位5年內病情復發(標記為relapse),另外的44位至少在5年內未復發(標記為non-relapse)。相應地,這裡有12位復發,7位未復發的病人樣本在測試集中。使用到的基因數量為24481。
  • 高中數學:概率統計應用題
    大膽的設定隨機變量,區分不同變量的類型,找出它們之間的內在聯繫,建立相應的數學模型。有關概率統計的應用問題,其關鍵就是要弄清楚待解問題的本質:明確已知與待求,找出數學模型;找出已知與待求之間的關係;還要確定解決問題的過程。這是解概率統計應用題所必需的。
  • Python數據分析:股票數據分析案例
    步驟:準備數據可視化數據、審查數據處理數據根據ACF、PACF定階擬合ARIMA模型預測準備數據    # 指定股票分析開始日期    start_date = datetime.datetime(2009, 1, 1)    # 指定股票分析截止日期    end_date = datetime.datetime(2019, 4, 1)    # 股票代碼    stock_code = '600519.SS'    # 滬市貴州茅臺
  • 質控數據分析:質控數據失控的處置及解釋
    在日常工作中,如果控制值落在控制限之外,或觀察到在一個時間段內控制值呈現一種特定的、系統性的變化模式時,應特別警惕。1控制數據的解釋控制數據的日常解釋有三種可能的情況:方法受控,方法受控但統計失控,方法失控。
  • 2016中考學習方法:如何提高數學計算的正確率
    如何提高中考數學的計算的正確率,以下有四種方法以供借鑑:  第一,要對計算引起足夠的重視
  • 綜述:《為實現預防醫學的大數據分析》
    對這些問題的明確回答是使用智能數據分析方法從大量醫療數據中發現信息。數據分析研究人員正準備在患者醫療方面促成巨大的有益進步。醫療領域的數據分析應用具有巨大的潛力。目前,數據分析、機器學習和數據挖掘使早期疾病的識別和治療成為可能。許多國家都正在實施疾病的早期監測和發現,如美國的BioSense、加拿大的CDPAC、澳大利亞的SAMSS和AIHW,以及法國的SentiWeb等。醫療數據是最有價值的數據之一,但也是最難分析的數據。醫療機構如何使用現代數據分析工具和技術來分析這些複雜數據並從這些數據中創造出價值?
  • 環境新規全解讀 | 土壤中苯胺、聯苯胺的檢測標準要來了,你準備好了嗎?
    土壤和沉積物中苯胺類和聯苯胺類化合物的檢測標準來了!目前,我國生態環境部將發布《土壤和沉積物苯胺類和聯苯胺類的測定液相色譜-三重四級杆質譜法》檢測標準,為土壤和沉積物中苯胺類和聯苯胺類化合物的檢測提供重要技術支撐和法規依據。安捷倫環境土壤中苯胺類和聯苯胺類化合物的測定方法
  • 數學搖滾的歷史(二):數學搖滾的誕生
    Sweeney 在書中聲稱創造了 「數學搖滾」 一詞。在 2006 年的一次 Pitchfork 採訪中,他說:「數學搖滾是我們的一個朋友發明的貶義詞。意思是:你聽完一首歌,卻無法給予感官的反應,只有拿出計算器才能計算出它的好壞——其實是一種完全的 diss。」
  • 歡迎來到思達數學
    請問什麼決定數學的勝利?
  • 數據治理 | 處理數據:兩位經驗研究者的經驗
    你可以在Excel中使用宏指令來進行自動化處理,例如創建帶有描述性統計和回歸結果的表格或生成數字,然後再將其導入草稿中。Stata和MATLAB是兩個非常強大的計量分析工具。Stata特別友好,非常適合「現成的」估計,因為它有大量適用於橫截面、面板和時間序列數據的內置命令和估計程序。此外,它有一個非常龐大的用戶社區,用戶貢獻了自己的命令和編程,你可以非常容易地運用他們的命令行進行訪問。
  • Excel數據分析工具:直方圖
    直方圖的意義及作用,在上面的歷史文章中已經介紹過,直方圖是一種特殊的柱形圖,X軸是分組,Y軸是頻數,主要是用來比較數據的分布狀況。Excel數據分析工具中的直方圖模塊,除了可以直接用直方圖對數據做出分析外,還有柏拉圖的內容。柏拉圖在有些地方又稱為帕累託圖(Pareto chart)、排列圖或主次圖,在問題分析和解決過程中經常會被使用, 特別是製造業生產的質量控制。
  • PokemonGo:大數據!孵蛋終極數據分析,這蛋到底弄啥嘞?
    這得感謝Silph的研究組給出的超級大數據分析,為我們解疑一個重要的難題!那麼這個蛋到底孵化精靈的概率到底是多少呢?蛋分為:2KM     5KM      10KM,而孵化率是根據隱藏的等級來確定的。也就意味著並不是所有的10KM蛋出的精靈都比2KM或者5KM蛋裡的精靈更稀有。
  • 《美國數學建模競賽》統計數據下載網址
    美賽統計數據下載網址中國國家統計局:
  • 公務員行測備考:資料分析運算題常用方法十字交叉法
    十字交叉法主要解決的就是比值的混合問題,在公務員考試的過程中,資料分析部分解題經常用的一種解題方法。
  • 震驚:可攜式納米孔測序儀登場,智慧型手機就可數據分析
    ,但數據分析仍是一個難題。「並不是每個人都有機會接觸到 DNA 和 RNA 分析所需的計算資源,但大多數人都有智慧型手機,」 加文醫學研究所的基因組技術部負責人 Ira Deveson 談道。「作為實時追蹤新冠病毒傳播的核心方法,快速、實時的基因組分析比以往任何時候都更加重要。我們的應用程式讓基因組分析更容易實現,讓這項技術在全世界科學家中普及。」
  • 數學的傍晚:原來數學就是黑魔法!
    1990年開始播出,到今天都快30年了。在日本,一直有一群狂熱的粉絲在追這部巨製。 除了正劇,《世界奇妙物語》還會拍攝特別篇。今天介紹的就是《世界奇妙物語》2018秋季特別篇之四——數學的傍晚!讓我們感受一下,島國娛樂圈是如何「吹」數學的奇妙的。 開頭。女主凜子是一位女學霸。一天,她騎車走在放學的路上。
  • TED:數學的魅力是什麼?
    我們在數學中到底發現了什麼讓人著迷的東西?但是如果沒有了數學模型, 它就是一堆廢鐵, 無法搜尋數據中隱藏的信息。Let's work out a baby problem.讓我們做一道很簡單的題。與我們在高爾頓板實驗中運用隨機性的方法一樣。