SQL是必學的嗎?數據科學家的技能樹該怎麼點?

2020-12-06 讀芯術

全文共1852字,預計學習時長5分鐘

圖源:unsplash

一間屋子10個人,可能其中5位數據科學家都表示需要結構化查詢語言(SQL)才能工作,另一半人則表示還有其他方法可以處理數據。

作為一名數據科學家,你使用什麼方法?你還有其它方法嗎?數據科學家必須要會使用SQL嗎?本文將討論SQL在數據科學中的作用,以及結構化查詢語言(SQL)的替代方法。

SQL

是否需要了解SQL具體取決於個人所屬公司和數據科學團隊。有些團隊有數位數據工程師和數據分析師以及機器學習工程師,而有些團隊則只有一位數據科學家。所以數據科學家是否需要了解SQL,你心中自有答案。

但是,討論一下是否需要了解SOL的原因,以及不需要SOL的時機是頗為有趣且十分重要,討論這個問題也有助於即將入職的數據科學家了解工作期望。以下是我使用SQL的原因:

· 使用SQL查詢表格以獲得有用的數據集

· 保持自主感(儘管也需要幫助)

· 在現有的SQL查詢中隨時發現和創建新功能

儘管數據科學可以看作是只專注於Python和R以及複雜機器學習算法的工作,但如果不充分利用SQL的優勢,一個團隊可能很難執行數據科學運算進程。不過,有時SQL並不是必需的,這取決於個人在數據科學領域的具體角色。

如果能從數據工程師或數據分析師那裡獲得一些幫助,便可以參考其他替代方法。此外,當SQL查詢功能完全不符合專業時也不需要SQL,因為此時專注點在於數據科學模型開發,類似於在已獲取的數據上相互測試各種機器學習算法。

替代方法

從數據分析師或數據工程師處獲取數據集後,對數據集的下一步改進就是創建新功能要素,而不只是直接從數據表中獲取欄位。例如,如果數據集中有10個欄位,則可以開發幾個全新指標作為欄位,而不是通過計算第1列和第2列來直接創建新的第11列。除了SQL以外,另一個比較容易進行此計算的工具是pandas。充分理由顯示,數據分析師和數據科學家已廣泛使用該庫。

使用pandas,能夠快速執行複雜計算,並且只需一行代碼。有時很難使用SQL計算數據,因為它在視覺上呈多行布局(僅為個人看法)。

以下是一些常用的pandas 數據框操作,旨在方便化數據集特徵工程運算。

* groupby* items* loc* iloc* iteritems*keys* iterrows* query (this operation is quite similar to SQL quering, Ihighly recommend)* aggregate* corr* mean, median, min, and max* quantile*rank* sum* std* var* append* merge* join* sort_values* isnull* notna*between_time

大量操作都可以應用到pandas 數據框架中。個人最喜歡的操作:

· 分組(Groupby)——對數據進行分組,並對所述組執行進一步的操作。

· 查詢(query)——一種類似SQL的查詢方式,但在個人的數據框架中。

圖源:unsplash

個人認為,計算全新的欄位或指標更容易,這些欄位或指標最終將用於個人pandas數據科學模型。不過,有人偏愛只在SQL中執行計算。對我來說,使用SQL的好處是我不必一次性添加所有新特性(查詢時間過長),這樣當我想添加一個新特性時,操作就非常簡單有效。

數據科學家需要了解SQL嗎?答案不是絕對的。這取決於公司、團隊,有時還取決於個人偏好。

使用SQL查詢,可以使用戶受益匪淺,所以如果你還不了解SQL,可以學習其使用方法。如果你偏愛類似pandas的替代方法,你可能是龐大數據科學團隊中的一員。

一些數據科學家同時使用SQL和Python來為模型創建最終的數據集。pandas最獨特的地方在於它有一個類似於SQL的查詢操作,用戶可以在pandas數據框中綜合使用SQL和Python。所以,想好你自己的解決方案了嗎?

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • SQL Server2008中的9種數據挖掘算法淺析
    【IT168 技術文檔】  在sql server2008中提供了9種常用的數據挖掘算法,這些算法用在不同數據挖掘的應用場景下,下面我們就各個算法逐個分析討論。  1.決策樹算法  決策樹,又稱判定樹,是一種類似二叉樹或多叉樹的樹結構。
  • 大數據分析工程師入門9-Spark SQL
    主要包括以下內容:你該了解的Spark SQL簡單入門操作不得不說的數據源一你該了解的Spark SQL1.什麼是Spark SQL?自動解析分區類型的參數為:spark.sql.sources.partitionColumnTypeInference.enabled,默認值為true。可以關閉該功能,直接將該參數設置為disabled。此時,分區列數據格式將被默認設置為string類型,不會再進行類型解析。
  • R+SQL Server的大數據管理
    該怎麼辦呢?這是大數據的問題嗎?怎麼那麼不小心就被我碰上了?今天我們就談談「大數據」這個老話題。自2012年以來,大數據(Big Data)已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,在國內更是被炒得熱火朝天,網際網路、工商業、高校等都紛紛進行探索討論。大數據戰略甚至成為了我們國家「十三五」十四大戰略之一。
  • SQL Server 首次登陸 Linux 平臺
    近年來, SQL Server 正在一直演化,除了想一改 DMS(資料庫管理系統)的角色,還想介入到數據分析、機器學習和數據科學領域。2017 年 4 月份, SQL Server 發布了一個重要組件,支持在 SQL Server 中用 Python 運行機器學習負載。
  • 大數據分析工程師面試集錦3-SQL/SparkSql/HiveQL
    大數據分析工程師80%的時間都在與SQL打交道,通過SQL完成業務方的各種臨時性需求分析和常規性報表統計。熟練的SQL技能能夠大大提高工作效率。本文將SQL/SparkSql/HiveQL放在一起來梳理一份常見題型的面試題庫。
  • 面試數據分析崗,怎麼提升一倍成功率?讓過來人給你支支招
    今天就用這篇文章來說說數據分析師求職的簡歷及面試的技巧,結合了一些我之前的求職心得和幫公司招聘數據分析師的經驗。簡歷要注意哪些點?先來說說簡歷的問題。簡歷是求職的第一個門檻,怎麼通過簡歷來凸顯自己的能力,吸引到HR的關注呢?
  • 請確保你查詢mysql資料庫時,sql語句沒有這麼寫_手機網易網
    所以大家在寫查詢的sql語句時為了讓語句執行效率高會讓語句能命中索引,或者新建合適的索引。  明明我sql語句where條件的欄位是符合索引,應該可以命中索引的,但是執行時卻沒有命中索引。  為什麼會這樣呢,是人性的……  額,串臺了,調回來。  要說明這個問題,大家先來比較一下下面的這兩個sql語句。  這兩個sql語句唯一的區別就是where條件中id對應的值一個加了引號,一個沒有加引號。
  • SQL注入、XSS以及CSRF分別是什麼?
    SQL注入SQL注入是屬於注入式攻擊,這種攻擊是因為在項目中沒有將代碼與數據(比如用戶敏感數據)隔離,在讀取數據的時候,錯誤的將數據作為代碼的一部分執行而導致的。典型的例子就是當對SQL語句進行字符串拼接的時候,直接使用未轉義的用戶輸入內容作為變量。這時,只要在sql語句的中間做修改,比如加上drop、delete等關鍵字,執行之後後果不堪設想。
  • 物種起源技能加點攻略 技能效果詳解
    一炸學什麼好,不要問我啦,大半年沒玩,現版本技能改成什麼樣了也不清楚,不如論壇發帖問問現在的玩家或者逛逛論壇其他玩家回復。  至於第一次大爆炸學習哪幾個技能也不做推薦,下面只介紹下每個技能的作用,自行選擇學習哪幾個。  一共就10個技能,後期都要學的,區別就在第一次爆炸和中期學哪個,不同加點發展速度有一定區別。
  • 袋鼠雲大數據崗位面試題
    (2)flink的怎麼和rocksDB交互的。畫一個流程圖。(這個我也不會)  (3)flink怎麼實現Exactly-once?  (4)flink on yarn 的任務提交流程?  (5)rocksDB為什麼可以存儲那麼大的數據量。  (6)使用eventtime+watermark的時候,如果數據到6點結束了。
  • PL/SQL中如何導出表結構和表數據
    在資料庫操作中,很多時候會發現資料庫不兼容,但原來的資料庫中又有很多數據,表結構也很複雜,這時候就會想到將這個表中的數據和表結構都移植到另一個資料庫中,在PL/SQL的工具欄中,可以進行資料庫表移植和數據轉移。
  • EVE技能指南,新手必學的基本技能,不走彎路不浪費時間
    但是在這個款星戰遊戲中,要想駕駛心儀的艦船來上一場激烈的戰鬥,那麼技能是新手必須面對的第一道難題。當然442種技能一定是有先後順序的,那麼對於新手來說也一定是有前期的技能規劃方向的。我們首先要認識一下,不同種類的技能都會對我們的遊戲造成哪方面的影響。
  • 最詳細的SQL注入相關的命令整理
    11、創建表、播入數據和讀取數據的方法? 創建表:' and 1=1 union select 1,2,3,4;create table [dbo].[cyfd]([gyfd][char](255))--?
  • PandaSQL:一個讓你能夠通過SQL語句進行pandas的操作的python包
    Pandas是近年來最好的數據操作庫之一。它允許切片、分組、連接和執行任意數據轉換。如果你熟練的使用SQL,那麼這篇文章將介紹一種更直接、簡單的使用Pandas處理大多數數據操作案例。假設你對SQL非常的熟悉,或者你想有更可讀的代碼。或者您只是想在dataframe上運行一個特殊的SQL查詢。或者,也許你來自R,想要一個sqldf的替代品。
  • R、SQL、Python,看數據科學家最喜歡的程式語言
    數據的爆炸增長以及公司將數據轉化為商業價值的巨大可能性,不斷增加著市場對數據科學家的需求。
  • 2020年成為數據科學家需要具備哪些技能?
    【導語】:「數據科學家」是近年來增長最快的工作之一。那麼如今成為數據科學家需要哪些技能呢?本文我們就來帶你了解這一問題。 CDA數據分析師 出品 編譯:Mika「數據科學家」是近年來增長最快的工作之一。這是一個令人興奮的高薪職業,並為你提供了大量的發展機會。
  • Java大數據開發是做什麼的?要掌握哪些技能
    Java開發是大數據的經典崗位,行業當中存在普遍的需求,Web開發、Android開發、遊戲開發等崗位,基本上Java語言是主力隊伍。而進入大數據時代,Java又在大數據方向上有了用武之地。今天我們主要來講講Java大數據開發是做什麼的?要掌握哪些技能?
  • 《精靈寶可夢出發吧皮卡丘伊布》快速移動必學技能凌空渡
    《精靈寶可夢出發吧皮卡丘伊布》快速移動必學技能凌空渡由於《精靈寶可夢出發吧皮卡丘伊布》是基於《精靈寶可夢黃》移植的,所以地圖比起系列作品來說還是偏小的,但是來來回回地圖跑還是挺煩人的,不用怕,學會這個碉堡的凌空渡技能就可以讓你輕鬆穿梭在各個地圖了。
  • 想成為高效數據科學家?不會Pandas怎麼行
    要想成為一名高效的數據科學家,不會 Pandas 怎麼行?Python 是開源的,它很棒,但是也無法避免開源的一些固有問題:很多包都在做(或者在嘗試做)同樣的事情。如果你是 Python 新手,那麼你很難知道某個特定任務的最佳包是哪個,你需要有經驗的人告訴你。有一個用於數據科學的包絕對是必需的,它就是 pandas。
  • 樹的年輪是怎麼形成的 所有的樹木都有年輪嗎?
    樹的年輪是怎麼形成的 所有的樹木都有年輪嗎?時間:2016-06-11 13:37   來源:科普中國-科學原理一點通   責任編輯:沫朵 川北在線核心提示:原標題:樹的年輪是怎麼形成的 所有的樹木都有年輪嗎? 將樹伐倒時,在橫切面上總是能看到一圈一圈的環,而這些環被稱之為年輪。那麼,樹的年輪是如何形成的呢?