最全大數據工具盤點,Google Trends 揭示了你應該學習這些!

2021-02-13 InfoQ
本文列舉了大數據相關的部分熱門項目,盤點了該生態圈目前流行的一些開源產品和工具,並用google熱度趨勢圖體現了它們的受關注程度。從不同的熱度趨勢,可以了解到每一個產品在近5年來全球受關注的走勢,是越來越受重視還是漸漸淡出。

在QCon2016 北京站上,Druid開源項目的負責人,Imply聯合創始人Fangjin Yang分享了題為 《Evolution of Open Source Data Infrastructure》的主題演講,探討了開源大數據世界的發展和方向。作為引申,我們希望在此基礎上,利用Google Trends的趨勢分析能力對一些熱門開源工具做了一一搜索、對比和排名。(戳閱讀原文,閱讀演講文章)

因為大數據令人驚訝的高速發展以及知識局限性,本文沒有(也不可能)列舉出這個生態圈裡的所有開源類型,比如機器學習、數據挖掘等等無法一一羅列,也無意涵蓋所有大數據牽涉的各個角落,比如OpenStack、Docker等相關大熱門。這裡推薦了一些比較流行的開源產品,希望能引起大家興趣和關注。在內容介紹上,因為它們大都耳熟能詳,也僅僅是拋磚引玉的對每一款產品做了簡單的描述,這些描述基本來自官網介紹以及各類技術網站的推介。

注意:

一款基於Java編寫的任務調度系統任務調度,來自LinkedIn公司,用於管理他們的Hadoop批處理工作流。Azkaban根據工作的依賴性進行排序,提供友好的Web用戶界面來維護和跟蹤用戶的工作流程。

一種新的Hadoop資源管理器,它是一個通用資源管理系統,可為上層應用提供統一的資源管理和調度,解決了舊MapReduce框架的性能瓶頸。它的基本思想是把資源管理和作業調度/監控的功能分割到單獨的守護進程。

由加州大學伯克利分校的AMPLab首先開發的一款開源群集管理軟體,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等架構。對數據中心而言它就像一個單一的資源池,從物理或虛擬機器中抽離了CPU,內存,存儲以及其它計算資源, 很容易建立和有效運行具備容錯性和彈性的分布式系統。

作為Hadoop生態系統的一部分,提供了基於Web的直觀界面,可用於配置、管理和監控Hadoop集群。目前已支持大多數Hadoop組件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。

一個分布式的應用程式協調服務,是Hadoop和Hbase的重要組件。它是一個為分布式應用提供一致性服務的工具,讓Hadoop集群裡面的節點可以彼此協調。ZooKeeper現在已經成為了 Apache的頂級項目,為分布式系統提供了高效可靠且易於使用的協同服務。

在2007年facebook提交Apache基金會將Thrift作為一個開源項目,對於當時的facebook來說創造thrift是為了解決facebook系統中各系統間大數據量的傳輸通信以及系統之間語言環境不同需要跨平臺的特性。

監測大型分布式系統的一個開源數據採集系統,建立在HDFS/MapReduce框架之上並繼承了Hadoop的可伸縮性和可靠性,可以收集來自大型分布式系統的數據,用於監控。它還包括靈活而強大的顯示工具用於監控、分析結果。

一個大規模的、安全可靠的、具備高可用性的集群文件系統,它是由SUN公司開發和維護的。該項目主要的目的就是開發下一代的集群文件系統,目前可以支持超過10000個節點,數以PB的數據存儲量。

Hadoop Distributed File System,簡稱HDFS,是一個分布式文件系統。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。

一個集群的文件系統,支持PB級的數據量。GlusterFS 通過RDMA和TCP/IP方式將分布到不同伺服器上的存儲空間匯集成一個大的網絡化並行文件系統。

前身是Tachyon,是以內存為中心的分布式文件系統,擁有高性能和容錯能力,能夠為集群框架(如Spark、MapReduce)提供可靠的內存級速度的文件共享服務。

新一代開源分布式文件系統,主要目標是設計成基於POSIX的沒有單點故障的分布式文件系統,提高數據的容錯性並實現無縫的複製。

一個高性能、開源的並行文件系統,主要用於並行計算環境中的應用。PVFS特別為超大數量的客戶端和伺服器端所設計,它的模塊化設計結構可輕鬆的添加新的硬體和算法支持。

Quantcast File System (QFS) 是一個高性能、容錯好、分布式的文件系統,用於開發支持 MapReduce處理或者需要順序讀寫大文件的應用。

一個應用程式日誌、事件的傳輸、處理、管理和搜索的平臺。可以用它來統一對應用程式日誌進行收集管理,提供了Web接口用於查詢和統計。

Scribe是Facebook開源的日誌收集系統,它能夠從各種日誌源上收集日誌,存儲到一個中央存儲系統(可以是NFS,分布式文件系統等)上,以便於進行集中統計分析處理。

Cloudera提供的一個高可用的、高可靠的、分布式的海量日誌採集、聚合和傳輸的系統。Flume支持在日誌系統中定製各類數據發送方,用於收集數據。同時,Flume支持對數據進行簡單處理,並寫入各種數據接受方(可定製)。

一個受歡迎的消息代理系統,通常用於應用程式之間或者程序的不同組件之間通過消息來進行集成。RabbitMQ提供可靠的應用消息發送、易於使用、支持所有主流作業系統、支持大量開發者平臺。

Apache出品,號稱「最流行的,最強大」的開源消息集成模式伺服器。ActiveMQ特點是速度快,支持多種跨語言的客戶端和協議,其企業集成模式和許多先進的功能易於使用,是一個完全支持JMS1.1和J2EE 1.4規範的JMS Provider實現。

一種高吞吐量的分布式發布訂閱消息系統,它可以處理消費者規模網站中的所有動作流數據,目前已成為大數據系統在異步和分布式消息之間的最佳選擇。

一個高速、通用大數據計算處理引擎。擁有Hadoop MapReduce所具有的優點,但不同的是Job的中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的算法。它可以與Hadoop和Apache Mesos一起使用,也可以獨立使用。

可以構建用於處理或分析流數據的自定義應用程式,來滿足特定需求。Amazon Kinesis Streams 每小時可從數十萬種來源中連續捕獲和存儲數TB數據,如網站點擊流、財務交易、社交媒體源、IT日誌和定位追蹤事件。

一個開源框架,適合運行在通用硬體,支持用簡單程序模型分布式處理跨集群大數據集,支持從單一伺服器到上千伺服器的水平scale up。Apache的Hadoop項目已幾乎與大數據劃上了等號,它不斷壯大起來,已成為一個完整的生態系統,擁有眾多開源工具面向高度擴展的分布式計算。高效、可靠、可伸縮,能夠為你的數據存儲項目提供所需的YARN、HDFS和基礎架構,並且運行主要的大數據服務和應用程式。

實現微批處理,目標是很方便的建立可擴展、容錯的流應用,支持Java、Scala和Python,和Spark無縫集成。Spark Streaming可以讀取數據HDFS,Flume,Kafka,Twitter和ZeroMQ,也可以讀取自定義數據。

是對Storm的更高一層的抽象,除了提供一套簡單易用的流數據處理API之外,它以batch(一組tuples)為單位進行處理,這樣一來,可以使得一些處理更簡單和高效。

於今年躋身Apache頂級開源項目,與HDFS完全兼容。Flink提供了基於Java和Scala的API,是一個高效、分布式的通用大數據分析引擎。更主要的是,Flink支持增量迭代計算,使得系統可以快速地處理數據密集型、迭代的任務。

出自於LinkedIn,構建在Kafka之上的分布式流計算框架,是Apache頂級開源項目。可直接利用Kafka和Hadoop YARN提供容錯、進程隔離以及安全、資源管理。

Storm是Twitter開源的一個類似於Hadoop的實時數據處理框架。編程模型簡單,顯著地降低了實時處理的難度,也是當下最人氣的流計算框架之一。與其他計算框架相比,Storm最大的優點是毫秒級低延時。

Yahoo S4 (Simple Scalable Streaming System)

是一個分布式流計算平臺,具備通用、分布式、可擴展的、容錯、可插拔等特點,程式設計師可以很容易地開發處理連續無邊界數據流(continuous unbounded streams of data)的應用。它的目標是填補複雜專有系統和面向批處理開源產品之間的空白,並提供高性能計算平臺來解決並發處理系統的複雜度。

是一個Hadoop MapReduce框架的修改版本,其目標是為了高效支持 迭代,遞歸數據 分析任務,如PageRank,HITs,K-means,sssp等。

是一個開源的分布式SQL查詢引擎,適用於交互式分析查詢,可對250PB以上的數據進行快速地交互式分析。Presto的設計和編寫是為了解決像Facebook這樣規模的商業數據倉庫的交互式分析和處理速度的問題。Facebook稱Presto的性能比諸如Hive和MapReduce要好上10倍有多。

於2012年8月份由Apache推出,讓用戶可以使用基於SQL的查詢,查詢Hadoop、NoSQL資料庫和雲存儲服務。它能夠運行在上千個節點的伺服器集群上,且能在幾秒內處理PB級或者萬億條的數據記錄。它可用於數據挖掘和即席查詢,支持一系列廣泛的資料庫,包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亞馬遜S3、Azure Blob Storage、谷歌雲存儲和Swift。

是一個Java中間層,可以讓開發者在Apache HBase上執行SQL查詢。Phoenix完全使用Java編寫,並且提供了一個客戶端可嵌入的JDBC驅動。Phoenix查詢引擎會將SQL查詢轉換為一個或多個HBase scan,並編排執行以生成標準的JDBC結果集。

是一種程式語言,它簡化了Hadoop常見的工作任務。Pig可加載數據、轉換數據以及存儲最終結果。Pig最大的作用就是為MapReduce框架實現了一套shell腳本 ,類似我們通常熟悉的SQL語句。

是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。

前身是Shark,SparkSQL拋棄原有Shark的代碼並汲取了一些優點,如內存列存儲(In-Memory Columnar Storage)、Hive兼容性等。由於擺脫了對Hive的依賴性,SparkSQL無論在數據兼容、性能優化、組件擴展方面都得到了極大的方便。

原來叫Tez,是下一代Hive,由Hortonworks主導開發,運行在YARN上的DAG計算框架。某些測試下,Stinger能提升10倍左右的性能,同時會讓Hive支持更多的SQL。

目的是在HDFS之上構建一個可靠的、支持關係型數據的分布式數據倉庫系統,它的重點是提供低延遲、可擴展的ad-hoc查詢和在線數據聚集,以及為更傳統的ETL提供工具。

Cloudera 聲稱,基於SQL的Impala資料庫是「面向Apache Hadoop的領先的開源分析資料庫」。它可以作為一款獨立產品來下載,又是Cloudera的商業大數據產品的一部分。Cloudera Impala 可以直接為存儲在HDFS或HBase中的Hadoop數據提供快速、交互式的SQL查詢。

是一個基於Lucene的搜索伺服器。它提供了一個分布式、支持多用戶的全文搜尋引擎,基於RESTful web接口。Elasticsearch是用Java開發的,並作為Apache許可條款下的開放源碼發布,是當前流行的企業級搜尋引擎。設計用於雲計算中,能夠達到實時搜索、穩定、可靠、快速、安裝使用方便。

基於Apache Lucene,是一種高度可靠、高度擴展的企業搜索平臺。知名用戶包括eHarmony、西爾斯、StubHub、Zappos、百思買、AT&T、Instagram、Netflix、彭博社和Travelocity。

即Hive on Spark,本質上是通過Hive的HQL解析,把HQL翻譯成Spark上的RDD操作,然後通過Hive的metadata獲取資料庫裡的表信息,實際HDFS上的數據和文件,會由Shark獲取並放到Spark上運算。Shark的特點就是快,完全兼容Hive,且可以在shell模式下使用rdd2sql()這樣的API,把HQL得到的結果集,繼續在scala環境下運算,支持自己編寫簡單的機器學習或簡單分析處理函數,對HQL結果進一步分析計算。

基於Java的Lucene可以非常迅速地執行全文搜索。據官方網站聲稱,它在現代硬體上每小時能夠檢索超過150GB的數據,它擁有強大而高效的搜索算法。

聲稱其BigMemory技術是「世界上首屈一指的內存中數據管理平臺」,支持簡單、可擴展、實時消息,聲稱在190個國家擁有210萬開發人員,全球1000家企業部署了其軟體。

是一種高性能、整合式、分布式的內存中平臺,可用於對大規模數據集執行實時計算和處理,速度比傳統的基於磁碟的技術或快閃記憶體技術高出好幾個數量級。該平臺包括數據網格、計算網格、服務網格、流媒體、Hadoop加速、高級集群、文件系統、消息傳遞、事件和數據結構等功能。

Pivotal宣布它將開放其大數據套件關鍵組件的原始碼,其中包括GemFire內存中NoSQL資料庫。它已向Apache軟體基金會遞交了一項提案,以便在「Geode」的名下管理GemFire資料庫的核心引擎。

由Apache Ignite驅動的GridGrain提供內存中數據結構,用於迅速處理大數據,還提供基於同一技術的Hadoop加速器。

是一個基於分布式文件存儲的資料庫。由C++語言編寫。旨在為web應用提供可擴展的高性能數據存儲解決方案。介於關係資料庫和非關係資料庫之間的開源產品,是非關係資料庫當中功能最豐富、最像關係資料庫的產品。

是一個高性能的key-value存儲系統,和Memcached類似,它支持存儲的value類型相對更多,包括string(字符串)、list(鍊表)、set(集合)和zset(有序集合)。Redis的出現,很大程度補償了memcached這類key/value存儲的不足,在部分場合可以對關係資料庫起到很好的補充作用。

Hadoop分布式文件系統(HDFS)被設計成適合運行在通用硬體(commodity hardware)上的分布式文件系統。它和現有的分布式文件系統有很多共同點。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。

是Hadoop的資料庫,一個分布式、可擴展、大數據的存儲。是為有數十億行和數百萬列的超大表設計的,是一種分布式資料庫,可以對大數據進行隨機性的實時讀取/寫入訪問。提供類似谷歌Bigtable的存儲能力,基於Hadoop和Hadoop分布式文件系統(HDFS)而建。

是一個高性能的,NOSQL圖形資料庫,它將結構化數據存儲在網絡上而不是表中。自稱「世界上第一個和最好的圖形資料庫」,「速度最快、擴展性最佳的原生圖形資料庫」,「最大和最有活力的社區」。用戶包括Telenor、Wazoku、ebay、必能寶(Pitney Bowes)、MigRaven、思樂(Schleich)和Glowbl等。

基於列存儲高性能和高可用性設計的資料庫方案,由於對大規模並行處理(MPP)技術的支持,提供細粒度、可伸縮性和可用性的優勢。每個節點完全獨立運作,完全無共享架構,降低了共享資源的系統競爭。

是一個混合型的非關係的資料庫,類似於Google的BigTable,其主要功能比Dynamo (分布式的Key-Value存儲系統)更豐富。這種NoSQL資料庫最初由Facebook開發,現已被1500多家企業組織使用,包括蘋果、歐洲原子核研究組織(CERN)、康卡斯特、電子港灣、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netfilx、Reddit及其他機構。

號稱是「一款完全擁抱網際網路的資料庫」,它將數據存儲在JSON文檔中,這種文檔可以通過Web瀏覽器來查詢,並且用JavaScript來處理。它易於使用,在分布式上網絡上具有高可用性和高擴展性。

是一個經典的分布式Key-Value 存儲系統,具備去中心化、高可用性、高擴展性的特點。Dynamo在Amazon中得到了成功的應用,能夠跨數據中心部署於上萬個結點上提供服務,它的設計思想也被後續的許多分布式系統借鑑。

是一個用Erlang編寫的高可用的NoSQL數據存儲,能夠減輕資料庫管理工作,開發人員只需通過Web服務請求執行數據項的存儲和查詢,Amazon SimpleDB 將負責餘下的工作。作為一項Web 服務,像Amazon的EC2和S3一樣,是Amazon網絡服務的一部分。

是一個開源、高性能、可伸縮的資料庫,它採用與Google的Bigtable相似的模型。它與Hadoop兼容,性能超高,其用戶包括電子港灣、百度、高朋、Yelp及另外許多網際網路公司。

這是一個ETL工具集,它允許你管理來自不同資料庫的數據,通過提供一個圖形化的用戶環境來描述你想做什麼,而不是你想怎麼做。作為Pentaho的一個重要組成部分,現在在國內項目應用上逐漸增多。

是一個開源的分布式分析引擎,提供了基於Hadoop的超大型數據集(TB/PB級別)的SQL接口以及多維度的OLAP分布式聯機分析。最初由eBay開發並貢獻至開源社區。它能在亞秒內查詢巨大的Hive表。

是一個使用Apache 開源協議的Elasticsearch 分析和搜索儀錶板,可作為Logstash和ElasticSearch日誌分析的 Web 接口,對日誌進行高效的搜索、可視化、分析等各種操作。

是一個用於大數據實時查詢和分析的高容錯、高性能、分布式的開源系統,旨在快速處理大規模的數據,並能夠實現快速查詢和分析。

全稱是「康斯坦茨信息挖掘工具」(Konstanz Information Miner),是一個開源分析和報表平臺。宣稱「是任何數據科學家完美的工具箱,超過1000個模塊,可運行數百個實例,全面的集成工具,以及先進的算法」。

是一個提供交互數據分析且基於Web的筆記本。方便你做出可數據驅動的、可交互且可協作的精美文檔,並且支持多種語言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。

是第一家針對的數據集成工具市場的ETL(數據的提取Extract、傳輸Transform、載入Load)開源軟體供應商。Talend的下載量已超過200萬人次,其開源軟體提供了數據整合功能。其用戶包括美國國際集團(AIG)、康卡斯特、電子港灣、通用電氣、三星、Ticketmaster和韋裡遜等企業組織。

是機器數據的引擎。使用 Splunk 可收集、索引和利用所有應用程式、伺服器和設備(物理、虛擬和雲中)生成的快速移動型計算機數據,從一個位置搜索並分析所有實時和歷史數據。

是世界上最流行的開源商務智能軟體,以工作流為核心的、強調面向解決方案而非工具組件的、基於java平臺的商業智能(Business Intelligence)套件。包括一個web server平臺和幾個工具軟體:報表、分析、圖表、數據集成、數據挖掘等,可以說包括了商務智能的方方面面。

提供了靈活、可嵌入的商業智能工具,用戶包括眾多企業組織:高朋、冠群科技、美國農業部、愛立信、時代華納有線電視、奧林匹克鋼鐵、內斯拉斯加大學和通用動力公司。

Spago被市場分析師們稱為「開源領袖」,它提供商業智能、中間件和質量保證軟體,另外還提供相應的Java EE應用程式開發框架。

歸Altamira科技公司(以國家安全技術而聞名)所有,這是一種開源大數據整合、分析和可視化平臺。

是Cascading的高級擴展,為Hadoop提供了一個ANSI SQL接口極大地簡化了應用程式的開發和集成。Lingual實現了連接現有的商業智能(BI)工具,優化了計算成本,加快了基於Hadoop的應用開發速度。

基於Java提供了統一的數據進程管道開發,並且能夠很好地支持Spark和Flink。提供很多在線框架,開發者無需學太多框架。

是一個基於Hadoop建立的API,用來創建複雜和容錯數據處理工作流。它抽象了集群拓撲結構和配置,使得不用考慮背後的MapReduce,就能快速開發複雜的分布式應用。

作為Hadoop之外的一種選擇,是一個利用集群伺服器進行大數據分析的系統,HPCC在LexisNexis內部使用多年,是一個成熟可靠的系統,包含一系列的工具、一個稱為ECL的高級程式語言、以及相關的數據倉庫,擴展性超強。

結合了面向Hive的多種機器學習算法,它包括了很多擴展性很好的算法,可用於數據分類、遞歸、推薦、k最近鄰、異常檢測和特徵哈希等方面的分析應用。

具有豐富數據挖掘分析和算法功能,常用於解決各種的商業關鍵問題,解決方案覆蓋了各個領域,包括汽車、銀行、保險、生命科學、製造業、石油和天然氣、零售業及快消行業、通訊業、以及公用事業等各個行業。

目的是「為快速創建可擴展、高性能的機器學習應用程式而打造一個環境」,主要特點是為可伸縮的算法提供可擴展環境、面向Scala/Spark/H2O/Flink的新穎算法、Samsara(類似R的矢量數學環境),它還包括了用於在MapReduce上進行數據挖掘的眾多算法。

本文系「大數據雜談」原創文章,已經授權InfoQ公眾號轉發傳播。ID:「BigdataTina2016」

今日薦文

點擊下方圖片即可閱讀

Apache Beam的前世今生:谷歌已經不再使用MapReduce了

相關焦點

  • Google Trends谷歌趨勢使用教程(圖文)
    這個時候我們就需要一款強大有效的數據工具來幫助我們進行專業的分析,今天谷歌大叔團隊給大家推薦一款免費且專業的分析工具-Google Trends 什麼是Google Trends Google Trends, 也就是我們常說的谷歌趨勢。谷歌趨勢是谷歌旗下一款基於搜索數據推出的一款分析工具。
  • 這5個免費的Google工具——跨境賣家都在用!
    現跨境電商非常火爆,越來越多的人投入進去這個行業,跨境電商運營是大家所關心的事情,也是做跨境電商的重中之重,而很多朋友們卻不知道這些實用的跨境電商工具會讓您在出口跨境電商的運營中達到事半功倍的效果。下面給大家介紹幾種免費且實用的google工具。
  • Google Trends谷歌趨勢的這五個實用技巧,你會用嗎?
    比如輸入關鍵字Go,你會看到下面列出的選項以區分Go的不同含義。這些選項的差異可能非常大,再比如,程式語言Swift的搜索度就與歌手(泰勒)Swift的搜索度相差很多。Trends顯示的相關主題和搜索查詢可以有助於你優化關鍵字。
  • Wish大賣如何利用Google Trends進行高階選品?
    有什麼好的思路和工具嗎? 今天Wish認證講師黃遠欣為大家帶來《精細化運營:利用站外工具》的精彩分享,旨在為你開闢一個全新的海外世界,在這裡你可以全力開發你的腦洞,只要想到得到做得到就有可能打造一款全球爆品。 我的朋友經常問我幾個問題: 1)最近什麼產品好賣,能告訴我一下嗎? 2)我也上傳了這個產品,為什麼不出單呢?
  • 硬核盤點:12個大數據分析網站,務必收藏
    大數據對我們生活的影響深遠,通過運用大數據,我們可以獲得用戶的真實需求,了解關鍵詞搜索的用戶畫像,從而獲得精準的分析結果。今天給大家介紹12個大數據分析網站,建議收藏轉發。2、百度預測http://trends.baidu.com/上傳歷史數據可預測出未來的業務趨勢走向。
  • [講師教學]Arnold講師:如何運用Google Trends和GMF來進行市場分析
    沃藍課堂已有18門課,包括電商理論、流量理論、競爭對手分析、市場趨勢分析Google工具、SEO、Aliexpress、Amazon、Facebook、Wordpress自助建站、線下精品班等,已有114節課,共計課堂視頻時長1467分鐘。
  • 史上最全的大數據分析和新媒體製作工具
    「人和動物的區別是人類會使用工具」,這句話對於生活在信息爆炸時代的人尤為適用。這篇文章整理了部分當代職場人必備的新媒體工具和大數據分析與製作工具,這些「必備神器」,其中很多工具是親測過,非常強大,希望大家能從中找到對自己有幫助的工具。
  • 2017,最受歡迎的 15 大 Python 庫有哪些?
    Pandas (提交數: 15089, 貢獻者數:762)Pandas是一個Python包,旨在通過「標記」和「關係」數據進行工作,簡單直觀。Pandas是數據整理的完美工具。它設計用於快速簡單的數據操作,聚合和可視化。庫中有兩個主要的數據結構:「系列」(Series),一維
  • 2017,最受歡迎的15大Python庫有哪些?
    trends.google.com GitHub請求歷史記錄 它是一個頂尖的軟體(在NumPy,SciPy和Pandas的幫助下),它使Python成為像MatLab或Mathematica這樣的科學工具的競爭對手。 然而,這個庫是低層級的,這意味著你需要編寫更多的代碼才能達到高級的可視化效果,而且通常會比使用更多的高級工具付出更多的努力,但總體上這些努力是值得的。
  • 匯總版|最全數據分析資料匯總(趣味Python、商業數據分析、爬蟲等等)
    為了方便大家學習,我已經對文章進行了梳理,並置於公眾號菜單欄,後續會繼續細化已有模塊,同時還會陸續增加大數據、資料工具等等。•Python入門到進階•Python趣味篇•Python可視化•Python自動化辦公•高效工具•商業數據分析(方法論、實戰)•Python爬蟲•機器學習•大數據(待補充)•資料工具(待補充)•常用網站(新增)Python入門到進階•必須要掌握的Python代碼,短小精悍,非常實用•英偉達小姐姐的7大Python技巧合集,Github點讚量高達2500+•提升Python
  • 跨境電商SEO關鍵詞搜索工具有哪些?
    而在SEO優化中佔有舉足輕重地位的關鍵詞,從選擇到埋放都有許多要注意的地方,而這些往往也是SEO優化的成敗點。 善用這些關鍵詞查詢網站,能讓你的SEO事半功倍。 關鍵詞查詢工具站: 1、Google Adword https://adwords.google.com/select/KeywordToolExternal Google Adwords關鍵字工具,對於新建網站來說很有用,可以用來分析目標關鍵詞,查找長尾關鍵詞,如果要做競價,可以查到點擊價格。
  • 如何利用谷歌趨勢Google Trends查看詞條熱度並比較熱門搜索詞
    而這恰恰適用於那些想要了解自己的品牌和業務在目標受眾中的反響程度的賣家,以及想要做海外推廣的賣家,因為這些都能通過搜索頻率以及何時達到人氣峰值來體現。 而且,谷歌趨勢對內容創作者和產品開發者同樣也很有幫助,因為你可以及時獲取時下的熱門內容,包括季節性趨勢。例如,關鍵詞「給媽媽的聖誕禮物」在11月和12月的美國搜索中呈上升趨勢。那麼該如何使用這樣一款免費而專業的工具呢?
  • 2019最全關鍵詞來源和常見亞馬遜關鍵詞挖掘工具分享
    2.在競爭對手的Listing中尋找關鍵詞 當你找到同款產品賣的比較好的競爭對手的Listing,細心的你一定會發現這個產品的另外的一種表達方式,那麼說不定哪一個詞就會成為推的詞語。 亞馬遜數據分析工具—紫鳥 連結:http://www.ziniao.com/ 此工具功能較多,不僅可以找到關鍵詞、熱搜詞來增加listing的曝光度,而且可以幫助賣家尋找亞馬遜市場中熱銷產品,也可以時刻跟蹤銷售效果,為賣家提供了一站式服務。
  • 【雨果日報】亞馬遜全站點部分數據報告,DPSaT數據該如何分析...
    題外話:「雨果日報」,一天一報,跨境電商新規則、巧實操、硬幹貨一一呈上,各位果粉請笑納 亞馬遜全站點部分數據報告這些新賣家主要來自於這些站點:美國站392,523名,印度站107,515名以及英國站77,788名。與此同時,亞馬遜已有五百萬的賣家體量。不過,這些新入駐的賣家並不都是活躍的,很多賣家甚至沒有上傳過一個單品。
  • 《SEO學習之關鍵詞擴展(一)》
    》這一篇文章主要整理總結關鍵詞庫的建立流程和相應的關鍵詞擴展的方法,後期會長期更新其他的關鍵詞擴展方法,方便後期整理,所以命名為:《SEO學習之關鍵詞擴展(一)》在這裡先分析一下關鍵詞的金字塔結構來指導我們關鍵詞庫建立的策略:
  • 讓FB、谷歌平臺大數據指明2019電商出海之路!
    這個還是有一點困難的 - 畢竟數據比較敏感而且太多可能性影響廣告成效。但是這不代表我們沒有其他途徑了解行業趨勢。今天想分享的是平臺一些大數據洞察,而且你可以怎樣有效的利用他們。除了Facebook 的,也會提到友商Google的,希望可以讓大家具備更多的 '子彈' 攻下更多客戶  跨境商機大數據平臺 - Facebook 如果你已經有一些出海經驗,但是想要發現更多的藍海或商機, 你可以利用『跨境商機大數據平臺『探索和發掘跨境業務發展新商機。
  • 2017年數據科學15個最好用的Python庫
    如果你是正在學習Python的學生,也許根據這個表單能夠幫你更好地找到學習的重心。因為所有的python庫都是開源的,所以我們還列出了每個庫的提交次數、貢獻者人數和其他一些來自Github可以代表Python庫流行度的指標。1.
  • 外貿人工具清單:其中37個工具你一定沒用過(上)
    中國海關大數據:http://43.248.49.97/全球海關大數據:https://comtrade.un.org/很多國家都有自己的海關數據統計,可以自行 google。45. google trends
  • 最全出遊APP盤點:從行程安排到目的地活動,承包你的整個黃金周
    隨著移動網際網路的普及和各類APP的出現,智慧型手機早已不僅僅是通訊工具,在很多時候,智慧型手機已經是個人隨身智能終端,不過手機只是載體,各種功能的實現還得依靠APP,十一黃金周很多人都會出去旅遊,小編就為大家盤點了一批優秀的旅遊的APP,有這些APP在,走遍天下都一手掌控。
  • 外貿人常用網站或工具匯總
    各大B2B平臺,發布產品之前,需要對各大B2B平臺優勢及你自己產品的市場做好了解。比如:了解你的產品目標客戶群,你的主打市場,通過你的產品,了解你的同行或者你的老客戶,他們常用的平臺有哪些等等。再根據自己的實際情況,選擇合作的平臺。