Arctern Spark單機可視化入門

2020-08-29 gis開發

Arctern基於開源大數據生態，構建靈活、強大、高性能的時空數據分析平臺，幫助用戶應對5G/IoT帶來的新型數據挑戰,加速時空數據的處理、分析、模型預測與呈現。本文中將會介紹Arctern Spark單機可視化安裝和簡單使用

安裝和驗證

參考單機安裝arctern和在線安裝單機spark一：要注意的地方conda info是查看當前的 Conda 環境信息，文檔裡寫的conda env info好像是不對的二：下載時候使用spark使用國內鏡像如清華鏡像(http://221.182.132.24/mirror.bit.edu.cn/apache/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz;https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz/tmp/fishnetmap.png)三：驗證腳本地址原文中有問題，在arctern-io項目裡面找一找，驗證通過以後如下圖.https://github.com/arctern-io/arctern/blob/d57c099987dc0a3881ca647b493f335e939219a1/spark/pyspark/examples/gis/spark_udf_ex.py。

可視化

重點是可視化的能力，在arctern-io裡面找到了相關的腳本https://github.com/arctern-io/arctern/blob/d57c099987dc0a3881ca647b493f335e939219a1/spark/pyspark/examples/render/nyc_taxi.py，使用了arctern-io的數據https://github.com/arctern-io/arctern-bootcamp/tree/master/nytaxi/file，稍微修改下名字就可以使用。修改bounding_box=[-74.060427, 40.680309, -73.924348, 40.910816]，sql中範圍ST_GeomFromText('POLYGON ((-74.060427 40.680309, -73.924348 40.680309, -73.924348 40.910816 ,-74.060427 40.910816, -74.060427 40.680309))。

image

參考資料：

https://arctern.io/docs/versions/v0.2.x/development-doc-cn/html/quick_start/standalone_installation.htmlhttps://arctern.io/docs/versions/v0.2.x/development-doc-cn/html/hide_source/spark/installation_and_deployment/install_arctern_on_spark_cn.html

相關焦點

Arctern pandas入門-前後端渲染

激活arctern環境，進入python,列印arctern版本就可以查看是否安裝成功Arctern後端渲染展示後端展示基本是參照官網安裝教程，但是有兩個地方要注意：一：以散點圖為例,原來的給出來的代碼會在我的電腦上一直不能加載出來圖片，我們需要自己修改下contextily選擇的底圖如contextily.providers.CartoDB.Voyager，其他的可視化案例同樣需要注意；二：icon展示圖，原文中的圖標地址已經不存在，可使用下面地址
新手入門:Spark 部署實戰入門

>Java JDK 1.8Spark 1.6.1Scala 2.11.8Hadoop安裝由於Spark會利用HDFS和YARN，所以需要提前配置Hadoop，配置教程可以參考： Setting up aApache Hadoop 2.7 single node on Ubuntu 14.04 Hadoop安裝教程_單機
GeoSpark入門-可視化

準備工作Windows 和 sparkIDEAGeoSpark支持java、Scala兩種,本次開發語言選擇Java。;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.serializer.KryoSerializer;import org.apache.spark.storage.StorageLevel;import org.datasyslab.geospark.enums.FileDataSplitter
大數據分析工程師入門9-Spark SQL

本文為《大數據分析師入門課程》系列的第9篇，在本系列的第8篇-Spark基礎中，已經對Spark做了一個入門介紹，在此基礎上本篇拎出Spark SQL，主要站在使用者的角度來進行講解，需要注意的是本文中的例子的代碼均使用Scala語言。
Spark SQL解析過程以及Antlr4入門

Spark SQL解析過程在Spark 2.0之後，Spark SQL使用Antlr 4來解析SQL表達式，其解析描述文件路徑為spark源碼根路徑\sql\catalyst\src\main\antlr4\org\apache\spark\sql\catalyst
大數據入門:Spark RDD、DataFrame、DataSet

今天的大數據入門分享，我們就主要來講講Spark RDD、DataFrame、DataSet。 RDD、DataFrame、DataSet三者的共性 RDD、DataFrame、Dataset全都是spark平臺下的分布式彈性數據集，為處理超大型數據提供便利。
Spark 1.6.0 新手快速入門

下面示例為一個簡單的應用示例: Scala /* SimpleApp.scala */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object SimpleApp {
手把手教你在本機安裝spark

本文轉載自【微信公眾號：五角錢的程式設計師，ID：xianglin965】，經微信公眾號授權轉載，如需轉載與原文作者聯繫今天是spark系列的第一篇文章。最近由於一直work from home節省了很多上下班路上的時間，加上今天的LeetCode的文章篇幅較小，所以抽出了點時間加更了一篇，和大家分享一下最近在學習的spark相關的內容。
從0到1進行Spark history分析

下面我將帶領大家從零到一，從取日誌，到在Spark WebUI進行可視化分析相關報錯、性能問題的方法。applicationID的spark history。目錄下，然後在搜索框中輸入applicationID ，就可以看到該applicationID對應的spark history（meta和part1兩個文件）顯示在了頁面中，勾選並下載，便可以將spark history下載到我們本地。
Spark 那麼強，為啥我還不會？

掌握了 Spark 的技術人成為市場上的香餑餑，但很多初入門者想要了解它卻沒有比較系列全面的入門方法。1、Spark之內存計算框架--課程內容介紹知識點：spark的課前準備內容2、通過IDEA工具開發Spark的入門案例知識點：maven構建scala工程
關於Spark NLP學習,你需要掌握的LightPipeline(附代碼)|CSDN博文...

實際上，由於它內部的機制和優化後的構架，Spark仍適用於中等大小單機可處理的數據。但不建議使用Spark來處理僅僅是幾行的數據, 除非使用Spark NLP。打個比方，Spark 好像一個火車和一個自行車賽跑。自行車會在輕載的時候佔上風，因為它更敏捷、提速更快，而重載的火車可能需要一段時間提速，但最終還是會速度更快。
Spark憑什麼成為大數據領域必備計算引擎?

掌握了 Spark 的技術人成為市場上的香餑餑，但很多初入門者想要了解它卻沒有比較系列全面的入門方法。別擔心，這裡整理了一份由廖雪峰等多位技術專家歷時3個月精心打磨的價值1788元的《Spark全套知識體系》學習視頻，對從事Java、PHP、運維等工作想要提升或轉行，或想從事大數據相關工作等人群來說，這份資料將特別適合。
入門單反尼康D5600(單機)雲南3464元

【中關村在線雲南行情】尼康D5600(單機)數位相機，近日在商家「昆明南方潮科技有限公司」特價促銷，尼康D5600(單機)產品亮點為入門單反，APS-C畫幅，全清視頻，觸控螢幕。感興趣的朋友可直接前往昆明市圓通北路佰騰數碼廣場2F-222詳詢，關於尼康D5600(單機)數位相機的促銷信息也可諮詢（聯繫電話：13987152338 08715195281 ）該商家。
spark streaming流處理入門乾貨,傾力奉獻

02spark streaming概述Spark Streaming 提供一個對於流數據的抽象 DStream。spark也同樣支持滑動窗口操作。05小結spark streaming作為spark中的流處理組件，把連續的流數據按照時間間隔劃分為一個個數據塊，然後對每個數據塊分別進行批處理
Java 開發 Spark ELT 實踐（一）

2、為什麼選擇Sparka）在日益增長的業務數據同步過程中，很多傳統ETL工具都是單機運行，搭建一套具備大規模數據處理能力的數據同步系統成為大數據分析系統中不可或缺的環節。可運行於分布式平臺並且對各種資料庫的訪問都實現了良好的支持，使用Spark來開發數據同步工具成為一個不錯的選擇；b）Spark DataFrame提供了豐富的操作API且可以直接基於DataFrame進行SQL操作，在EL過程中且可以進行一些簡單的數據轉換；c）Spark程序部署簡單，只需要使用spark-submit
Spark—15分鐘教程

無論你是想快速入門介紹sparksql，還是急於編寫你的程序，還是像我一樣需要一份備忘單，我相信你會發現這篇文章很有用。這篇文章的目的是介紹sparksql的所有主要函數/特性，在片段中，你將始終看到原始的SQL查詢及其在PySpark中的翻譯。
Spark項目案例實戰和分布式部署

{ArrayUtils, Bytes}import org.apache.spark.= new SparkConf().setAppName("HbaseJob")sparkConf.setMaster(mode)val sc = new SparkContext(sparkConf)
每個數據科學家都得會一點SparkMagic

其實，數據科學家生產率低下的主要原因在於數據準備工作的雙重性：· 快速訪問、合併和聚合存儲在企業數據湖中的大數據· 探索和可視化數據中具有複雜依賴關係的Python數據包中的數據和統計信息大數據大多是非結構化的，常常存儲在具有企業管理和安全限制的生產環境中。
大數據內存計算框架SparkSQL詳細整理

SparkSession為用戶提供了統一的切入點，來讓用戶學習spark的各項功能。在spark的早期版本中，SparkContext是spark的主要切入點，由於RDD是主要的API，我們通過sparkcontext來創建和操作RDD。對於每個其他的API，我們需要使用不同的context。
如何快速學習spark

spark它是發源於美國的加州大學伯克利分校amplab集群計算平臺的，基於內存計算的，時速非常快，性能比Hadoop快100陪以上，它可以流處理、圖計算、還有很多的計算範式，我個人認為spark是個全能的選手，但是隨著技術的快速發展，現在又出現Flink，它和spark是一個競爭對手了，今天我們主要講spark，後續我會再分享Flink的知識。

Arctern Spark單機可視化入門

安裝和驗證

可視化

參考資料：

相關焦點

Arctern pandas入門-前後端渲染

新手入門:Spark 部署實戰入門

GeoSpark入門-可視化

大數據分析工程師入門9-Spark SQL

Spark SQL解析過程以及Antlr4入門

大數據入門:Spark RDD、DataFrame、DataSet

Spark 1.6.0 新手快速入門

手把手教你在本機安裝spark

從0到1進行Spark history分析

Spark 那麼強，為啥我還不會？

關於Spark NLP學習,你需要掌握的LightPipeline(附代碼)|CSDN博文...

Spark憑什麼成為大數據領域必備計算引擎?

入門單反 尼康D5600(單機)雲南3464元

spark streaming流處理入門乾貨,傾力奉獻

Java 開發 Spark ELT 實踐（一）

Spark—15分鐘教程

Spark項目案例實戰和分布式部署

每個數據科學家都得會一點SparkMagic

大數據內存計算框架SparkSQL詳細整理

如何快速學習spark

入門單反尼康D5600(單機)雲南3464元