阿里正式開源通用算法平臺Alink,「雙11」將天貓推薦點擊率提升4%

2020-12-06 AI科技大本營

整理 | 若名

近日,阿里雲計算部門已在 GitHub 上發布了其 Alink 平臺的「核心代碼」,並上傳了一系列算法庫,它們支持批處理和流處理,這對支持機器學習任務至關重要。

Alink 是基於 Flink 的通用算法平臺,由阿里巴巴計算平臺 PAI 團隊研發。除了支持阿里自己的平臺外,還支持 Kafka,HDFS 和 HBase 等一系列開源數據存儲平臺。

阿里雲計算和機器智能部門表示,開發者和數據分析師可以利用開原始碼來構建軟體功能,例如統計分析、機器學習、實時預測、個性化推薦和異常檢測。而 Alink 提供的一系列算法,可以幫助處理機器學習任務,例如 AI 驅動的客戶服務和產品推薦。

開源算法列表

阿里巴巴集團副總裁、阿里雲智能計算平臺事業部總裁、高級研究員賈揚清指出,對於尋求大數據和機器學習工具的開發人員而言,Alink 將是一個新的選擇。

在他看來,作為中國企業是GitHub上十大貢獻者之一,阿里致力於在軟體開發周期中儘早與開源社區建立聯繫。而在 GitHub 上開源 Alink 遵循了這一承諾。

阿里目前已將 Alink 部署到其旗下電子商務平臺天貓上。今年「雙11」期間,單日數據處理量達到 970PB,每秒處理峰值數據高達 25 億條,Alink 幫助天貓產品推薦的點擊率提高了 4%。

迄今為止,阿里的開發人員在過去八年中為整個開源社區貢獻了 180 多個項目,包括雲基礎架構、機器學習、資料庫和網絡。阿里巴巴的開放原始碼計劃包括基於 MySQL 的 AliSQL,容器工具 Pouch 和 JStorm(基於Java的 Apache Storm 版本)。

關於 Alink 的使用問題

Q:能否連接遠程 Flink 集群進行計算?

A:通過方法可以連接一個已經啟動的 Flink 集群:

useRemoteEnv(host, port, parallelism, flinkHome=None, localIp="localhost", shipAlinkAlgoJar=True, config=None)

。其中,參數

host 和 port 表示集群的地址;parallelism 表示執行作業的並行度;flinkHome 為 flink 的完整路徑,默認使用 PyAlink 自帶的 flink-1.9.0 路徑;localIp 指定實現 Flink DataStream 的列印預覽功能時所需的本機IP位址,需要 Flink 集群能訪問。默認為localhost。shipAlinkAlgoJar 是否將 PyAlink 提供的 Alink 算法包傳輸給遠程集群,如果遠程集群已經放置了 Alink 算法包,那麼這裡可以設為 False,減少數據傳輸。Q:如何停止長時間運行的Flink作業?

A:使用本地執行環境時,使用 Notebook 提供的「停止」按鈕即可。使用遠程集群時,需要使用集群提供的停止作業功能。

Q:能否直接使用 Python 腳本而不是 Notebook 運行?

A:可以。但需要在代碼最後調用 resetEnv,否則腳本不會退出。

使用步驟

使用前準備:

確保使用環境中有Python3,版本>=3.5;需要根據 Python 版本下載對應的 pyalink 包(下載連結參見GitHub);使用 easy_install 進行安裝 easy_install [存放的路徑]/pyalink-0.0.1-py3.*.egg。需要注意的是:如果之前安裝過 pyalink,請先使用 pip uninstall pyalink卸載之前的版本。如果有多個版本的 Python,可能需要使用特定版本的 easy_install,比如 easy_install-3.7。如果使用 Anaconda,則需要在 Anaconda 命令行中進行安裝。

開始使用:

阿里推薦通過 Jupyter Notebook 來使用 PyAlink,能獲得更好的使用體驗。

pyAlink

使用步驟:

在命令行中啟動Jupyter:jupyter notebook,並新建 Python 3 的 Notebook 。導入 pyalink 包:from pyalink.alink import *使用方法創建本地運行環境:useLocalEnv(parallism, flinkHome=None, config=None)。其中,參數 parallism 表示執行所使用的並行度;flinkHome 為 flink 的完整路徑,默認使用 PyAlink 自帶的 flink-1.9.0 路徑;config為Flink所接受的配置參數。運行後出現如下所示的輸出,表示初始化運行環境成功:JVM listening on ***Python listening on ***4.開始編寫 PyAlink 代碼,例如:

source = CsvSourceBatchOp\.setSchemaStr("sepal_length double, sepal_width double, petal_length double, petal_width double, category string")\.setFilePath("http://alink-dataset.cn-hangzhou.oss.aliyun-inc.com/csv/iris.csv")res = source.select("sepal_length", "sepal_width")df = res.collectToDataframeprint(df)

編寫代碼:

在 PyAlink 中,算法組件提供的接口基本與 Java API 一致,即通過默認構造方法創建一個算法組件,然後通過 setXXX 設置參數,通過link/linkTo/linkFrom與其他組件相連。這裡利用 Jupyter 的自動補全機制可以提供書寫便利。

對於批式作業,可以通過批式組件的

print/collectToDataframe/collectToDataframes

等方法或者 BatchOperator.execute來觸發執行;對於流式作業,則通過StreamOperator.execute 來啟動作業。

如何在集群上運行Alink算法

1.準備Flink集群

wget https://archive.apache.org/dist/flink/flink-1.9.0/flink-1.9.0-bin-scala_2.11.tgztar -xf flink-1.9.0-bin-scala_2.11.tgz && cd flink-1.9.0./bin/start-cluster.sh2.準備Alink算法包

git clone https://github.com/alibaba/Alink.gitcd Alink && mvn -Dmaven.test.skip=true clean package shade:shade3.運行Java示例

./bin/flink run -p 1 -c com.alibaba.alink.ALSExample [path_to_Alink]/examples/target/alink_examples-0.1-SNAPSHOT.jar# ./bin/flink run -p 2 -c com.alibaba.alink.GBDTExample [path_to_Alink]/examples/target/alink_examples-0.1-SNAPSHOT.jar# ./bin/flink run -p 2 -c com.alibaba.alink.KMeansExample [path_to_Alink]/examples/target/alink_examples-0.1-SNAPSHOT.jar

相關焦點

  • 天貓雙11 七天無理由裝上人工智慧大腦 「阿里小蜜」「店小蜜」上線
    2016年3月,阿里巴巴人工智慧服務產品「阿里小蜜」全量上線,上線半月日均接待400萬人,服務能力堪比3.3萬個服務小二。  經過近8個月的優化升級,預計2016年雙11期間,阿里小蜜將承接超90%的服務諮詢。
  • 新零售新物種新模式 今年天貓雙11這麼玩
    原標題:新零售新物種新模式,今年天貓雙11這麼玩 摘要 2017年天貓雙11電商大戰已經打響,作為阿里主場的天貓平臺也已開足馬力,正以優質的全球產品和特色的娛玩娛購思路成為第九個天貓雙
  • 一文解讀「雙11」期間天貓、京東、蘇寧電商平臺競爭形勢並探究...
    京東2017年「雙11」的市場份額也出現了下滑跡象,佔全網銷售額的21.41%。不同於天貓、京東份額下降的情況,蘇寧佔比達到4.34%,比2016年的2.20%提升了近一倍,唯品會、亞馬遜的銷售額佔比也有明顯的提升,而2016年排名第四、五的國美和一號店已不見蹤影。
  • 人工智慧承接95%服務請求 挑起2016天貓雙11服務大梁
    阿里小蜜累計接待消費者數超632萬,相當於5.2萬客服小二連續工作24小時,店小蜜首次成為9個商家客服力量參戰雙11,當天接待消費者近百萬……在剛剛過去的2016天貓雙11全球狂歡節上,阿里巴巴人工智慧服務家族表現驚豔,智能服務承接佔比超95%,成為雙11服務的絕對主力。
  • 2019天貓雙11十二時辰
    釘科技曉暉到達時已經中午,這個時候的江南,比起北方的確溫暖許多,甚至可以說有些熱,當然,在釘科技曉暉想來,更「熱」的時候會在24點之後,因為,那時,2019年的天貓雙11會正式開啟。這是第十一個天貓雙11。2018年,第十個天貓雙11全天成交額鎖定在2135億元人民幣,包裹總數超過10億個,之後不久,阿里巴巴迎來一次組織升級。
  • 2020年阿里云云原生市場現狀與發展趨勢分析 雲原生促阿里雙11訂單...
    2020天貓雙11狂歡季成交額、阿里雲創建訂單峰值再次創下新高,下單體驗更為流暢,其背後的阿里云云原生技術功不可沒。阿里雲已擁有國內規模最大的雲原生產品家族和開源生態,在Gartner發布的2020年公共雲容器報告中,阿里雲排名全球第一。
  • 《經濟學人》為何一月三次聚焦阿里:天貓雙11代表全球化「中國方案」
    最新出版的《經濟學人》雜誌推出一組「特別報導」稱,天貓雙11即將來臨,電子商務在世界範圍內已經並將持續高速增長,這一浪潮正在助推中國的阿里巴巴實現國際化。在數字經濟時代,阿里巴巴已不再是簡單的電商,而是商業基礎設施提供者,將用技術重塑從物流到製造的許多行業。
  • 阿里開源otter:分布式資料庫同步系統
    【IT168 資訊】阿里巴巴一向熱衷於開源。從風風火火的去IOE運動,到阿里在GitHub中託管的60個開源項目,都可以看到他們開源的決心。本周一(8月19日),阿里巴巴宣布開源分布式資料庫同步系統otter。
  • 阿里吳敏芝:人工智慧HOLD住天貓雙11,客服機器人賦能數十萬商家
    阿里吳敏芝:人工智慧HOLD住天貓雙11,客服機器人賦能數十萬商家 2019-11-13 00:13 來源:澎湃新聞·澎湃號·政務
  • Alink:基於Flink的機器學習平臺
    分享嘉賓:楊旭 阿里巴巴 資深算法專家編輯整理:朱榮導讀:Alink是基於Flink流批一體的機器學習平臺,提供一系列算法,可以幫助處理各種機器學習任務,比如統計分析、機器學習、實時預測、個性化推薦和異常檢測。
  • 質疑天貓雙11造假事件始末 真相究竟如何最新回應來了
    中國基金報 泰勒雙十一剛結束,2019天貓雙11全球狂歡節總成交額(GMV)達到2684億元人民幣,成功刷新了自己創下的商業紀錄。網友提出造假質疑一條發於今年4月份的微博今日被廣為轉發。截至11月11日24時止,天貓「雙11」總成交金額達2684億元,同比增長25.7%,正當所有人都在驚嘆今年「雙11」盛況的時候,一條今年4月24日「神預測」的微博突然刷爆朋友圈。
  • 加拿大網紅總理做客阿里 天貓國際又多了個「國家館」
    特魯多表示,今天對加拿大商界是令人振奮的一天,它們在全球最大的網上銷售平臺——阿里巴巴上擁有了一個永久的家,並且通過這個平臺觸及中國4億多消費者。這是讓加拿大企業和人民共同受益的合作,將促進中國遊客去加拿大旅遊,為加拿大創造就業,促進中產階級發展。
  • 天貓雙 11,奢侈品牌如何破局爆發?
    就在雙 11 期間,11 月 6 日,阿里巴巴集團對外宣布,與歷峰集團共同投資奢侈品電商平臺 FARFETCH,FARFETCH 也將同步入駐天貓奢品頻道(Luxury Pavilion)集成運營,這一舉措,再次顯示了阿里巴巴在奢侈品電商領域的投入和決心。
  • 【雙11紅包幹貨】2020淘寶天貓京東雙十一活動紅包攻略玩法詳解 請...
    那麼今年雙十一有哪些新玩法天貓雙11紅包入口福利超級紅包入口:(基本最低中5元左右)複製此口令【¥3x4Fc796k2s¥天貓雙11活動策略今年,天貓雙11戰線拉長,分為兩波活動,從「光棍節」變成了「雙節棍」。
  • 天貓雙11進程曝光;京東物流收購跨越速運;貝殼找房登陸紐交所
    5、阿里全資收購心怡科技:曾考慮獨立上市 阿里巴巴日前已正式完成對第三方電商物流供應鏈企業——心怡科技的全資收購交割,創始團隊不再持有任何股份。在阿里+菜鳥成為控股股東,以及完成全資收購前,心怡科技曾數次嘗試獨立上市。
  • 阿里AI labs發布兩大天貓精靈新品,將與平頭哥共同定製智能語音晶片
    這其中包括阿里巴巴的智能音箱天貓精靈。天貓精靈目前已經連續兩年銷量中國第一,全球第三。目前,天貓精靈已經接入了超過 660 多家 IoT 平臺,覆蓋超過 60 個品類,900 多個品牌,支持 3600 多型號,2 億可連接設備,成為最大的 IoT 生態開放平臺。如今,天貓精靈又有新動作。
  • 雙11第10年 你會遇到更多的人工智慧客服
    而在今年的雙11,消費者將面對更多的人工智慧客服。趙昆介紹,新發布的店小蜜商業版將對人工智慧客服的兩大服務模式進行全面升級:在店小蜜全自動應用場景中,店小蜜可降低60%客服壓力,縮短55%平均響應時長,同時實現7*24小時的值守服務;而在智能輔助模式下,店小蜜新增智能預測、主動營銷、智能催拍等功能,不光可以緩解人工客戶工作強度,還朝著「類人化」的方向不斷進化。
  • 天貓雙11賣爆的泰國乳膠枕,為什麼在中國火了?
    天貓國際上的黑馬轉機出現在2015年。當時阿里旗下的淘寶聚划算找到泰國商業部,希望泰國政府推薦當地的口碑工廠,做一檔乳膠枕的大促活動,Nittaya便是那個拿到推薦的乳膠枕工廠。「一場聚划算活動而已,能賣多少枕頭?」林啟江說,Nittaya知道中國市場需求大,但沒料到爆發力如此之強。
  • 阿里發布圖計算平臺GraphScope 即將向全社會開源
    11月9日,在第二屆世界科學、技術和發展論壇上,阿里發布了GraphScope,這是世界上第一個一站式的超大型分布計算平臺,並被選為中國科學技術協會「科創中國」平臺。然而,由於圖形計算場景和算法的多樣性,特別是對海量圖形數據的處理,計算複雜度高,資源成本大,難以推廣大規模圖計算的應用。阿里擁有世界上最大的商品知識圖。在圖形場景的驅動下,結合豐富的實際應用,開發了一站式圖形計算平臺--圖形顯微鏡。它支持交互式圖形查詢、高性能圖形分析和圖形深度學習,是業界第一個一站式平臺。
  • 阿里安全智能風控體系護航「雙11」安心買
    今年的「雙11」購物狂歡已經收官,在總成交額和交易峰值頻頻創下新記錄的同時,有一個紀錄也在被刷新:2020年「雙11」當天,阿里安全智能風控體系共攔截惡意請求59億次,擊退黃牛掃貨行為1887萬次,核心技術霸下(流量防控)和MTEE(業務風控)壘起的18道屏障,使送達交易系統的真實用戶請求佔比高達99.99%以上,保障所有正常用戶能順利、安全下單。