python接入百度AI 人臉識別 爬蟲 獲取美女圖片並打分(附源碼)

2020-12-13 Python雁橫

python 接入 百度AI 人臉識別 爬蟲 獲取美女圖片 並打分(先放一波福利)

想學習Python可以看評論區。

1 數據源知乎 話題『美女』下所有問題中回答所出現的圖片

2 抓取工具Python

3,並使用第三方庫 Requests、lxml、AipFace,代碼共 100 + 行3 必要環境Mac / Linux / Windows (後兩個沒測,理論上可以,注意文件名的處理),無需登錄知乎(即無需提供知乎帳號密碼),人臉檢測服務需要一個百度雲帳號(即百度網盤帳號)

4 人臉檢測庫AipFace,由百度雲 AI 開放平臺提供,是一個可以進行人臉檢測的 Python SDK。可以直接通過 HTTP 訪問,

5 檢測過濾條件過濾所有未出現人臉圖片(比如風景圖、未露臉身材照等)過濾所有非女性(在抓取中,發現知乎男性圖片基本是明星,故不考慮;存在 AipFace 性別識別不準的情況)過濾所有非真實人物,比如動漫人物 (AipFace Human 置信度小於 0.6)過濾所有顏值評分較低圖片(AipFace beauty 屬性小於 45,為了節省存儲空間;再次聲明,AipFace 評分無任何客觀性)

6 實現邏輯通過 Requests 發起 HTTP 請求,獲取『美女』下的部分討論列表通過 lxml 解析抓取到的每個討論中 HTML,獲取其中所有的 img 標籤相應的 src 屬性通過 Requests 發起 HTTP 請求,下載 src 屬性指向圖片(不考慮動圖)通過 AipFace 請求對圖片進行人臉檢測判斷是否檢測到人臉,並使用 『4 檢測過濾條件』過濾將過濾後的圖片持久化到本地文件系統,文件名為 顏值 + 作者 + 問題名 + 序號返回第一步,繼續

7 抓取結果 直接存放在文件夾中

8 運行準備

安裝 Python 3,Download Python

安裝 requests、lxml、 baidu-aip 庫,都可以通過 pip 安裝,一行命令

申請百度雲檢測服務,免費。人臉識別-百度AI

核心代碼:

#

2

3 import re

4 import os

5 import requests

6 import time

7

8 global PhotoNum

9 PhotoNum = 0

10 PWD = "E:/Python/ai2018-3-12/huaban/"

11 head = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

12 TimeOut = 30

13

14 url =

15 url_image =

16 urlNext =

17

18

19 def downfile(file, url):

20 print("開始下載:", file, url)

21 try:

22 r = requests.get(url, stream=True)

23 with open(file, 'wb') as fd:

24 for chunk in r.iter_content():

25 fd.write(chunk)

26 except Exception as e:

27 print("下載失敗了", e)

28

29

30 def requestpageText(url):

31 try:

32 Page = requests.session().get(url, headers=head, timeout=TimeOut)

33 Page.encoding = "utf-8"

34 return Page.text

35 except Exception as e:

36 print("聯網失敗了...重試中", e)

37 time.sleep(5)

38 print("暫停結束")

39 requestpageText(url)

40

41

42 def requestUrl(url):

43 global PhotoNum

44 print("*******************************************************************")

45 print("請求網址:", url)

46 text = requestpageText(url)

47 pattern = re.compile('{"pin_id":(d*?),.*?"key":"(.*?)",.*?"like_count":(d*?),.*?"repin_count":(d*?),.*?}', re.S)

48 items = re.findall(pattern, text)

49 print(items)

50 max_pin_id = 0

51 for item in items:

52 max_pin_id = item[0]

53 x_key = item[1]

54 x_like_count = int(item[2])

55 x_repin_count = int(item[3])

56 if (x_repin_count > 10 and x_like_count > 10) or x_repin_count > 100 or x_like_count > 20:

57 print("開始下載第{0}張圖片".format(PhotoNum))

58 url_item = url_image + x_key

59 filename = PWD + str(max_pin_id) + ".jpg"

60 if os.path.isfile(filename):

61 print("文件存在:", filename)

62 continue

63

64 downfile(filename, url_item)

65 PhotoNum += 1

66 requestUrl(urlNext + max_pin_id)

67

68

69 if not os.path.exists(PWD):

70 os.makedirs(PWD)

71 requestUrl(url)

相關焦點

  • 春運了,Python爬特價機票,爬人臉識別、爬微信……監管空白?
    下面給大家分享Python爬蟲,「爬」特價機票、「爬」人臉識別監控、「爬」支付寶、「爬」12306、「爬」微信、爬論壇....那麼網絡爬蟲這麼厲害,網絡監管機制空白嗎?網絡爬蟲、Python語言……這些高科技黑話你懂嗎?懂,說明你可能是折扣秒殺高手;不懂,那你就要看看這篇文章了。
  • python 網絡爬蟲有哪些用途
    網絡爬蟲,就是一種自動獲取網頁內容的程序。也就是通過源碼解析來獲得想要的內容。下載的內容包括文字,圖片,多媒體文件等。python有多個庫可實現網絡爬蟲,Urllib是python內置的HTTP請求庫,urllib的功能就是利用程序去執行各種HTTP請求。如果要模擬瀏覽器,需要把請求偽裝成瀏覽器。
  • 百度雲首創圖像搜索 支持人臉識別和檢索
    首創雲端圖像搜索基於用戶上傳到百度雲的圖片提供智能分類、人臉搜索等方式……        近日,百度雲在時光軸、足跡等原有圖片預覽功能基礎上全面升級,結合百度深度學習研究院提供的人臉識別及檢索技術
  • Python網絡爬蟲
    而網絡爬蟲技術,則是大數據分析領域的第一個環節。(二):能從網絡上爬取什麼數據?所有在網頁能見到的數據都可以通爬蟲程序保存下來。(三):python爬蟲的流程獲取網頁——解析網頁(提取數據)——存儲數據1:獲取網頁:給一個網址發送請求,該網址會返回整個網頁的數據。
  • python爬蟲之selenium抓取淘寶商品信息
    簡介本節採用python爬蟲相關技術獲取淘寶商品信息。採用的技術有selenium、pyquery及urllib.parse等。selenium可以模擬用戶執行的操作,是一個自動化測試工具,我們可以根據自己的需要預先設置selenium按照我們設置好的步驟進行操作,而在爬蟲中我們使用selenium可以解決javascript動態執行代碼的問題,不用費心去解析js如何運行,運行後產生的信息,直接使用selenium模擬實際登陸網頁的操作,獲取我們需要的信息進行分析,成功幫我們避開一系列複雜的通信過程,方便使用者。
  • 重慶科技學院首屆「曙光瑞翼杯」Python爬蟲競賽
    但是在大數據浪潮中,最值錢的就是數據,企業為了獲得數據,處理數據,理解數據花費了巨大代價,網絡爬蟲則是獲取簡單數據的一種最有效的方式。近日,數據中國「百校工程」項目院校重慶科技學院數理與大數據學院MAI協會聯合曙光瑞翼教育舉辦了首屆以「Python爬蟲,數據輕來」為主題的「曙光瑞翼杯」Python爬蟲大賽,全校一共16支隊伍參賽。
  • 侵入式的人臉識別:你不僅看房被宰,顏值也正被系統悄悄打分
    作者:時代財經 莊俊朗 編輯:王薇薇獲取顧客性別、年齡等信息,甚至進行「顏值打分」、「熟客識別」……人臉識別技術正在滲透各行各業。近日,一條短視頻引爆了輿論。視頻中,一名男子為了避免人臉識別,戴著頭盔光顧售樓部。
  • 聊聊學python轉行、具體學習方法、自學python用於辦公、寫爬蟲等...
    那今天就來說說學python這件事兒吧,從三個方面來說:第一,學了python之後轉行找工作的問題;第二,具體的學習方法;第三,講講學了python之後應用於辦公自動化和寫爬蟲。4600字。關於恰飯:不用猜了,這篇依舊沒有廣告。
  • Python開發簡單爬蟲【學習資料總結】
    一、簡單爬蟲架構 URL管理器功能.png 支持的功能 添加新URL到待爬取集合中 判斷待添加的URL是否在容器中 判斷是否還有帶待爬取URL 獲取待爬取
  • python為什麼叫爬蟲?為啥那麼多人通過python兼職都能掙不少錢?
    Python能做什麼之前有很多文章介紹python能做什麼。今天介紹python爬蟲的學習。網絡爬蟲 網絡爬蟲,也叫網絡蜘蛛(Web Spider)。大家點開百度右擊網頁原始碼會發現是這些玩意:那其實這些許許多多的網站背後都是一些數據如果我們可以用一個自動化的程序輕輕鬆鬆就能把它們給爬取下來,是不是很爽?比如,一些文獻網站我們只要用 Python寫幾行代碼然後一運行這個程序就幫我們爬取所有的相關文獻到我們本地完全不需要我們費一點力氣。
  • Python:遠不止爬蟲那麼簡單
    比如Google、百度、華為、天貓、人臉識別、人工智慧等等,都可以看到Python的身影。Python可以做啥呢最經典的——網絡爬蟲眾所周知,每個網頁通常包含其他網頁的入口,網絡爬蟲則通過一個網址依次進入其他網址獲取所需內容。
  • python爬蟲入門實戰!爬取博客文章標題和連結!
    最近有小夥伴和我留言想學python爬蟲,那麼就搞起來吧。準備階段爬蟲有什麼用呢?舉個最簡單的小例子,你需要《戰狼2》的所有豆瓣影評。最先想的做法可能是打開瀏覽器,進入該網站,找到評論,一個一個複製到文本中,保存,翻頁,接著複製,直到翻到最後一頁。
  • 開課吧Python:Python爬蟲是什麼?爬蟲工程師薪資怎麼樣?
    Python爬蟲是什麼?Python爬蟲是什麼?Python爬蟲是由Python程序開發的網絡爬蟲(webspider,webrobot),是按照一定規則自動抓取全球資訊網信息的程序或腳本。其實一般是通過程序在網頁上獲取你想要的數據,也就是自動抓取數據。為什麼需要用爬蟲?
  • Python基礎進階之海量表情包多線程爬蟲功能的實現
    ,那麼如何去獲取表情包資源呢?今天老師帶領大家使用python中的爬蟲去一鍵下載海量表情包資源二、知識點requests網絡庫bs4選擇器文件操作多線程三、所用到得庫# 隊列from queue import Queuefrom threading import Thread五、環境配置解釋器 python3.6
  • Python新手爬蟲,簡單製作抓取廖雪峰的教程的小爬蟲
    先看幾張對比圖,分別是官網截圖和抓取下來的 txt文檔的截圖,不算那難看的排版的話,內容是一致的,圖片用 url替換了!在整個抓取過程中,除了普通的文本以外,還需要處理 3個地方,分別是:代碼、圖片、視頻,因為目前只寫到了文本文件,所以直接抓到圖片或者視頻的地址,標識清楚後寫入到 txt,這裡可以在進一步,寫到 word/pdf 或者其他文件,留待以後改進!
  • 入門Python爬蟲——獲取數據篇
    而Python爬蟲,簡單來說,即通過Python程序獲取對我們有用的數據。常用於商業分析,不過偶爾也可以輔助我們解決在日常生活中遇到的一些問題。首先,在爬蟲中最常見的代碼便是:即引入requests庫,是一切爬蟲程序的基礎。在Python中,有許多庫可以供我們使用。這也是Python相對於其它程式語言的一大優勢。
  • 如何開始寫你的第一個python腳本——簡單爬蟲入門!
    好多朋友在入門python的時候都是以爬蟲入手,而網絡爬蟲是近幾年比較流行的概念,特別是在大數據分析熱門起來以後,學習網絡爬蟲的人越來越多,哦對,現在叫數據挖掘了!其實,一般的爬蟲具有2個功能:取數據和存數據!好像說了句廢話。。。
  • 百度雲推出雲端圖像搜索 支持人臉識別
    【天極網網絡頻道】【天極網網絡頻道9月16日消息】百度可謂是今年吸引了眾多人的眼球,推出了各項新的服務和新的程序。百度雲近日在時光軸、足跡等原有圖片預覽功能基礎上進行了升級,結合百度深度學習研究院提供的人臉識別及檢索技術,推出雲端圖像搜索。新增圖片智能分類,以圖搜圖等功能。
  • python爬蟲系列教程,用python爬取全國範圍內的KFC店地址
    下面羽憶教程教你會python爬取全國範圍內的KFC店地址,這是一篇python爬蟲系列的教程,簡單又能讓人填飽肚子。python爬蟲介紹python發展至今,python爬蟲已經成為了一種職業,因為其可以幫助企業快速得到網絡上的最新信息,但是為什麼很多寫python爬蟲的程式設計師會面臨牢獄之災呢?
  • Python下載微信公眾號文章內的圖片
    剛剛說過使用python下載微信公眾號文章內的視頻,有興趣的同學可以查看上一篇文章,此處就不放文章的連結了。下面我們繼續說一下,如何提取微信公眾號文章內的圖片並進行下載,下面一起來看一下。,主要是用過微信公眾號文章,獲取頁面的原始碼, 通過特定的規則去提取到圖片地址,然後對每一張圖片進行下載,這裡說一下微信公眾號文章內圖片地址,沒有圖片名稱,圖片 格式,都是用過參數的模型進行傳遞的,我們通過解析參數去獲得圖片的格式。