Python 實戰:股票數據定向爬蟲

2021-02-15 七月在線實驗室

功能簡介

說明

如打開新浪股票網址：連結描述(http://finance.sina.com.cn/realstock/company/sz000877/nc.shtml)，如下圖所示：

上圖中左邊為網頁的界面，顯示了天山股份的股票價格是13.06。右邊為該網頁的原始碼，在原始碼中查詢13.06發現沒有找到。所以判斷該網頁的數據使用js生成的，不適合本項目。因此換一個網頁。

再打開百度股票的網址：連結描述(https://gupiao.baidu.com/stock/sz300023.html)，如下圖所示：

從上圖中可以發現百度股票的數據是html代碼生成的，符合我們本項目的要求，所以在本項目中選擇百度股票的網址。

由於百度股票只有單個股票的信息，所以還需要當前股票市場中所有股票的列表，在這裡我們選擇東方財富網，網址為：連結描述(http://quote.eastmoney.com/stocklist.html)，界面如下圖所示：

原理分析

查看百度股票每隻股票的網址：https://gupiao.baidu.com/stock/sz300023.html，可以發現網址中有一個編號300023正好是這隻股票的編號，sz表示的深圳交易所。因此我們構造的程序結構如下：

接著查看百度個股信息網頁的原始碼，發現每隻股票的信息在html代碼中的存儲方式如下：

因此，在我們存儲每隻股票的信息時，可以參考上圖中html代碼的存儲方式。每一個信息源對應一個信息值，即採用鍵值對的方式進行存儲。在python中鍵值對的方式可以用字典類型。因此，在本項目中，使用字典來存儲每隻股票的信息，然後再用字典把所有股票的信息記錄起來，最後將字典中的數據輸出到文件中。

代碼編寫

首先是獲得html網頁數據的程序，在這裡不多做介紹了，代碼如下：

#獲得html文本

def getHTMLText(url):

try:

r = requests.get(url)

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return ""

接下來是html代碼解析程序，在這裡首先需要解析的是東方財富網頁面：連結描述(http://quote.eastmoney.com/stocklist.html)，我們打開其原始碼，如下圖所示：

由上圖可以看到，a標籤的href屬性中的網址連結裡面有每隻股票的對應的號碼，因此我們只要把網址裡面對應股票的號碼解析出來即可。解析步驟如下：

第一步，獲得一個頁面：

html = getHTMLText(stockURL)

第二步，解析頁面，找到所有的a標籤：

soup = BeautifulSoup(html, 'html.parser')

a = soup.find_all('a')

第三步，對a標籤中的每一個進行遍歷來進行相關的處理。處理過程如下：

1、找到a標籤中的href屬性，並且判斷屬性中間的連結，把連結後面的數字取出來，在這裡可以使用正則表達式來進行匹配。由於深圳交易所的代碼以sz開頭，上海交易所的代碼以sh開頭，股票的數字有6位構成，所以正則表達式可以寫為[s][hz]\d{6}。也就是說構造一個正則表達式，在連結中去尋找滿足這個正則表達式的字符串，並把它提取出來。代碼如下：

for i in a:

href = i.attrs['href']

lst.append(re.findall(r"[s][hz]\d{6}", href)[0])

2、由於在html中有很多的a標籤，但是有些a標籤中沒有href屬性，因此上述程序在運行的時候出現異常，所有對上述的程序還要進行try…except來對程序進行異常處理，代碼如下：

for i in a:

try:

href = i.attrs['href']

lst.append(re.findall(r"[s][hz]\d{6}", href)[0])

except:

continue

從上面代碼可以看出，對於出現異常的情況我們使用了continue語句，直接讓其跳過，繼續執行下面的語句。通過上面的程序我們就可以把東方財富網上股票的代碼信息全部保存下來了。

將上述的代碼封裝成一個函數，對東方財富網頁面解析的完整代碼如下所示：

def getStockList(lst, stockURL):

html = getHTMLText(stockURL)

soup = BeautifulSoup(html, 'html.parser')

a = soup.find_all('a')

for i in a:

try:

href = i.attrs['href']

lst.append(re.findall(r"[s][hz]\d{6}", href)[0])

except:

continue

接下來是獲得百度股票網連結描述(https://gupiao.baidu.com/stock/sz300023.html)單只股票的信息。我們先查看該頁面的原始碼，如下圖所示：

股票的信息就存在上圖所示的html代碼中，因此我們需要對這段html代碼進行解析。過程如下：

1、百度股票網的網址為：https://gupiao.baidu.com/stock/

一隻股票信息的網址為：https://gupiao.baidu.com/stock/sz300023.html

所以只要百度股票網的網址+每隻股票的代碼即可，而每隻股票的代碼我們已經有前面的程序getStockList從東方財富網解析出來了，因此對getStockList函數返回的列表進行遍歷即可，代碼如下：

for stock in lst:

url = stockURL + stock + ".html"

2、獲得網址後，就要訪問網頁獲得網頁的html代碼了，程序如下：

html = getHTMLText(url)

3、獲得了html代碼後就需要對html代碼進行解析，由上圖我們可以看到單個股票的信息存放在標籤為div,屬性為stock-bets的html代碼中，因此對其進行解析：

soup = BeautifulSoup(html, 'html.parser')

stockInfo = soup.find('div',attrs={'class':'stock-bets'})

4、我們又發現股票名稱在bets-name標籤內，繼續解析，存入字典中：

infoDict = {}

name = stockInfo.find_all(attrs={'class':'bets-name'})[0]

infoDict.update({'股票名稱': name.text.split()[0]})

split()的意思是股票名稱空格後面的部分不需要了。

5、我們從html代碼中還可以觀察到股票的其他信息存放在dt和dd標籤中，其中dt表示股票信息的鍵域，dd標籤是值域。獲取全部的鍵和值：

keyList = stockInfo.find_all('dt')

valueList = stockInfo.find_all('dd')

並把獲得的鍵和值按鍵值對的方式村放入字典中：

for i in range(len(keyList)):

key = keyList[i].text

val = valueList[i].text

infoDict[key] = val

6、最後把字典中的數據存入外部文件中：

with open(fpath, 'a', encoding='utf-8') as f:

f.write( str(infoDict) + '\n' )

將上述過程封裝成完成的函數，代碼如下：

def getStockInfo(lst, stockURL, fpath):

for stock in lst:

url = stockURL + stock + ".html"

html = getHTMLText(url)

try:

if html=="":

continue

infoDict = {}

soup = BeautifulSoup(html, 'html.parser')

stockInfo = soup.find('div',attrs={'class':'stock-bets'})

name = stockInfo.find_all(attrs={'class':'bets-name'})[0]

infoDict.update({'股票名稱': name.text.split()[0]})

keyList = stockInfo.find_all('dt')

valueList = stockInfo.find_all('dd')

for i in range(len(keyList)):

key = keyList[i].text

val = valueList[i].text

infoDict[key] = val

with open(fpath, 'a', encoding='utf-8') as f:

f.write( str(infoDict) + '\n' )

except:

continue

其中try…except用於異常處理。

接下來編寫主函數，調用上述函數即可：

def main():

stock_list_url = 'http://quote.eastmoney.com/stocklist.html'

stock_info_url = 'https://gupiao.baidu.com/stock/'

output_file = 'D:/BaiduStockInfo.txt'

slist=[]

getStockList(slist, stock_list_url)

getStockInfo(slist, stock_info_url, output_file)

項目完整程序

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

import traceback

import re

def getHTMLText(url):

try:

r = requests.get(url)

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return ""

def getStockList(lst, stockURL):

html = getHTMLText(stockURL)

soup = BeautifulSoup(html, 'html.parser')

a = soup.find_all('a')

for i in a:

try:

href = i.attrs['href']

lst.append(re.findall(r"[s][hz]\d{6}", href)[0])

except:

continue

def getStockInfo(lst, stockURL, fpath):

count = 0

for stock in lst:

url = stockURL + stock + ".html"

html = getHTMLText(url)

try:

if html=="":

continue

infoDict = {}

soup = BeautifulSoup(html, 'html.parser')

stockInfo = soup.find('div',attrs={'class':'stock-bets'})

name = stockInfo.find_all(attrs={'class':'bets-name'})[0]

infoDict.update({'股票名稱': name.text.split()[0]})

keyList = stockInfo.find_all('dt')

valueList = stockInfo.find_all('dd')

for i in range(len(keyList)):

key = keyList[i].text

val = valueList[i].text

infoDict[key] = val

with open(fpath, 'a', encoding='utf-8') as f:

f.write( str(infoDict) + '\n' )

count = count + 1

print("\r當前進度: {:.2f}%".format(count*100/len(lst)),end="")

except:

count = count + 1

print("\r當前進度: {:.2f}%".format(count*100/len(lst)),end="")

continue

def main():

stock_list_url = 'http://quote.eastmoney.com/stocklist.html'

stock_info_url = 'https://gupiao.baidu.com/stock/'

output_file = 'D:/BaiduStockInfo.txt'

slist=[]

getStockList(slist, stock_list_url)

getStockInfo(slist, stock_info_url, output_file)

main()

上述代碼中的print語句用於列印爬取的進度。執行完上述代碼後在D盤會出現BaiduStockInfo.txt文件，裡面存放了股票的信息。

想學Python點這裡呀！

Python 實戰:股票數據定向爬蟲

相關焦點

Python 網絡爬蟲實戰:爬取並下載《電影天堂》3千多部動作片電影

Python爬蟲實戰:爬取天氣數據的實例詳解

Python3 網絡爬蟲:下載小說的正確姿勢

Python數據分析:股票數據分析案例

Python爬蟲實戰:拉黑QQ空間屏蔽我的「大人物」

Python學習:mac電腦安裝python教程

Python的數據可視化:對比7種工具包

python基礎學習教程:Python基礎語法

「王牌冤家」:評論爬蟲及情感分析(SnowNLP)

python黑知識:python本體

Python詞雲:Windows安裝Wordcloud報錯解決辦法

爬蟲(101)爬點重口味的

Python數據可視化:2018年電影分析

Python生成一維碼,二維碼

有趣且鮮為人知的 Python 特性,火了!

紐交所總裁:如果紐約州對股票交易徵稅,紐交所可能會搬離紐約

Python 教程:從零到大師

Python 進階必備:圖像庫 pillow

深度對比:Python和R之爭

戶外先鋒領隊技能:野外定向識圖