python爬蟲之selenium--獲取HTML源碼斷言和URL地址

2022-01-22 何三筆記

python爬蟲之selenium--獲取HTML源碼斷言和URL地址前言

在做測試的時候經常會使用selenium獲取網頁url與原始碼，判斷當前執行是否正確，接下來我們一起看下如果通過selenium獲取url及網頁原始碼

獲取HTML源碼

from selenium import webdriverimport unittest

class Test_source(unittest.TestCase):    def Test_getPageSource(self):        url = 'http://www.sogou.com'        self.driver = webdriver.Chrome()        self.driver.get(url)
        # 調取driver的page_source屬性獲取頁面源碼        pageSource = self.driver.page_source
        print('當前網頁的源碼：', pageSource)
        # 斷言頁面源碼中是否包含"新聞"兩個關鍵字，以此判斷頁面內容是否正確        self.assertTrue(u"新聞" in pageSource, "頁面源碼中未找到新聞關鍵字")

test1 = Test_source()test1.Test_getPageSource()
獲取URL地址from selenium import webdriverimport unittest

class Test_Pageurl(unittest.TestCase):    def test_getCurrentPageUrl(self):        url = 'http://www.sogou.com'        self.driver = webdriver.Chrome()        self.driver.get(url)
        # 獲取當前頁面的url        currentPageUrl = self.driver.current_url        print('當前網頁的url：', currentPageUrl)
        # 斷言當前網頁的網址是否為 https://www.sogou.com/        self.assertEqual(currentPageUrl, 'https://www.sogou.com/', "當前網頁網址非預期")

test1 = Test_Pageurl()test1.test_getCurrentPageUrl()
斷言源碼中的關鍵字from selenium import webdriverimport unittestimport time

class Test_KeyWord(unittest.TestCase):    def test_assertKeyWord(self):        url = 'http://www.baidu.com'        self.driver = webdriver.Chrome()        self.driver.get(url)        self.driver.find_element_by_id('kw').send_keys('自動化測試')        self.driver.find_element_by_id('su').click()        time.sleep(4)        assert '自動化' in self.driver.page_source, '頁面中不存在該關鍵字'

test1 = Test_KeyWord()test1.test_assertKeyWord()

相關焦點

Python爬蟲,批量獲取知網文獻信息

但去知網一條一條進去看摘要又略顯麻煩和浪費時間。於是，反手寫一個爬蟲，批量獲取基本信息，豈不美哉？在開始這個項目之前，我抱著不重複造輪子的心態，尋思著去Github先找找。結果發現基本上都是幾年前的項目，現在早已不能使用。最後證實了，靠別人不如靠自己，擼起袖子就開幹！1.
python爬蟲之selenium抓取淘寶商品信息

簡介本節採用python爬蟲相關技術獲取淘寶商品信息。採用的技術有selenium、pyquery及urllib.parse等。selenium可以模擬用戶執行的操作，是一個自動化測試工具，我們可以根據自己的需要預先設置selenium按照我們設置好的步驟進行操作，而在爬蟲中我們使用selenium可以解決javascript動態執行代碼的問題，不用費心去解析js如何運行，運行後產生的信息，直接使用selenium模擬實際登陸網頁的操作，獲取我們需要的信息進行分析，成功幫我們避開一系列複雜的通信過程，方便使用者。
小白學 Python 爬蟲(27):自動化測試框架 Selenium 從入門到放棄(上)

爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Python 爬蟲（5）：前置準備（四）資料庫基礎小白學 Python 爬蟲（6）：前置準備（五）爬蟲框架的安裝小白學 Python 爬蟲（7）：HTTP 基礎小白學 Python 爬蟲（8）：網頁基礎
Python接口測試之Requests(七)

GET請求中，第一個參數是url，第二個請求是params，第三個參數是字典，比如我們實現在百度閱讀搜索無涯編寫的《selenium-python自動化測試》，實現這樣的一個過程請求的 url為：http:/
Python無頭爬蟲Selenium系列(01):像手工一樣操作瀏覽器

轉發本文並私信我"python"，即可獲得Python資料以及更多系列文章(持續更新的)作為"數據玩家"，如果手頭上沒有數據怎麼辦？當然是用代碼讓程序自動化採集數據，但是現在"爬蟲"不是那麼容易，其中最困難的即是突破網站各種反爬機制。
實戰|Python輕鬆實現動態網頁爬蟲(附詳細源碼)

事情是這樣的，前幾天我公眾號寫了篇爬蟲入門的實戰文章，叫做《實戰|手把手教你用Python爬蟲(附詳細源碼)》。發出去不到一天，一名從業10年的王律師找到了我，我雖然同意了他的微信申請，但內心是按奈不住的慌張。簡單交流了下，原來他在自學爬蟲，但他發現翻頁的時候，url一直不變。
五分鐘學會Python網絡爬蟲

二、爬蟲語言目前主流的Java、Node.js、C#、python等開發語言，都可以實現爬蟲。所以，在語言的選擇上，你可以選擇最擅長的語言來進行爬蟲腳本的編寫。目前爬蟲這塊用的最多的是python，因為python語法簡潔，方便修改，而且python裡有多爬蟲相關的庫，拿過來就可以使用，網上的資料也比較多。
爬蟲教程:五分鐘帶你學會Python網絡爬蟲

細分下來，業內分為兩類：爬蟲和反爬蟲。反爬蟲：顧名思義，就是防止你來我網站或APP上做爬蟲的。爬蟲工程師和反爬蟲工程師是一對相愛相殺的小夥伴，經常因為對方要加班寫代碼，甚至丟掉工作。二、爬蟲語言目前主流的Java、Node.js、C#、python等開發語言，都可以實現爬蟲。
Python爬蟲的兩套解析方法和四種爬蟲實現

對於大多數朋友而言，爬蟲絕對是學習python的最好的起手和入門方式。
selenium爬蟲操作網頁(實戰篇)

v='+new Date().getTime()+'" type="text/javascript" charset="utf-8"><\/script>'); document.write('<script src="../../js/plasmid/plasmid_list.js?
Python

最近，在數據挖掘課，要交課設了，打算做一個通過機器學習進行新聞分類，首先要有大量的文本(新聞)，去做訓練，並通過爬蟲爬取大量的新聞一，思路如下：0.首先確定獲取數據的網站1.通過BeautifulSoup來切取連結2.
Python爬取文章,並把HTML格式轉換成PDF格式

歡迎加入白嫖Q群：1039649593【電子書、源碼、課件、軟體、資料】都會分享 UP主解答問題VX：python10010 二.代碼實現過程發送請求對於文章列表頁面發送請求獲取數據獲取網頁原始碼解析數據文章的url 以及文章標題發送請求對於文章詳情頁url地址發送請求獲取數據獲取網頁原始碼解析數據提取文章標題 / 文章內容保存數據把文章內容保存成html文件把html文件轉成pdf文件多頁爬取
五分鐘帶你學會Python網絡爬蟲

細分下來，業內分為兩類：爬蟲和反爬蟲。反爬蟲：顧名思義，就是防止你來我網站或APP上做爬蟲的。爬蟲工程師和反爬蟲工程師是一對相愛相殺的小夥伴，經常因為對方要加班寫代碼，甚至丟掉工作。二、爬蟲語言目前主流的Java、Node.js、C#、python等開發語言，都可以實現爬蟲。
Python - python爬取新聞專題及常見問題 - CSDN

最近，在數據挖掘課，要交課設了，打算做一個通過機器學習進行新聞分類，首先要有大量的文本(新聞)，去做訓練，並通過爬蟲爬取大量的新聞一，思路如下：0.首先確定獲取數據的網站1.通過BeautifulSoup來切取連結2.
Python爬蟲快速入門,BeautifulSoup基本使用及實踐

爬蟲，是學習Python的一個有用的分支，網際網路時代，信息浩瀚如海，如果能夠便捷的獲取有用的信息，我們便有可能領先一步，而爬蟲正是這樣的一個工具。「Python數據之道」之前已經分享過一些關於介紹爬蟲的內容，大家也可以前往閱讀：Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Python庫。
Python 爬蟲「學前班」!學會免踩坑!

pythonfrom newspaper import Articleurl = 'https://www.ithome.com/0/445/071.htm'article = Article(url, language='zh')
直接爬蟲

大家好，我是一行這篇是一位讀者的投稿文章，居然說我的爬蟲文章分享的少，你們自己看看這篇文章怎麼樣，給多少個👍，我後臺給他添加多少 👍*10 的積分數量一、思路和目的：之前在最開始學習爬蟲的時候就看過大神寫過爬取小說的案例
Selenium,一個神奇的爬蟲以及自動化測試工具

它發展至今，不僅在自動化測試領域佔據重要位置，並且在爬蟲上也應用廣泛。接下來我們一起看看它是如何應用在爬蟲上的。安裝Selenium 我們這裡以谷歌瀏覽器為例。在搭建Selenium開發環境時，我們需要安裝Selenium庫並且配置谷歌瀏覽器的WebDriver。
淘寶垂直爬蟲之關鍵字搜索(實戰+源碼+可視化)

前言上一篇博客 "爬蟲讓我再次在女同學面前長臉了~(現實版真實案例)" 說到了幫女同學批量下載試題，我把文章同步到了CSDN，竟然有41個贊 + 21個評論 + 155個收藏，難道大家和我的目的都一樣：爬蟲 liao mei ？
AutoScraper: Python 實現的輕量級爬蟲

【導讀】該項目專為自動爬蟲而設計，使爬蟲變得容易。它獲取網頁的url或html內容以及我們要從該頁面抓取的示例數據列表。

python爬蟲之selenium--獲取HTML源碼斷言和URL地址

相關焦點

Python爬蟲,批量獲取知網文獻信息

python爬蟲之selenium抓取淘寶商品信息

小白學 Python 爬蟲(27):自動化測試框架 Selenium 從入門到放棄(上)

Python接口測試之Requests(七)

Python無頭爬蟲Selenium系列(01):像手工一樣操作瀏覽器

實戰|Python輕鬆實現動態網頁爬蟲(附詳細源碼)

五分鐘學會Python網絡爬蟲

爬蟲教程:五分鐘帶你學會Python網絡爬蟲

Python爬蟲的兩套解析方法和四種爬蟲實現

selenium爬蟲操作網頁(實戰篇)

Python

Python爬取文章,並把HTML格式轉換成PDF格式

五分鐘帶你學會Python網絡爬蟲

Python - python爬取新聞專題及常見問題 - CSDN

Python爬蟲快速入門,BeautifulSoup基本使用及實踐

Python 爬蟲「學前班」!學會免踩坑!

直接爬蟲

Selenium,一個神奇的爬蟲以及自動化測試工具

淘寶垂直爬蟲之關鍵字搜索(實戰+源碼+可視化)

AutoScraper: Python 實現的輕量級爬蟲