python爬蟲之selenium--獲取HTML源碼斷言和URL地址

2022-01-22 何三筆記
python爬蟲之selenium--獲取HTML源碼斷言和URL地址前言

在做測試的時候經常會使用selenium獲取網頁url與原始碼,判斷當前執行是否正確,接下來我們一起看下如果通過selenium獲取url及網頁原始碼

獲取HTML源碼
from selenium import webdriverimport unittest

class Test_source(unittest.TestCase): def Test_getPageSource(self): url = 'http://www.sogou.com' self.driver = webdriver.Chrome() self.driver.get(url)
# 調取driver的page_source屬性獲取頁面源碼 pageSource = self.driver.page_source
print('當前網頁的源碼:', pageSource)
# 斷言頁面源碼中是否包含"新聞"兩個關鍵字,以此判斷頁面內容是否正確 self.assertTrue(u"新聞" in pageSource, "頁面源碼中未找到新聞關鍵字")

test1 = Test_source()test1.Test_getPageSource()

獲取URL地址
from selenium import webdriverimport unittest

class Test_Pageurl(unittest.TestCase): def test_getCurrentPageUrl(self): url = 'http://www.sogou.com' self.driver = webdriver.Chrome() self.driver.get(url)
# 獲取當前頁面的url currentPageUrl = self.driver.current_url print('當前網頁的url:', currentPageUrl)
# 斷言當前網頁的網址是否為 https://www.sogou.com/ self.assertEqual(currentPageUrl, 'https://www.sogou.com/', "當前網頁網址非預期")

test1 = Test_Pageurl()test1.test_getCurrentPageUrl()

斷言源碼中的關鍵字
from selenium import webdriverimport unittestimport time

class Test_KeyWord(unittest.TestCase): def test_assertKeyWord(self): url = 'http://www.baidu.com' self.driver = webdriver.Chrome() self.driver.get(url) self.driver.find_element_by_id('kw').send_keys('自動化測試') self.driver.find_element_by_id('su').click() time.sleep(4) assert '自動化' in self.driver.page_source, '頁面中不存在該關鍵字'

test1 = Test_KeyWord()test1.test_assertKeyWord()

相關焦點

  • Python爬蟲,批量獲取知網文獻信息
    但去知網一條一條進去看摘要又略顯麻煩和浪費時間。於是,反手寫一個爬蟲,批量獲取基本信息,豈不美哉?在開始這個項目之前,我抱著不重複造輪子的心態,尋思著去Github先找找。結果發現基本上都是幾年前的項目,現在早已不能使用。最後證實了,靠別人不如靠自己,擼起袖子就開幹!1.
  • python爬蟲之selenium抓取淘寶商品信息
    簡介本節採用python爬蟲相關技術獲取淘寶商品信息。採用的技術有selenium、pyquery及urllib.parse等。selenium可以模擬用戶執行的操作,是一個自動化測試工具,我們可以根據自己的需要預先設置selenium按照我們設置好的步驟進行操作,而在爬蟲中我們使用selenium可以解決javascript動態執行代碼的問題,不用費心去解析js如何運行,運行後產生的信息,直接使用selenium模擬實際登陸網頁的操作,獲取我們需要的信息進行分析,成功幫我們避開一系列複雜的通信過程,方便使用者。
  • 小白學 Python 爬蟲(27):自動化測試框架 Selenium 從入門到放棄(上)
    爬蟲(3):前置準備(二)Linux基礎入門小白學 Python 爬蟲(4):前置準備(三)Docker基礎入門小白學 Python 爬蟲(5):前置準備(四)資料庫基礎小白學 Python 爬蟲(6):前置準備(五)爬蟲框架的安裝小白學 Python 爬蟲(7):HTTP 基礎小白學 Python 爬蟲(8):網頁基礎
  • Python接口測試之Requests(七)
    GET請求中,第一個參數是url,第二個請求是params,第三個參數是字典,比如我們實現在百度閱讀搜索無涯編寫的《selenium-python自動化測試》,實現這樣的一個過程請求的 url為:http:/
  • Python無頭爬蟲Selenium系列(01):像手工一樣操作瀏覽器
    轉發本文並私信我"python",即可獲得Python資料以及更多系列文章(持續更新的)作為"數據玩家",如果手頭上沒有數據怎麼辦?當然是用代碼讓程序自動化採集數據,但是現在"爬蟲"不是那麼容易,其中最困難的即是突破網站各種反爬機制。
  • 實戰|Python輕鬆實現動態網頁爬蟲(附詳細源碼)
    事情是這樣的,前幾天我公眾號寫了篇爬蟲入門的實戰文章,叫做《實戰|手把手教你用Python爬蟲(附詳細源碼)》。發出去不到一天,一名從業10年的王律師找到了我,我雖然同意了他的微信申請,但內心是按奈不住的慌張。簡單交流了下,原來他在自學爬蟲,但他發現翻頁的時候,url一直不變。
  • 五分鐘學會Python網絡爬蟲
    二、爬蟲語言目前主流的Java、Node.js、C#、python等開發語言,都可以實現爬蟲。所以,在語言的選擇上,你可以選擇最擅長的語言來進行爬蟲腳本的編寫。目前爬蟲這塊用的最多的是python,因為python語法簡潔,方便修改,而且python裡有多爬蟲相關的庫,拿過來就可以使用,網上的資料也比較多。
  • 爬蟲教程:五分鐘帶你學會Python網絡爬蟲
    細分下來,業內分為兩類:爬蟲和反爬蟲。反爬蟲:顧名思義,就是防止你來我網站或APP上做爬蟲的。爬蟲工程師和反爬蟲工程師是一對相愛相殺的小夥伴,經常因為對方要加班寫代碼,甚至丟掉工作。二、爬蟲語言目前主流的Java、Node.js、C#、python等開發語言,都可以實現爬蟲。
  • Python爬蟲的兩套解析方法和四種爬蟲實現
    對於大多數朋友而言,爬蟲絕對是學習python的最好的起手和入門方式。
  • selenium爬蟲操作網頁(實戰篇)
    v='+new Date().getTime()+'" type="text/javascript" charset="utf-8"><\/script>');        document.write('<script src="../../js/plasmid/plasmid_list.js?
  • Python
    最近,在數據挖掘課,要交課設了,打算做一個通過機器學習進行新聞分類,首先要有大量的文本(新聞),去做訓練,並通過爬蟲爬取大量的新聞一,思路如下:0.首先確定獲取數據的網站1.通過BeautifulSoup來切取連結2.
  • Python爬取文章,並把HTML格式轉換成PDF格式
    歡迎加入白嫖Q群:1039649593【電子書、源碼、課件、軟體、資料】都會分享 UP主解答問題VX:python10010 二.代碼實現過程發送請求 對於文章列表頁面發送請求獲取數據 獲取網頁原始碼解析數據 文章的url 以及 文章標題發送請求 對於文章詳情頁url地址發送請求獲取數據 獲取網頁原始碼解析數據 提取文章標題 / 文章內容保存數據 把文章內容保存成html文件把html文件轉成pdf文件多頁爬取
  • 五分鐘帶你學會Python網絡爬蟲
    細分下來,業內分為兩類:爬蟲和反爬蟲。反爬蟲:顧名思義,就是防止你來我網站或APP上做爬蟲的。爬蟲工程師和反爬蟲工程師是一對相愛相殺的小夥伴,經常因為對方要加班寫代碼,甚至丟掉工作。二、爬蟲語言目前主流的Java、Node.js、C#、python等開發語言,都可以實現爬蟲。
  • Python - python爬取新聞專題及常見問題 - CSDN
    最近,在數據挖掘課,要交課設了,打算做一個通過機器學習進行新聞分類,首先要有大量的文本(新聞),去做訓練,並通過爬蟲爬取大量的新聞一,思路如下:0.首先確定獲取數據的網站1.通過BeautifulSoup來切取連結2.
  • Python爬蟲快速入門,BeautifulSoup基本使用及實踐
    爬蟲,是學習Python的一個有用的分支,網際網路時代,信息浩瀚如海,如果能夠便捷的獲取有用的信息,我們便有可能領先一步,而爬蟲正是這樣的一個工具。「Python數據之道」 之前已經分享過一些關於介紹 爬蟲 的內容,大家也可以前往閱讀:Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Python庫。
  • Python 爬蟲「學前班」!學會免踩坑!
    pythonfrom newspaper import Articleurl = 'https://www.ithome.com/0/445/071.htm'article = Article(url, language='zh')
  • 直接爬蟲
    大家好,我是一行這篇是一位讀者的投稿文章,居然說我的爬蟲文章分享的少,你們自己看看這篇文章怎麼樣,給多少個👍,我後臺給他添加多少 👍*10 的積分數量一、思路和目的:之前在最開始學習爬蟲的時候就看過大神寫過爬取小說的案例
  • Selenium,一個神奇的爬蟲以及自動化測試工具
    它發展至今,不僅在自動化測試領域佔據重要位置,並且在爬蟲上也應用廣泛。接下來我們一起看看它是如何應用在爬蟲上的。安裝Selenium 我們這裡以谷歌瀏覽器為例。在搭建Selenium開發環境時,我們需要安裝Selenium庫並且配置谷歌瀏覽器的WebDriver。
  • 淘寶垂直爬蟲之關鍵字搜索(實戰+源碼+可視化)
    前言 上一篇博客 "爬蟲讓我再次在女同學面前長臉了~(現實版真實案例)" 說到了幫女同學批量下載試題,我把文章同步到了CSDN,竟然有41個贊 + 21個評論 + 155個收藏,難道大家和我的目的都一樣:爬蟲 liao mei ?
  • AutoScraper: Python 實現的輕量級爬蟲
    【導讀】該項目專為自動爬蟲而設計,使爬蟲變得容易。它獲取網頁的url或html內容以及我們要從該頁面抓取的示例數據列表。