思路來源
https://www.bilibili.com/video/BV1Uy4y1U7dT/
今天研究谷歌學術高級搜索的時候看到了這位中國礦業大學老哥的視頻
整體思路是:
web of science搜索標記自己想要下載的文獻,批量導出已選文件的標題,作者等。最重要的是批量導出文獻的DOI(DOI就相當於文獻的身份證,具有唯一性)。
藉助科研屆的一股清流 sci-hub網站免費下載文獻pdf,而sci-hub下載文獻需要提供DOI
up主發現每篇文獻的下載地址有規律(url+DOI+.pdf),url是固定的。
第一步已經利用web of science批量獲取了文獻的DOI。那麼,利用Excel的合併功能(A1&B1&C1)這種,就可以獲得對應文獻的下載地址。
這時候我們就可以把下載地址複製到瀏覽器中,直接下載。
這時候我們就需要一個可以批量下載url文件的軟體。視頻up用的是一個叫做Batch URL Downloader的軟體。我看視頻下面的評論好像挺多bug的,我也懶得給電腦安裝軟體,想到了Linux經常用的網絡下載器wget,搜了一下win版,也有。
谷歌直接搜索 「wget windows github」 第一個進去,我下載的是OpenSSL版本,能用,就沒試另外一個了。下載解壓後得到一個wget.exe執行文件。
複製軟體所在的路徑添加到win帳戶的環境變量中(下圖)
複製wget所在的路徑
直接搜path進入
編輯Path
添加路徑
(這樣操作以後,在任意文件夾都可以使用wget)
9. 選取任意一個文件夾,開始下載
在任意一個文件夾,準備要下載的文獻,一行一個存到txt文件裡。在路徑那裡輸入CMD回車,進入命令行模式。
10.輸入命令開始下載
11.然後翻車了,提示 ERROR 503: Service Temporarily Unavailable
12.查了一下原來是The problem is that firewall is blocking connections whose user-agent is not set, or incorrect. 沒設置user-agent,被防火牆制裁了,那加一個不就行了。(下午沒加UA也沒報錯啊,淦)
13.最後正確的命令是
wget -U "User-Agent" -i test.txt
至於User-Agent,你們可以百度一下[如何獲取User-Agent],或者你直接用別人的,就是一個偽裝。
wget -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36" -i test.txt
訪問不了github的朋友可以回復 wget 獲取網盤連結。
sci-hub
https://sci-hub.mksa.top/
https://sci-hub.ee/
https://sci.hubg.org/
https://sci-hub.ru/
https://sci-hub.shop/
https://sci-hub.st/