前 言
隨著數字圖書館和網際網路的快速發展,數位化文檔隨手可得,大大地降低了論文抄襲成本。最近這幾年各種名人學術造假、智慧財產權被剽竊的事件層出不窮,給學術界造成一定的誠信危機,其學術不端行為的危害引起了政府及主管部門的高度重視,加大了社會對這種不端行為的關注度,而如何防範剽竊和遏制這種不端行為成為人們研究的熱點。在面臨學術誠信的危機下,教育部發布了《關於加強高等學校學術道德建設的意見》、《關於樹立社會主義榮辱觀,進一步加強學術道德建設若干意見》等一系列文件,來指導落實打擊學術不端行為,於是各級教育部門及時響應了國家號召,為了提高教育教學質量,加強學術道德和學術規範建設,樹立良好的學風,建立誠信的氛圍,恪守科學道德,讓越來越多的高校、雜誌社等引進了知網學術不端文獻檢測系統。
01.論文查重的基礎知識和基本原理
1.提交論文時應了解的知識點
系統只接收論文的純文本內容,對於圖片,表格,公式編輯器等內容會被忽略。簡單來說,就是把word格式的論文全文複製,然後粘貼到txt格式純文本下能夠保存的內容。粘貼文本提交和上傳文檔提交兩種方式本質上是一樣的,對於上傳文檔提交,系統會把文檔中的純文本提取出來粘貼在提交框內,非純文本內容(圖片,表格,公式編輯器等)會被自動忽略。
2.論文查重後,總體相似度(抄襲率)是如何計算的?
系統先根據換行符把文章切分成段落,然後再根據標點符號把段落切分成句子,再把每個句子分別進行查重檢測。
論文的查重粒度是句子,兩個句子的相似度主要取決於句子包含哪些詞,以及詞在句子中的位置。目前句子相似度只有文字上的對比,不考慮語義上的相近。如果做到語義上的查重,那我們就沒法改重了。
總體相似度 = 相似字數 / 檢測字數
被系統自動識別出來的非正文部分(如目錄,標題,公式,圖表,參考文獻等)不參與檢測,檢測字數一般略小於論文字數。
相似字數 =(句子1字數 * 句子1相似度 + 句子2字數 * 句子2相似度 + ...... + 句子n字數 * 句子n相似度),句子相似度範圍0.00~1.00,綠色句子相似度按照0計算。
3.資料庫對比範圍
任何一個查重系統的資料庫對比範圍都是有限的,所以可能存在雖然論文抄襲了,但是系統沒有找到相似來源的情況。我在仔細研究了paperfree之後,下面就以paperfree為對象說一下,對比資料庫由本地資料庫和網絡資料庫組成,本地資料庫包含歷年的學位論文,學術期刊,會議論文,專利論文等等,網絡資料庫包含百度文庫,豆丁文庫,道客巴巴,新浪博客等網際網路資源。
4.檢測時間與哪些因素有關?
檢測時間一般與論文字數有關, 1 萬字左右的論文大概需要3 ~5 分鐘。如果在畢業季的尖峰時段(15:00~17:00,20:00~23:00),論文提交後還需要排隊幾分鐘才開始檢測
02.論文查重服務中的重要指標
1.評價一個查重系統的重要指標是什麼?
客觀地評價一個查重系統主要看兩個指標:準確率和召回率。準確率高是指系統找出的相似來源確實和送檢的句子很相似。
召回率高是指系統把資料庫中和送檢句子相似的片段都找出來了。
2.抄襲認定的定義是什麼?
任何查重系統只是找到論文句子的所有相似來源,查重率高不能直接認定為抄襲。有可能查重系統找到的相似來源是作者本人以前發表的文章。需要老師針對查重報告仔細分析後才能認定論文是否抄襲。
任何兩個查重系統的檢測算法和對比資料庫不可能完全一樣,那麼就會導致檢測結果有差異。對比資料庫不同是導致檢測結果不同的主要原因。知網擁有最全的學位論文庫,如果待檢測論文參考了一篇只錄入在知網資料庫中的學位論文,那麼知網查重的相似率會較高,而PaperFree查重的相似率較低。
03.如何識別優秀的論文查重服務?
(1)合理的分詞、分句;
(2)合理的相似片段來源;
(3)論文片段語義化識別是否智能;
(4)論文標題識別是否合理。
PaperFree獨創在線改重功能,可以實現同一界面上一邊修改一邊檢測。一改、一提交,三秒內反饋結果的用戶體驗使查重效率翻倍,並且市面上並沒有第二家有這樣功能的產品。這也反應出這款產品在技術上是領先於其他同行業產品的。
並且在PaperFree在論文檢測的分詞分句有著科學的算法支持, 絕不會出現整句話只檢測前面部分不檢測後面部分的情況,符合語言邏輯。
還有一點很重要的是:標題的智能識別。
就我們的認知,標題都是一些前輩聽的,用於快速檢索內容位置的工具,肯定是不參與檢測的,但是現在市面上有些檢測機構因為檢測技術水平不過關,所以無法避免這個問題,那麼!PaperFree已經完美地解決了這一點,我在PaperFree 中檢測了大大小小的數十篇論文了,沒有一次是識別標題的,那由此可見其技術肯定就是非常先進的了!
溫馨提示:如果標題太長或者標題以標點符號結尾,可能會被系統當作正文處理。提交論文時建議去除封面,目錄以及參考文獻。
04.如何通過修改降低論文的重複率?
首先了解查重的算法
(其中i句相似度>50%為有效,<50%記作0)
簡單理解:查重時把文章分解為一個個小句,根據某個算法算出單句相似度。把其中相似度大於50%的句子的相似字數加總再除以論文總字數即為重複率。單句相似度這個概念似乎比較玄學,網站沒有明確說明算法,但是我們也可以簡單理解一下,大概就是「我寫的某個句子和已有文獻句子的相同字數佔該句子總字數的百分比」 之類的東西。最重要的一個信息是:相似度>50%的句子才會被標黃,相似度>80%的句子會被標紅。相似度<50%的被標綠並且相似度被計為0。
降低論文重複率的兩個途徑
(1)降低每句相似字數,以降低總相似字數;
(2)把句子的相似度降低到50%以下,那麼這句相似字數直接就變為0了。
05.如何選擇適合自己的查重服務?
1.對於高校官方有明確的查重系統
為了保持和高校官方查重結果一致,那麼學生自查也採用和高校官方一樣的查重系統。目前大部分高校採用知網作為官方查重系統,由於知網查重不對個人開放,雖然在淘寶上也能買到知網查重,但是價格貴。一般畢業論文要反覆經歷幾次查重,改重的過程,對於土豪可以每次都用知網查重。對於普通人可以初稿先用PaperFree免費查重,定稿再用知網查重。
2.對於高校官方沒有明確查重系統
有些高校只要求學生自己去論文查重,然後提交一個合格的檢測報告。那麼可以選擇知名度比較高的查重系統(比如PaperFree,PaperPass,萬方,維普)自助查重,然後提交一個相似度符合要求的檢測報告。