python>>識別字符串語言(中文、漢語、英語、日語等等)
有時做項目時,會識別字符串是什麼語種:中文、韓語、日語等,篩選掉其他不需要的語種,這裡我們使用 python中的第三方庫langid 庫來實現識別字符串是什麼語言
1.首先,安裝langid
pip install langid
2.測試語種
import langidstr1 = '你好'str2 = 'hello world'str3 = '你好 hello world'#韓文str4='.'#日語str5='こんにちは'str6='你好,根據所寫的文字,進行語種的識別'--------------------------------------------str1_1 = langid.classify(str1)str2_2 = langid.classify(str2)str3_3 = langid.classify(str3)str4_4 = langid.classify(str4)str5_5 = langid.classify(str5)
langid.classify() 方法會返回一個元組,第一項為語言的種類,第二項為佔比
str1_1 = langid.classify(str1)[0]print('漢語:'+str1_1)str2_2 = langid.classify(str2)[0]print('英語:'+str2_2)str3_3 = langid.classify(str3)[0]print('漢語:'+str3_3)str4_4 = langid.classify(str4)[0]print('韓語:'+str4_4)str5_5 = langid.classify(str5)[0]print('日語:'+str5_5)