利用Python實現錄音播放並翻譯,真正的實時進行翻譯

2021-02-14 Python學習交流樂園
文章目錄

很多人學習python,不知道從何學起。

很多人學習python,掌握了基本語法過後,不知道在哪裡尋找案例上手。

很多已經做案例的人,卻不知道如何去學習更加高深的知識。

那麼針對這三類人,我給大家提供一個好的學習平臺,免費領取視頻教程,電子書籍,以及課程的原始碼!??¤

QQ群:961562169

有了它,實現實時翻譯還遠嗎?

一、還有3秒到達戰場

最近,某水果手機廠在萬眾期待中開了一場沒有發布萬眾期待的手機產品的發布會,發布了除手機外的其他一些產品,也包括最新的水果14系統。幾天後,更新了系統的吃瓜群眾經過把玩突然發現新系統裡一個超有意思的功能——翻譯

奇怪的翻譯知識增加了!

相比常見的翻譯工具,同聲翻譯工具更具有實用價值,想想不精通其他語言就能和歪果朋友無障礙交流的場景,真是一件美事,不如自己動手實現個工具備用!一個同聲翻譯工具,邏輯大概可以是先識別,而後翻譯,翻譯能否成功,識別的準確率是個關鍵因素。為了降低難度,我決定分兩次完成工具開發。首先來實現試試語音識別的部分。

輕車熟路,本次的demo繼續調用有道智雲API,實現實時語音識別。

二、效果展示

先看看界面和結果哈:

可以選擇多種語音,這裡只寫了四種常見的:

我分別測試的中文、韓文、英文。看著還不錯哦~

這裡翻譯結果,是根據音頻一個字、一個字這樣實時識別的,由於識別速度比較快,所以看起來木有時間差。

四、調用API接口的準備工作

首先,是需要在有道智雲的個人頁面上創建實例、創建應用、綁定應用和實例,獲取調用接口用到的應用的id和密鑰。具體個人註冊的過程和應用創建過程詳見文章分享一次批量文件翻譯的開發過程

五、開發過程詳細介紹(一)準備工作

下面介紹具體的代碼開發過程。

首先是根據實時語音識別文檔來分析接口的輸入輸出。接口設計的目的是對連續音頻流的實時識別,轉換成文本信息並返對應文字流,因此通信採用websocket,調用過程分為認證、實時通信兩階段。

在認證階段,需發送以下參數:

參數類型必填說明示例appKeyString是已申請的應用IDIDsaltString是UUIDUUIDcurtimeString是時間戳(秒)TimeStampsignString是加密數字籤名。sha256signTypeString是數字籤名類型v4langTypeString是語言選擇,參考支持語言列表zh-CHSformatString是音頻格式,支持wavwavchannelString是聲道,支持1(單聲道)1versionString是api版本v1rateString是採樣率16000

籤名sign生成方法如下:
signType=v4;
sign=sha256(應用ID+salt+curtime+應用密鑰)。

認證之後,就進入了實時通信階段,發送音頻流,獲取識別結果,最後發送結束標誌結束通信,這裡需要注意的是,發送的音頻最好是16bit位深的單聲道、16k採樣率的清晰的wav音頻文件,這裡我開發時最開始因為音頻錄製設備有問題,導致音頻效果極差,接口一直返回錯誤碼304(手動捂臉)。

(二)開發

這個demo使用python3開發,包括maindow.py,audioandprocess.py,recobynetease.py三個文件。界面部分,使用python自帶的tkinter庫,來進行語言選擇、錄音開始、錄音停止並識別的操作。audioandprocess.py實現了錄音、音頻處理的邏輯,最後通過recobynetease.py中的方法來調用實時語音識別API。

1、界面部分

主要元素:


root=tk.Tk()
root.title("netease youdao translation test")
frm = tk.Frame(root)
frm.grid(padx='80', pady='80')

label=tk.Label(frm,text='選擇語言類型:')
label.grid(row=0,column=0)
combox=ttk.Combobox(frm,textvariable=tk.StringVar(),width=38)
combox["value"]=lang_type_dict
combox.current(0)
combox.bind("<<ComboboxSelected>>",get_lang_type)
combox.grid(row=0,column=1)

btn_start_rec = tk.Button(frm, text='開始錄音', command=start_rec)
btn_start_rec.grid(row=2, column=0)

lb_Status = tk.Label(frm, text='Ready', anchor='w', fg='green')
lb_Status.grid(row=2,column=1)

btn_sure=tk.Button(frm,text="結束並識別",command=get_result)
btn_sure.grid(row=3,column=0)

root.mainloop()

選擇語言類型之後,開始錄音,錄音結束後,通過get_result()方法調用接口進行識別。

def get_result():
lb_Status['text']='Ready'
sr_result=au_model.stop_and_recognise()

2、音頻錄製部分的開發

音頻錄製部分引入pyaudio庫(需通過pip安裝)來調用音頻設備並錄製接口要求的wav文件,並調用wave庫存儲音頻文件。

Audio_model類的構造:

def __init__(self, audio_path, language_type,is_recording):
self.audio_path = audio_path, # 錄音存儲路徑
self.audio_file_name='' # 錄音文件名
self.language_type = language_type, # 錄音語言類型
self.language_dict=["zh-CHS","en","ja","ko"] # 支持的語言,用於從UI出的類型轉為接口所需類型
self.language=''
self.is_recording=is_recording # 錄音狀態
self.audio_chunk_size=1600 # 以下為一些接口所要求的錄音參數,採樣率、編碼、通道等
self.audio_channels=1
self.audio_format=pyaudio.paInt16
self.audio_rate=16000

(2)record()方法的開發

record()方法中實現了錄音的邏輯,調用pyaudio庫,讀取音頻流,寫入文件。

def record(self,file_name):
p=pyaudio.PyAudio()
stream=p.open(
format=self.audio_format,
channels=self.audio_channels,
rate=self.audio_rate,
input=True,
frames_per_buffer=self.audio_chunk_size
)
wf = wave.open(file_name, 'wb')
wf.setnchannels(self.audio_channels)
wf.setsampwidth(p.get_sample_size(self.audio_format))
wf.setframerate(self.audio_rate)

# 讀取數據寫入文件
while self.is_recording:
data = stream.read(self.audio_chunk_size)
wf.writeframes(data)
wf.close()
stream.stop_stream()
stream.close()
p.terminate()

(3)stop_and_recognise()方法的開發

stop_and_recognise()方法將Audio_model的錄音狀態標記為false,並啟動調用有道智雲API的方法。

def stop_and_recognise(self):
self.is_recording=False
recognise(self.audio_file_name,self.language_dict[self.language_type])

3、實時語音識別部分的開發

有道智雲實時語音識別接口使用socket通信,為簡化展示邏輯,因此在此處發開了展示識別結果的界面,使用tkinter顯示:

#輸出結果的窗口
root = tk.Tk()
root.title("result")
frm = tk.Frame(root)
frm.grid(padx='80', pady='80')
text_result = tk.Text(frm, width='40', height='20')
text_result.grid(row=0, column=1)

recognise()方法根據接口文檔,將所需參數拼接到uri,傳給start()方法請求接口:

def recognise(filepath,language_type):
print('l:'+language_type)
global file_path
file_path=filepath
nonce = str(uuid.uuid1())
curtime = str(int(time.time()))
signStr = app_key + nonce + curtime + app_secret
print(signStr)
sign = encrypt(signStr)

uri = "wss://openapi.youdao.com/stream_asropenapi?appKey=" + app_key + "&salt=" + nonce + "&curtime=" + curtime + \
"&sign=" + sign + "&version=v1&channel=1&format=wav&signType=v4&rate=16000&langType=" + language_type
print(uri)
start(uri, 1600)

start()方法是實時識別部分的核心方法,通過websocket調用識別接口。

def start(uri):

websocket.enableTrace(True)

ws = websocket.WebSocketApp(uri,
on_message=on_message,
on_error=on_error,
on_close=on_close)

ws.on_open = on_opend
ws.run_forever()

在請求接口時,首先讀取先前錄製的音頻文件,並發送:

def on_open(ws):
count = 0
file_object = open(file_path, 'rb') #打開錄製的音頻
while True:
chunk_data = file_object.read(1600)
ws.send(chunk_data, websocket.ABNF.OPCODE_BINARY) #發送
time.sleep(0.05)
count = count + 1
if not chunk_data:
break
print(count)
ws.send('{\"end\": \"true\"}', websocket.ABNF.OPCODE_BINARY)

而後在通信過程中處理接口返回的消息,收集接口返回的識別結果:

def on_message(ws, message):
result=json.loads(message)
resultmessage= result['result'] #解析調用接口的返回結果

if resultmessage:
resultmessage1 = result['result'][0]
resultmessage2 = resultmessage1["st"]['sentence']
print(resultmessage2)
#text_result.insert(tk.END, resultmessage2+'\n')
result_arr.append(resultmessage2)

最後在通信結束後展示識別結果:

def on_close(ws):
print_resule(result_arr)
print("### closed ###")

def print_resule(arr):
text_result.delete('1.0',tk.END)
for n in arr:
text_result.insert("insert", n + '\n')

五、總結

有道智雲提供的接口一如既往的好用,這次開發主要的精力全都浪費在了由於我自己錄製的音頻質量差而識別失敗的問題上,音頻質量ok後,識別結果準確無誤,下一步就是拿去翻譯了,有了有道智雲API,實現實時翻譯也可以如此簡單

相關焦點

  • 實時轉寫、翻譯!科大訊飛錄音筆SR501測評
    科大訊飛智能錄音筆SR501支持wifi和移動數據連接,我們在外面使用時,一方面可以使用手機的wifi熱點,也可以使用自身的數據流量,實現實時的邊錄音變轉寫、翻譯。科大訊飛智能錄音筆SR501其硬體、軟體深度結合的一體化設計,一個錄音筆就能獨立完成語音錄音、錄音實時轉寫、中英文實時翻譯等工作,基本上訊飛做到了語音剛說完、轉寫文字和中文英翻譯也隨之完成。同時,我們錄音時,遇到關鍵節點、內容時,可對錄音文件進行標記。
  • 聞聲識字黑科技,中英實時翻譯—訊飛智能錄音筆SR701評測
    對於經常商務出差的人士來說,錄音筆是不可或缺的辦公設備,無論是會議討論,還是見面會晤時,重要的談話紀要都需要依賴於錄音筆記錄,每次出差回來後都需要逐句重聽並一一記錄,大量繁瑣的聽寫工作耗費不少人力,而隨著人工智慧的科技發展,錄音筆產品也開始實現了智能化,除了錄音記錄功能外,還能針對錄音進行智能翻譯功能,極大程度上減少了後期人工聽寫翻譯工作,筆者近期就入手了一款來自於訊飛的智能錄音筆
  • 實時錄音+翻譯 訊飛智能錄音筆上海首秀
    5月21日,科大訊飛在上海發布了系列全線最新的智能語音翻譯硬體產品,其中包括科大訊飛翻譯機3.0、訊飛轉寫機、智能錄音筆、訊飛智能本、訊飛學習機和一套智能生態系統iFLYOS2.0,其中智能錄音筆成為本次發布會最大的亮點
  • 搜狗錄音翻譯
    採用業界最先進的神經網絡機器翻譯技術(NMT),更懂國人語言,翻譯結果更加準確。通過將搜狗速記翻譯筆與手機APP連接,可實現遠比手機出色的遠距離拾音。
  • 搜狗推出錄音翻譯筆,連接手機端可實時語音轉文字
    原標題:搜狗推出錄音翻譯筆,連接手機端可實時語音轉文字 >硬體——搜狗錄音翻譯筆,據了解,搜狗錄音翻譯筆集合了搜狗最新的語音識別技術,售價398元,是第一個實現同傳功能的消費級翻譯產品。 此款錄音翻譯產品產品長300px、重30g,形似一支馬克筆。待機性能可實現4小時連續錄音和72小時待機。
  • 這錄音筆,能實時錄音轉文字、還能翻譯,簡直是第二大腦 || Chin@美物
    ·關注秦朔朋友圈ID:qspyq2015字數 1k+·今天,一條生活館推薦這支超好用的「辦公神器」——搜狗領夾式錄音翻譯筆(型號C1 Pro)。它小巧、輕便、錄音清晰,還支持錄音轉文字、中英翻譯等功能!很多人覺得:錄音筆這種東西,只有記者等文字工作者才用得上。
  • 同聲傳譯、實時翻譯?搜狗這支筆大有乾坤
    33種語言實時翻譯、中英同聲傳譯、錄音速記,今天小蟹就帶大家走進這支神奇的筆——搜狗速記翻譯筆,看看它是如何獲得我們青睞的吧。將搜狗速記翻譯筆充滿電,它便可以進行連續長達240分鐘(4小時)的錄音翻譯使用,這對於一次私人間的訪談、一次會議、甚至於一場發布會都是綽綽有餘的。即使沒電,你也可以通過下方的microUSB充電口,為它快速補充電量。
  • 最強「錄音筆」:轉寫翻譯,一機搞定!
    搜狗AI錄音筆S1正面被整塊屏幕佔據,採用了3.5英寸觸控螢幕,解析度為1280*720p,除了能顯示時間、網絡、電量等信息,還能直接通過屏幕對錄音筆進行各種操作。另外大屏幕的加入,還能更方便用戶實時了解錄音和轉寫過程,直接對轉寫內容進行編輯,提升工作效率。
  • 實時錄音轉文字、翻譯!訊飛錄音筆SR301評測
    如果我們在會議上、或者重要談判場景時,把它放在桌子上進行錄音,別人還會以為是手機呢。科大訊飛智能錄音筆SR301採用了一塊3.0英寸多點觸控的觸控屏幕,除去屏幕左側的音量加減和右側的電源及錄音鍵,所有的操作都通過這塊屏幕觸控來實現。
  • 小豹翻譯棒錄音版橫空出世 1鍵開啟錄音讓溝通更加高效
    12月24日,獵豹移動旗下AI潮品「小豹翻譯棒錄音版」全新上線,在1鍵翻譯、180天待機基礎之上,用戶還可實時進行錄音備忘。與市面上其他翻譯產品兩鍵或多鍵操作不同,小豹翻譯棒搭載獵豹移動投資的人工智慧公司獵戶星空和微軟亞洲研究院提供的智能語音雙引擎系統,通過在APP上預先設定互譯語種,自動識別聽到的語言是中文還是外語,並自動進行雙語互譯,不用反覆切換按鍵。此次全新上線的錄音功能,同樣可以通過1鍵實現。
  • 方言也能翻譯?真正的出口成「章」 錄音筆還可以這樣用!|檀生活
    這款全新智能錄音翻譯筆C1,來自大家耳熟能詳的品牌——搜狗。錄音轉文字準確率、翻譯準確率都非常高,品質有保障,專為會議、學習、培訓、翻譯、採訪而生。上下分別配置了「全數字高靈敏麥克風」,同時通過深度定製的雙麥克風陣列拾音算法,可實現空間濾波和360°全向自動聲源定位降噪。
  • 驍龍AI與有道攜手 利用實時翻譯架起溝通的橋梁
    儘管我們能夠向全球各地發送消息、撥打電話或是視頻聊天,但仍不能進行跨語言的流暢交談。現在,國內領先的智能學習公司——有道,正利用AI來解決這一問題。過去一年半的時間,Qualcomm持續與有道開展合作,通過終端側的實時翻譯來幫助人們打破語言的限制、輕鬆自如地進行溝通。想像一下:你與海外客戶進行電話會議。
  • iOS 14 教程:如何在「翻譯」應用中使用對話模式實現實時翻譯?
    在 iOS 14 中,Apple 帶來了全新的「翻譯」應用,提供 11 種不同語言之間的實時翻譯。可以在阿拉伯文、簡體中文、英語、法語、德語、義大利語、日語與漢語等語言之間進行互譯。「翻譯」應用具有易於操作的界面,只要選擇需要翻譯的語言,然後鍵入或拷貝需要翻譯的文本內容,或直接說出需要翻譯內容,在翻譯完成後,「翻譯」應用可以朗讀翻譯內容,不僅可以獲取正確的發音,還可以向周圍人播放翻譯內容。
  • 驍龍AI與有道攜手 利用實時翻譯架起世界溝通的橋梁
    過去一年半的時間,Qualcomm持續與有道開展合作,通過終端側的實時翻譯來幫助人們打破語言的限制、輕鬆自如地進行溝通。    想像一下:你與海外客戶進行電話會議。雖然你說的是普通話,但海外客戶能夠實時地聽到標準的英文翻譯,這種無縫、流暢的實時翻譯十分令人驚嘆。但是,這樣的實時翻譯對技術要求頗高,是此前技術無法實現的。
  • 驍龍AI與有道攜手,利用實時翻譯架起世界溝通的橋梁
    儘管我們能夠向全球各地發送消息、撥打電話或是視頻聊天,但仍不能進行跨語言的流暢交談。現在,國內領先的智能學習公司——有道,正利用AI來解決這一問題。過去一年半的時間,Qualcomm持續與有道開展合作,通過終端側的實時翻譯來幫助人們打破語言的限制、輕鬆自如地進行溝通。想像一下:你與海外客戶進行電話會議。
  • 實時翻譯耳機,開啟無限溝通的時代
    然而這種設備並不能真正解決人們的交流需求,通過機器輸入輸出兩種語言,每一句話都要聽兩次,常常讓人們的交流變得更為尷尬。來認識一下Timekettle M2,一款設身處地的為用戶著想的實時翻譯耳機,一款真正能夠幫助人們實現無語言障礙溝通的產品。
  • 蘋果iOS 11,Siri將實現實時翻譯
    傳聞實現了,蘋果在WWDC上宣布,Siri支持一系列第三方應用,包括微信,這個功能,叫做Siri Kit。  不過,蘋果怎麼會被傳聞完全說中。  除了支持第三方應用,Siri還有更厲害的招數:更自然的語音、實時翻譯、更精準的預測。  蘋果負責技術的副總裁Craig Federighi說,「我們用深度學習為Siri打造了更自然、更富有表達力的聲音。」  緊接著,他播放了英文版Siri的聲音,男聲版就講了本文開頭的那個冷笑話。
  • 你還在把文字複製到瀏覽器翻譯?蘋果手機這個按鈕,一鍵實時翻譯
    很多人購買蘋果手機,都是看中它的流暢度和耐用性,其實蘋果手機不止是流暢耐用,還有很多實用功能,比如說翻譯,一般我們都是把文字複製到瀏覽器進行翻譯,而蘋果手機就有好幾種翻譯功能,只要按下這個按鈕,就能一鍵實時翻譯。
  • 微軟翻譯加入ppt插件 可實時翻譯字幕
    繼微軟翻譯加入實時語音群聊翻譯功能之後,日前,微軟又一次基於 Microsoft Translator API 發布了一項實時演講字幕翻譯新功能——Presentation Translator。
  • 「實時翻譯耳機」橫空出世,深度剖析三大核心技術|獨家
    雖然說在市場層面還存在疑問,實時翻譯耳機在技術上確實已經取得較大的進展。那麼,這些強調利用 AI 技術的實時翻譯耳機背後究竟是如何運作的呢?「三大核心:語音識別+機器翻譯+語音合成,」臺灣的中研院資訊科技創新研究中心副研究員曹昱清楚點出關鍵。