藉助python解決文字轉語音（語音轉文字python代碼）

本文目錄一覽：

1、如何用python調用百度語音識別
2、python有可以將文字轉化為語音的工具嗎
3、如何優雅的用Python玩轉語音聊天機器人
4、實現python文本寫入word
5、Python語音合成（日文翻譯）

如何用python調用百度語音識別

1、首先需要打開百度AI語音系統，開始編寫代碼，如圖所示，編寫好回車。

2、然後接下來再試一下16k.pcm的音頻，開始編寫成功回車，如圖所示的編寫。

3、最後，查看音頻c的屬性，可以看到音頻持續28秒，這樣就是用python調用百度語音識別成功解決問題。

python有可以將文字轉化為語音的工具嗎

import win32com.client

speaker = win32com.client.Dispatch(“SAPI.SpVoice”)

speaker.Speak(“Hello, it works!”)

或者用

pyttsx

如何優雅的用Python玩轉語音聊天機器人

所需硬件：

樹莓派B+

人體紅外線感應模塊

內置麥克風攝像頭(實測樹莓派免驅淘寶鏈接）

申請API：

百度語音api

圖靈api

語音聊天機器人實現原理：當有人來到跟前時–》觸發聊天功能，開始以每2s檢測錄製語音–》通過百度語音api合成文字–》傳遞給圖靈api返回回答信息–》通過百度語音合成播放

【人體感應識別部分Python代碼renti.py】

123456789101112131415161718192021222324252627282930313233

#/usr/bin/python#coding:utf-8import RPi.GPIO as GPIOimport timeimport osimport signalimport atexitGPIO.setmode(GPIO.BCM) GPIO_PIR = 14 GPIO.setup(GPIO_PIR,GPIO.IN) # Echojing = 0dong = 0 sum = 0sum1 = 0oldren = 0sleep = 0def ganying(): i = 0 ok = 0 error = 0 while i 10: if GPIO.input(GPIO_PIR) == 1 : ok = ok + 1 if GPIO.input(GPIO_PIR) == 0 : error = error + 1 time.sleep(0.01) i = i + 1 ren = ok/(error+1) return ren

GPIO_PIR = 14

為紅外線檢測模塊與樹莓派的針腳，腳本函數返回0表示無人，0 為有人

【Python語音識別聊天部分robot.py】

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112

#/usr/bin/python# -*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding( “utf-8″ )import urllibimport urllib2import jsonimport uuidimport base64import osimport timefrom renti import * #獲取百度tokenappid=7647466apikey=”百度API”secretkey=”百度API” baidu_url=”h.com/oauth/2.0/token?grant_type=client_credentialsclient_id=” + apikey + “client_secret=” + secretkey; y_post=urllib2.urlopen(baidu_url)y_read=y_post.read()y_token=json.loads(y_read)[‘access_token’]#print y_read#print y_token #——————function————- def luyin(): os.system(‘arecord -D plughw:1,0 -c 1 -d 2 1.wav -r 8000 -f S16_LE 2/dev/null’) def fanyi():

#—————語音識別部分 mac_address=”haogeoyes” with open(“1.wav”,’rb’) as f: s_file = f.read() speech_base64=base64.b64encode(s_file).decode(‘utf-8’) speech_length=len(s_file) data_dict = {‘format’:’wav’, ‘rate’:8000, ‘channel’:1, ‘cuid’:mac_address, ‘token’:y_token, ‘lan’:’zh’, ‘speech’:speech_base64, ‘len’:speech_length} json_data = json.dumps(data_dict).encode(‘utf-8’) json_length = len(json_data) asr_server = ‘m/server_api’ request = urllib2.Request(url=asr_server) request.add_header(“Content-Type”, “application/json”) request.add_header(“Content-Length”, json_length) fs = urllib2.urlopen(url=request, data=json_data) result_str = fs.read().decode(‘utf-8’) json_resp = json.loads(result_str) if json_resp.has_key(‘result’): out_txt=json_resp[‘result’][0] else: out_txt=”Null” return out_txt def tuling(b): f=urllib.urlopen(“23.com/openapi/api?key=”此處為圖靈API”info=%s” % b) f=json.loads(f.read())[‘text’] return f def hecheng(text,y_token): #text=”你好我是機器人牛牛很高興能夠認識你” geturl=”u.com/text2audio?tex=”+text+”lan=zhper=1pit=9spd=6cuid=CCyo6UGf16ggKZGwGpQYL9Gxctp=1tok=”+y_token return os.system(‘omxplayer “%s” /dev/null 21 ‘%(geturl)) #return os.system(‘omxplayer “%s” /dev/null 21 ‘%(geturl)) def nowtime(): return time.strftime(‘%Y-%m-%d %H:%M:%S ‘) #—————main—————–num=0 #num用來判斷是第一次說話，還是在對話過程中first=1 #判斷是不是第一說話當1000次沒有人動認為是第一次while True: if ganying()!=0: run=open(‘run.log’,’a’) if first==0: hecheng(“你好,我是牛牛機器人,你可以和我聊天,不過說話的時候你必須靠近話筒近一點,”,y_token) hecheng(“說點什麼吧,2秒鐘內說完哦.”,y_token) first=1 #為1一段時間就不執行 num=0 #從新計數 #print ganying() run.write(nowtime()+”說點神馬吧………..”+’\n’) print nowtime()+”說點神馬吧……….” luyin() #開始錄音 out=fanyi().encode(“utf-8”) #翻譯文字 run.write(nowtime()+”我說:”+out+’\n’) print nowtime()+”我說:”+out if out == “Null”: text=”沒有聽清楚你說什麼” os.system(‘omxplayer “shenme.wav” /dev/null 21 ‘) else: text=tuling(out) hecheng(text,y_token) print nowtime()+”牛牛:”+text run.write(nowtime()+”牛牛:”+text+’\n’) run.close() else: #print ganying() #調試查看是否為0有人沒人 #print num num=num+1 #num長時間增大說明沒有人在旁邊 if num 1000: first=0 #0表示第一次說話

萬事俱備運行nohup python robot.py 哈哈就可以脫離屏幕開始愉快的語音聊天啦

下面看看聊天的日誌記錄吧

後續更新。。。。。。Python如何用語音優雅的控制小車

實現python文本寫入word

準備

我測試使用的Python版本為2.7.10，如果你的版本是Python3.5的話，這裡就不太適合了。

使用Speech API

原理

我們的想法是藉助微軟的語音接口，所以我們肯定是要進行調用相關的接口。所以我們需要安裝pywin32來幫助我們完成這一個底層的交互。

示例代碼

import win32com.clientspeaker = win32com.client.Dispatch(“SAPI.SpVoice”)speaker.Speak(“Hello, it works!”)

小總結

是的，調用接口來實現語音功能就是這麼簡單，但是我們不得不來聊一聊這種方式的缺點。

對中文支持的不夠好，僅僅是這一點，估計在中國沒幾個用它的了。

還有就是語速不能很好的控制

pyttsx方式

原理

pyttsx 是Python的一個關於文字轉語音方面的很不錯的庫。我們還可以藉助pyttsx來實現在線朗讀rfc文件或者本地文件等等，最為關鍵的是，它對中文支持的還是不錯的。

示例代碼

# coding:utf-8import sysreload(sys)sys.setdefaultencoding(‘utf8’)# __author__ = ‘郭璞’# __date__ = ‘2016/8/6’# __Desc__ = 文字轉語音輸出import pyttsxengine = pyttsx.init()engine.say(‘hello world’)engine.say(‘你好，郭璞’)engine.runAndWait()# 朗讀一次engine.endLoop()

小總結

使用pyttsx，我們可以藉助其強大的API來實現我們基本的業務需求。很酷吧。

pyttsx深入研究

做完上面的小實驗，你肯定會覺得怎麼這麼不過癮呢？

別擔心，下面我們就一起走進pyttsx的世界，深入的研究一下其工作原理吧。

語音引擎工廠

類似於設計模式中的“工廠模式”，pyttsx通過初始化來獲取語音引擎。當我們第一次調用init操作的時候，會返回一個pyttsx的engine對象，再次調用的時候，如果存在engine對象實例，就會使用現有的，否則再重新創建一個。

pyttsx.init([driverName : string, debug : bool]) → pyttsx.Engine

從方法聲明上來看，第一個參數指定的是語音驅動的名稱，這個在底層適合操作系統密切相關的。如下：

1.drivename：由pyttsx.driver模塊根據操作系統類型來調用，默認使用當前操作系統可以使用的最好的驅動

sapi5 – SAPI5 on Windows

nsss – NSSpeechSynthesizer on Mac OS X

espeak – eSpeak on every other platform

2.debug: 這第二個參數是指定要不要以調試狀態輸出，建議開發階段設置為True

引擎接口

要想很好的運用一個庫，不了解其API是不行的。下面來看看pyttsx。engine.Engine的引擎API。

方法簽名參數列表返回值簡單釋義

connect(topic : string, cb : callable) topic：要描述的事件名稱；cb:回調函數 → dict 在給定的topic上添加回調通知

disconnect(token : dict) token:回調失聯的返回標記 Void 結束連接

endLoop() None → None 簡單來說就是結束事件循環

getProperty(name : string) name有這些枚舉值“rate, vioce,vioces,volumn → object 獲取當前引擎實例的屬性值

setProperty(name : string) name有這些枚舉值“rate, vioce,vioces,volumn → object 設置當前引擎實例的屬性值

say(text : unicode, name : string) text:要進行朗讀的文本數據; name：關聯發音人，一般用不到 → None 預設要朗讀的文本數據，這也是“萬事俱備，只欠東風”中的“萬事俱備”

runAndWait() None → None 這個方法就是“東風”了。當事件隊列中事件全部清空的時候返回

startLoop([useDriverLoop : bool]) useDriverLoop:是否啟用驅動循環 → None 開啟事件隊列

元數據音調

在pyttsx.voice.Voice中，處理合成器的發音。

age

發音人的年齡，默認為None

gender

以字符串為類型的發音人性別: male, female, or neutral.默認為None

關於Voice的字符串確認信息. 通過 pyttsx.engine.Engine.setPropertyValue()來設置活動發音簽名. 這個屬性總是被定義。

languages

發音支持的語言列表，如果沒有，則為一個空的列表。

name

發音人名稱，默認為None.

更多測試

朗讀文本

import pyttsxengine = pyttsx.init()engine.say(‘Sally sells seashells by the seashore.’)engine.say(‘The quick brown fox jumped over the lazy dog.’)engine.runAndWait()

事件監聽

import pyttsxdef onStart(name): print ‘starting’, namedef onWord(name, location, length): print ‘word’, name, location, lengthdef onEnd(name, completed): print ‘finishing’, name, completedengine = pyttsx.init()engine.say(‘The quick brown fox jumped over the lazy dog.’)engine.runAndWait()

打斷發音

import pyttsxdef onWord(name, location, length): print ‘word’, name, location, length if location 10: engine.stop()engine = pyttsx.init()engine.say(‘The quick brown fox jumped over the lazy dog.’)engine.runAndWait()

更換髮音人聲音

engine = pyttsx.init()voices = engine.getProperty(‘voices’)for voice in voices: engine.setProperty(‘voice’, voice.id) engine.say(‘The quick brown fox jumped over the lazy dog.’)engine.runAndWait()

語速控制

engine = pyttsx.init()rate = engine.getProperty(‘rate’)engine.setProperty(‘rate’, rate+50)engine.say(‘The quick brown fox jumped over the lazy dog.’)engine.runAndWait()

音量控制

engine = pyttsx.init()volume = engine.getProperty(‘volume’)engine.setProperty(‘volume’, volume-0.25)engine.say(‘The quick brown fox jumped over the lazy dog.’)engine.runAndWait()

執行一個事件驅動循環

engine = pyttsx.init()def onStart(name): print ‘starting’, namedef onWord(name, location, length): print ‘word’, name, location, lengthdef onEnd(name, completed): print ‘finishing’, name, completed if name == ‘fox’: engine.say(‘What a lazy dog!’, ‘dog’) elif name == ‘dog’: engine.endLoop()engine = pyttsx.init()engine.say(‘The quick brown fox jumped over the lazy dog.’, ‘fox’)engine.startLoop()

使用一個外部的驅動循環

engine = pyttsx.init()engine.say(‘The quick brown fox jumped over the lazy dog.’, ‘fox’)engin()e.startLoop(False)# engine.iterate() must be called inside externalLoop()externalLoop()engine.endLoop()

總結

以上就是Python如何實現文本轉語音的全部內容，看完了上面的講述，是不是感覺Python實現文本轉語音還是蠻簡單的？那麼，大家快來嘗試嘗試吧。希望本文對大家學習Python有所幫助。

Python語音合成（日文翻譯）

原文：

Python version

ttslearn のインストール

ttslearn の動作確認

パッケージのインポート

描畫周りの設定

NumPy と Torch を用いた配列の作成

numpy.ndarray と torch.Tensor のインタフェースの違い

numpy.ndarray と torch.Tensor の相互変換

numpy.ndarray と torch.Tensor のメモリ共有

scipy.io.wavfile を利用した音聲ファイルの読み込み

音聲の可視化

窓関數

短時間フーリエ変換の実裝

短時間フーリエ変換の結果の可視化

librosa.stft を用いた短時間フーリエ変換

librosa.stftは、STFTを実行する前にデフォルトで信號の冒頭と末尾にパディング処理を行います。前述のSTFT実裝はこの処理をサポートしていないため、同等のSTFTの結果を得るためには、center=Falseとしてパディング処理を行わないように設定します。

時間解像度と周波數解像度のトレードオフ

逆短時間フーリエ変換による音聲の復元

メルフィルタバンク

メルスペクトログラムの計算

Griffin-Lim のアルゴリズムに基づく位相復元

瞬時周波數の可視化 (bonus)

Griffin-Limのアルゴリズムは、位相復元手法です。合成音聲と自然音聲の瞬時位相（位相の時間微分）を比較することで、位相復元が期待通り行われているかを視覚的に確認できます。

翻譯：

Python 版本

ttslearn 的安裝

ttslearn 的操作確認

導入程序包

設置繪圖格式

使用NumPy和Torch創建數組

numpy.ndarray和torch.Tensor之間的接口差異

numpy.ndarray和torch.Tensor的相互轉換

numpy.ndarray和torch.Tensor的內存共享

使用scipy.io.wavfile讀取音頻文件

語音可視化

窗函數

短時傅立葉變換的實現

短時傅立葉變換結果的可視化

使用librosa.stft的短時傅立葉變換

缺省情況下，librosa.stft在執行STFT（短時傅里葉變換）之前會對信號的開頭和結尾進行填充。由於上面提到的STFT實現不支持此操作，因此要獲得等效的STFT結果，請將填充操作設置為center=False。

在時間分辨率和頻率分辨率間權衡取捨

通過逆短時傅立葉變換進行語音的復原

郵件過濾器組

計算質譜圖

基於Griffin－Lim算法的相位復原

瞬時頻率可視化（bonus）

Griffin-Lim的算法是一種相位恢復方法。通過比較合成語音和自然語音的瞬時相位（相位的時間微分），我們可以直觀地看到相位恢復是否按預期進行。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/304596.html