python百度語音合成(python怎麼調用百度AI的語音合成功能?)

  • 1、自己動手寫Python進行文本轉語音程序,共計11行代碼
  • 2、python百度雲AI語音合成參數怎麼改
  • 3、如何用python調用百度語音識別
  • 4、如何優雅的用Python玩轉語音聊天機器人
  • 5、Python語音合成(日文翻譯)

1、首先安裝Python程序推薦3.7

2、下載 pyttsx3庫。

3、將需要轉換的文本和程序放到一起。

4、運行程序就會朗讀文本和保存文本朗讀的語音文件。

以下是源代碼:

import pyttsx3

with open ( ‘word.txt’ , encoding = ‘utf-8’ ) as obj:

line=obj.readline()

engine=pyttsx3.init()

rate=engine.getProperty( ‘rate’ )

engine.setProperty( ‘rate’ , 160 )

volume=engine.getProperty( ‘volume’ )

engine.setProperty( ‘volume’ , 0.6 )

engine.say(line)

engine.save_to_file(line, ‘abc.mp3’ )

engine.runAndWait()

參數說明

per :發音人選擇, 0為普通女聲,1為普通男生,3為情感合成-度逍遙,4為情感合成-度丫丫,默認為普通女聲

spd:語速,取值0-15,默認為5中語速  

pit:音調,取值0-15,默認為5中語調  

vol:音量,取值0-15,默認為5中音量  

#!/usr/bin/env python

# -*- coding: utf-8 -*-

########################################################################

#

# Copyright (c) 2017 aibot.me, Inc. All Rights Reserved

#

########################################################################

“””

File: util_voice.py

Author: darrenwang(darrenwang@aibot.me)

Date: 2017/03/24 11:29:50

Brief:

“””

import sys

import json

import time

import base64

import urllib

import urllib2

import requests

class BaiduRest:

def __init__(self, cu_id, api_key, api_secert):

self.token_url = “;client_id=%sclient_secret=%s”

self.getvoice_url = “;lan=zhcuid=%sctp=1tok=%s”

self.upvoice_url = ”

self.cu_id = cu_id

self.get_token(api_key, api_secert)

return

def get_token(self, api_key, api_secert):

token_url = self.token_url % (api_key,api_secert)

r_str = urllib2.urlopen(token_url).read()

token_data = json.loads(r_str)

self.token_str = token_data[‘access_token’]

return True

#語音合成

def text2audio(self, text, filename):

get_url = self.getvoice_url % (urllib2.quote(text), self.cu_id, self.token_str)

voice_data = urllib2.urlopen(get_url).read()

voice_fp = open(filename,’wb+’)

voice_fp.write(voice_data)

voice_fp.close()

return True

##語音識別

def audio2text(self, filename):

data = {}

data[‘format’] = ‘wav’

data[‘rate’] = 8000

data[‘channel’] = 1

data[‘cuid’] = self.cu_id

data[‘token’] = self.token_str

wav_fp = open(filename,’rb’)

voice_data = wav_fp.read()

data[‘len’] = len(voice_data)

#data[‘speech’] = base64.b64encode(voice_data).decode(‘utf-8’)

data[‘speech’] = base64.b64encode(voice_data).replace(‘\n’, ”)

#post_data = json.dumps(data)

result = requests.post(self.upvoice_url, json=data, headers={‘Content-Type’: ‘application/json’})

data_result = result.json()

print data_result

return data_result[‘result’][0]

def test_voice():

api_key = “SrhYKqzl3SE1URnAEuZ0FKdT”

api_secert = “hGqeCkaMPb0ELMqtRGc2VjWdmjo7T89d”

bdr = BaiduRest(“test_python”, api_key, api_secert)

#生成

start = time.time()

bdr.text2audio(“你好啊”, “out.wav”)

using = time.time() – start

print using

#識別

start = time.time()

#result = bdr.audio2text(“test.wav”)

#result = bdr.audio2text(“weather.pcm”)

using = time.time() – start

print using, result

return True

if __name__ == “__main__”:

test_voice()

所需硬體:

樹莓派B+

人體紅外線感應模塊

內置麥克風攝像頭(實測樹莓派免驅淘寶鏈接)

申請API:

百度語音api

圖靈api

語音聊天機器人實現原理:當有人來到跟前時–》觸發聊天功能,開始以每2s檢測錄製語音–》通過百度語音api合成文字–》傳遞給圖靈api返回回答信息–》通過百度語音合成播放

【人體感應識別部分Python代碼renti.py】

123456789101112131415161718192021222324252627282930313233

#/usr/bin/python#coding:utf-8import RPi.GPIO as GPIOimport timeimport osimport signalimport atexitGPIO.setmode(GPIO.BCM) GPIO_PIR = 14 GPIO.setup(GPIO_PIR,GPIO.IN) # Echojing = 0dong = 0 sum = 0sum1 = 0oldren = 0sleep = 0def ganying(): i = 0 ok = 0 error = 0 while i 10: if GPIO.input(GPIO_PIR) == 1 : ok = ok + 1 if GPIO.input(GPIO_PIR) == 0 : error = error + 1 time.sleep(0.01) i = i + 1 ren = ok/(error+1) return ren

1

GPIO_PIR = 14

為 紅外線檢測模塊與樹莓派的針腳,腳本函數返回0表示無人,0 為有人

【Python語音識別聊天部分robot.py】

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112

#/usr/bin/python# -*- coding:utf-8 -*-import sysreload(sys)sys.setdefaultencoding( “utf-8″ )import urllibimport urllib2import jsonimport uuidimport base64import osimport timefrom renti import * #獲取百度tokenappid=7647466apikey=”百度API”secretkey=”百度API” baidu_url=”h.com/oauth/2.0/token?grant_type=client_credentialsclient_id=” + apikey + “client_secret=” + secretkey; y_post=urllib2.urlopen(baidu_url)y_read=y_post.read()y_token=json.loads(y_read)[‘access_token’]#print y_read#print y_token #——————function————- def luyin(): os.system(‘arecord -D plughw:1,0 -c 1 -d 2 1.wav -r 8000 -f S16_LE 2/dev/null’) def fanyi():

#—————語音識別部分 mac_address=”haogeoyes” with open(“1.wav”,’rb’) as f: s_file = f.read() speech_base64=base64.b64encode(s_file).decode(‘utf-8’) speech_length=len(s_file) data_dict = {‘format’:’wav’, ‘rate’:8000, ‘channel’:1, ‘cuid’:mac_address, ‘token’:y_token, ‘lan’:’zh’, ‘speech’:speech_base64, ‘len’:speech_length} json_data = json.dumps(data_dict).encode(‘utf-8’) json_length = len(json_data) asr_server = ‘m/server_api’ request = urllib2.Request(url=asr_server) request.add_header(“Content-Type”, “application/json”) request.add_header(“Content-Length”, json_length) fs = urllib2.urlopen(url=request, data=json_data) result_str = fs.read().decode(‘utf-8’) json_resp = json.loads(result_str) if json_resp.has_key(‘result’): out_txt=json_resp[‘result’][0] else: out_txt=”Null” return out_txt def tuling(b): f=urllib.urlopen(“23.com/openapi/api?key=”此處為圖靈API”info=%s” % b) f=json.loads(f.read())[‘text’] return f def hecheng(text,y_token): #text=”你好我是機器人牛牛很高興能夠認識你” geturl=”u.com/text2audio?tex=”+text+”lan=zhper=1pit=9spd=6cuid=CCyo6UGf16ggKZGwGpQYL9Gxctp=1tok=”+y_token return os.system(‘omxplayer “%s” /dev/null 21 ‘%(geturl)) #return os.system(‘omxplayer “%s” /dev/null 21 ‘%(geturl)) def nowtime(): return time.strftime(‘%Y-%m-%d %H:%M:%S ‘) #—————main—————–num=0 #num用來判斷是第一次說話,還是在對話過程中first=1 #判斷是不是第一說話 當1000次沒有人動認為是第一次while True: if ganying()!=0: run=open(‘run.log’,’a’) if first==0: hecheng(“你好,我是牛牛機器人,你可以和我聊天,不過說話的時候你必須靠近話筒近一點,”,y_token) hecheng(“說點什麼吧,2秒鐘內說完哦.”,y_token) first=1 #為1一段時間就不執行 num=0 #從新計數 #print ganying() run.write(nowtime()+”說點神馬吧………..”+’\n’) print nowtime()+”說點神馬吧……….” luyin() #開始錄音 out=fanyi().encode(“utf-8”) #翻譯文字 run.write(nowtime()+”我說:”+out+’\n’) print nowtime()+”我說:”+out if out == “Null”: text=”沒有聽清楚你說什麼” os.system(‘omxplayer “shenme.wav” /dev/null 21 ‘) else: text=tuling(out) hecheng(text,y_token) print nowtime()+”牛牛:”+text run.write(nowtime()+”牛牛:”+text+’\n’) run.close() else: #print ganying() #調試查看是否為0有人沒人 #print num num=num+1 #num長時間增大說明沒有人在旁邊 if num 1000: first=0 #0表示第一次說話

萬事俱備 運行nohup python robot.py 哈哈就可以脫離屏幕開始愉快的語音聊天啦

下面看看聊天的日誌記錄吧

後續更新。。。。。。Python如何用語音優雅的控制小車

原文:

Python version

ttslearn のインストール

ttslearn の動作確認

パッケージのインポート

描畫周りの設定

NumPy と Torch を用いた配列の作成

numpy.ndarray と torch.Tensor のインタフェースの違い

numpy.ndarray と torch.Tensor の相互変換

numpy.ndarray と torch.Tensor のメモリ共有

scipy.io.wavfile を利用した音聲ファイルの読み込み

音聲の可視化

窓関數

短時間フーリエ変換の実裝

短時間フーリエ変換の結果の可視化

librosa.stft を用いた短時間フーリエ変換

librosa.stftは、STFTを実行する前にデフォルトで信號の冒頭と末尾にパディング処理を行います。前述のSTFT実裝はこの処理をサポートしていないため、同等のSTFTの結果を得るためには、center=Falseとしてパディング処理を行わないように設定します。

時間解像度と周波數解像度のトレードオフ

逆短時間フーリエ変換による音聲の復元

メルフィルタバンク

メルスペクトログラムの計算

Griffin-Lim のアルゴリズムに基づく位相復元

瞬時周波數の可視化 (bonus)

Griffin-Limのアルゴリズムは、位相復元手法です。合成音聲と自然音聲の瞬時位相(位相の時間微分)を比較することで、位相復元が期待通り行われているかを視覚的に確認できます。

翻譯:

Python 版本

ttslearn 的安裝

ttslearn 的操作確認

導入程序包

設置繪圖格式

使用NumPy和Torch創建數組

numpy.ndarray和torch.Tensor之間的介面差異

numpy.ndarray和torch.Tensor的相互轉換

numpy.ndarray和torch.Tensor的內存共享

使用scipy.io.wavfile讀取音頻文件

語音可視化

窗函數

短時傅立葉變換的實現

短時傅立葉變換結果的可視化

使用librosa.stft的短時傅立葉變換

預設情況下,librosa.stft在執行STFT(短時傅里葉變換)之前會對信號的開頭和結尾進行填充。 由於上面提到的STFT實現不支持此操作,因此要獲得等效的STFT結果,請將填充操作設置為center=False。

在時間解析度和頻率解析度間權衡取捨

通過逆短時傅立葉變換進行語音的復原

郵件過濾器組

計算質譜圖

基於Griffin-Lim演算法的相位復原

瞬時頻率可視化(bonus)

Griffin-Lim的演算法是一種相位恢復方法。 通過比較合成語音和自然語音的瞬時相位(相位的時間微分),我們可以直觀地看到相位恢復是否按預期進行。

原創文章,作者:YRDHI,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/126454.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
YRDHI的頭像YRDHI
上一篇 2024-10-03 23:08
下一篇 2024-10-03 23:08

相關推薦

  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智慧、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • 蝴蝶優化演算法Python版

    蝴蝶優化演算法是一種基於仿生學的優化演算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化演算法Python版…

    編程 2025-04-29

發表回復

登錄後才能評論