本文目錄一覽:
- 1、python怎麼把一個32bit float編碼的pcm數據轉換成wav文件,或者說setsampwidth的參數應該是什麼
- 2、為什麼python轉換的wav不能播放,必須用sox轉換
- 3、python中引入pyttsx3包然後用這個包實現文本轉換成的語音engine.say()怎麼存儲成WAV文件
- 4、誰知道如何在python中用處理wav文件,並且對他的頻譜進行分析的程序
- 5、python 播放 wav
- 6、Python pydub音頻處理
python怎麼把一個32bit float編碼的pcm數據轉換成wav文件,或者說setsampwidth的參數應該是什麼
就一般情況而言,大多數的wav音頻文件就是pcm編碼的,所以不用轉。
所以你應該把問題描述清楚:你想把pcm編碼轉成什麼編碼?
為什麼python轉換的wav不能播放,必須用sox轉換
格式不支持。python轉換的wav只可用於儲存格式,不可用於讀取(播放)格式,想要播放必須使用sox插件進行轉換。
python中引入pyttsx3包然後用這個包實現文本轉換成的語音engine.say()怎麼存儲成WAV文件
pyttsx 是一個Python的第三方包,支持在Mac OS X, Windows, Linux 實現文字轉語言( text-to-speech)~
誰知道如何在python中用處理wav文件,並且對他的頻譜進行分析的程序
1.讀取wav文件
# -*- coding: utf-8 -*-
import wave
import pylab as pl
import numpy as np
# 打開WAV文檔
f = wave.open(r”c:\WINDOWS\Media\ding.wav”, “rb”)
# 讀取格式信息
# (nchannels, sampwidth, framerate, nframes, comptype, compname)
params = f.getparams()
nchannels, sampwidth, framerate, nframes = params[:4]
# 讀取波形數據
str_data = f.readframes(nframes)
f.close()
#將波形數據轉換為數組
wave_data = np.fromstring(str_data, dtype=np.short)
wave_data.shape = -1, 2
wave_data = wave_data.T
time = np.arange(0, nframes) * (1.0 / framerate)
# 繪製波形
pl.subplot(211)
pl.plot(time, wave_data[0])
pl.subplot(212)
pl.plot(time, wave_data[1], c=”g”)
pl.xlabel(“time (seconds)”)
pl.show()
2.觀察信號頻譜
# -*- coding: utf-8 -*-
import numpy as np
import pylab as pl
sampling_rate = 8000
fft_size = 512
t = np.arange(0, 1.0, 1.0/sampling_rate)
x = np.sin(2*np.pi*156.25*t) + 2*np.sin(2*np.pi*234.375*t)
xs = x[:fft_size]
xf = np.fft.rfft(xs)/fft_size
freqs = np.linspace(0, sampling_rate/2, fft_size/2+1)
xfp = 20*np.log10(np.clip(np.abs(xf), 1e-20, 1e100))
pl.figure(figsize=(8,4))
pl.subplot(211)
pl.plot(t[:fft_size], xs)
pl.xlabel(u”時間(秒)”)
pl.title(u”156.25Hz和234.375Hz的波形和頻譜”)
pl.subplot(212)
pl.plot(freqs, xfp)
pl.xlabel(u”頻率(Hz)”)
pl.subplots_adjust(hspace=0.4)
pl.show()
python 播放 wav
這是python的matplotlib里的一個畫wav文件的時頻分析(specgram)的函數。和matlab里的那個差不多。使用超級方便,自動就做好了短時傅立葉變換(short
time fourier
transform)~函數用法具體可參照
關於短時傅立葉變換的具體內容可google之~下面介紹程序。
#首先import各種library。wave和struct都是安裝python2.6自帶的。scipy可以在
#下載。pylab可在下載。都是非常#強大的包包啊~~
import wave
import struct
from scipy import *
from pylab import *
#讀取wav文件,我這兒讀了個自己用python寫的音階的wav
filename = ‘/Users/rongjin/Desktop/scale.wav’
wavefile = wave.open(filename, ‘r’) # open for writing
#讀取wav文件的四種信息的函數。期中numframes表示一共讀取了幾個frames,在後面要用到滴。
nchannels = wavefile.getnchannels()
sample_width = wavefile.getsampwidth()
framerate = wavefile.getframerate()
numframes = wavefile.getnframes()
#建一個y的數列,用來保存後面讀的每個frame的amplitude。
y = zeros(numframes)
#for循環,readframe(1)每次讀一個frame,取其前兩位,是左聲道的信息。右聲道就是後兩位啦。
#unpack是struct里的一個函數,用法詳見。簡單說來
就是把#packed的string轉換成原來的數據,無論是什麼樣的數據都返回一個tuple。這裡返回的是長度為一的一個
#tuple,所以我們取它的第零位。
for i in range(numframes):
val =
wavefile.readframes(1)
left =
val[0:2]
#right = val[2:4]
v =
struct.unpack(‘h’, left )[0]
y[i] =
v
#framerate就是44100,文件初讀取的值。然後本程序最關鍵的一步!specgram!實在太簡單了。。。
Fs = framerate
specgram(y, NFFT=1024, Fs=Fs, noverlap=900)
show()
好看的specgram就畫好了~~x軸是時間,y軸是頻率~
Python pydub音頻處理
Pydub可以讓你用簡單的方式處理音頻。
Pydub提供了簡潔的高層接口,極大的擴展了python處理音頻文件的能力。
GitHub鏈接: pydub-github
GitHub:
pydub的使用必須安裝對應的依賴軟件 ffmpeg 或 avconv
驗證是否安裝成功:
Open a WAV file
Open a mp3 file
Open a other file
切割音頻
分貝操作
分貝(decibel)是量度兩個相同單位之數量比例的計量單位,主要用於度量聲音強度,常用dB表示。
音頻鏈接
將一個文件添加到另一個文件的末尾
音頻長度
淡入淡出
重複音頻
再次淡入淡出
直接保存
所有ffmpeg支持的都支持
用標籤保存結果(元數據)
實例:
將mp3文件轉換成wav文件:
Python音頻處理庫 pydub
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/291096.html