Toshusai blog

知識の保管庫

Python3でマイクから録音して音声をスペクトル表示する

Python3でマイクから録音して音声をスペクトル表示する

http://toshusai.hatenablog.com/entry/2017/11/10/224330
この記事で波形データを取ったが、今回はフーリエ変換してスペクトラム表示したかった。

マイクから音声を録音する

https://www.ningendesu.net/blog/entry/655 こちらの記事にとても分かりやすく書いてある。(Naruto Ishikawaさんに感謝)

# -*- coding: utf-8 -*-
import pyaudio
import wave

FORMAT = pyaudio.paInt16
CHANNELS = 1        #モノラル
RATE = 44100        #サンプルレート
CHUNK = 2**11       #データ点数
RECORD_SECONDS = 10 #録音する時間の長さ
WAVE_OUTPUT_FILENAME = "file.wav"

audio = pyaudio.PyAudio()

stream = audio.open(format=FORMAT, channels=CHANNELS,
        rate=RATE, input=True,
        input_device_index=4,   #デバイスのインデックス番号
        frames_per_buffer=CHUNK)
print ("recording...")

frames = []
for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
    data = stream.read(CHUNK)
    frames.append(data)
print ("finished recording")

stream.stop_stream()
stream.close()
audio.terminate()

waveFile = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
waveFile.setnchannels(CHANNELS)
waveFile.setsampwidth(audio.get_sample_size(FORMAT))
waveFile.setframerate(RATE)
waveFile.writeframes(b''.join(frames))
waveFile.close()

スペクトラム表示する

たたフーリエ変換するだけ。
https://www.ningendesu.net/blog/entry/668
またNaruto Ishikawaさんの記事を参考にするが、こちらではpyqtgraphというライブラリを使ってリアルタイム表示しているが、Tkinterという標準ライブラリを使いたかった。
こちらの記事と違う部分はscipyをnumpyに、pyqtgraphをTkinterに、リアルタイムから非リアルタイムになっただけ。
任意の時間マイク入力を受け付けて、その後Tkinterのキャンバスでスペクトラム表示(厳密にはちょっと違うっぽい)される。

import tkinter
~~~~
root = tkinter.Tk()
canvas = tkinter.Canvas(root, width = 2048, height = 300)
canvas.pack()
~~~~
for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
    buf = stream.read(CHUNK)
    frames.append(buf)
    data = np.fft.fft(np.frombuffer(buf, dtype="int16"))#追加
    dframes.append(data.real)#追加
~~~
for i in range(len(dframes)):
    canvas.delete("all")
    for j in range(len(dframes[i])):
        canvas.create_line(j, 150, j, 150 + dframes[i][j] / 1000)#そのままだと大きすぎるので1000で割る
    canvas.update()
    if(i == len(dframes) - 1):
        root.destroy()

 root.mainloop()

参考