こんにちは、Yumihikiです。
最近GPT-4の勢いが凄いですね。 今日も起きたらGitHub Copilot Xの発表が流れてきて、今一番HOTだなと思います。
そのGPT-4が作っているWhisper AIを触ってみました。
以前、 @nikkie-frnext さんが記事を書かれていたのを覚えており、触りたいなと思っていたところでした。
動かすまでの手順も非常に簡単で、面白かったです。
実行環境
- macOS Big Sur 11.6.4
- Python3.10
ffmpegのインストール(未インストールの場合)
brew install ffmpeg
※環境に合わせて下記のGitHubのReadmeから選んで実行してください。
Python実行環境の準備
mkdir whisper-study cd whisper-study python3.10 -m venv venv source venv/bin/activate export PYTHONPATH=$PWD pip install -U openai-whisper
サンプルファイルの作成
say 吾輩は猫である。名前はまだない。 -o sample.wav --data-format=LEF32@16000
サンプルコードの作成・記述
touch main.py vi main.py
以下を貼り付け
if __name__ == "__main__": import whisper model = whisper.load_model("base") result = model.transcribe("sample.wav", fp16=False) print(result["text"])
出力結果
python main.py わがはいは、ネコである、名前はまだない。
バッチリ出ましたね。 文字起こしが非常に簡単にできるので、色々と活用していけば便利になりそうだと思いました。 個人的にはZoomを使った後の会話とか、もっと便利に文字起こししたいなと感じているので。
最近こうやって技術を勉強する時間が取れてきたので、引き続き色々と触っていきたいと思います。
補足
以下のリポジトリのサンプルコードを基にしています。 fp16=False を指定しない場合、以下のWarningが出るので付与しました。
UserWarning: FP16 is not supported on CPU; using FP32 instead warnings.warn("FP16 is not supported on CPU; using FP32 instead")