Whisper AIを触ってみた

こんにちは、Yumihikiです。

最近GPT-4の勢いが凄いですね。 今日も起きたらGitHub Copilot Xの発表が流れてきて、今一番HOTだなと思います。

github.blog

そのGPT-4が作っているWhisper AIを触ってみました。

openai.com

以前、 @nikkie-frnext さんが記事を書かれていたのを覚えており、触りたいなと思っていたところでした。

nikkie-ftnext.hatenablog.com

動かすまでの手順も非常に簡単で、面白かったです。

実行環境

  • macOS Big Sur 11.6.4
  • Python3.10

ffmpegのインストール(未インストールの場合)

brew install ffmpeg

※環境に合わせて下記のGitHubのReadmeから選んで実行してください。

Python実行環境の準備

mkdir whisper-study
cd whisper-study
python3.10 -m venv venv
source venv/bin/activate
export PYTHONPATH=$PWD
pip install -U openai-whisper

サンプルファイルの作成

say 吾輩は猫である。名前はまだない。 -o sample.wav --data-format=LEF32@16000

サンプルコードの作成・記述

touch main.py
vi main.py

以下を貼り付け

if __name__ == "__main__":
    import whisper

    model = whisper.load_model("base")
    result = model.transcribe("sample.wav", fp16=False)
    print(result["text"])

出力結果

python main.py
わがはいは、ネコである、名前はまだない。

バッチリ出ましたね。 文字起こしが非常に簡単にできるので、色々と活用していけば便利になりそうだと思いました。 個人的にはZoomを使った後の会話とか、もっと便利に文字起こししたいなと感じているので。

最近こうやって技術を勉強する時間が取れてきたので、引き続き色々と触っていきたいと思います。

補足

以下のリポジトリのサンプルコードを基にしています。 fp16=False を指定しない場合、以下のWarningが出るので付与しました。

UserWarning: FP16 is not supported on CPU; using FP32 instead
  warnings.warn("FP16 is not supported on CPU; using FP32 instead")

github.com