OpenAI Whisperで音声ファイルの文字起こしに挑戦!
こんにちは。スーパーソフトウエア東京オフィス技術部の加藤です。
今回は、OpenAI Whisperを使って音声ファイル(mp3)の文字起こしに挑戦してみました。素材となる音声データはpyttsx3を使って生成してみました。
Whisperとpyttsx3の概要
Whisper: OpenAIが開発した高性能な音声認識モデルです。多言語に対応しており、ノイズが多い環境や専門用語を含む音声も高精度に認識できます。オープンソースであり、MITライセンスで公開されています。
pyttsx3: Pythonでテキスト読み上げ(TTS)を行うためのクロスプラットフォームなライブラリです。OSに搭載されているTTSエンジンを利用するため、多言語に対応しています。Mozilla Public License 2.0で公開されています。MPL 2.0 は、MIT ライセンスと同様に、商用利用、改変、配布を許可するライセンスですが、いくつかの点で違いがあります。
本記事の続きはこちらをご覧ください▼
https://note.com/ssltokyo_tech/n/nce8771167a28
関連記事
- 2025-09-29
- テクノロジー