OpenAI Whisperで音声ファイルの文字起こしに挑戦！

こんにちは。スーパーソフトウエア東京オフィス技術部の加藤です。
今回は、OpenAI Whisperを使って音声ファイル（mp3）の文字起こしに挑戦してみました。素材となる音声データはpyttsx3を使って生成してみました。

Whisperとpyttsx3の概要

Whisper: OpenAIが開発した高性能な音声認識モデルです。多言語に対応しており、ノイズが多い環境や専門用語を含む音声も高精度に認識できます。オープンソースであり、MITライセンスで公開されています。

pyttsx3: Pythonでテキスト読み上げ（TTS）を行うためのクロスプラットフォームなライブラリです。OSに搭載されているTTSエンジンを利用するため、多言語に対応しています。Mozilla Public License 2.0で公開されています。MPL 2.0 は、MIT ライセンスと同様に、商用利用、改変、配布を許可するライセンスですが、いくつかの点で違いがあります。

本記事の続きはこちらをご覧ください▼
https://note.com/ssltokyo_tech/n/nce8771167a28

スーパーソフトウエアの採用情報

あなたが活躍できるフィールドと充実した育成環境があります

詳しく見る

2025-09-29
テクノロジー

OpenAI Whisperで音声ファイルの文字起こしに挑戦！

Whisperとpyttsx3の概要

スーパーソフトウエアの採用情報

関連記事

Welcome to login system