OpenAI Whisperで音声ファイルの文字起こしに挑戦!

こんにちは。スーパーソフトウエア東京オフィス技術部の加藤です。
今回は、OpenAI Whisperを使って音声ファイル(mp3)の文字起こしに挑戦してみました。素材となる音声データはpyttsx3を使って生成してみました。

Whisperとpyttsx3の概要

Whisper: OpenAIが開発した高性能な音声認識モデルです。多言語に対応しており、ノイズが多い環境や専門用語を含む音声も高精度に認識できます。オープンソースであり、MITライセンスで公開されています。

pyttsx3: Pythonでテキスト読み上げ(TTS)を行うためのクロスプラットフォームなライブラリです。OSに搭載されているTTSエンジンを利用するため、多言語に対応しています。Mozilla Public License 2.0で公開されています。MPL 2.0 は、MIT ライセンスと同様に、商用利用、改変、配布を許可するライセンスですが、いくつかの点で違いがあります。

 

本記事の続きはこちらをご覧ください
https://note.com/ssltokyo_tech/n/nce8771167a28

スーパーソフトウエアの採用情報

あなたが活躍できるフィールドと充実した育成環境があります

blank
blank