音声認識で文字起こしの精度を比較検証！話者ダイアライゼーションに対応サービス3選！

WEELメディア事業部AIライターの2scです。

みなさん！文字起こしAIは活用していますか？

入力した音声データをテキストデータとして出力する文字起こしAIは、議事録作成を半自動化してくれる優れもの。すでに多くの企業で活用されていて、例えばみずほ証券は、この文字起こしAIで議事録作成の工数を約3割削減しています。

このように超便利な文字起こしAIですが、なかには「話者ダイアライゼーション」なる機能まで備えた一級品もあるようで……

当記事では、そんな話者ダイアライゼーションができる文字起こしAIを3つ紹介！料金・便利機能・精度などなど、徹底的に比較します。

完読いただくと、会議・電話・トークイベント等の複数人が話す会話の音声データを文字起こしする負担が減らせる……かも。ぜひぜひ、最後までお読みくださいね！

話者ダイアライゼーションとは？
話者ダイアライゼーションができる文字起こしAIを3つ紹介！
話者ダイアライゼーションができる文字起こしAIを徹底比較！
各文字起こしAIの精度を検証！
実験の総括とおすすめの文字起こしAI
WEELの生成AIへのスタンス

話者ダイアライゼーションとは？

「話者ダイアライゼーション / Speaker Diarization」とは複数人での会話音声について、各人が発話しているパートを推定する技術のこと。原理としては、母音・鼻音・破裂音といった音声の最小単位（音素）の特徴を手がかりに話者を区別するというものです。（※1）

この話者ダイアライゼーションはしばしば、文字起こしAI（Speech-to-Textモデル）に組み込まれます。音声を認識してテキストに変換する文字起こしAIに話者ダイアライゼーションを組み合わせることで「話者を区別しての文字起こし」が実現。議事録作成や通話内容の書き取りで、単なる文字起こし以上の効果が得られるでしょう。

次項からは、そんな話者ダイアライゼーション機能を備えた文字起こしAIを紹介・比較していきます。

なお、逆の処理を行うAIモデルについて詳しく知りたい方は下記の記事もあわせてご確認ください。

WEEL

Text-to-SpeechとVOICEVOXを比較して、ビジネスに最適な合成音声を見つけていく | WEEL WEELメディア事業部AIライターの2scです。みなさん、Googleの合成音声「Text-to-Speech」はご存知ですか？ Text-to-SpeechはAI技術を搭載した今注目の合成音声！その開発…

話者ダイアライゼーションができる文字起こしAIを3つ紹介！

ここでは、話者ダイアライゼーション機能を備えた文字起こしAIのなかでも、特に有名な下記3点をご紹介します。

AWS「Amazon Transcribe」
Google Cloud Platform「Speech-to-Text AI」
Azure AI services「バッチ文字起こし」

まずは、クラウドでシェアNo.1のAWSによる文字起こしAIから、詳細をみていきましょう！

AWS「Amazon Transcribe」

「Amazon Transcribe」はAWS（Amazon Web Services）が送る、話者ダイアライゼーション機能付きの文字起こしAIです。

参考：https://aws.amazon.com/jp/transcribe/

その特徴・すごいところとしては……

● 日本語完全対応で、日本語での話者ダイアライゼーションも可能
● AIモデルのカスタムが可能
● 自動句読点 / 語彙の記憶 / 言語識別…etc.の便利機能を多数搭載
● PythonやJavaをはじめ、7種類のプログラミング言語に対応
● コンソール・AWS CLI・SDKから使用可能

以上のとおりで、ほぼ違和感なく読めるテキストデータが出力できます。

また、AWS CLI対応で、AWSの他サービスとの連携もスムーズ。社内インフラをAWSで構築されている企業様に超おすすめの文字起こしAIになります。

公式サイト：Amazon Transcribe（音声をテキストに変換する機能を簡単に追加）

Google Cloud Platform「Speech-to-Text AI」

「Speech-to-Text AI」は、Google Cloud Platformから使える文字起こしAIになります。

参考：https://cloud.google.com/speech-to-text/docs

その特徴・すごいところとしては以下のとおりで、AIモデルやAPIの選択肢が豊富です。

● 日本語での文字起こしに対応
● AIモデルのカスタムが可能
● 音声入力用から電話音声用まで、用途別に最適なAIモデルが選択可
● PythonやJavaをはじめ、7種類のプログラミング言語に対応
● コンソールとAPI2種のほか、オンプレミスでも使用可能
　→APIは、Speech-to-Text v1 API / Speech-to-Text v2 APIが選択可

このSpeech-to-Text AIも一応、話者ダイアライゼーション機能を備えています。ただ、2024年9月時点で話者ダイアライゼーション機能が対応しているのは英語のみ。日本でSpeech-to-Text AIを使う場合は、AIモデルやAPIの選択肢の多さを活かせる場面を選んだほうがよさそうです。

公式サイト：Speech-to-Text – 音声認識と音声文字変換

Azure AI services「バッチ文字起こし」

MicrosoftのAzure AI servicesからは、話者ダイアライゼーションを完備した「バッチ文字起こし」が登場しています。

参考：https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/overview

このバッチ文字起こしの特徴・すごいところは……

● 日本語完全対応で、日本語での話者ダイアライゼーションも可能
● AIモデルのカスタムが可能
● 語彙の記憶や言語識別も可能
● PythonやJavaをはじめ、7種類のプログラミング言語に対応
● Azure AI Studioのコンソール・REST API・SDKから使用可能

以上のとおり。まとめて処理を行うため、コスト面に優れています。

そんなバッチ文字起こしなら、独自の用語・音声コマンドを学習したAIモデルが作れます。文字起こしAIをIoT機器やアプリに組み込みたい場合に、うってつけですね。

公式サイト：バッチ文字起こしの概要 – 音声サービス – Azure AI services | Microsoft Learn

話者ダイアライゼーションができる文字起こしAIを徹底比較！

ここからは、先ほどご紹介した話者ダイアライゼーション機能付きの文字起こしAI3種を徹底比較。下記7項目について、それぞれのアドバンテージを洗い出していきます。

話者ダイアライゼーション
対応している音源の種類
入力できるファイルサイズ
AIモデルの選択肢
言語識別
句読点・語彙の反映
料金

まずは、メインの話者ダイアライゼーション機能から、3者を比べていきましょう！

話者ダイアライゼーション

文字起こしAI3種のなかで、話者ダイアライゼーション機能に優れているのはAzure AI services「バッチ文字起こし」になります。こちらは日本語での話者ダイアライゼーションに対応していて、なんと最大35人まで話者の識別が可能です。

それ以外の文字起こしAIは、というと……

スクロールできます

	AWS 「Amazon Transcribe」	Google Cloud Platform 「Speech-to-Text AI」	Azure AI services 「バッチ文字起こし」
日本語対応	◯	×	◯
備考	話者の最大数は10人まで指定可能	話者ダイアライゼーションは英語のみ	話者の最大数は35人まで指定可能

以上のとおり。日本語で話者ダイアライゼーション機能を使いたい場合は、Azure AI services「バッチ文字起こし」かAWS「Amazon Transcribe」の2択になります。

対応している音源の種類

対応している音源の種類については、AWS「Amazon Transcribe」に軍配が上がります。他の文字起こしAI2種が音声にしか対応していないのに対し、Amazon Transcribeは動画の文字起こしにも対応。ファイル形式の選択肢も……

スクロールできます

	AWS 「Amazon Transcribe」	Google Cloud Platform 「Speech-to-Text AI」	Azure AI services 「バッチ文字起こし」
音声	◯	◯	△ （モノラル音声のみ）
動画	◯	×	×
ファイル形式	・AMR ・FLAC ・M4A ・MP3 ・MP4 ・Ogg ・WebM ・WAV	・MP3 MPEG ・FLAC ・LINEAR16 ・MULAW ・AMR ・AMR_WB ・OGG_OPUS ・SPEEX_WITH_HEADER_BYTE ・WEBM_OPUS	・WAV ・MP3 ・OPUS/OGG ・FLAC ・WMA ・AAC ・WAVコンテナー内のALAW ・WAVコンテナー内のMULAW ・AMR ・WebM ・M4A ・SPEEX

以上のとおり豊富で、幅広い用途にて活躍してくれそうです。

入力できるファイルサイズ

入力できるファイルサイズについても、AWS「Amazon Transcribe」が圧勝。下表のとおり、Azure AI services「バッチ文字起こし」の2倍、4時間分もの音声が文字起こしできます。

スクロールできます

	AWS 「Amazon Transcribe」	Google Cloud Platform 「Speech-to-Text AI」	Azure AI services 「バッチ文字起こし」
ファイルサイズ	2GBまで	Google Cloud Storage：無制限ローカルファイル：400MBまで API：10MBまで	1GBまで
時間の目安	4時間まで	APIで1分まで	2時間まで

Amazon Transcribeなら会議はもちろん、ライブやトークイベントでも活躍してくれそうです。

AIモデルの選択肢

AIモデルの選択肢については、Google Cloud Platform「Speech-to-Text AI」が優秀。用途別に5種類のAIモデルが選べます。

また、Azure AI services「バッチ文字起こし」では……

スクロールできます

	AWS 「Amazon Transcribe」	Google Cloud Platform 「Speech-to-Text AI」	Azure AI services 「バッチ文字起こし」
日本語モデルの選択肢	標準モデルのみ	・デフォルト・コマンド&検索用・音声通話用（拡張モデル）・長時間用・短時間用	・基本モデル・OpenAI「Whisper」
AIモデルのカスタマイズ	◯	◯	◯

このように、OpenAIが誇るSpeech-to-Textモデルの「Whisper」も選択可。外国語の翻訳&文字起こしがラクラク行えます。

言語識別

3者ともに、音声データ中の言語を自動で識別して文字起こしする機能を備えています。ただ、自動で識別できる範囲は、下表のとおり違います。

スクロールできます

	AWS 「Amazon Transcribe」	Google Cloud Platform 「Speech-to-Text AI」	Azure AI services 「バッチ文字起こし」
自動言語識別の範囲	全言語に対応	コードでの事前指定した数種の言語にのみ対応	全言語に対応

指定なしで自動言語識別ができるAWS「Amazon Transcribe」とAzure AI services「バッチ文字起こし」が、便利な印象です。

句読点・語彙の反映

AWS「Amazon Transcribe」とAzure AI services「バッチ文字起こし」は、下表のとおり、文字起こしの際に自動で句読点を加える機能を完備しています。出力テキストの可読性が高まりますね。

スクロールできます

	AWS 「Amazon Transcribe」	Google Cloud Platform 「Speech-to-Text AI」	Azure AI services 「バッチ文字起こし」
自動句読点機能	◯	×	◯
語彙登録機能	◯	◯	◯

また、特定の単語の変換先を指定できる機能（語彙登録機能）については、3者ともに完全対応。「ウィール」という音声を「Wheel / 車輪」ではなく「WEEL」に変換したい場合などなど、固有名詞の飛び交う会議で活躍してくれそうです。

料金

コストパフォーマンスについては、複数の音声データを逐次ではなく一括で処理するAzure AI services「バッチ文字起こし」の圧勝！下表のとおり他の文字起こしAI比で、8分の1しか料金がかかりません。

スクロールできます

	AWS 「Amazon Transcribe」（※2）	Google Cloud Platform 「Speech-to-Text AI」（※3、4）	Azure AI services 「バッチ文字起こし」（※5）
無料の範囲	利用開始から12ヶ月間は毎月1時間分まで無料	コンソールとSpeech-to-Text v1 APIは、毎月1時間分まで無料	毎月5時間分まで無料
課金	〜250,000分：$0.02400 / 1分 250,000分〜750,000分：$0.01500 / 1分 1,000,000分：$0.01080 / 1分	【コンソール】 $0.006 / 15秒【Speech-to-Text v1 API、データ記録なし】 $0.024 / 1分【Speech-to-Text v2 API、データ記録なし】 0分〜500,000分：$0.016 / 1分 500,000分〜1,000,000分：$0.01 / 1分 1,000,000分〜2,000,000分：$0.008 / 1分 2,000,000分〜：$0.004 / 分	$0.18 / 1時間（カスタム時は$0.225 / 1時間）
音声1時間あたりの料金	〜250,000分：$1.44 250,000分〜750,000分：$0.9 1,000,000分：$0.648	【コンソール & Speech-to-Text v1 API】 $1.44 【Speech-to-Text v2 API】 0分〜500,000分：$0.96 500,000分〜1,000,000分：$0.6 1,000,000分〜2,000,000分：$0.48 2,000,000分〜：$0.24	$0.18

次項からは、ここまでご紹介した3種の文字起こしAIを実際に使用してみて、その精度を比較していきます。

なお、文字起こしAI・Whisperを応用したAIモデルについて詳しく知りたい方は下記の記事もあわせてご確認ください。

WEEL

【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた | WEE… WEELメディア事業部LLMリサーチャーの中田です。 1月18日、Whisperを利用したText-to-Speechモデル「WhisperSpeech」のアップデート版を、Collaboraが公開しました。このA…

各文字起こしAIの精度を検証！

続いては、下記の文字起こしAIの精度を徹底比較！実際に音声を入力してみて、正しく文字に起こせているかどうかを検証していきます。

AWS「Amazon Transcribe」
Google Cloud Platform「Speech-to-Text AI」
Azure AI services「バッチ文字起こし」

今回、3種の文字起こしAIに入力するのは……

こちらのインタビュー動画！厳密には音声のみを抽出後、各AIモデルに適したファイル形式に変換したデータを使用します。

そして、各モデルの出力結果と比較する対象としては……

人力での文字起こし

話者 0：みなさんこんにちは。テレビ朝日映像撮影部の長崎です。そして
話者 1：新入社員の板敷理央と申します。
話者 0：板敷さん、よろしくお願いします。
話者 1：よろしくお願いします。（被せ気味）
話者 0：今日はなんでまた
話者 1：突然
話者 0：突然
話者 1：1年目なんですけど、
話者 0：はいはいはい
話者 1：そのロケに一人で行く機会がありまして
話者 0：確かにね、あの〜情報番組とか
話者 1：はい
話者 0：もう全然今一人で、まぁ行かされるというか、行ってきてみたいなことはありますよね。はい。
話者 1：で、カメラ持って一人でワーっと行ってきて、で、その時インタビューだったんですけど、
話者 0：はいはいはい
話者 1：インタビューをとり・・とって、で帰ってきて編集作業ってなった時に、まぁディレクターさん、編集マンさんが素材をバァーッと見た時に、そのこの絵ないの？みたいな怒られるというか

以上、人力での文字起こしを使用。こちらとのズレを下記の基準でマークします。

誤り箇所の表記

　：明らかな誤り箇所
　：判断が難しい箇所

それでは、AWS「Amazon Transcribe」の実験結果から、詳しくみていきましょう！

AWS「Amazon Transcribe」の結果

手始めに、先述のインタビュー音源をAWS「Amazon Transcribe」に入力し、下記条件で文字起こしさせてみます。

「Amazon Transcribe」の実験条件

入力音源のファイル形式：mp4
言語の設定：日本語（ja-JP）
話者ダイアライゼーション：あり
話者の最大数：2

さてさて、文字起こし&話者ダイアライゼーションの精度はいかほどなのでしょうか？それでは、結果をご覧ください。

「Amazon Transcribe」による文字起こし結果

話者 0：皆さん、こんにちは。テレビ朝日　撮影部の長崎です。そして
話者 1：新入社員の　と
話者 0：申します。　よろしくお願いします。今日はなんでまた
話者 1：　突然一年目なんですけど、そのロケに一人で行く機会がありまして
話者 0：確かにね。あの情報番組とかもう全然今一人でま生かされるというか、行ってきてみたいなことありますよね。はい。
話者 1：でカメラ持って一人でバーと行ってきて。で、その時インタビューだったんですけど、インタビューを取り取ってで帰ってきて編集作業ってなった時にまディレクターさん編集マンさんが素材をばっと見た時に、そのこの絵ないの？みたいな怒られるという　

お見事です！文字起こしについては、組織名や人名以外に大きなミスがありませんでした。

さらにさらに、話者ダイアライゼーションのクオリティも文句なし。被せ気味の合いの手が程よく省かれています。Amazon Transcribe……いいですね！

Google Cloud Platform「Speech-to-Text AI」の結果

続いては、Google Cloud Platform「Speech-to-Text AI」でも、同じ音源の文字起こしを試してみます。こちらは、日本語での話者ダイアライゼーションに未対応のため……

「Speech-to-Text AI」の実験条件

入力音源のファイル形式： mp3
言語の設定：ja-JP
AIモデル：Long
APIバージョン：V2

以上の条件で動かしていきます。それでは、結果をどうぞ！

「Speech-to-Text AI」による文字起こし結果
（信頼度：0.74）

皆さんこんにちはテレビ朝日映像撮影部の長崎ですそして新入社員のいたしきりおと申します屋敷さんよろしくお願いしますお願いします今日はなんでまた突然　1年目なんですけどそのロケに1人で行く機会がありまして　あの情報番組とかもう全然今1人でまあ行かされるというか言ってきてみたいなことありますよねはいでまカメラ持ってで1人でわっと行ってきてでその時インタビューだったんですけどインタビューを取りとってで帰ってきて編集作業ってなった時にまディレクターさん編集マンさんが素材をばーっと見た時にそのこの絵ないのみたいな怒られるというか

このようにSpeech-to-Text AIは、フィラーや擬音語以外のミスが少なく、かなり優秀。話者ダイアライゼーション機能や自動句読点機能がないのは残念ですが、Amazon Transcribeに勝るとも劣らぬ精度で文字起こしを返してくれました。

Azure AI services「バッチ文字起こし」の結果

最後に、Azure AI services「バッチ文字起こし」についても、先ほどのインタビュー音源で精度を試していきます。詳しい条件については、下記をご参照ください。

「バッチ文字起こし」の実験条件

入力音源のファイル形式：モノラル音声データ
言語の設定：日本語（日本）
AIモデル: 20240403
話者ダイアライゼーション：あり
話者の最大数：2
不適切表現のフィルタリング：Masked
自動句読点のモード：DictedAndAutomatic

それでは早速、バッチ文字起こしの文字起こし&話者ダイアライゼーションの実力をみていきましょう！

「バッチ文字起こし」による文字起こし結果

話者 0：皆さん、こんにちは。テレビ朝日映像撮影部の長崎です。そして。
話者 1：新入社員のいたしきりやと申します出。
話者 0：　しきさん、よろしくお願いしま　。
話者 1：　すよろしくお願いします。
話者 0：今日は。なんでまた突然突然？
話者 1：一年目なんですけど、そのロケに一人で行く機会がありまして。
話者 0：確か？
話者 1：にね。
話者 0：あの情報番組とか、もう全然今一人でまあ行かされるというか行ってきてみたいなことありますよね？はい。
話者 1：でまあカメラ持ってで一人でワーッと行ってきてでその時インタビューだったんですけど、インタビューを取り取って。で帰ってきて編集作業ってなった時に、まあディレクターさん、編集マンさんが素材をバーっと見た時に、そのこの絵ないのみたいな、怒られるというか。