[ Develop ] AWS Polly を始めとする日本語音声合成システムを調べてみた

[ Develop ] AWS Polly を始めとする日本語音声合成システムを調べてみた

はじめに

昨年、 AWS re:Invent 2016 でリリースされてから、少し時間が立ちますが、とあるプロジェクトで日本語音声合成システムをテストする機会があったので、AWS Pollyを試した所感や、他の音声合成サービスを調べてみました。

Amazon Polly

 
aws-polly
 
AWS Polly
 
24 の言語と 47 の音声が含まれているため、バリエーションが豊富です。
変換したい文字を入力し、出力したい音声合成タイプ(言語とリージョン -> 日本語 / 音声 -> Mizuki, 女性)を選択し、「音声を聴く」ボタンを押すと入力した文字が音声として、再生されます。

音程等の調整は lexicon と呼ばれる、発音辞書をインポートする事で、より精度のよい音声になるとの事ですが、一般的な日本語であれば比較的に聞き取りやすかったです。

また、マネジメントコンソールからの操作も可能ですが、もちろんCLI形式でも提供されており、要件によっては音声合成を自動化することも可能です。
普段からAWSを利用しているユーザであれば、 polly を利用したい所ではありますね!

VoiceText Web API

 
hoya-voice-text
 
VoiceText Web API | HOYAサービス株式会社
Web API | 製品情報 | HOYA音声合成ソフトウェア VoiceText
 
無料版は利用登録を行うことで、APIキー発行が行われて、利用出来るようになります。
APIも、話者・感情・感情レベル・音の高低・話す速度など、細かくパラメータを指定できるのが魅力的でした。
またlexicon(発音辞書)を利用しなくても、流暢な日本語が聞き取れましたので、簡単に利用したいケースがあれば試してみる価値はありかと思います。

FutureVoice Crayon

 
futurevoice
 
FutureVoice Crayon | NTTアイティ株式会社
 
日本語音声150パターン以上の「話者(声質)」と「口調(話し方)」を自由に組み合わせることが可能。
日本語以外に10言語22話者の外国語の合成音声に対応。

AITalk WebAPI

 
aitalk
 
AIcloud(エーアイクラウド) シリーズ AITalk WebAPI | 株式会社AI(エーアイ)
 
SaaS型高品質音声合成エンジンAITalk® は、日本語話者のバリエーションが豊富で、サービスページから、音声合成デモンストレーションが利用できます。
こちらのサービスも話者・感情・感情レベル・音の高低・話す速度など、細かくパラメータを指定できるのが魅力的でした。
小さいこどもの声なんか聞いていて可愛かったです。

音声合成API NTTドコモ

 
docomo-api
 
音声合成API | docomo Developer support | NTTドコモ
 
「元気なお姉さん」「女の子」「お婆さん」「メイド」「癒やし系お兄さん」「執事」など225種類の合成音声・4種類の合成音声がある。
上記で取り上げた、HOYAサービスさん・NTTアイティさんの声も利用できるようなので、声の種類がとても豊富ですね!

Open JTalk

 
openjtalk
 
Open JTalk – HMM-based Text-to-Speech System
 
日本製のOSS text-to-speech システム
昨年12月に新バージョンがリリースされていて、今後注目のOSSになること間違い無し(!?)

まとめ

海外の音声合成システムは勿論の事、日本語対応した音声合成システムは国内メーカーさんの方が精度は高かったです。
チャットボット・AIとの組み合わせなどで、日本でもいろいろなサービスができそうですね。