音声合成ソフト「CeVIO AI」でテキスト読みあげ

小春六花

原稿の読みあげをやってもらおうと考え、音声合成ソフト「CeVIO AI （チェビオエーアイ）トークエディタと、トークボイス「小春六花（こはるりっか）」を購入した。

ヤマハの開発した音声合成システム「VOCALOID」に対応した初音ミクが登場し、音声合成が爆発的に普及したのが2007年（平成19年）8月――。

種別	音声合成ソフト
価格	16,918円（ダウンロード版）
動作環境	Windows 11 / 10 / 8.1 (64bit)
販売	株式会社AHS
公式サイト	https://www.ah-soft.com/cevio/rikka/
最新バージョン	9.1.17.0（2024年11月14日）

作例

音声合成技術

CeVIO Vision

名古屋工業大学では、UGC（User Generated Contents、ユーザー生成コンテンツ）を支援し、新しいエンターテインメントを創出するためのプロジェクトが誕生し、学内ベンチャー企業のブイシンクが、キャラクターとの双方向なやりとりが可能な音声デジタルサイネージ（電子看板）を登場させた。これが CeVIO Vision （チェビオビジョン）である。
2013年（平成25年）1月22日から1年間、アニメイト秋葉原店の入り口横で稼働した。等身大の2次元キャラ「さとうささら」が、アニメイトの情報を音声で案内するほか、お客さんとのインタラクティブな音声対話もできる。

CeVIO Visionは、名古屋工業大学で研究開発された対話型エージェントシステム「MMDAgent」――後述する MikuMikuDance（MMD）を利用――がベースになっており、Windowsを使い、Kinect V2を利用したリアルタイムモーション検出に対応する。

さとうさらら

2013年（平成25年）4月、名古屋工業大学学内ベンチャー企業のテクノスピーチが CeVIO Creative Studio （チェビオクリエイティブスタジオ）を発表する。
既存の VOCALOID や UTAU、VOICEROID といった音声合成ソフトは波形接続型音声合成方式を採用している――それゆえ、読みあげより歌う方が得意――が、CeVIO Creative Studioは、隠れマルコフモデル（HMM；Hidden Markov Model）を音声合成に用いている。
隠れマルコフモデルの理論については専門サイトに譲るが、簡単に書けば、VOICEROIDなどがサンプリング音源で発生していたのに対し、CeVIO Creative Studioは発声の仕組みをリアルタイム演算し、音声をシミュレーション出力する。したがって、音源データをコンパクトにすることが可能で、同じ音源データから読みあげると歌うことの両方が実現できる。

CeVIO Visionを開発したブイシンクは、CeVIO Creative Studioのエディタを開発し、使いやすいGUIをもったソフトウェアとして、まず、さとうさららのトークのみをフリーソフトとして配布し、5ヶ月後に製品版の販売となった。

ライセンスについても、二次利用を前提に、CeVIO Creative Studioとボイス・ライブラリに分けて考えられている。CeVIO Creative Studioについては、商業利用は規約に基づいたライセンスが、個人利用については規約の範囲を超えない限りで同人活動を認めている。サードパーティ製ボイス・ライブラリは、販売店のライセンスにもとづくとしている。

小春六花

CeVIO Creative Studioの特徴を受け継ぎ、音声合成に、ディープニューラルネットワークや回帰型ニューラルネットワークといったAI技術を導入したものが CeVIO AI である。2021年（令和3年）1月にリリースされた。

実際の音声を学習データとして取り込んだAIが、入力された台詞や楽譜データをもとに、本人らしい声質や歌い方を自動でシミュレーションすることで人間による歌声・話し声をリアルに再現する。さらに、畳み込みニューラルネットワークを使って計算量を削減している。CeVIO Creative Studioとボイス・ライブラリの互換性はない。

また、キャラクターのMMD（MikuMikuDance）データファイルが付属しており、3Dモデルを操作して、そのキャラクターに喋らせたり踊らせることが簡単にできる。

それでは、上述の作例を作る工程を紹介しよう――。

読みあげビデオ作成工程

音声ファイルの作成

CeVIO AI トークエディタ

まず、音声ファイルの作成だが、これは CeVIO AI トークエディタを使って行う。上図のようにGUIを使って音声を作っていく。
かな漢字テキストを流し込み、読みが登録されていない漢字については、アクセントと合わせて辞書登録が可能。文節のアクセントは画面の下の方で、読むスピードや声質、抑揚、感情表現などは右側のスライダーを使って調整する。
出力はWAV形式ファイルである。

音声ファイルの加工

SoundEngine Free

CeVIO AI トークエディタが出力するWAVファイルは48kHz、16ビットで、このままでは後工程のソフトにインポートすることができない。
そこで、SoundEngine Free を使い、44.1kHz、16ビットにダウンサイジングするとともに、音量をノーマライズする。

3Dデータの準備

PmxEditor

次に、作成した音声に合うように小春六花を口パクさせるのだが、その前に、PmxEditor を使い、必要な3Dデータを用意する。
まず、トークボイス「小春六花」に付属する "小春六花.pmx" をインポートする。

PmxEditor

タブ[モーフ]を選択し、「あ～お」を複製する。一番下に複製したモーフができるので、「band1～5」にリネームし保存しておく。保存したファイルは、別のプロジェクトにも利用できる。

口パクさせる

VMDSpectrum

VMDSpectrum を使って口パクの3Dデータを生成する。
SoundEngine Free で作成したWAVファイルを読み込む。バンド数を5に変更し、モーション保存する。

MikuMikuDance（MMD）

SoundEngine Free

MikuMikuDance（MMD）を使って、SoundEngine Free で作成した音声データと、VMDSpectrum を使って作った小春六花の口パクデータを合成する。ここで、まばたきや呼吸モーションを加えると、キャラクターが自然に読み上げているように見える。最終工程で別の動画を合成する関係上、グリーンバックにしてある。
MMDの使い方については、公式サイトやネット上のTIPSをご覧いただきたい。