23
Deep Voice: Real-time Neural Text-to-Speech Sercan O. Arik, Mike Chrzanowski, Adam Coates, Gregory Diamos, Andrew Gibiansky, Yongguo Kang, Xian Li, John Miller, Andrew Ng, Jonathan Raiman, Shubho Sengupta, Mohammad Shoeybi Baidu Silicon Valley Artificial Intelligence Lab 論文URL https://arxiv.org/pdf/1702.07825.pdf 2017 5/29 B4 幡本昂平 DLゼミ

Deep voice

Embed Size (px)

Citation preview

Page 1: Deep voice

Deep Voice: Real-time Neural Text-to-Speech

Sercan O. Arik, Mike Chrzanowski, Adam Coates, Gregory Diamos, Andrew Gibiansky, Yongguo Kang, Xian Li, John Miller, Andrew Ng,

Jonathan Raiman, Shubho Sengupta, Mohammad Shoeybi

Baidu Silicon Valley Artificial Intelligence Lab

論文URL https://arxiv.org/pdf/1702.07825.pdf

2017 5/29B4 幡本昂平

DLゼミ

Page 2: Deep voice

1/22

論文情報

Author Baidu Silicon Valley Artificial Intelligence Labのメンバー

Submission date [v1] Sat, 25 Feb 2017 03:11:04 GMT (123kb,D) [v2] Tue, 7 Mar 2017 23:09:23 GMT (123kb,D)

現在の状況 Submitted to ICML 2017

5/24にDeep Voice2がarXivに投稿されました(https://arxiv.org/abs/1705.08947)

1

Page 3: Deep voice

2/22

概要

完全にディープニューラルネットワークで構成された製品レベルの text-to-speech(TTS)システムであるDeep Voiceを提案

既存のTTSシステムよりもシンプル・柔軟

改良したWaveNetの高速な実装も合わせて提案今回は紹介しません

2

Page 4: Deep voice

3/22

Introduction

TTSシステムの概要 TTSシステム: テキストから人工の音声を合成するシステム

様々な応用可能性をもつ発話可能デバイスナビゲーションシステム視覚障害者のためのアクセシビリティ

視覚的インタフェースを必要としないヒューマンテクノロジーインタラクションを実現可能

3

Page 5: Deep voice

4/22

Introduction

現在のTTSシステムの問題点複雑で多段階の処理パイプラインに基づいており、その処理それぞれが人手で作られた特徴量・経験則に依存している

新しいTTSシステムを開発するのには大きな労力がかかり難しい

4

Page 6: Deep voice

5/22

Introduction

Deep Voiceは従来のTTSパイプラインと同様の構造を採用し、パイプラインの各構成要素をニューラルネットワークで置き換え、よりシンプルな特徴量を使用

使用している特徴量強さのアノテーションのついた音素音素持続時間基本周波数(F0)

データセットを変えて学習させるときに人力の特徴量加工作業が必要なくなる

5

Page 7: Deep voice

6/22

システムの全体像

6

Page 8: Deep voice

7/22

TTSシステムの構成

Grapheme-to-Phonemeテキストを音素に変換

ex) HARMONY→ HH AA R M AH N IYSegmentation音データ上で音素の境界を推定

7

HH AA

Page 9: Deep voice

8/22

TTSシステムの構成Phoneme duration音素の持続時間を推定

Fundamental frequency音素が発声されるものかどうか予測し、発声されるならその基本周波数を予測

Audio synthesis各要素の出力を受け取って、目的のテキストと合った音声を合成する

8

Page 10: Deep voice

9/22

提案モデル(Grapheme-to-Phoneme Model)

このモデルは音素の辞書(CMUDictなど)に存在していない単語に対して音素の推定を行う

Yao & Zweig(2015)のエンコーダ・デコーダアーキテクチャに基づくモデルを使用変更点Yao & Zweig(2015)ではLSTMをユニットとして利用していたが、ここではGRU(Gated Recurrent Unit)に変更

9

Page 11: Deep voice

10/22

提案モデル(Segmentation Model)

与えられた発声データと目的音素を合わせたものを出力することは、音声認識における音声とテキストを合わせることに似ている

1音素ずつのアライメントでは境界の位置がはっきりしないので、音素のペアを入力としてペアの発声位置をみつける

音素境界認識にも最新の音声認識システムのアーキテクチャ(Amodei et al. 2015)を使用

10

HH AA

Page 12: Deep voice

11/22

提案モデル(Phoneme Duration and Fundamental Frequency Model)

音素持続時間と基本周波数の予測は単一のアーキテクチャを用いて同時に行う

全結合層

全結合層

全結合層

リカレント

リカレント

音素持続時間

発声されるかどうか

基本周波数

強さの位置情報つき音素

11

Page 13: Deep voice

12/22

提案モデル(Audio Synthesis Model)

WaveNetを少し変更したモデルを使用

12

Page 14: Deep voice

13/22

結果

133079の発声からなる約20時間の音声データ含む英語音声データベースを用いて訓練

Blizzard 2013のデータの一部に対しても訓練を行った

いずれの音声データもプロの女性話者によって話されたもの

実装はTensorflowを用いて行われた

13

Page 15: Deep voice

14/22

結果(Segmentation)

訓練環境・時間 TitanX Maxwell GPU × 8を用いて訓練各バッチをGPUで等分に扱い、計算結果の統合には

ring all-reduceを用いた 1イテレーションに1300ミリ秒かかった

結果約14000イテレーション後に音素ペアのerror rateは

7%に収束音素の境界を10-30ミリ秒ずらしても音声の質には影響がなかった

音声の質は音素の境界の正確さにはそれほど影響せず、それほど正確である必要はない

14

Page 16: Deep voice

15/22

結果(Grapheme-to-Phoneme)

CMUDictの単語133854個のうち、数字が入っているもの・複数の発音を持つものなどを除いた124978個を訓練に使用

TitanX Maxwell GPU× 1を用いて訓練

1イテレーションに150ミリ秒かかった

結果約20000イテレーション後、音素error rateは5.8%単語error rateは28.7%に収束

これまで報告されている結果と同等ただし、今回のモデルは言語モデルを用いていない複数の発音を持つものも入っていない

15

Page 17: Deep voice

16/22

結果(Phonome Duration and Fundamental Frequency)

TitanX Maxwell GPU×1を用いて訓練

各イテレーションに120ミリ秒かかった

結果約20000イテレーション後にphonome durationの誤差は38ミリ秒、基本周波数の誤差は29.4Hzに収束

16

Page 18: Deep voice

17/22

結果(Audio Synthesis)

音声データセットを1秒のチャンクに分けて1/4秒の無音部分を音声のはじめにつけて前処理を行った

大部分が無音のチャンクを除いた74348チャンクを最終的に使用

TitanX Maxwell GPU× 8を用いて1チャンク1GPUで訓練

1イテレーションに約450ミリ秒かかった

モデルは約300000イテレーション後に収束

17

Page 19: Deep voice

18/22

生成された音声の質の評価

MOS(mean opinion score)をクラウドソーシングにより計測

音声の事前処理・WaveNetモデル・phonome duration and fundamental frequencyモデルの影響を区別するために、WaveNetに入力する音素持続時間と基本周波数を元音声から算出したものとモデルによって得られたものを入力としたものを含む

評価を行うセットには元音声も含まれているので、MOSスコアは低めに出る

18

Page 20: Deep voice

19/22

生成された音声の質の評価

• 16kHzにダウンサンプリングするとスコアが落ちている→48kHzの音声が最高評価のベースラインになってしまっているから

• 音素持続時間と基本周波数は元音声のものを使うとMOSスコアは高いが、合成したものを使うと評価が低くなっている→より自然な音声合成のための障壁はこれらの予測にあるといえ、その点では提案モデルは過去の結果を超えたとは言い難い

19

Page 21: Deep voice

20/22

Blizzardデータセットに対する結果

提案システムの柔軟性を示すために実験

モデルをBlizzard 2013データセットで再訓練 20.5時間・9714の発声データ

結果 Audio Synthesisに用いたものと同じ評価方法(MOS)を使用

16KHzに圧縮・伸長して得られたMOSスコアは4.65±0.13、合成音声のMOSスコアは2.67±0.37だった

20

Page 22: Deep voice

21/22

結論

Deep Learningを用いた手法で全てニューラルネットワークで作られた高品質なTTSシステムの構成要素を作ることができると示した

人による特徴量加工操作なしで訓練可能なシステムを実現し、TTSシステムを作る過程をシンプルにした

21

Page 23: Deep voice

22/22

今後の展望

各構成要素の区別をなくして完全にend-to-endなTTSシステムをつくる

より大きいデータセットで訓練を行ったり、生成モデルのテクニックを使ってDuration and Frequencyモデルの性能を上げる

22