ぼかりすを聞きにいってきたよ(ちょこっと追加版)

5月30日 今回の研究報告を会社帰りに読んでいて、少し説明不足と思う箇所に追記。

R0010482.JPG
R0010482.JPG posted by (C)Raydive

今日は神戸にいってまいりました。(よくよく考えてみれば神戸っぽい写真全然撮れてない……)
目的はIPSJ SIGMUS: 第75回音楽情報科学研究会への参加。その中でも4月下旬にVOCALOID界隈で物議をかもした「ぼかりす」、VocaListenerのその全貌をしかと見定めるためです。まあ、それ以外にもいくつか見るべきものはあったのですが、このエントリはぼかりすのみで。とりあえず細かな技術的な部分は省略してざくっと書いてみます。ついでに間違ってそうなところがあったらばしばしコメントで指摘しちゃってください。


既にいくつかの情報は出ているので知っている方は多いと思いますが(こことか)、簡単に言ってしまえばVocaListenerは音声合成システムを自然に聞かせるために人が歌った声からパラメータを抽出しそれを音声合成システムに反映するものです(決してVOCALOIDシリーズのみに対応しているというわけではない)。
実は人が歌ってそこからパラメータ推定を行う手法としては以前からあるけど、それでは与えられたパラメータ通りに合成されていないよねー、ということで発表されたのがVocaListener。その結果の一端としてみなさんご存知のあの動画であるわけです。


VocaListenerの特徴としては3つ。

  1. 音声パラメータの反復推定(音高と音量)
  2. 目標歌唱と歌詞の時間的対応付け
  3. 歌唱力補正

1つ1つ簡単に説明していきますと

音声パラメータの反復推定(音高と音量)

今までの手法だとパラメータの推定を一回しか行ってなかったので反復して推定することによって元の信号に近くなるようにパラメータ推定していきます。これによってロバストになり、人から例えばミクに反映するだけでなく、ミクからリン・レンにパラメータの反映を行うことができるようになった。

目標歌唱と歌詞の時間的対応付け

各音韻の長さも推定できる。ここの「あ」はこれだけ伸ばすとか。ただ合成システムの特性でずれがあったり誤りもあったりするので最終的には人手で調整もできます。
追記:ここも反復推定を行い徐々に目標歌唱に近付ける。ユーザが誤りと指摘した場合、いくつかの候補を上げそれでも気に入らない場合は自分で編集できる。

歌唱力補正

大本の歌声が下手でもちゃんと聞けるように補正をかけたり、歌唱スタイルの変更もできる。例としては歌った人本来の音域より高いものを歌わすことができたり、プロっぽく歌わせたりできる。
追記:実はこの部分は使用しなくてもよい。


個人的に「ぼかりす」を初めて聞いたとき「なんじゃこりゃ。どうやって実現してるんだ!?」と思いましたが、発表を聞いていればやはり突然出てきた魔法ではなく、それまでの技術をしっかりと積み重ねてきたんだなぁとい感じました。購入した研究報告も読んでいますが、なるほどこうやって実現してるのねーと地に足をしっかりつけた印象があります。


今後の予定としては、VocaListenerを「歌声研究の基本ツールとして用いる」、「ユーザ支援」の2つの方向を考えられているらしいです。後、質疑応答で「フリーソフトとして公表するの?」と誰しもが気になっている質問がありましたが、特許などの絡みもありいろいろ相談するとのこと。もしかしたら我々の前にVocaListenerを使用したミクやリンレンが近いうちに登場するやもしれませんね。


今回ぼかりす以外にもいろいろと面白いものがあったのですが、それはまた別のエントリ・もしくはニコ部日記に書くつもりです。というわけで今回はここらで終わりっ。

追記〜

ブクマが増えとるな〜とか思ってたらCloseBox and OpenPod > ぼかりすの日のもとに : ITmedia オルタナティブ・ブログで紹介されてた>