【前編】Studio One 6の「vocoder」を一生懸命理解してみた！仕組みから各パラメーターを解説！

あばん

アップデートして手に入れたvocoderが…

もーだん

全然理解できません！！

2022年9月に発表されたStudioOne6。

そこに新しく追加されたプラグインである「vocoder」。

新しく使ってみようとしたものの情報が少なく理解にかなりの時間を使いました。

なので私の備忘録を兼ねて共有したいと思います。

Vocoderとは？
各ノブの解説
Pacth Matrixについて
プリセットを解読する
- Pitch系の考察
Volumeについて
まとめ

Vocoderとは？

音声符号化・音声分析合成分野で「音を要素へ分解し再構成するシステム」として発展したボコーダーを「要素を操作して音作りをおこなう機材」として音楽分野へ転用したものがヴォコーダーである。
Wikipediaより引用

私自身あまり馴染みのないエフェクターだったため基礎的な知識の補完から始めました。

参考にしたのはvocoderのWikipediaと公式のヘルプビューワーです。

私のイメージでは「声を楽器（シンセ）の音に変化させる」というイメージでした。

しかし、Wikipediaによると「楽器（シンセ）の音を声っぽく変化させる」と言うのが正しいようです。

念のため引用文を載せておきます。

入力はキャリア（ベーシックな音色）とモジュレータ（変調する音色・音声スペクトル）の2系統。一般的な使い方としては、キャリアにストリングスなどの楽器音を、モジュレータに声を入力する。これによって楽器音を声のスペクトルデータで変調させる。しかし、使用する側としては、声を楽器音として変化させている感覚である。この時の動作は、声の型を取り、楽器音を押し込んでいるようなものである。
まず、モジュレータ（声）を多数のバンドパスフィルタで分解し倍音構成を得る。この倍音構成（帯域毎の量）こそが言葉(「あ」「い」「う」「え」「お」などの音）の特長といえ、固有の音として聞き分けられる。そのため、この倍音構成は「音の特徴を示すデータ」であるといえる。一方、キャリアもまた、モジュレータ同様のバンドパスフィルタで分解され、モジュレータで得られた帯域毎の量に整えられる。結果として、キャリアの特長である音階入力に従った音程と音色にモジュレータ（声）の特徴が反映され、楽器音の声となって出力される。この際、帯域幅を細かく分割、つまりバンド数が多いボコーダーほど言葉が明瞭に聞こえる。
Wikipediaより引用

あばん

全然理解できないんだけど…

もーだん

僕なりの解釈で伝えていくね！！

各ノブの解説

Modulator Envelope

ここでAttackとReleaseを設定します。

シンセサイザーにも付いてるノブと同じように設定できます。

Releaseの長さを短くして歯切れのよい音にするか、長くして滑らかな音にするかを決めていきます。

個人的に声を使う場合は短め（時計で言うと7時～11時ぐらい）が言葉の明瞭度が上がってすっきり聞こえやすくなります。

Carrier Source

ここでは、内蔵音源を使うか外部のソフトシンセを使うかを選べます。

私の場合、MIDIトラックと手持ちのソフトシンセで音作りしたかったので基本的に「Side Chain」で使用していました。

「Internal」で使用すると波形（右から、ノイズ・のこぎり・矩形）や周波数をコントロールして音作りをすることになります。

「Follow」と言うノブは入力レベル別にピッチの動きを加えてくれます。

あばん

正直、使いこなすには難しい部分だと思ったよ…

Unvoiced Replacement

公式によると、無性音（「F」や「S」など）はボコーダー処理が難しいみたいです。

なので、無性音を検知して変換してくれるのがこのセクションになります。

しかし、いろいろ触ってみて私の声や設定では特に違和感は感じられませんでした。

多少聞きやすくなったかな？という程度だったのでプリセット通りに

Noise&Directのどちらかを点灯させ、-42dBに設定していれば大丈夫かなと思います。

Pacth Matrixについて

あばん

ここがこのプラグインの鬼門すぎる…

もーだん

多分画期的で推しの部分なんだろうけどね…

何が起きてるかはすぐになんとなく理解できたのですが改めて言語化しようと思うと非常に難しい。

パッチマトリックスは、ボコーダーのアナライザーセクションからシンセサイザーセクションへのルーティングを指定できる、クリエイティブなツールです。これを行うことで、ボコーダーを使用したボイスの聞きやすさを向上させたり、自然なサウンドをより不自然なサウンドに変えたりすることができます。可能性は無限です。
20のアナライザーバンド出力（マトリックスの一番下で識別可能）は、「ピン」を使用して20のシンセサイザーバンド入力（マトリックス左で識別可能）にパッチできます。デフォルトのマッピングは斜線です（1:1）。
ルーティングはひとつずつクリックするか、クリック&ドラッグでルーティング構成を素早く描画します。
公式ヘルプより引用

私には、基礎的なボコーダーの知識が無かったため理解するとっかかりがないまま解説が進んでいってしましました。

出来るだけわかりやすく勉強の結果をお伝えしたいと思います。

動作のおさらい

Vocoderとは…？

2つの入力信号を組み合わせて新しいサウンドを生み出すエフェクト

1つの信号はキャリア、もうひとつはモジュレーターです。

キャリアとは楽器（シンセ）の音のことでメインの音色や音程を担当します。

モジュレーターとは一般的に声のことです。少し丁寧に言うと「声の倍音構成」のことです。

拙いイラストで申し訳ないですが、簡略化するとこんな感じかなと。

ノートPCが「楽器の音（キャリア）」でマイクが「声（モジュレーター）」

この操作を順で見ていくと

声の倍音構成といった声のデータを輪郭として抽出

楽器の音をその輪郭に当てはめる

声っぽいシンセの音が鳴る

となります。

縦軸と横軸

赤枠の縦軸が入力でキャリア（楽器）側の周波数

黄色の横枠が出力でモジュレーター（声）側の周波数

横軸の数字は縦軸の周波数と対応しています。（1=140、2=250、3=350……20=7k5という感じ）

縦軸の楽器の音を横軸のどの周波数に送るか？を選べるルーティングになっているのではないかと思いました。

ルーティングを縦横1列にすると理解しやすいと思います。

ルーティングを画像のように縦一列にした場合くぐもって聞こえます。

EQで見てみると570~580Hzぐらいの音に集中しています。

先述した通り縦横の周波数は対応していると考えられるので5=570Hzの音が鳴っています。

つまりシンセの各周波数の音（縦軸）を570Hz周辺の声の輪郭（横軸）に全部当てはめたのでこのような音になったと考えられます。

逆の場合も試してみます。

横1列の場合を考えてみると、先ほどとは違いシンセの音が聞き取れます。

ちなみにEQで見ると下記のようになっており幅広い帯域で鳴っています。

つまりこれは、570Hz周辺のシンセの音を各周波数の音の輪郭に当てはめた結果となります。

しかしこれはvocoderに求める音の変化ではないと思います。

次項でなぜこうなったのかを考察していきます。

vocoderの本領はどこか

なぜ前項のように、声の輪郭の全周波数に音をルーティングしたのにシンセの音しか聞こえなかったのか？

この疑問を解決するためにまずは下記をご視聴ください。

これは1:1のデフォルトのマッピングです（斜線状態）。

この場合、言葉も聞き取れるしいわゆるvocoderとしての機能を理解できます。

逆の斜線も試してみました。

この場合、何か言葉を発していることは分かりますが明瞭さには欠けます。

ここからわかることは、

それぞれ対応した周波数にマッピングを行うと自然で明瞭な言葉が聞こえる。（1=140Hz、2=250Hz…）

なので声の印象を残したいのであれば、左下から右上への直線的なマッピングを守る。

逆に不自然さや飛び道具として声の印象を遠ざけたいのであれば直線的なマッピングは避けるべきということになります。

プリセットを解読する

Pitch系の考察

上記の考察をより確かにするものはプリセットにある「Pitch Down&Up」です。

それぞれのマッピングと音を聞いていきましょう。

※Down -1

※Down -2

※Up +1

※Up +2

上記4種類のプリセットはすべて左下から右上へのマッピングを基本としていますが両端が少しずつ違います。

遡りつつ見て貰えると嬉しいのですが、例えば縦軸の「1k0」のマッピングはデフォルトの場合横軸の「8」に該当します。

これは声の輪郭にとって、あるべき周波数の音なので自然に聞こえます。

しかし各プリセットを見ていくと、

Down-1の場合「7」、Down-2の場合「6」、Up+1の場合「９」、Up+2の場合「10」となっています。

ここからわかることは、1:1で対応していたあるべき周波数から横軸の数字を少なくすると低く聞こえ、逆に多くすると高く聞こえるということです。

Volumeについて

パネル上の「Volume」ボタンを押すと緑色のマッピングへと変わるので角周波数ごとに音量を変えることが出来ます。

今回の実験では周波数帯域やプリセットごとに違いをきたさない様にするためにすべての帯域の音量を同じに設定してました。

Volumeの設定でより音作りの幅が広がりますし、ほかのプリセットでも帯域ごとに音量を変化させて人間の声からより乖離したものも多く収録されています。

まとめ

いかがでしたでしょうか？

かなりボリュームがある記事となりました。

これらは私自身が調べたり試したりしながら至った一つの考え方ですので、間違い等もあると思います。

しかし、この記事が皆さんの理解の一助になれればと思います。

今一度まとめると、

縦軸と横軸はキャリアとモジュレーターの周波数である

1:1の斜線は自然な声の変化を聞き取れる

あるべき周波数から左右に移動させると声の重心が変わる

ということになるでしょうか？

次回の記事ではこれらを踏まえて実際に曲作りの中での実例を紹介していきます。

後編は下記になります。

DTM 使い方初心者

【前編】Studio One 6の「vocoder」を一生懸命理解してみた！仕組みから各パラメーターを解説！

Vocoderとは？