今や色々な場所で活躍している自動生成AI
イラストや写真などデザインやグラフィックだけでなく、体系などから似合うファッションや靴を選んでくれたりと非常に活躍シーンを見かけるようになりました。
確かにこれでは人間の活躍の場が奪われ、職業がAIに独占されてしまうというのもよくわかる。
前回、音楽自動生成AIの話をしましたが、今回は「SUNO」を触ってみて感じたことを記録に残そうと思います。
世界各国から利用者が訪れるため、すごい数の音楽が毎日公開されていますが、あくまで公開設定された音楽なため、制作していて非公開のままのものもあるでしょうから、生成された数はもっとあるでしょう。
それほど完成度が高く、利用者の満足度も高いんでしょうね。
完成された音楽は自動で作られたものとしては思えないほどの良さ。
音質は少し劣化されたような感じに聞こえるので、マスタリングまでは期待しない方が良いかも知れません。
歌入り、インストどちらも好みに作成できます。しかし、歌もののつもりで作ったのに、詳細指示するプロンプトによってインストの曲が出来上がったことは何度かあります。
歌ものに関して日本語の対応もしているので、日本語歌詞を入力するとちゃんと日本語で歌ってくれます。歌うタイミングなどは自動で考えてくれますが、このSUNOすごいと驚いたのは漢字を入れてもちゃんと理解し、前後の文脈を判断し、読み方もちゃんとしてくれます。
また、スローテンポでムードのある曲を作ろうとした場合、歌う声はちゃんと張り上げず吐息が多めの優しい歌い方だったりと雰囲気は素晴らしかったです。これがボカロのようなソフトを導入しているとするなら、このような技術は自分も学びたいところです。
自動生成にも弱い部分はある
さて、ここからはSUNOに作らせるとして難しいと思ったところを書き残します。
希望する雰囲気になるとは限らない
明るめの曲がいい、ちょっと暗めがいいといった感じの曲調に思った通りになるとは限りません。歌詞の内容にちょっと切ない思いのセリフを入れてみたところで、少し暗めのコード進行になるといった期待はしない方がいいです。
生成時間がまちまち
最長2分と聞きましたが、いざ生成してみるとサビ歌い終わった瞬間に切れて1分も満たさなかったこともあれば、サビ歌い終わり、その後間奏が続き2分まで行ったというのもありました。どこまで作ってくれるのかもサービス側の気分次第?
思ったタイミングでの発音は指定できない
メロディーの自動生成に合わせて発音を合わせるようで、歌詞の内容よりも発音数で当てはめてる感の方が強かったイメージです。そのため、Aメロのフレーズ中にBメロ最初が含まれたり、Bメロの中にサビの歌詞まで持っていかれ、サビが一行歌われただけで終わったということもしばしば。
楽器の音色数は多くないかも
EDM系の曲を作るプロンプトを入力して何曲が作ってみましたが、メロディーとなる部分は結構な確率で同じような音色を使われてました。演奏技術は良かったものの、音が同じようなものだったため、アレンジとしては物足りなかった気がします。
ドラムも幾度もスネアやバスドラは同じものばかりで、他のパターンも聞いてみたかったです。
プロンプトの種類の情報が少ない
どのような曲をつくるかはプロンプトと呼ばれる命令文が重要だというのはよくわかるのですが、どのように指示するべきかという情報が少ないです。
ちなみに自動でお任せするときにそのプロンプトもお任せで自動入力することもできるのですが、いたってシンプルなものばかり。
例: progressive jazz、smooth bedroom pop、epic country
ヘルプを見てみると感情やジャンルを入力してくださいみたいなことが表示されました。そういうことで、音楽ジャンルと感情に関わる単語を入力することが重要になります。
今のところ公式が発表している音楽ジャンルは以下のようですが、おそらく更新はしておらず他にもあるようです。
Acoustic、African、Alternative metal、Alternative pop、Ambient、Atlanta rap、Ballad、Baroque、Blues、Boom bap、Cello、Chill、Christian & Gospel、Christmas、Country & Americana、Dance & Electronic、Drums、EDM、Girl group、Gospel、Hardcore rap、Heavy metal、Hip hop、Indie、Indie rock、J-pop、Jazz、K-pop、Lo-fi、Orchestra 、Party、Piano、Pop、Pop-Rock、Post-Hardcore、Punk Rock、R&B、R&B & Soul、Rap、Reggae、Rock、Romantic、Soul、Synth、Synth pop、Techno、Trap、Violin
感情に関しては分かりませんでした。入力する形式も文章的な方法が良いのか、単語を並べる方が良いのか、また、単語の区切りは空白なのかドットなのかカンマなのかも分かりません。
これといった詳しい入力の方法の情報があまり出回っておらず、ネット上で調べても大抵はこんな感じでプロンプト入力しましたみたいな感じでした。
実際は本当にその人次第で入力するのが正しいのかもしれませんw
まとめ
とても高機能で素晴らしい音楽自動生成とは思いましたが、出来上がったものが製品化できるものかと聞かれればそれは無理かなと思いました。
ここをああしたい、こうしたいという要望を聞かれればその部分のみを変更したり加工したりできるのはやはり人の手だと思います。人の言葉を理解できるのはやはり人。そう思えればAIに仕事を奪われるというのはまだまだ当分先の事、もしくは奪われること自体難しくてなくなりそうですね。