ねこでじ(Nekodigi)

Nekodigi’s diary

学習中の気づきをまとめています。応援よろしくお願いします

Neurosamaはたった5分で再現できる!簡単なAI Vtuberの作り方を紹介

デモ

www.youtube.com これは無料で再現ができる作り方なので精度は高くありませんが、工夫次第で格段にリアルにすることができます。 www.youtube.com これは英語ですが、自然な音声モデルを使って回答もよりカスタマイズしたものです。工夫次第ではこれ以上のレベルのものも作れます。

Neurosamaを作ろう!

Neurosamaは一から作るのは大変ですが、ChatGPTなどの既存ツールを使うと驚くほど簡単に作ることができます。 狙い通りの回答を得るためにはかなり技術が必要ですが、ここでは知識不要で作れる最も簡単な方法を紹介します。

作り方

STEP1 アバターの表示

VMagicMirrorを使うと、Webカメラなしでもリアルなキャラの動きを表現できます! booth.pm 公式の解説(日本語) malaybaku.github.io

STEP2 ChatGPTを喋らせる

Talk to ChatGPTというChrome拡張機能をインストールすると、ChatGPTを喋らせることができ音声入力にも対応します。 chrome.google.com 拡張機能を入れた後にChatGPTのページを開くと、右上にスタートボタンが出てくるので押してください。

そのままだと、言語や声の種類がうまく設定されていないので、一番右のボタンをクリックして設定を開いてください。

設定をこのようにすると、おなじみのGoogle先生の声になります。Saveを忘れずに押してください。

ChatGPTで返事が返ってきたときに読み上げられたら成功です。

STEP3 音声を元に口を動かす

読み上げ音声をマイク入力の代わりに使うために、このページからVB-Audioをダウンロードします。 vb-audio.com インストールが終わると、おそらく音声が聞こえなくなると思います。 音声の出力先として(仮想スピーカー)CABLE-Inputを選ぶと、(仮想マイク)CABLE-Outputにつながるという仕組みなのですが、CABLE-Outputの音声を自分が使っているスピーカーで出力しなければ音は聞こえません。
詳細の音声設定を開いて

CABLE Outputをダブルクリックして、Listen to this deviceを押してください。このとき、Playback through this deviceで今使ってるスピーカーを選んでください。

VMagicMirrorでリップシンクをチェックして、CABLE Outputを選択するとパソコンから音が出た時に、口が動くはずです。

STEP4 録画、もしくは配信

OBS Studioを使うと、録画も配信もできます。 VMagicMirrorを映したWindow Captureを用意して

右クリックしてFiltersを押して

左下の+ボタンを押してChromaKeyを追加してください。そうすると緑色の背景が透けるはずです。

これでNeurosamaもどきの制作は完了です!ChatGPTに話しかけるとそれに合わせて喋って動いてくれるようになりました!

さらなるクオリティを求めたい方へ

回答の質向上

ChatGPTのAPIを使うとさらにクオリティの高い回答を得られるのですが、使いこなすのは難しいです。そこで少し人間味もあるNeurosamaに近い回答ができる命令文を公開することにしました! 以下のリンクから開けます。 ChatGPTのAPIを使ったリアルな回答

音声の改善

お金はかかりますがGoogle TTSを使うと、もう少しきれいな音声になります。 Google TTSならNeural2 H Pitch 3.6以上がNeurosamaに近いです。