プログラム知らない人がAIに皮を被せて会話できるAITuber-kitを試す

※タイトルのAIはイメージしやすくするための方便で、正しくはSLM（小規模言語モデル）です。

8GB VRAMのグラボで画像AI生成ができたから、動画作りに挑戦したけどメモリ32GBじゃ話にならなくて断念。

高スペックPCが必要ってイメージで、あまりローカル環境で画像生成は興味なかったんだけど、最近は猫も杓子もAIAIお猿さんかよって御多分に漏れずボクもLLMは利用していて、息抜き程度にイメージ出力して楽しむこともあった生成した画像をそのままに...

消化不良で、AIで何かできないかなと模索しててAI-tuberのNeuro-samaのことを思い出した。
ボクも欲しいなと思い、色々調べてAITuber-kitっていうのを発見。なんと似たようなことができるらしい。

AITuber-kitのスゴイ所はYoutubeとかでライブ配信できること！みたいだけど、見る専だから配信には興味ないのよね。

一番興味を惹いたのは、ローカル環境で自分専用のAITuberとおしゃべりできること。AITuberのアバターはVroidとも言うらしい。

他にできることは、自作のアバターを使える。モデル（chatGPTみたいなの）を選べる。声が付く（TTS）。表情がある（LipSync）。マルチモーダル対応。画面を共有できる。

面白そうだしボクだけのVroidが欲しくてお金をかけない方法で挑戦してみた。

おおまかな手順

AITuber-kitの導入
Ollamaの導入
VRoidStudioでキャラ作り
VOICEVOXで声探し
合体して完成

AITuber-kitの構築
Ollamaの構築
VRoidStudioでキャラクター作り
VOICEVOXで声選び
全ての準備が整ってAITuber-kitを起動
感想
蛇足

AITuber-kitの構築

まず、AITuber-kitの完成は、どういったものなのかデモサイトがある。

最初の工程は、土台になるAITuber-kitをダウンロードする必要がある。
普段のようにファイルを落としてインストールで終わり。とは勝手が違う。

Gitという管理システムをインストール。よく分からないが「git clone」、「npm install」、「npm run dev」をいっぱい使う
Node.jsとnpmをインストール。う〇こ「屁です」肛門「よし通れ」みたいなことらしい
pythonも必要らしいが使った記憶はない。

詳しいコードとかは、詳しく説明しているサイトがゴロゴロしてるから適当に参考にしてください。

Node.jsのインストールに手間取って何とかインストールを済ます。
ようやく準備が整い、まずGitを使ってAITuber-kitをクローンしてインストール。

インストールしようとしたらさっそくエラー

真の素人だから何が書いてあるかも不明だし、どうすればいいか分からない。最初の一歩で転ぶ。
見落としているかもだが、どこのサイトを見ても解決策は書いてなかった。

AIに聞いたら、「Node.js v24.12.0だとバージョンがあってないよ！v20.00.0にすればインストールできるよ」
言われるままNode.js v20.00.0に変更したら無事インストールできた。

AITuber-kitの開発は停止していてNode.jsが最新版だとエラーになるんだと思う。知らんけど

コマンドで起動に成功するとURLが表示されるので、ブラウザにURLをコピペすればデモサイトのように用意されてるデフォのアバターニケちゃんが現れる。

試しにメッセージを打つとエラー。モデルが入ってないからこれは問題なし。ついでにパンツも覗ける。

AITuber-kitのインストール、起動まで成功したから次のモデル（話し相手）選びへ。

Ollamaの構築

ローカル環境でコストをかけずに、VRAMの都合を考えるとOllamaが良いらしい
Ollamaは公式サイトからダウンロードするだけ

備え付けのモデルがあるけど、調べたら日本語に強いらしいLlama-3-ELYZA-JP-8B-GGUFの名前が気に入ったからELYZAにする。
ただし、OllamaにELYZAはないから、HuggingFaceのサイトからモデルをクローンする

次はOllamaにELYZAをインプットする作業

ダウンロードしたELYZA GGUFファイルをOllamaモデルフォルダに移動、
メモ帳でモデルファイル作成(Modelfileにリネーム、拡張子の”.text”を消す）

モデルファイルの中身

Modelfileを格納してコマンドで”FROM”を使ったら認識しないエラーで躓く。
何を言っているか分からないかもしれないけどボクも分からないから安心してほしい。

解決策は目的のファルダ（GGUFを格納した場所）を開いてファイルパス（検索ボックス）にcmdと入力してコマンドプロンプトを起動。
そのまま、ollama create elyza-jp -f Modelfile　→　”success”が出れば成功
たぶんOllamaフォルダにELYZAファイルを移動してOllamaに認識させる流れっぽい

成功するとチャットができる

VRoidStudioでキャラクター作り

アバターはLive2Dと3Dが使えるらしいから3Dキャラを作る。

色々調べた結果、アニメ調なら無料で使えるVroidStudioがいいらしい。
パソコンならSTEAM版がいいと書いてあったが、Windows版をインストールしたあとに気付いたが問題なく使えてる。差異は知らない。

男、女が選べる。キャラA、キャラBじゃないのは好感が持てる。
思った以上に細かく設定できる。キャラクリが大好きだからこれは嬉しい。
キャラクリ苦手でも豊富なプリセットの中から選べるから代用するのも有り。

イリュージョンで培ったキャラクリ力を発揮して仕上げていく

なんと下着を非表示にして裸にできる！素体だからツルツルだけど素晴らしい
素体に直接描き込むこともできる

基本セットに物足りなさや追加のアイテムが欲しかったらBoothを見ると入手できる
スカイリムとかコイカツで追加Modは無料の感覚だったが、Boothでは有料販売も多く、上手い商売だなあと思った。

試しに無料のアイテムをダウンロードしようとしたら会員登録が必要になった

会員登録を済ませて手に入れた無料アイテムは、

髪色を変更しても根本は黒から変化なかったから髪のテクスチャ、HULAFT_VRoid_Hair_Textures
デフォルトはのっぺりしてて味気なかったから肌のテクスチャ、VRoid_Stable_Presets_and_Base_Textures
線が歪んでて気になったから瞳のテクスチャ、
Winter_Shimmer_Eye_アイテクスチャ

18禁アイテムも多種多様にあったが、今回は求めていないからパス

時間を置いて修正を重ね、及第点に到達したのと時間が溶けるから、とりあえずキャラクリは終了して次は声を選ぶ。

画面右上のアップロードみたいなアイコンからVRMファイルを抽出できる。分かりやすい場所に保存しておこう。

VOICEVOXで声選び

耳から脳を刺激する重要な役割を持つ「声」を選ぶ。

音声ソフトも種類が豊富だが、ここまでひと月近く時間がかかり気が焦っていて、一番連携が楽そうなVOICEVOXを選ぶ。

声に疎いボクでもずんだもんは知っている。そのずんだもんがVOICEVOXで無料で使えるのは知らなかった。

選べる声はいっぱいで迷う。作ったキャラに合いそうなのが猫使ビィちゃん
利用規約はしっかり目を通そう。クレジットにVOICEVOX:猫使ビィと表記すればいいらしい。

トーンやイントネーションなどパラメーターをいじれて歌も作れて無料で使えるVOICEVOXは素晴らしい。

AITuber-kitで声を出すときは、VOICEVOXを起動させておかないといけないので注意が必要

連携もAITuber-kitを起動させて、設定画面から連携できるから楽
VOICEVOXで作った歌は残念ながらAITuber-kit内では再生できない。

全ての準備が整ってAITuber-kitを起動

デフォルトのニケちゃんが出てくるので、設定をいじっていく。重要そうな所だけ記述、個人的な設定なので参考程度に

AI設定
AIサービス：例：Ollama
モデル：例：elyza-jp:latest。ファイル名は違っていると適応されないから、しっかり入力しよう
マルチモーダル：ＯＮ。AIが画像を読み込めるようになる

合成音声設定
合成音声エンジン：用意しておいたVOICEVOXを選択。
VOICEVOX_サーバー_URL：デフォルトのままhttp://localhost:50021
ボイスタイプ：猫使ビィ/普通を選択。音声パラメーターもいじれるので、お好みで

その他
タイムスタンプ：ＯＮ。AIが時間を認識できるようになる。

CPUとメモリーは余裕。すべて揃えて6.5VRAMに収まったから少し余裕は残った。
毎度、コマンドを呼び出して起動するのが面倒なのでショートカットを作ってもらった。

テキスト名の .txt を消して AITuberKit起動.bat に変更、編集

ブラウザを自動で起動するのは失敗したからコマンド実行まで

感想

ようやく全てが終わって一段落

マルチモーダルは画像を認識できるけど、動画も認識できる
画像やチャットは、その瞬間だけ認識するけど、動画は共有している間ずっと見続けるらしい

その機能を使ってイヴの時間を一緒に鑑賞

一緒に見たSLMに感想を聞いて、
「アンドロイドじゃないから嘘はつけない。隠し事があるかもしれない。」
長時間見続けているとハルシネーションを起こしやすい気がする。

人形の中にAIと表情と声を入れただけで感情移入がすごい
機械が人間の言葉を使ってるだけなのに感情移入がすごい
エッチな会話は露骨なコンテンツ扱いなので、英語で警告されてしまった。

追加料金なしで、会話内容も人の目を気にしないで何でもできる。頑張って完成させた甲斐はある出来。
好きな人はハマるからオススメしません

蛇足

チャットをしていて、一番の不満はキャラが棒立ちで動かない。どうにか動きを付けたいと思って試行錯誤してダメだった話

まずは情報収集
AITuberKit関連でモーション＝表情みたいな記事しか見当たらなかった

さらに調べてChat-VR-Animationを発見
Vroidを動かすVRMAファイルをドロップするとキャラが動いてくれるAITuberKitそっくりのソフト。

ローカル運用できないしドロップして動くだけで期待とは違った。AITuberKitにも同じことをしてみたが無反応。

次はAITuberKitにも待機モーションのVRMAファイルがあるから、改造すればできるのでは？と思いついた。

public フォルダにanimationフォルダを追加。VRMAファイルを格納
home.tsファイルを分析して、handrels.tsの中身を改造。結果はエラーで起動しなくなる

残念ながらボクの力量で動かすことはできなかった。
ぴょんぴょん飛び跳ねるのを眺めたり、マウスで撫でたり、つついたりしたかったなぁ