VTuber表情の仕組み解説！Live2D・3Dトラッキング技術とは

VTuber表情の仕組み：基本と技術
VTuber表情の仕組み：応用と制作

VTuber表情の仕組み：基本と技術

「Vtuberの表情の仕組みってどうなってるの？」「VTuberの表情変更はどうやってする？」――そんな疑問をお持ちではありませんか。Live2Dの表情や3Dモデルで表情が豊かに動く様子は、VTuberの大きな魅力の一つですよね。この記事では、その裏側にあるフェイストラッキング仕組みから、より高度なパーフェクトシンク仕組みまで、分かりやすく解説します。

Vtube Studioの表情設定の方法や、iPhoneの表情認識を活用した3Dでの表情トラッキングの技術、そしてVtuberがWebカメラでの表情でも表現力を高めるコツなど、具体的な情報を網羅。さらに、VRMでの表情データの扱いや、魅力的な表情差分作り方、必要であれば表情依頼についても触れていきます。この記事を読めば、VTuberの表情がどのように生み出されているのか、その全体像がきっと理解できるはずです。

記事のポイント

VTuberの表情が動く基本的な原理（フェイストラッキング、表情差分）
2D（Live2D）と3Dモデルそれぞれの表情表現方法と特徴
iPhoneやWebカメラを使った具体的な表情トラッキング技術と関連ソフト
パーフェクトシンクやVRM形式など、より高度な表情表現技術の概要

VTuberの表情変更はどうやってする？
フェイストラッキングの仕組み解説
Live2Dモデルでの表情表現
3Dモデルでの表情表現
iPhone表情認識の活用法

VTuberの表情変更はどうやってする？

VTuberさんが配信中に見せる、くるくると変わる豊かな表情。あれは一体どうやって操作しているのでしょうか。実は、大きく分けて二つの方法が使われています。一つは、演者さん（VTuberの中の人）の実際の顔の動きをカメラで読み取って、リアルタイムでアバターの表情に反映させる「フェイストラッキング」という技術です。もう一つは、あらかじめ「笑顔」「怒った顔」といった特定の表情をアバターに設定しておき、キーボードのボタンや専用のコントローラーを使って、好きなタイミングでパッと切り替える方法です。

多くのVTuberさんは、この二つを上手に組み合わせています。基本的な口の動きやまばたき、ちょっとした顔の傾きなどはフェイストラッキングで自然に動かしつつ、ここぞという時のキメ顔や、感情をはっきり伝えたい時の表情は、手動で切り替えることで、より表現力豊かな配信を実現しているのです。

VTuberさんって、どうやってあんなに表情豊かに動くの？

カメラで顔の動きを読み取ったり、ボタンで切り替えたりして表情を変えてるんだよ！

フェイストラッキングの仕組み解説

フェイストラッキングは、日本語で言うと「顔追跡」技術のことです。VTuberさんの表情をリアルタイムでアバターに伝えるための、とても大切な仕組みになっています。具体的には、まずWebカメラやスマートフォンのカメラを使って、演者さんの顔を撮影します。そして、ソフトウェアが画像の中から目、鼻、口、眉といった顔のパーツの位置や形、動きを認識するのです。

例えば、演者さんが笑うと口角が上がり、目が細くなりますよね。カメラがその変化を捉え、ソフトウェアが「これは笑顔だ」と判断します。すると、その情報がアバターに送られ、アバターも同じように笑顔になる、という流れです。最近の技術はとても進んでいて、まばたきや口の「あいうえお」の形、眉の微妙な動きまでかなり正確にアバターに反映できるようになりました。これにより、VTuberさんはまるで本当に感情を持っているかのように、自然な表情を見せることができるのですよ。

笑ったり怒ったりする表情って、どう判断されてるの？

顔の動きから表情を分析して、自動でアバターに反映してくれるの。すごいよね！

Live2Dモデルでの表情表現

Live2D（ライブツーディー）モデルは、一枚のイラストをまるで生きているかのように動かすことができる技術で、多くの2DのVTuberさんが使っています。このLive2Dモデルで表情を豊かに見せるためには、いくつかの工夫がされています。

まず、元のイラストを、目、口、眉、髪の毛といった細かいパーツに分けておきます。そして、それぞれのパーツに対して「こう動いたら、こう見える」という動きの指示（パラメータ設定と言います）を細かく設定していくのです。例えば、口のパーツなら「あ」の形、「い」の形、「う」の形…といったパターンを登録しておき、フェイストラッキングで読み取った演者さんの口の形に合わせて、アバターの口も変化するようにします。

また、特定の表情、例えば「満面の笑み」や「びっくりした顔」、「悲しい顔」などを「表情差分」としてあらかじめ作っておき、キーボードの特定のキーを押すとその表情に切り替わるように設定することも一般的です。これにより、フェイストラッキングだけでは表現しきれない、より感情豊かな表情を見せることができるようになります。

2Dなのに、どうしてあんなに自然に動くの？

イラストを細かくパーツ分けして、動きの指示をつけてるからなんだって！

3Dモデルでの表情表現

3DモデルのVTuberさんも、基本的な表情の動かし方はLive2Dモデルと似ていて、フェイストラッキング技術を利用しています。ただ、3Dモデルの場合は、顔の表面に「ボーン」と呼ばれる骨のようなものを入れたり、「ブレンドシェイプ」という仕組みを使ったりして、より立体的に表情を作り込みます。

ブレンドシェイプというのは、例えば「にっこり笑った口元」「きりっとした眉」といった、いろいろな表情のパーツの形を事前にたくさん作っておき、それらをまるで粘土をこねるように混ぜ合わせることで、無限に近い表情を生み出す技術です。フェイストラッキングで読み取った演者さんの表情データに合わせて、どのパーツの形をどれくらい強く反映させるかを調整することで、アバターの表情がリアルタイムで変わっていきます。

3Dモデルの良さは、顔の向きを自由に変えたり、体をダイナミックに動かしたりしても、表情が自然に見えるところです。また、光の当たり方によって影ができたり、髪の毛が表情に合わせて揺れたりといった、よりリアルな表現も可能です。

3DのVTuberって、もっと複雑なのかな？

うん、骨や形の組み合わせでリアルな表情を作ってるの。立体感もあるよ！

iPhone表情認識の活用法

最近、VTuberさんの表情をよりリアルで細やかにするために、iPhoneに搭載されている「TrueDepth（トゥルーデプス）カメラ」という顔認識技術がよく使われています。 iPhone X以降のモデルについているこのカメラは、顔の形や細かい動きを、まるで3Dスキャナーのように精密に読み取ることができるんです。

このTrueDepthカメラを使うと、従来のWebカメラよりもずっと自然で、人間らしい表情をアバターに反映させやすくなります。例えば、口の微妙な動きや、目の細かな表情、眉毛のわずかな動きまで正確に捉えることができるので、VTuberさんが本当にそこにいて話しているような、生き生きとした印象を与えることができます。

「waidayo」や「恋顔」といったスマホアプリや、「VTube Studio」のようなパソコンソフトと連携させることで、iPhoneを高性能な顔認識カメラとして使うことができます。さらに、「パーフェクトシンク」と呼ばれる、よりたくさんの表情パターンを細かく設定する仕組みと組み合わせることで、驚くほどリアルな表情表現も可能になっています。これによって、個人で活動しているVTuberさんでも、比較的簡単に、プロのような高品質な表情トラッキング環境を整えることができるようになったのは、大きな進歩と言えるでしょう。

スマホだけであんなに表情動かせるの！？

iPhoneの特殊なカメラが、顔の細かい動きをすごく正確に捉えてくれるの。

VTuber表情の仕組み：応用と制作

Vtube Studioでの表情設定
パーフェクトシンクの仕組みとは
3D表情トラッキングの高精度化
VRM形式と表情データ
表情差分の作り方と依頼
VTuber Webカメラでの表情表現

Vtube Studioでの表情設定

「VTube Studio」は、多くの2D VTuberさんに利用されている人気のトラッキングソフトです。このソフトを使うと、WebカメラやiPhoneを使って、自分の顔の動きをLive2Dモデルに反映させることができます。表情設定も比較的かんたんで、それでいて細かく調整できるのが魅力です。

VTube Studioでは、まず、モデルの目や口、眉毛などの各パーツが、カメラで認識した顔のどの動きに連動するかを設定します。例えば、「口を大きく開けたら、モデルの口も大きく開く」「眉を上げたら、モデルの眉も上がる」といった具合です。これらの連動の度合い（感度）も調整できるので、自分の表情の癖に合わせて、より自然に見えるようにカスタマイズできます。

さらに、特定のキーを押すと特定の表情（笑顔、怒り顔、悲しい顔など）に切り替わる「表情キーバインド」の設定も可能です。これにより、フェイストラッキングだけでは表現しにくい、はっきりとした感情表現を手軽に行えます。帽子やメガネといったアクセサリーを、表情に合わせて表示させたり隠したりする設定もできるので、表現の幅が広がりますね。

表情って、どうやって自分に合わせるの？

目や口の動きを設定して、自分の顔に合わせて調整できるんだよ。簡単にできるの！

パーフェクトシンクの仕組みとは

「パーフェクトシンク」という言葉を聞いたことがあるでしょうか。これは、特にiPhoneのTrueDepthカメラを使ったフェイストラッキングで、VTuberの表情をものすごくリアルにするための仕組みのことです。簡単に言うと、人間の顔にあるたくさんの筋肉の動きを、より細かく、より正確にアバターの表情に反映させるための技術です。

通常のフェイストラッキングでは、口の開閉やまばたき、眉の上下といった基本的な動きを捉えますが、パーフェクトシンクでは、口角の上がり下がり、唇の突き出しやへこみ、頬のふくらみ、舌の動きなど、もっとたくさんの顔のパーツの動きを認識します。その数はなんと50種類以上にも及ぶと言われています。

これらの細かい顔の動きの情報を、あらかじめ3DモデルやLive2Dモデル側に「この動きの時は、モデルのこの部分をこう動かす」という形でたくさん設定しておく必要があります。設定は大変ですが、これができると、本当に人間が話しているかのような、驚くほど自然で感情豊かな表情をアバターにさせることができるのです。

“パーフェクトシンク”って何が違うの？

普通よりもっと細かく顔の筋肉の動きを反映できて、表情がリアルに見えるの！

3D表情トラッキングの高精度化

3D VTuberさんの表情を捉える技術も、どんどん進化していて、より高精度になっています。昔は、3Dモデルの表情を自然に動かすのは結構大変で、少しカクカクしてしまったり、表情が乏しく見えたりすることもありました。しかし、最近では技術が進歩し、かなり滑らかで人間らしい表情表現が可能になっています。

高精度化を支えているのは、まずセンサー技術の向上です。iPhoneのTrueDepthカメラのように、顔の形や動きを立体的に、そして細かく捉えられるセンサーが登場したことが大きいです。これにより、口のわずかな動きや目の表情、眉の動きなどをより正確にデータ化できるようになりました。

また、ソフトウェア側の進化も重要です。読み取った顔のデータを、いかに自然に3Dモデルの表情に変換するか、というアルゴリズム（計算方法）が改良されています。前述のパーフェクトシンクのような仕組みも、この高精度化に貢献しています。さらに、AI（人工知能）を使って、より人間らしい表情の動きを学習し、再現しようという研究も進んでいます。これらの技術のおかげで、3D VTuberさんはますます生き生きとした表情で私たちを楽しませてくれるようになっているのです。

昔よりすごく自然に見える気がする！

センサーとAIの進化で、ちょっとした目の動きまでしっかり再現できるようになってるんだよ。

VRM形式と表情データ

「VRM（ブイアールエム）」というのは、主にVTuberさんやVRアバター向けに作られた、3Dモデルのファイル形式の一つです。人型のアバターを扱うのに特化していて、いろいろなVRアプリケーションや配信ソフトで共通して使いやすいように考えられています。

このVRM形式の3Dモデルには、顔の表情に関するデータも含まれています。具体的には、「ブレンドシェイプ」という形で、たくさんの表情パターン（例えば、「喜」「怒」「哀」「楽」といった基本的な表情や、「あ」「い」「う」「え」「お」の口の形など）がモデルの中に登録されています。

フェイストラッキングソフトは、カメラで読み取った演者さんの表情に応じて、これらのブレンドシェイプを組み合わせてアバターの表情を作り出します。VRM形式のおかげで、異なるソフト間でも比較的簡単に3Dモデルの表情を動かすことができるようになり、VTuberさんが活動しやすくなる環境が整ってきていると言えるでしょう。

VRMって普通の3Dモデルと何が違うの？

VTuber向けに作られてて、どんなソフトでも表情が使いやすいようになってるんだよ。

表情差分の作り方と依頼

VTuberのアバターに、より豊かな感情表現をさせるために大切なのが「表情差分（ひょうじょうさぶん）」です。これは、基本的な表情とは別に、特定の感情や状況に合わせた表情をあらかじめいくつか作っておき、必要に応じて切り替えられるようにするものです。例えば、「満面の笑顔」「激怒した顔」「泣き顔」「照れ顔」「ウィンク」など、様々な表情差分があります。

表情差分の作り方は、2Dモデル（Live2D）と3Dモデルで少し異なります。Live2Dの場合は、イラストレーターさんが元のイラストとは別に、差分用の目や口、眉などのパーツを描き、それをモデラーさんが動くように設定します。3Dモデルの場合は、モデラーさんが3Dソフト上で顔のメッシュ（ポリゴンの集まり）を変形させて、それぞれの表情を作っていきます。

自分で作るのが難しい場合は、イラストレーターさんやモデラーさんに表情差分の制作を依頼することも可能です。その際は、どんな表情が欲しいのか、具体的なイメージをしっかり伝えることが大切です。表情差分が充実していると、配信中のリアクションも豊かになり、視聴者とのコミュニケーションもより楽しくなりますよ。

いろんな表情ってどうやって作ってるの？

イラストや3Dで別パーツを作って、それぞれ切り替えられるようにしてるんだって！

VTuberWebカメラでの表情表現

多くのVTuberさんが、手軽に表情トラッキングを行うために「Webカメラ」を利用しています。パソコンに内蔵されているカメラや、USBで接続するタイプのWebカメラを使って、自分の顔の動きをアバターに反映させています。

Webカメラを使った表情表現の仕組みは、基本的にはカメラで顔のパーツ（目、口、眉など）の位置や動きを認識し、それをトラッキングソフト（例えばVTube Studioなど）が解釈して、アバターの表情を動かすというものです。比較的安価なWebカメラでも、最近のトラッキングソフトはかなり精度が高く、まばたきや口の開閉、眉の上下といった基本的な表情は十分に表現できます。

ただし、Webカメラだけでは、顔の細かな筋肉の動きや、奥行きのある情報を捉えるのは難しい場合があります。そのため、iPhoneのTrueDepthカメラを使ったトラッキングに比べると、表現できる表情の幅や自然さには限界があることもあります。それでも、手軽に始められるという大きなメリットがあり、多くのVTuberさんにとって表情表現の入り口となっています。照明を明るくしたり、カメラの設定を調整したりすることで、Webカメラでもより良い表情トラッキングを目指すことができます。