操作したのはClaude Codeだけ。アバターが喋るセミナー動画を、まるごとAIで作ってみた

操作したのはClaude Codeだけ。アバターが喋るセミナー動画を、まるごとAIで作ってみた
目次

アバターが喋るセミナー動画を、まるごとAIで作ってみました。台本の最初の一文字から完成まで、ぜんぶAIです。喋っているのは私(飯髙)本人……に見えますが、これもAI。声も顔も私の素材をクローンしたもので、撮影は一切していません。手元にあったのは私の写真と声のサンプル、そして伝えたい中身だけでした。 「解説動画をちゃんと作る」は、つい数年前まで撮影・編集・出演のワンセットで、それなりの仕事でした。それが今は、台本から映像まで、人がやることは判断と確認だけで、生成はぜんぶAIで一本作れてしまいます。 今回の題材に選んだのは、「ULSSAS(ウルサス)」というSNS時代の購買行動モデル。AI時代にこそ、あらためて重要になるテーマです。 想像以上の仕上がりだった一方で、当然つまずきもありました。この記事は、その制作の中身を、どこで詰まって、どう抜けたのかまで、できるだけ正直に書いた制作記です。

飯髙 悠太
マーケティングエキスパート

GiftX代表。ベーシック執行役員、ホットリンクCMOを経て2022年にGiftX創業。100社以上のマーケティング支援実績を持つ。著書に『BtoBマーケティングの基礎知識』『僕らはSNSでモノを買う』など、5冊のマーケティング専門書を執筆。

何を作ったか

できあがったのは、こんな動画です。

  • 長さは67秒
  • 喋っているのは、私の声をクローンしたAI音声
  • 画面は、左にスライド(図)・右に喋るアバター。境界を斜めに区切って、いわゆる「セミナーの画面共有」っぽい見た目に

制作フローの全体像

全体像を先に出しておきます。やったことを工程に分けると、ざっくり次の5つです。

台本づくり→声→アバター→図解→合成の5工程を並べた制作フローの全体像
  1. 台本づくり … 元ネタの解説文そのものもAIに書かせ、そこから動画台本まで一貫してAIで作成(90秒尺に圧縮)
  2. … ElevenLabsで私の声をクローンし、台本を読み上げてAI音声を生成(モデルはeleven_v3)
  3. アバター … HeyGenのAvatar IVで、私の写真を喋らせる。背景はgpt-image-2で16:9に拡張して、人物を右1/3に寄せる
  4. 図解 … GiftXのトンマナで、対比図・流れ図・ULSSASの循環図をベクターで正確に描く
  5. 合成 … ffmpegで、アバター・タイトル・図の順番に表示・字幕・ロゴを1本に統合する

今回、私が操作したツールは、Claude Code(AIエージェント)だけです。アバターや音声生成といった各ツールの画面を個別に触ってはいません。Claude Codeに「こういう動画を作りたい」と指示すると、台本づくりから声の生成、アバター、図解、最後の合成まで、必要なツールをAIエージェントが裏で呼び出して、ひと続きで実行してくれます。

工程の詳細

ここからは、各工程でいったい何をしたのかを具体的に書きます。同じことをやってみたい人が、再現のイメージを持てるくらいの粒度で残しておきます。

①台本&ストーリーづくり:構成から台本・絵コンテまで

まず題材のULSSASは、UGC(ユーザーの投稿)を起点に「気づく→好きになる→続ける→拡散する」と回っていく、SNS時代の購買行動モデルです。今回はここに「AIがコンテンツを量産できる時代だからこそ、人が書いたUGCの価値はむしろ上がる」という現在の文脈を重ねました。

この解説の元になる文章そのものも、AIに書かせています。考え方の整理 → 解説文 → それを喋り言葉に直した90秒の台本、という流れを一気通貫でAIに通しています。部分的にAIを使ったのではなく、最初の一文字からAIです。

この台本づくりも、私がやったのはClaude Codeに方針を伝えることだけで、文章の生成自体はAIエージェントが回しています。

そして、いきなり動画生成をするのではなく「どのシーンで何を見せるか」を絵コンテ(カット割)で先に設計しました。下が、その制作時の絵コンテです。仮の段階のラフですが、5つのシーンで何を話し・どの図を出すかを並べておくと、このあとの声や図づくりが一気に進めやすくなります。

5つのシーンで何を話し・どの図を出すかを並べた制作時の絵コンテ(ラフ)

②声:自分の声をクローンして読み上げる

声はElevenLabsの音声クローンを使いました。私の声のサンプルを読み込ませてクローンを作り、そこに台本を流し込んでAI音声を生成します。採用したモデルはeleven_v3です。

文字だけ見ると一瞬で終わりそうですが、ここがいちばん粘った工程でした(詳しくは後述します)。なお、ElevenLabsもブラウザの管理画面は開いておらず、声のクローン作成も読み上げ生成も、Claude Code経由で動かしています。

③アバター:写真を喋らせて、画面の右に置く

映像はHeyGenのAvatar IVです。私の写真を1枚渡すと、用意した音声に合わせて口が動く「喋る顔」を作ってくれます。背景はそのまま保たれるので、書斎っぽい雰囲気の中で私が喋っている画になります。

元の写真は縦長なので、そのままだと画面いっぱいに顔が来てしまい、スライドを置く余白がありません。そこでgpt-image-2を使って写真を16:9へ「描き足し(アウトペイント)」し、人物を右1/3に寄せ、左2/3を空けました。この空いた左側がスライドの定位置になります。このアウトペイントもアバター生成も、操作したのはClaude Codeで、HeyGenやgpt-image-2を直接触ってはいません。

④図解:文字まで正確に、ベクターで描く

スライドに載せる図は、GiftXのトンマナ(ベージュ基調+フォレストグリーン+差し色)でそろえました。対比の図、LLMO的な流れの図、そしてULSSASの循環図の3枚です。

今回はこれらをプログラム(Pillow+ヒラギノフォント)でベクター的に描きました。構造図は文字とレイアウトが命で、語の位置や矢印の向きを正確にそろえたかったからです。デザインのクオリティをもっと上げたいなら、gpt-image-2のような画像生成ツールで作るのも十分にありです。さらに、すでに使えるスライドや図版が手元にあるなら、それをそのまま差し込んでしまう手もあります。いずれにせよ、この描画も指示を出したのはClaude Codeです。

⑤合成:ぜんぶを1本に重ねる

最後はffmpegで合成です。喋るアバターを背景に、最初の数秒だけタイトルを乗せ、話の進行に合わせて図を順々にフェードインさせ、字幕を焼き込み、右下にロゴを常時表示する。これを一本の動画にまとめました。タイミングは台本の進行に合わせて秒単位で調整しています。この合成も、Claude Codeがffmpegのコマンドを組み立てて実行しています。

つまずきと学び

きれいに一発で通った、と言えたら格好いいのですが、実際はかなり試行錯誤しました。特に声です。

声が「似ない」

最初のうち、生成した音声を聞いては「うーん、似ていない」を繰り返していました。やっかいなのは、同じ設定で生成しても、テイクごとに声の高さや発音の雰囲気がブレること。たまたま高く出たテイクを聞いて「別人だ」と感じる、ということが起きます。

抜け道として、生成した複数のテイクの声の高さを実際に測り、私の自然な声の高さ(だいたい143Hzくらい)にいちばん近いテイクを選ぶ、という選び方にしました。「いい感じのが出るまで生成して、数値で選ぶ」発想です。

ちなみに、出てしまった音声を後から無理にピッチ補正するのは悪手でした。高さを下げると声が太く重くなって、今度は「似てるけど別の人」になってしまう。声の高さは生成の段階で当てにいくのが正解でした。

モデル選びは「似せ」と「流暢さ」のトレードオフ

声のモデルは複数試しました。結論から言うと、今は完全な両立が難しい領域です。

  • eleven_multilingual_v2:声質はよく似る。ただし英語・カタカナ・漢字の読みでミスが出やすく、喋りの流暢さに欠ける
  • eleven_v3:発音が流暢で読みの精度も高い。一方で、声の似せはやや弱い

今回は「聞いていてストレスがない」ことを優先して、流暢なeleven_v3を採用しました。似せ重視ならv2、という選択もあり得ます。このあたりはモデルの進化で変わっていくはずなので、現時点の判断として記録しておきます。

音を「確定」してから映像を作る

地味ですが効いた学びがこれです。映像(アバター)は音声に合わせて口を動かすので、音が変わるたびに映像も作り直しになります。だから音声を「これでOK」と確定させてから映像生成に進む。この順番を守るだけで、無駄なやり直しが激減しました。先に絵を作りたくなる気持ちをぐっとこらえるのがコツです。

AIアバター×解説動画は、どこに効くのか

今回はセミナー風の解説動画を作りましたが、この「喋る顔+スライド」のフォーマットは、用途がかなり広いと感じています。マーケティングを中心に、効きそうな場面を整理してみます。

マーケティング

  • セミナーの本編動画そのもの
  • セミナー集客のための告知・紹介動画
  • 広告クリエイティブ(縦型ショートにも展開しやすい)
  • メルマガ・LINE配信に添える動画
  • オウンドメディア記事への埋め込み解説
  • SNSショート(YouTube Shorts/TikTok/Reels)
  • 製品・機能の説明動画

営業

  • 商談前に送る事前説明動画
  • 提案の補足解説
  • よくある問い合わせへの「顔つき」の回答

社内

  • 研修・オンボーディング動画
  • 手順マニュアルの動画化

共通する強みは、一度 声と顔を用意してしまえば、あとは台本を差し替えるだけで量産できること。同じ要領で多言語版を作るのも難しくありません。「人が出演する動画」は本数を増やすのが大変でしたが、その制約がかなり外れます。

そして「AIエージェント」が作る仕組みにした

ここまでが一本の動画を作った話です。でも、せっかくなら一本で終わらせたくない。

そこで、この5工程の制作フローそのものを、再利用できる”型”(スキル)として整えました。次からは、台本の元ネタと数枚の素材を渡せば、AIエージェント(Claude Code)が台本づくりから声・アバター・図・合成までの一連を実行して、動画を組み上げてくれます。

AIで「作る」だけでなく、その”作る仕組み”のほうをAIエージェントに任せる。同じ手順を何度でも回せる仕組みにしておけば、繰り返し使える資産になります。

まとめ

正直、想像していたより、ずっとちゃんとした動画になりました。撮影もスタジオもなしで、ここまで作れる時代なんだな、と思います。

AIで作れるものが増えるほど、大事になるのは「どう読んでもらうか」だと感じています。誰でも量産できる時代だからこそ、その向こうに人の体温や、作り手の想いが感じられるかどうかで差がつく。GiftXが掲げているのは「人の温かみを宿した進化を」というミッションです。今回のアバター動画も、ただ自動で吐き出すのではなく、声の似せ方や言葉の選び方に「その人らしさ」を宿そうとした結果でした。

そしてAI活用は、「実際に作ってみる」ことと、「仕組みにして繰り返せるようにする」こと、その両方が大事だと思っています。その両方を回しながら、最後は人の手で温度を足していく。

GiftXは、マーケティング・営業領域のAI活用を得意としています。今回のようなクリエイティブ制作や、記事コンテンツの制作(実は、この記事自体もAIが書いています)など、「うちでもやってみたい」と思ったら、ぜひ気軽に声をかけてください。

▶︎GiftX AIエージェント構築支援 サービスサイト

SHARE
eBook
マーケティング・営業のAIエージェント構築事例を無料配布

マーケティング・営業におけるAIエージェント構築の事例・支援メニュー・料金体系をまとめた資料を、即時ダウンロードできます。

資料請求フォームへ →