操作したのはClaude Codeだけ。アバターが喋るセミナー動画を、まるごとAIで作ってみた

アバターが喋るセミナー動画を、まるごとAIで作ってみました。台本の最初の一文字から完成まで、ぜんぶAIです。喋っているのは私（飯髙）本人……に見えますが、これもAI。声も顔も私の素材をクローンしたもので、撮影は一切していません。手元にあったのは私の写真と声のサンプル、そして伝えたい中身だけでした。「解説動画をちゃんと作る」は、つい数年前まで撮影・編集・出演のワンセットで、それなりの仕事でした。それが今は、台本から映像まで、人がやることは判断と確認だけで、生成はぜんぶAIで一本作れてしまいます。今回の題材に選んだのは、「ULSSAS（ウルサス）」というSNS時代の購買行動モデル。AI時代にこそ、あらためて重要になるテーマです。想像以上の仕上がりだった一方で、当然つまずきもありました。この記事は、その制作の中身を、どこで詰まって、どう抜けたのかまで、できるだけ正直に書いた制作記です。

何を作ったか

できあがったのは、こんな動画です。

長さは67秒
喋っているのは、私の声をクローンしたAI音声
画面は、左にスライド（図）・右に喋るアバター。境界を斜めに区切って、いわゆる「セミナーの画面共有」っぽい見た目に

制作フローの全体像

全体像を先に出しておきます。やったことを工程に分けると、ざっくり次の5つです。

台本づくり … 元ネタの解説文そのものもAIに書かせ、そこから動画台本まで一貫してAIで作成（90秒尺に圧縮）
声 … ElevenLabsで私の声をクローンし、台本を読み上げてAI音声を生成（モデルはeleven_v3）
アバター … HeyGenのAvatar IVで、私の写真を喋らせる。背景はgpt-image-2で16:9に拡張して、人物を右1/3に寄せる
図解 … GiftXのトンマナで、対比図・流れ図・ULSSASの循環図をベクターで正確に描く
合成 … ffmpegで、アバター・タイトル・図の順番に表示・字幕・ロゴを1本に統合する

今回、私が操作したツールは、Claude Code（AIエージェント）だけです。アバターや音声生成といった各ツールの画面を個別に触ってはいません。Claude Codeに「こういう動画を作りたい」と指示すると、台本づくりから声の生成、アバター、図解、最後の合成まで、必要なツールをAIエージェントが裏で呼び出して、ひと続きで実行してくれます。

工程の詳細

ここからは、各工程でいったい何をしたのかを具体的に書きます。同じことをやってみたい人が、再現のイメージを持てるくらいの粒度で残しておきます。

①台本＆ストーリーづくり：構成から台本・絵コンテまで

まず題材のULSSASは、UGC（ユーザーの投稿）を起点に「気づく→好きになる→続ける→拡散する」と回っていく、SNS時代の購買行動モデルです。今回はここに「AIがコンテンツを量産できる時代だからこそ、人が書いたUGCの価値はむしろ上がる」という現在の文脈を重ねました。

この解説の元になる文章そのものも、AIに書かせています。考え方の整理 → 解説文 → それを喋り言葉に直した90秒の台本、という流れを一気通貫でAIに通しています。部分的にAIを使ったのではなく、最初の一文字からAIです。

この台本づくりも、私がやったのはClaude Codeに方針を伝えることだけで、文章の生成自体はAIエージェントが回しています。

そして、いきなり動画生成をするのではなく「どのシーンで何を見せるか」を絵コンテ（カット割）で先に設計しました。下が、その制作時の絵コンテです。仮の段階のラフですが、5つのシーンで何を話し・どの図を出すかを並べておくと、このあとの声や図づくりが一気に進めやすくなります。

②声：自分の声をクローンして読み上げる

声はElevenLabsの音声クローンを使いました。私の声のサンプルを読み込ませてクローンを作り、そこに台本を流し込んでAI音声を生成します。採用したモデルはeleven_v3です。

文字だけ見ると一瞬で終わりそうですが、ここがいちばん粘った工程でした（詳しくは後述します）。なお、ElevenLabsもブラウザの管理画面は開いておらず、声のクローン作成も読み上げ生成も、Claude Code経由で動かしています。

③アバター：写真を喋らせて、画面の右に置く

映像はHeyGenのAvatar IVです。私の写真を1枚渡すと、用意した音声に合わせて口が動く「喋る顔」を作ってくれます。背景はそのまま保たれるので、書斎っぽい雰囲気の中で私が喋っている画になります。

元の写真は縦長なので、そのままだと画面いっぱいに顔が来てしまい、スライドを置く余白がありません。そこでgpt-image-2を使って写真を16:9へ「描き足し（アウトペイント）」し、人物を右1/3に寄せ、左2/3を空けました。この空いた左側がスライドの定位置になります。このアウトペイントもアバター生成も、操作したのはClaude Codeで、HeyGenやgpt-image-2を直接触ってはいません。

④図解：文字まで正確に、ベクターで描く

スライドに載せる図は、GiftXのトンマナ（ベージュ基調＋フォレストグリーン＋差し色）でそろえました。対比の図、LLMO的な流れの図、そしてULSSASの循環図の3枚です。

今回はこれらをプログラム（Pillow＋ヒラギノフォント）でベクター的に描きました。構造図は文字とレイアウトが命で、語の位置や矢印の向きを正確にそろえたかったからです。デザインのクオリティをもっと上げたいなら、gpt-image-2のような画像生成ツールで作るのも十分にありです。さらに、すでに使えるスライドや図版が手元にあるなら、それをそのまま差し込んでしまう手もあります。いずれにせよ、この描画も指示を出したのはClaude Codeです。

⑤合成：ぜんぶを1本に重ねる

最後はffmpegで合成です。喋るアバターを背景に、最初の数秒だけタイトルを乗せ、話の進行に合わせて図を順々にフェードインさせ、字幕を焼き込み、右下にロゴを常時表示する。これを一本の動画にまとめました。タイミングは台本の進行に合わせて秒単位で調整しています。この合成も、Claude Codeがffmpegのコマンドを組み立てて実行しています。

つまずきと学び

きれいに一発で通った、と言えたら格好いいのですが、実際はかなり試行錯誤しました。特に声です。

声が「似ない」

最初のうち、生成した音声を聞いては「うーん、似ていない」を繰り返していました。やっかいなのは、同じ設定で生成しても、テイクごとに声の高さや発音の雰囲気がブレること。たまたま高く出たテイクを聞いて「別人だ」と感じる、ということが起きます。

抜け道として、生成した複数のテイクの声の高さを実際に測り、私の自然な声の高さ（だいたい143Hzくらい）にいちばん近いテイクを選ぶ、という選び方にしました。「いい感じのが出るまで生成して、数値で選ぶ」発想です。

ちなみに、出てしまった音声を後から無理にピッチ補正するのは悪手でした。高さを下げると声が太く重くなって、今度は「似てるけど別の人」になってしまう。声の高さは生成の段階で当てにいくのが正解でした。

モデル選びは「似せ」と「流暢さ」のトレードオフ

声のモデルは複数試しました。結論から言うと、今は完全な両立が難しい領域です。

eleven_multilingual_v2：声質はよく似る。ただし英語・カタカナ・漢字の読みでミスが出やすく、喋りの流暢さに欠ける
eleven_v3：発音が流暢で読みの精度も高い。一方で、声の似せはやや弱い

今回は「聞いていてストレスがない」ことを優先して、流暢なeleven_v3を採用しました。似せ重視ならv2、という選択もあり得ます。このあたりはモデルの進化で変わっていくはずなので、現時点の判断として記録しておきます。

音を「確定」してから映像を作る

地味ですが効いた学びがこれです。映像（アバター）は音声に合わせて口を動かすので、音が変わるたびに映像も作り直しになります。だから音声を「これでOK」と確定させてから映像生成に進む。この順番を守るだけで、無駄なやり直しが激減しました。先に絵を作りたくなる気持ちをぐっとこらえるのがコツです。

AIアバター×解説動画は、どこに効くのか

今回はセミナー風の解説動画を作りましたが、この「喋る顔＋スライド」のフォーマットは、用途がかなり広いと感じています。マーケティングを中心に、効きそうな場面を整理してみます。

マーケティング

セミナーの本編動画そのもの
セミナー集客のための告知・紹介動画
広告クリエイティブ（縦型ショートにも展開しやすい）
メルマガ・LINE配信に添える動画
オウンドメディア記事への埋め込み解説
SNSショート（YouTube Shorts／TikTok／Reels）
製品・機能の説明動画

営業

商談前に送る事前説明動画
提案の補足解説
よくある問い合わせへの「顔つき」の回答

社内

研修・オンボーディング動画
手順マニュアルの動画化

共通する強みは、一度声と顔を用意してしまえば、あとは台本を差し替えるだけで量産できること。同じ要領で多言語版を作るのも難しくありません。「人が出演する動画」は本数を増やすのが大変でしたが、その制約がかなり外れます。

そして「AIエージェント」が作る仕組みにした

ここまでが一本の動画を作った話です。でも、せっかくなら一本で終わらせたくない。

そこで、この5工程の制作フローそのものを、再利用できる”型”（スキル）として整えました。次からは、台本の元ネタと数枚の素材を渡せば、AIエージェント（Claude Code）が台本づくりから声・アバター・図・合成までの一連を実行して、動画を組み上げてくれます。

AIで「作る」だけでなく、その”作る仕組み”のほうをAIエージェントに任せる。同じ手順を何度でも回せる仕組みにしておけば、繰り返し使える資産になります。

まとめ

正直、想像していたより、ずっとちゃんとした動画になりました。撮影もスタジオもなしで、ここまで作れる時代なんだな、と思います。

AIで作れるものが増えるほど、大事になるのは「どう読んでもらうか」だと感じています。誰でも量産できる時代だからこそ、その向こうに人の体温や、作り手の想いが感じられるかどうかで差がつく。GiftXが掲げているのは「人の温かみを宿した進化を」というミッションです。今回のアバター動画も、ただ自動で吐き出すのではなく、声の似せ方や言葉の選び方に「その人らしさ」を宿そうとした結果でした。

そしてAI活用は、「実際に作ってみる」ことと、「仕組みにして繰り返せるようにする」こと、その両方が大事だと思っています。その両方を回しながら、最後は人の手で温度を足していく。

GiftXは、マーケティング・営業領域のAI活用を得意としています。今回のようなクリエイティブ制作や、記事コンテンツの制作（実は、この記事自体もAIが書いています）など、「うちでもやってみたい」と思ったら、ぜひ気軽に声をかけてください。

▶︎GiftX AIエージェント構築支援サービスサイト