Claude CodeでAIアバターを作ってみた——写真1枚と数分の声から、本人が喋る動画を

Claude CodeでAIアバターを作ってみた——写真1枚と数分の声から、本人が喋る動画を
目次

写真1枚と、数分の音声。それだけで、本人そっくりのAIアバターを作って、本人の声で喋らせてみました。撮影は一切していません。 作業の司令塔にしたのは、Claude Code(ターミナルで動くAIエージェント)。写真の加工も、声のクローンも、動画の生成も、Claude Codeから各AIツールを動かして、一気通貫で組み立てています。

飯髙 悠太
マーケティングエキスパート

GiftX代表。ベーシック執行役員、ホットリンクCMOを経て2022年にGiftX創業。100社以上のマーケティング支援実績を持つ。著書に『BtoBマーケティングの基礎知識』『僕らはSNSでモノを買う』など、5冊のマーケティング専門書を執筆。

作ったもの:本人が喋る、縦型のショート動画

できあがったのは、本人がカメラに向かって話す数秒の縦型動画です。声は合成のナレーションではなく、本人の声をクローンしたもの。喋りながら、手ぶりや表情も自然に動きます。

今回の題材は、ちょっとした”つかみ”として、本人がワールドカップの試合予想を語る、という内容にしました。中身は何でも差し替えられます。台本のテキストを変えるだけで、同じ見た目・同じ声のまま、別の話をさせられる——そういう仕組みになっています。

どう作ったか:全体像

流れは、ざっくり3ステップです。

写真をAIで整える→声を本人にする→喋らせて動かす、の3ステップで動画を作る全体像の図
  • 写真をAIで整える — 背景の差し替えやロゴ入れを、言葉で指示して加工する
  • 声を”本人”にする — 本人の音声から、声をクローン(複製)する
  • 喋らせて、動かす — 写真と声を渡して、口パク+身ぶりの動画にする

材料は「写真一枚」「数分の音声」「台本テキスト」だけ。この3ステップを順に通すと、本人が喋る動画になります。各ステップの実作業はClaude Codeが自動で進めてくれるので、人間がやったのは、要所で「これでいこう」「もう少しこう」と決めることくらいです。

各ステップの詳細

ステップ1|写真をAIで作る

最初に用意するのは、アバターの”素体”になる人物写真です。今回は既存の写真を加工するのではなく、Claude Code から画像生成AIに指示して、書斎にいる本人のカットを一枚つくりました。

使ったのは ChatGPT の画像生成(gpt-image)。背景も服装も、胸元のロゴまで、ぜんぶ言葉で「こうしてほしい」と頼むだけで仕上がります。編集ソフトは開かず、文章で指示するだけで、このあとのアバターの”素体”が完成します。

ChatGPTの画像生成で作った、書斎にいる人物のカット写真

ステップ2|声を”本人”にする(一番の山場)

ここが、今回いちばん粘ったところです。

やりたいのは「本人の声で喋らせる」こと。合成音声はたくさんありますが、“他人の声”では意味がありません。そこで、本人の音声を数分ぶん用意して、ElevenLabs で声をクローンしました。

ところが、一発ではうまくいきません。最初の声は「本人っぽいけど、どこか違う」。落ち着きが足りなかったり、語尾が不自然に上がってしまったり。そこから、ツールを変え、声の”落ち着き”や”話す速さ”、語尾の上がり下がりを少しずつ調整していきました。

面白かったのは、効きどころが設定値だけではなかったこと。台本の句読点ひとつで、読み上げの間や抑揚が変わります。「!」を「。」に変えるだけで、言い切りになって落ち着く。最終的に「これは本人だ」と思える声にたどり着いたときは、ちょっと感動しました。

ステップ3|喋らせて、動かす

声ができたら、いよいよ写真を喋らせます。ここで使ったのは HeyGen(写真から喋る動画をつくるツール)です。写真と声を渡すと、口元が音に合わせて動く”喋る写真”ができあがります。

ただ、最初の版は「顔だけが動いて、体は固まったまま」。これがどうしてもAIっぽく、不自然でした。そこで、表情や身ぶり手ぶりまで付く方式(HeyGen の Avatar IV)に切り替えます。動きが付くだけで、ぐっと”人”に近づきました。

制作の裏側:うまくいった工夫

ここからは、同じものを作ってみたい方向けに、少し実践寄りの話を。今回の勘どころは、大きく三つでした。

ツールは、役割分担させる

AIツールを一つに絞らず、得意分野で使い分けたのが正解でした。「喋る人物」は HeyGen、「写真の加工や映像の演出」は Higgsfield、「声」は ElevenLabs、という具合に使い分けました。

一台でぜんぶやろうとすると、どこかが弱くなる。実際、最初は映像が得意なツール(Higgsfield)に喋らせようとして、日本語のセリフが崩れてしまい、やり直しました。テキストから読み上げる方式に変えたら、日本語はぴたりと安定します。AIでも”適材適所”でした。

声の精度は、“元の録音”でほぼ決まる

声づくりで一番効いたのは、設定をいじることではなく、良い録音を用意することでした。静かな場所で、きれいに、長めに録るほど、似ます。逆に言うと、素材が粗いと、どれだけ設定を詰めても頭打ちになる。次に作るときは、まず録音から、と心に決めました。

動きの指示は「一行一動作」で短く

身ぶりを増やそうと「もっといろいろ動いて」と長い文章で頼んでも、まったく変わりませんでした。調べてみると、動きの指示は”一行に一動作”で短く書くのがコツ。「両手を顔の高さまで上げる」「ガッツポーズをする」——こう分けて書いたら、ちゃんと反映されました。

そして正直に言うと、きれいに一発でできたわけではありません。声も、動きも、写真も、「これは違う」を何度も重ねた末に「これだ」へたどり着いています。

それでも苦にはなりませんでした。試行錯誤がぜんぶテキストのやり取りで完結するので、回すのが速い。気軽に何度でも試せるのが、いまのAIのいちばん面白いところかもしれません。

作って終わりにしない:アバター動画生成エージェントにした

今回のもうひとつのポイントは、作って終わりにしなかったことです。完成後、このワークフロー全体を、Claude Codeのエージェント(スキル)にまとめました。

写真と声をいちど用意しておけば、あとは台本のテキストを渡すだけ。同じ見た目・同じ声のアバターが別の話をする動画を、ほぼ自動で量産できる状態になっています。一回かぎりの”作ってみた”が、繰り返し使える仕組みに変わりました。

まとめ

写真一枚から、本人が喋って動く動画ができる。少し前なら考えられなかったことが、いまは”その日のうちに”できてしまいます。

もちろん、まだ万能ではありません。大きな動きは苦手だし、細かいニュアンスには人の手が要る。それでも、「まずやってみる」のハードルが劇的に下がったのは確かです。そして、つまずきの一つひとつが、次の制作を速くする”勘どころ”になっていきます。

GiftXは、「人の温かみを宿した進化を。」をミッションに掲げています。自分たちでまず触ってみて、面白さも限界も体で分かった上で、企業のAIエージェント構築支援を行っています。自社でのAI活用に興味のある方は、お気軽にご相談ください。

▶︎GiftX AIエージェント構築支援 サービスサイト

SHARE
eBook
マーケティング・営業のAIエージェント構築事例を無料配布

マーケティング・営業におけるAIエージェント構築の事例・支援メニュー・料金体系をまとめた資料を、即時ダウンロードできます。

資料請求フォームへ →