作ったもの:1分46秒のシティポップMV
できあがったのは、シティポップ調のアニメMV。曲はこの動画のためのオリジナルソングで、歌詞には本人のエピソード——出身地、趣味、人柄、社内だけで通じる身内ネタ——を織り込みました。
映像は、本人の写真をAIでイラスト化した21のシーンで構成しています。デスクで猫と一緒にコーディングする姿、乾杯のシーン、趣味に打ち込む横顔。すべて同じレトロなタッチで揃っていて、どのカットにもちゃんと本人の面影があります。ラストは「ハッピーバースデー りょうたろう」と装飾文字で描かれたメッセージカードで締め。
なぜ誕生日にAIでMVを作ったか
GiftXはソーシャルギフトサービス「GIFTFUL」を運営しており、「誕生日」や「贈り物」は本業ど真ん中のテーマです。誰かを祝う体験そのものを、AIでもっと良くできないか。今回の制作は、その実験でもあります。
ミッションは「人の温かみを宿した進化を」。今回のMVも、絵と曲を作ったのはAIですが、元になっているのは本人と過ごしてきた日々の記憶です。温かみの源泉は人の記憶にあって、AIはそれを形にする速度と表現力をくれる。そんな役割分担を実感する制作になりました。
あとは単純に、GiftXは全員が日常的にAIを使い倒している会社なので、誕生日のお祝いも例外ではない、ということで。
どう作ったか:全体像
流れはざっくり4ステップです。
- ネタ出し・作詞・作曲 — 本人のエピソードから歌詞を作り、Sunoで曲にする
- ストーリーボードをグリッド形式で作成 — 歌詞の各行に対応する21シーンを一括生成
- 動画化 — 1枚絵をそれぞれ5〜10秒の動画クリップに変換
- 編集 + 仕上げ — クリップの連結、字幕の同期、カード合成まで全自動
この間、動画編集ソフトでの作業はゼロ。各ステップの実作業はClaude Codeが自動で進めてくれるので、人間がやったのは、要所で「これでいこう」と決めることくらいです。
各ステップの詳細
ステップ1|ネタ出し・作詞・作曲
人がやるのは、本人のエピソード——出身地、趣味、人柄、社内だけで通じる身内ネタ——を箇条書きにすることだけ。それをClaude Codeに渡すと、エピソードを織り込んだ歌詞と、曲の雰囲気を指定するスタイル文ができあがります。あとはSunoに貼り付けて曲を生成し、良いテイクを選ぶだけです。
ステップ2|ストーリーボードをグリッド形式で作成
歌詞の各行に対応するシーンを、gpt-image-2で一括生成します。ここも人が1枚ずつ作るわけではなく、Claude Codeが全シーンぶんの生成指示を組み立てて、自動で回してくれます。
人が触ったのは、最初に同じシーンを4つのタッチで描き分けてもらい、1つを選んだときだけ。画風と顔の同一性をどう揃えたかは、後半の「制作の裏側」で紹介します。
ステップ3|動画化
できあがった1枚絵を、それぞれ5〜10秒の動画クリップに変換します(Higgsfield経由でKling 2.6)。ここもClaude Codeが21カットぶんのプロンプトを設計し、生成の投入まで自動で行います。
結果、本編17本のクリップはすべて一発OK、作り直しはゼロでした。これを支えたプロンプトの型は「制作の裏側」で紹介します。
ステップ4|編集 + 仕上げ
21本のクリップの連結、カットの切り替え、歌詞字幕、タイトル・エンドカードの合成まで、Claude Codeが書いたスクリプトで全自動です。
映像と曲がぴったり揃って見えるのは、歌詞の行ごとのタイミングを実測して、カットの切り替えと字幕を同期させているからです。仕組みは「制作の裏側」で。仕上がりの検品も、各クリップからフレームを抜き出した一覧画像で機械的に行っています。
制作の裏側:うまくいった工夫
ここからは、同じものを作ってみたい方向けに、少しだけ技術寄りの話です。
タッチ統一は「スタイル参照画像」で固定する
最初に同じシーン(デスクでコーディングする本人と猫)を4つのタッチで描き分けて、その中から1つを選びました。以降のシーン生成では、生成したいシーンのプロンプトと選んだタッチの画像を毎回セットで渡します。これだけで21シーンの画風がきれいに揃い、顔の同一性も保てました。
動画化プロンプトは「動きとカメラだけ」を書く
絵の内容を説明するのではなく、「カメラと動きだけ」を書くのがコツでした。
- カメラ指示を文頭に置く(固定、ゆっくり寄る、追従など、1カットにつき1種類)
- 1つの被写体に1つの動作。「最後はこの状態で落ち着く」と終了状態まで書く
- 湯気、まばたき、光の明滅といった細かい動きを足して静止画感を消す
- 画像にすでに写っている内容は書き直さない
面白かったのは、このベストプラクティス自体をClaudeがリサーチして、自分でプロンプトを設計したことです。AIがAIへの指示文を書く構図です。
歌詞同期はWhisperの実測 + 人間の耳で補正
最初のバージョンでは、曲の波形だけからサビの位置を推定したら15秒ズレました。そこでWhisperで歌詞の行ごとの時刻を実測し、人間が聴いて分かる2点(歌い出しと歌い終わり)を基準に補正。カットの切り替えと字幕を同じ時刻表から生成することで、映像と曲がぴったり揃いました。
作って終わりにしない:パーソナライズMV生成エージェントにした
今回のもうひとつのポイントは、作って終わりにしなかったことです。完成後、このワークフロー全体をエージェント(スキル)化しました。本人の写真と曲とコンセプトを渡せば、歌詞づくりから動画の納品までほぼ一気通貫で、同じクオリティのMVが作れる状態になっています。
唯一の例外は作曲パートです。SunoにはAPIやMCPがないため、曲だけは個別に生成して受け渡しています。逆に言えば、それ以外——作詞、ストーリーボード生成、動画化、編集、検品——はすべて自動化済みです。
一回きりのサプライズだったものが、誰の誕生日にも再現できる仕組みになりました。
まとめ
「誰かを祝う」というのは、本来とても手間のかかる、一回性の高い営みです。 だからこそ、そこにAIを持ち込む価値があると感じています。
手間が理由で諦めていた表現—— その人だけの歌、その人だけの映像——に手が届くようになる。 AIは、人の気持ちを置き換えるものではなく、人が誰かを想う時間や表現を、より豊かに広げるものにもなり得るのだと思います。
GiftXは、「人の温かみを宿した進化を。」をミッションに掲げています。 ギフト事業では、人ならではの想いや関係性がより伝わる体験をつくること。 AI活用支援事業では、テクノロジーによって人の仕事や創造性を前に進めること。
一見すると別の事業に見えるかもしれませんが、根底にあるのは同じです。 人の温かみを起点に、テクノロジーの力で体験や生産性を進化させていくこと。
今回は、そのミッションをまずは自分たちの身近なところから実践してみた話でした。
GiftXでは、こうした自社での実践を土台に、企業のAIエージェント構築支援も行っています。 ご興味のある方はお気軽にご相談ください。