合成メディアがつくるコンテンツ豊かな社会とその脅威

2022年12月1日 12:00

概要

合成メディアとは

　合成メディア（Synthetic Media）とは、情報技術、特にAIを用いてメディアコンテンツを生成・修正することの総称です。AI生成メディアやディープフェイクとしても知られています。さらに、合成音声や合成テキストのように特定の用途を指すこともあります。
　また、データ利活用において、同様の技術を利用する合成データもあります。合成データはAIなどによって作られた実際のデータに近いデータのことで、AIモデル作成時の学習データ不足に対して、精度を向上させる目的で利用され始めています。それ以外にも、データから個人情報を判別できないようにしたい場合などに利用が期待されています。

　2014年に開発された機械学習アルゴリズムのGAN（敵対的生成ネットワーク）などによって大きく性能が上がったこともあり、ここ数年で合成メディアの成長が加速しています。アメリカやイギリス、イスラエルなどを中心に開発が進められていて、バーチャルアナウンサーの様なリアルな人物の見た目や音声を合成する事例が出てきています。合成メディアは黎明期と言われていたものの、徐々に実用化されはじめていて、それによるディープフェイクへの懸念とともに大きな注目を浴びています。
*人物の合成には、実在する人物画像に動きを付けるものや、複数の顔写真などから実在しない人物画像を作りだすものなどがあります。

要素技術

　歴史的に、AIの台頭が合成メディアを発展させてきましたが、その中でも派生技術への影響も含めて代表的な2つの要素技術を紹介します。

オートエンコーダ（Autoencoder）

　オートエンコーダは2006年に提唱された教師なし学習アルゴリズムです。入力されたデータから新しいデータを生成する生成モデルであり、エンコーダとデコーダという2つのニューラルネットワークで構成されています。

　エンコーダではまず、受け取った画像データの情報をニューラルネットワークによって圧縮（次元圧縮）していきます。これにより情報量が減少し画像データの特徴が抽出されます。デコーダでは、エンコーダによって特徴が抽出されたデータを、元の画像データと一致するようにニューラルネットワークによって拡張（次元拡張）していきます。この様な学習により、エンコーダは入力データからの特徴抽出機能を、デコーダは特徴が抽出されたデータからのデータ生成機能を獲得します。

　例えば2つのオートエンコーダを用意し、エンコーダには人物Aと人物Bの顔画像を一緒に学習させ、デコーダには人物Aと人物Bの顔画像をそれぞれ別々に学習させます。それらのモデルを用いて人物Aの顔画像をエンコードし、人物Bの顔画像に近付けるようにデコードすることで、人物Aの特徴（表情など）を持った人物Bの画像が生成されます。

　オートエンコーダの派生として変分オートエンコーダ（Variational　Autoencoder, VAE）などがあり、異常検知や画像のノイズ除去などにも使われています。また、ここ最近では変分オートエンコーダの発展形と言われる拡散モデル（Diffusion Model）が注目を集めています。

敵対的生成ネットワーク（Generative Adversarial Networks, GAN）

　GANは近年多くの注目を集めていてる教師なし学習アルゴリズムであり、2つのニューラルネットワークを用いて実装されています。
　2つのネットワークは生成ネットワークと識別ネットワークと呼ばれていて、生成ネットワークは与えられたデータからフェイクデータを生成し、識別ネットワークは本物のデータと比較してその正否を判定します。
　生成ネットワークは騙すために学習し、識別ネットワークは正否を判定するために学習していきます。この競争を繰り返すことにより生成ネットワークはよりリアルなデータ（画像など）を生成できるようになります。GAN（敵対的生成ネットワーク）の由来は、この様に2つのニューラルネットワークが競い合いながら学習をしていく様子からきています。

　GANの登場によって、より鮮明でリアルな画像の生成が可能になりました。現状では、リアルだが実在しない人物画像の生成など様々な用途に向けて研究が行われています。また、オートエンコーダなど他の技術と組み合わせて用いられることもあります。

合成メディアへの期待と課題

　合成メディアによってメディアコンテンツの作成に飛躍的な進歩があると考えられています。高いコストをかけなくても高品質なコンテンツが簡単に作成できるようになり、クリエイティブなコンテンツが簡単に効率的に作成できるようになります。

　例えば、テキストを入力するだけであたかも自分が本当に話しているかのような映像を作成できたり、企業や自治体のイメージキャラクターとして本当に存在しているかのようなリアルな人物を合成することができます。身体全体の自然な動きの合成にはまだ技術的な課題があるものの、顔の自然な表情の合成などは既に実用化段階にあります。

　しかし、技術の発達とともに合成メディアを悪用したディープフェイクへの懸念も広がっています。米大統領選におけるフェイクスピーチ動画や、音声合成により特定の人物の声になりすました電話での詐欺など、一般の生活者では本物か偽物か判断できないコンテンツが増えていく恐れがあります。
　そういったフェイクメディアであるかどうかの検証や、インターネット上の顔画像などが悪用されないための消費者保護なども合成メディアのテクノロジーが大きな役割を担う分野であり、様々な企業が取り組んでいます。

未来像

　合成メディアは今後、音楽やテレビ、映画業界だけでなく広告や教育など様々な分野で応用されていきます。以下は合成メディアが普及した世界の生活者目線の未来像の一部です。

ふとテレビを付けてニュースを呼んでいた女性は実在しない人物であり用意されたテキストをリアルなアナウンサーのように話している。
SNSをチェックするとバーチャルインフルエンサーがサステナビリティな生活を発信している。広告画像や動画にはリアルなバーチャルヒューマンが出ていたり、海外の著名人が日本人に向けて流暢に日本語を話しているような映像が流れている。
スマホでどの服を買おうか迷っている時に、自分と同じような体形のバーチャルモデルを選択することで自分に似合うのかイメージしやすくなる。
E-ラーニングの講義を受けているとき、話しているのは実は先生本人ではなく、先生のアバターが用意されたテキストをリアルに話している映像である。
テレビに映る通行人など同意を得ていない顔画像は個人情報保護のために匿名化されている。
現実世界のお気に入りのモノを簡単に3Dコンテンツとしてメタバースに取り込むことができる。

活用事例

　世界の合成メディアを用いた事例をみると、300万人のフォロワーを持つバーチャルインフルエンサーがファッションブランドのPVに出演していたり、著名な元スポーツ選手が数か国語で保健衛生を啓蒙する動画が作成されています。また、既に亡くなっている著名人が実際にスピーチしているかのような映像なども作成されています。
　日本でも、自分が入力した歌詞をアイドルが実際に歌っているかのようなサービスや、実在する人物のリアルなアバターによるオンライン講義など、ここ数年で興味深い事例が増えてきています。

トッパンの取り組み

　トッパンは合成メディア技術を使ったアバター生成サービス「メタクローン®」と、アバターのなりすましや不正利用、ディープフェイク犯罪などを防ぐためのアバター生成管理基盤「AVATECT®」を開発しています。

メタクローン®

　合成メディア技術をアバター生成に応用し、株式会社ラディウス・ファイブと協同で、メタバース上でサービスを開発・運用する企業向けに、1枚の写真からフォトリアルな3Dアバターを自動生成できるサービス「メタクローン®アバター」を開発しました。

　本サービスは、「メタクローン®アバター」に自分自身の顔写真を1枚アップロードし、入力した身長と体重の情報を元に再現した、フォトリアルな3Dアバターを自動生成することができます。　3Dアバターの自動生成には、GANなどのAI技術を活用し、低解像度の写真データからも3Dアバターを作成することが可能です。また、架空の人物の顔写真を自動生成する事で、肖像権フリーの3Dアバターを利用する事もできます。　

　例えば、自分のアバターをゲームやバーチャルライブに登場させたり、バーチャルショッピングで自身のアバターに服を試着させることができたり、バーチャル観光で友人と集合写真を撮れたり、実際に会議室に集まっているかのようなバーチャル会議ができたりなど、このサービスを利用することで、メタバースにおける新たな体験を生み出します。

　今後は「メタクローン®アバター」に本人の肉声や表情、人格を再現するサービスを追加し、「メタクローン®プラットフォーム」を拡大させていきます。

AVATECT®

　メタバース市場への関心が高まる一方で、本人の許可や確認のない撮像などによりアバターが生成されてしまう危険性や、アバターのなりすまし/不正利用がメタバース普及の大きな課題になっています。同時に、メタバース上でアバターの行動に対する倫理規定が進んでおらず「ディープフェイク犯罪」のようなリスクが生じる危険性があります。

　このような中でトッパンは、メタバース普及に伴うセキュリティリスクを低減させるために、アバターの出自や所有者情報を管理すると同時に、NFTや電子透かしによって、アバターの唯一性や真正性を証明できるアバター生成管理基盤「AVATECT®」を開発しました。

　「AVATECT®」によって、安全・安心なデジタル空間を構築し、参加する個人や企業に新たな体験や経済活動の場を提供していきます。

トッパン有識者コメント

張平
情報コミュニケーション事業本部
未来イノベーションセンター　先端表現技術開発本部
ミラバース事業開発部　部長

　近年、まるで人間と見間違える程そっくりなバーチャルヒューマンが公開され、「合成メディア」は、AIの技術進歩により新たなイノベーションを引き起こしています。一方、プライバシー保護、不正利用、倫理的な問題など大きな懸念事項も既に挙げられています。

　トッパンでも、アバター生成サービス「メタクローン®アバター」を開発し、プライバシー保護に配慮したアバター管理基盤「AVATECT®」の構築を並行して進めています。時間と空間の制約を超えた新たなサービスとして、幅広い分野での活用を目指します。

　高精細なアバターや安心・安全に利用できるセキュリティ認証など、合成メディア技術を活用した「スマート社会」の実現に貢献します。

■編集者