ARを使ったサービス、増えてきています。少し前に流行したPokemon GOもそうですし、SnapchatやSNOWなどもARの技術を使っています。最近ではお隣中国で作られたTikTokなんかもAR技術を活用して人々に注目されていますね。
一方で、AR技術を使った『Deepfake』が、アメリカなどで犯罪を助長するのではと問題視され始めている側面もあります。
今回取材した、AIスタートアップEmbodyMeが提供している、ディープラーニングを用いてフェイクビデオを簡単に作れる『Xpression』というアプリ。最初に見た時、正直に言って悪用される危険しか感じませんでした……!
こちらがどういった技術で動いているのか? そして何より悪用される危険はないのか? そんな懸念を、Xpressionを提供しているEmbodyMe代表 吉田さんにぶつけてきました。
ディープラーニングでフェイク映像を簡単に作れるアプリ
「Xpressionは、ディープラーニングを用いて本物と区別のつかないフェイク映像を誰でも簡単に作れるスマホアプリです。」
(EmbodyMe 提供)
ユーザーの顔の表情に合わせて写真、ビデオの顔を自由に動かせるというもの。ビデオや写真はYoutubeから取ってきたものから自分で撮影したものまで、何でも可能とのこと。これは手軽ですね!
「その場で友達の動画を撮って、(Xpression上で)友達に好きなことを言わせて、InstagramやLINEなどのSNSにアップする、のような使い方も可能ですね(笑)」
(EmbodyMe 提供)
ARで写真や映像を加工できるサービスの多くが自分が映ることがメインですが、この使い方は斬新ですね。
手軽さに優れているXpression。ほかのAR加工とどのような違いがあるのでしょうか。
Xpressionが見据えるビジョンは「実生活」への活用
「Xpressionはいろいろなコミュニケーションを進化させるので応用の幅が広いです。AppleのAnimojiなどもありますが、Animojiは表現の幅が限られています。Xpressionを使えば、任意の顔で自分の表情を乗せてメッセージ送信することも可能になります。ここでは自分の歌っているところをジョンレノンに合わせて表現しています。」
(EmbodyMe 提供)
たしかにAnimojiでは数種類のキャラクターしか使えませんが、Xpressionなら無限なソースから無限の表現ができますね。Animojiの推す、なりきりカラオケ機能なども、Xpressionならよりリアルに表現可能です。
さらに、最近話題沸騰中のバーチャルYoutuberの可能性も広がるそうです。
「バーチャルYoutuberは3Dモデルをわざわざ作る必要があり、それが一般のユーザーにとって大きなコストになってしまいます。Xpressionの場合はビデオや写真を用意することで、誰でも簡単にバーチャルYoutuberになれます。」
たしかにあの可愛らしいキャラクターを一般人が用意するのは至難の業……。Xpressionがバーチャルキャラクターの利用も伸ばしそうです。
また、XpressionはSNSだけでなくスケールの大きい撮影にも応用の可能性があるんだとか。
「(ほかの活用法としては)映画やドラマですね。下記はドラマ半沢直樹のワンシーンですが、登場人物に自分の声と表情を当てています。このように既存の映画やドラマを切りはりするだけで自分のオリジナルのストーリーを作ることも可能です。映画を作るのに、撮影なども必要なくなってきます。」
(EmbodyMe 提供)
さまざまなコストを削減できて個人で映画など映像作品の作成が可能になります。2次制作の幅が大きく広がりますね。
一方で、Xpressionの利用はエンタメだけにとどまりません。
「たとえばビデオ通話などで会議や面接するシーン。Xpressionを使うと、あらかじめスーツ姿などを撮影しておけば、実際はパジャマ姿でも、スーツ姿でのビデオ通話が可能になります。
特に、女性は急遽のビデオ通話ですっぴんだと恥ずかしい、などの悩みもあるかと思います。そういう悩みなどもXpressionで解決できて、常にベストな自分でいることができると考えています。」
なるほど。SNSなどのバーチャル空間に閉じた利用だけでなく、自分の身の周りなどの実生活にも影響を及ぼしうる。これはfacebookやSnapchatなどの大手SNS企業も注目していない、さらに汎用性も高い利用法となりえるかもしれないですね。
XpressionをXpressionたらしめている技術
「まず、(Xpressionに)競合企業というものはいないですね。というのも、技術的にかなり困難なので、真似をすることが難しいからです。ただ研究分野ではアメリカで2年前に出された『face2face』という類似研究があります。」
face2faceといえば、2016年のCVPR(コンピュータービジョンとパターン認識分野の世界会議)にて発表された、ミュンヘン工科大学とスタンフォード大学が共同で発表した研究です。発表直後からDeepfakeの可能性を示唆されて話題になったことが記憶にも新しいですが、face2faceとは以下のような大きな違いがあるとか。
- ビデオをあらかじめ時間をかけて解析する必要あり
- 特定の人物の顔が長く写っているようなビデオでないと動作しない
- リアルタイムでユーザの表情を読み取って動かせるが、研究用のハイスペックマシンなどの高速で整った設備が必要
- 入力する動画の解析は不要で、好きな動画をすぐに利用可能
- face2faceよりも数百倍高速で、スマホや一般的なPCでもリアルタイムで動く
世界を震撼させたface2faceは、最先端研究とされていながら、未だに実用化には大きな壁があることがわかります。それに対してXpressionはアプリを落とせば即時利用可能。大幅に差をつけていることが見て取れますね。
では、Xpressionがさまざまな可能性を生む裏には、どのような技術が実際に動いているのでしょうか?
「簡単に説明すると3つのディープラーニングのネットワークが動いています。
- カメラの3D顔形状と表情を別々に解析
- ビデオも3D顔形状と表情を別々に解析
- 口周りの画像をGAN(画像生成技術)で生成
解析情報を元にビデオを変えると補完が必要になり、そこの補完にGANを利用しています。そしてこの3つのディープラーニングを、すべてモバイル上でリアルタイムで走らせています。
GANをモバイル上でリアルタイムで動かすという研究自体がなく、それだけでも既存研究に大きく差をつけていますね。」
――このような難しい技術をなぜXpressionは可能にしているのでしょうか?
「もちろんネットワーク構造や学習方法などの工夫がたくさんありますが、それだけでなく前職のYahoo在籍時から同じようなことをずっとやっていたので、ノウハウが生きたことも事実です。」
吉田さんはSnapchatやSnowが流行する前の2013年ごろから、ARで顔を認識して変化させるアプリをいくつも開発、リリースしていたんだそう。アメリカや世界でAR加工が流行する、ずいぶん前に日本でリリースされていたことが驚きです。そのような積み重ねがXpressionの優れた機能性に繋がっているんですね。
Deepfakeのような悪用の可能性は?
(EmbodyMe 提供)
――Deepfakeやフェイクポルノのような悪用の可能性はあるんでしょうか?
「もちろん悪用される可能性はあると思います。しかし、それをどう対処、抑止するかが大事になってくると思っていて。現状はロゴの貼り付けをしていますが、動画内に”電子透かし”を入れることは確実に実現したいですね。」
ユーザーが認識できないような電子透かしを入れることで、「Xpressionを利用して制作している」証明になり、これが抑止力になると吉田さんは語ります。
「それから、どうしてもVRやインターネットしかり、テクノロジーの黎明期においてはポルノ利用がつきものです。Deepfakeやフェイクポルノが話題になったのも、将来世の中に浸透していく重要なテクノロジーであることの証であると考えます。」
VRはともかく、あのAmazonでさえ、初期にポルノ本の売買が便利になったことが利用者増加の火付け役になったと言われるほど。テクノロジー黎明期にポルノ利用の可能性が発生することは避けられないのかもしれません。
技術が悪用されるときによくある議論で、Techonological vs Cultural determinismというものがあります。簡単にいえば「人を殺すのは拳銃か人か」という論争です。
テクノロジーを用いて事件が起こったとき、「それは人のせいなのかテクノロジー自体のせいなのか」を考えることは大事です。
しかしそれだけでなく、開発時にできるだけ考えられるサイドエフェクトを対策、抑止することも大事になってくるでしょう。
今後は個人での映像制作の課題を解決していく
――今後はどういった展開を考えているのでしょうか?
「直近で言えば、SNS利用に注力したいですね。最近はSnapchatだけでなく、TikTokの台頭によりAR加工の波が来ています。Xpressionは応用の幅が広いので、TikTokなどのアプリにそのまま応用することも可能だと思います。」
たしかに、現在の流行を見ると、Xpressionの可能性はトレンドをより増大する力を持っています。また、SNS応用だけでなく、SDK(ソフトウェア開発キット)としての提供していくことも考えているそうです。
「サービスだけでなく技術開発にも強い会社なので、SDKとして提供することでほかのアプリケーションにも適用できるようにし、最終的にはそこを収益化していきたいと思っています。」
Xpressionの高い技術力がほかのアプリケーションにも適用されていけば、映像制作は根本から変わるかもしれません。
今後は声や文字だけから表情を動かす技術や、頭部全体、最終的には体全体を生成する技術を2020年までに確立したいと考えているそう。これにより、費用などの問題で難しかった、個人での映像制作の課題を解決していきたい、と吉田さんは語ります。
AR市場は現在とても熱く、AR広告は2017年では全体で1兆4000億円もの市場が生まれ、今後も伸びるといわれています。そこに挑戦するXpressionは、この先どのように利用され、進化していくのでしょうか。これからの動向にも注目です。