マルチモーダルAIとは｜活用事例と最新技術を紹介！

マルチモーダルAIはご存じでしょうか。
マルチモーダルAIは、近年注目されていて急速に実用化が進んでいる分野です。
2022年1月にも、Meta AI社（旧Facebook AI リサーチ社）がマルチモーダルAIのフレームワークであるData2vecを発表しています。
本記事では、マルチモーダルAIについて、活用事例と最新技術を紹介します。
今後発展が期待されるAIについて把握しておきましょう。

この記事の目次

マルチモーダルAIとは
- ・マルチモーダルAIの歴史
マルチモーダルAIの活用事例
- ・防犯カメラの行動認識
- ・自動車の自動運転
マルチモーダルAIの最新技術
- ・マルチモーダルAIの医療への応用
- ・マルチモーダルAIのロボットへの応用
まとめ

マルチモーダルAIとは

マルチモーダルAIとは、複数のモーダルを学習し、タスクに対応するAIです。
「モーダル」とは以下のようなAIの入力情報のことです。

画像情報
音声情報
テキスト情報
数値データ

従来は、1つのモーダルを学習・判断するシングルモーダルが主流でした。
例えば、人の顔画像から本人を認証する顔認証はシングルモーダルですが、顔認証と手のひら静脈認証を組み合わせた高度な認証はマルチモーダルです。
マルチモーダルの技術が発展することで、「五感」の複数の情報から判断する、人間に近い人工知能が実現できます。

・マルチモーダルAIの歴史

マルチモーダルAIの研究は、1986年ごろから始まりました。当時は唇の動きのみからテキストに変換するlip readingや、音声と画像、両方の情報から音声認識する研究などが行われています。
2011年には感情分析のコンテストも行われ、2013年には「Expressive Visual Text to Speech」と呼ばれる、テキストを入力をすると画面内の人の顔がテキストに合わせて楽しそうにしたり悲しそうにしたりしながら話す研究も行われました。
現在は、ディープラーニングを用いて動画の説明文を生成するなど、異なるモーダルへ変換して出力する「クロスモーダル」と呼ばれる研究や、画像情報を含めて翻訳結果を表示させる「マルチモーダル機械翻訳」などの研究が盛んです。
クロスモーダルでは、画像からのテキスト表示やテキスト情報からの画像生成などがあります。例えば手話の動画から音声を生成させたり、料理のレシピから味を表現したりと、今後の発展でよりAIが人間に近づくことが期待できます。

マルチモーダルAIの活用事例

マルチモーダルAIは、身近なところでも活用されています。
ここでは、活用事例について紹介します。

・防犯カメラの行動認識

マルチモーダルAIは、動画データと音声データを利用することで防犯カメラの行動認識に活用されています。従来の防犯カメラは、映像のみの解析が主です。
一方、映像データと音声データを利用することで騒音や言い争いなどのトラブルも解析でき、高度な監視が可能になります。
例えば、2人の人が立って話している状況の場合、映像データでは問題がないように見えても音声データを合わせて解析すると、恐喝や言い争いの現場であったということもあるでしょう。
このようにマルチモーダルに解析することで、映像や音声を含めた行動認識が可能になります。

・自動車の自動運転

自動車の自動運転にも、マルチモーダルAIが利用されています。
カメラによる映像を物体認識することで人間の「目」と同じような役割を果たし、超音波センサーやミリ波レーダで周囲の物体との距離を測ります。
その他にも、GPSセンサーを使った位置情報把握や加速度センサーを使った車体の挙動把握で、複合的な判断が行われるのが自動運転です。

マルチモーダルAIの最新技術

マルチモーダルAIの技術開発はさまざまな分野で行われています。
ここでは、代表的な分野として医療とロボットへの応用を紹介します。

・マルチモーダルAIの医療への応用

【超音波画像と診断情報を統合した疾患画像判別モデルを開発】
東京大学と株式会社グルーヴノーツは、画像と診断情報を統合した肝臓がん早期発見のための疾患判別モデルを開発し、診断精度の向上に役立てています。
従来の超音波画像と年齢や性別・血液情報を含めて診断することで正診率を向上させるという結果を導いています。
（参考：AI で医療画像と診療情報を統合－高精度な疾患画像判別モデルを開発－）

【遠隔ICUのための、血圧や心拍数データと映像を用いた重症度評価】
横浜市立大学と株式会社CROSS SYNCは、「AI技術により重症患者を見守る遠隔ICUサービスの実装研究課題」がAMEDの「医工連携・人工知能実装研究事業」に採択されたことを発表しました。
患者の映像データの解析と血液や心拍数・呼吸器から得られた情報を元に患者の重症度を評価し、遠隔ICUスタッフの負担削減を目指します。
（参考：AI技術により重症患者さんを見守る遠隔ICUサービスの実装研究課題が、AMED「医工連携・人工知能実装研究事業」に採択されました）

・マルチモーダルAIのロボットへの応用

【映像とセンサーの同時学習で秤量自動化】
株式会社エクサウィザーズは、粉体製造業の現場向けに秤量を自動化する「COREVERY」というAIを開発しています。
プログラミング不要で映像と複数のセンサーにより、動きを学習させられるロボット自動学習システムです。他にも食品の盛り付けや単純作業に活用できます。
（参考：ロボット自動学習システム「COREVERY」が粉体製造業の現場向け秤量自動化AIシステムを実現）

【音声対話システムを組み込んだアンドロイドERICA】
京都大学は、音声対話システムを組み込み、傾聴や就職面接、お見合いができるアンドロイドロボットERICAを開発しています。以下のような技術を活用し、相槌や質問、話題提供などの応答を返します。

音声認識
音声合成
動作確認
動作生成

人間らしいロボットを目指してマルチモーダルチューリングテストに挑戦しているプロジェクトです。
（参考：石黒共生ヒューマンロボットインタラクションプロジェクト）

まとめ

マルチモーダルAIについて、歴史から活用事例・最新技術まで紹介しました。
マルチモーダルの研究が進むことで、自動化や解析技術が向上するのはもちろん、より人間の五感に近い情報の解析や結果の生成もできるようになるでしょう。
味覚や嗅覚の表現ができるようになるのもそう遠くないかもしれません。
マルチモーダルAIについて理解することで、最新のAI技術の導入に役立てましょう。

この情報は役に立ちましたか？

フィードバックをいただき、ありがとうございました！

マルチモーダルAIとは｜活用事例と最新技術を紹介！