NVIDIA Jarvis - 3Dチャットボット

こんにちは、うしじです。

5/14のGTC2020で、NVIDIAが対話型AIのフレームワークであるJarvisを発表しました。


GTC 2020 Keynote Part 5: NVIDIA Jarvis for Conversational AI

まずは、GTC 2020の下記動画を見てみてください。
CGのキャラクターが人のように話して面白くないですか!?



Jarvisを使えば、このような3Dチャットボットを作成することができるようです。
(3Dモデルの開発とか、どこまで追加対応が必要かはよくわかりませんが。)

また、今はまだEarly Accessの募集中の段階で、自由に使うということはできなさそうです。



Pre-Trained Model

Jarvisには、下記のPre-Trained Modelを利用することができ、これらのモデルを必要に応じて追加で学習させることにより、自身の用途に合わせた開発ができるようです。

Jarvis-Pipeline (参照:https://developer.nvidia.com/nvidia-jarvis)

  • ASR (Automatic Speech Recognition)
  • NLU (Natural Language Understanding)
  • TTS (Text to Speech)
  • Gesture Recognition
  • Lip Activity Detection
  • Object Detection
  • Gaze Detection
  • Sentiment Detection

(音声に合わせて3D CGを動かす、Audio2Faceは別なんですかね?)



ここが凄そう

GTC 2020の動画を見ると、Audio2Faceのところを売りにしているように思えますが、個人的には、Gesture RecognitionやGaze Detection、Sentiment Detection等のカメラから得られる情報も組み合わせて会話AIを構築している点がすごいと思っています。

NLUやTTS、STT(Speech to Text)、Transformer等を利用した会話AIは、かなり発展してきていると思いますが、ジェスチャー等のNonーverbalなコミュニケーションや、表情や口調に現れる感情も理解して対話可能なAIはまだ出てきていないと思っています。

また、そういった対話を成り立たせる際に、Misty等の何かしらのキャラクターも重要になってくると思っています。会話する対象がいて、目を合わせて会話することで、より自然な会話を実現できると思っています。


早く日本語に対応されて、自由に使えるようになって欲しいですね。