多模态 AI 的一个令人兴奋的应用是视觉语言模型 (VLM)。这些模型可以同时处理和理解语言(文本)和视觉(图像)的模态,以执行高级视觉语言任务,例如视觉问答 (VQA)、图像字幕和文本到图像搜索。