6月2日,来自剑桥大学、NAIST、腾讯AI Lab的研究人员们发布通用指令跟随模型(instruction-following model)PandaGPT。据介绍,PandaGPT可以执行复杂的任务,如生成详细的图像描述、编写受视频启发的故事、回答有关音频的问题。PandaGPT可同时接受多模态输入,并自然地组合它们的语义。
PandaGPT在文本、图像/视频、音频、深度、热(thermal)和IMU六种模态上展示了跨模态能力,但由于ImageBind提供的共享嵌入空间,它只能使用对齐的图像-文本对进行训练。研究人员希望PandaGPT可以作为构建通用人工智能(AGI)的第一步,它可以像人类一样全面地感知和理解不同形式的输入。

项目主页:
https://panda-gpt.github.io/
GitHub地址:
https://github.com/yxuansu/PandaGPT
论文地址:
http://arxiv.org/abs/2305.16355

发评论,每天都得现金奖励!超多礼品等你来拿
点击登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则