多模态大模型Monkey：实现更准确的“看图说话”

吴纯新汪伟颋高翔 ☉ 文来源：科技日报
2024-01-08 @ 哈希力量选录

归集: 首页 > 通用人工智能 > 人工智能与机器人产业要闻库

人工摘要：华中科技大学软件学院白翔教授领衔的VLRLab团队正式发布。

（记者吴纯新通讯员汪伟颋高翔）1月5日，记者从华中科技大学获悉，该校软件学院白翔教授领衔的VLRLab团队正式发布多模态大模型——Monkey。该模型可精确描述图片内容，并和人类就图片内容进行深入交流。

多模态大模型是一类可以同时处理和整合多种感知数据（如文本、图片、音频等）的AI架构。近年来，它在众多场景中展现出较大潜力。据介绍，Monkey在18个数据集上的实验中表现出色，在图片描述、视觉问答任务以及文本密集的问答任务中具有优势。

据介绍，目前，几乎所有多模态大模型都需要运用网上爬取的图文对数据集。这些数据集只能让大模型完成简单的图文描述任务，难以充分挖掘图片分辨率日益增加的优势。

为解决上述问题，Monkey研发团队利用现有工具构建了一种多层级的描述生成方法。通过依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结，该方法可大幅提升图片描述的准确性和丰富程度。

“一个个工具就好比不同的零件，合理排列组合才能使其发挥最大作用。”白翔说，他所在的团队从2003年就开始从事图片识别研究。他们一起反复讨论，尝试了10余种方案后才确定Monkey的最终方案。

白翔介绍，Monkey的另一亮点是能处理分辨率高达1344×896像素的图片，这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。

据悉，目前业内能处理的图片最大分辨率为448×448像素。若想进一步提升多模态大模型的图片处理能力，需投入高昂的算力成本。该团队成员刘禹良介绍，为解决上述问题，团队采用创新性的“裁剪”方法。他们将原始输入图片分割成多个图片块，每个图片块的尺寸小于448×448像素。他们还为每个图片块配备了一个“放大镜”，将“放大镜”放到图片块合适的位置即可“看”清更多细节。多个“放大镜”同时工作，分别“放大”不同的图片块，就能提取更多图片局部特征。

（原文标题：《Monkey：实现更准确的“看图说话”》）

哈希力量文库选录，手机端省略本文网址

.长文建议换电脑刷.

【投融资简报库】

OpenAI收购科技脱口秀TBPN

橡鹿机器人完成3亿融资

OpenAI完成1220亿美元融资