世博体育APP最新版2024安卓最新版_手机app官方版免费安装下载-世博体育VSA 依然针对通用图像进行了实验-世博体育APP最新版2024安卓最新版_手机app官方版免费安装下载

世博体育VSA 依然针对通用图像进行了实验-世博体育APP最新版2024安卓最新版_手机app官方版免费安装下载

发布日期:2025-12-12 12:08  点击次数:157

世博体育VSA 依然针对通用图像进行了实验-世博体育APP最新版2024安卓最新版_手机app官方版免费安装下载

OpenAI 推出 SearchGPT 没几天,开源版块也来了。

港汉文 MMLab、上海 AI Lab、腾讯团队简便完竣了Vision Search Assistant,模子瞎想疏忽,唯有两张 RTX3090就可复现。

Vision Search Assistant(VSA)以视觉讲话模子(VLM)为基础,奥妙地将 Web 搜索本领融入其中,让 VLM 里面的学问得到实时更新,使其愈加活泼和智能。

当今,VSA 依然针对通用图像进行了实验,可视化和量化后果考究。但不同类别的图像各具特点,还不错针对不同种类的图像(比如表格、医学等)构建出更为特定的 VSA 应用。

更令东说念主激越的是,VSA 的后劲并不仅限于图像处理。还有更刚劲的可探索空间,比如视频、3D 模子和声息等领域,期待能将多模态参议推向新的高度。

让 VLM 处理未见过的图像和新意见

大型讲话模子(LLM)的出现让东说念主类不错哄骗模子的刚劲零样本问答本领来获取生分学问。

在此基础上,检索增强生成(RAG)等本领进一步提高了 LLM 在学问密集型、通达域问答任务中的弘扬。然则,VLM 在濒临未见过的图像和新意见时,它们常常弗成哄骗好来自互联网的最新多模态学问。

现存的 Web Agent 主要依赖于对用户问题的检索,并回想检索复返的 HTML 文本履行,因此它们在处理触及图像或其他视觉履行的任务时存在彰着的局限性,即视觉信息被忽视或处理不充分。

为了措置这一问题,团队冷漠了 Vision Search Assistant。Vision Search Assistant 以 VLM 模子为基础,大致回答关系未见过的图像或新意见的问题,其行动类似东说念主类在互联网上进行搜索并措置问题的过程,包括:

剖析查询

决定应该祥和图像中的哪些对象并预计对象之间的关系性

逐对象生成查询文本

根据查询文本和预计出的关系性分析搜索引擎复返的履行

判断赢得的视觉和文本信息是否足以生成谜底,或者它应该迭代和改造上述过程

结合检索后果,回答用户的问题

视觉履行描摹

视觉履行描摹模块被用来提真金不怕火图像中对象级的描摹和对象之间的关系性,其经由如下图所示。

起原哄骗通达域的检测模子来获取值得祥和的图像区域。紧接着对每一个检测到的区域,使用 VLM 获取对象级的文本描摹。

临了,为了更全面地抒发视觉履行,哄骗 VLM 进一步关联不同的视觉区域以赢得不同对象的更精准描摹。

具体地,令用户输入图片为,用户的问题为。可通过一个通达域的检测模子获取个感兴致的区域:

然后哄骗预磨真金不怕火的 VLM 模子折柳描摹这个区域的视觉履行:

为了让不同区域的信息关联起来,提高描摹的精度,可将区域与其它区域的描摹拼接,让 VLM 对区域的描摹进行矫正:

至此,从用户输入赢得了与之高度关系的个视觉区域的精准描摹。

Web 学问搜索:"搜索链"

Web 学问搜索的中枢是名为"搜索链"的迭代算法,旨在获取关系视觉描摹的详细性的 Web 学问,其经由如下图所示。

在 Vision Search Assistant 中哄骗 LLM 来生成与谜底关系的子问题,这一 LLM 被称为" Planing Agent "。搜索引擎复返的页面会被相同的 LLM 分析、选拔和回想,被称为" Searching Agent "。通过这种形式,不错赢得与视觉履行关系的 Web 学问。

具体地,由于搜索是对每个区域的视觉履行描摹折柳进行的,因此以区域为例,并概略这个上标,即。该模块中使用吞并个 LLM 模子构建有野心智能体(Planning Agent)和搜索智能体(Searching Agent)。有野心智能体驱散通盘搜索链的经由,搜索智能体与搜索引擎交互,筛选、回想网页信息。

以第一轮迭代为例,有野心智能体将问题拆分红个搜索子问题并交由搜索智能体处理。搜索智能体会将每一个托福搜索引擎,得到页面累积。搜索引擎会阅读页面提要并选拔与问题最关系的页面累积(下标集为),具体本领如下:

关于这些被选中的页面,搜索智能体会防卫阅读其履行,并进行回想:

最终,通盘个子问题的回想运送给有野心智能体,有野心智能体回想得到第一轮迭代后的 Web 学问:

近似进行上述迭代过程次,或是有野心智能体以为面前的 Web 学问已足矣回话原问题时,搜索链罢手,得到最终的 Web 学问。

协同生成

最终基于原始图像、视觉描摹、Web 学问,哄骗 VLM 回答用户的问题,其经由如下图所示。具体而言,最终的回答为:

实验后果通达集问答可视化对比

下图中比较了新事件(前两行)和新图像(后两行)的通达集问答后果。

将 Vision Search Assistant 和 Qwen2-VL-72B 以及 InternVL2-76B 进行了比较,不难发现,Vision Search Assistant 擅永生成更新、更准确、更防卫的后果。

举例,在第一个样例中,Vision Search Assistant 对 2024 年 Tesla 公司的情况进行了回想,而 Qwen2-VL 局限于 2023 年的信息,InternVL2 明确暗示无法提供该公司的实时情况。

通达集问答评估

在通达集问答评估中,整个通过 10 位东说念主类各人进行了比较评估,评估履行触及 7 月 15 日至 9 月 25 日历间再行闻中采集的 100 个图文对,涵盖新颖图像和事件的通盘领域。

东说念主类各人从真的性、关系性和撑合手性三个关节维度进行了评估。

如下图所示,与 Perplexity.ai Pro 和 GPT-4-Web 比拟,Vision Search Assistant 在通盘三个维度上齐弘扬出色。

事实性:Vision Search Assistant 得分为 68%,优于 Perplexity.ai Pro(14%)和 GPT-4-Web(18%)。这一显耀最初标明,Vision Search Assistant 恒久提供更准确、更基于事实的谜底。

关系性:Vision Search Assistant 的关系性得分为 80%,在提供高度关系的谜底方面弘扬出显耀上风。比拟之下,Perplexity.ai Pro 和 GPT-4-Web 折柳达到 11% 和 9%,露馅出在保合手累积搜索时效性方面存在显耀差距。

撑合手性:Vision Search Assistant 在为其反应提供充分根据和事理方面也优于其他模子,撑合手性得分为 63%。Perplexity.ai Pro 和 GPT-4-Web 折柳以 19% 和 24% 的得分落伍。这些后果突显了 Vision Search Assistant 在通达集任务中的超卓弘扬,相等是在提供全面、关系且得到考究撑合手的谜底方面,使其成为处理新图像和事件的有用本领。

阻塞集问答评估

在 LLaVA W 基准进行闭集评估,其中包含 60 个问题,触及 VLM 在原野的对话、细节和推理本领。

使用 GPT-4o ( 0806 ) 模子进行评估,使用 LLaVA-1.6-7B 四肢基线模子,该模子在两种模式下进行了评估:规范模式和使用疏忽 Google 图片搜索组件的"朴素搜索"模式。

此外还评估了 LLaVA-1.6-7B 的增强版块,该版块配备搜索链模块。

如下表所示,Vision Search Assistant 在通盘类别中均弘扬出最强的性能。具体而言,它在对话类别中赢得了 73.3% 的得分,与 LLaVA 模子比拟略有普及,普及幅度为 +0.4%。在细节类别中,Vision Search Assistant 以 79.3% 的得分脱颖而出,比弘扬最好的 LLaVA 变体卓著 +2.8%。

在推理方面,VSA 本领比弘扬最好的 LLaVA 模子卓著 +10.8%。这标明 Vision Search Assistant 对视觉和文本搜索的高等集成极地面增强了其推理本领。

Vision Search Assistant 的全体性能为 84.9%,比基线模子提高 +6.4%。这标明 Vision Search Assistant 在对话和推理任务中齐弘扬出色,使其在原野问答本领方面具有彰着上风。

论文:https://arxiv.org/abs/2410.21220

主页:https://cnzzx.github.io/VSA/

代码:https://github.com/cnzzx/VSA

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿履行‍

附上论文 / 步田主页剖析,以及探讨形式哦

咱们会(尽量)实时回复你

点这里� � 祥和我,铭记标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日再会 ~  



相关资讯
热点资讯
  • 友情链接:

Powered by 世博体育APP最新版2024安卓最新版_手机app官方版免费安装下载 @2013-2022 RSS地图 HTML地图