做网站送优化网站优化 kps

张小明 2026/1/11 3:42:43
做网站送优化,网站优化 kps,做网站软件wd,怎么建立微网站?2024年EMNLP上#xff0c;滑铁卢大学团队提出的文档截图嵌入#xff08;Document Screenshot Embedding, DSE#xff09; 范式#xff0c;为这一痛点提供了颠覆性解决方案。该方法将任意文档转化为截图作为统一输入#xff0c;无需任何内容提取预处理#xff0c;直接通过…2024年EMNLP上滑铁卢大学团队提出的文档截图嵌入Document Screenshot Embedding, DSE 范式为这一痛点提供了颠覆性解决方案。该方法将任意文档转化为截图作为统一输入无需任何内容提取预处理直接通过视觉语言模型编码为密集向量完美保留文档的文本、图像、布局等全部信息。在信息爆炸的时代我们面临的文档形态日益多元——网页、PDF、幻灯片等载体中文本、图像、图表、表格等模态交织共存。传统检索系统却始终受制于“分而治之”的逻辑HTML需要解析器、PDF依赖OCR、图像单独处理不仅预处理流程繁琐易错还会不可逆地丢失文档原始布局和视觉上下文信息。2024年EMNLP上滑铁卢大学团队提出的文档截图嵌入Document Screenshot Embedding, DSE范式为这一痛点提供了颠覆性解决方案。该方法将任意文档转化为截图作为统一输入无需任何内容提取预处理直接通过视觉语言模型编码为密集向量完美保留文档的文本、图像、布局等全部信息。论文地址https://aclanthology.org/2024.emnlp-main.373.pdf01、研究背景传统检索的两大核心痛点现有文档检索系统无论采用传统 lexical 方法还是神经模型都存在难以逾越的局限1. 预处理繁琐且易出错不同格式文档HTML、PDF、幻灯片需要定制化解析工具如HTML的结构解析、PDF的OCR文本提取、表格的单独处理。现实中野生HTML结构复杂、幻灯片布局多样单一工具难以精准提取全部信息且长期维护多模态处理流程成本极高。2. 视觉上下文与布局信息丢失文档的视觉呈现本身承载着关键语义标题的字号、图表的位置、文本的排版都在暗示信息的重要性层级。而传统方法通过提取文本或拆分图像单元进行处理彻底破坏了这种视觉完整性导致检索时丢失核心上下文线索。3. 多模态缺乏统一编码范式现有多模态检索仍依赖“文本图像”的分离编码无法将文档作为一个有机整体建模面对混合模态文档时检索效果受限。为此DSE的核心思路应运而生既然文档的原始形态包含所有信息何不直接将其作为检索的最小单元截图作为一种通用载体能轻松覆盖各类文档格式且完整保留视觉与布局信息。02、核心贡献范式创新数据集支撑1. 提出DSE统一检索范式首次将文档截图作为多模态检索的统一输入格式无需任何内容提取预处理直接通过视觉语言模型VLM编码为密集向量实现“截图输入→向量编码→相似度匹配”的端到端检索流程。2. 构建两大大规模评估数据集Wiki-SS130万张维基百科网页截图覆盖文本密集型文档场景用于验证DSE对纯文本信息的编码能力。SlideVQA-Open5万张幻灯片截图包含丰富的文本-图像混合内容图表、复杂布局用于评估混合模态检索性能。03、核心贡献范式创新数据集支撑现有数据集多为“文本图像”分离存储缺乏对文档整体视觉结构的保留且规模较小。为此研究团队构建了两个针对性数据集Wiki-SS文本密集型截图数据集构建方式使用Selenium工具自动访问英文维基百科页面以980×980像素窗口截图确保覆盖核心内容。截图时间跨度为2024年5月20-23日保证数据时效性。存储优化完整维基百科截图需2TB以上存储空间因此通过BM25筛选“有效样本”将每个NQ数据集的问题答案作为查询检索前50个相关文档最终保留1,267,874张截图确保包含正样本和困难负样本。文本对照集基于2024年5月20日维基百科dump使用mwparserfromhell工具提取前500词匹配截图内容覆盖范围构建文本检索基线的对照语料。SlideVQA-Open混合模态幻灯片数据集来源改造将原始SlideVQA14.5k问答对、52k幻灯片转换为开放域检索任务需从5万张幻灯片中检索相关样本。数据清洗删除无法下载的幻灯片和无证据幻灯片的问题最终保留50,714张幻灯片和2,136个测试问题。文本对照集使用pytesseract OCR提取幻灯片文本构建OCR-based检索基线。04、DSE核心方法截图→编码→检索的全流程解析DSE的核心是双编码器架构分别处理文档截图和文本查询通过对比学习优化相似度匹配。任务定义给定查询Q和文档截图集合检索与Q最相关的k个文档相似度由余弦相似度衡量模型架构详解1视觉编码器捕捉细粒度视觉信息基础模型采用clip-vit-large-patch14-336将截图缩放至336×336像素划分为24×24个patch共576个每个patch通过线性投影生成嵌入。优化方案针对长文本截图的细粒度捕捉问题引入Phi-3-vision模型将截图裁剪为个子图像如4×4每个子图像独立编码为576个patch嵌入同时保留全局截图的576个patch嵌入最终生成个patch嵌入兼顾局部细节与全局信息。2语言模型融合视觉与文本语义输入构造将patch嵌入序列与提示词拼接simg What is shown in this image?/s其中img占位符替换为patch嵌入序列。嵌入生成使用语言模型最后一个隐藏层的/s标记嵌入作为文档截图的最终向量表示其中是视觉编码器是语言编码器。3查询编码文本到向量的映射文本查询通过模板s{query}/s输入语言模型同样取/s标记的嵌入作为查询向量4对比学习训练损失函数采用InfoNCE损失优化正样本文档与查询的相似度抑制负样本文档含困难负样本和批次内负样本05、实验结果全方位验证DSE的优越性实验设置了两大核心任务文本密集型网页检索Wiki-SSNQ和混合模态幻灯片检索SlideVQA-Open对比基线包括BM25、DPR、E5、Phi-3文本检索和CLIP视觉检索。监督检索效果碾压传统方法文本密集型任务NQDSE 比 BM25 高 17 个 Top-1 准确率与 E5 性能相当仅略低于 Phi-34 个百分点证明其能有效编码截图中的文本信息。混合模态任务SlideVQADSE 大幅领先所有文本基线超 15 个 nDCG10比 CLIP 高 12.6 个 nDCG10凸显视觉上下文保留的核心价值 ——OCR 方法丢失图表、布局信息而 DSE 完整捕捉混合模态语义。零样本泛化能力跨数据集/跨任务的通用性跨数据集泛化TriviaQADSE比BM25高3个Top-1准确率远优于DPR和CLIP显示对不同查询分布的适应性。跨任务泛化SlideVQADSE是唯一优于BM25的模型比文本基线高14个nDCG10证明其无需任务特定训练即可处理混合模态文档。块序列长度的权衡细粒度与效率的平衡效果提升随着裁剪数量从1×1增加到4×4Top-10准确率从62.0%提升至73.7%细粒度patch能捕捉更多文本细节如单个字母、关键词。效率下降编码速度从12.2 doc/sec降至4.3 doc/sec计算成本随序列长度增长。最优选择2×2或3×3裁剪可平衡效果与效率适用于大多数场景。消融分析为何DSE如此有效1注意力可视化全局局部信息双捕捉全局注意力聚焦标题、图像、章节等宏观结构。局部注意力关注关键词、单个字母等细粒度文本信息。证明DSE能同时捕捉文档的结构特征和语义细节。2视觉整合的必要性对Phi-3文本检索的50个失败案例分析22个案例因OCR文本提取错误导致失败。28个案例因缺少视觉上下文如图表、布局导致失败。证明传统文本方法既受限于OCR准确性又丢失视觉信息而DSE通过截图编码完美解决这两个问题。3假阴性分析捕捉主文本外的关键信息传统评估仅检查主文本中的答案匹配导致DSE的7/50个样本被误判为“无关”——实际答案存在于截图的表格、图像标题中。这表明DSE能利用文档的完整视觉结构挖掘传统方法忽略的信息。06、总结DSE 通过 “截图作为统一输入” 的创新范式彻底简化了多模态检索的预处理流程同时完整保留文档的视觉与布局信息在文本密集型和混合模态任务中均展现出卓越性能。其单向量嵌入与双编码器架构平衡了检索效率与精度为通用场景提供了简洁高效的解决方案尤其在网页、幻灯片等常见文档类型的检索中表现突出。2025 年 ICLR 上的 ColPali 工作进一步提出多向量嵌入与延迟交互机制通过捕捉文档 patch 与查询 token 的细粒度匹配实现了检索精度的再提升。这两款模型虽技术路径不同但共同验证了 “直接基于原始像素的多模态检索”** 范式的可行性与优越性**也反映出该方向仍有巨大挖掘空间 —— 从单向量到多向量、从通用场景到工业级适配技术迭代正持续推动性能边界。但模态对齐仍是需要解决的关键问题。当前 DSE 虽能通过视觉语言模型融合文本与视觉信息但在文本密集场景中其性能仍略逊于专门的文本检索模型如 Phi-3说明视觉模态向文本语义的精准映射仍有优化空间而 ColPali 的多向量机制虽提升了匹配精度却也带来了更高的存储与计算成本如何在模态对齐质量与系统效率之间找到更优平衡仍是未来研究的核心方向。此外跨文档类型的泛化能力、低质量截图模糊、低分辨率的鲁棒性、无监督 / 弱监督训练策略的探索等也是该领域亟待突破的课题。随着视觉语言模型的持续演进未来的多模态检索系统有望实现 “精度与效率并重、通用与专用兼顾” 的目标进一步拓展在 RAG、学术文献检索、企业文档管理等实际场景的应用深度与广度。如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。一、全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能​因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

石家庄语音网站建设公司360极速浏览器网站开发缓存

还在为广告满天飞的阅读应用烦恼吗?开源阅读鸿蒙版为你带来纯净无干扰的沉浸式阅读体验!这款免费开源的阅读器不仅支持自定义书源抓取全网内容,还能完美管理本地文件,让你随心所欲打造专属的数字书房。 【免费下载链接】legado-Ha…

张小明 2026/1/10 12:30:01 网站建设

网站建设政务新媒体学做网站论坛会员账号

CANFD如何重塑汽车通信?从雷达数据上报看它的真正价值你有没有想过,一辆智能汽车每秒要处理多少信息?毫米波雷达扫描前方车辆、摄像头识别车道线、激光雷达构建环境点云……这些传感器的数据像潮水一样涌向中央控制器。如果通信总线扛不住压力…

张小明 2026/1/9 15:49:27 网站建设

网站建设公司人员组成软件工程和网络工程哪个好

HeyGem系统更新计划曝光:v1.0之后将新增这些功能 在教育机构忙着批量录制讲师课程、营销团队为产品视频反复剪辑的今天,一个现实问题日益凸显:如何用更低的成本、更快的速度生成高质量的讲解视频?真人出镜拍摄周期长、成本高&…

张小明 2026/1/8 13:04:12 网站建设

关于做视频网站的一些代码网络公司资质包括哪些

GIMP界面美化方案:打造专业级Photoshop风格体验 【免费下载链接】GimpPs Gimp Theme to be more photoshop like 项目地址: https://gitcode.com/gh_mirrors/gi/GimpPs 对于习惯使用Photoshop的设计师而言,转向免费开源的GIMP往往面临界面适应难题…

张小明 2026/1/8 12:09:02 网站建设

wordpress网站分享微信群互联网行业数据分析

PaddlePaddle镜像如何实现模型冷重启恢复?Checkpoint校验机制 在现代深度学习系统中,一次训练任务动辄持续数小时甚至数天。尤其是在处理大规模图像数据或复杂语言模型时,任何一次意外中断——比如服务器宕机、断电、进程崩溃——都可能让前期…

张小明 2026/1/8 13:48:50 网站建设