宝安龙华积分商城网站建设做公司中文网站需要注意什么-河源市网站建设公司-Seo优化

宝安龙华积分商城网站建设,做公司中文网站需要注意什么,金坛网站优化,卡盟网站开发原文链接#xff1a;https://arxiv.org/abs/2511.07429 abstract 摘要翻译我们提出了基于文本的可解释视频异常检测#xff08;TbVAD#xff09;——一种面向弱监督视频异常检测#xff08;WSVAD#xff09;的语言驱动框架#xff0c;其异常检测与解释过程完全在文本…原文链接https://arxiv.org/abs/2511.07429abstract摘要翻译我们提出了基于文本的可解释视频异常检测TbVAD——一种面向弱监督视频异常检测WSVAD的语言驱动框架其异常检测与解释过程完全在文本域内完成。与依赖显式视觉特征的传统WSVAD模型不同TbVAD通过语言表征视频语义实现了可解释且基于知识的推理。该框架的运行分为三个阶段1利用视觉-语言模型VLM将视频内容转换为细粒度描述文本2通过将描述文本组织到动作、物体、上下文和环境四个语义槽中构建结构化知识3生成基于槽位的解释揭示哪些语义因素对异常判定的贡献最大。我们在UCF-Crime和XD-Violence两个公开基准数据集上对TbVAD进行了评估结果表明文本知识推理能够为现实世界的监控场景提供可解释且可靠的异常检测。1. .Introduction视频异常检测VAD是计算机视觉领域的一项关键任务尤其在监控和公共安全应用中具有重要意义[1, 21]。尽管近年来深度学习方法取得了显著进展但大多数现有方法仍严重依赖从原始帧或预训练网络中提取的视觉特征。然而在实际监控场景中闭路电视CCTV footage 往往分辨率较低视觉输入通常难以捕捉到细微却有意义的线索例如物体的微小移动、异常互动或环境的细微变化。除原始视觉信号外语言为视觉场景提供了一种极具价值但尚未被充分探索的表征形式[6, 9, 31, 35]。语言描述能够提供简洁、可解释且具有泛化性的语义信息与人类的推理方式更为契合。我们认为当与结构化推理相结合时文本表征不仅可以作为异常检测的替代模态还能成为可解释性推理的基础阐明某一事件被判定为异常的原因。为此我们提出了基于文本的可解释视频异常检测TbVAD——一种完全在文本域内完成异常检测与解释的框架。TbVAD 整合了三个互补组件1由视觉-语言模型VLM生成的细粒度描述文本用于刻画局部视觉事件2通过基于大型语言模型LLM的多维度总结构建的结构化知识涵盖动作、物体、上下文和环境四个语义槽捕捉正常与异常行为模式3基于槽位的解释生成模块根据影响最大的语义因素解读异常判定结果。这些组件共同构成了一个全面的推理流程其中领域级先验知识与实例特定描述共同助力可解释性决策的实现。在推理阶段TbVAD 计算槽位级重要性分数以确定哪些语义维度对异常预测的影响最为显著。每个描述文本都会与对应的结构化知识进行对齐并据此检索最相关的文本证据。通过将这些证据与细粒度描述文本相结合TbVAD 利用轻量级语言模型为检测到的异常生成简洁、易于人类理解的解释。这种一体化设计弥合了定量检测与定性解读之间的鸿沟实现了具有可解释性且基于知识的视频异常检测。最后在 UCF-Crime 和 XD-Violence 数据集上进行的大量实验表明将结构化文本知识与细粒度描述相结合显著提升了检测的准确性和可解释性验证了 TbVAD 基于文本推理方法的有效性。3. 方法本文提出的框架包含三个核心组件1用于构建多维度文本先验知识的结构化知识分支2用于编码细粒度描述文本的文本理解分支3用于异常检测中基于知识的可解释性推理分支。3.1 结构化知识分支3.1.1 概述与动机为利用文本语义进行异常检测该框架通过将视觉输入转换为丰富的基于语言的表征来构建结构化知识。这一过程始于从采样帧中提取细粒度描述文本随后通过大型语言模型LLM[18]进行多视角总结。3.1.2 描述文本生成的视觉-语言模型基准测试考虑到监控视频分辨率低、场景杂乱的特点选择高效的视觉-语言模型VLM生成描述文本至关重要。我们在多种闭路电视CCTV样本上对五种代表性VLMBLIP2[12]、GIT[24]、LLaVA[15]、MiniGPT4[39]和Molmo[8]进行了实证评估。如图1所示Molmo持续生成了最详尽且贴合上下文的描述文本其性能优于其他常生成简短或通用表述如“商店内出现一名穿连帽衫的男子”的模型。为量化这一观察结果表1报告了各模型的平均描述文本长度和TF-IDF分数。Molmo生成的描述文本最长且语义最丰富能有效捕捉物体细节、场景上下文和动作线索——这些都是异常推理的关键特征。模型可训练参数数量平均长度词频-逆文档频率TF-IDFGIT10亿9.731.9621BLIP227亿10.521.9829MiniGPT-4130亿49.093.2602LLaVA70亿91.281.9526Molmo70亿2602.864.2929表1. 不同模型在UCF数据集上的平均描述文本长度和信息含量TF-IDF对比。所有描述文本均基于同一视频集生成以确保公平比较。尽管Molmo展现出卓越的描述文本生成能力但由于UCF-Crime数据集采用逐帧评估协议需要为每帧生成描述文本大规模推理的计算成本极高因此我们未将其应用于该数据集。相反我们利用Molmo构建推理阶段所需的结构化知识表征确保其语义理解能力仍能为整个框架提供支持。对于在未剪辑片段上采用视频级标签的XD-Violence数据集Molmo被选为生成细粒度文本描述的主要描述文本生成器。3.1.3 基于大型语言模型的多维度总结如图2所示我们通过大型语言模型LLM[19]的多维度总结从细粒度描述文本即跨多帧聚合形成的综合描述中构建结构化知识。对于每个输入视频我们采样K帧等间隔帧并使用冻结的视觉-语言模型VLM[8]生成细粒度描述文本。生成的描述文本按视频标签分组正常样本组记为D n D_{n}Dn异常样本组记为D a D_{a}Da。为提取结构化语义我们设计了四个针对场景不同维度的定制化提示词上下文( P c (P_{c}(Pc、动作P a P_{a}Pa、物体P o P_{o}Po和环境P e P_{e}Pe如图2所示。每个提示词均应用于正常和异常描述文本组。设V { n , a } V\{n,a\}V{n,a}代表正常和异常标签集合对于每个维度K ∈ { C , A , O , E } K \in \{C,A,O,E\}K∈{C,A,O,E}可得到总结结果K v K_{v}Kv其中v ∈ V v \in Vv∈V。这些元素构成了每个类别的结构化知识K v { C v , A v , O v , E v } K_{v}\{C_{v},A_{v},O_{v},E_{v}\}Kv{Cv,Av,Ov,Ev}( v ∈ V (v \in V(v∈V。完整的表征定义为K { K n , K a } K\{K_{n},K_{a}\}K{Kn,Ka}。这种结构化表征捕捉了正常和异常事件的丰富语义先验知识使模型即使在视觉信号模糊或嘈杂的情况下也能基于文本识别异常。3.1.4 知识编码该过程接收由视频的四个文本组件构成的结构化表征K { C , A , O , E } K\{C,A,O,E\}K{C,A,O,E}。这些组件被拼接后通过冻结的语言模型编码为单个序列生成令牌嵌入S V ′ { s 1 , s 2 , . . . , s L } S_{V}\{s_{1},s_{2},...,s_{L}\}SV′{s1,s2,...,sL}。最终的知识表征通过将这些嵌入的均值投影到共享潜在空间获得3.2 文本理解分支3.2.1 细粒度描述文本编码对于给定视频我们采样K帧等间隔帧并使用冻结的视觉-语言模型生成对应的描述文本F d ′ { c 1 , c 2 , . . . , c K } F_{d}\{c_{1},c_{2},...,c_{K}\}Fd′{c1,c2,...,cK}。这些描述文本经过令牌化处理后嵌入为向量X d { x 1 , x 2 , . . . , x K } X_{d}\{x_{1},x_{2},...,x_{K}\}Xd{x1,x2,...,xK}作为Transformer编码器的初始输入即Z ( 0 ) X d Z^{(0)}X_{d}Z(0)Xd。该序列随后通过L层Transformer编码器堆叠处理最终输出H d Z ( L ) { h 1 , h 2 , . . . , h K } H_{d}Z^{(L)}\{h_{1},h_{2},...,h_{K}\}HdZ(L){h1,h2,...,hK}经平均池化聚合后投影到潜在空间3.2.2 特征聚合与分类两个投影向量P d P_{d}Pd和P V P_{V}PV通过特征融合模块拼接后输入分类头生成异常概率其中y表示预测的异常概率。该架构有效结合了帧级细粒度语义与高层上下文知识实现了稳健且可解释的视频异常检测。3.3 可解释推理分支3.3.1 槽位级重要性估计给定描述文本特征矩阵H d ∈ R T × d H_{d} \in \mathbb{R}^{T \times d}Hd∈RT×d和知识槽位原型K v ∈ R S × d K_{v} \in \mathbb{R}^{S \times d}Kv∈RS×d( S 4 (S4(S4对应上下文、动作、物体和环境我们首先计算跨注意力图将每个槽位与描述文本中最相关的令牌对齐其中A ∈ R S × T A \in \mathbb{R}^{S \times T}A∈RS×T表示槽位与令牌之间的注意力对齐关系C ∈ R S × d C \in \mathbb{R}^{S \times d}C∈RS×d表示通过令牌嵌入的加权组合得到的槽位特定上下文向量。随后通过轻量级投影网络融合每个槽位的上下文向量和原型嵌入估计其重要性其中f ( ⋅ ) f(\cdot)f(⋅)表示双层前馈变换w s w_{s}ws表示槽位s的归一化重要性。w s w_{s}ws值越高表明该槽位对异常判定的贡献越大。3.3.2 基于知识的证据检索对于每个槽位通过计算描述文本均值嵌入与槽位特定知识表征之间的余弦相似度识别语义最匹配的知识句子其中h ˉ \bar{h}hˉ表示均值池化后的描述文本表征E v , s E_{v,s}Ev,s表示类别v下槽位s的候选知识句子集合。在所有槽位中保留前k个通常k2作为支持证据为模型决策提供可解释的文本依据。3.3.3 文本解释生成最后将检索到的证据、槽位重要性分数和预测标签整合为结构化记录R。解释生成模块基于R生成简洁的自然语言解释总结导致异常判定的主要因素。生成的解释反映了模型的内部推理过程将定量预测与可解释的文本证据相结合提升了检测结果的透明度和可靠性。4. Experiments5. Conclusion我们介绍了TbVAD这是一个新颖的基于文本的视频异常检测(VAD)框架通过利用细粒度的字幕和结构化知识完全在语言领域内运行。通过将监控视频转换为丰富的文本表示TbVAD能够在弱监督下实现健壮和可解释的异常检测。我们的框架在UCF犯罪和XD暴力上表现出了良好的性能验证了文本推理在理解真实世界场景中复杂事件方面的有效性。除了检测精度之外TbVAD在可扩展性和效率方面具有实际优势消除了对高质量视觉输入的依赖。未来的工作将集中在将TbVAD扩展到实时分析并增强其跨不同事件类型的解释的通用性。通过识别异常及其语义前兆TbVAD有望实现主动安全监控和智能监控应用。总结怎么评测的感觉没说清楚看样子像是输出视频级分数。如果是这样的话咋和之前的工作做对比

宝安龙华积分商城网站建设做公司中文网站需要注意什么

广州网站建设维护建设银行账户网站查询密码

站长网站推广个性化网站成功的案例

深圳网站见下载百度app到桌面

展览网站建设wordpress唐杰

建设公司网站需要什么资料微信推广员当年的推广费

建站 discuz门户网站建设定做