黑龙江省建设教育信息网站网站建设服务合同协议-河源市网站建设公司-Seo优化

黑龙江省建设教育信息网站,网站建设服务合同协议,wordpress 查询系统,网站百度未收录商桥安装显示#x1f7e6; 大厂搜索引擎的数据流总图┌──────────┐│ 用户Query │└─────┬────┘↓┌────────────────────┐│ Query Processing │← 分词 / 拼写纠错 / Query Rewrite/同义词扩展└───────┬──────────… 大厂搜索引擎的数据流总图┌──────────┐ │ 用户Query │ └─────┬────┘ ↓ ┌────────────────────┐ │ Query Processing │← 分词/拼写纠错/Query Rewrite/同义词扩展 └───────┬────────────┘ ↓ ┌──────────────────────────────┐ │ Multi-Retriever │ │(倒排召回向量召回规则召回)│ └──────────┬───────────┬────────┘ ↓ ↓ Inverted Index ANN Vector Index 倒排索引向量索引 ↓ ↓ 文本候选集图搜候选集 └──────┬───────┘ ↓ ┌────────────────────┐ │ Rank1│ ← 粗排经典排序轻量模型 └──────────┬─────────┘ ↓ ┌────────────────────┐ │ Rank2│ ← 精排深度模型DNN └──────────┬─────────┘ ↓ ┌────────────────────┐ │ Rerank/LLM │ ← 语义增强/结果重排序 └──────────┬─────────┘ ↓ ┌────────────────────┐ │ Final Results │ └────────────────────┘ 第 1 步用户 QueryUser Query 一、主流输入类型当前主流关键词文本 QuerySearch Text——传统主流图像 QueryImage Query / 图搜图片 → 图像 embedding[[搜广推术语#embedding]] → 向量检索[[搜广推术语#检索 Retrieval]]多模态 QueryText Image / Text Video— 快速发展中二、主流技术栈整个互联网大厂都在用① Query Parsing查询解析✔ 当前主流- 分词Tokenizer- 语言检测LangID- 拼写纠错Spell Correction- Query Classification理解用户想搜什么- Query Segmentation拆句典型算法-Trie / Double Array Trie词典分词-BERT / RoBERTa意图分类-编辑距离、BK-tree纠错② Query UnderstandingQuery 理解✔ 当前大厂标配核心目标- 判定 Query 的语义意图- 识别实体NER- 分类场景比如“新闻、百科、商品、公众号”主流技术- BERT / RoBERTa / NEZHA- Prompt-based LLM 意图理解模型- 多模态理解模型图搜③ Query Rewrite召回增强✔ 当前主流大厂重点Rewrite 让搜索能“多抓一些内容”。例如 query“苹果手机” → [“iPhone”, “苹果手机”, “apple 手机”, “iphone 14”]主流技术- ML-based rewriteGNN / Transformer- Query Expansion基于词典、Click Graph- Embedding-based rewrite向量相似度- LLM-based rewrite趋势大厂特色- GoogleQuery Rewrite RankBrain- 百度基于 ERNIE 的 query 改写- 腾讯搜一搜多模态改写图搜场景④ Query Normalization归一化✔ 工程必做把用户输入的乱七八糟文本“标准化”转成搜索引擎能理解和处理的规范形式。例如- “iphne13” → “iphone 13”- “300鞋子” → “300元鞋子”- 全角 → 半角繁体 → 简体这是 C 工程侧会实现的模块。四、未来发展方向2025–2030 主流趋势趋势 1LLM 深度参与 Query 理解- 用户Query → LLM生成多个意图 → 多路召回- Google 已经在做Search Generative Experience, SGE。趋势 2多模态 Query 成为标配- 图像高频- 视频极高增长- 音频- App 内上下文微信生态特强趋势 3个性化 Query 解释- A 搜 “游戏” → 想玩游戏- B 搜 “游戏” → 想看攻略- C 搜 “游戏” → 想下载小程序这需要大模型和用户行为深度结合。趋势 4Query → Agent 任务执行未来 Query 不只是搜索还会变成任务帮我订机票帮我做 PPT 帮我写个表格LLM 直接执行而不是只是返回文档。趋势 5语音图文多模态合一语音这个东西多少钱图用户正在拍摄商品第 3 步Multi-Retriever多路召回 1. Multi-Retriever 为什么是“多路”因为一种召回无法覆盖所有用户意图。所以大厂全部采用多路召回系统常见结构Multi-Retriever ┌─────────────┼────────────┬────────────────┐ 倒排召回Lexical 向量召回Semantic 规则召回Rule-based 图文召回Multimodal 点击图召回Click Graph 实体召回KG所有召回结果会合并 → Rank1 → Rank2。① 倒排召回Inverted Index Retrieval——传统搜索主力query term → posting list → docIDs核心特征- 精确匹配lexical matching、特别快延迟低、对拼写敏感、对语义不敏感弱点主流技术- BM25、TF-IDF、SkipList 压缩 posting、多索引融合title/abstract/content② 向量召回Vector Retrieval / ANN——图搜、多模态、语义召回核心用 embedding句向量、图像向量匹配语义query_emb → ANN index → nearest neighbors主流 ANN 技术- HNSW准确、快速、工业界最常用- IVF PQFaiss分桶压缩适合大规模索引- ScaNNGoogle高速 ANN图搜链路- Image → CLIP embedding → HNSW → Top-K 图文内容③ 多模态召回Multimodal Retrieval——图搜特有的融合召回当 query 不只是文本还包含图片、视频时- text_emb image_emb → Joint Embedding → ANN主流模型-CLIP图像文本对齐-BLIP2-Q-Former-Florence微软 ④ 规则召回Rule-based Retrieval——非常重要的兜底机制这些场景不需要 ANN也不需要倒排。- 直接返回 card卡片- 匹配知识库 KB- 精准回答例如“北京天气” → 直接给天气 widgetRank1粗排是什么Rank1 召回后对上千条候选文档做一次高速过滤与排序用于“削减规模”把 1000→几十条为 Rank2 准备干净的候选池。项目Rank1粗排主要目标快速过滤、减少候选规模1000 → 100定位“粗筛选”不追求极致准确只求快和稳定输入多路召回的结果倒排、向量、规则、点击图输出Top 80–200候选池模型类型轻量模型・LR线性模型・GBDTLightGBM・轻量 MLP1–2 层・规则排序BM25 等特征数量少量10–50 维典型特征BM25 / TF-IDF、embedding 粗相似度、Doc 质量分、点击率先验、内容长度、时间衰减延迟要求极低1~3 ms资源开销很小CPU 友好作用去掉明显无关/低质量的内容保证 Rank2 输入干净工程重点并发、内存、特征快速计算、召回合并与裁剪大厂实践大规模倒排场景、图搜粗排、多模态初筛必用一句话总结Rank1 做“快粗”确保不犯大错Rank2精排是什么Rank2 搜索链路中最核心的排序模型层用大型深度模型对 Rank1 输出的几十~百条候选进行精确排序决定最终呈现给用户的搜索结果。项目Rank2精排主要目标对少量候选文档100→50→20做高精度排序定位“精选择”搜索的核心智能层输入Rank1 输出通常为 Top 80–200输出Top 20–50送给 Rerank / LLM模型类型中等规模深度模型・MLP多层・Transformer Ranker轻量注意力・多模态 Ranker图搜场景特征数量多200–1000 维典型特征Query–Doc 语义交互、embedding 相似度、内容质量、行为特征CTR/停留、实体/分类特征、多模态特征图文/视频延迟要求中等10–20 ms资源开销较大需要高效推理框架作用精准决定结果顺序搜索结果质量主要由 Rank2 决定工程重点特征计算、批量推理、模型服务、性能优化、稳定性大厂实践搜索、视频推荐、图搜、AI 搜索核心模块一句话总结Rank2 做“准强”真正决定排序质量 Rerank重排项目Rerank重排主要目标在 Rank2 输出的 Top 20–50 里做最后的高精度排序解决精排难以捕捉的复杂语义问题定位“最后的质量把关” “语义纠偏层”输入规模少量Top 20–50输出规模最终展示的 Top 10–20模型类型更强、更重的模型・Cross-EncoderBERT 类・大模型 LLM问答/重写/排序・多模态 Cross Attention图搜特征数量特征依赖少模型直接学习 Query–Doc 交互更多 end-to-end 表达典型特征 / 输入Query 与 Doc 全文拼接输入模型Cross-Encoder图像文本全量特征多模态拼接延迟要求高但可控30ms–200ms分平台高端系统会异步或批推理资源开销大GPU/高性能 CPU 并行批推作用最终结果质量提升显著修正 Rank2 的语义错误工程重点大模型推理优化、批处理、缓存、降级策略、限流、稳定性何时触发仅对少量候选触发部分场景只对问题类 Query 启动大厂实践Google SGE百度“文心重排”模型腾讯搜一搜 LLM 多模态重排一句话总结Rerank 用“最强的模型”做“最后的判断”让最终结果更像人类理解。

黑龙江省建设教育信息网站网站建设服务合同协议

上海建设工程质量监督站网站汉中网站建设汉中

网站制作导航超链接怎么做响应式做的好的网站有哪些

2019广东省工程建设网站凡科建设网站别人能进去么

网站忘记后台地址我国经济总量

做公司网站要收费吗十大最好的网站

电子工程网站怎么查看网站点击量