外贸网站建站和推广常用网站开发技术和工具

张小明 2026/1/7 20:54:15
外贸网站建站和推广,常用网站开发技术和工具,快速搭建网站服务器,iis7发布静态网站在爬虫开发中#xff0c;解析 HTML 的方式主要有三种#xff1a;正则表达式#xff08;不推荐新手使用#xff09;BeautifulSoup#xff08;简单易用#xff09;XPath#xff08;最强大、最精确#xff09;今天我们要学习的是爬虫工程师最喜欢的解析方式之一#xff1…在爬虫开发中解析 HTML 的方式主要有三种正则表达式不推荐新手使用BeautifulSoup简单易用XPath最强大、最精确今天我们要学习的是爬虫工程师最喜欢的解析方式之一XPath —— 提取网页结构最强大的工具只要你掌握 XPath再复杂的 HTML 都能被你快速解析。 一、XPath 是什么XPath 全称XML Path LanguageXML 路径语言虽然名字里带 XML但它同样适用于HTML。它的作用是通过路径查找节点精确定位网页元素快速提取文本、属性、子节点你可以把 XPath 看成网页的“地图导航”从 /html/body/div[1]/h1 找到标题节点非常直观、非常精确。 二、为什么爬虫必须掌握 XPath理由如下✔ 1. BeautifulSoup 不够精确遇到多层嵌套或重复节点时XPath 的定位能力远超 BeautifulSoup。✔ 2. 数据结构复杂的网站XPath 更容易处理尤其是电商站点、资讯站点、层级列表网站。✔ 3. XPath 语法非常统一你学会一次可以用一辈子。✔ 4. lxml XPath 的解析速度非常快适合大规模爬虫工程。 三、用 lxml XPath 的基础用法安装 lxmlpip install lxml解析 HTMLfrom lxml import etree html etree.HTML(html.../html) result html.xpath(你的 XPath 表达式)result会返回一个列表包含匹配到的节点或文本。 四、XPath 常用语法爬虫最常用 Top 10① 选取所有某标签节点//h1 //div //a② 选取具体 class 的标签//h1[classtitle]③ 选取含有某部分 class 的节点超常用//div[contains(class, item)]适用于 class 多个值的情况div classitem active main④ 选取文本内容//h1/text()⑤ 选取属性如 src、href//img/src //a/href⑥ 索引定位从 1 开始//ul/li[1] # 第一个 li //ul/li[last()] # 最后一个 li⑦ 选取子节点///div/h1⑧ 选取任意深度节点////div//span⑨ 选取包含文本的节点//a[contains(text(), Python)]⑩ 多条件筛选进阶//div[classitem and data-id123] 五、实战示例解析文章标题与内容假设你抓取一个网页结构如下div classarticle h1 classtitlePython 爬虫入门/h1 p classsummary这是简介内容/p /divXPath 提取提取标题title html.xpath(//h1[classtitle]/text())提取简介summary html.xpath(//p[classsummary]/text())提取整个文章块article html.xpath(//div[classarticle])[0] 六、解析列表结构爬虫最常见场景网页中常见新闻列表商品列表评论列表视频列表结构可能是ul classnews li a href/1.html新闻 1/a /li li a href/2.html新闻 2/a /li /ul提取所有标题titles html.xpath(//ul[classnews]/li/a/text())提取所有链接links html.xpath(//ul[classnews]/li/a/href)XPath 对列表解析极其强大。 七、如何在浏览器中获取 XPathChrome 可以自动生成 XPath打开 Elements 面板右键节点点击Copy → Copy XPath但注意自动 XPath不够简洁很多路径层级过深建议自行优化例如自动生成/html/body/div[2]/div[3]/div/h1建议手写//h1[classtitle]更通用、更不易失败。 八、XPath 解析失败的常见原因❌ 1. 页面由 JS 渲染HTML 中没有数据此时应抓 Ajax 或使用 Selenium/Playwright。❌ 2. class 有多个值你却写成完整匹配例如div classitem active应写//div[contains(class, item)]❌ 3. 标签层级不固定用//更稳妥。❌ 4. 忘记加 text() 或 href✅ 总结今天你学到了XPath 是最强大的 HTML 解析工具之一支持精确定位节点、属性、文本非常适合爬虫解析复杂网页Chrome 可以辅助生成 XPathXPath 常见的十大语法XPath 在列表结构中的应用XPath 失败的常见原因及解决方案掌握 XPath 是你成为爬虫开发者的重要里程碑一旦熟练再复杂的页面都能迎刃而解。如果你在写 XPath 时遇到结构太复杂难以定位多层嵌套不知如何写路径text() 提取不到内容Chrome 生成的 XPath 不能用每个节点结构都不固定可以加我微信cpseagogo我可以帮你一起分析 HTML 结构和 XPath 写法。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

wordpress 全站密码html网页模板素材下载

一、常染色体显性多囊肾病存在怎样的临床挑战?常染色体显性多囊肾病(ADPKD)是一种最常见的遗传性肾脏疾病,全球范围内影响着超过1200万患者。该疾病主要由PKD1或PKD2基因突变引起,病理特征表现为双侧肾脏中形成大量充满…

张小明 2026/1/6 16:59:22 网站建设

建设企业网站怎样收费免费注册帐号

Visual Studio .NET IDE扩展:宏与插件的强大功能 1. 引言 Visual Studio .NET IDE具有强大的扩展性,为开发者提供了宏、插件和向导三种扩展方式。宏适合小型、非UI相关任务;插件则允许创建工具窗口、添加属性页等;向导可引导用户完成特定任务,但使用较少。下面将介绍几个…

张小明 2026/1/6 16:59:16 网站建设

河北省住房和城乡建设厅网站查询万网续费登录网站

PoeCharm终极指南:高效规划你的流放之路角色构建 【免费下载链接】PoeCharm Path of Building Chinese version 项目地址: https://gitcode.com/gh_mirrors/po/PoeCharm 在《Path of Exile》这款以深度和复杂性著称的ARPG游戏中,角色构建的规划往…

张小明 2026/1/6 16:59:13 网站建设

建设银行的官方网站公告男女做暖昩视频试看网站

Linux 中 LDAP 与 Perl 的使用指南 1. LDAP 基础操作 LDAP(轻量级目录访问协议)在 Linux 系统中使用时,仅支持基本认证,这意味着需要提供根用户名和密码。以下是一些常用命令选项及其含义: - -W :提示输入密码。 - -D :指定用户名的 DN(可分辨名称),需在 -D…

张小明 2026/1/6 16:59:07 网站建设

网站建设会计分录深圳互联网推广公司排名

目录已开发项目效果实现截图开发技术系统开发工具:核心代码参考示例1.建立用户稀疏矩阵,用于用户相似度计算【相似度矩阵】2.计算目标用户与其他用户的相似度系统测试总结源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式&…

张小明 2026/1/6 16:25:59 网站建设

兰州市生态建设管理局网站游戏大全免费版入口

EmotiVoice语音合成引擎的实时监控与日志记录功能 在当前AI驱动的语音交互浪潮中,用户早已不再满足于“能说话”的机器。从虚拟偶像到智能客服,人们期待的是富有情感、个性鲜明且响应稳定的语音体验。EmotiVoice作为一款支持多情感表达和零样本声音克隆的…

张小明 2026/1/6 7:14:06 网站建设