网站备案号找回密码孝感做网站公司

张小明 2025/12/31 22:15:59
网站备案号找回密码,孝感做网站公司,广西城市建设学校官方网站,怎样做卡盟网站第6章 数据工程 一、数据采集和预处理 1、数据采集 采集的数据类型#xff1a;结构化数据#xff08;关系型数据库表管理的数据#xff09;、半结构化数据#xff08;非关系模型的、有固定模式#xff0c;日志文件、XML文档、E-mail#xff09;、非结构化数据#xff…第6章 数据工程一、数据采集和预处理1、数据采集采集的数据类型结构化数据关系型数据库表管理的数据、半结构化数据非关系模型的、有固定模式日志文件、XML文档、E-mail、非结构化数据没有固定模式的数据办公文档、文本、图片、HTML、各类报表、图像、视频和音频信息等采集的方法传感器采集、系统日志采集、网络采集、其他数据采集2、数据预处理采用数据清洗的方法来实现去除重复记录发现并纠正数据错误并将数据转换成符合标准的过程使数据实现准确性、完整性、一致性、唯一性、适时性、有效性数据预处理主要包括数据分析从数据中发现控制数据的一般规则定义数据清理的规则数据检测根据数据清理的规则检测数据是否正确数据修正手工或自动修改检测到的错误数据或重复记录进行预处理的数据包括数据缺失、数据异常、数据不一致、数据重复、数据格式不符方法1缺失数据的预处理环境或人为因素删除缺失值、均值填补法、热卡填补法相似对象的值进行填充、其他方法2异常数据的预处理分箱法通过考察数据的“近邻”来平滑处理有序的数据值宽度越大处理的效果越好回归法一个函数拟合数据来光滑数据消除噪声3不一致数据的预处理逻辑错误或数据类型不一致可以人工修改也可以借助工具找到违反限制的数据大部分的不一致情况都需要进行数据变换4重复数据的预处理Excel、VBAVisual Basic宏语言、Python等工具处理5格式不符的数据预处理将不同类型的数据内容清洗成统一类型的文件和统一格式TXT、CSV、Excel、HTML二、数据存储与管理1、数据存储存储介质根据不同的环境选择合适的介质文件存储文件级或基于文件的存储组织与存储数据分层存储的方法块存储块级存储数据存储成块块作为单独的部分存储每个部分都有唯一标识快速、高效对象存储处理大量非结构化的数据2、存储管理资源调度管理添加、删除、修改存储节点的信息存储资源管理一类应用程序监控存储系统的状况可用性、性能以及配置情况患有容量、配置管理、事件报警等负载均衡管理避免存储资源由于资源类型服务器访问频率和时间不均衡造成浪费或形成系统瓶颈而平衡负载的技术安全管理防止恶意用户攻击系统或窃取数据攻击有两类一类是扰乱服务器正常工作为目的另一类是入侵或破坏服务器为目的3、数据归档可逆的归档策略需要业务策略和分区策略保持一致在业务低峰期执行数据归档后会删除生产数据库的数据造成数据空洞若数据归档影响了上线业务要及时止损4、数据备份1DAS备份将备份设备直接连接到备份服务器上适合数据量不大操作类型单一服务器数量有限2基于LAN的备份C/S模型服务器或客户端通过局域网共享备份系统小型的网络环境中较为常见优点通过LAN共享备份缺点占用网络资源3LAN-FREE备份备份数据流SAN进行传输和业务数据流分开通过业务网络进行传输缺点备份数据流要经过应用服务器会影响服务器提供正常服务4SERVER-FREE备份不依赖服务器第三方代理直接将数据从应用服务器的存储设备传送到备份设备上备份策略完全备份全备份会占用较多的服务器网络资源对备份介质资源的消耗也大差分备份相对上一次完全备份之后发生变化的数据时间短节省了存储空间数据恢复方便只需两份备份数据增量备份相对上一次备份之后发生变化的数据没有重复备份数据缩短了备份时间数据恢复时比较复杂有一个增量备份数据出现问题后面的数据也就无法恢复最差的备份5、数据容灾数据备份是数据容灾的基础两个指标RPO、RTORPO恢复点目标当灾难发生时允许丢失的数据量PTO恢复时间目标系统恢复的时间关键技术远程镜像技术、快照技术远程镜像技术远程复制技术按照主从镜像的位置分为本地镜像和远程镜像快照技术数据集合的一个完全可用复制该复制是相应数据在某个时间点复制开始的时间点的映像三、数据治理和建模1、数据治理开展数据价值化活动的基础1元数据数据的数据2数据标准化元数据标准化、数据元标准化、数据模式标准化、数据分类与编码标准化过程确定数据需求、制定数据标准、批准数据标准、实施数据标准2、数据质量完整性、规范性、一致性、准确性、唯一性、及时性是数据产品满足指标、状态和要求能力的特征总和1数据质量描述数据质量定量元素、数据质量非定量元素2数据质量的评价方法直接评价法将数据与内部或外部的参照信息进行对比间接评价法利用数据相关信息推断或评估数据质量3数据质量控制前期控制数据录入前、录入过程中后期控制录入完成后3、数据模型概念模型信息模型不依赖计算机系统和不对应某个具体的DBMS逻辑模型确定模型的数据结构层次模型、网状模型、关系模型、面向对象模型、对象关系模型物理模型数据库体系结构设计真正实现数据在数据库中的存放4、数据建模数据需求分析数据建模的起点、概念模型设计确定实体和数据及其关联、逻辑模型设计将实体、属性这些转换为关系模型中的关系模式、物理模型设计对具体的DBMS进行物理模型设计使数据模型走向数据存储应用环节三、数据仓库和数据资产1、数据仓库面向主题的、集成的、包含汇总和明细的、随时间变化的、稳定的历史数据集合由数据源、数据存储与管理、OLAP服务器、前端工具组成2、主题库主题库建设是数据仓库的一部分体系结构数据源层各种管理表和各类数据表构件层基础构件和组合构件主题库层形成具体统一访问接口的主题库3、数据资产管理数据资源化和数据资产化数据资源化将原始数据转变为数据资源数据治理为工作重点数据资产化将数据资源转变为数据资产在数据资产化后将关注数据资产的流通数据资产的运营、数据价值评估数据资产流通通过数据共享、数据开放、数据交易等流通模式推动数据资产在组织内部的价值实现数据价值评估数据资产管理的关键环节是数据资产化的价值基线四、数据分析及应用1、数据集成将驻留在不同的数据源中的数据进行整合向用户提供统一的数据视图使用户以透明的方式访问1方法模式集成虚拟视图方法最早采用的数据集成方法也是其他数据集成方法的基础供用户透明的访问各数据源的数据复制集成将数据源中的数据复制到相关的其他数据源上可以是整个也可以是部分混合集成中间件保留虚拟数据模式视图为用户所用2数据访问接口ODBC用于数据库访问的应用程序编程接口由应用程序接口、驱动程序管理器、驱动程序和数据源4个组件组成JDBC为Java程序提供标准的数据库访问类接口OLE DB能提供对所有类型数据的操作离线情况下存取数据ADO使用简单、易于学习常用的实现数据访问的手段之一3Web Services技术面向访问的分布式计算模型本质一种标准化方式实现不同服务系统之间的互调或集成语言WSDLUDDI用于服务注册SOAP消息传递的服务4数据网络技术用于大型数据集的分布式管理与分析的体系结构2、数据挖掘目的服务于决策数据挖掘的结果经过决策人员的许可才能实际运用五、数据脱敏和分类分级1、数据密级划分5级L1公开L2保密L3机密L4绝密L5私密2、数据脱敏的方式可恢复加解密算法规则不可恢复替换算法和生成算法3、数据脱敏的原则4、数据分级内存数据会在断电后丢失所有数据Web ServiceWSDL语言UDDI注册服务SOAP消息传递服务数据服务数据目录服务、数据查询以及浏览器下载服务、数据分发服务
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

编写网站方案设计书表格外贸一般在哪些网站

一家两年亏损超23亿港元的公司,成功登陆港交所,定价接近区间上限,全球顶级金融机构用真金白银为它投票。这不是传统金融的故事,而是一场关于合规、技术与未来基础设施的价值重估。12月15日,持牌交易所HashKey完成港股I…

张小明 2025/12/29 3:51:19 网站建设

张掖哪家公司做网站jsp淘宝客网站

在 uni-app 开发中,文件上传是一个常见且重要的功能。尤其是在 App 端,如何实现一个既美观又实用的文件上传与展示界面,是很多开发者关心的问题。本文将介绍如何通过 xe-upload 插件,结合自定义 UI,实现一个完整的文件…

张小明 2025/12/29 3:51:21 网站建设

怎么做系统软件网站软件开发过程管理

深入探索Web Part Manager:功能、生命周期与显示模式 1. Web Part 连接与 WebPartManager 概述 在构建以信息为中心的复杂门户时,Web Part 是强大的工具。我们可以通过连接不同的 Web Part 来共享不同来源的数据,使用如摘要/细节、父/子等常见模式,能更有效地向用户呈现数…

张小明 2025/12/29 3:51:18 网站建设

html5英文视频网站建设微信小程序公司

目录已开发项目效果实现截图开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!已开发项目效果实现截图 同行可拿货,招校园代理 基于python的个性化商城图书购物推荐系统_1k4p4_pycharm djan…

张小明 2025/12/29 3:51:23 网站建设

学习建设网站书籍手机怎么下载网页上的视频

一、回归任务陷阱:别让MSE毁了你的模型陷阱1:L2损失对异常值“过度敏感”场景:预测房价时,数据中存在少量“千万豪宅”(异常值),用MSE训练后模型预测值普遍偏高。 原理:MSE对误差平方…

张小明 2025/12/29 3:51:25 网站建设

合肥网站seo推广浙江省建设信息港网站

COMSOL,压电-热释电,纳米发电,压电薄膜三维模型,文章复现在实验室折腾压电薄膜三维模型的那几天,咖啡机都快被我榨干了。当时导师扔过来一篇Nature子刊的压电-热释电复合发电论文,要求复现他们的COMSOL建模…

张小明 2025/12/29 3:51:25 网站建设