im冷钱包下载|数据仓库

作者: im冷钱包下载
2024-03-08 03:26:06

什么是数据仓库?它和数据库的区别是什么?看这一篇就够了 - 知乎

什么是数据仓库?它和数据库的区别是什么?看这一篇就够了 - 知乎切换模式写文章登录/注册什么是数据仓库?它和数据库的区别是什么?看这一篇就够了麦聪软件首席架构专注下一代数据中台,深耕数据服务化领域,助力企业数字化转型。有人说数据库与数据仓库它们的名字不同,肯定就不同。这话也对,那么在讲两者之间的区别之前,我们先来了解以下什么是数据仓库。数据仓库一、数据仓库诞生的原因 历史数据积存:历史数据使用频率过低,堆积在业务数据库中,会导致查询性能下降 企业数据分析需要:各个部门自己建立独立的数据抽取系统,导致数据不一致,资源 浪费严重,数据库权限也会存在风险二、数据仓库的基本概念数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。数据仓库将各个异构的数据源数据库的数据给统一管理起来,并且完成了质量较差的数据的剔除、格式转换,最终按照一种合理的建模方式来完成源数据组织形式的转变,以更好的支持到前端的可视化分析。数据仓库的输入方式是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。三、数据仓库的主要特征数据仓库是面向主题的(Subject-Oriented )、集成的(Integrated)、稳定的(Non-Volatile)和时变的(Time-Variant )数据集合,面向数据分析,用以支持管理决策。1.主题性不同于传统数据库对应于某一个或多个项目,数据仓库根据使用者实际需求,将不同数据源的数据在一个较高的抽象层次上做整合,所有数据都围绕某一主题来组织。2.集成性数据仓库中存储的数据是来源于多个数据源的集成,原始数据来自不同的数据源,存储方式各不相同。要整合成为最终的数据集合,需要从数据源经过一系列抽取、清洗、转换的过程。3.稳定性数据仓库中保存的数据是一系列历史快照,不允许被修改。用户只能通过分析工具进行查询和分析。这里说明一点,数据仓库基本上是不许允许用户进行修改,删除操作的。大多数的场景是用来查询分析数据。4.时变性数据仓库会定期接收新的集成数据,反应出最新的数据变化。这和稳定特点并不矛盾。另外说明,上面我们已经说了数据仓库中的历史数据是不能修改的,那我们每天修改或新增的数据,从业务数据库中导入数据仓库中,可以以时间戳标记版本来标记最新数据,老旧的数据就可以定期删除,保证数据分析的准确性。四、数据仓库分层架构按照数据流入流出的过程,数据仓库架构可分为三层——源数据、数据仓库、数据应用。数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自下而上流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。源数据层(ODS): 操作性数据(Operational Data Store) ,是作为数据库到数据仓库的一种过渡,ODS的数据结构一般与数据来源保持一致,可以增加字段用来进行数据管理,存储的历史数据只是只读的,提供业务系统查询使用, 而且ODS的数据周期一般比较短。ODS的数据为后一步的数据处理做准备。数据仓库层(DW):数据仓库(Data Warehouse),是数据的归宿,这里保持这所有的从ODS到来的数据,并长期保存,而且这些数据不会被修改,DW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。数据应用层(DA):数据应用(Data Application),为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据,该数据面向应用。如根据报表、专题分析需求而计算生成的数据。​​​​​​​五、数据仓库之ETL建立OLAP应用之前,我们要想办法把各个独立系统的数据抽取出来,经过一定的转换和过滤,存放到一个集中的地方,成为数据仓库。这个抽取,转换,加载的过程叫ETL(Extract, Transform,Load),目的是将企业中分散、零乱、标准不统一的数据整合到一起。ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。 1、抽取抽取的数据源分为结构化数据、非结构化数据,半结构化数据。结构化一般采用JDBC、数据库日志方式,非结构或半结构化数据会建通文件变动。抽取方式:全量抽取:适用于数据量小且不容易判断其数据发生改变的诸如关系表,维度表,配置表等,一般用于初始化数据。增量抽取:适用于数据量大,为了节省抽取时间而采用的抽取策略,一般用于数据更新2、清洗空值处理:将空值替换为特定值或直接过滤掉验证数据正确性:把不符合业务含义的数据做统一处理规范数据格式:比如把所有日期都规范成YYYY-MM-DD的格式数据转码:把一个源数据中用编码表示的字段通过关联编码表转换成代表其真实意义的值数据标准统一:比如在源数据中表示男女的方式有很多种,在抽取的时候直接根据模型中定义的值做转化。注:主要是针对非结构化或半结构化数据3、转换和加载转换:用ODS中的增量或者全量数据来刷新DW中的表加载:每insert数据到一张表都可以称为数据加载,就是将处理完的数据导入到对应的目标源里六、ETL工具结构化数据ETL工具:Sqoop、Kettle、Datastage、Informatica、Kafka非|半结构化数据ETL工具:Flume、Logstash上面我已经介绍了数据仓库的面貌,现在让我们看一下它们之间的区别数据库与数据仓库的区别数据库:数据库是面向交易的处理系统(业务系统),它是针对具体业务在数据库联机的日常操作,通常对记录进行查询、修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。传统的数据库系统作为数据管理的主要手段,主要用于操作型处理,也被称为联机事务处理 OLTP(On-Line Transaction Processing)。 ​​​​​​​数据仓库::数据仓库一般针对某些主题的历史数据进行分析,支持管理决策,又被称为联机分析处理 OLAP(On-Line Analytical Processing)。首先要明白,数据仓库的出现,并不是要取代数据库。​​​​​​​数据仓库VS数据库 数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储业务数据,数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余,一般针对某一业务应用进行设计,比如一张简单的User表,记录用户名、密码等简单数据即可,符合业务应用,但是不符合分析。数据仓库在设计是有意引入冗余,依照分析需求,分析维度、分析指标进行设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计。eg:以银行业务为例,数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记账。 而数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的,它要提供关注时间段内所有的有效数据。这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。发布于 2021-11-15 16:28数据仓库数据库​赞同 148​​10 条评论​分享​喜欢​收藏​申请

数据仓库_百度百科

_百度百科 网页新闻贴吧知道网盘图片视频地图文库资讯采购百科百度首页登录注册进入词条全站搜索帮助首页秒懂百科特色百科知识专题加入百科百科团队权威合作下载百科APP个人中心数据仓库播报讨论上传视频所有类型数据支持的战略集合收藏查看我的收藏0有用+10数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 [1]中文名数据仓库外文名Data Warehouse缩    写DW提出者比尔·恩门(Bill Inmon)目录1发展历程2特点3用途4技术发展5主要案例▪Agrofert▪迪斯尼乐园6构造设计7实现方式8体系结构▪数据源▪前端工具9组成▪数据抽取工具▪数据库▪元数据▪数据集市▪数据仓库管理▪信息发布系统▪访问工具10数据模型11设计步骤12建模划分13建立步骤▪步骤▪数据转换工具▪关键问题14效益15发展前期16市场分析17关系内容18代表作品发展历程播报编辑数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。特点播报编辑1、数据仓库是面向主题的;操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。数据仓库的核心工具2、数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。3、数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;4、数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,且不随时间改变。5、汇总的。操作性数据映射成决策可用的格式。6、大容量。时间序列数据集合通常都非常大。7、非规范化的。Dw数据可以是而且经常是冗余的。8、元数据。将描述数据的数据保存起来。9、数据源。数据来自内部的和外部的非集成操作系统。数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库往往有如下几点特点:1.效率足够高。数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问题,延迟1-3日才能给出数据,显然不行的。2.数据质量。数据仓库所提供的各种信息,肯定要准确的数据,但由于数据仓库流程通常分为多个步骤,包括数据清洗,装载,查询,展现等等,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。3.扩展性。之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3-5年的扩展性,这样的话,未来不用太快花钱去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。从上面的介绍中可以看出,数据仓库技术可以将企业多年积累的数据唤醒,不仅为企业管理好这些海量数据,而且挖掘数据潜在的价值,从而成为通信企业运营维护系统的亮点之一。广义的说,基于数据仓库的决策支持系统由三个部件组成:数据仓库技术,联机分析处理技术和数据挖掘技术,其中数据仓库技术是系统的核心,在这个系列后面的文章里,将围绕数据仓库技术,介绍现代数据仓库的主要技术和数据处理的主要步骤,讨论在通信运营维护系统中如何使用这些技术为运营维护带来帮助。4.面向主题操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。主题是与传统数据库的面向应用相对应的,是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。每一个主题对应一个宏观的分析领域。数据仓库排除对于决策无用的数据,提供特定主题的简明视图。用途播报编辑信息技术与数据智能大环境下,数据仓库在软硬件领域、Internet 和企业内部网解决方案以及数据库方面提供了许多经济高效的计算资源,可以保存极大量的数据供分析使用,且允许使用多种数据访问技术。开放系统技术使得分析大量数据的成本趋于合理,并且硬件解决方案也更为成熟。在数据仓库应用中主要使用的技术如下:并行计算的硬件环境、操作系统环境、 数据库管理系统和所有相关的数据库操作、查询工具和技术、应用程序等各个领域都可以从并行的最新成就中获益。分区分区功能使得支持大型表和索引更容易,同时也提高了数据管理和查询性能。数据压缩数据压缩功能降低了数据仓库环境中通常需要的用于存储大量数据的磁盘系统的成本,新的数据压缩技术也已经消除了压缩数据对查询性能造成的负面影响。 [1]技术发展播报编辑从数据库到数据仓库企业的数据处理大致分为两类:一类是操作型处理,也称为联机事务处理,它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询、修改。另一类是分析型处理,一般针对某些主题的历史数据进行分析,支持管理决策。两者具有不同的特征,主要体现在以下几个方面。1、处理性能日常业务涉及频繁、简单的数据存取,因此对操作型处理的性能要求是比较高的,需要数据库能够在很短时间内做出反应。2、数据集成企业的操作型处理通常较为分散,传统数据库面向应用的特性使数据集成困难。3、数据更新操作型处理主要由原子事务组成,数据更新频繁,需要并行控制和恢复机制。4、数据时限操作型处理主要服务于日常的业务操作。5、数据综合操作型处理系统通常只具有简单的统计功能。数据库已经在信息技术领域有了广泛的应用,我们社会生活的各个部门,几乎都有各种各样的数据库保存着与我们的生活息息相关的各种数据。作为数据库的一个分支,数据仓库概念的提出,相对于数据库从时间上就近得多。美国著名信息工程专家WilliamInmON博士在90年代初提出了数据仓库概念的一个表述,认为:“一个数据仓库通常是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,它用于对管理决策过程的支持。”这里的主题,是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。集成,是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。随时间变化,是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。数据库安全计算机攻击、内部人员违法行为,以及各种监管要求,正促使组织寻求新的途径来保护其在商业数据库系统中的企业和客户数据。您可以采取八个步骤保护数据仓库并实现对关键法规的遵从。1. 发现使用发现工具发现敏感数据的变化。2.漏洞和配置评估评估数据库配置,确保它们不存在安全漏洞。这包括验证在操作系统上安装数据库的方式(比如检查数据库配置文件和可执行程序的文件权限),以及验证数据库自身内部的配置选项(比如多少次登录失败之后锁定帐户,或者为关键表分配何种权限)。3. 加强保护通过漏洞评估,删除不使用的所有功能和选项。4. 变更审计通过变更审计工具加强安全保护配置,这些工具能够比较配置的快照(在操作系统和数据库两个级别上),并在发生可能影响数据库安全的变更时,立即发出警告。5. 数据库活动监控(DAM)通过及时检测入侵和误用来限制信息暴露,实时监控数据库活动。6. 审计必须为影响安全性状态、数据完整性或敏感数据查看的所有数据库活动生成和维护安全、防否认的审计线索。7.身份验证、访问控制和授权管理必须对用户进行身份验证,确保每个用户拥有完整的责任,并通过管理特权来限制对数据的访问。8. 加密使用加密来以不可读的方式呈现敏感数据,这样攻击者就无法从数据库外部对数据进行未授权访问。如何应对监控需求数据,作为企业核心资产,越来越受到企业的关注,一旦发生非法访问、数据篡改、数据盗取,将给企业带来巨大损失。数据库作为数据的核心载体,其安全性就更加重要。面对数据库的安全问题,企业常常遇到以下主要挑战:数据库被恶意访问、攻击、甚至遭到数据偷窃,而您不能及时地发现这些恶意的操作; 不了解数据使用者对数据库的访问细节,从而不能保证您对数据安全的管理;信息安全同样会带来审计问题,当今全球对合规/ 审计要求越来越严格,由于不满足合规要求而导致处罚的事件屡见不鲜。美国《萨班斯法案》的强制性要求曾导致2007年7月5日中国第一家海外上市公司—华晨中国汽车控股有限公司从美国纽约证券交易所退市。有关信息安全的合规/审计要求,中国政府也进行了大量的强化工作,例如,为了加强商业银行信息科技风险管理,银监会出台了《商业银行信息科技风险管理指引》规则,中国政府——财政部、证监会、银监会、保监会及审计署等五部委会联合发布“中国版萨班尼斯-奥克斯利法案(以下简称‘C-SOX法案’)”——《企业内部控制基本规范》。面对合规/审计要求,企业往往面临以下挑战:·不能做到持续性审计用户审计主要是针对数据库、应用系统日志做审计,这些日志内容非常庞大,DBA(数据库管理员)和信息安全审计人员的审计工作就只能做事后分析,分析时间也长。不能做到持续性审计。·审计并不规范用户审计的内容和表格主要是根据外部审计人员要求和内部安全管理要素来考虑,这些审计工作的好坏基本上取决于DBA和信息安全审计人员的经验和技能,这些不能有效成为公司规范和满足外部审计要求。·数据库管理员权责没有完全区分开,导致审计效果问题数据库管理和审计原始数据的收集实际上都是由DBA来做的,这就导致了DBA的权责不明确,DBA没办法客观审计自己所做的工作,尽管用户设置了信息安全审计人员,但该角色的审计工作的部分证据建立在DBA初步审计基础上,因此审计效果与可靠性存问题。·审计并不完整人工审计需要面对海量的日志,不可能对所有数据进行细致审计;审计报告就未必能满足100%可见性。为了满足企业的信息安全、合规、审计等需求,IBM公司推出了“CARS”企业信息架构,该架构主要从“法规遵从”(Compliance)、“信息可用”(Availability)、“信息保留”(Retention)、“信息安全”(Security) 四个方面进行了全面的满足和保护。不仅如此,IBM Guardium数据库安全、合规、审计、监控解决方案的推出,针对了“法规遵从”和“信息安全”进行了专项治理和加强。Guardium数据库安全、合规、审计、监控解决方案,以软硬件一体服务器的方式,大大增强数据库安全性,满足并方便审计工作,提升性能,并简化了安装部署工作。可以防止对数据库的破坏、恶意访问、偷窃数据,可帮助判断客户关键敏感的数据在什么地方;谁在使用这些数据;控制对数据库中数据的访问,并可监控特权用户;帮助企业强制执行安全规范;检查薄弱环节、漏洞,防止对数据库配置的改动;满足合规/审计的要求,并可简化内部和外部审计、合规的过程并使其自动化,增强运作效率;管理安全的复杂性。主要案例播报编辑Agrofert农业、食品和化工集团Agrofert 发现,随着企业的快速发展,旗下子公司已经有 160 多个不同的系统在运行。很难提供统一的报告,而且支持和许可成本也不断上升。如果每新购一个系统就扩大一次基础架构,显然不是一种可以扩展的战略。Agrofert采用 SAP ERP 应用程序作为其部分子公司的共享服务,目的是将其逐渐推广到整个企业,这些应用程序在两个地点的 IBM Power Systems 服务器上集中管理。公司从混合数据库环境(包括 Oracle 和 Microsoft SQL Server)迁移到 IBM DB2,将 IBM DB2 作为其标准数据库,同时还为关键的业务数据部署集中的存储系统。迁移后,不再需要本地系统,能够极大地降低管理、支持和许可成本;借助IBM DB2 可降低许可费用,简化管理并减少员工教育及培训;整合的存储有助于降低成本,而 IBM DB2 深度压缩将会降低总体存储需求;总成本估计减少 20%。迪斯尼乐园Disney 每年都有10亿美元商品销售收入,而建立一个ERP系统来处理这些信息是极具挑战性的。最新的集中式ERP系统是设计用来处理商品管理、存货管理和相关业务过程的。但是Disney 也希望平衡财务和业务智能(BI)报告和业务分析系统,这意味着建立一个新的数据仓库。Disney在该项目中所使用的一些产品包括SAS分析软件和Teradata数据仓库技术。最新的集中式ERP、数据仓库和分析系统正帮助Disney更好地管理存货、分析销售额和预报特定领域的商品需求。 [2]构造设计播报编辑数据仓库具有改变业务的威力。它能帮助公司深入了解客户行为,预测销售趋势,确定某一组客户或产品的收益率。尽管如此,数据仓库的实现却是一个长期的、充满风险的过程。由 DM Review 发布的一项网络调查显示, 51% 受访者认为创建数据仓库的头号障碍是缺乏准确的数据。而其中最重要的一点是无法实时更新所有的数据。有六项指导原则可帮助企业快速实现数据仓库计划并评估其过程:·简化需求收集和设计。公司通常会难以确定,哪些数据重要,哪些使得他们无法利用有价值的非结构化信息来驱动关键业务流程。组织应该检查一下 IT 经理是否深入理解业务计划以及支持计划所需的信息。例如源数据在哪里?需要怎样的转换能让其为关键应用程序所用?·支持业务和 IT 用户协作。不完整、过时或不准确的数据会导致可信信息的缺乏。要注意公司是否有一个业务术语表供用户查看、用于协作并根据他们集体业务视角进行调整?·避免代价高昂的低级错误和返工。明确公司是否拥有一个包含界定完善的数据模型的实施策略,应用程序提供信息?·识别匹配信息,创建单一视图。同一事实的多个版本会导致在管理用户、产品和合作伙伴关系方面出现问题——增加违反法规遵从性的风险。·使用最快的、最具伸缩性的方法进行转换和发布。明确公司是否有能够利用并行处理并重用之前转换成果的自动化过程?公司系统能否及时按需将数据发布给用户和应用程序?·通过信息服务扩展信息可访问性。明确企业是否能真正将信息用作共有财产?IT 专家能否保存好这些财产并让被授权者使用?信息能否在合适的时间发布到合适的地方和合适的场景下? [3]实现方式播报编辑数据仓库是一个过程而不是一个项目。数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。从功能结构划分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。体系结构播报编辑数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等;数据的存储与管理是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。OLAP服务器对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP(关系型在线分析处理)、MOLAP(多维在线分析处理)和HOLAP(混合型线上分析处理)。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。前端工具主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以数据挖掘及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。组成播报编辑数据抽取工具IBM数据仓库解决方案产品组成把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽取工具的关键,应能生成COBOL程序、MVS作业控制语言(JCL)、UNIX脚本、和SQL语句等,以访问不同的数据。数据转换都包括,删除对决策应用没有意义的数据段;转换到统一的数据名称和定义;计算统计和衍生数据;给缺值数据赋给缺省值;把不同的数据定义方式统一。数据库是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。相对于操纵型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。元数据元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库使用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询、报表;元数据为访问数据仓库提供了一个信息目录(informationdirectory),这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。数据集市为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subjectarea)。在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注意的就是在实施不同的数据集市时,同一含义的字段定义一定要相容,这样在以后实施数据仓库时才不会造成大麻烦。国外知名的Garnter关于数据集市产品报告中,位于第一象限的敏捷商业智能产品有QlikView, Tableau和SpotView,都是全内存计算的数据集市产品,在大数据方面对传统商业智能产品巨头形成了挑战。国内BI产品起步较晚,知名的敏捷型商业智能产品有PowerBI, 永洪科技的Z-Suite,SmartBI,FineBI商业智能软件等,其中永洪科技的Z-Data Mart是一款热内存计算的数据集市产品。国内的德昂信息也是一家数据集市产品的系统集成商。数据仓库管理安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。信息发布系统把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。基于Web的信息发布系统是对付多用户访问的最有效方法。访问工具为用户访问数据仓库提供手段。有数据查询和报表工具;应用开发工具;管理信息系统(EIS)工具;在线分析(OLAP)工具;数据挖掘工具。数据模型播报编辑有别于一般联机交易处理(OLTP)系统,数据模型设计是一个数据仓库设计的地基,当前两大主流理论分别为采用正规方式(normalized approach)或多维方式(dimensional approach)进行数据模型设计。 数据模型可以分为逻辑与实体数据模型。逻辑数据模型陈述业务相关数据的关系,基本上是一种与数据库无关的结构设计,通常均会采用正规方式设计,主要精神是从企业业务领域的角度及高度订出subject area model,再逐步向下深入到entities、attributes,在设计时不会考虑未来采用的数据库管理系统,也不需考虑分析性能问题。而实体数据模型则与数据库管理系统有关,是建置在该系统上的数据架构,故设计时需考虑数据类型(data type)、空间及性能相关的议题。 实体数据模型设计,则较多有采用正规方式或多维方式的讨论,但从实务上来说,不执著于理论,能与业务需要有最好的搭配,才是企业在建置数据仓库时的正确考量。数据仓库的建制不仅是资讯工具技术面的运用,在规划和执行方面更需对产业知识、行销管理、市场定位、策略规划等相关业务有深入的了解,才能真正发挥数据仓库以及后续分析工具的价值,提升组织竞争力。设计步骤播报编辑1)选择合适的主题(所要解决问题的领域)2)明确定义事实表3)确定和确认维4)选择事实表5)计算并存储事实表中的衍生数据段6)转换维表7)数据库数据采集8)根据需求刷新维表9)确定查询优先级和查询模式。硬件平台:数据仓库的硬盘容量通常要是操作数据库硬盘容量的2-3倍。通常大型机具有更可靠的性能和和稳定性,也容易与历史遗留的系统结合在一起;而PC服务器或UNIX服务器更加灵活,容易操作和提供动态生成查询请求进行查询的能力。选择硬件平台时要考虑的问题:是否提供并行的I/O吞吐?对多CPU的支持能力如何?数据仓库DBMS:他的存储大数据量的能力、查询的性能、和对并行处理的支持如何。网络结构:数据仓库的实施在那部分网络段上会产生大量的数据通信,需不需要对网络结构进行改进。建模划分播报编辑数据仓库的数据建模大致分为四个阶段:1.业务建模,这部分建模工作,主要包含以下几个部分:划分整个单位的业务,一般按照业务部门的划分,进行各个部分之间业务工作的界定,理清各业务部门之间的关系。深入了解各个业务部门内的具体业务流程并将其程序化。提出修改和改进业务部门工作流程的方法并程序化。数据建模的范围界定,整个数据仓库项目的目标和阶段划分。2.领域概念建模,这部分得建模工作,主要包含以下几个部分:抽取关键业务概念,并将之抽象化。将业务概念分组,按照业务主线聚合类似的分组概念。细化分组概念,理清分组概念内的业务流程并抽象化。理清分组概念之间的关联,形成完整的领域概念模型。3.逻辑建模,这部分的建模工作,主要包含以下几个部分:业务概念实体化,并考虑其具体的属性事件实体化,并考虑其属性内容说明实体化,并考虑其属性内容4.物理建模,这部分得建模工作,主要包含以下几个部分:针对特定物理化平台,做出相应的技术调整针对模型的性能考虑,对特定平台作出相应的调整针对管理的需要,结合特定的平台,做出相应的调整生成最后的执行脚本,并完善之。建立步骤播报编辑步骤1)收集和分析业务需求数据仓库价值曲线2)建立数据模型和数据仓库的物理设计3)定义数据源4)选择数据仓库技术和平台5)从操作型数据库中抽取、净化、和转换数据到数据仓库6)选择访问和报表工具7)选择数据库连接软件8)选择数据分析和数据展示软件9)更新数据仓库数据转换工具1)数据转换工具要能从各种不同的数据源中读取数据。2)支持平面文件、索引文件、和legacyDBMS。3)能以不同类型数据源为输入整合数据。4)具有规范的数据访问接口5)最好具有从数据字典中读取数据的能力6)工具生成的代码必须是在开发环境中可维护的7)能只抽取满足指定条件的数据,和源数据的指定部分8)能在抽取中进行数据类型转换和字符集转换9)能在抽取的过程中计算生成衍生字段10)能让数据仓库管理系统自动调用以定期进行数据抽取工作,或能将结果生成平面文件11)必须对软件供应商的生命力和产品支持能力进行仔细评估主要数据抽取工具供应商:Prismsolutions.Carleton'sPASSPORT.InformationBuildersInc.'sEDA/SQL.SASInstituteInc.关键问题一般问题 (不完全是技术或文化,但很重要) 包括但不限于以下几点:业务用户想要执行什么样的分析?你现在收集的数据需要支持那些分析吗?数据在哪儿?数据的清洁度如何?相似的数据有多个数据源吗?什么样的结构最适合核心数据仓库 (例如维度或关系型)?技术问题包括但不限于以下几点:在你的网络中要流通多少数据?它能处理吗?需要多少硬盘空间?硬盘存储需要多快?你会使用固态还是虚拟化的存储?效益播报编辑每一家公司都有自己的数据。并且,许多公司在计算机系统中储存有大量的数据,记录着企业购买、销售、生产过程中的大量信息和客户的信息。通常这些数据都储存在许多不同的地方。使用数据仓库之后,企业将所有收集来的信息存放在一个唯一的地方——数据仓库。仓库中的数据按照一定的方式组织,从而使得信息容易存取并且有使用价值。已经开发出一些专门的软件工具,使数据仓库的过程实现可以半自动化,帮助企业将数据导入数据仓库,并使用那些已经存入仓库的数据。数据仓库给组织带来了巨大的变化。数据仓库的建立给企业带来了一些新的工作流程,其他的流程也因此而改变。数据仓库为企业带来了一些“以数据为基础的知识”,它们主要应用于对市场战略的评价,和为企业发现新的市场商机,同时,也用来控制库存、检查生产方法和定义客户群。通过数据仓库,可以建立企业的数据模型,这对于企业的生产与销售、成本控制与收支分配有着重要的意义,极大的节约了企业的成本,提高了经济效益,同时,用数据仓库可以分析企业人力资源与基础数据之间的关系,可以用于返回分析,保障人力资源的最大化利用,亦可以进行人力资源绩效评估,使得企业管理更加科学合理。数据仓库将企业的数据按照特定的方式组织,从而产生新的商业知识,并为企业的运作带来新的视角。发展前期播报编辑计算机发展的早期,人们已经提出了建立数据仓库的构想。“数据仓库”一词最早是在1990年,由Bill Inmon先生提出的,其描述如下:数据仓库是为支持企业决策而特别设计和建立的数据集合。企业建立数据仓库是为了填补现有数据存储形式已经不能满足信息分析的需要。数据仓库理论中的一个核心理念就是:事务型数据和决策支持型数据的处理性能不同。企业在它们的事务操作收集数据。在企业运作过程中:随着定货、销售记录的进行,这些事务型数据也连续的产生。为了引入数据,我们必须优化事务型数据库。处理决策支持型数据时,一些问题经常会被提出:哪类客户会购买哪类产品?促销后销售额会变化多少?价格变化后或者商店地址变化后销售额又会变化多少呢?在某一段时间内,相对其他产品来说哪类产品特别容易卖呢?哪些客户增加了他们的购买额?哪些客户又削减了他们的购买额呢?事务型数据库可以为这些问题作出解答,但是它所给出的答案往往并不能让人十分满意。在运用有限的计算机资源时常常存在着竞争。在增加新信息的时候我们需要事务型数据库是空闲的。而在解答一系列具体的有关信息分析的问题的时候,系统处理新数据的有效性又会被大大降低。另一个问题就在于事务型数据总是在动态的变化之中的。决策支持型处理需要相对稳定的数据,从而问题都能得到一致连续的解答。数据仓库的解决方法包括:将决策支持型数据处理从事务型数据处理中分离出来。数据按照一定的周期(通常在每晚或者每周末),从事务型数据库中导入决策支持型数据库——既“数据仓库”。数据仓库是按回答企业某方面的问题来分“主题”组织数据的,这是最有效的数据组织方式。市场分析播报编辑数据仓库基本体系结构有关决策支持型数据库的数据集市是面向企业中的某个部门或是项目小组的。一些专家顾问将数据集市的建造描述为建立数据仓库全过程中的一步。首先,一个储存企业全部信息的数据仓库被创建,其中,数据均具备有组织的、一致的、不变的格式。数据集市随后被创立,其目的是为不同部门提供他们所需要的那部分信息。数据仓库聚集了所有详细的信息,而数据集市中的数据则是针对用户们的特定需求总结而出的。而另外一些专家则认为数据集市的建立并不需要首先建立一个数据仓库。在这个模型中,数据直接由事务型数据库转入数据集市中。一个公司可能建立有多个数据集市,而彼此之间毫无联系。这种不在建立数据仓库的基础上创建数据集市的方式会更便宜、更快速,因为它的规模更加易于管理。第二种观点的缺陷在于无法实现最初创建数据仓库的最主要的目的——将企业所有的数据统一为一致的格式。现有的事务处理系统的数据往往是不一致、冗余的。如果首先建立起一个全公司范围的数据仓库,组织就能够获得一个统一关于企业的活动和客户的知识库。如果先建立起一个个独立的数据集市,那么数据仓库的诸多优势都能够得以实现,但是企业远远无法做到对数据的一致的储存。关系内容播报编辑二者的联系:数据仓库的出现,并不是要取代数据库。大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。 [4]二者的区别:1、出发点不同:数据库是面向事务的设计;数据仓库是面向主题设计的。2、存储的数据不同:数据库一般存储在线交易数据;数据仓库存储的一般是历史数据。3、设计规则不同:数据库设计是尽量避免冗余,一般采用符合范式的规则来设计;数据仓库在设计是有意引入冗余,采用反范式的方式来设计。4、提供的功能不同:数据库是为捕获数据而设计,数据仓库是为分析数据而设计,5、基本元素不同:数据库的基本元素是事实表,数据仓库的基本元素是维度表。6、容量不同:数据库在基本容量上要比数据仓库小的多。7、服务对象不同:数据库是为了高效的事务处理而设计的,服务对象为企业业务处理方面的工作人员;数据仓库是为了分析数据进行决策而设计的,服务对象为企业高层决策人员。代表作品播报编辑Sybase - IQOracle - Oracle Database / Oracle ExadataTeraData - TeraDataIBM - Red BrickNetezza - Netezza TwinFinNEC - InfoFrame DWH ApplianceMicrosoft - Microsoft SQL ServerPivotal - Greenplum新手上路成长任务编辑入门编辑规则本人编辑我有疑问内容质疑在线客服官方贴吧意见反馈投诉建议举报不良信息未通过词条申诉投诉侵权信息封禁查询与解封©2024 Baidu 使用百度前必读 | 百科协议 | 隐私政策 | 百度百科合作平台 | 京ICP证030173号 京公网安备110000020000

万字详解整个数据仓库设计体系 - 知乎

万字详解整个数据仓库设计体系 - 知乎首发于五分钟学大数据切换模式写文章登录/注册万字详解整个数据仓库设计体系五分钟学大数据ai.fivedata.cn数据仓库的基本概念数据仓库概念:英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。基本特征:数据仓库是面向主题的、集成的、非易失的和时变的数据集合,用以支持管理决策。面向主题:传统数据库中,最大的特点是面向应用进行数据的组织,各个业务系统可能是相互分离的。而数据仓库则是面向主题的。主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。集成性:通过对分散、独立、异构的数据库数据进行抽取、清理、转换和汇总便得到了数据仓库的数据,这样保证了数据仓库内的数据关于整个企业的一致性。数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库之前,必然要经过统一与综合,这一步是数据仓库建设中最关键、最复杂的一步,所要完成的工作有:要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等。进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。下图说明一个保险公司综合数据的简单处理过程,其中数据仓库中与“保险” 主题有关的数据来自于多个不同的操作型系统。这些系统内部数据的命名可能不同,数据格式也可能不同。把不同来源的数据存储到数据仓库之前,需要去除这些不一致。非易失性(不可更新性)数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据。数据非易失性主要是针对应用而言。数据仓库的用户对数据的操作大多是数据查询或比较复杂的挖掘,一旦数据进入数据仓库以后,一般情况下被较长时间保留。数据仓库中一般有大量的查询操作,但修改和删除操作很少。因此,数据经加工和集成进入数据仓库后是极少更新的,通常只需要定期的加载和更新。时变性数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星期、月份、季度或者年份有关。数据仓库的目的是通过分析企业过去一段时间业务的经营状况,挖掘其中隐藏的模式。虽然数据仓库的用户不能修改数据,但并不是说数据仓库的数据是永远不变的。分析的结果只能反映过去的情况,当业务变化后,挖掘出的模式会失去时效性。因此数据仓库的数据需要更新,以适应决策的需要。从这个角度讲,数据仓库建设是一个项目,更是一个过程。数据仓库的数据随时间的变化表现在以下几个方面:(1) 数据仓库的数据时限一般要远远长于操作型数据的数据时限。(2) 操作型系统存储的是当前数据,而数据仓库中的数据是历史数据。(3) 数据仓库中的数据是按照时间顺序追加的,它们都带有时间属性。1. 数据仓库与数据库的区别数据库与数据仓库的区别实际讲的是 OLTP 与 OLAP 的区别。操作型处理,叫联机事务处理 OLTP(On-Line Transaction Processing,),也可以称面向交易的处理系统,它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询、修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。传统的数据库系统作为数据管理的主要手段,主要用于操作型处理,像Mysql,Oracle等关系型数据库一般属于OLTP。分析型处理,叫联机分析处理 OLAP(On-Line Analytical Processing)一般针对某些主题的历史数据进行分析,支持管理决策。首先要明白,数据仓库的出现,并不是要取代数据库。数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储业务数据,数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余,一般针对某一业务应用进行设计,比如一张简单的User表,记录用户名、密码等简单数据即可,符合业务应用,但是不符合分析。数据仓库在设计是有意引入冗余,依照分析需求,分析维度、分析指标进行设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计。以银行业务为例。数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记账。数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的,它要提供关注时间段内所有的有效数据。这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。2. 数据仓库分层架构按照数据流入流出的过程,数据仓库架构可分为:源数据、数据仓库、数据应用数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自下而上流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。源数据:此层数据无任何更改,直接沿用外围系统数据结构和数据,不对外开放;为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。数据仓库:也称为细节层,DW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。数据应用:前端应用直接读取的数据源;根据报表、专题分析需求而计算生成的数据。数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra, 转化Transfer, 装载Load)的过程,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。那么为什么要数据仓库进行分层呢?用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。 通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。 3. 数据仓库元数据的管理元数据(Meta Date),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使用和维护。构建数据仓库的主要步骤之一是ETL。这时元数据将发挥重要的作用,它定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。用户在使用数据仓库时,通过元数据访问数据,明确数据项的含义以及定制报表。数据仓库的规模及其复杂性离不开正确的元数据管理,包括增加或移除外部数据源,改变数据清洗方法,控制出错的查询以及安排备份等。元数据可分为技术元数据和业务元数据。技术元数据为开发和管理数据仓库的IT 人员使用,它描述了与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。而业务元数据为管理层和业务分析人员服务,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。由上可见,元数据不仅定义了数据仓库中数据的模式、来源、抽取和转换规则等,而且是整个数据仓库系统运行的基础,元数据把数据仓库系统中各个松散的组件联系起来,组成了一个有机的整体。数仓建模方法数据仓库的建模方法有很多种,每一种建模方法代表了哲学上的一个观点,代表了一种归纳、概括世界的一种方法。常见的有 范式建模法、维度建模法、实体建模法等,每种方法从本质上将是从不同的角度看待业务中的问题。1. 范式建模法(Third Normal Form,3NF)范式建模法其实是我们在构建数据模型常用的一个方法,该方法的主要由 Inmon 所提倡,主要解决关系型数据库的数据存储,利用的一种技术层面上的方法。目前,我们在关系型数据库中的建模方法,大部分采用的是三范式建模法。范式 是符合某一种级别的关系模式的集合。构造数据库必须遵循一定的规则,而在关系型数据库中这种规则就是范式,这一过程也被称为规范化。目前关系数据库有六种范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、Boyce-Codd范式(BCNF)、第四范式(4NF)和第五范式(5NF)。在数据仓库的模型设计中,一般采用第三范式。一个符合第三范式的关系必须具有以下三个条件 :每个属性值唯一,不具有多义性 ; 每个非主属性必须完全依赖于整个主键,而非主键的一部分 ; 每个非主属性不能依赖于其他关系中的属性,因为这样的话,这种属性应该归到其他关系中去。 根据 Inmon 的观点,数据仓库模型的建设方法和业务系统的企业数据模型类似。在业务系统中,企业数据模型决定了数据的来源,而企业数据模型也分为两个层次,即主题域模型和逻辑模型。同样,主题域模型可以看成是业务模型的概念模型,而逻辑模型则是域模型在关系型数据库上的实例化。2. 维度建模法(Dimensional Modeling)维度模型是数据仓库领域另一位大师Ralph Kimall所倡导,他的《数据仓库工具箱》是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。典型的代表是我们比较熟知的星形模型(Star-schema),以及在一些特殊场景下适用的雪花模型(Snow-schema)。维度建模中比较重要的概念就是 事实表(Fact table)和维度表(Dimension table)。其最简单的描述就是,按照事实表、维度表来构建数据仓库、数据集市。目前在互联网公司最常用的建模方法就是维度建模,稍后将重点讲解3. 实体建模法(Entity Modeling)实体建模法并不是数据仓库建模中常见的一个方法,它来源于哲学的一个流派。从哲学的意义上说,客观世界应该是可以细分的,客观世界应该可以分成由一个个实体,以及实体与实体之间的关系组成。那么我们在数据仓库的建模过程中完全可以引入这个抽象的方法,将整个业务也可以划分成一个个的实体,而每个实体之间的关系,以及针对这些关系的说明就是我们数据建模需要做的工作。虽然实体法粗看起来好像有一些抽象,其实理解起来很容易。即我们可以将任何一个业务过程划分成 3 个部分,实体,事件,说明,如下图所示:上图表述的是一个抽象的含义,如果我们描述一个简单的事实:“小明开车去学校上学”。以这个业务事实为例,我们可以把“小明”,“学校”看成是一个实体,“上学”描述的是一个业务过程,我们在这里可以抽象为一个具体“事件”,而“开车去”则可以看成是事件“上学”的一个说明。维度建模维度建模是专门应用于分析型数据库、数据仓库、数据集市建模的方法。数据集市可以理解为是一种"小型数据仓库"。1. 维度建模中表的类型1. 事实表发生在现实世界中的操作型事件,其所产生的可度量数值,存储在事实表中。从最低的粒度级别来看,事实表行对应一个度量事件,反之亦然。事实表表示对分析主题的度量。比如一次购买行为我们就可以理解为是一个事实。图中的订单表就是一个事实表,你可以理解他就是在现实中发生的一次操作型事件,我们每完成一个订单,就会在订单中增加一条记录。 事实表的特征:表里没有存放实际的内容,他是一堆主键的集合,这些ID分别能对应到维度表中的一条记录。事实表包含了与各维度表相关联的外键,可与维度表关联。事实表的度量通常是数值类型,且记录数会不断增加,表数据规模迅速增长。明细表(宽表):事实表的数据中,有些属性共同组成了一个字段(糅合在一起),比如年月日时分秒构成了时间,当需要根据某一属性进行分组统计的时候,需要截取拼接之类的操作,效率极低。 如:local_time为了分析方便,可以事实表中的一个字段切割提取多个属性出来构成新的字段,因为字段变多了,所以称为宽表,原来的成为窄表。将上述的local_time字段扩展为如下6个字段:yearmonthdayhourms又因为宽表的信息更加清晰明细,所以也可以称之为明细表。2.维度表每个维度表都包含单一的主键列。维度表的主键可以作为与之关联的任何事实表的外键,当然,维度表行的描述环境应与事实表行完全对应。维度表通常比较宽,是扁平型非规范表,包含大量的低粒度的文本属性。维度表示你要对数据进行分析时所用的一个量,比如你要分析产品销售情况, 你可以选择按类别来进行分析,或按区域来分析。每个类别就构成一个维度。上图中的用户表、商家表、时间表这些都属于维度表,这些表都有一个唯一的主键,然后在表中存放了详细的数据信息。总的说来,在数据仓库中不需要严格遵守规范化设计原则。因为数据仓库的主导功能就是面向分析,以查询为主,不涉及数据更新操作。事实表的设计是以能够正确记录历史信息为准则,维度表的设计是以能够以合适的角度来聚合主题内容为准则。2. 维度建模三种模式1. 星型模式星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。 星形模式的维度建模由一个事实表和一组维表成,且具有以下特点: a. 维表只和事实表关联,维表之间没有关联; b. 每个维表主键为单列,且该主键放置在事实表中,作为两边连接的外键; c. 以事实表为核心,维表围绕核心呈星形分布; 2. 雪花模式雪花模式(Snowflake Schema)是对星形模式的扩展。雪花模式的维度表可以拥有其他维度表的,虽然这种模型相比星型更规范一些,但是由于这种模型不太容易理解,维护成本比较高,而且性能方面需要关联多层维表,性能也比星型模型要低。所以一般不是很常用3.星座模式星座模式是星型模式延伸而来,星型模式是基于一张事实表的,而星座模式是基于多张事实表的,而且共享维度信息。 前面介绍的两种维度建模方法都是多维表对应单事实表,但在很多时候维度空间内的事实表不止一个,而一个维表也可能被多个事实表用到。在业务发展后期,绝大部分维度建模都采用的是星座模式。3. 维度建模过程我们知道维度建模的表类型有事实表,维度表;模式有星形模型,雪花模型,星座模型这些概念了,但是实际业务中,给了我们一堆数据,我们怎么拿这些数据进行数仓建设呢,数仓工具箱作者根据自身60多年的实际业务经验,给我们总结了如下四步,请务必记住!数仓工具箱中的维度建模四步走:请牢记以上四步,不管什么业务,就按照这个步骤来,顺序不要搞乱,因为这四步是环环相扣,步步相连。下面详细拆解下每个步骤怎么做1、选择业务过程维度建模是紧贴业务的,所以必须以业务为根基进行建模,那么选择业务过程,顾名思义就是在整个业务流程中选取我们需要建模的业务,根据运营提供的需求及日后的易扩展性等进行选择业务。比如商城,整个商城流程分为商家端,用户端,平台端,运营需求是总订单量,订单人数,及用户的购买情况等,我们选择业务过程就选择用户端的数据,商家及平台端暂不考虑。业务选择非常重要,因为后面所有的步骤都是基于此业务数据展开的。2、声明粒度先举个例子:对于用户来说,一个用户有一个身份证号,一个户籍地址,多个手机号,多张银行卡,那么与用户粒度相同的粒度属性有身份证粒度,户籍地址粒度,比用户粒度更细的粒度有手机号粒度,银行卡粒度,存在一对一的关系就是相同粒度。为什么要提相同粒度呢,因为维度建模中要求我们,在同一事实表中,必须具有相同的粒度,同一事实表中不要混用多种不同的粒度,不同的粒度数据建立不同的事实表。并且从给定的业务过程获取数据时,强烈建议从关注原子粒度开始设计,也就是从最细粒度开始,因为原子粒度能够承受无法预期的用户查询。但是上卷汇总粒度对查询性能的提升很重要的,所以对于有明确需求的数据,我们建立针对需求的上卷汇总粒度,对需求不明朗的数据我们建立原子粒度。3、确认维度维度表是作为业务分析的入口和描述性标识,所以也被称为数据仓库的“灵魂”。在一堆的数据中怎么确认哪些是维度属性呢,如果该列是对具体值的描述,是一个文本或常量,某一约束和行标识的参与者,此时该属性往往是维度属性,数仓工具箱中告诉我们牢牢掌握事实表的粒度,就能将所有可能存在的维度区分开,并且要确保维度表中不能出现重复数据,应使维度主键唯一4、确认事实事实表是用来度量的,基本上都以数量值表示,事实表中的每行对应一个度量,每行中的数据是一个特定级别的细节数据,称为粒度。维度建模的核心原则之一是同一事实表中的所有度量必须具有相同的粒度。这样能确保不会出现重复计算度量的问题。有时候往往不能确定该列数据是事实属性还是维度属性。记住最实用的事实就是数值类型和可加类事实。所以可以通过分析该列是否是一种包含多个值并作为计算的参与者的度量,这种情况下该列往往是事实。实际业务中数仓分层数仓分层要结合公司业务进行,并且需要清晰明确各层职责,要保证数据层的稳定又要屏蔽对下游影响,一般采用如下分层结构:数据层具体实现 使用四张图说明每层的具体实现 数据源层ODS数据源层主要将各个业务数据导入到大数据平台,作为业务数据的快照存储。数据明细层DW事实表中的每行对应一个度量,每行中的数据是一个特定级别的细节数据,称为粒度。维度建模的核心原则之一是同一事实表中的所有度量必须具有相同的粒度。这样能确保不会出现重复计算度量的问题。维度表一般都是单一主键,少数是联合主键,注意维度表不要出现重复数据,否则和事实表关联会出现数据发散问题。有时候往往不能确定该列数据是事实属性还是维度属性。记住最实用的事实就是数值类型和可加类事实。所以可以通过分析该列是否是一种包含多个值并作为计算的参与者的度量,这种情况下该列往往是事实;如果该列是对具体值的描述,是一个文本或常量,某一约束和行标识的参与者,此时该属性往往是维度属性。但是还是要结合业务进行最终判断是维度还是事实。数据轻度汇总层DM此层命名为轻汇总层,就代表这一层已经开始对数据进行汇总,但是不是完全汇总,只是对相同粒度的数据进行关联汇总,不同粒度但是有关系的数据也可进行汇总,此时需要将粒度通过聚合等操作进行统一。数据应用层APP数据应用层的表就是提供给用户使用的,数仓建设到此就接近尾声了,接下来就根据不同的需求进行不同的取数,如直接进行报表展示,或提供给数据分析的同事所需的数据,或其他的业务支撑。最后技术是为业务服务的,业务是为公司创造价值的,离开业务的技术是无意义的。所以数仓的建设与业务是息息相关的,公司的业务不同,数仓的建设也是不同的,只有适合的才是最好的。推荐阅读:发布于 2021-03-19 14:43数据仓库数据数据分析工具​赞同 94​​4 条评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录五分钟学大数据专注于大数据技

什么是数据仓库 | Oracle 中国

什么是数据仓库 | Oracle 中国

单击查看我们的辅助功能政策

跳到内容

关于

服务

解决方案

定价

合作伙伴

资源

关闭搜索

搜索 Oracle.com

快速链接

Oracle Cloud Infrastructure

Oracle Fusion Cloud Applications

Oracle Database

下载 Java

Oracle 职业机会

搜索

Country

菜单

菜单

联系我们

登录 Oracle Cloud

甲骨文中国

数据库

Oracle Cloud 免费套餐

免费在 OCI 上构建、测试和部署应用。

立即注册

数据仓库主题

数据仓库的定义

数据仓库的优势

数据仓库的架构

数据仓库的发展史

什么是云数据仓库?

什么是现代数据仓库?

如何设计一个数据仓库?

我需要一个数据湖吗?

为什么不在 OLTP 环境下运行分析?

零复杂性部署:Autonomous Data Warehouse

什么是数据仓库?

数据仓库的定义

数据仓库是一种面向商务智能 (BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。在实际应用中,数据仓库中的数据一般来自应用日志文件和事务应用等广泛来源。

数据仓库能够集中、整合多个来源的大量数据,借助数据仓库的分析功能,企业可从数据中获得宝贵的业务洞察,改善决策。同时,随着时间推移,它还会建立一个对于数据科学家和业务分析人员极具价值的历史记录。得益于这些强大的功能,数据仓库可为企业提供一个“单一信息源”。

了解面向分析和数据仓库的 Autonomous Database

 

一个数据仓库通常包含以下要素:

一个用于存储和管理数据的关系数据库

一个用于分析前数据准备的提取、加载和转换 (ELT) 解决方案

统计分析、报告和数据挖掘功能

用于数据可视化和展现的客户端分析工具

其他更复杂的分析应用通过应用数据科学和人工智能 (AI) 算法或图形和空间功能来生成切实可行的信息,从而支持对数据进行更多类型的大规模分析

企业还可以在一个 MySQL Database 服务中集成集事务处理、实时分析(数据仓库和数据湖)和机器学习功能,消除 ETL(提取、转换、加载)复制的复杂性、延迟、成本和风险。

在一个 MySQL Database 服务中集成 OLTP、OLAP 和机器学习

数据仓库的优势

数据仓库在高效分析大量不同的数据,提取数据价值并保留历史记录方面拥有独一无二的强大优势。

数据仓库之父兼计算机科学家 William Inmon 定义了数据仓库的 4 大特征,这 4 大特征为数据仓库的强大优势奠定了坚实基础。根据定义,数据仓库具有以下特点:

面向主题:数据仓库可以高效分析关于特定主题或职能领域(例如销售)的数据。

集成:数据仓库可在不同来源的不同数据类型之间建立一致性。

相对稳定:进入数据仓库后,数据将保持稳定,不会发生改变。

反映历史变化:数据仓库分析着眼于反映历史变化。

一个精心设计的数据仓库支持高速查询、高数据吞吐量,能够凭借出色的灵活性帮助用户细分数据或降低数据量,进而执行更加细致的数据检查,满足高层级和精细化数据管理等各种需求。同时,它还能为中间件 BI 环境(为最终用户提供报告、仪表盘和更多其他界面)提供一个坚实的功能性基础。

数据仓库的架构

数据仓库的架构取决于企业的需求。通用数据仓库架构具有以下特点:

简单:所有数据仓库都采用同一基本设计,将元数据、概要数据和原始数据全部存储在中央信息库中。信息库一端由数据源馈送信息,另一端则供最终用户访问,以便进行分析、报告和数据挖掘。

通过暂存区简化数据准备:将操作型数据置入数据仓库之前,必须首先进行清理和处理。这一步骤可通过编程方式完成,但很多数据仓库会创建一个暂存区来简化数据准备工作。

星型结构:通过在中央信息库和最终用户之间创建数据集市,企业可以对数据仓库进行自定义,灵活满足各种业务线的需求。换言之,准备就绪后,数据不会立即进入数据仓库,而是会被移至适当的数据集市。

沙盒:沙盒可提供一个专有的安全区域,帮助企业快速、非正式地探索新的数据集或新的数据分析方式,而无需遵守或遵循数据仓库的正式规则和协议。

数据仓库的进化:从数据分析到 AI 和机器学习

数据仓库首次出现于 20 世纪 80 年代末,其最初目的是帮助数据从操作系统“流入”决策支持系统 (DSS)。早期的数据仓库需要大量冗余:大多数企业为了满足各种用户的需求而采用多个 DSS 环境,虽然各个 DSS 环境使用的数据大部分相同,但通常还是要分别执行数据收集、清理和集成。

而后,随着效率不断提升,数据仓库也从服务传统 BI 平台的信息存储库变成了服务一系列广泛应用(例如运营分析和绩效管理)的分析基础设施。

如今,经过长期迭代,数据仓库取得了长足的发展,企业级数据仓库 (EDW) 能够为企业创造越来越多的价值。

步骤

功能

业务价值

1

事务报告

提供关系信息,创建业务绩效快照

2

细分、即席查询和 BI 工具

扩展功能,挖掘更加深入的洞察,实施更加强大的分析

3

预测未来绩效(数据挖掘)

开发数据可视化和富有前瞻性的商务智能

4

战术分析(空间和统计)

提供“假设”场景,通过更全面的分析为实际决策提供依据

5

存储数月或数年的数据

仅存储数周或数月的数据

数据仓库每发展进入一个新的阶段,都离不开更多类型的数据集,最后三个阶段尤其需要更广泛的数据和分析功能。

如今,人工智能和机器学习正在深刻改变几乎每一个行业和每一种服务与企业资产,数据仓库自然也不例外。大数据的扩展和新兴数字技术的应用正在推动数据仓库的需求和功能发生变化。

自治数据仓库就是这一发展进程的最新成果。它能够尽可能降低成本,提高数据仓库的可靠性和性能,助力企业从数据中汲取更多价值。

详细了解自治数据仓库,快速启动您自己的自治数据仓库。

数据仓库、数据集市和操作型数据存储

尽管用途相似,但数据仓库与数据集市、操作型数据存储 (ODS) 并不相同。数据集市功能与数据仓库相同,但应用范围非常有限,通常仅限于单个部门或业务线。因此,其创建比数据仓库更简单。然而,如果用户难以统一管理和控制多个数据集市中的数据。则非常容易出现数据不一致的问题。

ODS 则仅支持日常操作,只能提供非常有限的历史数据视图。它们非常适合作为当前数据源,也常常被数据仓库使用,但不支持具有丰富历史的数据的查询。

什么是云数据仓库?

云数据仓库使用云技术来提取和存储不同数据源的数据。

原始数据仓库一开始是构建在本地服务器上。现在,这些本地数据仓库仍然拥有很多优势,在许多情况下可以提供更高的治理水平、安全性、数据主权以及较低延迟。然而,本地数据仓库的弹性较低,需要企业通过复杂的预测来确定如何扩展数据仓库,以满足未来需求。另外,本地数据仓库在管理上也非常复杂。

相比之下,云数据仓库可提供以下优势:

提供弹性的可扩展支持,可满足大型或可变计算或存储需求

简单易用

易于管理

节约成本

理想的云数据仓库应当支持完全托管和自治驾驶,确保即使是初学者也只需数次单击操作就能创建和使用数据仓库。有一种简单方法可以迁移到云数据仓库,那就是在符合数据主权和安全要求的数据中心防火墙后面运行本地云数据仓库。

此外,大多数云数据仓库采用“按量计费”模式,可节省更多成本。

什么是现代数据仓库?

企业中不同用户(例如 IT 部门、数据工程、业务分析和数据科学团队的成员)对数据仓库的需求各不相同。

现代数据架构可有效管理所有数据类型、工作负载和分析,满足这些需求。它包含架构模式以及符合行业优秀实践的必要集成组件。现代数据仓库包括:

融合数据库,可简化所有数据类型的管理并支持多种数据使用方法

自助式数据提取和转换服务

支持 SQL、机器学习、图形和空间处理

多种分析选项,可轻松使用数据而无需移动数据

自动化流程,可简化供应、扩展和管理

现代数据仓库可高效简化数据工作流,任何其他仓库都无法企及。这意味着从分析师、数据工程师到数据科学家和 IT 团队的每一个人都可以更加有效地开展工作和创新,从而推动企业发展,而不会发生不计其数的延迟和复杂性。

立即参加免费研讨会,试用 Oracle 现代数据仓库

如何设计一个数据仓库?

在开始设计数据仓库前,您首先需要明确业务需求,就业务范围达成一致并拟定概念设计,然后为数据仓库创建逻辑和物理设计。其中,逻辑设计关注对象之间的关系,物理设计则关注如何以最佳方式存储和检索对象。当然,物理设计还包含传输、备份和恢复流程。

任何数据仓库设计都必须解决以下问题:

具体的数据内容

各数据组内部及相互之间的关系

支撑数据仓库的系统环境

数据转换类型

数据刷新频率

此外,最终用户的需求也是数据仓库设计中的一个重要问题。通常来说,大多数最终用户关注的是执行分析和查看汇总数据,而不是各个事务。而事实上,直到具体的需求出现时,最终用户才明确知道自己想要什么。因此,请在计划流程中尽可能探索和预测最终用户的需求。最后,数据仓库设计应当留出足够的扩展和发展空间,以适应不断变化的最终用户需求。

云技术和数据仓库

云数据仓库不仅具有本地数据仓库的杰出特性,同时又有云计算的强大优势,例如出色的灵活性、可扩展性、敏捷性和安全性,以及更低的成本。利用云数据仓库,企业可以专注挖掘数据价值,而不必耗费时间和精力去构建、管理相关的硬件和软件基础设施。

了解 Oracle Cloud 和数据仓库 (PDF)

我需要一个数据湖吗?

企业可以使用数据湖和数据仓库来存储来自各种信息源的大量数据。而何时使用数据湖,何时使用数据仓库,取决于具体的数据处理需求。以下是数据湖和数据仓库各自的适用场景:

数据湖适用于存储大量迥然不同、未经筛选的数据以供未来特定目的使用。从业务线应用、移动应用、社交媒体、IoT 设备等来源捕获的数据将作为原始数据存储在数据湖中,分析人员只有在分析时才获取各种数据集的结构、完整性、集合和格式。当需要低成本地存储多个来源的无格式、非结构化数据时,数据湖是您的理想选择。

数据仓库专用于数据分析,其处理的对象是已经过数据准备(包括收集、上下文关联和转换)的数据,其目的是基于分析生成洞察。此外,数据仓库还擅长处理来自各种来源的大量数据。当需要利用整个企业中多个来源的历史数据进行分析或高级分析时,数据仓库是您的理想选择。

为什么不在 OLTP 环境下运行分析?

数据仓库能够提供适用于数据(尤其是历史数据)分析的关系环境。而且随着时间的推移,企业可使用数据仓库高效探索数据模式和数据关系。

相比之下,事务环境适用于连续处理事务,通常应用于订单录入以及财务和零售事务。它们并不依赖历史数据。实际上,在 OLTP 环境下,用户常常需要归档历史数据,或删除历史数据来提高性能。

数据仓库和 OLTP 系统之间存在非常明显的差异。

数据仓库

OLTP 系统

工作负载

支持即席查询和数据分析

仅支持预定义操作

数据修改

定期自动更新

通过最终用户发布个人声明进行更新

模式设计

使用半规格化模式来优化性能

使用完全规格化的模式来确保数据一致性

数据扫描

数千到数百万行

一次仅访问少量记录

历史数据

存储数月或数年的数据

仅存储数周或数月的数据

零复杂性部署:自治数据仓库

作为数据仓库的最新迭代,自治数据仓库能够利用 AI 和机器学习技术消除手动任务,简化设置、部署和数据管理。以“即服务”形式提供的自治数据仓库不需要人工数据库管理、硬件配置或管理、软件安装。

在自治数据仓库下,您可以凭借与云平台完全相同的灵活性、可扩展性、敏捷性和低成本,自动创建数据仓库并备份、修补、升级、扩展和缩减数据库,从而消除复杂性、加快部署和释放资源,专注为企业创造价值。

Oracle Autonomous Data Warehouse

Oracle Autonomous Data Warehouse 是一种易于使用、完全自治且支持弹性扩展的数据仓库服务,它能够为您提供闪电般的查询性能,不需要您进行任何的数据库管理。此外,Oracle Autonomous Data Warehouse 的设置也非常简单便捷,您无需过多等待就可以迅速启动数据分析。

为何要选择 Oracle Autonomous Data Warehouse 而非 Snowflake

自动化。Oracle ADW 业务数据平台完全自动执行数据库管理。

简单易用。Autonomous Data Warehouse 解决方案提供内置功能,无需其他独立服务,从而简化部署和管理

解决方案成本。Oracle 的现代数据仓库和增强功能具有与类似工作负载要求相似的成本。

数据安全性。我们提供更强大的内置安全协议来保护您的数据免受网络威胁。

数据治理。我们的数据仓库平台可帮助您无缝管理数据主权需求。

注:为免疑义,本网页所用以下术语专指以下含义:

Oracle专指Oracle境外公司而非甲骨文中国。

相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。

按角色查看

招贤纳士

开发人员

投资者

合作伙伴

初创企业

学生和教育工作者

为什么选择 Oracle

分析报告

Oracle 多云

OCI | Microsoft Azure

云参考架构

企业责任

多元化与包容性

安全实践

学习

什么是 AI?

什么是云计算?

什么是云存储?

什么是 HPC?

什么是 IaaS?

什么是 PaaS?

最新动态

Oracle CloudWorld

Oracle 云免费套餐

云架构中心

云迁移

甲骨文红牛车队

软件产品登记证书

完整使用程序使用通知申请流程

联系我们

销售: 400-699-8888

您需要什么帮助?

订阅电子邮件

活动

新闻

OCI 博客

国家/地区

© 2024 Oracle

使用条款和隐私政策

京ICP备10049020号-1

广告选择

招贤纳士

WeChat

甲骨文中国新浪微博

数据仓库-1、介绍、体系结构、特点 - 知乎

数据仓库-1、介绍、体系结构、特点 - 知乎首发于数据仓库切换模式写文章登录/注册数据仓库-1、介绍、体系结构、特点我叫武月数据分析师 1、什么是数据仓库? 数据仓库(Data Warehouse),可简写为DW或DWH,数据仓库,是为了企业所有级别的决策制定计划过程,提供所有类型数据类型的战略集合。它出于分析性报告和决策支持的目的而创建。为需要业务智能的企业 ,为需要指导业务流程改进、监视时间,成本,质量以及控制等。 数据仓库是依照分析需求、分析维度、分析指标进行设计的。 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,它用于支持企业或组织的决策分析处理。是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统。2、数据仓库体系结构1. 数据源-> 2.ETL -> 3.数据仓库存储与管理-> 4.OLAP -> 5.BI工具3、数据仓库的特点3.1、数据仓库是面向主题的 与传统的数据库不一样,数据仓库是面向主题的,那什么是主题呢?首页主题是一个较高乘次的概念,是较高层次上企业信息系统中的数据综合,归类并进行分析的对象。在逻辑意义上,他是对企业中某一个宏观分析领域所涉及的分析对象。(说人话:就是用户用数据仓库进行决策所关心的重点方面,一个主题通常与多个操作信息型系统有关,而操作型数据库的数据组织面向事务处理任务,各个任务之间是相互隔离的);面向主题-是指:数据仓库中的数据是按照一定的主题域进行组织。 主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。3.2、数据仓库是集成的 数据仓库的数据是从原来的分散的数据库数据(mysql等关系型数据库)抽取出来的。操作型数据库与DSS(决策支持系统)分析型数据库差别甚大。第一,数据仓库的每一个主题所对应的源数据在所有的各个分散的数据库中,有许多重复和不一样的地方,且来源于不同的联机系统的数据都和不同的应用逻辑捆绑在一起;第二,数据仓库中的综合数据不能从原来有的数据库系统直接得到。因此子在数据进入数据仓库之前,必然要经过统一与综合,这一步是数据仓库建设中最关键,最复杂的一步,所要挖成的工作有: (1)要统计源数据中所有矛盾之处,如字段的同名异议、异名同义、单位不统一,字长不统一等。 (2)进行数据的综合和计算。数据仓库中的数据综合工作可以在原有数据库抽取数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。3.3、数据仓库的数据是随着时间的变化而变化的 数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理是不进行数据更新操作的。但并不是说,在从数据集成输入数据仓库开始到最后被删除的整个生存周期中,所有的数据仓库数据都是永远不变的。 数据仓库的数据是随着时间变化而变化的,这是数据仓库的特征之一。这一特征主要有以下三个表现:  (1)数据仓库随着时间变化不断增加新的数据内容。数据仓库系统必须不断捕捉OLTP数据库中变化的数据,追加到数据仓库当中去,也就是要不断的生成OLTP数据库的快照,经统一集成增加到数据仓库中去;但对于确实不在变化的数据库快照,如果捕捉到新的变化数据,则只生成一个新的数据库快照增加进去,而不会对原有的数据库快照进行修改。 (2)数据库随着时间变化不断删去旧的数据内容 。数据仓库内的数据也有存储期限,一旦过了这一期限,过期数据就要被删除。只是数据库内的数据时限要远远的长于操作型环境中的数据时限。在操作型环境中一般只保存有60~90天的数据,而在数据仓库中则要需要保存较长时限的数据(例如:5~10年),以适应DSS进行趋势分析的要求。 (3)数据仓库中包含有大量的综合数据,这些综合数据中很多跟时间有关,如数据经常按照时间段进行综合,或隔一定的时间片进行抽样等等。这些数据要随着时间的变化不断地进行从新综合。因此数据仓库的数据特征都包含时间项,以标明数据的历史时期3.4、数据仓库的数据是不可修改的 数据仓库的数据主要提供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合, 以及基于这些快照进行统计、综合和重组的导出数据,而不是联机处理的数据。数据库中进行联机处理的书库进过集成输入到数据仓库中,一旦数据仓库存放的数据已经超过数据仓库的数据存储期限,这些数据将从当前的数据仓库中删去。因为数据仓库只进行数据查询操作,所以数据仓库当中的系统要比数据库中的系统要简单的多。数据库管理系统中许多技术难点,如完整性保护、并发控制等等,在数据仓库的管理中几乎可以省去。但是由于数据仓库的查询数据量往往很大,所以就对数据查询提出了更高的要求,他要求采用各种复杂的索引技术;同时数据仓库面向的是商业企业的高层管理层,他们会对数据查询的界面友好性和数据表示提出更高的要求。+vx 获取更多资料 ds_class编辑于 2022-09-04 19:53数据仓库ETL​赞同 23​​添加评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录数据仓库主要有数据仓库、数据库、数据仓库建模、数据仓

如何建设数据仓库? - 知乎

如何建设数据仓库? - 知乎首页知乎知学堂发现等你来答​切换模式登录/注册数据仓库如何建设数据仓库?关注者354被浏览418,482关注问题​写回答​邀请回答​好问题 3​添加评论​分享​28 个回答默认排序帆软​已认证账号​ 关注老规矩,先看是什么,再说怎么做。一、什么是数据仓库?其实很多企业做数据仓库的时候,都忽略了数仓与BI、数据库的差异,只去搞底层数据,不去做数据服务和应用,其实就是把数据仓库给狭义化了。其实数据仓库可以看成是BI的基础版本、数据库的升级版本,我们可以把公司里的数据都想象成一个个文件夹,数据库就是这一个个文件柜,这个文件柜存放着非常多的数据,无论这个数据是什么、或者是如何组织的。而当我们的文件非常多、种类非常复杂的时候,我们的就想要寻找某个文件夹的时候,如果每个文件柜每个文件柜的去找,实际上是非常耗费成本的,因此我们不妨建立一个档案室,对不同的文件柜进行编号、归类、分组,方便我们快速定位数据源,这个档案室就是数据仓库。所以这时候我们需要更为庞大的数据仓库,帮助我们去对多个数据源的数据库数据进行抓取,而抓取数据源的过程就可以理解为ETL的工作,这样去理解一个企业的数据架构就会简单很多。因此数据仓库的本质,其实就是整合多个数据源的历史数据进行细粒度的、多维的分析,帮助高层管理者或者业务分析人员做出商业战略决策或商业报表。这里面就涉及到了数据仓库的架构,简单来说数据仓库分为四个层次:ODS层:存放原始数据,直接加载原始日志、数据,数据保存原貌不做处理。DWD层:结构与粒度原始表保持一致,对ODS层数据进行清洗DWS层:以DWD为基础,进行轻度汇总ADS层:为各种统计报表提供数据这里要注意数据仓库的架构当中,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表。也就是说,我们所看到的数据不是直接从数据底层抽取的,相当于我们访问数据仓库的时候,是让图书管理员帮你找一个文件柜,那么怎么更高效低去找,就是数据仓库建设中很重要的一部分工作——数据建模,包括数据的存储模型、逻辑模型、概念模型等等。这里举个例子:以最常见的制造业为例,底下不同分厂的信息系统厂商各不相同,这就导致数据仓库中可能有来自前端系统(供应商、招标系统等)、MES系统(不同分厂的MES)、业务系统(不同分厂的CRM、OA、SAP系统等)的数据,因此导致系统中数据结构、数据标准、流程流转方式都存在差异。再具体点说,例如在统计良率、OEE的时候,各厂按各自的方法进行统计然后汇报给领导,但由于各厂的数据过于分散,没有统一的计算标准,所以对良率的计算逻辑也不同,导致指标口径不一致,无法统一管理指标数据,这个数据也就失去了参考价值,到头来白忙活一场。而这种时候,我们通常的解决方法是:实现数据中心化,逻辑统一化从众多跨地域的业务系统通过实时同步增量方式,将分散在各处的数据,汇聚到统一的数据中心,从业务数据库中原表原样取出数据,形成数据仓库的ODS层,为后续加工提供原始材料数仓搭建过程中的数据编排能力:多样化算子和多种任务调度方式,提供多样化异构数据处理能力;在标准化的要求下,通过各系统原始的指标定义,形成统一的数据处理逻辑,在低代码实时数据调度平台FineDataLink进行内部数据转换,完成对异构数据的梳理,进行ODS>DW>DM层的数据逐层编排,最后形成统一逻辑的数据输出,以供企业进行统一管理。ODS层:数据存储:本层数据,一般会按照来源业务系统的分类方式而进行分类,在ODS数据存储层中,我们不会对数据模型进行修改,会维持原有的数据模型不变。DW: 是数据仓库的主体。DW层将ODS层中获得的数据按照主题建立各种数据模型。DM层:数据集市或宽表。DM层为面向最终应用的主题层,一般依据前端报表/业务包需求进行设计,所以DM层表不需要考虑复用,每一张DM表仅为一张报表所服务;二、数据仓库的建模方式建设数据模型既然是整个数据仓库建设中一个非常重要的关键部分,那么,怎么建设我们的数据仓库模型就是我们需要解决的一个问题。这里我们将要详细介绍如何创建适合自己的数据模型。(1)数据仓库数据模型架构数据仓库的数据模型的架构和数据仓库的整体架构是紧密关联在一起的,我们首先来了解一下整个数据仓库的数据模型应该包含的几个部分。从下图我们可以很清楚地看到,整个数据模型的架构分成5 大部分,每个部分其实都有其独特的功能。从上图我们可以看出,整个数据仓库的数据模型可以分为大概5 大部分:系统记录域:这部分是主要的数据仓库业务数据存储区,数据模型在这里保证了数据的一致性。内部管理域:这部分主要存储数据仓库用于内部管理的元数据,数据模型在这里能够帮助进行统一的元数据的管理。汇总域:这部分数据来自于系统记录域的汇总,数据模型在这里保证了分析域的主题分析的性能,满足了部分的报表查询。分析域:这部分数据模型主要用于各个业务部分的具体的主题业务分析。这部分数据模型可以单独存储在相应的数据集市中。反馈域:可选项,这部分数据模型主要用于相应前端的反馈数据,数据仓库可以视业务的需要设置这一区域。通过对整个数据仓库模型的数据区域的划分,我们可以了解到,一个好的数据模型,不仅仅是对业务进行抽象划分,而且对实现技术也进行具体的指导,它应该涵盖了从业务到实现技术的各个部分。(2)数据仓库建模阶段划分我们前面介绍了数据仓库模型的几个层次,下面我们讲一下,针对这几个层次的不同阶段的数据建模的工作的主要内容:从上图我们可以清楚地看出,数据仓库的数据建模大致分为四个阶段:业务建模,这部分建模工作,主要包含划分整个单位的业务等等领域概念建模,这部分得建模工作,主要包含抽取关键业务概念,分组,细化分组概念,形成完整的领域概念模型逻辑建模,这部分的建模工作,主要包含业务概念实体化,事件实体化,说明实体化物理建模从我们上面对数据仓库的数据建模阶段的各个阶段的划分,我们能够了解到整个数据仓库建模的主要工作和工作量,希望能够对我们在实际的项目建设能够有所帮助。(3)数据仓库建模方法范式建模法范式建模法其实是我们在构建数据模型常用的一个方法,该方法的主要由Inmon 所提倡,主要解决关系型数据库得数据存储,利用的一种技术层面上的方法。目前,我们在关系型数据库中的建模方法,大部分采用的是三范式建模法。范式建模法的最大优点就是从关系型数据库的角度出发,结合了业务系统的数据模型,能够比较方便的实现数据仓库的建模。但其缺点也是明显的,由于建模方法限定在关系型数据库之上,在某些时候反而限制了整个数据仓库模型的灵活性,性能等,特别是考虑到数据仓库的底层数据向数据集市的数据进行汇总时,需要进行一定的变通才能满足相应的需求。维度建模法维度建模法,Kimball 最先提出这一概念。其最简单的描述就是,按照事实表,维表来构建数据仓库,数据集市。这种方法的最被人广泛知晓的名字就是星型模式(Star-schema)。上图的这个架构中是典型的星型架构。星型模式之所以广泛被使用,在于针对各个维作了大量的预处理,如按照维进行预先的统计、分类、排序等。通过这些预处理,能够极大的提升数据仓库的处理能力。特别是针对3NF 的建模方法,星型模式在性能上占据明显的优势实体建模法上图表述的是一个抽象的含义,如果我们描述一个简单的事实:“小明开车去学校上学”。以这个业务事实为例,我们可以把“小明”,“学校”看成是一个实体,“上学”描述的是一个业务过程,我们在这里可以抽象为一个具体“事件”,而“开车去”则可以看成是事件“上学”的一个说明。由于实体建模法,能够很轻松的实现业务模型的划分,因此,在业务建模阶段和领域概念建模阶段,实体建模法有着广泛的应用。从笔者的经验来看,再没有现成的行业模型的情况下,我们可以采用实体建模的方法,和客户一起理清整个业务的模型,进行领域概念模型的划分,抽象出具体的业务概念,结合客户的使用特点,完全可以创建出一个符合自己需要的数据仓库模型来。三、数据仓库的建设流程1、模板调研:信息调研是逻辑模型设计、物 理模型设计以及数据映射的基 础,在模型设计阶段贯穿始终决定了数据仓库的质量。这一步我们主要的工作是找出实际存在的业务问题,领导的KPI问题,现在没有提出未来可能出现的问题,这是数据仓库建立的核心所在。方法就是调研,包括业务人员、领导方不断沟通,不断调研,输出问题清单。2、主题域模型设计:主题域的界定、每个主题主实体的准入原 则、数据处理规范、核心的分类决定了数 据模型的主体框架,保持主体框架的稳定 性确保了仓库的稳定性。3、概念模型设计:详细的实体属性的设计,大量数据分析业务规则验证的工作,模型设计的同时完成到逻辑 数据模型的简要数据映射4、逻辑模型数据设计:提供与生产一致版本的数据结构,准 确完善的数据字典,符合分析需求的 样本数据;并能对样本数据分析中的 问题进行及时准确的回复跟踪5、物理存储模型设计:协调仓库数据的相关方达成共 识,既包容当前数据满足现有 需求,又具备一定的前瞻性便 于扩展,还必须具备操作性6、模型优化设计回顾:模型设计是多人协同的团队工作,是一项持续不断地扩展演化完善的 过程,遵循模型设计规范、沿用一致的模型客户化方式是至关重要的。最后,放一个数据仓库建设方案,包括实操+案例,千万别错过! 编辑于 2023-09-07 14:21​赞同 66​​添加评论​分享​收藏​喜欢收起​miao君公众号:IT技术管理那些事儿​ 关注数据在刚刚开始的时候,还是小体量,就好比创业公司,还不足够引起人们的注意。但是当数据体量上来了,就好像变成了独角兽。10个人去银行产生的数据,还能勉强搞定,但是成百上千个呢?甚至更多呢?你会说,银行有oracle这种强大的数据库啊,但是,传统数据库目前来说,只能做到处理、读写、删除一些需求,更多的还是存储数据的用途。把这些数据聚合在一起分析,数据库做不到。于是,人们在现有的数据库基础上,对数据进行加工,也就是常说的ETL:抽取、转换、加载。然后,数据仓库就生成了,里面有各种不同的数据,分成不同的业务包,都是为了数据分析,用于BI和报表上面。开始之前给大家分享一份干货方案:数仓这个概念吧,有了很久了,里面存了很多不同类型的数据,就好比是千万张Excel表格,都在这个仓库里,你要的时候可以查询。数据仓库是解决方案,真正落地的时候,还要依托于工具平台。举个例子,也是在做数仓工作时经常会遇到的问题。以最常见的制造业为例,底下不同分厂的信息系统厂商各不相同,这就导致数据仓库中可能有来自前端系统(供应商、招标系统等)、MES系统(不同分厂的MES)、业务系统(不同分厂的CRM、OA、SAP系统等)的数据,因此导致系统中数据结构、数据标准、流程流转方式都存在差异。再具体点说,例如在统计良率、OEE的时候,各厂按各自的方法进行统计然后汇报给领导,但由于各厂的数据过于分散,没有统一的计算标准,所以对良率的计算逻辑也不同,导致指标口径不一致,无法统一管理指标数据,这个数据也就失去了参考价值,到头来白忙活一场。而这种时候,我们通常的解决方法是:实现数据中心化,逻辑统一化从众多跨地域的业务系统通过实时同步增量方式,将分散在各处的数据,汇聚到统一的数据中心,从业务数据库中原表原样取出数据,形成数据仓库的ODS层,为后续加工提供原始材料 数仓搭建过程中的数据编排能力:多样化算子和多种任务调度方式,提供多样化异构数据处理能力;在标准化的要求下,通过各系统原始的指标定义,形成统一的数据处理逻辑,在低代码实时数据调度平台FineDataLink进行内部数据转换,完成对异构数据的梳理,进行ODS>DW>DM层的数据逐层编排,最后形成统一逻辑的数据输出,以供企业进行统一管理。ODS层:数据存储:本层数据,一般会按照来源业务系统的分类方式而进行分类,在ODS数据存储层中,我们不会对数据模型进行修改,会维持原有的数据模型不变。DW: 是数据仓库的主体。DW层将ODS层中获得的数据按照主题建立各种数据模型。DM层:数据集市或宽表。DM层为面向最终应用的主题层,一般依据前端报表/业务包需求进行设计,所以DM层表不需要考虑复用,每一张DM表仅为一张报表所服务;———————————————————————————————————————再来说下工具。工具平台包括两种,一种是存储系统如hdfs,计算系统如hive/mr/spark/flink等,是数据仓库的基础,在此基础上进行数据的建设与使用(主要说的是依赖自建的集群进行数据建设,其它的情况后续再说)。而本文说的是第二种,数据仓库的辅助系统:数据服务平台。数据服务平台:数据建设,数据使用的辅助与后盾。对于外部用户,如分析师,项目团队来说,数据可视化/元数据是重要的,通过这两个系统,可以很容易的知道数据的基本情况以及统计结果,可以进行多种分析。对于内部用户,如数据团队来说,调度系统/质量监控是必不可少的,调度系统可以让任务准时地完成,质量监控可以保证提前发现数据问题。下面分别对这四个系统进行说明。1. 数据可视化/报表/数据查询 —— 数据的服务员。用到的工具是FineReport和FineBI数据的意义是知晓历史,查看现状,规划未来,前提是我们能"看到数据"。能被看到,能被理解的数据才有意义。用合适的方法把数据展示出来,让用户轻松理解,是一个比较困难的事情。不同的数据,需要用不同的方法,比如看数据,用表格;看趋势,用折线图;看分布,用饼图;看流量变化,用漏斗图;看分布,用热力图等等。合适的表现形式,才能让人更好地从数据中获取知识。举一个真实的例子,在一家公司时,只做数据建设,没有好好地做数据可视化,然后我们给高管做汇报的时候,在命令行敲命令,得到一个黑底白字的表格,尴尬至极。汇报之后,我们就立刻组建了数据可视化的团队。分析师,数据PM,是使用数据的用户,而他们往往没有技术能力,无法直接使用数据。同时,在离线/实时两种数据场景中,需要使用比如mysql/hive/kylin/druid/clickhouse/es等等工具,无疑更增加了用户的使用成本,并且工具是发展的,随时可能引入新的工具,难不成需要用户随时学习新工具的用法么?当然不应该这样,所以需要一个统一的系统,能够展示报表数据、图表分析,能让用户在一个界面轻易地查多个平台甚至跨平台的数据。常用的工具就是BI系统,比如帆软的FineBI平台。一方面对接经整合过的数仓数据,另一方面在前端展示报表、面向高管的驾驶舱、让数据用户自主分析。没有好的数据查询系统,就无法服务好需求方。常说的"一站式数据服务平台"用户最直观地看到的,通常就是这类。2. 元数据 —— 数据的解说员。元数据,是描述数据的数据,通过元数据可以了解数据的基本情况和使用方法等。包含数据的基本情况(数据层级,作用,建表语句,字段,存储位置等),数据信息(数据类型,数据规范化逻辑,枚举值列举,数值盒图,数据示例等),数据增长信息(新增条数,存储消耗),数据血统(数据流转路径)等。理想的场景中,当一个新的主题建设出来,只要给一份元数据,用户就能清晰的知道数据的来源,逻辑,样例,以及使用方法,而不用一一宣讲。3. 数据质量 —— 忠实的观察员。及时发现数据波动,协助查找原因。数据波动,有时是由于数据异常导致的(整个数据链路中,原始数据,数据收集,数据计算都可能出错,所以数据出错是无法避免的)。当然多数时候都是正常的波动,但是还是要尽职的观察,随时发现数据波动,提前找到波动的原因,主动把数据问题抛出来,防止小错积累成大错。数据计算自动多维分析,找出指标变化波动大的维度与变化情况。数据转移数据在多个数据源之间流转过程中,有无数据变化。数据条数,数据内容。报表数据多个报表包含相同维度,从总量/相同维度明细两个方面对比相同的指标。通过多方面的自动检查监控,可以很好地了解数据的健康情况。例行检查,给出数据质量报告,保证做到"好数据,用得放心"。4. 调度系统 —— 勤劳的操作员。保证任务的稳定执行。众多计算逻辑,包括hql,Java程序,python程序,spark程序,需要在一定条件下顺序执行,可能是时间驱动:每天3点开始执行;可能是条件驱动:上游任务都执行完再进行当前步骤。当然实际上往往是两种方法并存。在这个需求背景下,调度系统就产生了。调度系统不仅能做到最基本的版本管理控制,控制任务按条件执行,对于数据系统来说,数据的修改往往伴随着一系列下游的任务执行,那么就需要有级连筛选执行的能力。另外,对任务的执行情况需要有监控,及早发现包括执行失败,产出延迟等任务异常情况,以便及时应对。小结这四个工具是按照用户感知的强弱来排列的,都不是数据建设/使用中"必须"的,没有它们,依然可以做,但是为了让数据更好的使用,它们是相辅相承,不可或缺的重要组成部分。所以,数据工作不能仅仅埋头于数据,也要关注一下工具。 编辑于 2023-10-20 10:42​赞同 11​​添加评论​分享​收藏​喜欢

Access Denied

Access Denied

Access Denied

You don't have permission to access "http://www.sap.cn/products/technology-platform/datasphere/what-is-a-data-warehouse.html" on this server.

Reference #18.6e051c78.1709839564.a13f5b2e

什么是数据仓库? | IBM

什么是数据仓库? | IBM

什么是数据仓库?

数据仓库会将许多不同来源的数据提取到一个数据存储库中,以便提供复杂的分析和决策支持

订阅 IBM 时事通讯

什么是数据仓库?

数据仓库或企业数据仓库 (EDW) 作为一种系统,可将不同来源的数据提取到单个统一的中央数据存储库中,以支持数据分析、数据挖掘、人工智能 (AI) 和机器学习。 数据仓库系统使组织能够以标准数据库无法实现的方式对大量(PB 级)历史数据运行强大的分析。

过去三十多年,数据仓库系统一直是商业智能 (BI) 解决方案的一部分,但近年来,它们随着新数据类型和数据托管方法的出现而不断发展。 过去,数据仓库托管在本地(通常托管在大型计算机上),其功能主要是从其他源提取数据、清理和准备数据,以及在关系数据库中加载和维护数据。 近年来,数据仓库可以托管在专用设备或云中,并且大多数的数据仓库都添加了分析功能以及数据可视化和演示工具。

了解有关 IBM 数据仓库解决方案的更多信息。

 

了解 watsonx.data

面向所有数据随处扩展 AI 工作负载

了解最新信息

数据仓库架构

一般来说,数据仓库有采用三层架构,其中包括:

底层: 底层包含一个数据仓库服务器,这通常是一个关系数据库系统,该系统通过称为提取、转换和加载 (ETL) 的过程或称为提取、加载和变换 (ELT) 的过程从多个数据源收集、清理和转换数据。

中间层: 中间层由一个 OLAP(联机分析处理)服务器组成,可以实现快速查询。 在这一层中可以使用以下三种类型的 OLAP 模型:ROLAP、MOLAP 和 HOLAP。 使用的 OLAP 模型类型取决于存在的数据库系统类型。

顶层: 顶层由某种前端用户界面或报告工具表示,使最终用户能够对其业务数据进行临时数据分析。   

了解数据仓库中的 OLAP 和 OLTP

OLAP(表示联机分析处理) 是一种软件,用于对来自统一集中式数据存储(如数据仓库)的大量数据进行高速多维分析。 OLTP(联机事务处理)可以让大量用户(通常是通过因特网)实时执行大量数据库事务。 OLAP 和 OLTP 的主要区别在于名称:OLAP 本质上用于分析的,而 OLTP 是事务性的。 

OLAP 工具旨在对数据仓库中的数据(包括历史数据和事务数据)进行多维分析。 OLAP 的常见用途包括数据挖掘和其他商业智能应用、复杂的分析计算和预测场景,以及业务报告功能(如财务分析、预算编制和预测规划)。

OLTP 旨在通过尽可能快速准确地处理最近的事务来支持面向事务的应用。 OLTP 的常见用途包括 ATM、电子商务软件、信用卡支付处理、在线预订、预订系统和记录保存工具。

要深入了解这些方法之间的差异,请查看"OLAP 与 OLTP:有何区别?"

数据仓库中的模式

模式是指数据在数据库或数据仓库中的组织方式。 主要有两种类型的模式结构:星型模式和雪花模式,它们会影响数据模型的设计。

星型模式: 此模式由一个事实表组成,该事实表可以连接到多个非规范化维度表。 它被认为是最简单、最常见的模式类型,可以为用户提供更快的查询速度。

雪花模式: 虽然没有被广泛采用,但雪花模式是数据仓库中使用的另一种组织结构。 在这种情况下,事实表将连接到许多规范化维度表,而这些维度表都具有子表。 雪花模式可以为用户提供较低水平的数据冗余,但这会对查询性能造成一定影响。 

数据仓库与数据库、数据湖和数据集市

数据仓库、数据库、数据湖和数据集市这些术语往往可以互换使用。 虽然这些术语相似,但它们之间存在很大区别:

数据仓库与数据湖

 

数据仓库将多个来源的原始数据收集到一个中央存储库中,该存储库使用为数据分析设计的预定义模式进行结构化。 数据湖是没有预定义模式的数据仓库。 因此,它支持的分析类型要多于数据仓库。 数据湖通常是在 Apache Hadoop 等大数据平台上构建的。

有关数据湖的更多信息,请观看以下视频:

数据仓库与数据集市

 

数据集市是数据仓库的一个子集,其中包含特定于某些业务线或业务部门的数据。 由于数据集市包含较小的数据子集,因此在使用范围较广泛的数据仓库数据集时,业务部门或业务线可以借助数据集市更快地发现更有针对性的洞察。

数据仓库与数据库

 

数据库主要用于快速查询和事务处理,而不是分析。 数据库通常用作特定应用程序的主要数据存储库,而数据仓库将存储来自组织中任意数量(甚至所有)应用程序的数据。

数据库侧重于更新实时数据,而数据仓库的应用范围更广,它能够捕获当前和历史数据以进行预测分析、机器学习和其他高级分析。

数据仓库类型

云数据仓库

 

云数据仓库是专为在云端运行而构建的数据仓库,可以作为一个托管服务提供给客户。 越来越多的公司使用云服务并希望减少其本地数据中心的占用空间,因此基于云的数据仓库在过去五到七年中变得越来越流行。  

如果使用云数据仓库,那么物理数据仓库基础架构将由云公司管理,这意味着客户不必对硬件或软件进行前期投资,也不必管理或维护数据仓库解决方案。

数据仓库软件(本地/许可)

 

一家企业可以购买数据仓库许可证,然后在自己的本地基础架构上部署数据仓库。 尽管这样做的成本通常比使用云数据仓库服务要高,但对于希望更好地掌控数据或需要遵守严格的安全或数据隐私标准或法规的政府实体、金融机构或其他组织来说,这可能是更好的选择。

数据仓库工具

 

数据仓库设备是预先集成的硬件和软件(CPU、存储、操作系统和数据仓库软件)捆绑包,企业可以将此捆绑包连接到其 网络 并按原样开始使用。 就前期成本、部署速度、易扩展性和管理控制能力而言,数据仓库设备介于云实施和本地实施之间。

数据仓库的优势

数据仓库为以下改进奠定了基础:

更好的数据质量: 数据仓库集中了来自各种数据源的数据,例如事务系统、操作数据库和平面文件。 然后对数据进行清理,消除重复项,并将其标准化以创建单一的事实来源。

更快获取业务洞察: 数据的来源不同,这限制了决策者自信地制定业务战略的能力。   数据仓库支持数据集成,因而业务用户可充分利用公司的所有数据来制定每一个业务决策。   

更智慧的决策:数据仓库支持大规模 BI 功能,例如数据挖掘(发现数据中看不见的模式和关系)、人工智能和机器学习,数据专业人员和业务负责人可以利用这些工具获得确凿证据,以便在组织内从业务流程到财务管理和库存管理的几乎各个领域作出更明智的决策 

获得和增长竞争优势:以上所有内容结合起来,可以帮助组织从数据中发现更多机遇,这比从不同数据存储中发现机遇要快得多。 

相关解决方案

数据仓库解决方案

IBM 数据仓库解决方案可提供高性能和灵活性,支持将结构化数据和非结构化数据用于分析工作负载(包括机器学习)。

探索数据仓库解决方案

Db2 Warehouse on Cloud

探索为高性能分析和 AI 构建的完全管理的弹性云数据仓库的功能。

探索 Db2 Warehouse on Cloud

IBM Cloud Pak® for Data System

IBM Cloud Pak® for Data System 是一体化的混合云平台,可在本地提供预配置、受管理且高度安全的环境。

探索 IBM Cloud Pak® for Data System

资源

寻找能够应对数据和 AI 挑战的合适的企业数据仓库

企业数据仓库和数据集市可以帮助克服 AI 所带来的许多挑战。 了解如何评估此类解决方案可以实现的总体价值。

阅读博客

如何选择适用于 AI 的数据仓库

在选择企业数据仓库时,企业应考虑 AI 的影响、关键的仓库差异化因素以及部署模型的多样性。 这本电子书可帮助您全面考虑这些问题。

阅读电子书 (7.7 MB)

指南

数据差异化优势

构建数据驱动型组织并推动业务优势指南

采取下一步行动

IBM 提供了本地、云和集成设备数据仓库解决方案,所有解决方案都建立在数据分析和人工智能基础之上,并针对预测性洞察和数据驱动的决策进行了优化。 这三种解决方案都是 IBM Db2 产品系列的一部分,它们提供了通用 SQL 引擎来简化查询和机器学习功能,因此可以提高数据管理性能。

立即探索数据仓库解决方案

什么是数据仓库?- 数据仓库简介 - AWS

什么是数据仓库?- 数据仓库简介 - AWS

跳至主要内容

单击此处以返回 Amazon Web Services 主页

联系我们

支持 

中文(简体) 

我的账户 

登录

创建 AWS 账户

re:Invent

产品

解决方案

定价

文档

了解

合作伙伴网络

AWS Marketplace

客户支持

活动

探索更多信息

关闭

عربي

Bahasa Indonesia

Deutsch

English

Español

Français

Italiano

Português

Tiếng Việt

Türkçe

Ρусский

ไทย

日本語

한국어

中文 (简体)

中文 (繁體)

关闭

我的配置文件

注销 AWS Builder ID

AWS 管理控制台

账户设置

账单与成本管理

安全证书

AWS Personal Health Dashboard

关闭

支持中心

专家帮助

知识中心

AWS Support 概述

AWS re:Post

单击此处以返回 Amazon Web Services 主页

免费试用

联系我们

re:Invent

产品

解决方案

定价

AWS 简介

入门

文档

培训和认证

开发人员中心

客户成功案例

合作伙伴网络

AWS Marketplace

支持

AWS re:Post

登录控制台

下载移动应用

什么是云计算?

云计算概念中心

分析

什么是数据仓库?

创建 AWS 账户

了解免费的分析产品

查看云端分析服务的免费优惠

查看分析服务

使用最全面的分析服务集更快地创新

浏览分析培训

利用 AWS 专家编写的内容开始分析培训

阅读分析博客

阅读关于 AWS 分析产品的最新新闻和最佳实践

什么是数据仓库?

如何架构数据仓库?

数据仓库如何运作?

使用数据仓库有哪些优势?

数据仓库、数据库和数据湖如何一起工作?

数据集市与数据仓库相比如何?

AWS 如何支持您的数据仓库工作?

什么是数据仓库?

数据仓库是信息(对其进行分析可做出更明智的决策)的中央存储库。通常,数据定期从事务系统、关系数据库和其他来源流入数据仓库。业务分析师、数据工程师、数据科学家和决策者通过商业智能(BI)工具、SQL 客户端和其他分析应用程序访问数据。

数据和分析已然成为各大企业保持竞争力所不可或缺的部分。企业用户依靠报告、控制面板和分析工具从其数据中获得洞察力、监控企业绩效以及更明智地决策。数据仓库通过高效地存储数据以便最大限度地减少数据输入和输出 (I/O),并快速地同时向成千上万的用户提供查询结果,为这些报告、控制面板和分析工具 由数据仓库提供支持。

如何架构数据仓库?

数据仓库的架构包含多个层。顶层是通过报告、分析和数据挖掘工具呈现结果的前端客户端。中间层包括用于访问和分析数据的分析引擎。架构的底层是加载和存储数据的数据库服务器。数据使用两种不同类型的方式存储:1) 经常访问的数据存储在最快的存储装置中(例如,SSD 驱动器),2) 不经常访问的数据存储在便宜的对象存储区中,例如 Amazon S3。数据仓库将自动确保经常访问的数据被移进“快速”存储以便优化查询速度。

数据仓库如何运作?

数据仓库可能包含多个数据库。在每个数据库中,数据整理进表和列中。在每个列中,您可以定义数据的说明,例如整数、数据字段或字符串。表可以在 Schema 内整理,您可以将其视为文件夹。提取的数据将存储在 Schema 描述的各种表中。查询工具使用 Schema 来确定要访问和分析哪些数据表。

使用数据仓库有哪些优势?

数据仓库的优势包括:

知情地做出决定

整合多个来源的数据

历史数据分析

数据质量高、一致且准确

将分析处理从事务数据库中分离出来,从而提高两个系统的性能

数据仓库、数据库和数据湖如何一起工作?

通常,企业使用数据库、数据湖和数据仓库的组合来存储和分析数据。Amazon Redshift 的 Lake House 架构让此类集成变得轻松。

随着数据的量和种类增加,采用一种或多种通用模型来处理数据库、数据湖和数据仓库中的数据会有很多便利:

图片(上):将数据放在数据库或数据湖中,准备数据,将所选数据移动到数据仓库中,然后执行报告。

图片(上):将数据放在数据仓库中,分析数据,然后共享数据以便与其他分析和机器学习服务共用。

 

数据仓库是专门为数据分析设计的,涉及读取大量数据以了解数据之间的关系和趋势。数据库用于捕获和存储数据,例如记录事务的详细信息。

阅读有关数据库的信息 »

与数据仓库不同,数据湖是所有数据(包括结构化、半结构化和非结构化数据)的中央存储库。数据仓库要求数据使用表格形式进行整理,Schema 通过它发挥作用。需要采用表格形式以便使用 SQL 来查询数据。但是,并非所有应用程序都要求数据为表格形式。有些应用程序,例如大数据分析、完整文本搜索和机器学习,即使是对于“半结构化”或完全非结构化的数据,也能够进行访问。

了解数据湖 »

要深入比较数据仓库和数据湖,请访问我们的数据仓库与数据湖的专用比较页面。

数据集市与数据仓库相比如何?

数据集市是一种数据仓库,用于满足特定团队或业务部门(例如财务、营销或销售)的需求。它更小、更集中,并且可能包含最适合其用户社区的数据汇总。数据集市也可以是数据仓库的一部分。

阅读有关数据集市的信息 »

要深入比较数据集市和数据仓库,请访问我们的数据集市与数据仓库的专用比较页面。

AWS 如何支持您的数据仓库工作?

AWS 允许您利用与按需计算相关的所有核心优势:访问看似无限的存储和计算容量,助越来越多所收集、存储和查询的数据并行扩展系统,只需为预置的资源付费。AWS 还提供一系列已相互无缝集成的托管服务,以便您能够快速部署端到端分析和数据仓库解决方案。

下面的插图显示了端到到分析流程的关键步骤,又称为堆栈。AWS 在每一步提供各种托管服务。

Amazon Redshift 是我们的快速、完全托管且经济实惠的数据仓库服务。该服务可在单一服务中同时为您提供 PB 级数据仓库和 EB 级数据湖分析,您只需按实际使用量付费。

立即创建账户,开始在 AWS 上使用数据仓库。

AWS 上的后续步骤

查看其他与产品相关的资源

查看云端分析服务的免费优惠 

注册免费账户

立即享受 AWS 免费套餐。

注册 

开始在控制台中构建

在 AWS 管理控制台中开始构建。

登录 

登录控制台

了解有关 AWS 的信息

什么是 AWS?

什么是云计算?

AWS 包容性、多样性和公平性

什么是 DevOps?

什么是容器?

什么是数据湖?

AWS 云安全性

最新资讯

博客

新闻稿

AWS 资源

入门

培训和认证

AWS 解决方案库

架构中心

产品和技术常见问题

分析报告

AWS 合作伙伴

AWS 上的开发人员

开发人员中心

软件开发工具包与工具

运行于 AWS 上的 .NET

运行于 AWS 上的 Python

运行于 AWS 上的 Java

运行于 AWS 上的 PHP

运行于 AWS 上的 JavaScript

帮助

联系我们

获取专家帮助

提交支持工单

AWS re:Post

Knowledge Center

AWS Support 概览

法律人员

亚马逊云科技诚聘英才

创建账户

Amazon 是一个倡导机会均等的雇主:

反对少数族裔、妇女、残疾人士、退伍军人、性别认同和性取向歧视。

语言

عربي

Bahasa Indonesia

Deutsch

English

Español

Français

Italiano

Português

Tiếng Việt

Türkçe

Ρусский

ไทย

日本語

한국어

中文 (简体)

中文 (繁體)

隐私

|

网站条款

|

Cookie 首选项

|

© 2023, Amazon Web Services, Inc. 或其联属公司。保留所有权利。

终止对 Internet Explorer 的支持

知道了

AWS 对 Internet Explorer 的支持将于 07/31/2022 结束。受支持的浏览器包括 Chrome、Firefox、Edge 和 Safari。

了解详情 »

知道了

数据仓库解决方案 | IBM

数据仓库解决方案 | IBM

数据仓库解决方案

构建高级数据仓库平台,为成熟而缜密的分析奠定基础

查看解决方案

高性能数据仓库解决方案

为了支持您的商业智能计划并加快决策制定过程,您需要奠定一个经过优化的灵活基础,用于收集和分析各个来源的大量数据。

IBM 数据仓库解决方案可在本地、云端或集成设备上使用。 通过注入机器学习和 AI 技术来更迅速、更深入地展开分析,它们还共享一个通用的 SQL 引擎,用于简化查询过程。 IBM 数据仓库也可用于  IBM Cloud Pak for Data 平台 以支持混合云部署。

IBM Cloud Pak for Data

阅读:IBM 在 2021 年 Gartner® 云数据库管理系统魔力象限报告中被评为领导者

为何选择 IBM 进行数据仓储?

混合多云

利用多云方法避免被供应商套牢。 在混合云数据平台 IBM Cloud Pak® for Data 上运行。

适应性伸缩

利用 IBM Cloud® 上数据仓库的灵活定价模式,独立扩展存储和计算。 仅为您需要的功能付费。

洞察的基础

通过在整个企业中实施 AI 技术,充分实现结构化、非结构化和地理空间数据的价值。

IBM Db2 Warehouse on Cloud

一种完全托管、安全永续的云数据仓库,内置 Oracle 和 Netezza 兼容性,以及日常任务自动化功能。 在 IBM Cloud 和 Amazon Web Services (AWS) 上部署。

相关解决方案

Netezza Performance Server

一种云原生洞察系统,可与现有的 IBM® Netezza® 和 IBM PureData® System for Analytics 设备完全兼容。

探索产品

IBM Db2 Warehouse

软件定义的私有云数据仓库,用于 Docker 容器支持的基础架构。 可在 IBM Cloud Pak for Data 平台上使用。

探索产品

IBM Integrated Analytics System

一种云就绪数据仓库设备,旨在支持一系列数据分析,同时削减设置和管理时间及成本。

探索产品

快速共享大量数据

了解 IBM® Db2® Warehouse on Cloud Pak® for Data 如何为该医疗保健信息服务提供商提供所需的灵活性和扩展能力,从而满足不断增长的客户分析需求。

数据仓库资讯

选择合适的数据仓库

通过将数据转化为洞察,加速创新,促成业务成果。

了解如何为人工智能选择合适的数据仓库

获取云上的 IBM Netezza 数据仓库

使用随附的 IBM® 支持将工作负载轻松移动至任何公共云数据中心。 由 Red Hat® OpenShift® 编排的容器化数据库引擎可提供快速故障检测和恢复。

阅读以了解 IBM Netezza 云数据仓库的可用性

IBM 被评为云数据库管理系统领域的领导者

继 2020 年后,鉴于 IBM 的执行能力和愿景完整性,Gartner 又一次将 IBM 评为 2021 年云数据库管理系统魔力象限的领导者。

阅读博客,了解有关 IBM 被评为云数据库管理系统领域领导者的更多详细信息

什么是数据仓库?

数据仓库是一个中心信息库,它并非产品,而是一个环境。 旨在通过分析提取洞察,并共享大量整合数据。

了解有关数据仓库的更多信息

云数据湖、数据仓库与数据集市

根据您的预算、访问频率和需要存储的数据量,提供了三种不同类型的云存储库供您选择,了解哪种适合您的用例。

阅读以了解云数据存储库的类型

后续步骤

与 IBM 进行免费的一对一通话,探索数据仓库解决方案。

加入社区