数据中台和数据仓库的区别(数据中台和数据仓库什么关系)
本文目录
数据中台和数据仓库什么关系
一定要说的话,那就是包含和被包含关系吧,数据仓库是数据中台的一个元数据来源。WakeData数据中台的数据接入平台就是提供包含数据仓库、日志数据、外部数据等多源数据接入储存的平台。
企业的数据中台的价值
企业的数据中台的价值在经分的年代,数据仓库推倒重来了几遍,构建了很多的专题项目,经历了上万次取数,制作了成百上千的报表,但在支撑了当初的业务发展的同时,到底给如今的企业留下了多少资产?也许是培养了一代又一代的数据人员,如今有的成为数据专家,有的转型业务人员,有的晋升为领导,有的离职踏上新的岗位,为企业服务的合作伙伴也由此获得快速成长,很多也成了庞然大物。但这个够吗?显然不够,但很多企业现有的数据历史底蕴就是这些了吧,老系统迟早要倒,新系统还是要建,但老系统的好基因却很难留下来,这一代的数据仓库与上一代数据仓库一般不能说是演进,而是重来,或者是靠着个人的经验撑起整片天,又如10年前笔者用逻辑回归实现的飞信潜在模型,现在只能到历史的PPT中去寻找其踪影了,反应了同样的道理。想向新人介绍一下历史,囧于历史没什么好说的,也没什么好展示的,说明了传承的不够,曾经沧海难为水,其实可以做的更好。那么问题的核心在哪里?答案就是数据中台,今天就来谈一谈。广义的数据中台包括了数据技术,比如对海量数据进行采集、计算、存储、加工的一系列技术集合,对于大多企业,这些能力是能够买到的,因此无所谓积淀,要积淀大多也是别人的积淀,而不是企业的,当然自主研发的除外,比如阿里的ODPS等。笔者提的数据中台要更往上走,包括数据模型,算法服务,数据产品,数据管理等等,这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,比如企业自建的2000个基础模型,300个融合模型,5万个标签,这些就是笔者说的中台,它是企业业务和数据的沉淀,其不仅能降低重复建设,减少烟囱式协作的成本,也是差异化竞争优势所在。为什么数据中台如此重要呢,笔者概括大致有以下四个原因:1、回归服务的本质-数据重用今天的浙江移动已经将2000个基础模型作为所有数据服务开发的基础,这些基础模型做到了“书同文,车同轨”,无论应用的数据模型有多复杂,总是能溯源到2000张基础表,这奠定了数据核对和认知的基础,最大程度的避免了“重复数据抽取和维护带来的成本浪费。”曾经企业的数据抽取就有多份,报表一份,数据仓库一份,地市集市一份,无论是抽取压力、维护难度及数据一致性要求都很高。同时,统一的基础模型将相关业务领域的数据做了很好的汇聚,解决了数据互通的诉求,这点的意义巨大,谁都知道数据1+1》2的意思。2、数据中台需要不断的业务滋养在企业内,无论是专题、报表或取数,当前基本是烟囱式数据生产模式或者是项目制建设方式,必然导致数据知识得不到沉淀和持续发展,从而造成模型不能真正成为可重用的组件,无法支撑数据分析的快速响应和创新。究其原因是模型建设往往是项目式的建设方式,一旦项目结束,在面对业务提出更多需求时,项目模型团队可能已经撤离了,或者考核指标早已经随着项目结束,模型提供者在主观上没有太大的积极性去满足新的需求,如果当初模型的扩展性设计的不好,或者时间太紧,或者系统稳定的需要,往往导致有心无力满足新的需求,结果是数据模型无法再扩展,成为事实上稳定的但无用的模型。其实,业务最不需要的就是模型的稳定,一个数据模型如果一味追求稳定不变,一定程度就是故步自封,这样的做法必然导致其他的新的类似的数据模型产生,当越来越多的模型都采用自建的方式满足需求时,意味着老的数据模型就可能要离开历史舞台了,而留下的是割裂的成千上万的模型,也就失去了模型知识沉淀的可能,曾经做过一张几百个字段的万能宽表,由于太大后来就没人敢去动它,随着新的业务不断增加,这张宽表的价值却越来越低直至退出历史舞台。数据模型不需要“稳定”,而需要不断的滋养,只有在滋养中才能从最初的字段单一到逐渐成长为企业最为宝贵的模型资产。其实标签也一样,做过不少异动标签或离网模型,曾经效果不错,随着公司转型流量经营,原来以语音异动判断为主的这类标签开始难以适应变化,但后续已经没人能改得动它,这个标签也就退出了历史舞台,退出的可不仅仅是一个标签,这个标签承载的所有的既有经验也就被废弃掉了,想想这些标签当初花了多大的代价做成就会感觉非常可惜。再以报表为例,企业报表成千上万的原因往往也是没有沉淀造成的,针对一个业务报表,由于不同的业务人员提出的角度不同,会幻化出成百上千的报表,如果有报表中台的概念,就可以提出一些基准报表的原则,比如一个业务一张报表,已经有的业务报表只允许修改而不允许新增,自然老报表就会由于新的需求而不断完善,从而能演化成企业的基础报表目录,否则就是一堆报表的堆砌,后续的数据一致性问题层出不穷,管理成本急剧增加,人力投入越来越多,这样的事情在每个企业都在发生。3、数据中台是培育业务创新的土壤企业的数据创新一定要站在巨人的肩膀上,即从数据中台开始,不能总是从基础做起,数据中台是数据创新效率的保障。搞过机器学习的都知道,没有好的规整数据,数据准备的过程极其冗长,这也是数据仓库模型的一个核心价值所在,比如运营商中要获取3个月的ARPU数据,如果没有融合模型的支撑,得自己从账单一层层汇总及关联,速度可想而知。很多合作伙伴的数据科学家到一个企业水土不服,除了业务上不熟悉外,往往还面临着数据准备的困境,取数的高难度导致他难以快速的去验证想法,企业想借助外力去搞数据创新有时成了一厢情愿。标签也一样,企业打造标签可并不仅仅是做几个标签那么简单,它需要打造的是一个标签服务平台,要能最大限度的规范标签的格式,接入方式,组合方式,调用方式等等,只有这样,基于标签的二次快速创新才有可能,企业每发布一个新的标签,就意味着新增了一种能力,这才是数据知识的真正传承。比如当常驻地模型发布成为标签平台的一个标签后,以后凡是涉及到常驻地判断的都可以直接调用,这极大降低了关于用户位置数据准备的成本。在如今的互联网时代,企业都在全力谋求转型,转型的关键是要具备跟互联网公司一样的快速创新能力,大数据是其中一个核心驱动力,但拥有大数据还是不够的,数据中台的能力往往最终决定速度,拥有速度意味着试错成本很低,意味着可以再来一次。4、数据中台是人才成长的摇篮记得笔者刚进企业的时候,要获得成长一是靠人带,二是找人问,三是自己登陆各种系统去看源代码,这样的学习比较支离破碎,其实很难了解全貌,无法知道什么东西对于企业是最重要的,获得的文档资料也往往也是过了时的。现在有了数据中台,很多成长问题就能解决,有了基础模型,新人可以系统的学习企业有哪些基本数据能力,O域数据的增加更是让其有更广阔的视野,有了融合模型,新人可以知道有哪些主题域,从主题域切入去全局的理解公司的业务概念,有了标签库,新人可以获得前人的所有智慧结晶,有了数据管理平台,新人能清晰的追溯数据、标签和应用的来龙去脉,所有的知识都是在线的,最新的,意味着新人的高起点。更为关键的是,数据中台让新人摆脱了在起步阶段对于导师的过渡依赖,能快速的融入团队,在前人的基础上进行创新。数据中台天然的统一,集成的特性,有可能让新人打破点线的束缚,快速构筑起自己的知识体系,成为企业数据领域的专家。当然,数据中台的建立不是一蹴而就的,每个企业都应该基于实际打造独有的中台能力,在这个过程中,需要遵循一些原则:首先,企业的组织架构及机制需要顺势而变,比如以前负责数据的部门或团队往往缺乏话语权,面对业务需求往往是被动的接受的角色,这让一切数据中台的想法化为泡影,需要为数据中台团队授权。其次,要改变工作方式,现在很多企业的数据团队的主要工作内容就是项目管理、需求管理等等,当一个项目完成后又投入到下一个项目,做好一个需求后又开始负责下一个需求,这样的工作确实非常锻炼人的组织、协调能力,但这样能力的提升与工作时间的长短并不是呈线性增长的,虽然增加了项目和需求管理经验,但并不能在某一个专业领域得到知识和经验的沉淀,随着时间的流逝,越来越多的人会失去最初的工作积极性和创造性,事实上,数据人员只有深入的研究业务、数据和模型,端到端的去实践,打造出数据中台,才是最大的价值创造,才能使得持续创新成为可能。第三,数据中台的团队要从传统的支撑角色逐步向运营角色转变,不仅在数据上,在业务上也要努力赶超业务人员,中台人员要逐步建立起对于业务的话语权,不仅仅是接受需求的角色,更要能提出合理的建议,能为业务带来新的增长点,比如精确营销。DT时代,接下来整个社会会进入开放共享的时代,致力于大数据变现的企业最大的价值就是将这些核心数据能力进行对外开放的运营,到那个时代,数据中台将成为企业最为宝贵的资产。从个人的角度讲,将自己的贡献幻化为中台能力,能够持续的为公司创造价值,这是值得骄傲的事情。
数据仓库与数据库的主要区别是什么
1. 主要区别在于数据结构,数据库中的建模一般遵循三范式,而数据仓库的建模有特定的方式,一般采用维度建模(你可以参考ralph kimball、bill inmon、还有一种叫DV模型的作者忘记叫啥了),使用这些建模方式的原因是便于OLAP建立,增加统计查询较率等。
2. 数据仓库中数据通常来源于多个不同的业务系统数据库(存储多年数据),数据量较大,一般做为企业数据中心用。
3. 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
4. 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。
5. 数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。
6. 数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。
知识拓展:
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。
数据湖、数据仓库、数据中台,有什么区别
数据湖、数据仓库和数据中台,他们并没有直接的关系,只是他们为业务产生价值的形式有不同的侧重。
数据湖作为一个集中的存储库,可以在其中存储任意规模的所有结构化和非结构化数据。在数据湖中,可以存储数据不需要对其进行结构化,就可以运行不同类型的分析。
数据仓库,也称为企业数据仓库,是一种数据存储系统,它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的。
数据中台是一个承接技术,引领业务,构建规范定义的、全域可连接萃取的、智慧的数据处理平台,建设目标是为了高效满足前台数据分析和应用的需求。数据中台距离业务更近,能更快速的相应业务和应用开发的需求,可追溯,更精准。
数据湖、数据仓库更多地是面向不同对象的不同形态的数据资产。而数据中台更多强调的是服务于前台,实现逻辑、标签、算法、模型的复用沉淀。
数据中台像一个“数据工厂”,涵盖了数据湖、数据仓库等存储组件,随着数据中台的发展,未来很有可能数据湖和数据仓库的概念会被弱化。
小结
数据空间持续增长,为了更好地发挥数据价值,未来数据技术趋于融合,同时也在不断创新。
数据中台特征
数据中台是中台的核心平台之一,简单来说就是数据仓库,是将传统数据仓库扩展到企业级所有数据的更大领域,对这些数据进行数据采集、数据建模、数据服务,并提供给前端开展不同维度的数据应用。
“数据中台”重构了企业数据系统的架构,将其分为三个层级:
底层
底层是数据收集层,就是数据湖,来自ERP、SRM等各个信息化系统中的业务数据、财务数据、大数据,结构化和非结构化数据直接汇入这层数据湖中,实现统一、集中的数据收集。
核心层
中间的核心层是数据存储与计算层,核心是通过数据建模,形成服务化的数据应用。数据模型可以分为基础模型、融合模型和挖掘模型。基础模型一般是关系建模,主要实现数据的标准化;融合模型一般是维度建模,主要实现跨越数据的整合,整合的形式可以是汇总、关联、解析;挖掘模型是偏应用的模型,作为企业的知识沉淀在中台内,可在数据应用端调取进行复用。
上层
上层是业务应用层,聚焦于对数据的应用和展现,核心层的数据模型可以共享到这个层级中并实现复用,赋能企业业务发展。数据应用通过将数据融入企业具体的业务经营场景中,基于丰富的数据模型开展场景化应用,用数据解决具体的业务问题,具体应用包括产销协同分析、投资分析、产品定价、商品推荐、客户画像等,数据展现聚焦于以多样化的形式展现数据分析应用的结果,这些形式包括管理驾驶舱、即席分析、自助报告、数据大屏、移动APP等,系统可以根据不同用户在不同场景下的需求调整合适的展现方式。
到底什么是数据中台
数据中台是什么?
数据中台是指通过数据技术,收集、计算、存储、加工大量数据,同时统一标准和口径。统一数据后,数据中心将形成标准数据,然后存储,形成大数据生产层,为客户提供高效服务。这些服务与企业的业务问题密切相关,是企业独有的,可重复使用。它是企业业务和数据的沉淀。它不仅可以降低重复建设和合作成本,而且具有差异化的竞争优势。
数据中台的整体技术架构采用云计算架构模式,充分云化数据资源和存储资源,通过多租户技术包装整合资源,开放,为用户提供“一站式”数据服务。利用大数据技术,收集和管理大量数据,统一处理企业内部所有数据,形成标准化数据,挖掘企业最有价值的数据,建立企业数据资产库,提供一致、标准的数据服务。
我们要明确地认识到,数据中台并不是一套软件或信息系统,而是一系列数据组件的集合,企业根据自己的信息化建设基础、数据基础和业务特征来确定数据中台的能力,根据功能定义使用数据组件构建他们自己的数据中台。
数据中台主要做什么:
数据中台一般会具备4个能力:数据采集整合、数据提纯加工、数据服务可视化、数据价值变现。
数据采集整合:创建企业数据中台第一步,打破企业内部各个业务系统的数据隔阂,形成统一的数据中心,为后续数据价值的挖掘提供基础。主要通过数据采集和数据交换实现。
数据提纯加工:主要是对数据统一标准、补充属性,然后根据维度汇总成数据表、最后汇总出所需要的报表,满足企业对数据的需求。
数据服务可视化:对数据进行计算逻辑的封装,生成API服务,上层数据应用可以对接数据服务API,让数据快速应用到业务场景中。数据服务API对接的3种常见数据应用包括数据大屏、数据报表、智能应用。
数据价值变现:通过打通企业数据,提供以前单个部门或者单个业务部门无法提供的数据服务能力,为赋能前端应用、数据价值变现提供基础。
数据中台是不是大数据平台
数据中台和大数据平台有所区别。大数据平台只是把平台上数据进行储存;而数据中台更多的是将大数据平台上沉淀下来的数据进行采集、计算、存储、加工;更大程度上发掘数据的价值。例如电商行业,经过订单数据不同维度大数据的采集,通过观云长BI系统可将有效数据进行提炼,可生成经营分析报表,为企业精准营销提供数据依据。
更多文章:
数据结构c语言版耿国华(数据结构-C语言描述/新世纪计算机类本科系列教材 在那里买的到啊)
2024年7月8日 13:07
flank ahead为什么是全速前进呢flank不是侧面的意思么?英语翻译,这里的flk是什么缩写
2024年6月5日 04:17
phpecho输出怎么居中(php中怎样让输出的值显示在页面的中间)
2024年7月30日 09:05
apologize什么意思中文(apologize是什么意思啊)
2024年6月4日 01:52
vmwaretools安装失败回滚(vmware tools无法安装怎么办)
2024年7月16日 18:04
access查询教程(access里窗体加查询怎么做,希望详细地教一下)
2024年9月27日 19:20
ie设置activexobject(怎么在ie浏览器调用本地的应用程序)
2024年6月25日 08:57
queue jumper是什么意思(jumper是什么意思)
2024年7月9日 23:20
work前面加什么介词(at work 和in the work的区别)
2024年5月11日 02:35