电子商务用户肖像数据仓库的建立
摘要:L以空间为时间,通过大量的预处理来提高应用系统的用户体验(效率),因此数据仓库中会有大量的冗余数据;
L以空间为时间,通过大量的预处理来提高应用系统的用户体验(效率),因此数据仓库中会有大量的冗余数据;
如果不分层,如果源业务系统的业务规则发生变化,会影响整个数据清理过程,工作量会很大
L通过数据分层管理,可以简化数据清理的过程,因为原来一步的工作分为多个步骤来完成,相当于把一个复杂的工作分解成多个简单的工作,把一个大黑匣子变成一个白匣子,而且每一层的处理逻辑相对简单易懂,这样在数据出错的情况下就可以很容易保证每一步的正确性,通常只需要局部调整一些步骤。
数据仓库标准分为四层:ODS(临时存储层)、PDW(数据仓库层)、mid(数据集市层)、app(应用层)
ODS水平:
它是接口数据的临时存储层,为下一步的数据处理做好准备。一般来说,ODS层的数据与源系统的数据是同构的,其主要目的是简化后续的数据处理工作。从数据粒度上看,ODS层的数据粒度***。ODS层有两种表:一种用于存储当前要加载的数据,另一种用于存储处理后的历史数据。一般来说,历史数据需要在3-6个月后清理,以节省空间。但不同的项目应该区别对待。如果源系统中的数据量不大,则可以保存较长时间,甚至是全部保存;
PDW级别:
对于数据仓库层来说,PDW层的数据应该是一致的、准确的、干净的,即源系统数据清洗(去除杂质)后的数据。这一层的数据通常遵循第三种数据库模式,其数据粒度通常与ODS相同。在PDW层,保存BI系统中的所有历史数据,例如保存10年的数据
中等水平:
对于数据集市层,这一层数据是面向主题的,用于组织数据,通常是星形或雪花结构的数据。从数据粒度的角度来看,该层的数据是轻量级的摘要级数据,没有详细的数据。从数据的时间跨度来看,它通常是PDW层的一部分,其主要目的是满足用户分析的需要。从分析的角度来看,用户通常只需要分析近几年的数据(如近三年的数据)。从数据的广度来看,它仍然覆盖所有的业务数据。
应用程序级别:
对于应用层来说,这一层数据完全是为了满足特定的分析需求而构建的,也是星型或雪花型结构的数据。从数据粒度的角度来看,它是高度聚集的数据。就数据广度而言,它不一定涵盖所有业务数据,而是中间层数据的真正子集,从某种意义上说,它是中间层数据的重复。在极端情况下,可以在应用程序层为每个要支持的报表构建模型。为了达到空间与时间交换的目的,数据仓库的标准分层只是一个推荐标准。在实际实现中,需要根据实际情况确定数据仓库的分层方式,不同类型的数据可以采用不同的分层方式。
上一篇: 电子商务进入产业领域-人工智能大数据
下一篇: 未来农业电子商务的蓝海——数据