千锋教育-做有情怀、有良心、有品质的职业教育机构
1、离线数仓的分层通常是三层:ODS层、DWD层、DWS层、ADS层,其中ODS层(操作明细)、DWD层(数据仓库明细)、DWS层(数据仓库公用汇总)这三层通常被称为公共层,是数据清洗、加工、聚合的重点,ADS层(应用数据层)。我们的项目也不另外,就是按这个套路建设。
2、那你觉得这个分层能满足你们当前的现状吗?通常是考察你对业务的熟悉度和业务与分层之间关系,大一点的公司可以说还是挺满足的,中小公司你可以说还有需要优化的地方,比如:由于某些转换率类型的指标加工比较复杂或者算法本身就比较复杂的指标,其实最好引入temp层;由于维度独立性不太好,所以最好引入独立的DIM层。总之一句话:需要足够了解业务和数据,才能说分层好坏。
3、他说不需要优化吗?根据2问,说出问题原因,分层优化是最好:引入temp层和DIM层。
4、数据模型使用常见的维度建模,三范式建模很少用,如果要说也需要三范式和维度搭配,但是不建议说三范式。
整体就是维度建模理论为指导思想开始模型构建,ODS层谈不上模型,因为他几乎保持和原始数据一摸一样,如果非要说模型那就是关系模型,因为几乎业务库都是关系型表;DIM层根据星型建模 ;DWD层是面向业务来进行维度建模;DWS层是面向主题来进行维度建模;ADS是面向需求建模,所谓的维度建模其实就是尽量的维度退化到DWD层和维度补充到DWS层。具体模型可以根据项目的具体业务配合说上几个即可。
相关推荐