芯片破解网


首页 -- 单片机破解-- IC破解-- 芯片破解-- 新闻技术 --关于我们
 
芯片破解网 >> 新闻技术 >> 当前位置

度小满金融大数据架构实践

[导读]导读:大数据架构在金融场景下面临着诸多挑战,从架构上而言,业务对数据加工、存储和使用的全链路服务提出了更细致的管控需求;从使用上而言,用户并不想理解大数据架构的具体实现和管控的细节,用户只想以更低的门槛、更快的方式来使用产品;从管理上而言,公司希望能够对数据加工、处理过程中的相关...


导读:大数据架构在金融场景下面临着诸多挑战,从架构上而言,业务对数据加工、存储和使用的全链路服务提出了更细致的管控需求;从使用上而言,用户并不想理解大数据架构的具体实现和管控的细节,用户只想以更低的门槛、更快的方式来使用产品;从管理上而言,公司希望能够对数据加工、处理过程中的相关经验做到有效传承。

本文主要针对上述问题分享对应的解决方案,分别是:① 基于百度云产品的大数据架构——MMR,管控需求;② 度小满数据湖管理与分析平台——鸿鹄,降门槛;③ 度小满模型训练监控评估体系——易创,经验传承。
01大数据云化架构——MMR度小满大数据云化架构是建立在百度云大数据产品基础之上的,百度云标准的大数据产品解决方案与开源的大数据解决方案类似。首先是通过用户提交任务,进入到计算层,承接计算需求。再到存储层,承接数据的存储需求。为了满足更细致的管控需求,我们对架构进行了一次延展。

我们将架构分为以下几个部分:接入层、表控层、计算层、虚拟存储层、物理存储层。
1. 用户层
在用户层主要实现的是对从用户操作到人的管控。具体实现方式主要是:我们会在用户的大数据的入口进行改造,打通度小满的员工管理系统,大数据服务的用户在登陆作业机时会标注自己的身份,在提交操作和命令时,可以从架构上识别出个人的身份,这样一来,在提交命令或者是操作时是带着个人身份操作,所有任务和用户操作都可以定位到具体的责任人。
2. 表控制管理层
针对表控制管理层,满足了结构化数据部分共享的业务需求,即大数据存储数据是以Hive表为基础,Hive表里可能有一百、几百或上千个字段,不同的字段有不同的密级要求。例如,在100个字段里,只有20个字段是希望共享的,其余80个是不希望共享的,这种情况就需要对表进行字段级的权限控制。基于此,我们将在外层建立有针对性的权限控制中心,用户可以在平台上对表进行字段级别的密级标注以及共享和申请使用的权限设置。通过这种方式,用户提交任务到Hive Server或Spark Server时,服务层会有一段逻辑来校验用户提交的任务或者操作需要字段是否同时拥有该字段的权限,以此来决定是否放行实现字段级别的权限控制。
3. 计算层
在计算层主要是对资源的控制,主要是依赖百度云基础架构的能力。在计算层和存储层,度小满架设了虚拟管理层,虚拟管理层主要解决了非结构化数据的共享需求和隔离需求。一般而言,每个业务的细分方向具有私密性,但每个业务的数据加工团队,都有上游和下游,都会面临数据的部分分享和使用的需求。针对这类情况,我们对目录层面进行权限管控。在目录权限控制的基础上,同时约定使用方访问的IP、IP段可以做到更细微的管控。在保证业务隔离的基础上实现一定程度的数据共享,从而保障所有数据的操作、使用都是可控的,所有的过程都是可审计的。

在此基础上,我们还面临着一个更大的问题——业务是从百度架构过度到当前的百度云开源的数据架构,类似于从闭源的大数据架构到开源的大数据架构。虽然计算逻辑或是计算方式上大致是相同的,但是在很多细节上比如入口设计、使用习惯和功能体验是不一致的。为了解决差异:
首先,要统一用户的使用习惯,把用户所有访问大数据服务使用的工具组装成统一的Client,在统一client对差异进行自动的抹平。用户在由百度架构到百度云架构到迁移的过程的工作主要是修改配置、验证结果,不会涉及到代码层面的修改。
其次,虚拟存储层的建设、实现存储层的兼容,以文件系统的使用方式和使用习惯去访问对象存储,在用户层面看来功能和体验是一致的。

返回顶部


2013-2015 芯片破解网 All Rights Reserved.
如有任何问题和建议请联系:498187676@qq.com

深圳市星光芯电子有限公司 版权所有

地址:深圳市龙岗区南湾街道平吉大道1号建昇大厦B栋1618(李朗软件园对面) 电话:0755-88820678
手机:13713820066 QQ:498187676 联系:周工


站点地图

粤ICP备12084176号