大数据时代的数据集成共享与交换平台( Primeton DI) - 功能组成

Primeton DI由以下五部分产品组件组成:DI Server(数据集成引擎)、DI Component Library(数据集成组件库)、DI Studio(数据集成建模工具)、DI Governor(数据集成模型治理)、DI Metadata Warehouse(元数据仓库)。

DI Server

DI Server(数据集成引擎)基于JAVA构建,是Primeton DI的核心,负责解析数据集成模型定义、处理Governor请求、处理引擎自身的模型调度等。数据集成引擎可以满足大规模数据的并发处理,完成企业级的数据交换场景。

数据集成引擎基于数据流的数据结构处理,在大规模、复杂的数据处理场景中依然具有非常高的性能以及稳定性,适用于电子政务、电信、银行、制造等行业。

DI Component Library

DI Component Library(数据集成组件库)包括了一组与数据集成相关的服务构建,通过这些丰富的组件,开发人员可以在集成开发环境下基于可视化的组件图元快速开发出高效的数据处理模型。

DI组件库包含了数据抽取组件集、数据装载组件集、数据转换组件集以及用来传输二进制数据的数据传输组件集。

数据抽取与装载组件集包含了一组对不同数据源、关系型数据的数据抽取组件,支持XML、Excel等半结构化数据、支持CSV、TXT等非结构化数据、支持Oracle、MS SQL Server、MySQL、DB2、Sybase、Informix等关系型数据库、支持ArcGIS空间数据库、支持Cassandra、Hadoop、HBase等非关系型数据库。

数据转换组件集包含了一组对数据进行转换、过滤、清洗、合并的组件,以实现对复杂、凌乱数据的业务处理。借助DI数据转换组件库,可以实现:

♦        对数据按照某一标识进行拆分。

♦        根据字段值的不同进行数据映射。

♦        对一份数据按照不同类型进行分组。

♦        针对源数据库与目标数据库的字段名称不同进行映射。

♦        将两份数据合并成一份。

♦        将一份数据按照某一列的值进行排序。

♦        指定一个逻辑条件进行数据的过滤。

♦        对数据中牵扯到的数值信息进行数学计算。

♦        对两份进行进行全文比对,找出其中的异同。

♦        对无法满足的需求可借助JavaScript功能自定义处理方式。

DI Studio

DI Studio(数据集成建模工具)是基于SWT技术开发的可视化流程设计器,提供可视化数据模型定义与调试、可视化的模型性能监控、元数据管理以及数据处理模型部署等功能。

DI Studio的集成开发环境的功能特性包括:

可视化数据模型定义

♦           用拖拉方式画出数据交换模型。

♦           支持多种处理处理模式(同步、异步)。

♦           支持多种增量数据抽取方式。

♦           无需编写代码即可调试数据处理模型。

♦           支持全局变量、本地变量配置。

♦           支持快速查看源数据。

可视化的模型性能监控

根据数据交换模型配置,运行时通过Studio界面可实时监控数据输入、输出IO性能,更可以监控交换模型中每一个组件的数据处理性能,跟性能优化工作提供必要的数据支撑。

元数据管理

开发人员可通过DI Studio可对DI底层元数据仓库进行资源查看、检索、更新等操作,通过元数据库仓库可实现团队模型管理、版本控制等。

数据处理模型部署

通过DI Studio可将开发好的数据处理模型部署到DI Server,并通过DI Governor对其进行管理调度、优化治理。

DI Governor

DI Governor(数据集成模型治理)是DI提供的系统管理监控与任务调度工具,系统管理员可以通过它对数据处理模型以及数据处理引擎进行配置和管理。DI Governor与DI其他部件结合想结合是企业快速构建数据中心、实现数据交换的理想平台,在实施过程中可以对开发过程实现规范化、调度管理统一化、监控可视化等。同时也可以与第三方处理处理引擎实现互补,增强其统一调度、全局监控等功能。

DI Governor的功能特性包括:

♦        数据集成模型全生命周期管理与任务调度、监控。

♦        实现数据处理作业自动化。

♦        DI Server资源监控与负载均衡。

♦        数据集成平台资源与权限管理。

♦        提供二次开发API,与第三方系统集成。

DI Metadata Warehouse

DI Server基于元数据驱动,DI Metadata Warehous(元数据仓库)用于保存通过数据集成建模工具构建的数据处理模型,支持Oracle、DB2、Syabase、MySQL、MS SQL Server等多种关系数据库,同时可以基于文件形式进行模型存储。DI Server通过解析元数据仓库中对模型的定义数据实例化数据处理模型。