提供数据采集功能,适配主流数据传输协议的高性能离线和实时数据集成的工具,能够将数据稳定可靠的导入大数据平台上。支持结构化和非结构化数据采集,及主流的接口和传输协议; 可以将不同数据源的数据实时或分批的发送到大数据平台进⾏数据分析,除了基本的数据读取、解析、变换、发送、删除等功能,同时还具有集群管理、可视化⻚页⾯配置等强⼤的功能。
结构化数据存储:支持传统数据仓库式功能以及结构化数据的多级分目录存储的HDFS及GP存储功能; 非结构化数据存储:支持分布式消息存储及分布式全文检索; 在线与离线计算:提供海量数据的分布式并行分析和计算,可以图形化使用、图形化部署; 流式计算:流数据处理引擎,支持分布式灵活部署,满足实时性流式分析的要求; 数据仓库建模工具:采用多维视图Cube来描述数据集的结构,深度掌握数据信息;提供解决方案助力提速多维实时分析。
应用门户:支持B/S架构与移动端访问/单点登陆/统一身份认证/授权认证/应用管理; 基础管理:提供元数据、数据地图、数据标准化、数据质量、数据安全等多维度数据管理,作业管理以及集群管理; 日志监控:告警日志统一管理;提供数据平台各组件服务监控及分布式管理工具,并进行日志集中采集和监控管理; 数据共享:API生成及管理,支持REST形式API的信息发布、自动生成多语言客户端代码、调用申请、申请审核、调用关系展示等API管理功能。
OLAP分析:提供多种分析工具、多维建模及OLAP分析功能,支持大数据平台之外的数据源连接,可进行预聚合操作和缓存优化功能; 报表工具:敏捷报表的定义、开发、配置工具,轻量化应用,可连接多类数据源,并基于多租户实现开发管理; 敏捷BI:提供多种图形控件并依据流行趋势快速扩展图库,支持多类数据源,支持结构化和非结构化集中展示功能; 机器学习:预置主流机器学习算法库,提供面向普通分析用户的黑盒式机器学习分析工具,同时提供面向数据科学工作者的参数及算法选择调试工具,数据挖掘、分析及呈现有机结合。
提供服务申请、服务管理、服务使用以及用户安全管理等多项平台基础管理服务; 支持PaaS平台的统一资源调度、统一配置和服务管理能力。可根据实施规划配置多个资源池以及配置资源池所提供的容器或虚拟机资源; 平台具备开放性,能够无缝集成开源Gitlab、SVN或商业的容器镜像仓库等工具,可对平台的租户和用户进行统一管理,设置租户资源配额和租户管理员权限等。