大数据平台
- 发布时间:2018-08-28
- 来源:
- 大 中 小
- 打印
概述
随着信息化发展步入DT时代,数据在组织中的价值体现愈发凸显,“数据驱动业务”的理念在各行各业快速扎根、发展,组织对数据价值的挖掘能力的要求也随之愈来愈高。一种能与传统关系型数据管理软件能有效互补,弥补关系型数据管理软件在多结构类型支持、海量数据处理、复杂实时/非实时计算分析等方面缺陷的数据处理软件平台呼之欲出。
神州信息大数据平台(Sm@rtBDP)是基于Hadoop生态体系构建而成的可帮助组织快速建立高效、实时的“大数据”处理、分析能力的一体化数据开发、管理平台,可为组织数据中心的大数据采集、大数据存储、大数据计算、大数据分析及大数据分析提供轻量级解决方案。通过平台提供的综合数据治理和整合能力打通数据壁垒,连接数据孤岛,实现海量数据的整合、存储、查询、统计、分析等功能。
产品介绍
神州信息大数据平台(Sm@rtBDP)整体包括三大部分:大数据运行平台、大数据监控平台和大数据开发平台。
大数据运行平台用来提供大数据的运行环境包含分布式文件系统、资源管理、并行计算框架、内存并行计算、流式计算、集群协调服务、并行计算SQL执行器、并行计算脚本语言、消息中间件、列式数据库、工作流、文件数据采集、关系型数据库数据采集等大数据技术的运行环境。其中集成了23种Hadoop生态系统常用的组件,可以支撑多种计算类型的应用的混合负载,包括批处理应用、交互式查询、高频读写、全文检索、数据挖掘和实时流计算等多种计算类型。各行各业可基于这些计算手段和方式进行上层应用的建设。在安全管理方面遵循国家标准,采用目前国内外先进的信息安全技术和有效的安全策略和技术手段,从平台外部安全以及平台自身安全着手,建立安全管控中心,提升平台的服务和数据安全性。
大数据监控平台是用来安装大数据平台运行环境、管理监控大数据平台的集群环境。主要功能包括:监控集群的主机状态、集群的磁盘使用情况、集群的CPU使用情况、集群的内存使用情况、集群的网络使用情况;管理分布式文件系统、资源管理、并行计算框架、内存并行计算、流式计算、集群协调服务、并行计算SQL执行器、并行计算脚本语言、消息中间件、列式数据库、工作流、文件数据采集、关系型数据库数据采集等大数据技术;通过web的方式为集群添加主机、删除主机,针对每个主机可以添加删除各个大数据组件。
大数据开发平台是为开发人员提供的平台,能够提高开发人员的开发效率。它为开发人员提供基于eclipse的开发插件,开发人员可以不用访问大数据运行环境就可以进行开发测试及调试;基于WEB的访问分布式文件系统,可以上传文件、下载文件、删除文件;提供了基于WEB的方式操作列式数据库,可以查看列式数据库数据中存在的表以及每个表的表结构,而且还能查看每个表里的数据;提供的数据采集的界面工具,提供对关系型数据库的数据采集,支持手动执行数据采集和定时数据采集。大数据开发平台还提供了对文本文件的数据采集支持对文本文件的增量数据采集和全量数据采集;提供并行计算框架、内存计算、流式计算的开发框架,开发人员可以更方便、高效的开发并行计算的程序。
适用场景
神州信息大数据平台(Sm@rtBDP)可提供对以下应用场景的良好支撑:
■ 大数据复杂分析:能够充分利用集群的并行计算能力支撑海量数据复杂分析。
■ 大表查询和分析:能够对历史数据进行复杂查询分析,例如亿级数量以上数据复杂查询或批量分析。平台能够利用集群的并行计算提高查询速度,支持高并发、高吞吐查询。
■ 海量历史数据存储:能够以极高的性价比支持海量历史数据的存储。利用平台的廉价存储,可将数据存储到布式文件系统(HDFS)中,提供查询分析服务。相对于传统共享储存性价比更高,相对带库使用方便。
■ 庞大的网页数据分析,如舆情分析、社会满意度分析:能够基于网页数据,实现数据整合及数据分析处理。大数据平台提供分布式存储、并行化计算框架、机器学习库等支撑能力。
■ 非结构数据存储:支持报表、图片,互联网采集的文本等非结构化数据存放到分布式文件系统HDFS中。在大数据平台分布式文件系统下存储数据可靠并使用方便。
■ 实时信息处理:支持高并发(每秒5000笔以上)的实时信息处理。采集的数据不落地,基于内存进行实时计算及查询。
价值
■ 多数据类型存储管理技术,可同时提供结构化、半结构化及非结构化数据的存储管理及访问服务支持;
■ 可线性扩展的分布式平台,可轻易支撑海量数据(PB级)存储及并行计算;
■ 海量数据中检索数据的毫秒级响应能力,可轻松破解常规关系数据库中同样场景存在的性能问题;
■ 丰富的流式计算组件支持,提供如大屏展示、实时数据展现等业务场景的支撑能力;
■ 功能全、质量高、价格优,可助客户以较低的投入完成相同需求的支撑实现。
优势
■ 高性能。对于实时数据计算能力能够达到秒级;进行的关系型的数据查询测试,取得3~6倍的性能优势;
■ 高可靠性。从硬件、文件系统和分布式计算框架所有层面采用高可靠设计架构,有效地防止基于开源产品的不可靠问题;支持集群中某台机器宕机或者某台机器出现故障时,实时计算集群保障数据不会丢失、业务可以正常进行;
■ 高稳定性。支持业务的连续性,在企业IT环境下,提供可靠、安全稳定的7x24 服务;
■ 高兼容性。支持各种操作系统如REDHAT, CENTOS等主流Linux操作系;支持各类的硬件平台,如IBM的服务器、HP服务器、PCServer、X86虚拟机等;
■ 简单易用,灵活开放。可视化界面,鼠标拖拽添加功能模块,易维护;Hadoop架构可以轻松扩展到数千节点,支持在运行阶段不宕机的情况下添加集群里的机器,在集群机器里添加组件;支持横向扩展部署,支持几乎不受限制的系统横向扩展需要;全面兼容Apache Hadoop发行的版本,支持Hbase、Pig、Hive、MR、Oozie等各种开源方案;
■ 高度集成,自主创新。提供统一的集群及服务管理,具有标准的服务框架和丰富的API,能够方便接入新的组件并进行管理,也能便捷地与其他系统集成;安全性以多个层次加入和集成到平台中。提供用于身份验证、授权、可归责性以及数据保护的关键功能,确保平台及数据安全;高性能。