解决方案

Solutions

云计算大数据“云中实验室”解决方案

1、人才需求调研

 云产业前景广阔,蛋糕很大却不容易吃。

云计算,是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备,云计算的核心思想,是将大量用网络连接的计算资源统一管理和调度,构成一个计算资源池向用户按需服务,提供资源的网络被称为云。

大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。企业可以通过思考数据战略的总体回报,来应对大数据的挑战,抓住大数据的机会。大数据分析是商业智能的演进,通过商务智能使大数据言之有物,以便让大中小企业都能通过更加贴近客户的方式取得竞争优势,数据集成和数据管理是核心所在。

云计算在社会生活及经济发展中的地位日益重要,我国云计算市场前景广阔,据预测,到2015年,我国云计算产业链规模将达7500亿至1万亿元。 未来三年云计算相关的工作岗位要求每年将会以26%的速度增长。

2014年4月,CSDN对电商领域的研发人才招聘市场进行了一次调查,收集了国内电商行业中30家较为知名企业的招聘数据,从总的人才需求数量上看,排名前十的企业分别为:阿里巴巴、去哪儿、苏宁易购、糯米网、国美集团、京东商城、美团网、唯品会、携程、1号店。根据研发类人才工作岗位的不同,本次调查选取了六个目前比较热门的技术岗位作为参考对象进行了分析,这六个岗位分别是:云计算/大数据相关岗位、移动端开发工程师、算法工程师、前端/交互/美工、后台开发工程师及产品经理,如图1所示。

在本次调查收取的研发类人才岗位需求样本数据中,后台开发工程师占比最大,约为32.81%。算法工程师岗位占比为18.27%,前端/交互/美工岗位占比为15.87%,产品经理占比分别为12.53%,云计算大数据相关岗位占比为6.65%。

 

1 技术热点岗位需求量对比

目前,云计算、大数据方向的人才需求有一定的共性,即:稀缺、昂贵。云计算与大数据是近两年刚火热并逐渐走向落地的技术,而不仅是电商行业,各个行业对这两个方向的人才都趋之若鹜。由于缺口较大,也就造成了企业愿意出高价邀请加入,由此便形成了稀缺并昂贵的局面。

2、实验环境的建设困境

据调查,未来两年内,全国高校计算机类专业中,将要开设云计算和大数据方向的超过200家,但是,如何解决学生的实验环境成了一个不可回避的困难,

因为基于单一服务器的传统模式的缺点极其明显,首先,Hadoop系统完整的实验至少需要3台服务器支撑,而对于多人班级进行实验的场景则需要大量的传统模式的服务器数量,因此增加大量服务器,浪费巨大的资金和资源;减少服务器数量,则会导致实验时间过长,影响实验的效果;其次,传统模式由于服务器部署过多,导致系统部署混乱,增加了实验教师的管理工作量,同时也导致了学生学习效果及效率的低下;第三,部署一次OpenStack云平台最短时间将超过4个小时,高校正常的课时安排一般是以2小时为一个单元的,这将造成学生还没搭好环境 ,就已经下课离开教室的尴尬;第四,即使把一个教室的微机全天交给一个班的学生使用,第二天另外一个班学生在这些微机上做同样的实验会破坏前一个班辛辛苦苦的搭好的试验环境。

3、解决方案概述

奇观技术的大数据实验平台的核心思想主要是充分利用现有硬件资源,通过虚拟化技术构建云中心的资源池,比如网络、存储、计算等。其特点主要有:

(1) 多节点并行处理,将服务器资源统一整合成云中心。

(2) 高扩展性和按需分配的交付模式,云计算实验的规模可以动态伸缩,满足应用和用户规模增长的需求。云服务可以像水电计费一样,按需购买。

(3) 通用性,基于虚拟化方案构建不同场景的应用服务。

奇观技术通过云计算虚拟化技术实现的大数据Hadoop集群实验平台,则只需要若干云服务器即可完成,这些支持大规模平行计算的服务器集群被称之为弹性资源配置平台(ERAP,Elastic Resource Allocation Platform)。该方案可以有效解决对于硬件的依赖,降低运维成本、并且具有便于操作管理易于维护的特点。

整体方案主要由虚拟化服务器和大数据服务器构成,服务器上分别预装完整的Openstack、Marvel Sky Cloud和Hadoop平台。如图3-1所示。

3-1 云计算大数据“云中实验室”架构

4、 解决方案功能模块

该方案在功能上主要分为后台虚拟化管理功能模块和前台实验应用模块两个部分,其中后台虚拟化管理模块主要采用Marvel Sky Cloud进行虚拟化管理,结合实验信息的Web服务器以及前台部分以应用程序方式进行体现。

4.1 前台功能模块

 

前台实验应用部分主要包含实验信息显示、实验教育资源下载模块、实验操作模块。

“云中实验室”登录端:

奇观技术云中实验室平台登录端运行在传统PC上,用户可以通过网络连接到实验平台,根据课程要求,选择相应的实验环境,进而进入云平台已创建好的虚拟机系统中,这个虚拟机系统是位于云平台上的各种操作系统,如Windows XP、Windows 7、Linux操作系统、mac OS等。

不论学生机是使用机房电脑还是自己的电脑,只要能联入校园网,使用奇观技术的云中实验室登录端,都可以登录到他的实验环境,做到了不管是在机房还是在寝室,不管是课上还是课下,都能连续进行实验的目的,

云中实验室登录端,登录需要事先在后台管理界面创建用户的信息,包括用户名、密码等,各个用户之间相互独立。登录界面如下图4-1所示:

4-1 “云中实验室”登录端

 

⑴ 实验信息显示

实验信息显示主要指实验的内容、目的、要求以及实验详细流程步骤,并且对实验重要步骤进行标示,提示学生实验重点知识点分布,强化学生对实验整体要点分布进行合理分配时间的观念。

⑵ 实验资源下载

实验资源包括教师上传的实验资源、实验参考文档、参考案例以及相关网络链接等内容。同时,也可以下载免费、完整的实验参考电子书籍等。

⑶ 实验操作模块

根据大数据实验特点,在本系统下可以进行多台实验机器同时显示,同时操作,共同完成大数据实验要求,一个学生可以对应操作三台以上实验机器。极大的节省了硬件资源,和实验的复杂性。

部分效果图如图4-2所示:

图4-2 实验界面

4.2 后台功能模块

 

后台功能模块主要包括:模板管理模块、计算机节点管理模块、用户管理模块、虚拟机管理模块四个部分,主要功能具体描述如下:

⑴模板管理

模板管理模块主要是针对实验要求可以动态制作不同的镜像上传至服务器方便管理者进行创建不同的虚拟机,以方便学生进行实验。

⑵计算机节点管理

主要是对计算机节点进行状态监控查看,系统内存优化,以便使计算节点运行状态得到及时优化,是客户端运行更加流畅。

⑶ 用户管理

该模块的主要功能是提供用户管理,可动态的增、删、改、查等用户信息,也可直接嵌入教务系统。

(4)虚拟机管理

该模块的主要作用是提供用户虚拟机管理。 

实验室后台管理系统整体效果图如下图4-3所示:

 

4-3 后台管理系统

 

5、课程资源

5.1 云计算课程资源

云计算资源提供了充足的案例,保证学习、科研的先进性。具体内容如下:

表5-1 云计算课程资源

序号

知识点

内容

1

云计算基本概念

Cloud computing concept

1.         什么是云计算

2.         云计算的服务类型和种类

3.         云计算特点及经济性

2

OpenStack组件介绍

Introduction of OpenStack element

1.Nova-计算服务

2.Swift-存储服务

3.Glance-镜像服务

4.Keystone-认证服务

5.Horizon-UI服务

3

Openstack详细视图

1. Openstack框架

2. Nova是如何工作的

3. Glanceopenstack中的作用

4. VM的创建流程

4

OpenStack单节点部署

Deployment of OpenStack single node

1.系统及环境配置

2.安装mysql和创建相关数据库

3.安装配置keystone

4.安装和配置glance

5.安装配置nova

6.安装和配置Dashbaord

5

OpenStack多节点部署

Deployment of OpenStack multiple node

1.控制节点安装

2.计算节点安装

6

OpenStack管理系统应用

Application of OpenStack management system

Dashboard的使用

7

kvm制作镜像

Making image by kvm

1.使用kvm制作Windows XP镜像

2.使用kvm制作Windows 7镜像

3.使用kvm制作Linux镜像

8

Marvel Sky Cloud简介

Introduce of Marvel Sky Cloud

1. Marvel Sky Cloud 轻量级云计算平台介绍

2. Marvel Sky Cloud Openstack区别

3.Marvel Sky Cloud 平台与应用构成介绍

9

Marvel Sky Cloud 部署

Deployment of Marvel Sky Cloud

1.快速安装Marvel Sky Cloud

2.Marvel Sky Cloud 序列号授权安装

10

Marvel Sky Cloud平台使用

Using Marvel Sky Cloud

1.配置远程应用管理软件

2.上传镜像操作与快速部署虚拟机

3.虚拟机控制管理

4.用户绑定虚拟机

5.查看虚拟机工作状态

6.控制虚拟机(删除、启动、停止等)

7.云桌面实验

表5-1中所示资源,一部分为Openstack基础文档资料部分,每部分均有成熟的文档以及相关案例支持;另一部分为超轻量级Marvel Sky Cloud文档和案例资料,属于商业化云计算管理系统,该系统性能优越、设计精巧,非常便于部署使用。

5.2 大数据课程资源

大数据实验平台不仅提供功能,并且提供给学生和教师足够的实验案例与实验计划等软性资源。课程信息如下表所示。

表5-2 《Hadoop基础》课程简表

课程内容

教学课件

教学视频

实验案例

大数据的数据存储

HDFS

MapReduce

Hbase

其他数据存储方式

Zookeeper

大数据分析及可视化

 表2-3 《MapReduce核心技术》课程简表

课程内容

教学课件

教学视频

实验案例

MapReduce 入门

MapReduce 计算模型

MapReduce编程

MapReduce API详解

MapReduce程序设计

MapReduce作业机制

表2-4 《Hbase核心技术》课程简表

课程内容

教学课件

教学视频

实验案例

HBase Shell基础

HBase Shell命令

HBase Shell脚本

Hbase程序设计

 

表2-5 《商业智能技术》课程简表

课程内容

教学课件

教学视频

实验案例

商务智能基础

 

决策支持系统

 

大数据分析工具及应用

 

 

表2-6 《大数据综合案例》简表

课程内容

教学课件

教学视频

案例

网络云盘开发实践

TeraSort排序应用开发实践

Sudoku九宫格数独应用开发实践

Pentomino五格拼版应用开发实践

网站日志数据统计与分析应用实践

HBase车辆定位系统应用实践

 

上述表中所显示的是简约课程信息,在课程资源中可以根据用户的实际情况进行定制,遵守高校课程资源制定的标准,满足实验和理论课程的分配。充分体现的实验课程学时安排,案例标准,核心要点等重要数据,同时体现大数据实验的核心内容与知识点。

6、云中实验室架构设计及构成

6.1方案构架设计

在整体方案中包含弹性资源配置平台ERAP、Web服务器以及作为承载实验的电脑或客户端。方案如图6-1所示。

 

6-1 大数据实验平台解决方案

 

如图6-1所示,Web服务器和ERAP分类配置,在物理位置上彼此独立,通过网络通信进行协调一致的工作。每个上机实验的学生与二者进行交互,完成所有大数据所涉及的实验内容。通过ERAP上的Marvel Sky Cloud管理内置的功能,可以实现实验结束后自动关闭虚拟机的功能,尽可能地释放资源,保证实验课程的连续性。

6.2方案构成组件

整个系统方案组件包括弹性资源配置平台和学生实验终端两大部分,学生实验终端可以采取新建云终端模式或依托于已有机房模式。其中新建云终端模式是定制化瘦客户云终端,而依托已有机房模式是采用应用程序方式的另一种实验解决方案。在方案组件构成上,即可以采用新建云终端模式或依托已有机房模式,又可以采用混合搭建模式。

6.2.1弹性资源配置平台ERAP

弹性资源配置平台(ERAP,Elastic Resources Allocation Platform)是将企业数据中心中所有服务器、存储和网络设备集中统一管理,通过资源池化、模版配置和动态调整等功能为用户提供整合的、高可用性的、动态弹性分配、可快速部署使用的IT基础设施。打破了传统资源部署模式下应用系统之间的“资源竖井”,可根据应用对资源的需求类别和程度动态调配资源,实现了应用和资源的最佳结合。

ERAP平台同时能提高数据中心的运维效率,降低成本和管理复杂度,自动化的资源部署、调度和软件安装保证了业务的及时上线和应用的快速交付能力。

6.2.2Marvel Sky Cloud 平台

Marvel Sky Cloud是与Vmware类似的虚拟化平台,可用于公有云和私有云的平台搭建,采用快速响应的C/S架构。Marvel Sky Cloud云平台是基于虚拟化、自动化和自优化等技术实现的新一代云计算运行平台。主要包括以下功能:

(1)虚拟机管理

虚拟机快速创建、删除、启动、关闭等功能;虚拟机资源信息的实时动态显示,以及查看;灵活的增加删除系统附属磁盘。

(2)模板管理

镜像模板上传和删除。

(3)用户管理

用户的创建,用户绑定虚拟机,用户的权限管控;管理员一键设置选定用户USB权限以及系统恢复。

(4)动态资源分配

在Marvel Sky Cloud内嵌了资源动态分配的模块,可以根据网络、CPU和内存工作的情况,进行动态调整资源分配,使弹性资源配置平台状态始终处于最佳状态。

(5)管理控制

可定义和配置动态集群和应用路由控制节点的各种相关参数,包括运行时的动态集群需要遵循的各种策略,并可监控这个环境的运行状态。

(6)多种操作系统虚拟能力

相对于第三方云管理平台具有占用资源少,可方便快速部署,易于维护等优点。可支持常见系统以及国内操作系统,例如Windows系列系统、中标麒麟操作系统和苹果系统等。

Marvel Sky Cloud 与ERAP协调工作,会将整个方案系统资源利用率、工作效率达到最佳状态,充分体现云计算的在计算与性能方面的强大优势。

6.2.3云终端

云终端是基于服务器虚拟化的云计算解决方案的主要组成部分,用户可以通过云终端访问云端的虚拟桌面。

云终端支持特有的FTC传输协议,配置低功耗、高运算功能的嵌入式处理器、小型本地闪存、精简版操作系统,不可移除地用于存储操作系统的本地闪存、以及本地系统内存、网络适配器、显卡和其它外设的标配输入/输出选件。

由于云终端没有可移除的部件,可以提供比普通PC更加安全可靠的使用环境,以及更低的功耗,更高的安全性。云终端对于用户而言所带来的,除了便利,就是成本的有效节约。

登录界面如图6-2所示。

图6-2云终端登录界面

云终端硬件如图6-3所示

 

 

6-3 云终端硬件

 

7、 系统架构开放性

7.1师资培训支撑

奇观技术企业级云解决方案利用大量的具有自主知识产权的中间件,以实现数据转换、增量更新等先进功能,可以支持各种数据规范和广泛的数据源,具有良好的跨平台性和开放性,可以与任何应用系统实现无缝连接,以满足根据不同的学校和教育机构的不同需求。

为了帮助老师快速掌握云计算大数据相关技术,提供OpenStack、Marvel Sky Cloud和Hadoop高级工程师不低于7天的校内培训,培训内容包含:系统安装配置、提供上层编程API、二次开发、提供上层应用开发者二次开发的接口,可以基于底层现有平台开发多样化的管理系统。

培训目录如下:

附件1OpenStack培训计划

NO.

PIONT&TIME

CONTENT

1

云计算基本概念

Cloud computing concept

什么是云计算

云计算的服务类型和种类

云计算特点及经济性

2

OpenStack组件介绍

Introduction of OpenStack element

Nova-计算服务

Swift-存储服务

Glance-镜像服务

Keystone-认证服务

Horizon-UI服务

3

Openstack详细视图

1.   Openstack框架

2.   Nova是如何工作的

3.   Glanceopenstack中的作用

4.   VM的创建流程

3

OpenStack单节点部署

Deployment of OpenStack single node

系统及环境配置

安装mysql和创建相关数据库

安装配置keystone

安装和配置glance

安装配置nova

安装和配置Dashbaord

4

OpenStack多节点部署

Deployment of OpenStack multiple node

控制节点安装

计算节点安装

5

OpenStack管理系统应用

Application of OpenStack management system

    Dashboard的使用

6

kvm制作镜像

Making image by kvm

使用kvm制作Windows XP镜像

使用kvm制作Windows 7镜像

使用kvm制作Linux镜像

7

云平台运行与故障分析

Operating and fault analysis of cloud platform

云环境的策略和过程

诊断、修复和优化物理主机性能

部署云服务时,实施适当的测试技术

比较灾难恢复的方法和概念

部署满足可用性要求的解决方案

 

附件2Hadoop培训计划

NO.

PIONT&TIME

CONTENT

1

基于UbuntuHadoop集群安装与配置

1.三台机器开启root登录。

2.在三台主机上分别设置/etc/hosts           /etc/hostname 

3.在三台主机上安装openjdk-7-jdk

4.安装ssh配置免密登录

5.进行Hadoop集群完全分布式的安装配置

6.启动验证

2

Hadoop管理

 

HDFS目录结构

HDFS命令工具管理

MapReduces作业管理

Hadoop集群的维护

3

MapReduce编程

 

1.  MapReduce计算模型描述

2.  MapReduce编程基本知识

3.  MapReduce 开发环境的搭建

4.  MapReduce实例开发演练

4

HBase集群的安装配置和应用实践

 

准备工作(HadoopSSHNTP)

HDFS开发环境的搭建

HDFS云盘实例开发

 

7.2科研创新支撑

  大数据“云中实验室”平台通过虚拟机的方式为学生提供了实验开发与操作平台,同时也为教师科研提供专门的算法开发平台。通过这些算法平台,教师可方便地进行数据爬取、文本分析、算法实现等开发工作,并且通过实验平台所提供的Hadoop运算环境,自由设计算法处理数据。并且独立二次开发、提供上层编程API、提供上层应用开发者二次开发的接口,可以基于底层现有平台开发多样化的管理系统。充分支撑的科研工作。系统提供数据分析接口,可将收集到的大数据进行分析统计,按自己需求生成报表,为科研工作提供数据支承。例如某地区经济数据分析、股市数据分析等。

  大数据“云中实验室”解决方案全面落实“产、学、研、用”一体化的思想和模式,从教学、实践、科研和使用多方面注重专业人才和特色人才的培养。能够从大数据产业需求和发展的角度规划和建设大数据分析实验室,真正在产业、学校、科研及实际项目中相互配合,发挥优势,形成生产、学习、科学研究、实践运用的系统运作模式。

  大数据“云中实验室”解决方案一方面能够提升学生的动手能力和实战能力,按照从理论学习到项目实践的方式增强学生大数据分析的能力与经验;另一方面还可以为教师提供良好的数据分析科研环境,提高学校教师工程化实践项目实施和管理经验。通过专业的大数据分析计算资源搭建的开放式大数据分析平台,可以充分的融合教师的科研需求,教师可以在开放的平台环境下开展大数据科研工作,提升教师的科研创新能力,充分提高“研”的成效。

针对于大数据部分科研平台架构如下: