京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据存储方案为教育信息化提速_数据分析师考试
在大数据时代,大数据在教育领域有了越来越广泛的应用,学校拥有可用的、高质量的海量数据逐渐成为现实,但如何保护这些海量、非结构化的用户数据,并时时进行信息挖掘,给未来教育带来更大的可能,则对教育研究者的想象力提出了挑战。正如上海易班发展中心主任、易班网CEO朱明伦所言:“易班的海量数据需要安全可靠的存储,帮我们解决数据存储问题,同时在数据安全性、容灾备份给与更多帮助。
大数据需求凸现
易班全称“易班学生网络互动社区”,其前身是“上海大学生在线”,是中国第一家面向大学生的实名互动平台。该网站不仅提供BBS、SNS、博客、微博、手机互联等多种新型互联网应用,同时根据高校的特点,研发了话题、日程表等基于班级的特色应用,交流大量的优质教育资源。
作为上海市高校师生互动交流的主要平台,基本覆盖了上海的全部大学生,60余所高校里,现有55所学校基本上100%进易班,用户量已达50多万,日均访问IP超过25万,日均点击率达到80万次。目前用户数据量已经达到30TB,并且每天以GB数量级激增。庞大的数据已经造成现有硬件存储设备严重欠负载状态,就目前的负载情况来看,易班仅能为二万左右的新用户提供服务。易班数据来源复杂而且拥有大量非结构化数据,整体数据管理工作面临很大压力,因此需要一个专业的规划师来帮助建设虚拟数据中心,以解燃眉之急。
不久前,易班采用了EMC Celerra NS-480 存储系统作为主存储,构建第一个虚拟化数据中心,EMC方案的应用很好解决了原有盘柜存储的若干问题,主要表现在改善系统扩容,对磁盘运行情况实现智能预警,提升响应速度,节约成本等方面。很值得众多方案商借鉴。
实效:显著改善数据管理水平
EMC的Isilon NL 系列为第二数据中心提供了非结构化数据的高性能承载,为将来的无缝扩容提供了保障。Isilon能自动根据存储对象扩容,透明方便。整个存储空间有较大的平行扩展能力,使客户不再担心空间容量问题,是诸如易班这类网站用于存储海量非结构化数据的理想选择。
EMC统一存储把读写频繁的数据放在闪存里,读写不频繁的依次往下排列,实现了自动化、智能化的数据存储和管理,改善了以前盘柜形式单一、难以整合的情况。同时,在价格上比全部使用盘柜闪存更低,读写速率也比单独使用SAS或SATA更快,达到了真正的经济高效。相比于原有的盘柜来说,相同一个网页页面处理时间为60毫秒,现在使用EMC统一存储系统后,只需40多毫秒就可以实现,速率提升至少20%以上,整体上比机架加盘柜形式处理效率更高。
之前,由于易班网站对磁盘的读写频率很高,所以碰到磁盘故障的概率较高,如未及时处理,将面临数据丢失的风险。之前易班都通过人工定期检查,不仅费时费力,还不能及时发现问题。EMC解决方案有完善的管理软件,还有一个预警机制,一旦磁盘出现故障,可以实时发现并自动报警。同时,EMC工程师经验丰富,在几次帮助易班系统升级时表现都很专业,降低了数据丢失以及不完整的风险,保证数据在升级过程中平稳安全。
使用EMC解决方案后,易班数据中心不再像之前一样配备较多人员,还经常出现手忙脚乱的局面了。现在虽然数据量增加了,但数据中心运维部仍然只有四个人,负责管理网络、服务器、存储和应用软件。存储方面节省了大量人力。
EMC方案可以对关键的数据集(如 MS SQL 数据库)提供容灾保护,实现起来并不复杂。EMC VNX5500可以提供超过30TB的容量,结合RecoverPoint软件,有效实现了两个数据中心内的连续数据保护,如下图,在VNX5500出现问题时,自动连接到另一数据中心的Celerra NS-480,保证了网站稳定运行。
图1 易班数据中心部署架构示意图
方案保障数据高效运转
易班对于数据存储的总体要求非常高,但这些需求对EMC来说都不是难事儿,在易班截至目前三期的项目中,EMC先后提供了Celerra NS-480 + VNX5500 +RecoverPoint+Isilon一整套精英利器,这些武器功能非凡,整合在一起,可以完美解决易班数据管理问题。
EMC Celerra NS-480 统一存储系统最先出场。Celerra为多协议环境提供了高级故障切换和全自动存储分层功能。最多可扩展到480 个磁盘,超越直连存储限制。使用 EMC Unisphere管理软件简化了常见管理任务,通过文件系统重复数据消除、FAST 缓存、虚拟资源调配和自动化卷管理实现更高的效率。
VNX5500统一存储是EMC虚拟应用程序优化的高性能统一存储平台,存储容量超过30TB,其自我优化的存储分层和以应用程序为中心的复制能力,可以优化闪存、SAS 和近线 SAS 驱动器中的数据。它的应用无疑是为易班更好驾驭这些大数据,提升混合工作负载的运行速度,极大提升性能。
易班现在除了数据库服务器外,其余都将运行在虚拟化软件。现在物理机有8个刀片,虚拟机数量有30多台。在项目三期里预计将增加十几块刀片,虚拟机的数量达到300多个。EMC RecoverPoint可利用多个恢复点将应用程序即时恢复到特定时间点,从而提供连续数据保护,这一点可以很好满足客户对业务连续性、数据安全性方面的高要求。
横向扩展存储专家EMC Isilon具备极高的存储处理通量,部署简单而又具有高扩展性。它能够加速用户对数字内容和非结构化数据的存取,极大地减少存储系统的复杂性,降低存储成本,同时可线性扩展其性能和容量,是易班用于存储海量非结构化数据的优先选择。
另外,由 EMC、Cisco、VMware 三方联盟所提供的最优化IT 基础设施VCE构架参考方案,VCE构架吞吐量比盘柜的更大,服务器和阵列之间的交换速率能达4GB/s,这样的处理速度,是易班之前无法达到的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14在Power BI实操中,函数是实现数据清洗、建模计算、可视化呈现的核心工具——无论是简单的数据筛选、异常值处理,还是复杂的度量 ...
2026-02-13在互联网运营、产品迭代、用户增长等工作中,“留存率”是衡量产品核心价值、用户粘性的核心指标——而次日留存率,作为留存率体 ...
2026-02-13对CDA(Certified Data Analyst)数据分析师而言,指标是贯穿工作全流程的核心载体,更是连接原始数据与业务洞察的关键桥梁。CDA ...
2026-02-13在机器学习建模实操中,“特征选择”是提升模型性能、简化模型复杂度、解读数据逻辑的核心步骤——而随机森林(Random Forest) ...
2026-02-12在MySQL数据查询实操中,按日期分组统计是高频需求——比如统计每日用户登录量、每日订单量、每日销售额,需要按日期分组展示, ...
2026-02-12对CDA(Certified Data Analyst)数据分析师而言,描述性统计是贯穿实操全流程的核心基础,更是从“原始数据”到“初步洞察”的 ...
2026-02-12备考CDA的小伙伴,专属宠粉福利来啦! 不用拼运气抽奖,不用复杂操作,只要转发CDA真题海报到朋友圈集赞,就能免费抱走实用好礼 ...
2026-02-11在数据科学、机器学习实操中,Anaconda是必备工具——它集成了Python解释器、conda包管理器,能快速搭建独立的虚拟环境,便捷安 ...
2026-02-11在Tableau数据可视化实操中,多表连接是高频操作——无论是将“产品表”与“销量表”连接分析产品销量,还是将“用户表”与“消 ...
2026-02-11在CDA(Certified Data Analyst)数据分析师的实操体系中,统计基本概念是不可或缺的核心根基,更是连接原始数据与业务洞察的关 ...
2026-02-11在数字经济飞速发展的今天,数据已成为核心生产要素,渗透到企业运营、民生服务、科技研发等各个领域。从个人手机里的浏览记录、 ...
2026-02-10在数据分析、实验研究中,我们经常会遇到小样本配对数据的差异检验场景——比如同一组受试者用药前后的指标对比、配对分组的两组 ...
2026-02-10在结构化数据分析领域,透视分析(Pivot Analysis)是CDA(Certified Data Analyst)数据分析师最常用、最高效的核心实操方法之 ...
2026-02-10在SQL数据库实操中,字段类型的合理设置是保证数据运算、统计准确性的基础。日常开发或数据分析时,我们常会遇到这样的问题:数 ...
2026-02-09在日常办公数据分析中,Excel数据透视表是最常用的高效工具之一——它能快速对海量数据进行分类汇总、分组统计,将杂乱无章的数 ...
2026-02-09表结构数据作为结构化数据的核心载体,其“获取-加工-使用”全流程,是CDA(Certified Data Analyst)数据分析师开展专业工作的 ...
2026-02-09在互联网产品运营、用户增长的实战场景中,很多从业者都会陷入一个误区:盲目投入资源做推广、拉新,却忽视了“拉新后的用户激活 ...
2026-02-06