
大数据存储方案为教育信息化提速_数据分析师考试
在大数据时代,大数据在教育领域有了越来越广泛的应用,学校拥有可用的、高质量的海量数据逐渐成为现实,但如何保护这些海量、非结构化的用户数据,并时时进行信息挖掘,给未来教育带来更大的可能,则对教育研究者的想象力提出了挑战。正如上海易班发展中心主任、易班网CEO朱明伦所言:“易班的海量数据需要安全可靠的存储,帮我们解决数据存储问题,同时在数据安全性、容灾备份给与更多帮助。
大数据需求凸现
易班全称“易班学生网络互动社区”,其前身是“上海大学生在线”,是中国第一家面向大学生的实名互动平台。该网站不仅提供BBS、SNS、博客、微博、手机互联等多种新型互联网应用,同时根据高校的特点,研发了话题、日程表等基于班级的特色应用,交流大量的优质教育资源。
作为上海市高校师生互动交流的主要平台,基本覆盖了上海的全部大学生,60余所高校里,现有55所学校基本上100%进易班,用户量已达50多万,日均访问IP超过25万,日均点击率达到80万次。目前用户数据量已经达到30TB,并且每天以GB数量级激增。庞大的数据已经造成现有硬件存储设备严重欠负载状态,就目前的负载情况来看,易班仅能为二万左右的新用户提供服务。易班数据来源复杂而且拥有大量非结构化数据,整体数据管理工作面临很大压力,因此需要一个专业的规划师来帮助建设虚拟数据中心,以解燃眉之急。
不久前,易班采用了EMC Celerra NS-480 存储系统作为主存储,构建第一个虚拟化数据中心,EMC方案的应用很好解决了原有盘柜存储的若干问题,主要表现在改善系统扩容,对磁盘运行情况实现智能预警,提升响应速度,节约成本等方面。很值得众多方案商借鉴。
实效:显著改善数据管理水平
EMC的Isilon NL 系列为第二数据中心提供了非结构化数据的高性能承载,为将来的无缝扩容提供了保障。Isilon能自动根据存储对象扩容,透明方便。整个存储空间有较大的平行扩展能力,使客户不再担心空间容量问题,是诸如易班这类网站用于存储海量非结构化数据的理想选择。
EMC统一存储把读写频繁的数据放在闪存里,读写不频繁的依次往下排列,实现了自动化、智能化的数据存储和管理,改善了以前盘柜形式单一、难以整合的情况。同时,在价格上比全部使用盘柜闪存更低,读写速率也比单独使用SAS或SATA更快,达到了真正的经济高效。相比于原有的盘柜来说,相同一个网页页面处理时间为60毫秒,现在使用EMC统一存储系统后,只需40多毫秒就可以实现,速率提升至少20%以上,整体上比机架加盘柜形式处理效率更高。
之前,由于易班网站对磁盘的读写频率很高,所以碰到磁盘故障的概率较高,如未及时处理,将面临数据丢失的风险。之前易班都通过人工定期检查,不仅费时费力,还不能及时发现问题。EMC解决方案有完善的管理软件,还有一个预警机制,一旦磁盘出现故障,可以实时发现并自动报警。同时,EMC工程师经验丰富,在几次帮助易班系统升级时表现都很专业,降低了数据丢失以及不完整的风险,保证数据在升级过程中平稳安全。
使用EMC解决方案后,易班数据中心不再像之前一样配备较多人员,还经常出现手忙脚乱的局面了。现在虽然数据量增加了,但数据中心运维部仍然只有四个人,负责管理网络、服务器、存储和应用软件。存储方面节省了大量人力。
EMC方案可以对关键的数据集(如 MS SQL 数据库)提供容灾保护,实现起来并不复杂。EMC VNX5500可以提供超过30TB的容量,结合RecoverPoint软件,有效实现了两个数据中心内的连续数据保护,如下图,在VNX5500出现问题时,自动连接到另一数据中心的Celerra NS-480,保证了网站稳定运行。
图1 易班数据中心部署架构示意图
方案保障数据高效运转
易班对于数据存储的总体要求非常高,但这些需求对EMC来说都不是难事儿,在易班截至目前三期的项目中,EMC先后提供了Celerra NS-480 + VNX5500 +RecoverPoint+Isilon一整套精英利器,这些武器功能非凡,整合在一起,可以完美解决易班数据管理问题。
EMC Celerra NS-480 统一存储系统最先出场。Celerra为多协议环境提供了高级故障切换和全自动存储分层功能。最多可扩展到480 个磁盘,超越直连存储限制。使用 EMC Unisphere管理软件简化了常见管理任务,通过文件系统重复数据消除、FAST 缓存、虚拟资源调配和自动化卷管理实现更高的效率。
VNX5500统一存储是EMC虚拟应用程序优化的高性能统一存储平台,存储容量超过30TB,其自我优化的存储分层和以应用程序为中心的复制能力,可以优化闪存、SAS 和近线 SAS 驱动器中的数据。它的应用无疑是为易班更好驾驭这些大数据,提升混合工作负载的运行速度,极大提升性能。
易班现在除了数据库服务器外,其余都将运行在虚拟化软件。现在物理机有8个刀片,虚拟机数量有30多台。在项目三期里预计将增加十几块刀片,虚拟机的数量达到300多个。EMC RecoverPoint可利用多个恢复点将应用程序即时恢复到特定时间点,从而提供连续数据保护,这一点可以很好满足客户对业务连续性、数据安全性方面的高要求。
横向扩展存储专家EMC Isilon具备极高的存储处理通量,部署简单而又具有高扩展性。它能够加速用户对数字内容和非结构化数据的存取,极大地减少存储系统的复杂性,降低存储成本,同时可线性扩展其性能和容量,是易班用于存储海量非结构化数据的优先选择。
另外,由 EMC、Cisco、VMware 三方联盟所提供的最优化IT 基础设施VCE构架参考方案,VCE构架吞吐量比盘柜的更大,服务器和阵列之间的交换速率能达4GB/s,这样的处理速度,是易班之前无法达到的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“纲举目张,执本末从。”若想在数据分析领域有所收获,一套合适的学习教材至关重要。一套优质且契合需求的学习教材无疑是那关键 ...
2025-06-092025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27