
大数据存储方案为教育信息化提速_数据分析师考试
在大数据时代,大数据在教育领域有了越来越广泛的应用,学校拥有可用的、高质量的海量数据逐渐成为现实,但如何保护这些海量、非结构化的用户数据,并时时进行信息挖掘,给未来教育带来更大的可能,则对教育研究者的想象力提出了挑战。正如上海易班发展中心主任、易班网CEO朱明伦所言:“易班的海量数据需要安全可靠的存储,帮我们解决数据存储问题,同时在数据安全性、容灾备份给与更多帮助。
大数据需求凸现
易班全称“易班学生网络互动社区”,其前身是“上海大学生在线”,是中国第一家面向大学生的实名互动平台。该网站不仅提供BBS、SNS、博客、微博、手机互联等多种新型互联网应用,同时根据高校的特点,研发了话题、日程表等基于班级的特色应用,交流大量的优质教育资源。
作为上海市高校师生互动交流的主要平台,基本覆盖了上海的全部大学生,60余所高校里,现有55所学校基本上100%进易班,用户量已达50多万,日均访问IP超过25万,日均点击率达到80万次。目前用户数据量已经达到30TB,并且每天以GB数量级激增。庞大的数据已经造成现有硬件存储设备严重欠负载状态,就目前的负载情况来看,易班仅能为二万左右的新用户提供服务。易班数据来源复杂而且拥有大量非结构化数据,整体数据管理工作面临很大压力,因此需要一个专业的规划师来帮助建设虚拟数据中心,以解燃眉之急。
不久前,易班采用了EMC Celerra NS-480 存储系统作为主存储,构建第一个虚拟化数据中心,EMC方案的应用很好解决了原有盘柜存储的若干问题,主要表现在改善系统扩容,对磁盘运行情况实现智能预警,提升响应速度,节约成本等方面。很值得众多方案商借鉴。
实效:显著改善数据管理水平
EMC的Isilon NL 系列为第二数据中心提供了非结构化数据的高性能承载,为将来的无缝扩容提供了保障。Isilon能自动根据存储对象扩容,透明方便。整个存储空间有较大的平行扩展能力,使客户不再担心空间容量问题,是诸如易班这类网站用于存储海量非结构化数据的理想选择。
EMC统一存储把读写频繁的数据放在闪存里,读写不频繁的依次往下排列,实现了自动化、智能化的数据存储和管理,改善了以前盘柜形式单一、难以整合的情况。同时,在价格上比全部使用盘柜闪存更低,读写速率也比单独使用SAS或SATA更快,达到了真正的经济高效。相比于原有的盘柜来说,相同一个网页页面处理时间为60毫秒,现在使用EMC统一存储系统后,只需40多毫秒就可以实现,速率提升至少20%以上,整体上比机架加盘柜形式处理效率更高。
之前,由于易班网站对磁盘的读写频率很高,所以碰到磁盘故障的概率较高,如未及时处理,将面临数据丢失的风险。之前易班都通过人工定期检查,不仅费时费力,还不能及时发现问题。EMC解决方案有完善的管理软件,还有一个预警机制,一旦磁盘出现故障,可以实时发现并自动报警。同时,EMC工程师经验丰富,在几次帮助易班系统升级时表现都很专业,降低了数据丢失以及不完整的风险,保证数据在升级过程中平稳安全。
使用EMC解决方案后,易班数据中心不再像之前一样配备较多人员,还经常出现手忙脚乱的局面了。现在虽然数据量增加了,但数据中心运维部仍然只有四个人,负责管理网络、服务器、存储和应用软件。存储方面节省了大量人力。
EMC方案可以对关键的数据集(如 MS SQL 数据库)提供容灾保护,实现起来并不复杂。EMC VNX5500可以提供超过30TB的容量,结合RecoverPoint软件,有效实现了两个数据中心内的连续数据保护,如下图,在VNX5500出现问题时,自动连接到另一数据中心的Celerra NS-480,保证了网站稳定运行。
图1 易班数据中心部署架构示意图
方案保障数据高效运转
易班对于数据存储的总体要求非常高,但这些需求对EMC来说都不是难事儿,在易班截至目前三期的项目中,EMC先后提供了Celerra NS-480 + VNX5500 +RecoverPoint+Isilon一整套精英利器,这些武器功能非凡,整合在一起,可以完美解决易班数据管理问题。
EMC Celerra NS-480 统一存储系统最先出场。Celerra为多协议环境提供了高级故障切换和全自动存储分层功能。最多可扩展到480 个磁盘,超越直连存储限制。使用 EMC Unisphere管理软件简化了常见管理任务,通过文件系统重复数据消除、FAST 缓存、虚拟资源调配和自动化卷管理实现更高的效率。
VNX5500统一存储是EMC虚拟应用程序优化的高性能统一存储平台,存储容量超过30TB,其自我优化的存储分层和以应用程序为中心的复制能力,可以优化闪存、SAS 和近线 SAS 驱动器中的数据。它的应用无疑是为易班更好驾驭这些大数据,提升混合工作负载的运行速度,极大提升性能。
易班现在除了数据库服务器外,其余都将运行在虚拟化软件。现在物理机有8个刀片,虚拟机数量有30多台。在项目三期里预计将增加十几块刀片,虚拟机的数量达到300多个。EMC RecoverPoint可利用多个恢复点将应用程序即时恢复到特定时间点,从而提供连续数据保护,这一点可以很好满足客户对业务连续性、数据安全性方面的高要求。
横向扩展存储专家EMC Isilon具备极高的存储处理通量,部署简单而又具有高扩展性。它能够加速用户对数字内容和非结构化数据的存取,极大地减少存储系统的复杂性,降低存储成本,同时可线性扩展其性能和容量,是易班用于存储海量非结构化数据的优先选择。
另外,由 EMC、Cisco、VMware 三方联盟所提供的最优化IT 基础设施VCE构架参考方案,VCE构架吞吐量比盘柜的更大,服务器和阵列之间的交换速率能达4GB/s,这样的处理速度,是易班之前无法达到的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
PowerBI 累计曲线制作指南:从 DAX 度量到可视化落地 在业务数据分析中,“累计趋势” 是衡量业务进展的核心视角 —— 无论是 “ ...
2025-08-15Python 函数 return 多个数据:用法、实例与实战技巧 在 Python 编程中,函数是代码复用与逻辑封装的核心载体。多数场景下,我们 ...
2025-08-15CDA 数据分析师:引领商业数据分析体系构建,筑牢企业数据驱动根基 在数字化转型深化的今天,企业对数据的依赖已从 “零散分析” ...
2025-08-15随机森林中特征重要性(Feature Importance)排名解析 在机器学习领域,随机森林因其出色的预测性能和对高维数据的适应性,被广 ...
2025-08-14t 统计量为负数时的分布计算方法与解析 在统计学假设检验中,t 统计量是常用的重要指标,其分布特征直接影响着检验结果的判断。 ...
2025-08-14CDA 数据分析师与业务数据分析步骤 在当今数据驱动的商业世界中,数据分析已成为企业决策和发展的核心驱动力。CDA 数据分析师作 ...
2025-08-14前台流量与后台流量:数据链路中的双重镜像 在商业数据分析体系中,流量数据是洞察用户行为与系统效能的核心依据。前台流量与 ...
2025-08-13商业数据分析体系构建与 CDA 数据分析师的协同赋能 在企业数字化转型的浪潮中,商业数据分析已从 “可选工具” 升级为 “核 ...
2025-08-13解析 CDA 数据分析师:数据时代的价值挖掘者 在数字经济高速发展的今天,数据已成为企业核心资产,而将数据转化为商业价值的 ...
2025-08-13解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-08-12MySQL 统计连续每天数据:从业务需求到技术实现 在数据分析场景中,连续日期的数据统计是衡量业务连续性的重要手段 —— 无论是 ...
2025-08-12PyTorch 中 Shuffle 机制:数据打乱的艺术与实践 在深度学习模型训练过程中,数据的呈现顺序往往对模型性能有着微妙却关键的影响 ...
2025-08-12Pandas 多列条件筛选:从基础语法到实战应用 在数据分析工作中,基于多列条件筛选数据是高频需求。无论是提取满足特定业务规则的 ...
2025-08-12人工智能重塑 CDA 数据分析领域:从工具革新到能力重构 在数字经济浪潮与人工智能技术共振的 2025 年,数据分析行业正经历着前所 ...
2025-08-12游戏流水衰退率:计算方法与实践意义 在游戏行业中,流水(即游戏收入)是衡量一款游戏商业表现的核心指标之一。而游戏流水衰退 ...
2025-08-12CDA 一级:数据分析入门的基石 在当今数据驱动的时代,数据分析能力已成为职场中的一项重要技能。CDA(Certified Data Anal ...
2025-08-12破解游戏用户流失困局:从数据洞察到留存策略 在游戏行业竞争白热化的当下,用户流失率已成为衡量产品健康度的核心指标。一款游 ...
2025-08-11数据时代的黄金入场券:CDA 认证解锁职业新蓝海 一、万亿级市场需求下的数据分析人才缺口 在数字化转型浪潮中,数据已成为企业核 ...
2025-08-11DBeaver 实战:实现两个库表结构同步的高效路径 在数据库管理与开发工作中,保持不同环境(如开发库与生产库、主库与从库)的表 ...
2025-08-08t 检验与卡方检验:数据分析中的两大统计利器 在数据分析领域,统计检验是验证假设、挖掘数据规律的重要手段。其中,t 检验和卡 ...
2025-08-08