考试中心
CDA网校
CDA社区
CDA竞赛
CDA技术答疑
CDA会员
CDA产品
大数据与人工智能实验室
好学AI
(下一代智能学习产品)
CDA网校
CAIE人工智能工程师认证
首页
资讯
动态
认证考试
企业内训
搜索
登录
首页
精彩阅读
海纳百川 有容乃大:SparkR与Docker的机器学习实战
海纳百川 有容乃大:SparkR与Docker的机器学习实战
2016-03-25
收藏
本文由
CDA作者
库成员HarryZhu原创,并授权发布。
CDA作者库
凝聚原创力量,只做更有价值的分享。
了解详情请微信添加
trasn863
,或发送邮件至
songpeiyang@pinggu.org
题图为美国尼米兹核动力航空母舰
介 绍
大数据
时代,我们常常面对海量数据而头疼。作为学统计出身的人,我们想折腾大数据但又不想学习
Hadoop
或者Java,我们更倾向于把精力放在
建模
和算法设计上,
SparkR
和Docker的完美结合,让R的计算直接从一架战斗机的当兵作战华丽转变为一个航空母舰战斗群!不仅仅简化了
分布式计算
的操作,还简化了安装部署的环节,我们只几乎不需要做什么改动就可以直接运用R中的data frame进行分布式的计算。
什么是SparkR
参考前文 打造大数据产品:Shiny的Spark之旅,我们可以知道,SparkR是一个为R提供了轻量级的Spark前端的R包。 SparkR提供了一个分布式的data frame数据结构,解决了 R中的data frame只能在单机中使用的瓶颈,它和R中的data frame 一样支持许多操作,比如select,filter,aggregate等等。(类似dplyr包中的功能)这很好的解决了R的大数据级瓶颈问题。 SparkR也支持分布式的
机器学习
算法,比如使用MLib
机器学习
库。
什么是Docker
参考前文 打造数据产品的快速原型:Shiny的Docker之旅,我们也可以知道,Docker是一种类似于
虚拟机
的技术,主要解决标准化快速部署的问题,在Docker中安装的软件和主机中的软件可以完全隔离,并通过Daocloud或者hub.
docker
.com等云服务快速建立Docker仓库,快速复用Docker镜像。Docker已经不仅仅是DevOps人员手中的神器了,每一个开发者都应该学会如何使用Docker。
为什么要结合SparkR和Docker
SparkR的精髓在于
分布式计算
,而Docker的精髓在于标准容器的拓展性,SparkR和Docker的组合充分结合了二者各自的优点,将分布式应用底层化繁为简,为高层计算直接暴露接口,给科学计算节省了大量时间。
部署
本文将通过Docker讲解如何快速部署SparkR-RStudio容器,并通过一些简单的
机器学习
例子展示如何使用这个航母级别的组合拳。
步骤一:安装Docker和Daocloud
由于国内的镜像质量不够高,国外的镜像下载速度比较慢,出于试验的考虑,建议大家可以尝试使用Daocloud的镜像加速服务。
首先,我们需要在Daocloud注册一个账号,然后选择镜像加速,根据指示选择主机并安装Docker和Daocloud加速器。
步骤二:安装Spark-RStudio
感谢 vinicius85 在GitHub上的开源贡献,为我们已经做好了 Spark1.6+R+RStduio的镜像,我们利用daocloud加速拉取镜像。
以daemon形式运行容器,暴露Rstudio-server默认的8787端口, 并持久化
docker
内的/srv目录下的所有文件作为通讯。
步骤三:配置RStudio登陆账号
参考前文
R语言
工程化实践:RStudio Server环境快速配置教程
我们设置一下RStudio-Server的账号密码
步骤四:登陆RStudio
比如:
查看资源占用情况
机器学习
示例
出于演示的考虑,这里引用并稍微改进了 tcosta 完成的一个
逻辑回归
的例子:
初始化
使用SparkR之前,我们需要确定,我们的容器内存要在2G以上,如果用AWS的乞丐版套装,马上就会报内存不足的错误。
如果内存不足,可以退出
docker
并且在
虚拟机
中重新提高
docker
的内存和cpu的配置。
逻辑回归
模型评估
Harry Zhu
,擅长用Python和R进行
数据建模
、定量研究,目前就职于量子金服(Quantum Financial Service)。微信号:harryzhustudio
欢迎关注个人主页:
https://github.com/harryprince
https://segmentfault.com/u/harryprince
docker
机器学习
大数据
逻辑回归
分布式计算
虚拟机
Hadoop
数据建模
数据分析咨询请扫描二维码
上一篇
图论在大数据分析中的作用!
下一篇
CDA认证再升一档!与国家共同推进大数据人才培养标准教育事业!
考试指南
考试介绍
考试大纲
考试内容
考试地点
报考指南
报考流程
考试时间
报名费用
联系我们
热门栏目
考试动态
报考指南
复习备考
职业发展
直播公开课
经验分享
客服
在线
立即咨询