PGC123

2018-10-19   阅读量: 1066

大数据 Python编程 Hadoop Spark

python写的脚本语言可以直接在hadoop上运行吗

扫码加入数据分析学习群

python写的脚本语言可以直接在hadoop上运行吗?我的意思是Python 写的脚本语言不经任何处理是否可以在Hadoop 上运行,还是说,需要将脚本进行mapreduce转化后才能运行,如果是转化,怎么转化,很难吗?

首先 由于python是应用于单机环境的,因此python脚本如果没有按照Hadoop的模式来编写、部署是不能直接在hadoop上运行的。
MapReduce是hadoop处理数据的引擎(框架),在hadoop上运行的程序都是基于这种框架来编写的。因此Python脚本必须做这样的转换才可以。可以参考一下 pydoop、mrjob 、hadoop streaming、这些框架来对自己代码做转换然后才可以在Hadoop集群上运行。因为是集群模式运行,因此集群中的每个节点都要安装相同的python环境(python解释器+相关的包)。其实可以选择用spark的pyspark ,它提供了更全面的更高级的python接口,开发起来效率更高一些。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
17.3650 2 4 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子