博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Ubuntu下使用Python开发Spark程序
阅读量:2490 次
发布时间:2019-05-11

本文共 2539 字,大约阅读时间需要 8 分钟。

1、安装配置好Spark环境,确认执行Spark目录下的/bin/pyspark能够成功进入。

2、安装anaconda2

https://www.anaconda.com/download/#linux

bash  Anaconda2-5.0.1-Linux-x86_64.sh

3、sudo pip install pyspark

4、进入jupyter notebook,编写程序测试

基本上SparkContext那句不报错就说明已经能够启动Spark

附上环境变量:

# /etc/profile: system-wide .profile file for the Bourne shell (sh(1))# and Bourne compatible shells (bash(1), ksh(1), ash(1), ...).export JAVA_HOME=/usr/lib/jvm/java-8-oracleexport JRE_HOME=$JAVA_HOME/jreexport CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATHexport PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$HIVE_HOME/bin:$PATHexport HADOOP_HOME=/home/chenjie/hadoop-2.6.5#export HADOOP_HOME=/home/chenjie/hadoop-2.6.5-netexport CLASSPATH=.:$HADOOP_HOME/lib:$CLASSPATHexport PATH=$PATH:$HADOOP_HOME/binexport PATH=$PATH:$HADOOP_HOME/sbinexport HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_COMMON_HOME=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEexport YARN_HOME=$HADOOP_HOMEexport HADOOP_ROOT_LOGGER=INFO,consoleexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/nativeexport HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"#scalaexport SCALA_HOME=/home/chenjie/scala-2.10.4export PATH=${SCALA_HOME}/bin:$PATH#sparkexport SPARK_HOME=/home/chenjie/spark-1.6.0-bin-hadoop2.6#export SPARK_HOME=/home/chenjie/spark-1.6.0-bin-hadoop2.6-netexport PATH=${SPARK_HOME}/bin:${SPARK_HOME}/sbin:$PATH#Flumeexport FLUME_HOME=/home/chenjie/apache-flume-1.5.0-binexport FLUME_CONF_DIR=$FLUME_HOME/confexport PATH=.:$PATH::$FLUME_HOME/bin#hiveexport HIVE_HOME=/home/chenjie/apache-hive-2.3.0-binexport PATH=$PATH:$HIVE_HOME/bin#sqoopexport SQOOP_HOME=/home/chenjie/sqoop-1.4.6.bin__hadoop-2.0.4-alphaexport PATH=$PATH:$SQOOP_HOME/binexport SQOOP_SERVER_EXTRA_LIB=$SQOOP_HOME/extra#mavenexport PATH=$PATH:/home/chenjie/apache-maven-3.5.0/bin#export PYTHONPATH=/home/chenjie/spark-1.6.0-bin-hadoop2.6/pythonexport PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATHexport PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9.0-src.zip:$PYTHONPATHPYSPARK_DRIVER_PYTHON=ipython  PYSPARK_DRIVER_PYTHON_OPTS='notebook' if [ "$PS1" ]; then  if [ "$BASH" ] && [ "$BASH" != "/bin/sh" ]; then    # The file bash.bashrc already sets the default PS1.    # PS1='\h:\w\$ '    if [ -f /etc/bash.bashrc ]; then      . /etc/bash.bashrc    fi  else    if [ "`id -u`" -eq 0 ]; then      PS1='# '    else      PS1='$ '    fi  fifi# The default umask is now handled by pam_umask.# See pam_umask(8) and /etc/login.defs.if [ -d /etc/profile.d ]; then  for i in /etc/profile.d/*.sh; do    if [ -r $i ]; then      . $i    fi  done  unset ifi

你可能感兴趣的文章
文件拷贝(IFileOperation::CopyItem)
查看>>
MapReduce的 Speculative Execution机制
查看>>
大数据学习之路------借助HDP SANDBOX开始学习
查看>>
Hadoop基础学习:基于Hortonworks HDP
查看>>
为什么linux安装程序 都要放到/usr/local目录下
查看>>
Hive安装前扫盲之Derby和Metastore
查看>>
永久修改PATH环境变量的几种办法
查看>>
大数据学习之HDP SANDBOX开始学习
查看>>
Hive Beeline使用
查看>>
Centos6安装图形界面(hdp不需要,hdp直接从github上下载数据即可)
查看>>
CentOS7 中把yum源更换成163源
查看>>
关于yum Error: Cannot retrieve repository metadata (repomd.xml) for repository:xxxxxx.
查看>>
linux下载github中的文件
查看>>
HDP Sandbox里面git clone不了数据(HTTP request failed)【目前还没解决,所以hive的练习先暂时搁置了】
查看>>
动态分区最佳实践(一定要注意实践场景)
查看>>
HIVE—索引、分区和分桶的区别
查看>>
Hive进阶总结(听课总结)
查看>>
大数据领域两大最主流集群管理工具Ambari和Cloudera Manger
查看>>
Sqoop往Hive导入数据实战
查看>>
Mysql到HBase的迁移
查看>>