Skip to main content

Spark

配置Spark

已配置前置组件

  • SFTP
  • YARN
  • HDFS

Spark 配置

参数说明

参数项默认值说明是否必填
spark.driver.extraJavaOptions-Dfile.encoding=UTF-8driver的jvm参数
spark.executor.extraJavaOptions-Dfile.encoding=UTF-8executor的jvm参数
spark.eventLog.compressfalse是否压缩日志
spark.eventLog.dirhdfs://ns1/tmp/logsspark日志存放路径
spark.eventLog.enabledtrue是否记录 Spark 日志
spark.executor.cores1每个执行程序上使用的内核数
spark.executor.heartbeatInterval10s每个执行程序对驱动程序的心跳之间的间隔
spark.executor.instances1启动执行程序进程的实例数
spark.executor.memory1g每个执行程序进程使用的内存量
spark.network.timeout600s所有网络交互的默认超时时长
spark.rpc.askTimeout600sRPC 请求操作在超时之前等待的持续时间
spark.submit.deployModeclusterspark任务提交模式
spark.yarn.appMasterEnv.PYSPARK_PYTHON/data/anaconda3/bin/python3python环境变量路径
spark.yarn.maxAppAttempts4提交申请的最大尝试次数
tip

Spark在自定义参数中添加Spark官方参数来调整任务提交参数信息

更多 Spark 参数项详见官方文档

自定义参数

参数项默认值说明是否必填
sparkPythonExtLibPathhdfs://ns1/dtInsight/spark210/pythons/pyspark.zip
hdfs://ns1/dtInsight/spark210/pythons/py4j-0.10.7-src.zip
pyspark.zip和py4j-0.10.7-src.zip路径
sparkSqlProxyPathhdfs://ns1/dtInsight/spark210/client/spark-sql-proxy.jarspark-sql-proxy.jar路径,用于执行spark sql
sparkYarnArchivehdfs://ns1/dtInsight/spark210/jarsspark jars路径
yarnAccepterTaskNumber3允许的accepter任务数量
caution

sparkSqlProxyPath是Spark SQL任务运行的jar,需要将pluginLibs/yarn2-hdfs2-spark210/spark-sql-proxy.jar 手动上传到HDFS对应的目录
sparkYarnArchive是Spark SQL程序运行时加载的外部包,需要将spark目录下的jar包上传到对应HDFS目录

我们选择的是spark2.1.3 spark3.2.0
TDH、CDH等Hadoop集群 需要根据具体环境实际调整