郑文峰的博客 郑文峰的博客
首页
  • python之路
  • go之路
  • 其他
  • redis
  • mysql
  • docker
  • k8s
读书破万卷
周刊
关于
  • 导航 (opens new window)
  • 代码片段 (opens new window)
  • 收藏
  • 友链
  • 外部页面

    • 开往 (opens new window)
  • 索引

    • 分类
    • 标签
    • 归档
GitHub (opens new window)

zhengwenfeng

穷则变,变则通,通则久
首页
  • python之路
  • go之路
  • 其他
  • redis
  • mysql
  • docker
  • k8s
读书破万卷
周刊
关于
  • 导航 (opens new window)
  • 代码片段 (opens new window)
  • 收藏
  • 友链
  • 外部页面

    • 开往 (opens new window)
  • 索引

    • 分类
    • 标签
    • 归档
GitHub (opens new window)
  • python

  • go

  • 其他

    • 分布式锁
    • 使用hue创建ozzie的pyspark action workflow
    • 使用java开发logstash的filter插件
    • count的性能优化
  • 编程
  • 其他
zhengwenfeng
2022-08-10

使用hue创建ozzie的pyspark action workflow

hue是一个Apache Hadoop ui系统,本篇文章介绍如何使用hue创建一个ozzie的pyspark action的workflow, 该workflow仅包含一个spark action。注意,本文使用的是python语言的pyspark。

  1. 编写一个python操作spark的程序。 demo.py
from pyspark.sql import SparkSession

spark = SparkSession.builder.enableHiveSupport().appName(
"demo").getOrCreate()

# spark 的一些操作
.......

1
2
3
4
5
6
7
8
  1. 新建workflow

传入需要运行的python脚本

  1. 对该action 进行一些属性的配置。

对spark进行设置,可以选择spark的运行模式。 默认使用的是spark1 的库去执行,如果使用的是spark2,则需要设置属性oozie.action.sharelib.for.spark=spark2 如图所示。

进入2设置,进行一些变量的设置 oozie.libpath 需要使用到spark的一些jar包,填入路径jar包路径。

  1. 该workflow已经设置成功,可以对其进行运行进行测试。
#hue#python#大数据
上次更新: 2023/01/15, 15:47:48
分布式锁
使用java开发logstash的filter插件

← 分布式锁 使用java开发logstash的filter插件→

最近更新
01
django rest_framework 分页
03-20
02
学习周刊-第03期-第09周
03-03
03
学习周刊-第02期-第08周
02-24
更多文章>
Theme by Vdoing | Copyright © 2022-2023 zhengwenfeng | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式