火花读取分割数据在 S3 部分在冰川

我在 S3 中的实木复合地板中有一个按日期 (dt) 划分的实木复合地板数据集, 最古老的日期存储在 AWS 冰川中, 以节省一些资金。例如, 我们有..。 s3://my-bucket/my-dataset/dt=2017-07-01/ [in glacier] ... s3://my-bucket/my-dataset/dt=2017-07-09/ [in glacier] s3://my-bucket/my-dataset/dt=2017-07-10/ [not in glacier] ... s3://my-bucket/my-dataset/dt=2017-07-24/ [not in glacier] 我想阅读此数据集, 但只阅读尚未在冰川中的日期子集, 例如: val from = "2017-07-15" val to = "2017-08-24" val path = "s3://my-bucket/my-dataset/" val X = spark.read.parquet(path).where(col("dt").between(from, to)) ……

共4个回答, 标签: apache-spark amazon-s3 partitioning amazon-glacier
使用 Spark 将 CSV 内容读取为 null

我试图读取 CSV 文件,以便使用 Spark SQL 查询它。CSV 如下所示: 16; 10; 9/6/2018 CSV 文件不包含标题,但是我们知道第一列是部门代码,第二列是构建代码,第三列是 m/d/YYYY 格式的日期。 我编写了以下代码来使用自定义模式加载 CSV 文件: Sch StructType = 数据类型.createStructType (新 StructField [] { 数据类型。 create structfield (“department”,数据类型。整数类型,true), 数据类型。 create structfield (“构建”,数据类型。整数类型,false), 数据类型。 create structfield (“date”,数据类型。 date type,true), }); 数据集 csvLoad = sparkSession.read ().format (“csv”) 。选项 (“分隔符”,“;”) 。模式 (sch) 。选项 (“标题” 、 “false”) 。Load (filfilepath); 显示 (2); 当我使用csvLoa ……

共2个回答, 标签: java apache-spark
火花是否优化了在垃圾公园中相同但独立的 Dag?

请考虑以下垃圾公园代码 def transformed_data(spark): df = spark.read.json('data.json') df = expensive_transformation(df) # (A) return df df1 = transformed_data(spark) df = transformed_data(spark) df1 = foo_transform(df1) df = bar_transform(df) return df.join(df1) 我的问题是: 在中优化的操作是否定义为 (A), transformed_data final_view 因此只执行一次? 请注意, 此代码不等效于 df1 = transformed_data(spark) df = df1 df1 = foo_transform(df1) df = bar_transform(df) df.join(df1) (至少从 Python 的角度来看, id(df1) = id(df) 在这种情况下。 更广泛的问题是: 在优化两个 ……

共1个回答, 标签: apache-spark pyspark
如何在 spark 2.4 中使用 jdbc 运行 “从表中删除”?

我正在使用这样的代码: Spark.read.format (“jdbc”).options (Map (“url”-> “jdbc: url”) 我需要用一个删除自. ……

共0个回答, 标签: scala apache-spark