spark自定义数据源 mysql作为数据源可否直接用spark处理?

mysql作为数据源可否直接用spark处理?谢谢。Spark通过JDBC从RDB查询数据源。不过,Spark对JDBC的支持也是一个渐进的演进过程,关键是1.3版的引入,也就是数据帧。在1.3之前,

mysql作为数据源可否直接用spark处理?

谢谢。Spark通过JDBC从RDB查询数据源。不过,Spark对JDBC的支持也是一个渐进的演进过程,关键是1.3版的引入,也就是数据帧。在1.3之前,spark使用JDBCRDD处理对JDBC的查询。它实现了标准的RDD接口,如分区和计算。但对很多用户来说太复杂了。从1.3开始,您可以直接用DF接口做同样的事情。例如,下面的代码可以完成一个RDB表的查询

如您所见,无论数据源(hive、parquet,甚至NoSQL)的数据来自何处,在引入数据帧后,其代码都非常相似,结果就是数据帧,您可以尽可能地将它们混合在一起。至于dataframe如何支持多个数据源以及如何优化它们,我将再次讨论源代码。