spark自定义数据源 mysql作为数据源可否直接用spark处理？

2021-03-17

1635

mysql作为数据源可否直接用spark处理？谢谢。Spark通过JDBC从RDB查询数据源。不过，Spark对JDBC的支持也是一个渐进的演进过程，关键是1.3版的引入，也就是数据帧。在1.3之前，

mysql作为数据源可否直接用spark处理？

谢谢。Spark通过JDBC从RDB查询数据源。不过，Spark对JDBC的支持也是一个渐进的演进过程，关键是1.3版的引入，也就是数据帧。在1.3之前，spark使用JDBCRDD处理对JDBC的查询。它实现了标准的RDD接口，如分区和计算。但对很多用户来说太复杂了。从1.3开始，您可以直接用DF接口做同样的事情。例如，下面的代码可以完成一个RDB表的查询

如您所见，无论数据源（hive、parquet，甚至NoSQL）的数据来自何处，在引入数据帧后，其代码都非常相似，结果就是数据帧，您可以尽可能地将它们混合在一起。至于dataframe如何支持多个数据源以及如何优化它们，我将再次讨论源代码。

mysql作为数据源可否直接用spark处理？

相关推荐