火花SQL & DataFrames | Apache火花 -

火花SQL是Apache火花的模块处理结构化数据。

集成

无缝地将SQL查询与火花项目。

火花SQL允许您查询结构化数据引发内部程序,使用SQL或熟悉DataFrame API。可用在Java中,Scala, Python和R。

结果=火花。sql(
“SELECT *的人”)
名称=结果。地图(λp: p.name)

功能应用于SQL查询的结果。

连接到任何数据源相同的方式。

DataFrames和SQL提供一个通用的方法来访问各种数据源,包括蜂巢,Avro,拼花,兽人,JSON, JDBC。你甚至可以加入这些数据源的数据。

火花。read.json(“s3n: / /……”)
.registerTempTable (json)
结果=火花。sql(
””“SELECT *
的人
加入json…””)

查询和加入不同数据源。

在现有运行SQL或HiveQL查询仓库。

火花SQL支持HiveQL语法以及蜂巢并行转换器和udf允许您访问现有的蜂巢仓库。

火花SQL可以使用现有的蜂巢metastores,并行转换器和udf。

通过JDBC、ODBC连接。

服务器模式提供行业标准JDBC、ODBC连接商业智能工具。

使用现有的BI工具来查询大数据。

火花SQL包含一个基于成本的优化器,柱状存储和代码生成查询快。同时,它扩展到数千个节点和多小时查询使用火花引擎,它提供了全面mid-query容错。不要担心历史数据使用不同的引擎。

Apache引发火花SQL开发的一部分。因此获得与每个火花版本测试和更新。

如果你有关于系统的问题,问的火花邮件列表。

火花的SQL开发人员欢迎的贡献。如果你想帮忙,阅读如何导致火花,寄一个补丁!

开始使用SQL火花: