这个页面跟踪外部软件项目补充Apache火花和增加其生态系统。
添加一个项目,打开一个拉的请求spark-website存储库。将一个条目添加到这个减价文件,然后运行哲基尔构建
生成HTML。包括在你的请求。有关更多信息,请参见README的回购。
请注意,所有的项目和产品名称应遵循商标的指导方针。
spark-packages.org
spark-packages.org外部,社区管理的第三方库的清单,附件,和应用程序使用Apache火花。您可以添加一个包,只要你有一个GitHub库。
基础设施项目
- 其他工作服务器Apache火花REST接口来管理和提交火花工作在同一集群。
- MLbase——机器学习研究项目上的火花
- Apache便——集群管理系统,支持运行的火花
- Alluxio(nee速子)——虚拟内存速度运行的分布式存储系统,支持火花
- FiloDB——一个火花综合分析/柱状数据库,使用内存选项次秒级并发查询的能力
- 飞艇-多功能笔记本支持20 +语言后端,包括Apache火花
- EclairJS——允许节点。js代码开发者对火花和数据科学家在Jupyter笔记本使用Javascript。
- 雾——Serverless代理火花集群(火花中间件)
- k8运营商为Apache火花Kubernetes运营商指定和管理Kubernetes Apache火花应用程序的生命周期。
- IBM谱线——集群管理软件,集成了火花和现代计算框架。
- 三角洲湖——存储层提供了Apache火花ACID事务和可扩展的元数据处理工作负载。
- MLflow——开源平台来管理机器学习生命周期,包括部署模型从不同的机器学习库在Apache火花。
- Apache DataFu跑龙套的集合,用户定义函数在Apache火花处理大规模数据,以及简化Scala-Python互操作性。
应用程序使用火花
- Apache Mahout——以前在Hadoop MapReduce, Mahout转向了使用火花作为后端
- Apache MRQL——查询处理和优化系统大规模、分布式数据分析,建立在Apache Hadoop之上,哈马,和火花
- BlinkDB——一个大规模并行,近似查询引擎之上的鲨鱼和火花
- 主轴-火花/ Parquet-based网络分析查询引擎
- Thunderain——一个框架与历史数据流处理相结合,认为λ架构
- 大羚羊-λ架构在Apache火花,Apache卡夫卡实时大规模机器学习
- 亚当——一个框架和CLI加载,转换和分析基因组数据使用Apache火花
- TransmogrifAI——AutoML图书馆构建模块化、可重用、强类型机器学习工作流火花以最小的手上调优
- 自然语言处理为Apache火花——图书馆提供简单、性能和精确的NLP注释为机器学习管道
- 轰鸣的Apache火花——JSONiq引擎查询,函数式语言,大,嵌套和异构JSON数据集在dataframes不符合。
性能、监控和调试工具的火花
- 性能和调试库——库分析火花和PySpark申请提高性能,找到失败的原因
- 数据力学喜悦——快乐是一个免费的托管、跨平台的火花UI选择支持的一个开源的引发剂。它新指标和可视化功能简化火花监控和性能调优。
额外的语言绑定
c# / net
- 默比乌斯:c#和f#语言绑定和扩展Apache火花
Clojure
Groovy
茱莉亚
芬兰湾的科特林