这个页面跟踪外部软件项目补充Apache火花和增加其生态系统。

添加一个项目,打开一个拉的请求spark-website存储库。将一个条目添加到这个减价文件,然后运行哲基尔构建生成HTML。包括在你的请求。有关更多信息,请参见README的回购。

请注意,所有的项目和产品名称应遵循商标的指导方针

spark-packages.org

spark-packages.org外部,社区管理的第三方库的清单,附件,和应用程序使用Apache火花。您可以添加一个包,只要你有一个GitHub库。

基础设施项目

  • 其他工作服务器Apache火花REST接口来管理和提交火花工作在同一集群。
  • MLbase——机器学习研究项目上的火花
  • Apache便——集群管理系统,支持运行的火花
  • Alluxio(nee速子)——虚拟内存速度运行的分布式存储系统,支持火花
  • FiloDB——一个火花综合分析/柱状数据库,使用内存选项次秒级并发查询的能力
  • 飞艇-多功能笔记本支持20 +语言后端,包括Apache火花
  • EclairJS——允许节点。js代码开发者对火花和数据科学家在Jupyter笔记本使用Javascript。
  • ——Serverless代理火花集群(火花中间件)
  • k8运营商为Apache火花Kubernetes运营商指定和管理Kubernetes Apache火花应用程序的生命周期。
  • IBM谱线——集群管理软件,集成了火花和现代计算框架。
  • 三角洲湖——存储层提供了Apache火花ACID事务和可扩展的元数据处理工作负载。
  • MLflow——开源平台来管理机器学习生命周期,包括部署模型从不同的机器学习库在Apache火花。
  • Apache DataFu跑龙套的集合,用户定义函数在Apache火花处理大规模数据,以及简化Scala-Python互操作性。

应用程序使用火花

  • Apache Mahout——以前在Hadoop MapReduce, Mahout转向了使用火花作为后端
  • Apache MRQL——查询处理和优化系统大规模、分布式数据分析,建立在Apache Hadoop之上,哈马,和火花
  • BlinkDB——一个大规模并行,近似查询引擎之上的鲨鱼和火花
  • 主轴-火花/ Parquet-based网络分析查询引擎
  • Thunderain——一个框架与历史数据流处理相结合,认为λ架构
  • 大羚羊-λ架构在Apache火花,Apache卡夫卡实时大规模机器学习
  • 亚当——一个框架和CLI加载,转换和分析基因组数据使用Apache火花
  • TransmogrifAI——AutoML图书馆构建模块化、可重用、强类型机器学习工作流火花以最小的手上调优
  • 自然语言处理为Apache火花——图书馆提供简单、性能和精确的NLP注释为机器学习管道
  • 轰鸣的Apache火花——JSONiq引擎查询,函数式语言,大,嵌套和异构JSON数据集在dataframes不符合。

性能、监控和调试工具的火花

  • 性能和调试库——库分析火花和PySpark申请提高性能,找到失败的原因
  • 数据力学喜悦——快乐是一个免费的托管、跨平台的火花UI选择支持的一个开源的引发剂。它新指标和可视化功能简化火花监控和性能调优。

额外的语言绑定

c# / net

Clojure

  • clj-spark
  • Geni——一个Clojure dataframe库运行在Apache火花重点优化REPL经验。

Groovy

茱莉亚

芬兰湾的科特林

最新消息

存档

Baidu
map