FAQ | Apache火花 -

Apache火花™常见问题解答

火花与Apache Hadoop如何?

火花是一个快速和一般处理引擎兼容Hadoop数据。它可以运行在Hadoop集群通过纱或火花的独立模式,它可以处理数据在HDFS, HBase,卡桑德拉,蜂巢,任何Hadoop InputFormat。它是用来执行批处理(类似于MapReduce)和新的工作负载,如流,交互式查询,和机器学习。

在生产中使用火花是谁?

截至2016年,调查显示,超过1000的组织在生产中使用火花。上列出了其中一些由页面和火花峰会。

集群可以引发规模多大?

许多组织数千个节点的集群上运行的火花。最大的集群,我们知道有8000人。数据大小,火花pb可以工作得很好。它已经被用于100 TB的数据3 x速度比Hadoop MapReduce差不多的机器,赢得2014年代托纳GraySort基准,以及类型1 PB。一些生产工作负载使用火花PBs ETL和数据分析的数据。

我的数据是否需要装入内存使用火花?

不。火花的运营商泄漏数据到磁盘,如果它不适合在内存中,允许它运行在任何大小的数据。同样的,不适合在内存中缓存数据溢出到磁盘或在需要时动态地重新计算,由抽样存储水平。

我如何在集群上运行火花?

您可以使用独立的部署模式,只需要在每个节点上安装Java或便和纱集群管理器。如果你想在Amazon EC2上运行,AMPLab提供EC2脚本自动启动集群。

请注意,您还可以在本地运行火花(可能在多个核)被传递没有任何特殊设置当地[N]作为URL大师,N你想要的是并行线程的数量。

我需要运行Hadoop火花吗?

没有,但是如果你在一个集群上运行,您将需要某种形式的共享文件系统(比如NFS挂载在同一路径上每个节点)。如果你有这种类型的文件系统,您可以在独立模式部署火花。

火花需要Scala或Python的修改版本吗?

不。火花不需要更改或Scala编译器插件。Python API使用标准CPython的实现,可以打电话到现有NumPy等Python C库。

之间的区别是什么引发流和火花结构化流?我应该使用什么?

火花的上一代是流火花的流引擎。有引发流不再更新,这是一个遗留项目。火花流提供了一个高层次的抽象称为离散流或DStream,代表一个连续的数据流。在内部,DStream表示为抽样序列。

火花结构化流是当前一代的火花的流引擎,更丰富的功能,更容易使用,更具有可伸缩性。火花结构化流是建立在火花的SQL引擎,使您能够表达流计算相同的方式表达对静态数据批处理计算。

您应该使用火花结构化构建流媒体应用程序流和管道与火花。如果你有遗留应用程序和管道建立在流,你应该将它们迁移到火花结构化流。

我在哪里可以找到高分辨率版本的火花的标志吗?

我们提供的版本:黑色标志,白色的标志。请注意,火花,Apache火花,火花的标志是Apache软件基金会的商标,并遵循的基础商标政策在所有这些标识的使用。

我可以提供商业软件或服务基于火花?

是的,只要你尊重Apache软件基金会的软件许可证和商标政策。特别注意,有很强的限制第三方产品如何使用“火花”名称(名称基于火花一般是不允许的)。也请参考我们的商标政策汇总。

我怎么能导致火花呢?

看到导致火花维基为更多的信息。

我在哪里可以得到更多的帮助?

请在StackOverflowapache-spark标签或引发用户邮件列表。有关更多信息,请参阅有问题吗?。我们很乐意帮助!