Apache火花<年代p一个n class="tm">™年代p一个n>例子
这些例子给火花API的一个简短的概述。引发的概念是建立在分布式数据集,其中包含任意Java、Python对象。从外部数据创建一个数据集,然后运用并行操作。火花API是它的构建块<一个href="//www.leiyimei360.com/docs/latest/rdd-programming-guide.html">抽样API一个>。在抽样的API中,有两种类型的操作:转换,这在之前的基础上,定义一个新的数据集行动开始工作,执行一个集群。火花的抽样API之上,高水平提供了API,例如。<一个href="//www.leiyimei360.com/docs/latest/sql-programming-guide.html">DataFrame API一个>和<一个href="//www.leiyimei360.com/docs/latest/mllib-guide.html">机器学习API一个>。这些高级api提供一种简洁的方式进行一定的数据操作。在这个页面中,我们将展示使用抽样API示例以及使用高级API示例。
抽样API的例子
字数
在这个例子中,我们使用一些转换构建一个数据集(String、Int)对的计数
然后将其保存到一个文件。
π估计
火花也可以用来计算密集型任务。这段代码估计<年代p一个n style="font-family: serif; font-size: 120%;">π年代p一个n>通过“掷飞镖”循环。我们选择随机点在单位平方((0,0)(1,1)),看看有多少落在单位圆。分数应该<年代p一个n style="font-family: serif; font-size: 120%;">π/ 4年代p一个n>,所以我们用它来估计。
DataFrame API的例子
在火花,<一个href="//www.leiyimei360.com/docs/latest/sql-programming-guide.html">DataFrame一个>是一个分布式数据组织成命名列的集合。用户可以使用DataFrame API来执行各种关系操作外部数据源和火花的内置分布式集合不提供处理数据的具体过程。同时,项目基于DataFrame API将由火花的内置优化器,自动优化催化剂。
文本搜索
在这个例子中,我们搜索一个日志文件中的错误消息。
简单的数据操作
在这个例子中,我们读到一个表存储在一个数据库和计算每个时代的人数。最后,我们将计算结果保存到S3的JSON格式。一个简单的示例中使用的MySQL表“人”这个表有两列,“名字”和“年龄”。
机器学习的例子
MLlib一个>,火花的机器学习(ML)库,提供了许多分布式ML算法。这些算法任务,如特征提取、分类、回归、聚类、建议等等。MLlib还提供了工具,如毫升管道构建工作流,CrossValidator调优参数,模型的持久性保存和加载模型。
与逻辑回归预测
在这个例子中,我们把标签和特征向量的数据集。我们学会预测标签使用逻辑回归算法从特征向量。
附加的例子
许多额外的例子与火花分布:
- 基本的火花:<一个href="https://github.com/apache/spark/tree/master/examples/src/main/scala/org/apache/spark/examples">Scala的例子一个>,<一个href="https://github.com/apache/spark/tree/master/examples/src/main/java/org/apache/spark/examples">Java示例一个>,<一个href="https://github.com/apache/spark/tree/master/examples/src/main/python">Python示例一个>火花流:<一个href="https://github.com/apache/spark/tree/master/examples/src/main/scala/org/apache/spark/examples/streaming">Scala的例子一个>,<一个href="https://github.com/apache/spark/tree/master/examples/src/main/java/org/apache/spark/examples/streaming">Java示例一个>