需要有关学习Spark的建议

时间:2016-03-18 05:28:01

标签: apache-spark

我最近接到了大数据技术高级职位的电话,其中spark是他们计划采用的首选技术之一。当然,我想在加入之前学习它。

我的台式机有 8 Gigs of Ram和2个内核。我想下载 HDP Cloudera 提供的预建虚拟机,但显然我的处方资源不足。

您能否建议我可以通过任何方式学习一些关于spark的练习测试,以及如何获得所需的基础设施。

请帮忙

2 个答案:

答案 0 :(得分:2)

请结帐bigdatauniversity.com

有两个免费 Spark课程可以帮助您入门。

http://bigdatauniversity.com/courses/spark-fundamentals/

在课程结束时,您将获得3次通过认证考试的尝试,该测试将为您颁发开放式徽章。

除此之外,课程中的实验包括容器图像的说明,这些图像的打印量小于实际的VM。 我希望它有所帮助。

谢谢, 查尔斯。

答案 1 :(得分:1)

关于基础设施,我们可以在本地设置和运行spark程序。创建一个maven项目并添加以下依赖项和插件。它们不是在集群上执行作业,而是在本地计算机上执行。 将主配置提供为本地[K]。使用K核心在本地运行火花。

<build>
    <plugins>
        <plugin>
            <groupId>net.alchim31.maven</groupId>
            <artifactId>scala-maven-plugin</artifactId>
            <version>3.1.0</version>
            <configuration>
                <recompileMode>incremental</recompileMode>
                <useZincServer>true</useZincServer>
            </configuration>
            <executions>
                <execution>
                    <id>compile</id>
                    <goals>
                        <goal>compile</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>

<dependencies>
    <!-- Scala and Spark dependencies -->
    <dependency>
        <groupId>org.scala-lang</groupId>
        <artifactId>scala-library</artifactId>
        <version>2.10.0</version>
    </dependency>
    <dependency>
        <groupId>org.scala-lang</groupId>
        <artifactId>scala-reflect</artifactId>
        <version>2.10.0</version>
    </dependency>

    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.10</artifactId>
        <version>1.4.0</version>
    </dependency>

    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_2.10</artifactId>
        <version>1.4.0</version>
    </dependency>

    <dependency>
        <groupId>org.scalatest</groupId>
        <artifactId>scalatest_2.11</artifactId>
        <version>2.2.4</version>
    </dependency>

可以找到具有依赖关系的示例项目here