RDD是Spark的重要组件,这次来介绍了一下RDD的定义、和DSM的对比、基本操作以及优缺点。
SparkContext是Apache Spark功能的入口,任何Spark驱动程序应用程序最重要的步骤都是来生成SparkContext,来详细了解一下它。
先在ubuntu下安装一下Spark。
继Hadoop之后,又一项大数据处理利器:Spark出世。来了解一下它。
当数据量变得越来越大,或者处理逻辑变得越来越复杂时,如何优化hive的执行就显得越发重要。 这里有7种优化方式,来依次介绍一下。
Hive 内置了很多函数,可以参考Hive Built-In Functions。
但是有些情况下,这些内置函数还是不能满足我们的需求,这时候就需要UDF出场了。