MapReduce很强大,但是对于不会JAVA的一些数据库开发者,还是不太友好。所以Hive出现了,它可以将SQL解析成为MapReduce程序,既降低了SQL开发者的入门成本,又可享受MapReduce强大的计算能力。
今天因为工作需要,拿到了一个dockerfile和一份代码,然后要让代码在docker里跑起来。然而自己之前没有接触docker,所以快速的学习了一下,这里做个总结。
Yarn是Hadoop 2.x版本后,抽象出来的新的资源管理层,它关注的事情更加集中:资源管理。
Hadoop中的MapReduce中,有两个主要的步骤,一个是map,一个是reduce。
在任务运行时,我们又常说启动了多个mapper,多少个reducer。
那么map和mapper的区别,reduce和reducer到底有什么区别?该怎么区分它们呢?
Hadoop中的MapReduce有个一个很实用的机制,叫做分布式缓存(Distributed cache)。
那它是什么?怎么用?有什么特点和注意点?
HDFS是hadoop重要的组件之一,对其进行数据的读写是很常见的操作,然而真的了解其读写过程吗?