前言
虽然在本地服务器安装 Anaconda 就可以跑深度学习运算,但是有时候我们的开发环境并不只有 Python。如果我们要复现论文中的模型或者 Github 上的代码时,我们可能需要按照它的要求安装指定版本的 GCC 及其它特定版本的开发包。久而久之,系统就会变得臃肿。
“闲来无聊”,搭建 Hadoop 集群来玩玩。
先来说说 Hadoop 的起源吧。在 2004 - 2005 年, Doug Cutting 受到 Google 所发表的 Google File System 和 MapReduce 论文思想启发而编写 Nutch 项目。2006 年,从 Nutch 中转移出 MapReduce 和 HDFS 组成 Hadoop 项目。后来经过多年的发展, Hadoop 已经成了一个非常丰富的生态系统。Hadoop 中最核心的两部分分别是: MapReduce 和 HDFS 。MapReduce 是并行处理框架,实现任务分解和调度。HDFS 是分布式文件系统,存储海量的数据。
在 Hadoop 官方文档中,Hadoop 有三种方式,分别是本地模式、伪分布式和完全式分布式集群。下面我搭建的是完全式分布式集群。
Samba,是种用来让 UNIX 系列的操作系统与微软 Windows 操作系统的 SMB/CIFS( Server Message Block/Common Internet File System ) 网络协议做链接的自由软件。第三版不仅可访问及分享 SMB 的文件夹及打印机,本身还可以集成入 Windows Server 的网域,扮演为网域控制站( Domain Controller )以及加入 Active Directory 成员。简而言之,此软件在 Windows 与 UNIX 系列操作系统之间搭起一座桥梁,让两者的资源可互通有无。
以上摘自 Wikipedia 。总的来说,在局域网中, Samba 是用来当作共享盘的。