0%

在统计学中,线性回归(linear regression)是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归(multivariable linear regression)

阅读全文 »

Docker 是个很好用的东西,你可以把它类比为虚拟机,但它比虚拟机更轻量,虚拟所带来的性能损失更低。在容器内(可以类比为虚拟系统)可以安装任意版本工具和依赖包,在配置开发环境过程中出现问题,直接删除容器就好。

阅读全文 »

动态链接库( so 的全称为 Shared Object,因此也称共享库)在 Linux 下用 C++ 经常碰到。当多个程序使用同一个动态链接库时,既能将代码复用,又能节约可执行文件的大小,而且还能减少运行时的内存占用。不仅如此,除了能给 C++ 调用,动态链接库还能给其他编程语言调用,比如 Python,简直完美。

阅读全文 »

“闲来无聊”,搭建 Hadoop 集群来玩玩。

先来说说 Hadoop 的起源吧。在 2004 - 2005 年, Doug Cutting 受到 Google 所发表的 Google File System 和 MapReduce 论文思想启发而编写 Nutch 项目。2006 年,从 Nutch 中转移出 MapReduce 和 HDFS 组成 Hadoop 项目。后来经过多年的发展, Hadoop 已经成了一个非常丰富的生态系统。Hadoop 中最核心的两部分分别是: MapReduce 和 HDFS 。MapReduce 是并行处理框架,实现任务分解和调度。HDFS 是分布式文件系统,存储海量的数据。

在 Hadoop 官方文档中,Hadoop 有三种方式,分别是本地模式、伪分布式和完全式分布式集群。下面我搭建的是完全式分布式集群。

阅读全文 »

由于疫情的缘故,公司决定分一部分员工上班,一部分员工在家工作。而我的上级领导安排我们两人一组共两组轮流上班,实际上我们组就我一个人,也就是说我是一个人值班。不过话又说回来,这样隔天上班的方式,今天在公司写代码,明天在家写代码。代码复制来复制去的,相当麻烦。本来打算托管在 GitHub 上面的,奈何访问速度实在是感人,遂放弃。而至于国内的代码托管平台,访问速度虽然很快,但是对其印象不好,所以也不考虑了。后来想了想,我自己家庭网路就有公网 IP 地址,还有动态域名。所以干脆在自己的 OpenWrt 上面部署 Git 服务。

阅读全文 »