文件传输系列:rsync
SCP 的另一个绝佳替选
什么是 rsync
rsync (remote synchronize) 是一款实现远程同步功能的软件,它在同步文件的同时,可以保持原来文件的权限、时间、软硬链接等附加信息。
rsync 是类 Unix
系统下的数据镜像备份工具。它能同步更新两处计算机的文件与目录,并适当利用差分编码以减少数据传输量。 rsync 中的一项同类软件不常见的重要特性是每个目标的镜像只需发送一次。rsync 可以拷贝/显示目录内容,以及拷贝文件,并可选压缩以及递归拷贝。
rsync 默认监听 TCP
端口 873,以原生 rsync 传输协议或者透过远程 shell
如 RSH
或者 SSH
提供文件。SSH
模式下,rsync 客户端运行程序必须同时在本地和远程机器上安装。
rsync 算法
rsync 的算法如下:(假设源文件名为 fileSrc
,目的文件叫 fileDst
)
分块 Checksum 算法
首先,我们会把 fileDst
的文件平均切分成若干个小块,比如每块 512 个字节,然后对每块计算两个 checksum
,一个叫 rolling checksum
,是弱 checksum
,32 位的 checksum
,其使用的是 Mark Adler 发明的 adler-32
算法,另一个是强 checksum
,128 位的,以前用 md4
,现在用 md5
。为什么要这样?因为若干年前的硬件上跑 md4
的算法太慢了,所以,需要一个快算法来鉴别文件块的不同,但是弱的 adler-32
算法碰撞概率太高了,所以我们还要引入强的 checksum
算法以保证两文件块是相同的。也就是说,弱的 checksum
是用来区别不同,而强的是用来确认相同。
传输算法
同步目标端会把 fileDst
的一个 checksum
列表传给同步源,这个列表里包括了三个东西,rolling checksum
(32bits),md5 checksume
(128bits),文件块编号
。同步源机器拿到了这个列表后,会对 fileSrc
做同样的 checksum
,然后和 fileDst
的 checksum
做对比,这样就知道哪些文件块改变了。
但是
如果我 fileSrc
这边在文件中间加了一个字符,这样后面的文件块都会位移一个字符,这样就完全和 fileDst
这边的不一样了,但理论上来说,我应该只需要传一个字符就好了。这个怎么解决?
如果这个 checksum
列表特别长,而两边相同的文件块可能并不是一样的顺序,那就需要查找,线性的查找起来应该特别慢吧。这个怎么解决?
Checksum 查找算法
同步源端拿到 fileDst
的 checksum
数组后,会把这个数据存到一个 hash table
中,用 rolling checksum
做 hash
,以便获得 O(1)
时间复杂度的查找性能。这个 hash table
是 16 bits 的,所以,hash table
的尺寸是 2 的 16 次方,对 rolling checksum
的 hash
会被散列到 0 到 $ 2^{16} – 1 $ 中的某个整数值。
比对算法
-
取
fileSrc
的第一个文件块(我们假设的是 512 个长度),也就是从fileSrc
的第 1 个字节到第 512 个字节,取出来后做rolling checksum
计算。计算好的值到hash
表中查询。 -
如果查到了,说明发现在
fileDst
中有潜在相同的文件块,于是就再比较 · 的checksum
,因为rolling checksume
太弱了,可能发生碰撞。于是还要算md5
的 128 bits 的checksum
,这样一来,我们就有 $2^{-(32+128)} = 2^{-160} $ 的概率发生碰撞,这小到可以忽略。如果rolling checksum
和md5 checksum
都相同,那就可以说明在fileDst
中有相同的块,记下这一块在fileDst
下的文件编号。 -
如果
fileSrc
的rolling checksum
没有在hash table
中找到,那就不用算md5 checksum
了。表示这一块中有不同的信息。总之,只要rolling checksum
或md5 checksum
其中有一个在fileDst
的checksum hash
表中找不到匹配项,那么就会触发算法对fileSrc
的 rolling 动作。于是,算法会住后 step 1 个字节,取fileSrc
中字节 2-513 的文件块要做checksum
,然后继续第一步 – 这就是为什么叫rolling checksum
。 -
这样,我们就可以找出
fileSrc
相邻两次匹配中的那些文本字符,这些就是我们要往同步目标端传的文件内容了。
Rolling Checksum 算法
rolling checksum 算法也叫 Rabin-Karp
算法,由 Richard M. Karp 和 Michael O. Rabin 在 1987 年发表,它用来解决多模式串匹配问题。其最大的精髓是,当往后面 step 1 个字符的时候,不用全部重新计算所有的 checksum
,也就是说,从 [0, 512] rolling 到 [1, 513] 时,不需要重新计算从 1 到 513 的 checksum
,而是重用 [0,512] 的 checksum
直接算出来。
其公式可以表示为:
|
|
其中的 b 是一个常数基数,在 Rabin-Karp 算法中,一般取值为 256。
于是,在计算 hash ( t[1, m] ) 时,只需要下面这样就可以了:
|
|

最终,得到的数据组可以想象为 BT 协议下载 torrent :一些文件块已下载(匹配上),其他的文件块还未下载(未匹配上)。然后,同步端将这些未匹配上的文件打上标号发送,目的端根据标号重组文件就完成了同步。
使用 rsync
|
|
对应于以上六种命令格式,rsync
有六种不同的工作模式:
-
拷贝本地文件。当
SRC
和DES
路径信息都不包含有单个冒号 “:” 分隔符时就启动这种工作模式。如:rsync -a /data/backup
-
使用一个远程
shell
程序 (如 rsh、ssh) 来实现将本地机器的内容拷贝到远程机器。当DST
路径地址包含单个冒号 “:” 分隔符时启动该模式。如:rsync -avz *.c foo:src
-
使用一个远程
shell
程序 (如rsh
、ssh
) 来实现将远程机器的内容拷贝到本地机器。当SRC
地址路径包含单个冒号 “:” 分隔符时启动该模式。如:rsync -avz foo:src/bar/data
-
从远程
rsync
服务器中拷贝文件到本地机。当SRC
路径信息包含 “::” 分隔符时启动该模式。如:rsync -av root@192.168.78.192::www /databack
-
从本地机器拷贝文件到远程
rsync
服务器中。当DST
路径信息包含 “::” 分隔符时启动该模式。如:rsync -av /databack root@192.168.78.192::www
-
列出远程主机的文件列表。这类似于
rsync
传输,不过只要在命令中省略掉本地机信息即可。如:rsync -v rsync://192.168.78.192/www
可用选项如下:
|
|
参考
-
[2] RSYNC 的核心算法
-
[3] rsync wikipedia
-
[4] rsync command