Rsync企业实战之自动异地备份

认真的测试过网上的大多数文章和版本,真正能一次性测试通过的文章太少了,需要反复的推敲,反复的查阅资料,才能真正的测试成功,所以,在此背景下,总结了Rsync,加上自己的理解分享出来;

1、 原理篇

Rsync,故名思议,是一个远程数据同步工具,可以镜像整个目录树和文件系统,也可以保持源文件的权限,时间和软硬链接,可以优化数据,文件重复数据的删除,也可以在LAN/WAN之间快速的同步多台主机的数据,这主要得益于Rsync的压缩和Rsync的核心算法,其算法,是本地和远程两台主机之间的文件达到同步并保持一致,并且只传送两个文件的不同部分,而不是整个数据进行传送,所以,速度非常快;

一个Rsync server能够同时备份多个客户端数据,也可以一个客户端备份多个Rsync server的数据;

Rsync 支持搭配scp,ssh和daemon模式,默认端口是873,当第一次连接的时候,会对数据进行完整备份,之后的所有备份,都是进行增量备份,只备份又变化的数据;

Rsync只支持单向备份,不支持双向,如果需要双向同步的,可以使用Unison;如果需要实时同步的,可以结合Rsync+inotify;

Rsync服务以只读方式提供要备份的数据,避免破坏生产环境的数据;


在这里,有必要对Rsync的核心算法,进行讲解:

假定在名为 α 和 β 的两台计算机之间同步相似的文件 A 与 B,其中 α 对文件A拥有访问权,β 对文件 B 拥有访问权。并且假定主机 α 与 β 之间的网络带宽很小。那么 Rsync 算法将通过下面的五个步骤来完成:

β 将文件 B 分割成一组不重叠的固定大小为 S 字节的数据块。最后一块可能会比 S 小。  
β 对每一个分割好的数据块执行两种校验:一种是32位的滚动弱校验,另一种是128位的 MD4 强校验。    
β 将这些校验结果发给 α。    
α 通过搜索文件 A 的所有大小为 S 的数据块(偏移量可以任选,不一定非要是 S 的倍数),来寻找与文件B 的某一块有着相同的弱校验码和强校验码的数据块。这项工作可以借助滚动校验的特性很快完成。    
α 发给 β 一串指令来生成文件 A 在 β 上的备份。这里的每一条指令要么是对文件 B 经拥有某一个数据块而不须重传的证明,要么是一个数据块,这个数据块肯定是没有与文件 B 的任何一个数据块匹配上的。

Rsync适用于linux、solaris和bsd,在windows平台下,有cwRsync。

本文,将以Linux的Rsync和以window的cwRsync为例讲解。

2、 Rsync服务端

2.1、 安装

源码安装

下载rsync服务端程序,

tar zxvf rsync-2.6.9.tar.gz

cd rsync-2.6.9

./configure --prefix=/usr/local/rsync

make

make install

rpm安装

yum install rsync

本文以yum来安装

2.2、 服务器运行模式

模式选择

对于负载比较重的,选择独立服务启动

对于负载比较轻的,选择以xinet.d启动,选择此模式,记得要安装xinet.d (yum install xinet.d)

独立运行模式

/usr/bin/rsync --daemon --config=/etc/rsyncd.conf (本例选择此方法)

如果需要系统开机启动,可以把上面命令加入到/etc/rc.local文件中。

2.3、 服务器配置

创建配置文件和口令文件

touch /etc/rsyncd.conf 主要配置文件

touch /etc/rsync.pas 口令文件,此文件需要注意客户端和服务器端的格式,后续会讲解

关于配置文件rsyncd.conf讲解

Rsync的配置文件,分为两个部分,全局配置和模块配置,

#全局设置

uid = root 指定模块以root用户来传输文件,如果匿名用户的话,这里填写nobody

gid = root 指定模块以root用户组来传输文件,如果匿名传输的话,这里填写nobody

use chroot = yes 设置为YES,表示在传输文件之前,定位到根目录下,即PATH指定的目录,这样做,主要是出于安全考虑

pid file = /var/run/rsyncd.pid Rsync守护进程把其PID写入的文件

lock file = /var/run/rsync.lock 指定支持max connections的锁文件

log file = /var/log/rsyncd.log 指定Rsync守护进程产生的日志文件,而不是传送给syslog

#模块设置

[Jindie] 模块名称,后续上传下载文件配置时,直接使用此名称名来指定

path = /sda1/JDdatabase 指定此模块的根目录,即文件上传下载都是在此目录下进行

ignore errors 指定在 rsync 服务器上运行 delete 操作时是否忽略 I/O 错误

read only = false 指定是否允许上传,false代表允许上传。

write only = false 指定是否允许下载,false代表允许下载。

list = true 指定当客户请求列出可以使用的模块,该模块是否被列出。如果false,可以创建隐藏的模块。

hosts allow = 192.168.1.65 指定哪些客户端可以访问连接此模块,可以指定单个IP,整个网段,比如此例为单个IP

hosts deny = 0.0.0.0/0 指定哪些客户端不允许连接此模块,此例为0.0.0.0/0网段,代表整个网络

通常表示客户端表示方式,有如下:

单个IP:192.168.1.65

网段IP:192.168.1.0/24

可解析的主机地址:www.baidu.com

域内主机:*.wine9.com

所有主机:*

多个列表项,要用空格隔开;

auth users = xy 指定认证用户名,通常由空格或者逗号分隔用户名列表,只有这些用户可以连接此模块,用户名和密码,以明文形式,保存在口令文件中

syslog facility = local5 指定日志等级,一般指发送给rsyslog的日志等级;

secrets file = /etc/rsync.pas 指定Rsync认证口令文件,只有配置了auth users,此配置才生效,这里要注意客户端和服 务器端的配置格式。

ignore nonreadable 指定 rysnc 服务器完全忽略那些用户没有访问权限的文件,这对于在需要备份的目录中有些不应该被备份者获取的文件时非常有意义

timeout 600 设置客户端连接超时时间,确保服务器不会永远等待一个奔溃的客户端。

dont compress=*.gz 指定哪些文件在传输之前,不需要进行压缩的文件。

max connections = 4 指定此模块最大的并发连接数为4,超过的告知随后再试

exclude指定多个由空格隔开的多个文件或目录(相对路径),并将其添加到 exclude 列表中。这等同于在客户端命令中使用

本页内容版权归属为原作者,如有侵犯您的权益,请通知我们删除。

运维监控平台之ganglia - 2016-08-29 17:08:10

1、ganglia简介 Ganglia 是一款为 HPC(高性能计算)集群而设计的可扩展的分布式监控系统,它可以 监视和显示集群中的节点的各种状态信息,它由运行在各个节点上的 gmond 守护进程来采 集 CPU 、内存、硬盘利用率、 I/O 负载、网络流量情况等方面的数据,然后汇总到 gmetad 守护进程下,使用 rrdtool 存储数据,最后将历史数据以曲线方式通过 PHP 页面呈现。 Ganglia 的特点如下: 良好的扩展性,分层架构设计能够适应大规模服务器集群的需要 负载开销低,支持高并发 广
本文主要介绍zabbix在linux及windows下客户端的安装,网卡流量监控配置。 一、linux客户端安装 1. 编译软件 #useraddzabbix-s/sbin/nologin-M#./configure--prefix=/usr/local/zabbix-agent--enable-agent#makemakeinstall 2. 修改 agetn 配置 Server=127.0.0.1,192.168.115.31#本机即是agent和server127.0.0.1地址不可删除Server
通过定时执行python脚本,可以实现定期批量访问网站,如果发现网站打不开,第一时间发邮件到管理员邮箱进行预警 这里用的是python3.5 需要安装的插件: smtplib:发邮件需要用到 pycurl:访问网站时会需要用到 linecache:在读取txt网站清单时需要用到 具体思路: python程序从txt里面批量读取到网站的信息,通过Curl.py模拟浏览器去访问网站,并且把访问的结果写入到以自己的网站名称-日期.txt格式的文件中记录;有几种情况: 1、如果发现打不开了,直接发邮件提示网站已经
vSphere部署系列之09——HA和DRS群集管理 群集(Cluster)是将多台物理主机组织起来,群集管理其中所有主机的资源,形成一个大的资源池。群集中的所有的虚拟机可在池中的任意主机上自由移动,并且群集可做到快速扩容和HA故障冗余。群集的前提条件是要有共享存储,所有虚拟机及其配置文件必须驻留在共享存储器上。 在前面的博文章节中,已搭建了比较基础的实验环境,实现了vCenter对ESXi主机的管理,网络管理、共享存储管理。在这种情况下,各物理主机之间的计算资源(CPU、内存)是完全独立的,在某台主机出
昨天提交代码的时候自己的eclipse抽风了一下,发现自己的Web App Libraries里面的Jar包全部都不会自动加入到Web App Libraries中,导致之前配置的项目全都要重新手动配置,网上搜了一搜,找到了个解决方法: 参考链接http://blog.csdn.net/zhengzhb/article/details/6956130 定位到项目根目录中.settings里面的 org.eclipse.wst.common.component, 如下内容贴到里面保存一下,就能检测到WEB-

Linux NFS自动挂载autofs配置 - 2016-08-29 17:08:21

一、基于Linux下NFS文件系统的自动挂载方式, 前期准备环境两台Linux服务器: 准备一台NFS服务器端(系统环境centos6.5,ip地址192.168.100.100) 准备需要挂载NFS服务端的NFS客户端(系统环境centos6.5,ip地址192.168.100.101) 实施: 现在server端安装NFS保证能正常访问,我们这里通过yum工具安装即可 [root@nfsserver ~]# yum install nfs-utils rpcbind -y 通过修改NFS配置,共享/d
文本处理工具grep,正则表达式在Linux学习过程中很容易出现困惑与障碍的地方,这里分享下学习这方面内容的一些感受。 grep Global search REgular expression and Print out the line 作用:文本搜索工具,根据用户指定的‘ 模式(过滤条件) ’对目标文本逐行进行匹配检查;打印匹配到的行; ‘模式’:由 正则表达式 的元字符及文本字符所编写出的过滤条件。 grep [OPTIONS] PATTERN [FILE...] grep [OPTIONS] [
HAProxy高可用负载均衡集群部署 基本信息: 系统平台:VMware WorkStation 系统版本: CentOS Linux release 7.2.1511 (Core) 内核版本: 3.10.0-327.el7.x86_64 集群架构: 前端:HAProxy 1、虚拟FQDN:www.simpletime.net 2、VIP:192.168.39.1;DIP:172.16.39.50 3、调度服务器:Varnish1、Varnish2 4、调度算法:URL_Hash_Consistent 5
常见的文件系统 Linux文件系统: ext2, ext3, ext4, xfs, btrfs, reiserfs, jfs, swap swap: 交换分区 光盘:iso9660 Windows:fat32, ntfs Unix: FFS, UFS, JFS2 网络文件系统:NFS, CIFS 集群文件系统:GFS2, OCFS2 分布式文件系统:ceph, moosefs, mogilefs, GlusterFS, Lustre 实验环境CentOS7.2 Linux根据其是否支持"journal"功

部署Tomcat及其负载均衡 - 2016-08-29 17:08:51

应用场景 : 使用3台虚拟机操作系统为redhat6.5 Nginx 服务器s3 192.168.90.103 nginx-1.6.0.tar.gz Tomcat服务器s1 192.168.90.106 1.jdk-7u65-linux-x64.gz 2.apache-tomcat-7.0.54.tar.gz Tomcat服务器s2 192.168.90.107 1.jdk-7u65-linux-x64.gz 2.apache-tomcat-7.0.54.tar.gz 实施准备 启动后关闭防火墙 Serv