Linux基础之文本处理工具grep及正则表达式(附带egrep与grep的不同)

文本处理工具grep,正则表达式在Linux学习过程中很容易出现困惑与障碍的地方,这里分享下学习这方面内容的一些感受。



grep  Global search REgular expression and Print out the line

作用:文本搜索工具,根据用户指定的‘模式(过滤条件)’对目标文本逐行进行匹配检查;打印匹配到的行;

‘模式’:由正则表达式的元字符及文本字符所编写出的过滤条件。

grep [OPTIONS] PATTERN [FILE...]

grep [OPTIONS] [-e PATTERN | -f FILE] [FILE...]

常用选项:

        -i:忽略字符大小写

        -o:仅显示匹配到的字符串本身

        -v:显示不能被模式匹配到的行

        -E:支持扩展正则表达式元字符

        -q:静默模式,匹配不显示

        -A#:after,显示匹配条件所在行的后#行

        -B#:before,显示匹配条件所在行的前#行

        -C#:context,显示匹配条件所在行的前后#行

        -n:显示匹配的行号(用的较少)

        -c: 统计匹配的行数(用的较少)

下面以几个小实验对grep的用法及选项做下具体的演示

实验目录/test 文本/test/head

[root@localhost test]# cat head 
12345 Sdabc saber 
Berar bserac
12cds
67890
12
345
123
6

wKioL1enLOHQBBq6AAA8VZfgRn8682.gif



正则表达式:Regual Expression,REGEXP

它由一类特殊字符及文本字符所编写的模式,其中有些字符不表示其字面意义,而是用于表示控制或通配的功能。

它分两类:基本正则表达式BRE、扩展正则表达式ERE


基本正则表达式元字符:

包括:字符匹配匹配次数位置锚定分组


字符匹配

    . :匹配任意单个字符;        [] :匹配指定范围内的任意单个字符

    [^] :匹配指定范围外的任意单个字符

    常用集合:[:digit:]、[:lower:]、[:upper:]、[:alpha:]、[:alnum:]、[:punct:]、[:space:]

wKiom1enJHPSbB2mAAAOAbMrRZ4951.gif

wKioL1enJHSBRYXkAAAOp5xCHD0739.gif

wKiom1enJHTidiqIAAANM23CGag486.gif


匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数

    *:匹配前面的字符任意次,包括0次;贪婪模式:尽可能长的匹配

    .*:任意长度的任意字符

    \?:匹配其前面的字符0或1次

    \+:匹配其前面的字符至少1次

    \{m\}:匹配前面的字符m次

    \{m,n\}:匹配前面的字符至少m次,至多n次

    \{,n\}:匹配前面的字符至多n次

    \{m,\}:匹配前面的字符至少m次

wKioL1enJU_hYm2UAAAh7gQ1Uh8244.gif


位置锚定:定位出现的位置

    ^:行首锚定,用于模式的最左侧

    $:行尾锚定,用于模式的最右侧

    ^PATTERN$: 用于模式匹配整行

    ^$: 空行

    ^[[:space:]]*$ :空白行

单词:非特殊字符组成的连续字符在Linux看来都称单词

    \< 或\b:词首锚定,用于单词模式的左侧

    \> 或\b:词尾锚定;用于单词模式的右侧

    \<PATTERN\>:匹配完整的单词

wKiom1enKfmg9DkTAAAN_-0PJok776.gif

1、查找以for开头的行

wKiom1enKfrRZcIhAAAMy8Leg-M242.gif

2、检索只含有for的字符串;检索含有for的内容

wKiom1enKfqhfPVHAAAXAecfD08440.gif

3、检索以for结尾的行;检索以for结尾的字符串

wKioL1enKfrhkNqvAAAUSl5w1lg347.gif


分组\(\):将一个或多个字符捆绑在一起,当作一个整体进行处理,如:\(root\)\+

分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式为: \1, \2, \3, ...

\1: 从左侧起,第一个左括号以及与之匹配右括号之间的模式所匹配到的字符;

实例:\(string1\+\(string2\)*\)

\1: string1\+\(string2\)*

\2: string2

后向引用:引用前面的分组括号中的模式所匹配字符(而非模式本身)

wKioL1enK2mg9G-HAAAM4T6H4HY417.gif

上述命令意思是检索包含有for字符串后跟任意字符且出现一次,连续出现上述情况两次截取结果。后面的\1是重复第一个括号内的检索对象。



egrep= grep -E

egrep[OPTIONS] PATTERN [FILE...]

扩展正则表达式的元字符:


字符匹配:同基本正则表达式


次数匹配:

    *:匹配前面字符任意次

    ?: 0或1次

    +:1次或多次

    {m}:匹配m次

    {m,n}:至少m,至多n次


位置锚定:同基本正则表达式


分组:

    ()

    后向引用:\1, \2, ...


或者:

    a|b

    C|cat: C或cat

    (C|c)at:Cat或cat



最后我们通过9个例子来感受grep与正则表达式结合所能实现的功能

1、显示/proc/meminfo文件中以大小s开头的行

wKioL1enOhTjFKj3AAAZ2eDQ6FQ131.gif

这个只需要知道grep的选项i就能轻松解决。


2、显示/etc/passwd文件中不以/bin/bash结尾的行

wKiom1enOiWhEjtbAABldH1yAcU272.gif

先使用grep检索出包含有以“/bin/bash”结尾的行,再使用grep的-v取不以上面结果的行。类似数学中的补集效果。


3、找出ifconfig命令结果中本机的所有IPv4地址

wKioL1enOjiRNyOvAAA3quiV3Y0006.gif

这个分为三步:

1)通过grep锁定包含有IPV4的行,这个通过分析ifconfig列出的信息可以看出规律,只要包含有IPv4的开头都有inet这个字母,所以我们只需要检索它就行了

2)接下来使用tr将所有空替换为“:”并压缩

3)使用cut实现结果。


4、查出分区空间使用率的最大百分比值

wKiom1enOmSgiGVhAAByMj9e38k462.gif

wKioL1enOmXh5z0yAAAvcobvGfo647.gif

这个大致分6步:

1)过滤汉字

2)使用tr替换所有空为":"并压缩

3)使用cut剪切出含有使用率百分比的数值

4)再次使用tr剔除%

5)使用sort按数值大小写排序

6)使用tail取出最大值


5、显示用户rpc默认的shell程序

wKiom1enOnbgCk-MAAAXCtu3GCc540.gif

上面的检索条件是以rpc为行首且以它为字符结尾的行


6、找出/etc/passwd中的两位或三位数

wKioL1enOoawqYciAADHo1B8ojs316.gif

这里使用的是扩展正则表达式因为可以是表达式更简洁

这里需要注意的是要以两位或三位数为字符串,这需要对其进行开头与结尾的字符锚定


7、找出/etc/rc.d/init.d/functions文件中行首为某单词(包括下划线)后面跟一个小括号的行

wKiom1enOpeQbOJyAAAvRCxLKdk216.gif

当我们想好要过滤的条件后,要对其进行行首及字符的锚定,否则会导致条件范围不严谨

这里要注意的是.*\>\(\),如果这里改写为.*\(\)\>则会失败,具体可以自己想想。其实.*已经包括了"()",所以后面的是重复的,这样就容易出错


8、使用egrep取出/etc/rc.d/init.d/functions中其基名

wKioL1enOqqhsZk8AAAXnJhJ6zU480.gif

wKiom1enOqrBIWfSAAAbhMWWp5g365.gif

上面是两种方法,一种利用grep直接检索出来,另一种的思想是分割。各有特点


9、利用扩展正则表达式分别表示0-9、10-99、100-199、200-249、250-255

\<[0-9]\>:0-9

\<[1-9][0-9]|>:10-99

\<1[0-9][0-9]\> | \<1[0-9]{2}\>:100-199

\<2[0-4][0-9]\> :200-249

\<25[0-5]\>:250-255


上面只是对grep及正则表达式的简要总结,不过只要掌握好这基本的内容自己也就可以进行更深入的学习了

本文出自 “张帆-IT的奇幻漂流” 博客,请务必保留此出处http://chawan.blog.51cto.com/9179874/1835426

本页内容版权归属为原作者,如有侵犯您的权益,请通知我们删除。
HAProxy高可用负载均衡集群部署 基本信息: 系统平台:VMware WorkStation 系统版本: CentOS Linux release 7.2.1511 (Core) 内核版本: 3.10.0-327.el7.x86_64 集群架构: 前端:HAProxy 1、虚拟FQDN:www.simpletime.net 2、VIP:192.168.39.1;DIP:172.16.39.50 3、调度服务器:Varnish1、Varnish2 4、调度算法:URL_Hash_Consistent 5
常见的文件系统 Linux文件系统: ext2, ext3, ext4, xfs, btrfs, reiserfs, jfs, swap swap: 交换分区 光盘:iso9660 Windows:fat32, ntfs Unix: FFS, UFS, JFS2 网络文件系统:NFS, CIFS 集群文件系统:GFS2, OCFS2 分布式文件系统:ceph, moosefs, mogilefs, GlusterFS, Lustre 实验环境CentOS7.2 Linux根据其是否支持"journal"功

部署Tomcat及其负载均衡 - 2016-08-29 17:08:51

应用场景 : 使用3台虚拟机操作系统为redhat6.5 Nginx 服务器s3 192.168.90.103 nginx-1.6.0.tar.gz Tomcat服务器s1 192.168.90.106 1.jdk-7u65-linux-x64.gz 2.apache-tomcat-7.0.54.tar.gz Tomcat服务器s2 192.168.90.107 1.jdk-7u65-linux-x64.gz 2.apache-tomcat-7.0.54.tar.gz 实施准备 启动后关闭防火墙 Serv
DNS(域名系统),用于解析域名和IP地址之间的映射关系 协议使用端口: udp 53正常查询解析情况下使用udp53 tcp53当进行主从之间的区域传送时使用tcp53 DNS域的空间划分 DNS的查询方式 递归查询 当主机A要向DNS服务器发送查询主机D的请求时,服务器返回给A最终结果,这种方式就是递归查询,如果客户端要查找的内容直接在服务器上得到结果,刚给出的答案是一个权威答案,否则就是一个参考答案。 迭代查询 NS服务器接收到A的请求后,本地没有D的解析,则会通过以下过程获得 1、NS向根域询问D

nginx的记录配置心得 - 2016-08-29 17:08:29

今天本来要去见自己喜欢的一个人的,唉,感觉自己的爱情龙卷风来了,来的很猛烈,我今天还把自己的胡子刮的很干净,悲催的是那位女士像木头一样,不知道她怎么想的,我发微信她也偶尔回复我,我真的很喜欢她,虽然刚认识没多久,这种感觉从来没有过,我每天都给她发很多消息,我现在都怕她烦了,会不会把我加黑啊,心里很矛盾,真的,找到一个自己喜欢的人和喜欢自己的人真的好难啊,好了悲催的心情就到这里吧。 我下面给大家带来的是NGINX的一些记录,因为可能要换工作了,面试的时候会问到,而且有个人老问我,他要给公司配置NGINX,我
需要使用到的服务:PXE + DHCP+TFTP+ Kickstart+ FTP 运行原理如下图: 原理和概念: 1、前言 首先,简单谈谈为什么要采用无人值守网络安装linux操作系统。一方面是运维管理的需要,因各种需要,安装操作系统在实验室内时有发生,有时候更出现批量安装某一型号操作系统的情形,这时候如果用光盘挨个安装将变得异常繁琐,并且需要人工值守。此外,因操作系统种类较多(主要是针对linux),内部人员使用频繁,也会带来管理上的问题。另一方面是当前MPX项目开发的需要,为打造一个精简、适用、高效、

Linux基础之sed流编辑器详解 - 2016-08-29 17:08:59

之前介绍了三大文本编辑器的grep,这里介绍比grep功能更强的sed流编辑器 sed是什么? sed是Stream EDitor的缩写,man中对sed的简介为 sed - stream editor for filtering and transforming text 它的主要功能是对文本的过滤与替换。 sed的工作原理 sed的工作过程 :sed是一个流编辑器,所谓流编辑器是指sed每次只从文件或stdin中读入一行,将读入的行保存至模式空间然后根据指定的要求对其进行处理,并将处理后的结果输出至屏

OpenVPN应用案例 - 2016-08-29 17:08:58

OpenVPN服务器的搭建: http://qicheng0211.blog.51cto.com/3958621/1575273 CentOS下OpenVPN客户端配置: http://qicheng0211.blog.51cto.com/3958621/1840055 应用一 、点对点安全通道 工作中可能会遇到这样的场景:由于业务需要,异地两台服务器需要安全的相互访问,除了拉专线,比较经济的方法就是通过公网建立加密隧道,openvpn是一个很好的选择。 服务端:内网IP192.168.20.220,vp
前段时间做了个项目,是关于父子域合并的,其实无非就是使用ADMT把域用户,计算机等从子域迁移到父域上,看似迁移用户很简单。But……生产环境啊,Exchange,TFS,Sharepoint,还有其余乱七八糟的东西,都使用了域账号,牵一发动全身的节奏,迁移账号出点儿问题相关用户就可以坐在那打酱油了,迁移前在他们生产环境中新建测试账号迁移,但是这种测试账号相对理想的环境,测试过程中很多问题不容易发现,很多问题是迁移了客户生产用户账号时出现了问题,但是于对于TFS一窍不通,sharepoint大多不懂的我来说
上一篇博客讲解了nginx相关的数据结构。 这一篇主要交接如何将自己的模块编译进nginx; 一种常用的简单方法: 1)首先把源代码文件全部放大一个目录下,然后在改目录中编写一个config用于通知Nginx如何编译本模块,这个文件名必须为config。 在configure脚本执行时加入参数--add-module=PATH(上面源码,config的保存目录) 执行正常安装流程是完成Nginx的编译工作。 ps:还有一种复杂方式,就是修改configure脚本执行后生成的obj/Makefile和obj