perl中的正则表达式

perl中的正则表达式

正则表达式的三种形式

    首先我们应该知道Perl程序中,正则表达式有三种存在形式,他们分别是:

        匹配:m/<regexp>/(还可以简写为/<regexp>/,略去m

        替换:s/<pattern>/<replacement>/

        转化:tr/<pattern>/<replacemnt>/

        这三种形式一般都和=~!~搭配使用,并在左侧有待处理的标量变量,如果没有该变量和=~ !~操作符,则默认为处理$_变量中的内容.

        (其中"=~"表示相匹配,在整条语句中读作does,"!~"表示不匹配,在整条语句中读作doesn't)

    举例如下:

      $str="I lovePerl";

        $str=~m/Perl/;#表示如果在$str中发现"Perl"字符串,则返回"1"否则返回"0".

        $str=~s/Perl/BASH/;#表示将变量$str中的"Perl"字符串替换为"BASH",如果发生此替换则返回"1",否则返回"0".

        $str!~tr/A-Z/a-z/;#表示将变量$str中的所有大写字母转化为小写字母,如果转化发生了则返回"0",否则返回"1".

      另外还有:

       foreach(@array){s/a/b/;}#此处每次循环将从@array数组中取出一个元素存放在$_变量中,并对$_进行替换处理.

       while(<FILE>){print if(m/error/);}#这一句稍微复杂一些,他将打印FILE文件中所有包含error字符串的行.

    Perl的正则表达式中如果出现(),则发生匹配或替换后()内的模式被Perl解释器自动依次赋给系统$1,$2......

      请看下面的例子:

          $string="Ilove perl";
           $string=~s/(love)/<$1>/; #此时$1="love",并且该替换的结果是将$string变为"I<love>perl"
 
          $string="ilove perl";
           $string=~s/(i)(.*)(perl)/<$3>$2<$1>/;#这里$1="i",$2="love",$3="perl",并且替换后$string变为"<perl>love<i>"

 

1、模式匹配

1.1、匹配操作符

匹配操作符 m// 用于匹配一个字符串语句或者一个正则表达式,例如,要匹配标量$bar 中的"run",代码如下所示:

实例

#!/usr/bin/perl
 
$bar = "I am runoob site. welcome to runoob site.";
if ($bar =~ /run/){
   print "第一次匹配\n";
}else{
   print "第一次不匹配\n";
}
 
$bar = "run";
if ($bar =~ /run/){
   print "第二次匹配\n";
}else{
   print "第二次不匹配\n";
}

执行以上程序,输出结果为:

第一次匹配

第二次匹配

 

1.2、模式匹配修饰符

模式匹配有一些常用的修饰符,如下表所示:

修饰符

描述

i

忽略模式中的大小写

m

多行模式

o

仅赋值一次

s

单行模式,"."匹配"\n"(默认不匹配)

x

忽略模式中的空白

g

全局匹配

cg

全局匹配失败后,允许再次查找匹配串

 

1.3、正则表达式变量

perl处理完后会给匹配到的值存在三个特殊变量名:

  • $`: 匹配部分的前一部分字符串

  • $&: 匹配的字符串

  • $': 还没有匹配的剩余字符串

如果将这三个变量放在一起,你将得到原始字符串。

实例如下:

实例

#!/usr/bin/perl
 
$string = "welcome to runoob site.";
$string =~ m/run/;
print "匹配前的字符串:$`\n";
print "匹配的字符串:$&\n";
print "匹配后的字符串:$'\n";

执行以上程序输出结果为:

匹配前的字符串:welcome to

匹配的字符串: run

匹配后的字符串: oobsite.

 

2、模式替换

2.1、替换操作符

替换操作符 s/// 是匹配操作符的扩展,使用新的字符串替换指定的字符串。基本格式如下:

s/PATTERN/REPLACEMENT/;

PATTERN 为匹配模式,REPLACEMENT为替换的字符串。

例如我们将以下字符串的"google" 替换为"runoob":

实例

#!/usr/bin/perl
 
$string = "welcome to google site.";
$string =~ s/google/runoob/;
 
print "$string\n";

执行以上程序输出结果为:

welcome to runoob site.

 

2.2、替换操作修饰符

替换操作修饰符如下表所示:

修饰符

描述

i

如果在修饰符中加上"i",则正则将会取消大小写敏感性,即"a""A" 是一样的。

m

默认的正则开始"^"和结束"$"只是对于正则字符串如果在修饰符中加上"m",那么开始和结束将会指字符串的每一行:每一行的开头就是"^",结尾就是"$"

o

表达式只执行一次。

s

如果在修饰符中加入"s",那么默认的"."代表除了换行符以外的任何字符将会变成任意字符,也就是包括换行符!

x

如果加上该修饰符,表达式中的空白字符将会被忽略,除非它已经被转义。

g

替换所有匹配的字符串。

e

替换字符串作为表达式

 

    例如:

       s/<pattern>/<replacement>/g 表示把待处理字符串中所有符合<pattern>的模式全部替换为<replacement>字符串.

       s/<pattern>/<replacement>/e表示将把<replacemnet>部分当作一个运算符,这个参数用的不多.

        比如下面的例子:

         $string="i:love:perl";
            $string=~s/:/*/;#此时$string="i*love:perl";
           $string=~s/:/*/g;#此时$string="i*love*perl";
            $string=~tr/*//;#此时$string="iloveperl";
         $string="www22cgi44";
           $string=~s/(\d+)/$1*2/e;#(/d+)代表$string中的一个或多个数字字符,将这些数字字符执行*2的操作,因此最后$string变成了"www44cgi88".

 

3、模式转化

这是另一种替换方式,语法如:tr/string1/string2/。同样,string2为替换部分,但其效果是把string1中的第一个字符替换为string2中的第一个字符,把string1中的第二个字符替换为string2中的第二个字符,依此类推。如:

$string = "abcdefghicba";
$string =~ tr/abc/def/; # now string = "defdefghifed"

string1string2长时,其多余字符替换为string2的最后一个字符;当string1中同一个字符出现多次时,将使用第一个替换字符。

例如:

#!/usr/bin/perl
 
$str = "abbcddeff";
$str =~ tr/abcc/ABCD/;
 
print "$str\n";

将输出:

ABBCddeff

 

3.1、转化操作符

以下是转化操作符相关的修饰符:

修饰符

描述

c

转化所有未指定字符

d

删除所有指定字符

s

把多个相同的输出字符缩成一个

以下实例将变量 $string中的所有小写字母转化为大写字母:

#!/usr/bin/perl
 
$string = 'welcome to runoob site.';
$string =~ tr/a-z/A-Z/;
 
print "$string\n";

执行以上程序输出结果为:

WELCOME TO RUNOOB SITE.

以下实例使用 /s 将变量 $string 重复的字符删除:

实例

#!/usr/bin/perl
 
$string = 'runoob';
$string =~ tr/a-z/a-z/s;
 
print "$string\n";

执行以上程序输出结果为:

runob

更多实例:

$string =~ tr/\d/ /c;     # 把所有非数字字符替换为空格
$string =~ tr/\t //d;     # 删除tab和空格
$string =~ tr/0-9/ /cs    # 把数字间的其它字符替换为一个空格。

 

正则表达式中的常用模式.

    /pattern/                    结果

    .                               匹配除换行符以外的所有字符

    x?                             匹配0次或一次x字符串

    x*                             匹配0次或多次x字符串,但匹配可能的最少次数

    x+                             匹配1次或多次x字符串,但匹配可能的最少次数

    .*                              匹配0次或多次的任何字符

    .+                             匹配1次或多次的任何字符

    x{m}            匹配刚好是mx的指定字符串

    x{m,n}                     匹配大于等于m个,小于等于nx的指定字符串

    x{m,}                       匹配大于等于mx的指定字符串

    []                              匹配符合[]内的字符

    [^]                            匹配不符合[]内的字符

    [0-9]                         匹配所有数字字符

    [a-z]                          匹配所有小写字母字符

    [^0-9]                        匹配所有非数字字符

    [^a-z]            匹配所有非小写字母字符

    ^                               匹配字符开头的字符

    $                               匹配字符结尾的字符

    \d                              匹配一个数字的字符,[0-9]语法一样

    \d+                            匹配多个数字字符串,[0-9]+语法一样

    \D                             非数字,其他同\d

    \D+                           非数字,其他同\d+

    \w                             英文字母或数字的字符串,和[a-zA-Z0-9]语法一样

    \w+                           [a-zA-Z0-9]+语法一样

    \W                            非英文字母或数字的字符串,[^a-zA-Z0-9]语法一样

    \W+                          [^a-zA-Z0-9]+语法一样

    \s                              空格,和[\n\t\r\f]语法一样

    \s+                            [\n\t\r\f]+一样

    \S                             非空格,和[^\n\t\r\f]语法一样

    \S+                           [^\n\t\r\f]+语法一样

    \b                              匹配以英文字母,数字为边界的字符串

    \B                             匹配不以英文字母,数值为边界的字符串

    a|b|c                          匹配符合a字符或是b字符或是c字符的字符串

    abc                           匹配含有abc的字符串

    (pattern)                   ()这个符号会记住所找寻到的字符串,是一个很实用的语法。第一个()内所找到的字符串变成$1这个变量或是\1变量,第二个()内所找到的字符串变成$2这个变量或是\2变量,以此类推下去。

    /pattern/i                   i这个参数表示忽略英文大小写,也就是在匹配字符串的时候,不考虑英文的大小写问题。

     \         如果要在pattern模式中找寻一个特殊字符,如"*",则要在这个字符前加上\符号,这样才会让特殊字符失效。

 

下面给出一些例子范例说明:

    /perl/             找到含有perl的字符串

    /^perl/                       找到开头是perl的字符串

    /perl$/                       找到结尾是perl的字符串

    /c|g|i/            找到含有cgi的字符串

    /cg{2,4}i/                  找到c后面跟着大于等于2个小于等于4g,再跟着i的字符串

    /cg{2,}i/                    找到c后面跟着2个及2个以上g,再跟着i的字符串

    /cg{2}i/                     找到c后面跟着2g,再跟着i的字符串

    /cg*i/            找到c后面跟着0个或多个g,再跟着i的字符串,如同/cg{0,}i/

    /cg+i/            找到c后面跟着1个或多个g,再跟着i的字符串,如同/cg{1,}i/

    /cg?i/            找到c后面跟着0个或1g,再跟着i的字符串,如同/cg{0,1}i/

    /c.i/                           找到c后面跟着一个任意字符,再跟着i的字符串

    /c..i/                          找到c后面跟着二个任意字符,再跟着i的字符串

    /[cgi]/                        找到符合有这三个字符任意一个的字符串

    /[^cgi]/                      找到没有这三个字符中任意一个的字符串

    /\d/                            找寻符合数字的字符,可以使用/\d+/来表示一个或是多个数字组成的字符串

    /\D/                           找寻符合不是数字的字符,可以使用/\D+/来表示一个或是更多个非数字组成的字符串

    /\*/                            找寻符合*这个字符,因为*在常规表达式中有它的特殊意思,所以要在这个特殊符号前加上\符号,这样才会让这个特殊字符失效

/abc/I                     找寻符合abc的字符串而且不考虑这些字符串的大小写

 

例如我们想匹配开头不是#的内容,可以写:

$string =~/^[^#]/;

如果想匹配开头部分不是#或者/的,可以写:

$string =~/^[^#\/]/;

 

3.正则表达式的八大原则:

    ·原则1:正则表达式有三种不同形式(匹配(m//),替换(s///eg)和转换(tr///)).

    ·原则2:正则表达式仅对标量进行匹配($scalar=~m/a/;可以工作;@array=~m/a/将把@array作为标量对待,因此可能不会成功).

    ·原则3:正则表达式匹配一个给定模式的最早的可能匹配.缺省时,仅匹配或替换正则表达式一次($a='stringstring2';$a=~s/string//;导致$a='string2').

    ·原则4:正则表达式能够处理双引号所能处理的任意和全部字符($a=~m/$varb/在匹配前把varb扩展为变量;如果$varb='a'$a='as',$a=~s/$varb//;等价于$a=~s/a//;执行结果使$a="s").

  • 发表于 2018-07-20 15:00
  • 阅读 ( 2365 )
  • 分类:perl

你可能感兴趣的文章

0 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

698 篇文章

作家榜 »

  1. omicsgene 698 文章
  2. 安生水 347 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 74 文章
  8. CORNERSTONE 72 文章