查看: 650|回复: 1

关于正则表达式---ZT [复制链接]

Longe

管理员

论坛测试[砖]家

Rank: 12

金币: 7308
贡献: 615
威望: 9151
最后登录: 2026-7-16
帖子: 1875
积分: 25896
UID: 10

电梯直达

1楼

发表于 2009-11-9 13:04:38 |只看该作者 |倒序浏览

第一部分：
-----------------
正则表达式(REs)通常被错误地认为是只有少数人理解的一种神秘语言。在表面上它们确实看起来杂乱无章，如果你不知道它的语法，那么它的代码在你眼里只是一堆文字垃圾而已。实际上，正则表达式是非常简单并且可以被理解。读完这篇文章后，你将会通晓正则表达式的通用语法。

支持多种平台

正则表达式最早是由数学家Stephen Kleene于1956年提出，他是在对自然语言的递增研究成果的基础上提出来的。具有完整语法的正则表达式使用在字符的格式匹配方面上，后来被应用到熔融信息技术领域。自从那时起，正则表达式经过几个时期的发展，现在的标准已经被ISO(国际标准组织)批准和被Open Group组织认定。

正则表达式并非一门专用语言，但它可用于在一个文件或字符里查找和替代文本的一种标准。它具有两种标准：基本的正则表达式(BRE)，扩展的正则表达式(ERE)。ERE包括BRE功能和另外其它的概念。

许多程序中都使用了正则表达式，包括xsh,egrep,sed,vi以及在UNIX平台下的程序。它们可以被很多语言采纳，如HTML 和XML，这些采纳通常只是整个标准的一个子集。

比你想象的还要普通
随着正则表达式移植到交叉平台的程序语言的发展，这的功能也日益完整，使用也逐渐广泛。网络上的搜索引擎使用它，e-mail程序也使用它，即使你不是一个UNIX程序员，你也可以使用规则语言来简化你的程序而缩短你的开发时间。

正则表达式101
很多正则表达式的语法看起来很相似，这是因为你以前你没有研究过它们。通配符是RE的一个结构类型，即重复操作。让我们先看一看ERE标准的最通用的基本语法类型。为了能够提供具有特定用途的范例，我将使用几个不同的程序。

第二部分：
----------------------
字符匹配

正则表达式的关键之处在于确定你要搜索匹配的东西，如果没有这一概念，Res将毫无用处。

每一个表达式都包含需要查找的指令，如表A所示。

Table A: Character-matching regular expressions
格式说明：
---------------
操作：
解释：
例子：
结果：
----------------
.
Match any one character
grep .ord sample.txt
Will match “ford”, “lord”, “2ord”, etc. in the file sample.txt.
-----------------
[ ]
Match any one character listed between the brackets
grep [cng]ord sample.txt
Will match only “cord”, “nord”, and “gord”
---------------------
[^ ]
Match any one character not listed between the brackets

grep [^cn]ord sample.txt
Will match “lord”, “2ord”, etc. but not “cord” or “nord”

grep [a-zA-Z]ord sample.txt
Will match “aord”, “bord”, “Aord”, “Bord”, etc.

grep [^0-9]ord sample.txt
Will match “Aord”, “aord”, etc. but not “2ord”, etc.

重复操作符
重复操作符，或数量词，都描述了查找一个特定字符的次数。它们常被用于字符匹配语法以查找多行的字符，可参见表B。

Table B: Regular expression repetition operators
格式说明：
---------------
操作：
解释：
例子：
结果：
----------------
?
Match any character one time, if it exists
egrep “?erd” sample.txt
Will match “berd”, “herd”, etc. and “erd”
------------------
*
Match declared element multiple times, if it exists
egrep “n.*rd” sample.txt
Will match “nerd”, “nrd”, “neard”, etc.
-------------------
+
Match declared element one or more times
egrep “[n]+erd” sample.txt
Will match “nerd”, “nnerd”, etc., but not “erd”
--------------------
{n}
Match declared element exactly n times
egrep “[a-z]{2}erd” sample.txt
Will match “cherd”, “blerd”, etc. but not “nerd”, “erd”, “buzzerd”, etc.
------------------------
{n,}
Match declared element at least n times
egrep “.{2,}erd” sample.txt
Will match “cherd” and “buzzerd”, but not “nerd”
------------------------
{n,N}
Match declared element at least n times, but not more than N times
egrep “n[e]{1,2}rd” sample.txt
Will match “nerd” and “neerd”

第三部分：
----------------
锚
锚是指它所要匹配的格式，如图C所示。使用它能方便你查找通用字符的合并。例如，我用vi行编辑器命令:s来代表substitute，这一命令的基本语法是：

s/pattern_to_match/pattern_to_substitute/

Table C: Regular expression anchors
-------------
操作
解释
例子
结果
---------------
^
Match at the beginning of a line
s/^/blah /
Inserts “blah “ at the beginning of the line
---------------
$
Match at the end of a line
s/$/ blah/
Inserts “ blah” at the end of the line
---------------
\<
Match at the beginning of a word
s/\Inserts “blah” at the beginning of the word

egrep “\Matches “blahfield”, etc.
------------------
\>
Match at the end of a word
s/\>/blah/
Inserts “blah” at the end of the word

egrep “\>blah” sample.txt
Matches “soupblah”, etc.
---------------
\b
Match at the beginning or end of a word
egrep “\bblah” sample.txt
Matches “blahcake” and “countblah”
-----------------
\B
Match in the middle of a word
egrep “\Bblah” sample.txt
Matches “sublahper”, etc.

间隔

Res中的另一可便之处是间隔(或插入)符号。实际上，这一符号相当于一个OR语句并代表|符号。下面的语句返回文件sample.txt中的“nerd” 和 “merd”的句柄：

egrep “(n|m)erd” sample.txt

间隔功能非常强大，特别是当你寻找文件不同拼写的时候，但你可以在下面的例子得到相同的结果：

egrep “[nm]erd” sample.txt

当你使用间隔功能与Res的高级特性连接在一起时，它的真正用处更能体现出来。

第四部分：
----------------
一些保留字符
Res的最后一个最重要特性是保留字符(也称特定字符)。例如，如果你想要查找“ne*rd”和“ni*rd”的字符，格式匹配语句“n[ei]*rd”与“neeeeerd” 和 “nieieierd”相符合，但并不是你要查找的字符。因为‘*’(星号)是个保留字符，你必须用一个反斜线符号来替代它，即：“n[ei]\*rd”。其它的保留字符包括：

^ (carat)
. (period)
[ (left bracket}
$ (dollar sign)
( (left parenthesis)
) (right parenthesis)
| (pipe)
* (asterisk)
+ (plus symbol)
? (question mark)
{ (left curly bracket, or left brace)
\ backslash
一旦你把以上这些字符包括在你的字符搜索中，毫无疑问Res变得非常的难读。比如说以下的PHP中的eregi搜索引擎代码就很难读了。

eregi("^[_a-z0-9-]+(\.[_a-z0-9-]+)*@[a-z0-9-]+(\.[a-z0-9-]+)*$",$sendto)

你可以看到，程序的意图很难把握。但如果你抛开保留字符，你常常会错误地理解代码的意思。

总结
在本文中，我们揭开了正则表达式的神秘面纱，并列出了ERE标准的通用语法。如果你想阅览Open Group组织的规则的完整描述，你可以参见：Regular Expressions，欢迎你在其中的讨论区发表你的问题或观点。

另外一篇文章
----------------------------------------
正则表达式和Java编程语言
-----------------------------------------
类和方法

下面的类根据正则表达式指定的模式，与字符序列进行匹配。

Pattern类

Pattern类的实例表示以字符串形式指定的正则表达式，其语法类似于Perl所用的语法。

用字符串形式指定的正则表达式，必须先编译成Pattern类的实例。生成的模式用于创建Matcher对象，它根据正则表达式与任意字符序列进行匹配。多个匹配器可以共享一个模式，因为它是非专属的。

用compile方法把给定的正则表达式编译成模式，然后用 matcher方法创建一个匹配器，这个匹配器将根据此模式对给定输入进行匹配。pattern 方法可返回编译这个模式所用的正则表达式。

split方法是一种方便的方法，它在与此模式匹配的位置将给定输入序列切分开。下面的例子演示了：

/*
* 用split对以逗号和/或空格分隔的输入字符串进行切分。
*/
import java.util.regex.*;

public class Splitter {
public static void main(String[] args) throws Exception {
// Create a pattern to match breaks
Pattern p = Pattern.compile("[,\\s]+");
// Split input with the pattern
String[] result =
p.split("one,two, three four , five");
for (int i=0; iSystem.out.println(result);
4 B4 e1 l- {5 k  q* T, n}
7 x' g2 G! M, {7 ~2 ^- ]3 ^- y}
! j4 M  @1 Q, S% b$ w1 \3 j0 D' u  T8 h1 W7 O9 [$ z- K2 S7 w6 ~7 Z
Matcher类
- P; n0 v. M* U+ n' V6 `: n/ b  F! e& N4 n3 L
Matcher类的实例用于根据给定的字符串序列模式，对字符序列进行匹配。使用CharSequence接口把输入提供给匹配器，以便支持来自多种多样输入源的字符的匹配。& f5 D+ j& C1 f
1 x. x4 p2 L- B7 w! s
通过调用某个模式的matcher方法，从这个模式生成匹配器。匹配器创建之后，就可以用它来执行三类不同的匹配操作：
# b, f7 k, g( N
  {4 t5 [% e! K( Q" _# C3 f$ Pmatches方法试图根据此模式，对整个输入序列进行匹配。 2 j7 u7 T/ C/ f5 m3 u. v9 p
lookingAt方法试图根据此模式，从开始处对输入序列进行匹配。 7 w9 q9 C9 k2 ^2 Q0 S) S
find方法将扫描输入序列，寻找下一个与模式匹配的地方。 ; }- E5 ~8 j4 a& t( e

" b: r; U7 u) a9 V8 |9 B7 ~这些方法都会返回一个表示成功或失败的布尔值。如果匹配成功，通过查询匹配器的状态，可以获得更多的信息* n1 m1 n/ y2 q' M2 `5 c# I9 j% p* v
) i- B$ r1 }: L- W
这个类还定义了用新字符串替换匹配序列的方法，这些字符串的内容如果需要的话，可以从匹配结果推算得出。
7 z+ r7 ?# ?$ P8 m
1 n  ]! c) q4 z( lappendReplacement方法先添加字符串中从当前位置到下一个匹配位置之间的所有字符，然后添加替换值。appendTail添加的是字符串中从最后一次匹配的位置之后开始，直到结尾的部分。* y9 q: c* }% Z; p: ^

- M. K  D  _8 i  e2 |3 J4 V" @6 E例如，在字符串blahcatblahcatblah中，第一个 appendReplacement添加blahdog。第二个 appendReplacement添加blahdog，然后 appendTail添加blah，就生成了： blahdogblahdogblah。请参见示例简单的单词替换。% f& I: X7 v9 E' y7 G3 ~
) B# W5 L2 J; h" }% Z
CharSequence接口) F4 M% M6 Q; Q+ L+ w
1 n' y, p* i. k- ~
CharSequence接口为许多不同类型的字符序列提供了统一的只读访问。你提供要从不同来源搜索的数据。用String, StringBuffer 和CharBuffer实现CharSequence,，这样就可以很容易地从它们那里获得要搜索的数据。如果这些可用数据源没一个合适的，你可以通过实现CharSequence接口，编写你自己的输入源。
* N3 L1 L- Q& O, l# {# K0 J5 [7 D: N+ x1 x0 K
Regex情景范例
; {5 J4 n' _' A% M: T3 `+ C9 k0 }$ `2 _
以下代码范例演示了java.util.regex软件包在各种常见情形下的用法：
3 G1 E; l* b/ u% b: N) o( W% k% D" M8 Y; \7 J
简单的单词替换
5 l: X0 I: r/ v, O) Z# c4 k+ G. |" U
/*0 ?3 b) X, R( [" ^# [
* This code writes "One dog, two dogs in the yard."* p$ B5 M/ l6 V" k. ^" \1 _6 ]
* to the standard-output stream:: H; ?% ?9 l& e) Z
*/* B2 D. z  U; Q: l: i
import java.util.regex.*;
, o. d& F% T/ M1 ]- Y0 ~( n
- h' m4 K; E* p8 `public class Replacement {
) q: \; a) F! S* M5 f- j6 Tpublic static void main(String[] args) ' N# K# W6 {6 _; Q1 B
   throws Exception {+ H0 M# J* j/ F' ?0 q
// Create a pattern to match cat
2 R4 b$ B1 w. b" I3 ~$ S( B$ BPattern p = Pattern.compile("cat");: y' M$ \! ?1 T3 E" p" U
// Create a matcher with an input string
# C# `* J$ d7 s+ ^( g2 ~' PMatcher m = p.matcher("one cat," +
' v5 ?( V( E8 q1 U    " two cats in the yard");; d1 W6 c  W8 j5 o, `
StringBuffer sb = new StringBuffer();1 i* ?4 i. \: ~( w3 s: v
boolean result = m.find();
/ \& M' O3 l. _+ {$ i8 V// Loop through and create a new String ; n$ M) n1 F2 `( V9 z" f) k# V- @
// with the replacements9 f4 i" _; _' _" c
while(result) {
+ K# ^# b; @' d+ }7 em.appendReplacement(sb, "dog");
6 w' Y" m: _8 d. w9 i4 D4 zresult = m.find();
0 |6 `. y7 G1 b1 h6 }' R4 h/ U* s}& k) }- I0 `# R' Z! X7 |& n& ~$ _
// Add the last segment of input to / P& ~9 @/ G1 x  z; Q. W
// the new String) N* o5 ^& k3 \( Y
m.appendTail(sb);
1 t8 d# R) D# h; d. U9 r/ e+ n5 Z2 USystem.out.println(sb.toString());
3 j0 R: y7 _& k$ l4 s9 D' ~0 p}. P$ j/ `2 E  c+ h8 z1 b+ |, S& N5 R
}
& K1 T6 o4 Q, G, F/ y1 F
5 t; j+ n+ ~( S6 H6 k9 O- ]电子邮件确认
, l: i7 [  d9 i! p7 i# v7 ~( K* x( s& U3 A; T( B4 G* C# G
以下代码是这样一个例子：你可以检查一些字符是不是一个电子邮件地址。它并不是一个完整的、适用于所有可能情形的电子邮件确认程序，但是可以在需要时加上它。3 @; p5 f- W* l/ E4 J0 Z1 Q
! X6 K- ]2 R& I3 K/ Q! H- W
/*
$ N" |& B9 b+ H  n- o* Checks for invalid characters
9 L5 \, K/ G. S' R% o* in email addresses
0 M9 A# O' ?) R*/! m) x+ R4 t# h% z% {
public class EmailValidation {
5 `/ v& j4 a$ u3 e2 e' ?& apublic static void main(String[] args) 5 e( R* O7 M2 T/ N; L9 G" t
         throws Exception {
1 J) S6 R# @6 h7 C$ p! y4 P          ' G& p: z: t( ?! ~: U
String input = "@sun.com";
3 I3 \/ o! h- q4 ~6 j6 s- ~9 v//Checks for email addresses starting with
3 i' R7 ^* y; L//inappropriate symbols like dots or @ signs.
. S- D& y& Y/ o( n; {# E9 F7 ?Pattern p = Pattern.compile("^\\.|^\\@");
: J8 G* K" E' I+ y( m. vMatcher m = p.matcher(input);
% I: u# o" p+ _6 Yif (m.find())
" H# X9 V% l- }' ]System.err.println("Email addresses don't start" +
/ Z% G* E+ K( B# r' O       " with dots or @ signs.");
, \# y, I* Z& f//Checks for email addresses that start with
4 ^  X% k0 R6 L5 Q& r//www. and prints a message if it does.
# t, R$ x4 H! Ap = Pattern.compile("^www\\.");
1 o. M3 W* y$ z$ E- E* nm = p.matcher(input);
' l2 r# H2 {4 x/ ?: N( G  b' lif (m.find()) {
1 D5 y1 W/ U: X" m, P5 NSystem.out.println("Email addresses don't start" +
! o  ?1 V0 h  n) D " with \"www.\", only web pages do.");) m# v: v! D! m, N' r7 ?$ {
}; r! P% c, g. U) E$ b
p = Pattern.compile("[^A-Za-z0-9\\.\\@_\\-~#]+");
7 d. s* w6 `8 m) L1 T. [m = p.matcher(input);! g" D, S, s: G3 @1 a" \+ ^9 \, Z0 k
StringBuffer sb = new StringBuffer();8 N8 p; t( R6 ?! u0 s
boolean result = m.find();
- a, a# E: C" g" U- }" kboolean deletedIllegalChars = false;3 d" P4 q/ z& L$ Y4 ~! w+ M* d4 ]! i  p
4 A" x4 f0 n+ I
while(result) {$ }+ M0 t& `+ {, Z  |! l4 ]# ^
deletedIllegalChars = true;
$ \4 B; d4 l; I* o( Xm.appendReplacement(sb, "");
$ _/ g1 `1 p  y, b5 c' e- n; |result = m.find();9 i/ _" D* F  @( }' w& O! v
}
; H9 u% x+ r. }% C& ~: z" O/ T: I# ?2 ?+ R' Z1 l! Z  C% `6 L
// Add the last segment of input to the new String9 }2 u; F& a# _$ L
m.appendTail(sb);& `3 ~; G8 E# v9 H
" T7 ~5 P: _5 o# W; Z# [  \
input = sb.toString();  P" A1 e. [' ^( }9 v% K

5 e. F* E; X* k0 R, [& {if (deletedIllegalChars) {4 x0 N% b6 P, V! o
System.out.println("It contained incorrect characters" +4 T; D$ [& _. p, O: A- v/ N
   " , such as spaces or commas.");
$ V6 o& u5 o# m# s: e- Z9 c}4 c, K9 L' M0 |9 o' M) U5 c$ s
}; ?  [7 q4 H; k: p: U) T( l
}
* n  R0 N+ O$ d, L8 ?
9 u4 Y/ k' R, t9 C从文件中删除控制字符
; e) I% q2 Q: Z/ u3 R; Z  R5 c6 {5 X. K( {4 @
/* This class removes control characters from a named# j6 r4 F( c' B, W
* file.. K/ @; w3 t% {; {- k' g+ \
*/) e5 i; W* x& U2 M( L
import java.util.regex.*;
; z1 I: }( [3 d% w+ c: p0 `1 z5 `import java.io.*;/ e. @6 ?( W* z# t& g1 Y0 l9 Y

9 C1 a- H6 i) J; ipublic class Control {; X; a. N  C+ k+ E6 G- G0 h0 e
public static void main(String[] args)
" f$ W* R0 j2 ]0 k  V          throws Exception {
8 z0 \- H# L9 H! `: \+ \          . c6 u1 x5 k; n' K
//Create a file object with the file name* _, X, _, d6 z% n7 u+ T" m( y
//in the argument:
0 B  o! h, n% z* i  I1 V/ OFile fin = new File("fileName1");. C, Q" g2 ]8 T
File fout = new File("fileName2");% `9 p+ a& u( _% A+ Y* [5 |8 L& J% _
//Open and input and output stream
9 J- e. c# J$ j6 [- _FileInputStream fis =
$ ]. }* @( d9 N8 w3 U- g    new FileInputStream(fin);
$ w/ U% i8 z: c6 xFileOutputStream fos = , Y; r$ E% u  C# W3 j# v) `+ Q% @
   new FileOutputStream(fout);, }& |! m: {; q+ S" F$ |6 x. K

! r, G4 X' P! B; }BufferedReader in = new BufferedReader(
  ^* H, B: X* ~- q1 w    new InputStreamReader(fis));
/ O, w1 L1 ^! U2 A$ a4 ~) z* pBufferedWriter out = new BufferedWriter(
- d6 b- ~  `* i" u3 u    new OutputStreamWriter(fos));
4 z8 t" A" B9 X9 \1 _- q$ \
1 V7 v/ z9 Y3 i// The pattern matches control characters
6 T/ ?% C" o4 s1 V$ VPattern p = Pattern.compile("{cntrl}");
$ ]6 ?! U+ ]9 X0 N, e8 k9 ^' T" TMatcher m = p.matcher("");9 }  H) r8 J4 {# P! W
String aLine = null;) m' `: H8 J, O0 O
while((aLine = in.readLine()) != null) {5 K9 q4 o$ T# Y" T9 a  r3 q$ R
m.reset(aLine);, W3 r; u) |) ^; j' r& j5 t
//Replaces control characters with an empty
; ~. C$ w4 U  w0 R/ {+ F' Q, r//string.
3 F4 J6 Y' _4 [6 x, @String result = m.replaceAll("");3 c! K( }. R  N8 H( T! w
out.write(result);& g- `; X* z0 ^# Y0 d, i# k
out.newLine();3 _! c1 r, @; D: {
}
- |  F2 J/ ~5 R$ E4 Xin.close();
( ?% l- x  U7 `! ]4 gout.close();
3 ]/ A, v3 N, ]1 d3 h% I" ?1 j6 Y+ `}  v6 Y% w8 ~% Y0 o/ f
}  [5 ~  U& a+ \  I. Z: Q  F% F

5 N  m+ j; I7 ]文件查找 4 p5 R6 q5 u, r. i% @2 i( q

6 v7 c  l$ _$ i8 i% o/*- a5 S1 |' z/ Y: a
* Prints out the comments found in a .java file.3 c) k& i0 O4 x8 v, j
*/
/ g3 A. o! j& h* v" E; R% Himport java.util.regex.*;
- N$ U  ]% j* `" @( l9 |! n6 Mimport java.io.*;
  I- x( O& T. N) bimport java.nio.*;( i2 `/ C1 X, w1 j% X! g/ J" h
import java.nio.charset.*;9 Z( o0 M7 U$ F! j) C
import java.nio.channels.*;- G# O4 b0 E% `0 ]; A: R$ r* F
' z6 m$ v- v. R& z7 B$ x4 h# B
public class CharBufferExample {
" R% \0 V& c  c7 i2 n% Jpublic static void main(String[] args) throws Exception {
* g$ ?" {. M" K7 `  N// Create a pattern to match comments8 |% y' S1 ^$ Z
Pattern p = - K$ Y( v  H' B& G0 l% }
Pattern.compile("//.*$", Pattern.MULTILINE);7 {# g/ G. [. x6 }3 f% z
1 B) }8 C1 ^0 I5 I: e
// Get a Channel for the source file
& t$ M6 j1 x. v( s& i  _$ R1 j- X6 aFile f = new File("Replacement.java");" b, i- u2 |- g3 _: h
FileInputStream fis = new FileInputStream(f);
  ^3 r6 b! e& I7 _# D$ `3 A" WFileChannel fc = fis.getChannel();& [4 [0 o) w) _+ L5 d8 k% ?
6 G$ ^6 ~  p7 x, U
// Get a CharBuffer from the source file
0 [1 C* _; g) d+ MByteBuffer bb = 6 k! e" J& ^* g! w4 W1 B
fc.map(FileChannel.MAP_RO, 0, (int)fc.size());
6 O/ K/ N$ ^1 h* c' pCharset cs = Charset.forName("8859_1");4 T) Y! w3 }6 ~: y0 M
CharsetDecoder cd = cs.newDecoder();1 z, X2 E7 c  y# N8 I$ s. y
CharBuffer cb = cd.decode(bb);1 J# [. w8 x( \8 I/ U
1 V* _% @% u$ Q- S; y0 U, X
// Run some matches
- R" B1 e% [$ aMatcher m = p.matcher(cb);
5 ^* C  X7 i+ h5 k+ @! ^, Q# L* Rwhile (m.find())
$ |. K* J4 A0 pSystem.out.println("Found comment: "+m.group());
! X& C, \) d! v}9 n% X, B9 h  q  G! ]& S5 u
}
( {' k* R; U6 U1 L6 G9 d) y
7 X" b! |+ N/ V6 Y/ ?! a% t结论
4 o# u% n) M; Q  z- w& k现在Java编程语言中的模式匹配和许多其他编程语言一样灵活了。可以在应用程序中使用正则表达式，确保数据在输入数据库或发送给应用程序其他部分之前，格式是正确的，正则表达式还可以用于各种各样的管理性工作。简而言之，在Java编程中，可以在任何需要模式匹配的地方使用正则表达式。
# ?0 N$ ~9 [0 @5 R1 N+ P. o! e
9 ?) |& J- y3 mJDK1.4之正規表示式7 ^  G/ i' u6 `8 {1 O% \5 j" U  h
written by william chen(06/19/2002)' h! e% E9 |8 @6 P- _

: p" z. ]1 K! @4 Q6 u* P) C& N--------------------------------------------------------------------------------
' V/ F9 c$ u) x3 ^4 `% W8 z' ]9 g' J( v, {+ l, P2 l
什麼是正規表示式呢(Reqular Expressions)$ ^/ a' T: W; c4 f2 ^9 a0 c
3 G* A1 G6 {" z' O# H
就是針對檔案、字串，透過一種很特別的表示式來作search與replace
  c% D3 a" x" r% f: X+ g( T
  ^$ G) E6 S6 a- S1 h0 y因為在unix上有很多系統設定都是存放在文字檔中，因此網管或程式設計常常需要作搜尋與取代1 f) f, l2 j" t. A; Z3 i; W
! U7 o2 C0 Q$ n; k, s, @
所以發展出一種特殊的命令叫做正規表示式4 O" R# I0 C" J# G; _

) Q4 a; x& T( T3 p* }. g" D3 e我們可以很簡單的用 "s/
0 ^$ l: t* j7 {- B因此jdk1.4提供了一組正規表示式的package供大家使用
- P5 d/ T- C. [6 B
& ~+ d, @( {# F! [5 o若是jdk1.4以下的可以到http://jakarta.apache.org/oro取得相關功能的package
9 v5 x! B. i: s: A3 g
& s5 A8 v, p) |6 J剛剛列出的一串符號" s/# U. Y: c3 u  o- ~/ q& s
適用於j2sdk1.4的正規語法. i% k. _7 N4 B# e. R; x- v# S

( }$ k" c) ^' I* {. g$ {6 b"." 代表任何字元
" k( k$ w% K% m0 D( V( a+ v
# m# s& n2 o8 B# l正規式原字串符合之字串
- q4 Q1 K' V) G. ab a
' Q/ m$ ]6 G* u* U' w.. abc ab + }' W6 V0 w2 F8 C1 `

0 Q) A  a7 ^& r7 g4 r7 y) h" z$ u"+" 代表一個或以個以上的字元
; H5 r/ V5 Q) R/ C9 a"*" 代表零個或是零個以上的字元
5 a1 U5 y- X& e) ^( c+ w: D# Q. i
正規式原字串符合之字串
6 a3 r; K, n) g4 d6 u+ ab ab
/ w" S7 p1 k6 t% @* abc abc - K1 C; _0 n% h% W: ?& `  k
& S! J7 l5 j8 U; o
"( )"群組4 d, c+ r& M, B; N

$ C  ?- r; O) G& }正規式原字串符合之字串
+ j  d8 p3 I7 `, c( V(ab)* aabab abab . Y! R) M9 o3 s! O3 r' C
( C, g/ Q8 a, u2 m2 r- e$ `7 h
字元類
4 q  Y& a- j  g! b/ f7 n$ D- {6 W% [, r
正規式原字串符合之字串 & I# x# L( ^: n4 d  E4 i
[a-dA-D0-9]* abczA0 abcA0 $ h, N4 X. V/ B, T* f( D
[^a-d]* abe0 e0 - y  z8 }7 a; j1 \1 H" N, c
[a-d]* abcdefgh abab ; O3 @/ I7 \% l; t5 x
% N3 l+ X  l8 M# g' n1 h0 S  U$ c5 U
6 F) E: j7 b/ H7 |9 q  u4 \
簡式
( ?& \, e" }; t( ?# t! y& C) F# B" d0 `) Q( _; X( ~6 s7 {( ^2 ?
\d 等於 [0-9] 數字
- L- i5 f" U" p7 p  R\D 等於 [^0-9] 非數字
* |" Y2 f% a0 c& P\s 等於 [ \t\n\x0B\f\r] 空白字元 # d$ Z0 m& F3 {0 d
\S 等於 [^ \t\n\x0B\f\r] 非空白字元 ) h5 j* n; p. v0 I! |
\w 等於 [a-zA-Z_0-9] 數字或是英文字
$ R: p2 I; _9 x: {& K! `8 d\W 等於 [^a-zA-Z_0-9] 非數字與英文字
- `/ O- N) Q, L* b8 n/ X; R5 l/ h
- M* f3 V4 t' i& ^( O$ x4 i每一行的開頭或結尾
/ a- f* T" s! b
^ 表示每行的開頭8 ~( B% w6 L4 K3 p/ F, J8 [
$ 表示每行的結尾1 N4 }5 O  M: b$ p" ?9 r2 I
: x. Z& q2 i, L$ |. _* {
--------------------------------------------------------------------------------
& P0 E+ C2 z6 z7 j$ V7 u2 F+ ?/ s( k. Y
正規表示式 java.util.regex 相關的類別 ! C* b' d! A2 v

5 j- _1 w- }, Z3 i6 a* }Pattern—正規表示式的類別
# I& w9 B5 K* ^0 F( l$ x% ?$ W& `Matcher—經過正規化的結果
% t2 Y2 Y% s+ {" Y$ B. r. APatternSyntaxExpression—Exception thrown while attempting to compile a regular expression
1 A3 [* n9 w. M" S& F4 O1 e  ^" {7 P+ ^% t3 P9 a" z
範例1: 將字串中所有符合"<"的字元取代成"lt;"
" ]5 n8 w6 r$ U" e% I) ~! I- v9 l9 b; {4 k! V  X
import java.io.*;) ^) q4 Q) P0 \# l
import java.util.regex.*;$ |1 Q1 r, z& P4 ^+ E0 [
/**
+ n/ y" T: c0 g* 將字串中所有符合"<"的字元取代成"lt;"# P" L+ q0 O3 n# w, }
*/# ^2 B, r; Z9 z" A/ T
public static void replace01(){) R  c4 I* B/ K8 E7 T5 x# ]
// BufferedReader lets us read line-by-line! ]7 \& |) ?1 j$ P) f7 T: j
Reader r = new InputStreamReader( System.in );1 ?9 I) P( p( k% A8 _
BufferedReader br = new BufferedReader( r );
2 H: w7 E% R  A% [Pattern pattern = Pattern.compile( "<" ); // 搜尋某字串所有符合'<'的字元
& c# J1 x4 a0 t; i" @' C2 X5 Mtry{8 }& |4 ~3 R) |3 M# p" u
while (true) {& o# F! y& b% y5 @
String line = br.readLine();
  K2 c2 j) |) p# y! |$ r8 Z0 n// Null line means input is exhausted
if (line==null)
( \9 M% W8 g6 K+ q* zbreak;
. z: ?- ]1 O) }3 p8 G( ?Matcher a = pattern.matcher(line);* w  T  N( P: L
while(a.find()){
9 g3 Y8 x) [, {& HSystem.out.println("搜尋到的字元是" + a.group());
; K* k2 g) w; x6 k: P}
& A! X3 q4 P& X2 t3 F, m. {System.out.println(a.replaceAll("lt;"));// 將所有符合字元取代成lt;
3 J3 U% r/ l9 P$ r5 g' R}$ Z5 [5 Y9 @/ }  a7 L( B( r& w5 n
}catch(Exception ex){ex.printStackTrace();};
0 N; R& x; N' p}1 s8 [; D( O2 k7 h; z2 ^, y! V

* N0 _  j( H1 J& a範例2: 1 L. A3 c* D( y% ?
8 Q/ h! ^1 |* t: A
import java.io.*;
7 E; O3 o: [" Kimport java.util.regex.*;3 O9 M+ m9 E" \, H, I3 L$ K' D
/**8 C" g2 _8 n$ h) k% v
* 類似StringTokenizer的功能
. f. [6 Q, X/ i* a* 將字串以","分隔然後比對哪個token最長
5 n- ^( _3 [) Q4 r3 A% K*/8 v# [" g2 j9 Z
public static void search01(){* a! Y- O# V3 K; P) i7 q9 e" q5 _
// BufferedReader lets us read line-by-line
! e6 ~* J  A8 ]0 ?: aReader r = new InputStreamReader( System.in );
: X* e/ Z4 J0 x( W+ EBufferedReader br = new BufferedReader( r );
  P' W+ o$ G' t2 qPattern pattern = Pattern.compile( ",\\s*" );// 搜尋某字串所有","的字元$ ?# S0 J: ?# k, }5 n! T
try{
4 N- {6 a5 b% I: F4 ?. qwhile (true) {7 w4 M" V, l% B3 \6 K4 k
String line = br.readLine();- S/ k) D$ B1 X
String words[] = pattern.split(line);/ |7 ^! H* a, k; ~
// Null line means input is exhausted8 o& ]2 J, q) Y6 G
if (line==null)/ y9 q3 o( ]1 e1 E. J4 v% i
break;( z/ F7 Z- V# @# |& t' B, P
// -1 means we haven't found a word yet6 T* D8 r4 |9 ?0 A6 m0 a
int longest=-1;3 \* Z5 M: ?& i& q
int longestLength=0;
- P6 z0 g8 ]3 a# ?& N- L6 b) S+ n, }for (int i=0; iSystem.out.println("分段:" + words );
2 z7 a" D6 M7 N; `6 y( bif (words.length() > longestLength) {& Z. r' K' |4 E% z! j0 ]* d5 s
longest = i;) J+ C, d4 j; d0 `
longestLength = words.length();
2 D% E6 G9 h6 K: M7 f4 Q9 R}
( {% s/ v7 D: Y" I}- k: @5 k# h2 l7 {9 M& H+ K
System.out.println( "長度最長為:" + words[longest] );( k! g+ X: _+ n7 }1 O
}+ b8 t2 H+ q- v9 {0 ^! P& b8 G
}catch(Exception ex){ex.printStackTrace();};
% `5 R) g9 e0 Y5 Q( f$ w}- u& C- \+ C6 C

3 u- o$ t, r# B6 I--------------------------------------------------------------------------------% S# y+ e: r" x5 T; H+ R3 B

' g' p  [; u& C7 s; T! l其他的正規語法& w8 h7 S6 U5 S( p" l
, U  [/ [% N4 ^* ]' Z! \$ B* E
/^\s* # 忽略每行開始的空白字元; l/ `; h8 @; J' h2 _( i+ _% T5 O
(M(s|r|rs)\.) # 符合 Ms., Mrs., and Mr. (titles)