查看: 658|回复: 1

关于正则表达式---ZT [复制链接]

Longe

管理员

论坛测试[砖]家

Rank: 12

金币: 7308
贡献: 615
威望: 9151
最后登录: 2026-7-16
帖子: 1875
积分: 25896
UID: 10

电梯直达

1楼

发表于 2009-11-9 13:04:38 |只看该作者 |倒序浏览

第一部分：
-----------------
正则表达式(REs)通常被错误地认为是只有少数人理解的一种神秘语言。在表面上它们确实看起来杂乱无章，如果你不知道它的语法，那么它的代码在你眼里只是一堆文字垃圾而已。实际上，正则表达式是非常简单并且可以被理解。读完这篇文章后，你将会通晓正则表达式的通用语法。

支持多种平台

正则表达式最早是由数学家Stephen Kleene于1956年提出，他是在对自然语言的递增研究成果的基础上提出来的。具有完整语法的正则表达式使用在字符的格式匹配方面上，后来被应用到熔融信息技术领域。自从那时起，正则表达式经过几个时期的发展，现在的标准已经被ISO(国际标准组织)批准和被Open Group组织认定。

正则表达式并非一门专用语言，但它可用于在一个文件或字符里查找和替代文本的一种标准。它具有两种标准：基本的正则表达式(BRE)，扩展的正则表达式(ERE)。ERE包括BRE功能和另外其它的概念。

许多程序中都使用了正则表达式，包括xsh,egrep,sed,vi以及在UNIX平台下的程序。它们可以被很多语言采纳，如HTML 和XML，这些采纳通常只是整个标准的一个子集。

比你想象的还要普通
随着正则表达式移植到交叉平台的程序语言的发展，这的功能也日益完整，使用也逐渐广泛。网络上的搜索引擎使用它，e-mail程序也使用它，即使你不是一个UNIX程序员，你也可以使用规则语言来简化你的程序而缩短你的开发时间。

正则表达式101
很多正则表达式的语法看起来很相似，这是因为你以前你没有研究过它们。通配符是RE的一个结构类型，即重复操作。让我们先看一看ERE标准的最通用的基本语法类型。为了能够提供具有特定用途的范例，我将使用几个不同的程序。

第二部分：
----------------------
字符匹配

正则表达式的关键之处在于确定你要搜索匹配的东西，如果没有这一概念，Res将毫无用处。

每一个表达式都包含需要查找的指令，如表A所示。

Table A: Character-matching regular expressions
格式说明：
---------------
操作：
解释：
例子：
结果：
----------------
.
Match any one character
grep .ord sample.txt
Will match “ford”, “lord”, “2ord”, etc. in the file sample.txt.
-----------------
[ ]
Match any one character listed between the brackets
grep [cng]ord sample.txt
Will match only “cord”, “nord”, and “gord”
---------------------
[^ ]
Match any one character not listed between the brackets

grep [^cn]ord sample.txt
Will match “lord”, “2ord”, etc. but not “cord” or “nord”

grep [a-zA-Z]ord sample.txt
Will match “aord”, “bord”, “Aord”, “Bord”, etc.

grep [^0-9]ord sample.txt
Will match “Aord”, “aord”, etc. but not “2ord”, etc.

重复操作符
重复操作符，或数量词，都描述了查找一个特定字符的次数。它们常被用于字符匹配语法以查找多行的字符，可参见表B。

Table B: Regular expression repetition operators
格式说明：
---------------
操作：
解释：
例子：
结果：
----------------
?
Match any character one time, if it exists
egrep “?erd” sample.txt
Will match “berd”, “herd”, etc. and “erd”
------------------
*
Match declared element multiple times, if it exists
egrep “n.*rd” sample.txt
Will match “nerd”, “nrd”, “neard”, etc.
-------------------
+
Match declared element one or more times
egrep “[n]+erd” sample.txt
Will match “nerd”, “nnerd”, etc., but not “erd”
--------------------
{n}
Match declared element exactly n times
egrep “[a-z]{2}erd” sample.txt
Will match “cherd”, “blerd”, etc. but not “nerd”, “erd”, “buzzerd”, etc.
------------------------
{n,}
Match declared element at least n times
egrep “.{2,}erd” sample.txt
Will match “cherd” and “buzzerd”, but not “nerd”
------------------------
{n,N}
Match declared element at least n times, but not more than N times
egrep “n[e]{1,2}rd” sample.txt
Will match “nerd” and “neerd”

第三部分：
----------------
锚
锚是指它所要匹配的格式，如图C所示。使用它能方便你查找通用字符的合并。例如，我用vi行编辑器命令:s来代表substitute，这一命令的基本语法是：

s/pattern_to_match/pattern_to_substitute/

Table C: Regular expression anchors
-------------
操作
解释
例子
结果
---------------
^
Match at the beginning of a line
s/^/blah /
Inserts “blah “ at the beginning of the line
---------------
$
Match at the end of a line
s/$/ blah/
Inserts “ blah” at the end of the line
---------------
\<
Match at the beginning of a word
s/\Inserts “blah” at the beginning of the word

egrep “\Matches “blahfield”, etc.
------------------
\>
Match at the end of a word
s/\>/blah/
Inserts “blah” at the end of the word

egrep “\>blah” sample.txt
Matches “soupblah”, etc.
---------------
\b
Match at the beginning or end of a word
egrep “\bblah” sample.txt
Matches “blahcake” and “countblah”
-----------------
\B
Match in the middle of a word
egrep “\Bblah” sample.txt
Matches “sublahper”, etc.

间隔

Res中的另一可便之处是间隔(或插入)符号。实际上，这一符号相当于一个OR语句并代表|符号。下面的语句返回文件sample.txt中的“nerd” 和 “merd”的句柄：

egrep “(n|m)erd” sample.txt

间隔功能非常强大，特别是当你寻找文件不同拼写的时候，但你可以在下面的例子得到相同的结果：

egrep “[nm]erd” sample.txt

当你使用间隔功能与Res的高级特性连接在一起时，它的真正用处更能体现出来。

第四部分：
----------------
一些保留字符
Res的最后一个最重要特性是保留字符(也称特定字符)。例如，如果你想要查找“ne*rd”和“ni*rd”的字符，格式匹配语句“n[ei]*rd”与“neeeeerd” 和 “nieieierd”相符合，但并不是你要查找的字符。因为‘*’(星号)是个保留字符，你必须用一个反斜线符号来替代它，即：“n[ei]\*rd”。其它的保留字符包括：

^ (carat)
. (period)
[ (left bracket}
$ (dollar sign)
( (left parenthesis)
) (right parenthesis)
| (pipe)
* (asterisk)
+ (plus symbol)
? (question mark)
{ (left curly bracket, or left brace)
\ backslash
一旦你把以上这些字符包括在你的字符搜索中，毫无疑问Res变得非常的难读。比如说以下的PHP中的eregi搜索引擎代码就很难读了。

eregi("^[_a-z0-9-]+(\.[_a-z0-9-]+)*@[a-z0-9-]+(\.[a-z0-9-]+)*$",$sendto)

你可以看到，程序的意图很难把握。但如果你抛开保留字符，你常常会错误地理解代码的意思。

总结
在本文中，我们揭开了正则表达式的神秘面纱，并列出了ERE标准的通用语法。如果你想阅览Open Group组织的规则的完整描述，你可以参见：Regular Expressions，欢迎你在其中的讨论区发表你的问题或观点。

另外一篇文章
----------------------------------------
正则表达式和Java编程语言
-----------------------------------------
类和方法

下面的类根据正则表达式指定的模式，与字符序列进行匹配。

Pattern类

Pattern类的实例表示以字符串形式指定的正则表达式，其语法类似于Perl所用的语法。

用字符串形式指定的正则表达式，必须先编译成Pattern类的实例。生成的模式用于创建Matcher对象，它根据正则表达式与任意字符序列进行匹配。多个匹配器可以共享一个模式，因为它是非专属的。

用compile方法把给定的正则表达式编译成模式，然后用 matcher方法创建一个匹配器，这个匹配器将根据此模式对给定输入进行匹配。pattern 方法可返回编译这个模式所用的正则表达式。

split方法是一种方便的方法，它在与此模式匹配的位置将给定输入序列切分开。下面的例子演示了：

/*
* 用split对以逗号和/或空格分隔的输入字符串进行切分。
*/
import java.util.regex.*;

public class Splitter {
public static void main(String[] args) throws Exception {
// Create a pattern to match breaks
Pattern p = Pattern.compile("[,\\s]+");
// Split input with the pattern
String[] result =
p.split("one,two, three four , five");
for (int i=0; iSystem.out.println(result);
1 O- T. `5 _7 d) h6 {5 o}
) i* m7 r  @6 P. F}
  `0 n: Z: W6 E  o2 [9 g3 z7 c$ L
( Q: C/ x8 N. k. R+ p! vMatcher类 ( U9 T: E5 O& {% F  k

+ {- c" C. Y* E! f9 h' I1 j, [Matcher类的实例用于根据给定的字符串序列模式，对字符序列进行匹配。使用CharSequence接口把输入提供给匹配器，以便支持来自多种多样输入源的字符的匹配。' n- v0 u: x# C+ r7 w& G
+ o. l* s! ^1 G1 J8 d
通过调用某个模式的matcher方法，从这个模式生成匹配器。匹配器创建之后，就可以用它来执行三类不同的匹配操作：
# t- X, y  [& j9 _
matches方法试图根据此模式，对整个输入序列进行匹配。
4 n* D6 E+ Y( C' W  Y, Q9 b" p+ t: klookingAt方法试图根据此模式，从开始处对输入序列进行匹配。
0 b; g$ n3 {# b+ [+ l  c4 Nfind方法将扫描输入序列，寻找下一个与模式匹配的地方。 4 m& b6 ~( x4 d1 G, ^- \
5 s2 h. X' ^$ _' e5 z9 `2 X
这些方法都会返回一个表示成功或失败的布尔值。如果匹配成功，通过查询匹配器的状态，可以获得更多的信息+ {6 u9 r+ i$ a$ a

* q& K  W. b. q9 V. w2 C这个类还定义了用新字符串替换匹配序列的方法，这些字符串的内容如果需要的话，可以从匹配结果推算得出。
$ b3 ?$ [8 C: D) @- |
5 l0 [8 E9 |4 f2 J  HappendReplacement方法先添加字符串中从当前位置到下一个匹配位置之间的所有字符，然后添加替换值。appendTail添加的是字符串中从最后一次匹配的位置之后开始，直到结尾的部分。; U$ o8 G" k5 ]9 ?- z6 R
5 O! N0 q8 S; ]1 P- z
例如，在字符串blahcatblahcatblah中，第一个 appendReplacement添加blahdog。第二个 appendReplacement添加blahdog，然后 appendTail添加blah，就生成了： blahdogblahdogblah。请参见示例简单的单词替换。0 W* F/ p; c1 q( M
" O, q7 `* Q( q& A
CharSequence接口% d( K' Q6 X4 K

% m; Q" l7 J" ]% F/ q: i0 |7 SCharSequence接口为许多不同类型的字符序列提供了统一的只读访问。你提供要从不同来源搜索的数据。用String, StringBuffer 和CharBuffer实现CharSequence,，这样就可以很容易地从它们那里获得要搜索的数据。如果这些可用数据源没一个合适的，你可以通过实现CharSequence接口，编写你自己的输入源。" ]. I& `! O& E3 [$ k
6 |# x- g! H/ i5 ~
Regex情景范例$ R7 p1 j8 n  E  j8 i, l

: J) Y7 {0 @% e: }以下代码范例演示了java.util.regex软件包在各种常见情形下的用法：9 q' h% n4 I# I  |. m$ D

& x: F' [6 L" y简单的单词替换. q, O6 L/ d) }) Q8 f
( y  N; w; H0 d; y2 k2 j# g
/*
; ?' }* q$ [! K5 Y5 ?* This code writes "One dog, two dogs in the yard."$ w) g. A% K: I4 Y8 V8 W
* to the standard-output stream:
0 t5 G; g# Y3 F5 U/ E5 y/ g*/
. w5 G$ s; ]! ?import java.util.regex.*;
, W* M, K( P, q( u  ]
) D6 v7 [5 D- V  G, s; Fpublic class Replacement {% J/ e1 v9 ~& b8 t1 C$ z
public static void main(String[] args) + x8 e- o. F3 p- a
   throws Exception {
$ }) b: g; F2 m/ e+ |7 C) U* n: D// Create a pattern to match cat- e3 j& ?# V" Q1 D) R6 U
Pattern p = Pattern.compile("cat");, p6 ?/ Q* i& i
// Create a matcher with an input string
) J" t3 H* [6 t2 {1 J% U' ^7 fMatcher m = p.matcher("one cat," +
; Z0 X' v) c% |! O3 q1 \    " two cats in the yard");& u0 s" }( i, X  L& p: E2 d
StringBuffer sb = new StringBuffer();
6 \4 |# `6 d4 [( ]) v1 s* lboolean result = m.find();0 l4 P2 }( M4 _5 e( A5 ?, \
// Loop through and create a new String 0 h# z5 @- Q! U) Z8 i$ M
// with the replacements
% W3 E4 z  N1 `/ Z' t0 wwhile(result) {
1 X6 z: y. F( i' X& Cm.appendReplacement(sb, "dog");6 S* v2 Y( q; Z6 r& [5 w$ d
result = m.find();
1 b( F& ~0 k2 {}
) ]) p  a+ I) P- L4 H// Add the last segment of input to 0 Q/ K6 ?2 a" T' f6 X
// the new String
& I8 ]% B3 ~1 d8 n7 z1 Y. ?! ym.appendTail(sb);
7 {$ L- d' l+ g/ B$ ?System.out.println(sb.toString());
6 j. q& Q8 o8 H& c0 q0 J8 Y" K}& G+ J* j, y) m0 x
}
9 \) V# d) m8 H" z( |9 O, Y* l' w5 e0 b; w1 W" a  H& S
电子邮件确认
8 Q" k2 H% n- R* r7 x3 ~' v5 |% w6 D8 X. L! N9 H0 d
以下代码是这样一个例子：你可以检查一些字符是不是一个电子邮件地址。它并不是一个完整的、适用于所有可能情形的电子邮件确认程序，但是可以在需要时加上它。$ W/ X0 M9 A2 Y4 |5 B

4 k( {" ~2 i0 G: w) Z/*6 d' T5 X4 T5 ]+ m
* Checks for invalid characters/ T. i+ Z1 p/ z( J( v
* in email addresses# }. ]& M3 y4 C6 g7 Y7 G
*/( z: h# r, f) z
public class EmailValidation {
$ I) Y( |5 \2 \) mpublic static void main(String[] args)
( \" }8 E: v" [% y2 M  e6 U. J          throws Exception {' q8 L  W& L7 ~1 h7 P

, @  `+ ~/ B3 h5 R$ WString input = "@sun.com";
6 w. e( f  ~/ m$ T8 ^, N& v# s//Checks for email addresses starting with% N6 @( ]% @( }0 W- p- x. i  O
//inappropriate symbols like dots or @ signs.6 R  K% m" o4 C0 J
Pattern p = Pattern.compile("^\\.|^\\@");) c3 u9 c8 o, ^& \) {' w" o
Matcher m = p.matcher(input);
5 l% z8 `& _- o  M6 ], z2 D' oif (m.find())
* }* C# B% }0 r3 ISystem.err.println("Email addresses don't start" +
7 k0 n( c  Z2 v) H# V5 R; r       " with dots or @ signs.");
! Y2 _' b' I( r0 {. P//Checks for email addresses that start with
. d8 C% p; m, M+ g( V* W+ a7 \//www. and prints a message if it does.
. e( O# S# ]& [p = Pattern.compile("^www\\.");
0 B$ b1 ?* _9 t/ u% [1 H; G7 ~m = p.matcher(input);" z* Y* d7 |: L4 f6 I7 M
if (m.find()) {* O. R+ h, d' v
System.out.println("Email addresses don't start" +6 ^5 B( G6 Q. D" D
" with \"www.\", only web pages do.");
& f% i/ l1 q1 U& Y, W}
9 _) Z4 u1 r- d. a+ Rp = Pattern.compile("[^A-Za-z0-9\\.\\@_\\-~#]+");
8 L2 J' _3 D  G* U2 G5 em = p.matcher(input);( w! e) Z) E+ _, W7 o1 o
StringBuffer sb = new StringBuffer();2 |5 ?5 G) K# B: S, |
boolean result = m.find();4 j/ R5 }9 m5 J) o
boolean deletedIllegalChars = false;! o0 v" y  C7 y) e: z
! }, {! Z" n( P( F# n* _9 A
while(result) {
, P0 m; W, I# ~4 B, U1 adeletedIllegalChars = true;
7 e5 r; P& [  G+ \" q1 Q& x. Vm.appendReplacement(sb, "");
+ J6 e  r0 _4 d' Nresult = m.find();2 [, d2 T4 E( w- |9 ^
}- v/ ~  b: M# m$ k% b9 I8 K1 c

+ x3 N& P9 T" r& U* P- _! M: N3 `// Add the last segment of input to the new String) {( }+ r+ F7 U. P- q! c& P
m.appendTail(sb);- `- Y5 T0 a' w- @7 b- o  a
% l, |4 |3 u8 J1 K2 ^
input = sb.toString();, M3 c' R# _2 Q, D! }3 q0 {

0 A# [& Q! L4 F2 {& U# d* `if (deletedIllegalChars) {
- e: y7 z" P. F, nSystem.out.println("It contained incorrect characters" +9 {" f& r2 ?" g
   " , such as spaces or commas.");& l' ]% ~0 v1 T) {# }
}
2 a" q4 ~. D+ i  ^6 Q7 |, c- j/ _}; Z- {: m# b  _4 H7 d+ A
}
) b% y% m' a% ^7 ~8 @+ L' ~( w
. d' C$ q' [( X5 r7 c从文件中删除控制字符2 P  U& n8 r0 f1 h* c

& d) r; V8 K/ V& Y+ ]/* This class removes control characters from a named
9 w( x" F) k& z( q& n8 e* file.) }* v9 s2 E% z1 i; @' u* |
*/
: }  R0 \( T0 C; ~- Limport java.util.regex.*;
, r1 r# T1 S0 b% {" `+ V# U+ yimport java.io.*;7 y0 f: Z4 L$ a4 H

- t  {. @  S0 l- f$ c3 D6 Spublic class Control {
: a3 B9 t$ a; l4 npublic static void main(String[] args)
6 ^9 {* W1 J$ v  d5 F2 x( f! W          throws Exception {! ~7 C/ o  u0 z* D* F* e

$ Y* N; x9 {. O8 |; H//Create a file object with the file name
! U& }& D9 H9 t" T' _5 }//in the argument:
+ N  s% N; h, _7 p3 \. hFile fin = new File("fileName1");
2 b* X8 Y8 j5 }  P& @4 q7 NFile fout = new File("fileName2");
; O* ?7 M0 k, o  E% k* V# Z5 j//Open and input and output stream7 B5 W4 t5 i. m8 z* Z6 `) a
FileInputStream fis =
  b- {8 \' ]3 i9 v/ y3 i- H    new FileInputStream(fin);0 V! l4 D! i6 D3 j- d- ^2 y
FileOutputStream fos =   f1 X; e+ p% r/ N4 [% T6 C
   new FileOutputStream(fout);
1 ^  U/ d0 E9 a, W$ X
7 J$ r& d" @9 F% ZBufferedReader in = new BufferedReader(; ]/ L0 D9 C2 i1 _# Q6 G8 v  u
   new InputStreamReader(fis));
( _$ ]" b6 d% b  L7 _% ~: g& SBufferedWriter out = new BufferedWriter(, v7 q6 @5 K2 f$ r* }" `
   new OutputStreamWriter(fos));8 \( u  O+ x9 A* e

) q$ S: W+ B) _// The pattern matches control characters
0 q! X5 R6 l. a) J/ q* P2 OPattern p = Pattern.compile("{cntrl}");
& j7 U; ~  Y* i. a, CMatcher m = p.matcher("");8 p! |" h" ~) i- ^: F7 v4 ?$ e
String aLine = null;
4 l& T, r  |1 E- `' {- s; U/ Mwhile((aLine = in.readLine()) != null) {0 S  K+ G# e; g. X
m.reset(aLine);" _$ b/ L! j1 w
//Replaces control characters with an empty
" R# Z* t! p; c! Q/ r+ ]//string.
( A+ B8 J9 O  V6 H3 O$ |String result = m.replaceAll("");
/ ]) K3 X" P4 m- `1 L7 uout.write(result);
8 |5 {! Q/ A  r) }& }) ~out.newLine();
8 M: s' S) @9 ?$ w. j( y( a5 y}+ B6 R+ m% a9 Q; p7 P+ g9 W# D8 n3 P' C
in.close();7 o* ~: K1 _* i" t1 ^# P- p
out.close();: L. {( K) x- [; g6 }/ `
}
5 r! H6 |/ V9 `1 p}
' A1 ~( w- ]( I% f! `
2 N8 c5 C3 k  S文件查找
/ W. |: {7 D  X& O  Y6 b# Y2 D8 j& k
/*
! E/ ^! _) e: j* e) I9 P* Prints out the comments found in a .java file.
4 k5 ^% E( G5 m1 ~% K*/' f% U7 F' \5 M8 S
import java.util.regex.*;/ |( l8 {$ U8 F! }$ t1 _1 r
import java.io.*;$ B' [( K) T  ~' i- \3 x! r3 f2 n% G9 V
import java.nio.*;! t. E5 u* W0 s' h6 x% U3 j
import java.nio.charset.*;- W" f1 d( A& h; E2 x& F
import java.nio.channels.*;
+ W1 B" ?* t& n7 t  g$ m8 ?! e8 m
0 u: z2 G  _) k9 n  ]* z/ ipublic class CharBufferExample {
) r" }, h- @  m# kpublic static void main(String[] args) throws Exception {  J  j' o! J; V. V4 U  V2 t
// Create a pattern to match comments4 g/ C( a" f4 N$ q
Pattern p =
; |2 Z% X8 U: q$ ?/ @Pattern.compile("//.*$", Pattern.MULTILINE);: ]  M( m0 o  p; O1 o

: X0 [( Z* X" j$ T: q5 `2 A// Get a Channel for the source file' o8 S# L( u: N0 m+ a
File f = new File("Replacement.java");7 Y$ k. G) s+ W, K. N5 k+ b
FileInputStream fis = new FileInputStream(f);
5 [* i. n6 N. U9 F3 v; p- uFileChannel fc = fis.getChannel();9 P: K/ k2 d0 L- L& o. n

( Q+ ?. |7 ~6 {( r// Get a CharBuffer from the source file
" b4 i/ f! e- A, q" FByteBuffer bb = * S% W  ~; e: ]8 m
fc.map(FileChannel.MAP_RO, 0, (int)fc.size());2 m" T" L( _9 p6 w4 q& a* v, d
Charset cs = Charset.forName("8859_1");4 R  }: [; g* v5 p% z
CharsetDecoder cd = cs.newDecoder();
! P' \' G2 U7 eCharBuffer cb = cd.decode(bb);
# U; P. e6 u# X4 S. N" V/ C
) A9 A' M  }- L( Y$ m- J// Run some matches
9 i& H2 y0 e- l5 L! FMatcher m = p.matcher(cb);: W3 D7 J6 Q/ _( x3 N
while (m.find())  d# O1 B5 r; {- P- I$ O
System.out.println("Found comment: "+m.group());
4 |5 y4 k( h- [( J$ J  }}
7 U7 K2 m4 [7 i8 [}
- ]& ~1 m$ @5 f7 y
: g. M3 v& P0 f; w结论
9 I" F: s! q5 s4 j1 w现在Java编程语言中的模式匹配和许多其他编程语言一样灵活了。可以在应用程序中使用正则表达式，确保数据在输入数据库或发送给应用程序其他部分之前，格式是正确的，正则表达式还可以用于各种各样的管理性工作。简而言之，在Java编程中，可以在任何需要模式匹配的地方使用正则表达式。
$ M3 i9 s, N6 F8 n1 y, e9 V2 X5 ]" {# s# ]
JDK1.4之正規表示式" m2 ]6 R: |0 `# l5 @
written by william chen(06/19/2002)0 Z  v$ I3 |, ?) O
2 \0 \# }7 |: K; b
--------------------------------------------------------------------------------) E7 X5 A# h7 x# u) k

# M0 ~: o$ e+ c/ u什麼是正規表示式呢(Reqular Expressions)
$ `2 q- f; `* c: g4 |2 q5 i' N
7 R5 z5 |$ g3 q5 q4 K就是針對檔案、字串，透過一種很特別的表示式來作search與replace
; r6 R, e. q$ U, E$ `
7 I. G6 E( u8 {. R2 `因為在unix上有很多系統設定都是存放在文字檔中，因此網管或程式設計常常需要作搜尋與取代
* H% C( M$ O7 G6 W, X2 K
& p! Z/ O4 [, y* Q& l6 E所以發展出一種特殊的命令叫做正規表示式
$ g; Q6 G- }' Y, M4 z* b/ m- f% z/ h' ]' c) U
我們可以很簡單的用 "s/
, |( }$ j$ U  h- x因此jdk1.4提供了一組正規表示式的package供大家使用
' X- u- p. E+ o  S8 o- b1 q* X; @  _2 X$ k7 _( o, d
若是jdk1.4以下的可以到http://jakarta.apache.org/oro取得相關功能的package% T0 b3 ?& F" L4 a( V

$ h, r/ w! S. n( K9 f2 Z+ [1 \% ^剛剛列出的一串符號" s/- h' a: P! u3 i3 G) z; [( I
適用於j2sdk1.4的正規語法* ?: Y/ m- ?" D9 o4 A

* R9 ~5 u) N' }" K5 T"." 代表任何字元
4 f: \1 ^6 {* x. G8 }6 V. Z% @8 |
# t1 Y: Y/ Z. Y+ w$ p5 W- o& e) L% a正規式原字串符合之字串
: L2 T2 m4 V' V; v( `. ab a % G# n4 N; A4 T, @0 b8 A
.. abc ab - E/ G/ P9 ]( d7 ~6 s

7 k& r: }" V' `7 b7 U, H"+" 代表一個或以個以上的字元
6 A+ K9 g/ m" h$ {. b. [! F1 Z"*" 代表零個或是零個以上的字元
' V, Q4 A, `# G. N0 n# A/ l% y0 L0 _- A
正規式原字串符合之字串 1 r/ q6 Z7 Y8 O9 M8 q- C" X6 v3 Q
+ ab ab   `. P3 A9 ^6 t; a2 B
* abc abc 2 j& @: A, {  k" L2 R

) X0 t& h7 v! \$ ~"( )"群組
4 r0 T0 {  s, [& q4 j4 x& X
. C7 L- _% v/ [1 E正規式原字串符合之字串   M) M7 V: }  j" M7 e# }, T7 \
(ab)* aabab abab
3 u. C8 o6 h) I9 I% E( H% d! r
; x, M% h% f5 s8 o" i- }/ N9 ]1 W字元類
& ^& {  b/ ~5 p1 ]. a! p2 |, y8 G( y" ^( D
正規式原字串符合之字串 : M, q, i6 l3 F
[a-dA-D0-9]* abczA0 abcA0
' J4 S; N: Z7 @[^a-d]* abe0 e0 * x. ]5 |) T% Z# a  l
[a-d]* abcdefgh abab
) H4 L3 K5 D+ |! s# {; e% X4 Q1 a$ E: j% I4 l

8 r+ m. a5 C) u% N4 o0 M簡式2 b# k* ~: e! _( w7 `* E, W$ ~
5 b7 b; t) E; F
\d 等於 [0-9] 數字
- R( F2 b3 I, x% E% ~\D 等於 [^0-9] 非數字 5 Y5 J5 c& B) C+ J: V. {
\s 等於 [ \t\n\x0B\f\r] 空白字元
6 m* C0 R* L9 W\S 等於 [^ \t\n\x0B\f\r] 非空白字元 , p: P/ z4 i2 ~* ]8 f
\w 等於 [a-zA-Z_0-9] 數字或是英文字
" k1 [* m* ]5 `# @' ]: y\W 等於 [^a-zA-Z_0-9] 非數字與英文字 8 F8 r& J! t4 v9 K8 s+ J

( j6 Y% L5 E# f4 ?每一行的開頭或結尾, C$ o* D- m: k- C

( u( a/ B& Q, l" V- R! @^ 表示每行的開頭
: i4 z# P1 b1 k$ 表示每行的結尾3 R7 T/ i) e  {. E# v& W1 y
0 {8 q( c1 Q9 _7 X& {7 x
--------------------------------------------------------------------------------
0 y# [, z2 g; z( O7 ]7 w
- H/ ]) R. m7 ?& I  L4 a正規表示式 java.util.regex 相關的類別
+ E. e5 N5 J% ]# }9 F, O: O
/ V# L. G1 E  r  ^* j. ~Pattern—正規表示式的類別6 W- V0 o, v9 f3 D
Matcher—經過正規化的結果
: V; \' ~# B9 W' A! a1 f7 \8 ]PatternSyntaxExpression—Exception thrown while attempting to compile a regular expression0 X5 c0 Z# Y  ~" j
7 D8 c9 o/ x) X& r& a
範例1: 將字串中所有符合"<"的字元取代成"lt;"
% y- z6 s; f( B
9 W, S: S- a+ nimport java.io.*;
% l6 c; O8 j) k0 Y4 E4 N% F6 rimport java.util.regex.*;; |' {2 n" r& Q. Q3 ~( l
/**0 w- A( g- E+ |' C  g4 R0 K
* 將字串中所有符合"<"的字元取代成"lt;"
) J& n, u0 _8 w2 R& S*/% t( r3 n! A4 t0 I
public static void replace01(){
. _7 a9 {9 F" {7 U" J// BufferedReader lets us read line-by-line6 o+ t( P# n. x" N* z( X9 }% p
Reader r = new InputStreamReader( System.in );' H( W7 K1 h' U( ?9 [8 F" |1 E/ J0 n
BufferedReader br = new BufferedReader( r );3 h* x+ i# O# R" }0 L8 \
Pattern pattern = Pattern.compile( "<" ); // 搜尋某字串所有符合'<'的字元
) y( A4 S+ J8 r3 u' D! [try{# z0 E/ |7 g. L" W4 t# p8 r! _
while (true) {
# r) z1 y# V  H- |4 M- OString line = br.readLine();
4 B  f5 Y" L# e4 y5 }7 m5 o. Y3 L// Null line means input is exhausted' p2 n" w! Q6 b! L) M  [* t, e  ^
if (line==null)
+ ?* K& r& Q9 B: E0 O: xbreak;4 d- v" i& W% C+ @$ o
Matcher a = pattern.matcher(line);
' o9 e/ j9 H  i. i0 ]7 ?- |6 e, wwhile(a.find()){
9 C% n+ P0 V5 |3 [# c" T# o0 h  c# ?System.out.println("搜尋到的字元是" + a.group());, F; C( b3 F' J7 t# l5 p& w
}
# h/ p7 R+ ^5 I- A) Y2 WSystem.out.println(a.replaceAll("lt;"));// 將所有符合字元取代成lt;5 W' v1 o) s" B+ J* b1 J/ t: ?( W
}
4 x% I; H/ m! V}catch(Exception ex){ex.printStackTrace();};  }2 b1 Y  D! n# {( s
}/ N7 L6 p7 R2 y% u

5 @, U$ f2 ]9 F, `範例2:
/ U7 M6 f3 S- A  x* L- I- w4 x! O6 L, ?/ {- l
import java.io.*;% z8 g& R5 [$ J" m0 V' R8 w
import java.util.regex.*;& @7 L- Q0 ?: z# u* O9 M; J
/**
9 w0 N# L5 B, z4 T/ x+ R+ t* 類似StringTokenizer的功能& m( J6 A" M3 b- Z- V+ {2 p
* 將字串以","分隔然後比對哪個token最長7 g- Z7 I  s0 d3 Q, c$ @2 z: p
*/
  C% Q" o8 V- D6 I5 kpublic static void search01(){9 n% I: u; O1 ?7 X' o
// BufferedReader lets us read line-by-line
8 p; V7 t5 J2 [Reader r = new InputStreamReader( System.in );
2 }0 H/ Z  T, a6 z9 dBufferedReader br = new BufferedReader( r );$ \( T/ P3 X- W# ]3 k
Pattern pattern = Pattern.compile( ",\\s*" );// 搜尋某字串所有","的字元
3 ^6 _( A  W1 d2 M3 Y6 xtry{
* h7 P8 h( b# q7 A8 Rwhile (true) {
$ I; w% e0 q+ B; v: SString line = br.readLine();
8 o# ]- T  M; c6 o& AString words[] = pattern.split(line);! i' I( ?" q; J
// Null line means input is exhausted+ s+ ]. u$ {, m) T% R9 h
if (line==null)
break;9 K3 y% v/ J( T
// -1 means we haven't found a word yet
; |/ X7 h# J# t# S) s) j9 w! y1 Gint longest=-1;) `$ V$ c, R) o; D- N
int longestLength=0;
* {- s" O$ K* W3 ?% @2 J" Bfor (int i=0; iSystem.out.println("分段:" + words );
, [- l5 ]6 A' |9 jif (words.length() > longestLength) {5 E; z4 l+ f1 u1 t+ B$ B+ |
longest = i;
7 o9 s) n; W4 Q8 T' c$ P& `! UlongestLength = words.length();
9 M  A0 Y" C8 r5 k* A3 D7 _}. k! r8 K- b$ s" `
}6 X0 i/ F9 x. y* T( H- @
System.out.println( "長度最長為:" + words[longest] );, r% V2 R6 S9 t) m) i# ]5 r( o8 p
}
2 W/ Z7 H7 X( @9 j; h}catch(Exception ex){ex.printStackTrace();};$ r; ?4 J, k6 u& C3 ?0 `8 }
}
- E1 K1 k9 L/ F% b0 O
+ `6 R6 k( w- a( P--------------------------------------------------------------------------------
1 e; v7 z( H' i/ d, ~2 e6 X5 {& E. X0 p! T) P5 H# W; |
其他的正規語法5 q! |6 f0 p  b; ~
* [/ M6 m% ^+ b
/^\s* # 忽略每行開始的空白字元
9 Z. n8 M" B; z/ t" a(M(s|r|rs)\.) # 符合 Ms., Mrs., and Mr. (titles)