查看: 480|回复: 1

关于正则表达式---ZT [复制链接]

Longe

管理员

论坛测试[砖]家

Rank: 12

威望: 9084
在线时间: 1242 小时
金币: 6984
贡献: 300
存款: 1660001
最后登录: 2026-5-10
注册时间: 2006-5-10
帖子: 1840
精华: 6
积分: 15415
阅读权限: 200
UID: 10

电梯直达

1楼

发表于 2009-11-9 13:04:38 |只看该作者 |倒序浏览

第一部分：
-----------------
正则表达式(REs)通常被错误地认为是只有少数人理解的一种神秘语言。在表面上它们确实看起来杂乱无章，如果你不知道它的语法，那么它的代码在你眼里只是一堆文字垃圾而已。实际上，正则表达式是非常简单并且可以被理解。读完这篇文章后，你将会通晓正则表达式的通用语法。

支持多种平台

正则表达式最早是由数学家Stephen Kleene于1956年提出，他是在对自然语言的递增研究成果的基础上提出来的。具有完整语法的正则表达式使用在字符的格式匹配方面上，后来被应用到熔融信息技术领域。自从那时起，正则表达式经过几个时期的发展，现在的标准已经被ISO(国际标准组织)批准和被Open Group组织认定。

正则表达式并非一门专用语言，但它可用于在一个文件或字符里查找和替代文本的一种标准。它具有两种标准：基本的正则表达式(BRE)，扩展的正则表达式(ERE)。ERE包括BRE功能和另外其它的概念。

许多程序中都使用了正则表达式，包括xsh,egrep,sed,vi以及在UNIX平台下的程序。它们可以被很多语言采纳，如HTML 和XML，这些采纳通常只是整个标准的一个子集。

比你想象的还要普通
随着正则表达式移植到交叉平台的程序语言的发展，这的功能也日益完整，使用也逐渐广泛。网络上的搜索引擎使用它，e-mail程序也使用它，即使你不是一个UNIX程序员，你也可以使用规则语言来简化你的程序而缩短你的开发时间。

正则表达式101
很多正则表达式的语法看起来很相似，这是因为你以前你没有研究过它们。通配符是RE的一个结构类型，即重复操作。让我们先看一看ERE标准的最通用的基本语法类型。为了能够提供具有特定用途的范例，我将使用几个不同的程序。

第二部分：
----------------------
字符匹配

正则表达式的关键之处在于确定你要搜索匹配的东西，如果没有这一概念，Res将毫无用处。

每一个表达式都包含需要查找的指令，如表A所示。

Table A: Character-matching regular expressions
格式说明：
---------------
操作：
解释：
例子：
结果：
----------------
.
Match any one character
grep .ord sample.txt
Will match “ford”, “lord”, “2ord”, etc. in the file sample.txt.
-----------------
[ ]
Match any one character listed between the brackets
grep [cng]ord sample.txt
Will match only “cord”, “nord”, and “gord”
---------------------
[^ ]
Match any one character not listed between the brackets

grep [^cn]ord sample.txt
Will match “lord”, “2ord”, etc. but not “cord” or “nord”

grep [a-zA-Z]ord sample.txt
Will match “aord”, “bord”, “Aord”, “Bord”, etc.

grep [^0-9]ord sample.txt
Will match “Aord”, “aord”, etc. but not “2ord”, etc.

重复操作符
重复操作符，或数量词，都描述了查找一个特定字符的次数。它们常被用于字符匹配语法以查找多行的字符，可参见表B。

Table B: Regular expression repetition operators
格式说明：
---------------
操作：
解释：
例子：
结果：
----------------
?
Match any character one time, if it exists
egrep “?erd” sample.txt
Will match “berd”, “herd”, etc. and “erd”
------------------
*
Match declared element multiple times, if it exists
egrep “n.*rd” sample.txt
Will match “nerd”, “nrd”, “neard”, etc.
-------------------
+
Match declared element one or more times
egrep “[n]+erd” sample.txt
Will match “nerd”, “nnerd”, etc., but not “erd”
--------------------
{n}
Match declared element exactly n times
egrep “[a-z]{2}erd” sample.txt
Will match “cherd”, “blerd”, etc. but not “nerd”, “erd”, “buzzerd”, etc.
------------------------
{n,}
Match declared element at least n times
egrep “.{2,}erd” sample.txt
Will match “cherd” and “buzzerd”, but not “nerd”
------------------------
{n,N}
Match declared element at least n times, but not more than N times
egrep “n[e]{1,2}rd” sample.txt
Will match “nerd” and “neerd”

第三部分：
----------------
锚
锚是指它所要匹配的格式，如图C所示。使用它能方便你查找通用字符的合并。例如，我用vi行编辑器命令:s来代表substitute，这一命令的基本语法是：

s/pattern_to_match/pattern_to_substitute/

Table C: Regular expression anchors
-------------
操作
解释
例子
结果
---------------
^
Match at the beginning of a line
s/^/blah /
Inserts “blah “ at the beginning of the line
---------------
$
Match at the end of a line
s/$/ blah/
Inserts “ blah” at the end of the line
---------------
\<
Match at the beginning of a word
s/\Inserts “blah” at the beginning of the word

egrep “\Matches “blahfield”, etc.
------------------
\>
Match at the end of a word
s/\>/blah/
Inserts “blah” at the end of the word

egrep “\>blah” sample.txt
Matches “soupblah”, etc.
---------------
\b
Match at the beginning or end of a word
egrep “\bblah” sample.txt
Matches “blahcake” and “countblah”
-----------------
\B
Match in the middle of a word
egrep “\Bblah” sample.txt
Matches “sublahper”, etc.

间隔

Res中的另一可便之处是间隔(或插入)符号。实际上，这一符号相当于一个OR语句并代表|符号。下面的语句返回文件sample.txt中的“nerd” 和 “merd”的句柄：

egrep “(n|m)erd” sample.txt

间隔功能非常强大，特别是当你寻找文件不同拼写的时候，但你可以在下面的例子得到相同的结果：

egrep “[nm]erd” sample.txt

当你使用间隔功能与Res的高级特性连接在一起时，它的真正用处更能体现出来。

第四部分：
----------------
一些保留字符
Res的最后一个最重要特性是保留字符(也称特定字符)。例如，如果你想要查找“ne*rd”和“ni*rd”的字符，格式匹配语句“n[ei]*rd”与“neeeeerd” 和 “nieieierd”相符合，但并不是你要查找的字符。因为‘*’(星号)是个保留字符，你必须用一个反斜线符号来替代它，即：“n[ei]\*rd”。其它的保留字符包括：

^ (carat)
. (period)
[ (left bracket}
$ (dollar sign)
( (left parenthesis)
) (right parenthesis)
| (pipe)
* (asterisk)
+ (plus symbol)
? (question mark)
{ (left curly bracket, or left brace)
\ backslash
一旦你把以上这些字符包括在你的字符搜索中，毫无疑问Res变得非常的难读。比如说以下的PHP中的eregi搜索引擎代码就很难读了。

eregi("^[_a-z0-9-]+(\.[_a-z0-9-]+)*@[a-z0-9-]+(\.[a-z0-9-]+)*$",$sendto)

你可以看到，程序的意图很难把握。但如果你抛开保留字符，你常常会错误地理解代码的意思。

总结
在本文中，我们揭开了正则表达式的神秘面纱，并列出了ERE标准的通用语法。如果你想阅览Open Group组织的规则的完整描述，你可以参见：Regular Expressions，欢迎你在其中的讨论区发表你的问题或观点。

另外一篇文章
----------------------------------------
正则表达式和Java编程语言
-----------------------------------------
类和方法

下面的类根据正则表达式指定的模式，与字符序列进行匹配。

Pattern类

Pattern类的实例表示以字符串形式指定的正则表达式，其语法类似于Perl所用的语法。

用字符串形式指定的正则表达式，必须先编译成Pattern类的实例。生成的模式用于创建Matcher对象，它根据正则表达式与任意字符序列进行匹配。多个匹配器可以共享一个模式，因为它是非专属的。

用compile方法把给定的正则表达式编译成模式，然后用 matcher方法创建一个匹配器，这个匹配器将根据此模式对给定输入进行匹配。pattern 方法可返回编译这个模式所用的正则表达式。

split方法是一种方便的方法，它在与此模式匹配的位置将给定输入序列切分开。下面的例子演示了：

/*
* 用split对以逗号和/或空格分隔的输入字符串进行切分。
*/
import java.util.regex.*;

public class Splitter {
public static void main(String[] args) throws Exception {
// Create a pattern to match breaks
Pattern p = Pattern.compile("[,\\s]+");
// Split input with the pattern
String[] result =
p.split("one,two, three four , five");
for (int i=0; iSystem.out.println(result);5 c+ R7 D! Y. h) m
}
; n+ w, s6 J* E3 r  o( F}: A+ T5 T$ p1 V- |" r- |+ _* p

7 `  A" s* Y& V4 BMatcher类 # l  b. r9 `3 t$ S
9 H$ M1 o1 R) p) W" O
Matcher类的实例用于根据给定的字符串序列模式，对字符序列进行匹配。使用CharSequence接口把输入提供给匹配器，以便支持来自多种多样输入源的字符的匹配。
; M8 n& e0 G6 A8 V4 b
; _: }/ C% o, M2 \' D通过调用某个模式的matcher方法，从这个模式生成匹配器。匹配器创建之后，就可以用它来执行三类不同的匹配操作：
' p: J/ |1 h6 P& X
7 W/ t1 |/ }- |  E. }matches方法试图根据此模式，对整个输入序列进行匹配。 4 O4 y& |0 }& }/ |
lookingAt方法试图根据此模式，从开始处对输入序列进行匹配。
4 q/ g) b7 }; e, u9 Afind方法将扫描输入序列，寻找下一个与模式匹配的地方。 * \+ g( F% b5 J. ?- g3 A* x

8 q) z" _( P0 Y: j& M# U7 A这些方法都会返回一个表示成功或失败的布尔值。如果匹配成功，通过查询匹配器的状态，可以获得更多的信息
5 V% R' t' `6 |; w
# d/ ?$ p3 I1 `- H' s' X; `这个类还定义了用新字符串替换匹配序列的方法，这些字符串的内容如果需要的话，可以从匹配结果推算得出。
5 u" U, e5 w9 V6 `0 w& P6 o
* N) I4 h4 l( r3 J" I6 iappendReplacement方法先添加字符串中从当前位置到下一个匹配位置之间的所有字符，然后添加替换值。appendTail添加的是字符串中从最后一次匹配的位置之后开始，直到结尾的部分。  z( v4 o- Y% C$ {# r0 x( W6 ^: g4 {
) b( l8 ?( R4 e, V1 {
例如，在字符串blahcatblahcatblah中，第一个 appendReplacement添加blahdog。第二个 appendReplacement添加blahdog，然后 appendTail添加blah，就生成了： blahdogblahdogblah。请参见示例简单的单词替换。! X5 F# f: I5 M# i
- f4 L$ w2 q4 D2 J) [* W2 ?! A  Q" b
CharSequence接口
! ~0 M2 b" }6 P5 ?, R, n7 h
7 z& r0 v% T4 O+ c! O% H1 DCharSequence接口为许多不同类型的字符序列提供了统一的只读访问。你提供要从不同来源搜索的数据。用String, StringBuffer 和CharBuffer实现CharSequence,，这样就可以很容易地从它们那里获得要搜索的数据。如果这些可用数据源没一个合适的，你可以通过实现CharSequence接口，编写你自己的输入源。8 ~8 b* n1 U; I% [$ E6 N9 m
4 D: ~6 P6 l* ^6 O
Regex情景范例
0 M. ~  M9 R+ _( X( \2 O0 n' f8 h+ E( G5 u+ _% x$ j1 {
以下代码范例演示了java.util.regex软件包在各种常见情形下的用法：
4 b. n& \2 s) E; @
* w, ?" x+ x, Z! U简单的单词替换
0 }& f) v0 j7 V5 X4 W5 u" ?: y& w4 y
/*1 O# \/ S+ I9 M2 ~2 `5 W
* This code writes "One dog, two dogs in the yard."4 f. `; F$ z$ p, R/ {
* to the standard-output stream:) C4 V  I9 t; R7 c1 U" S
*/- q' [- T3 M3 h! f" O/ I* q
import java.util.regex.*;
- c+ \) _3 s# b' a* w! ^+ a( b* m5 U
public class Replacement {
+ U( z. m# {* a& `8 epublic static void main(String[] args)
  B- l2 l, A7 z    throws Exception {! V) f# N- O  G) t
// Create a pattern to match cat8 W; |7 ?9 B7 D: B) d$ v) p
Pattern p = Pattern.compile("cat");
: F/ }% S5 O7 u( e8 |" s! o( l- K// Create a matcher with an input string2 t+ k$ N. Z% Y# J/ |* Q4 c
Matcher m = p.matcher("one cat," +  I, z5 s3 N, v7 ~; M& {% R
   " two cats in the yard");4 @8 U& A1 o6 y" T& R; e
StringBuffer sb = new StringBuffer();
' H* M% V4 W9 }5 O+ q7 o3 H/ Fboolean result = m.find();
; W, x' `. d/ C// Loop through and create a new String
" U6 A& }% r1 H+ E* m// with the replacements
) ~, X; ~, U" {4 r$ ]5 l7 i' R/ ^while(result) {4 H, G. m) T( D" k% O5 T
m.appendReplacement(sb, "dog");
& Y. Y- h  K5 ]" X5 j2 Q2 Sresult = m.find();
+ Z' I# @$ ~4 k}( j- N: {" L! e! @+ Q6 R  i
// Add the last segment of input to - [. E- d9 |( l) c7 ^+ D
// the new String6 |1 u# B- \7 @' H
m.appendTail(sb);8 ^& a2 l2 A9 h1 k6 M8 g0 F( O
System.out.println(sb.toString());
1 [2 h: [( U! f4 O. Z' e& E1 I' o6 ]}
2 o; E" W" g4 P9 b) `}! e% y. `6 W. k  `9 R* Y% D7 d' A

* h5 t0 G5 s) x/ U# C电子邮件确认4 T( n6 N; b1 e4 P8 X

7 ], l; Q0 v6 b7 ]* A以下代码是这样一个例子：你可以检查一些字符是不是一个电子邮件地址。它并不是一个完整的、适用于所有可能情形的电子邮件确认程序，但是可以在需要时加上它。
! d) r+ e- Q7 w" T
0 V, X4 O8 E; i! J3 \/*# p. I. _! t) u
* Checks for invalid characters6 a$ b4 |# u* Y; D, c+ X: Q8 ]
* in email addresses
4 g/ }& M: |9 M* a9 x* P4 U/ h*/
+ K5 T9 f( W8 b, z9 Gpublic class EmailValidation {+ G2 c5 F# R' K7 w2 V5 F- h& F
public static void main(String[] args) ; S- p6 W9 j; @# b
         throws Exception {
0 f1 @: R- b+ {$ `2 ?" t
3 J1 E3 l9 ^  f! R# c% C' bString input = "@sun.com";9 b0 w3 |* s9 C' x+ @3 m
//Checks for email addresses starting with7 b6 y) B2 y  x, o  Q) b0 z2 v8 B
//inappropriate symbols like dots or @ signs.
+ S+ Q3 v5 X# Q! ^& FPattern p = Pattern.compile("^\\.|^\\@");
1 \4 p8 g# Z/ W7 ^5 f0 q+ k$ [5 CMatcher m = p.matcher(input);
# n4 B9 Y, r- |* k& Eif (m.find())
2 M8 p+ [5 j( J( b. O, H: FSystem.err.println("Email addresses don't start" +
2 F- T" N8 |% k2 H       " with dots or @ signs.");
3 I! A0 b3 f6 k. H% k5 x$ Z//Checks for email addresses that start with
% p$ j! f: u$ I0 ^//www. and prints a message if it does.
+ j5 o5 s& w" `$ I3 tp = Pattern.compile("^www\\.");" E! V6 ~& S5 ?  w
m = p.matcher(input);4 q0 Z9 A/ o# E: Q
if (m.find()) {
: ]1 b8 w5 j: @5 B) FSystem.out.println("Email addresses don't start" +6 I2 {: m1 S) o2 |+ x8 b
" with \"www.\", only web pages do.");
6 g, v: W2 Z2 w" n}
2 h( a, z/ s8 l" P3 E6 v% hp = Pattern.compile("[^A-Za-z0-9\\.\\@_\\-~#]+");
4 f; @, B4 _) nm = p.matcher(input);
5 ^9 S" u3 z; p/ jStringBuffer sb = new StringBuffer();
( }* s0 W7 x7 V( w; z$ R9 lboolean result = m.find();
" v5 d, W. I+ P' uboolean deletedIllegalChars = false;
7 i5 ]+ J* @' b# v. F7 p) Q
$ m- H0 }- y. Y+ Iwhile(result) {- B& c0 e& o4 _- @
deletedIllegalChars = true;
6 W/ ?! |6 u6 x3 C! tm.appendReplacement(sb, "");
0 t( S4 n1 E  |( Presult = m.find();
9 N* @  x/ |/ E! ^! z}
6 i, D' Z2 {! O
' r  M( w' Y  [* i1 G+ S0 [// Add the last segment of input to the new String! F3 E! @. p/ ]4 b* r9 d& o! u
m.appendTail(sb);
7 l  q  ~: Y4 r  g+ J! `7 y$ ~* f+ r  C5 M" V+ K9 l# c, p' K2 e4 }
input = sb.toString();! N- D' F9 Q$ i( _, U( Z5 ~* _

. F3 l! y2 x, Z3 R! k) ^9 Gif (deletedIllegalChars) {
4 K5 E6 g6 a$ R. r6 ~8 KSystem.out.println("It contained incorrect characters" +% M- x% U& D. ^- L- D+ l( [9 T8 R
   " , such as spaces or commas.");) m& c& X5 \3 C5 C% V4 h) r
}
; n. z7 F: T2 n* E) s' n+ M& s}
( a, P& {; @. t2 b}/ z. ^8 e1 n! l' e; z6 S5 k

- Z. Y; c" q) [  `$ B从文件中删除控制字符
. F! n9 T$ K9 |! f! E0 i8 p) |6 g
/ ]1 r$ r) \  k! Q) {, [) ?/* This class removes control characters from a named1 X& g; R+ B' o7 m+ ]+ o
* file.8 C. W0 N8 o3 ^; s8 F3 T
*/
/ p! r7 T2 s2 a& S# g/ h* himport java.util.regex.*;
6 K9 o7 C5 \+ C% o8 ~import java.io.*;
+ J  f* q/ I: ~8 v% S1 P, |6 S+ {4 Y- @# {8 L: t1 n
public class Control {- a) v4 n' `4 p# c0 A( X, d
public static void main(String[] args)
+ L+ p* B8 c: d! @* |) s          throws Exception {8 z) D0 N$ @% q0 b# g  h' z$ p4 ?6 w3 @

- @! `4 \9 a. `- H9 |2 F//Create a file object with the file name
; @- `: `8 P, o7 [+ B* i//in the argument:. G9 R1 Z0 j: R5 r! R3 z! L8 j  L% O0 T
File fin = new File("fileName1");# A& Q% d$ S; q/ |6 r  v
File fout = new File("fileName2");
* j" X, q* f! [6 Y//Open and input and output stream
1 E3 v0 W) B& b8 g! @" f8 Y5 WFileInputStream fis =
$ Z( \/ F9 L9 n# M! p: P    new FileInputStream(fin);& ]' s' a8 j6 j' ^
FileOutputStream fos = - Z+ n, H3 l+ J2 D5 n) N9 M
   new FileOutputStream(fout);
, `# }9 s! |+ o0 \0 {9 s3 m9 O: B* e4 Y
BufferedReader in = new BufferedReader(. A8 i. G1 R  T# f6 Z; }) u
   new InputStreamReader(fis));; D5 \( m# D# c  n
BufferedWriter out = new BufferedWriter(
; z7 n2 W; r: w/ ~  f/ p8 {    new OutputStreamWriter(fos));# D/ V7 d* c- J: y) D

( Y" \' q1 l% X1 U  y& M// The pattern matches control characters
3 K- c% B! K! s1 D2 }Pattern p = Pattern.compile("{cntrl}");, f! X1 v1 i1 B/ J
Matcher m = p.matcher("");
7 E  O/ Z" }' v5 [4 h8 DString aLine = null;' H$ M# \% g8 Q" k
while((aLine = in.readLine()) != null) {
) h  o1 w( w, x# X: dm.reset(aLine);
% E% d$ T; E! j- H. R//Replaces control characters with an empty- ~9 H% |% ]& v6 ^- M
//string.. _8 R+ d! s6 ~5 n" u# Y
String result = m.replaceAll("");& I; B* w; [( e6 p8 v
out.write(result);( \# {3 `7 u, _; }3 Y5 ]
out.newLine();
4 |# r) {2 w! F% k$ d/ m9 I1 _, v0 u- Q}
. D2 {0 A. f! O  j9 e% R6 f& Qin.close();
' w% z/ q% e7 e# q& ~! ^% {out.close();1 G3 d) v4 ]' k; i. _7 d. Q
}
' B1 e  Y4 ~( C. X$ H}
( l& s5 u1 S. m! c
& ?& ^( }5 c, C5 c/ R) Q* y6 r文件查找 & {  S& L! g( I( g. A3 y" A

% j5 q% f3 _  D% @. r/*
% C$ p  v6 m4 ~+ ^( h" q. E( d* Prints out the comments found in a .java file.
7 O; b& u7 L  r! H* C*/; g& A7 s& ^3 t7 {0 }
import java.util.regex.*;
$ M* O2 \/ G1 G" o5 Gimport java.io.*;
2 T4 ^4 b! {; u9 J; Nimport java.nio.*;9 T8 D+ C5 c9 k8 r
import java.nio.charset.*;# h: S1 [& x. V' [
import java.nio.channels.*;
! V+ @: [. M) Z# W3 [7 P: n8 R( @. N- j4 B
public class CharBufferExample {  g' I1 M, ]1 j  V! _$ H
public static void main(String[] args) throws Exception {
: o- R, y# c7 G" E+ c. o// Create a pattern to match comments3 l6 O0 S# C$ C2 v, r
Pattern p = ! V( |' T: \: s8 q, U& K) C
Pattern.compile("//.*$", Pattern.MULTILINE);
& |, Z6 E7 S& l9 y; E4 Q' t, x; |7 s1 c* L
// Get a Channel for the source file+ z/ T# r5 \) Z7 ~" t% [4 x
File f = new File("Replacement.java");
! g$ t. h  x5 Z5 `, W1 UFileInputStream fis = new FileInputStream(f);
2 X: @6 H9 ~  a: p, n3 vFileChannel fc = fis.getChannel();7 t+ J- d# ?% z  m: X& C
* p( _) f5 v5 @+ [/ r" m5 ?# ^
// Get a CharBuffer from the source file2 k5 f$ {8 `/ h& [  a4 L
ByteBuffer bb =
4 U- u+ s( B* z* c; f+ hfc.map(FileChannel.MAP_RO, 0, (int)fc.size());
7 i8 ~! Y- @& k2 I, [Charset cs = Charset.forName("8859_1");
  h0 a% f: e$ \$ J  }CharsetDecoder cd = cs.newDecoder();
  d) I5 y& ?, _* U# o% z6 k# WCharBuffer cb = cd.decode(bb);! b/ q1 @" Y  D8 N
4 ?: C5 d) A; |( [4 u
// Run some matches
! n7 F2 C) w+ q  VMatcher m = p.matcher(cb);: B1 d$ q7 w: P
while (m.find()). \) Z+ l+ j4 O  _
System.out.println("Found comment: "+m.group());5 |  S0 B! M9 L+ K
}0 H( d* a' c: v: t1 j
}
) z$ H% X- j3 n. L9 S9 v1 |# h' `7 r( q
结论
' o8 V$ Q7 O0 i& f" T2 H3 l0 y现在Java编程语言中的模式匹配和许多其他编程语言一样灵活了。可以在应用程序中使用正则表达式，确保数据在输入数据库或发送给应用程序其他部分之前，格式是正确的，正则表达式还可以用于各种各样的管理性工作。简而言之，在Java编程中，可以在任何需要模式匹配的地方使用正则表达式。 7 U  y% i3 h7 P7 ?
( Q( P, |% a2 n, f! \
JDK1.4之正規表示式8 L% d7 a3 ~% k3 U
written by william chen(06/19/2002)/ g; O- H3 E# x* @2 B! x
/ T6 w: k( `8 e
--------------------------------------------------------------------------------  p7 g. l6 |' ?( E( p" _

. e6 i5 C) q- v什麼是正規表示式呢(Reqular Expressions)
( R1 P5 j( t" L& B+ N+ Q* H9 p) I) |( G# r
就是針對檔案、字串，透過一種很特別的表示式來作search與replace' C, f+ E2 J0 F

7 n" _# o' p& C4 K% K+ \) d& ?9 S因為在unix上有很多系統設定都是存放在文字檔中，因此網管或程式設計常常需要作搜尋與取代9 V7 \+ [/ V+ b3 I. P9 t: b$ l

5 B& A7 J+ R: ~, ~* L6 J% P) s- c所以發展出一種特殊的命令叫做正規表示式
! e6 Q( q8 ?+ K" H2 p
+ N, }* s+ |" I* V我們可以很簡單的用 "s/
' ?& }% E$ ~3 u/ Y3 z3 E  ^' p+ k因此jdk1.4提供了一組正規表示式的package供大家使用
, l# C' K2 C" x6 T4 \+ Y7 a2 B0 I0 K* v: @
若是jdk1.4以下的可以到http://jakarta.apache.org/oro取得相關功能的package' e1 U! r/ O5 _3 w3 u4 j* x' H+ t' j

/ H, ~/ j% J$ |剛剛列出的一串符號" s/
* j* ?, W: q3 ]" D+ L適用於j2sdk1.4的正規語法9 z( @1 l, [; \* M
6 |6 I9 t# m$ T5 M
"." 代表任何字元
* q( C- x5 ]* z# H/ U& o" X" Q: c4 b0 q
正規式原字串符合之字串
& a3 y  e6 W  \7 j- t8 m. ab a ' z/ N% \- f# K! {- g9 `
.. abc ab
; a' s& @- R1 ^+ B3 `; ^9 V% i! E# z
"+" 代表一個或以個以上的字元
# ^) r& z% J9 X; R"*" 代表零個或是零個以上的字元2 O) t. S- ?! w1 z$ `2 W

# ~5 j% t* q7 d5 z( Q( }. D+ F正規式原字串符合之字串
& o6 G. `8 D! i8 u4 \+ ab ab ! {' L6 F8 h& X& i! R
* abc abc / x; r( H: `0 s4 U9 q3 Z
# q( B3 Y0 l1 d! C
"( )"群組, P# ~9 A/ V! E3 j& Z/ ]( }

: k6 c: X, U- ]; N% ^正規式原字串符合之字串
& }7 ~2 B4 R3 }% K5 n4 ?(ab)* aabab abab
5 U* U- p. b8 N( N9 a: x
) w4 E( q8 p! F* ~% |8 \$ s# Q7 H* Q字元類0 Y! U2 C' g# J! W. ~2 ~9 \$ t

( l0 ]6 d2 }* w1 Z4 A正規式原字串符合之字串 & s4 ~3 f6 `. t2 y& G. f
[a-dA-D0-9]* abczA0 abcA0 1 t- O% g, R; a" V
[^a-d]* abe0 e0
# F/ [/ s( r1 O' ~[a-d]* abcdefgh abab
- d8 o3 T- |& n0 t# G1 v3 O( C0 ?/ P$ M; ~. e# b
0 W: t6 p- x& l
簡式& V/ z& x/ O1 I" a' ~

& ]$ u' B' F2 s' x1 F\d 等於 [0-9] 數字 % E5 P& k" D/ Y" {* q
\D 等於 [^0-9] 非數字 % {9 l' W. S4 \. l
\s 等於 [ \t\n\x0B\f\r] 空白字元
1 }, @; I# B. f- a$ q\S 等於 [^ \t\n\x0B\f\r] 非空白字元
' k+ h# r. m' A" s" C, D4 I- r\w 等於 [a-zA-Z_0-9] 數字或是英文字
8 C6 \( s9 z/ T6 _\W 等於 [^a-zA-Z_0-9] 非數字與英文字 0 _) W! J' Y4 W
) j* k- |: e9 n3 r: b
每一行的開頭或結尾+ `6 `- m7 `) [# ^& T
$ e, w+ P$ W5 Z8 b+ B6 W+ s6 u) Z
^ 表示每行的開頭
! z; z* o& v% J$ 表示每行的結尾# z' j  A/ A' L1 b( U
& j6 O  B& g" I
--------------------------------------------------------------------------------8 C* C, R! N3 `" h; g. }+ Y( X
( O! W8 G/ g! [8 r) |* c4 H9 ?
正規表示式 java.util.regex 相關的類別 9 f! s: W( i- C3 ~* U6 B0 r

& w% W9 e/ O3 c0 y: v1 T% W9 e! i' ePattern—正規表示式的類別4 W7 q+ m0 G/ @$ P
Matcher—經過正規化的結果' U% K& ]* ?; d: d6 e
PatternSyntaxExpression—Exception thrown while attempting to compile a regular expression
  W. ~  F/ K8 G2 L! k' T+ G- T7 E) c- d+ s# H7 R/ i
範例1: 將字串中所有符合"<"的字元取代成"lt;"
& W2 \1 I$ V8 Q) A/ ^, Z
7 r3 ~4 x3 I6 n- o, M8 ?import java.io.*;/ C1 [% V- D8 X5 g- m3 I$ n
import java.util.regex.*;
  M! |8 L4 e8 {/ g+ M. J7 r/**
7 X* d/ ]; P0 R. T+ T/ v& i9 U! ?* 將字串中所有符合"<"的字元取代成"lt;"
5 V" L  }# t7 X6 H: z) ]*/2 X+ C4 \& D" p. C5 o
public static void replace01(){
8 _7 P4 b0 e. [! C$ X( y// BufferedReader lets us read line-by-line, q( p; w/ u  n( K% t
Reader r = new InputStreamReader( System.in );6 ~2 a3 L' g4 R: c
BufferedReader br = new BufferedReader( r );
& H0 P: {" \) IPattern pattern = Pattern.compile( "<" ); // 搜尋某字串所有符合'<'的字元& e* j' J0 S- s2 s* [
try{( S. ~4 D" T* K5 U  B: A6 I. ^. l
while (true) {
' z$ p1 o% a: j: \0 ?2 a% uString line = br.readLine();3 J3 r1 E& Q  ^, \2 i2 D8 a% E4 ^
// Null line means input is exhausted0 e6 i, x5 v) `) t
if (line==null)
& ?* ^+ o2 P& ~0 ]" _" ?8 Bbreak;# ?) h: s3 M& x7 A- s
Matcher a = pattern.matcher(line);
$ Y5 L8 j% j4 z! L4 twhile(a.find()){. x- R* h; R7 H4 _" {
System.out.println("搜尋到的字元是" + a.group());
' Y9 P9 j& F+ n  K7 ~( y}5 a7 e& ^3 ~4 y6 Z1 [/ _. f. P
System.out.println(a.replaceAll("lt;"));// 將所有符合字元取代成lt;
( \! T; i/ T! \$ v/ Z2 ]7 J8 X* l% a! [}
7 |& M* d4 a5 M2 W( E}catch(Exception ex){ex.printStackTrace();};
5 w2 Y( N' K5 K* ?: X5 Y' d}
: _: d2 o! Z$ U5 D2 Y5 D; j2 x) i
5 o/ y) |% F4 I+ v範例2:
) \! L8 a: p# ~; \# }$ H* M/ ~+ }! q" ]) \+ F) l
import java.io.*;
* O9 I& Q4 k# _' e( uimport java.util.regex.*;
: ^5 U4 V5 H  g# ]/**
4 h3 |: g: e$ P) f3 g( g. a" j* 類似StringTokenizer的功能+ R0 G, L6 F6 @! t# Q% T
* 將字串以","分隔然後比對哪個token最長7 @5 R; X% Q  `" V8 x! k- |2 D. ?
*/
; Z4 ^4 l9 K* O8 S8 n! Mpublic static void search01(){1 H3 O4 b6 T4 N
// BufferedReader lets us read line-by-line
- a" T* s, L6 O1 oReader r = new InputStreamReader( System.in );( P8 K6 ^4 Z2 W+ j9 B
BufferedReader br = new BufferedReader( r );
' z8 ?  t8 @& a  t2 G, {- ^Pattern pattern = Pattern.compile( ",\\s*" );// 搜尋某字串所有","的字元
5 ]) r& ]. z/ _# C- D/ Ttry{' A: @3 o" \; w+ t( j4 d
while (true) {
: Z+ [3 [/ Y+ G; I% p' aString line = br.readLine();0 x2 s, j: w" b' T3 }2 e1 Z
String words[] = pattern.split(line);
$ Q, P6 S2 o6 Z. m// Null line means input is exhausted
9 W& O6 j% z" B2 {1 Tif (line==null)
) m6 W3 F1 B! L+ r$ hbreak;
  o* f6 g. g# t& W: t// -1 means we haven't found a word yet
0 Z* b" n! H# {) Tint longest=-1;
7 D3 J& N/ W* b, F% M2 }int longestLength=0;% x; q, m) [5 ]5 b
for (int i=0; iSystem.out.println("分段:" + words );& v# b# b/ k2 E" R8 ?) q0 I! V
if (words.length() > longestLength) {
% w6 g' p1 ^$ F4 J; {# G% y" llongest = i;: k3 _1 Z2 _  X4 q  N8 O1 C
longestLength = words.length();
: ]- e4 ~; N+ G/ x}
  {* A9 p  ]5 O6 W. o6 {}  t+ B$ K- ?+ }. p3 O2 a" H
System.out.println( "長度最長為:" + words[longest] );2 g" }4 R1 B2 A2 L- e
}5 r% T( b( |# m0 x4 |" u
}catch(Exception ex){ex.printStackTrace();};
$ ~! R, z3 L6 Y# R0 z( f8 K}: G  a: b- X7 X8 j+ z# O5 s7 e' E

- v/ `- }9 H9 v--------------------------------------------------------------------------------5 X& r4 i9 y8 r+ ]8 R& k
- q. _0 a8 x' r2 i$ D" h
其他的正規語法
6 M- _' H0 P8 _# W9 h
# o5 C$ ]0 l" g  J, t/^\s* # 忽略每行開始的空白字元  }/ F: G& [- E& H+ G3 j/ @
(M(s|r|rs)\.) # 符合 Ms., Mrs., and Mr. (titles)