正規表達式 (Regular Expression)

簡介

正規語法 (Regular Grammar) 是一種相當簡單的語法，這種語法被 Perl 語言成功的用於字串比對，接著成為重要的程式設計工具。此種標準的正規語法後來被稱為正則表達式 (Regular Expression)。目前，大部分的語言都已納入正則表達式的函式庫，正則表達是可以說是程式設計師必定要瞭解的工具，也就是常識的一部分。系統程式設計師更應該要瞭解正則表達式，因為正規語法是程式語言當中，用來描述基本詞彙 (Vocabulary)，並據以建構詞彙掃描器 (Lexer) 的基礎語法，Lexer 是編譯器的基本元件之一。

假如我們要用正則表達式描述整數數字，那麼，可以用 [0123456789]+ 這個表達式，其中的中括號 [ 與 ] 會框住一群字元，用來代表字元群，加號 + 所代表的是重複 1 次或以上，因此，該表達式就可以描述像 3702451 這樣的數字。然而，在正則表達式中，為了更方便撰寫，於是允許用 [0-9]+ 這樣的式子表達同樣的概念，其中的 0-9 其實就代表了 0123456789 等字元，這是一種簡便的縮寫法。甚至，可以再度縮短後以 [\d]+ 代表，其中的 \d 就代表數字所成的字元集合。

利用範例學習是理解正則表達式的有效方法，表格 1 就顯示了一些具有代表性的正則表達式範例。

表格 1. 正則表達式的範例

語法	正則表達式	範例
整數	[0-9]+	3704
有小數點的實數	[0-9]+\.[0-9]+	7.93
英文詞彙	[A-Za-z]+	Code
變數名稱	[A-Za-z_][A-Za-z0-9_]*	_counter
Email	[a-zA-Z0-9_]+@[a-zA-Z0-9\._]+	wt.ude.timk\|ccc#wt.ude.timk\|ccc
URL	http://[a-zA-Z0-9\./_]+	http://ccc.kmit.edu.tw/mybook/

為了協助讀者理解這些範例，我們有必要對範例中的一些正則表達式符號進行說明。

在實數的範例中，使用 \. 代表小數點符號 .，不熟悉正則表達式的讀者一定覺得奇怪，為何要加上斜線符號 \ 呢？這是因為在正則表達式當中，有許多符號具有特殊意義，例如點符號 . 是用來表示任意字元的，星號 * 是代表 0 次或以上，加號 + 代表一次或以上，在正則表達式當中，有許多這類的特殊字元，因此用斜線 \ 代表跳出字元，就像 C 語言當中 printf 函數內的用途一樣。因此，當我們看到 \ 符號時，必須繼續向後看，才能知道其所代表的意義。表格 2 列出了正則表達式當中大部份的重要符號之意義，以供讀者參考。

表格 2. 正則表達式當中的符號之意義

字元	描述
\	將下一個字元標記為一個特殊字元、或一個原義字元、或一個向後引用、或一個八進制轉義符。例如，“n”匹配字元“n”。“\n”匹配一個分行符號。序列“\\”匹配“\”而“\(”則匹配“(”。
^	匹配輸入字串的開始位置。如果設置了RegExp物件的Multiline屬性，^也匹配“\n”或“\r”之後的位置。
$	匹配輸入字串的結束位置。如果設置了RegExp物件的Multiline屬性，$也匹配“\n”或“\r”之前的位置。
*	匹配前面的子運算式零次或多次。例如，zo能匹配“z”以及“zoo”。等價於{0,}。
+	匹配前面的子運算式一次或多次。例如，“zo+”能匹配“zo”以及“zoo”，但不能匹配“z”。+等價於{1,}。
?	匹配前面的子運算式零次或一次。例如，“do(es)?”可以匹配“do”或“does”中的“do”。?等價於{0,1}。
{n}	n是一個非負整數。匹配確定的n次。例如，“o{2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的兩個o。
{n,}	n是一個非負整數。至少匹配n次。例如，“o{2,}”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有o。“o{1,}”等價於“o+”。“o{0,}”則等價於“o*”。
{n,m}	m和n均為非負整數，其中n<=m。最少匹配n次且最多匹配m次。例如，“o{1,3}”將匹配“fooooood”中的前三個o。“o{0,1}”等價於“o?”。請注意在逗號和兩個數之間不能有空格。
?	當該字元緊跟在任何一個其他限制符(*,+,?,{n},{n,},{n,m})後面時，匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字串，而預設的貪婪模式則盡可能多的匹配所搜索的字串。例如，對於字串“oooo”，“o+?”將匹配單個“o”，而“o+”將匹配所有“o”。
.	匹配除“\n”之外的任何單個字元。要匹配包括“\n”在內的任何字元，請使用像“[.\n]”的模式。
(pattern)	匹配pattern並獲取這一匹配。所獲取的匹配可以從產生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中則使用$0…$9屬性。要匹配圓括號字元，請使用“$”或“$”。
(?:pattern)	匹配pattern但不獲取匹配結果，也就是說這是一個非獲取匹配，不進行存儲供以後使用。這在使用“或”字元(\|)來組合一個模式的各個部分是很有用。例如，“industr(?:y\|ies)就是一個比”industry\|industries'更簡略的運算式。
(?=pattern)	正向預查，在任何匹配pattern的字串開始處匹配查找字串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以後使用。例如，“Windows(?=95\|98\|NT\|2000)”能匹配“Windows2000”中的“Windows”，但不能匹配 “Windows3.1”中的“Windows”。預查不消耗字元，也就是說，在一個匹配發生後，在最後一次匹配之後立即開始下一次匹配的搜索，而不是從包含預查的字元之後開始。
(?!pattern)	負向預查，在任何不匹配pattern的字串開始處匹配查找字串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以後使用。例如 “Windows(?!95\|98\|NT\|2000)”能匹配“Windows3.1”中的“Windows”，但不能匹配“Windows2000”中的“Windows”。預查不消耗字元，也就是說，在一個匹配發生後，在最後一次匹配之後立即開始下一次匹配的搜索，而不是從包含預查的字元之後開始
x\|y	匹配x或y。例如，“z\|food”能匹配“z”或“food”。“(z\|f)ood”則匹配“zood”或“food”。
[xyz]	字元集合。匹配所包含的任意一個字元。例如，“[abc]”可以匹配“plain”中的“a”。
[^xyz]	負值字元集合。匹配未包含的任意字元。例如，“[^abc]”可以匹配“plain”中的“p”。
[a-z]	字元範圍。匹配指定範圍內的任意字元。例如，“[a-z]”可以匹配“a”到“z”範圍內的任意小寫字母字元。
[^a-z]	負值字元範圍。匹配任何不在指定範圍內的任意字元。例如，“[^a-z]”可以匹配任何不在“a”到“z”範圍內的任意字元。
\b
\B	匹配非單詞邊界。“er\B”能匹配“verb”中的“er”，但不能匹配“never”中的“er”。
\cx	匹配由x指明的控制字元。例如，\cM匹配一個Control-M或回車符。x的值必須為A-Z或a-z之一。否則，將c視為一個原義的“c”字元。
\d	匹配一個數位字元。等價於[0-9]。
\D	匹配一個非數位字元。等價於[^0-9]。
\f	匹配一個換頁符。等價於\x0c和\cL。
\n	匹配一個分行符號。等價於\x0a和\cJ。
\r	匹配一個回車符。等價於\x0d和\cM。
\s	匹配任何空白字元，包括空格、定位字元、換頁符等等。等價於[\f\n\r\t\v]。
\S	匹配任何非空白字元。等價於[^\f\n\r\t\v]。
\t	匹配一個定位字元。等價於\x09和\cI。
\v	匹配一個垂直定位字元。等價於\x0b和\cK。
\w	匹配包括底線的任何單詞字元。等價於“[A-Za-z0-9_]”。
\W	匹配任何非單詞字元。等價於“[^A-Za-z0-9_]”。
\xn	匹配n，其中n為十六進位轉義值。十六進位轉義值必須為確定的兩個數位長。例如，“\x41”匹配“A”。“\x041”則等價於“\x04”&“1”。規則運算式中可以使用ASCII編碼。
\num	匹配num，其中num是一個正整數。對所獲取的匹配的引用。例如，“(.)\1”匹配兩個連續的相同字元。
\n	標識一個八進制轉義值或一個向後引用。如果\n之前至少n個獲取的子運算式，則n為向後引用。否則，如果n為八進位數字(0-7)，則n為一個八進制轉義值。
\nm	標識一個八進制轉義值或一個向後引用。如果\nm之前至少有nm個獲得子運算式，則nm為向後引用。如果\nm之前至少有n個獲取，則n為一個後跟文字m的向後引用。如果前面的條件都不滿足，若n和m均為八進位數字(0-7)，則\nm將匹配八進制轉義值nm。
\nml	如果n為八進位數字(0-3)，且m和l均為八進位數字(0-7)，則匹配八進制轉義值nml。
\un	匹配n，其中n是一個用四個十六進位數位表示的Unicode字元。例如，\u00A9匹配版權符號（©）。

正則表達式在許多語言當中 (像是 Java, C#, Ruby, Python 等) 都已經有支援良好的函式庫，然而，在標準 C 語言的函式庫當中卻沒有這方面的函數，因此，我們使用 C# 這個語言說明正則表達式的用法。

範例 1. 在 C# 語言當中使用正則表達式進行樣式抽取的程式範例

using System;
using System.Collections.Generic;
using System.Text.RegularExpressions;

public class Regexp
{
    // 測試主程式
    static void Main(string[] args)
    {
        List<String> list = Regexp.matches(@" 32.4 + 56.7 is 89.1 ", @"[0-9]+\.[0-9]+", 0);
        foreach (String token in list)
            Console.WriteLine(token);
    }

    // 傳回text 中符合正規表示式pattern 的所有段落。
    public static List<String> matches(String text, String pattern, int groupId)
    {
        List<String> rzList = new List<String>();
        Match match = Regex.Match(text, pattern);
        for (int i = 0; match.Success; i++)
        {
            rzList.Add(match.Groups[groupId].Value);
            match = match.NextMatch();
        }
        return rzList;
    }
}

執行結果

D:\ExampleCode>csc Regexp.cs
Microsoft (R) Visual C# 2008 Compiler version 3.5.21022.8
for Microsoft (R) .NET Framework version 3.5
Copyright (C) Microsoft Corporation. All rights reserved.

D:\ExampleCode>Regexp
32.4
56.7
89.1

參考文獻

資料來源：張智星的網站 - 正規表示式

正規表示式 說明及範例 比對不成立之字串
/a/ 含字母 “a” 的字串，例如 “ab”, “bac”, “cba” “xyz”
/a./ 含字母 “a” 以及其後任一個字元的字串，例如 “ab”, “bac”（若要比對.，請使用 \.） “a”, “ba”
/^xy/ 以 “xy” 開始的字串，例如 “xyz”, “xyab”（若要比對 ^，請使用 \^） “axy”, “bxy”
/xy$/ 以 “xy” 結尾的字串，例如 “axy”, “abxy”以 “xy” 結尾的字串，例如 “axy”, “abxy” （若要比對 $，請使用 \$） “xya”, “xyb”
[13579] 包含 “1〃 或 “3〃 或 “5〃 或 “7〃 或 “9〃 的字串，例如：”a3b”, “1xy” “y2k”
[0-9] 含數字之字串 不含數字之字串
[a-z0-9] 含數字或小寫字母之字串 不含數字及小寫字母之字串
[a-zA-Z0-9] 含數字或字母之字串 不含數字及字母之字串
b[aeiou]t “bat”, “bet”, “bit”, “bot”, “but” “bxt”, “bzt”
[^0-9] 不含數字之字串（若要比對 ^，請使用 \^） 含數字之字串
[^aeiouAEIOU] 不含母音之字串（若要比對 ^，請使用 \^） 含母音之字串
[^\^] 不含 “^” 之字串，例如 “xyz”, “abc” “xy^”, “a^bc”

.
正規表示式的特定字元 說明 等效的正規表示式
\d 數字 [0-9]
\D 非數字 [^0-9]
\w 數字、字母、底線 [a-zA-Z0-9_]
\W 非 \w [^a-zA-Z0-9_]
\s 空白字元 [ \r\t\n\f]
\S 非空白字元 [^ \r\t\n\f]

.
正規表示式 說明
/a?/ 零或一個 a（若要比對? 字元，請使用 \?）
/a+/ 一或多個 a（若要比對+ 字元，請使用 \+）
/a*/ 零或多個 a（若要比對* 字元，請使用 \*）
/a{4}/ 四個 a
/a{5,10}/ 五至十個 a
/a{5,}/ 至少五個 a
/a{,3}/ 至多三個 a
/a.{5}b/ a 和 b中間夾五個（非換行）字元

.
字元 說明 簡單範例
\ 避開特殊字元 /A\*/ 可用於比對 “A*”，其中 * 是一個特殊字元，為避開其特殊意義，所以必須加上 “\”
^ 比對輸入列的啟始位置 /^A/ 可比對 “Abcd” 中的 “A”，但不可比對 “aAb”
$ 比對輸入列的結束位置 /A$/ 可比對 “bcdA” 中的 “A”，但不可比對 “aAb”
* 比對前一個字元零次或更多次 /bo*/ 可比對 “Good boook” 中的 “booo”，亦可比對 “Good bk” 中的 “b”
+ 比對前一個字元一次或更多次，等效於 {1,} /a+/ 可比對 “caaandy” 中的 “aaa”，但不可比對 “cndy”
? 比對前一個字元零次或一次 /e?l/ 可比對 “angel” 中的 “el”，也可以比對 “angle” 中的 “l”
. 比對任何一個字元（但換行符號不算） /.n/ 可比對 “nay, an apple is on the tree” 中的 “an” 和 “on”，但不可比對 “nay”
(x) 比對 x 並將符合的部分存入一個變數 /(a*) and (b*)/ 可比對 “aaa and bb” 中的 “aaa” 和 “bb”，並將這兩個比對得到的字串設定至變數 RegExp.$1 和 RegExp.$2。
xy 比對 x 或 y /a*b*/g 可比對 “aaa and bb” 中的 “aaa” 和 “bb”
{n} 比對前一個字元 n 次，n 為一個正整數 /a{3}/ 可比對 “lllaaalaa” 其中的 “aaa”，但不可比對 “aa”
{n,} 比對前一個字元至少 n 次，n 為一個正整數 /a{3,}/ 可比對 “aa aaa aaaa” 其中的 “aaa” 及 “aaaa”，但不可比對 “aa”
{n,m} 比對前一個字元至少 n 次，至多 m 次，m、n 均為正整數 /a{3,4}/ 可比對 “aa aaa aaaa aaaaa” 其中的 “aaa” 及 “aaaa”，但不可比對 “aa” 及 “aaaaa”
[xyz] 比對中括弧內的任一個字元 /[ecm]/ 可比對 “welcome” 中的 “e” 或 “c” 或 “m”
[^xyz] 比對不在中括弧內出現的任一個字元 /[^ecm]/ 可比對 “welcome” 中的 “w”、”l”、”o”，可見出其與 [xyz] 功能相反。（同時請注意 /^/ 與 [^] 之間功能的不同。）
[\b] 比對退位字元（Backspace character） 可以比對一個 backspace ，也請注意 [\b] 與 \b 之間的差別
\b 比對英文字的邊界，例如空格 例如 /\bn\w/ 可以比對 “noonday” 中的 ‘no’ ;
/\wy\b/ 可比對 “possibly yesterday.” 中的 ‘ly’
\B 比對非「英文字的邊界」 例如, /\w\Bn/ 可以比對 “noonday” 中的 ‘on’ ,
另外 /y\B\w/ 可以比對 “possibly yesterday.” 中的 ‘ye’
\cX 比對控制字元（Control character），其中 X 是一個控制字元 /\cM/ 可以比對 一個字串中的 control-M
\d 比對任一個數字，等效於 [0-9] /[\d]/ 可比對 由 “0〃 至 “9〃 的任一數字 但其餘如字母等就不可比對
\D 比對任一個非數字，等效於 [^0-9] /[\D]/ 可比對 “w” “a”⋯ 但不可比對如 “7〃 “1〃 等數字
\f 比對 form-feed 若是在文字中有發生 “換頁” 的行為 則可以比對成功
\n 比對換行符號 若是在文字中有發生 “換行” 的行為 則可以比對成功
\r 比對 carriage return 
\s 比對任一個空白字元（White space character），等效於 [ \f\n\r\t\v] /\s\w*/ 可比對 “A b” 中的 “b”
\S 比對任一個非空白字元，等效於 [^ \f\n\r\t\v] /\S/\w* 可比對 “A b” 中的 “A”
\t 比對定位字元（Tab） 
\v 比對垂直定位字元（Vertical tab） 
\w 比對數字字母字元（Alphanumerical characters）或底線字母（”_”），等效於 [A-Za-z0-9_] /\w/ 可比對 “.A _!9〃 中的 “A”、”_”、”9〃。
\W 比對非「數字字母字元或底線字母」，等效於 [^A-Za-z0-9_] /\W/ 可比對 “.A _!9〃 中的 “.”、” “、”!”，可見其功能與 /\w/ 恰好相反。
\ooctal 比對八進位，其中octal是八進位數目 /\oocetal123/ 可比對 與 八進位的ASCII中 “123〃 所相對應的字元值。
\xhex 比對十六進位，其中hex是十六進位數目 /\xhex38/ 可比對 與 16進位的ASCII中 “38〃 所相對應的字元。

page revision: 0, last edited: 05 Apr 2010 09:48

Edit Tags Discuss (0) History Files Print Site tools + Options

教科書：系統程式

陳鍾誠著，旗標出版

內容

前言

目錄

1. 系統軟體

2. 電腦的硬體結構

3. 組合語言

4. 組譯器

5. 連結與載入

6. 巨集處理器

7. 高階語言

8. 編譯器

9. 虛擬機器

10. 作業系統

11. 嵌入式系統

12. 系統軟體實作

附錄

補充教材

教學錄影

家庭作業

版本管理

相關資源

投影片

下載

參考文獻

相關文章

相關資源

錯誤更正

購買本書

手機版網站

問題與回答

簡介

參考文獻

Post preview:

Other interesting sites

白雁

CORE

Shadowrun: Denver

Archivio Descrizioni Fragranze

	or Sign in as Wikidot user
	(will not be published)