适用于本地化行业的正则表达式初探

正则表达式,又称正则表达式、正規表示法、常規表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器裡,正則表达式通常被用来检索、替换那些符合某个模式的文本。

而对于本地化行业来说,正则表达式则为一个非常有用的文本过滤器(Filter)、自动翻译规则(auto-translation rules)与句段规则(segmentation rules)的终极解决方案。

正则表达式的英语为Regular Expression,直译成中文为常规的表达,顾名思义,既使用一些既定的常规表达来制定规则,代替一些有规律的文本。

Regex提供一个非常自由的环境来告诉软件你在寻找什么。

下面准备介绍本地化软件常用的表达式:

表达式 意义
. 匹配任何字符
| 在此符号的左边和右边的表达式都匹配目标字符串,例: ‘a|b’ 将会匹配目标字符串里的 ‘a’ 和’b’ 两个字符
[] 定义一个区域
() 定义一个组
\s 匹配任何空格
\d 匹配任意数字
? 匹配尽可能少的次数
* 匹配0次(没有)或更多
{x} 刚好匹配X次
{x,y} 匹配X至Y之间的次数 (X,Y必为数字,Y必须大于X)

关于 Regex的简单用法 即将在下一章讲述