西西軟件園多重安全檢測(cè)下載網(wǎng)站、值得信賴(lài)的軟件下載站!
西西首頁(yè) 電腦軟件 安卓軟件 電腦游戲 安卓游戲 排行榜 專(zhuān)題合集

文本處理(TextPro6)

3.2 綠色版
  • 文本處理(TextPro6)3.2 綠色版
  • 軟件大小:738KB
  • 更新時(shí)間:2013-10-14 16:08
  • 軟件語(yǔ)言:中文
  • 軟件廠(chǎng)商:
  • 軟件類(lèi)別:國(guó)產(chǎn)軟件 / 免費(fèi)軟件 / 文本編輯
  • 軟件等級(jí):4級(jí)
  • 應(yīng)用平臺(tái):WinAll, WinXP
  • 官方網(wǎng)站:http://www.innovatechautomation.com
  • 應(yīng)用備案:
好評(píng):50%
壞評(píng):50%

軟件介紹

TextPro是綜合批處理中文文本文件和超文本文件的程序,適用于簡(jiǎn)體中文和英文 Win9x/Me/NT/2K/XP/Vista。最初是為更準(zhǔn)確快速地處理佛經(jīng)而開(kāi)發(fā)的。TextPro6增加了對(duì)Unicode的支持。
TextPro的獨(dú)到之處有簡(jiǎn)繁體轉(zhuǎn)換、Big5編碼預(yù)處理、自定義替換、增強(qiáng)了中文支持的正則表達(dá)式、可以忽略異體字的文件比較、以及支持文件的批處理功能等。

正則式:

TextPro正則表達(dá)式的搜索引掣是在Henry Spencer的源代碼的基礎(chǔ)上,經(jīng)過(guò)大量的增改,尤其是增強(qiáng)了對(duì)中文的支持。

從4.5版起,TextPro在查找/替換中支持正則表達(dá)式。正則表達(dá)式是一種非常強(qiáng)大的搜索功能,通過(guò)與TextPro的其它功能相結(jié)合,可以方便地實(shí)現(xiàn)許多復(fù)雜的文本處理工作。

正則表達(dá)式原本是形式語(yǔ)言理論中的概念,與編譯器的構(gòu)造有密切的聯(lián)系。但是作為一個(gè)應(yīng)用軟件的用戶(hù),我們沒(méi)有必要去細(xì)究正則表達(dá)式的嚴(yán)格定義和處理方法。本文將從實(shí)用的角度出發(fā),闡述在TextPro中引入正則表達(dá)式的目的、正則表達(dá)式的命令格式,以及如何利用正則表達(dá)式完成一些實(shí)際的文本處理工作。

我們?cè)谔幚砦谋緯r(shí),經(jīng)常會(huì)遇到一些具有某種特定格式,或者說(shuō)滿(mǎn)足某種規(guī)則的文本。比如,一個(gè)無(wú)符號(hào)的整數(shù)由一連串的數(shù)字構(gòu)成,而一個(gè)Email地址的格式則是“用戶(hù)名@主機(jī)名”,其中用戶(hù)名是一串字母或數(shù)字,主機(jī)名則是由若干個(gè)由“.”分隔的字母數(shù)字串。正則表達(dá)式就是用來(lái)指定這種規(guī)則的。如果某個(gè)字符串滿(mǎn)足正則表達(dá)式指定的規(guī)則,則稱(chēng)該字符串為正則表達(dá)式的一個(gè)“匹配串”。

正則表達(dá)式的構(gòu)成:

為了方便理解,讓我們先來(lái)看看大家比較熟悉的數(shù)學(xué)表達(dá)式,“(x+3)*2+y”是一個(gè)典型的數(shù)學(xué)表達(dá)式。一個(gè)數(shù)學(xué)表達(dá)式由若干個(gè)“項(xiàng)”組成,“項(xiàng)”與“項(xiàng)”之間用加號(hào)或減號(hào)相連;這里“(x+3)*2”和“y”分別是兩個(gè)項(xiàng)。每個(gè)項(xiàng)又由若干個(gè)“因子”組成,因子之間用乘號(hào)或除號(hào)相連;這里第一個(gè)項(xiàng)有兩個(gè)因子“(x+3)”和“2”,而第二個(gè)項(xiàng)只有一個(gè)因子“y”。每個(gè)因子可以是一個(gè)簡(jiǎn)單的數(shù),一個(gè)代數(shù)變量,也可以是放在括號(hào)里面的另一個(gè)表達(dá)式。對(duì)于最后一種情況,括號(hào)中的表達(dá)式稱(chēng)為“子表達(dá)式”;這里“x+3”就是一個(gè)子表達(dá)式。

正則表達(dá)式的結(jié)構(gòu)與數(shù)學(xué)表達(dá)式很相似。與數(shù)學(xué)表達(dá)式的“項(xiàng)”相對(duì)應(yīng),正則表達(dá)式由若干個(gè)“分支”構(gòu)成,“分支”之間用符號(hào)“|”相連。從邏輯上講,分支之間是一種“或”的關(guān)系,一個(gè)字符串只要與正則表達(dá)式中的任何一個(gè)分支相匹配,這個(gè)字符串就與整個(gè)正則表達(dá)式相匹配。比如,“第三人稱(chēng)代詞”可以用正則表達(dá)式表示為“他|她|它|他們|她們|它們”。

與數(shù)學(xué)表達(dá)式的“因子”相對(duì)應(yīng),構(gòu)成正則表達(dá)式“分支”的部件稱(chēng)為“原子”!霸印迸c“原子”之間沒(méi)有任何符號(hào)相連。從邏輯上講,原子之間是串接的關(guān)系,一個(gè)字符串必須與各個(gè)原子依次相匹配,才算與這個(gè)分支相匹配。比如在上面的例子中,分支“他們”由兩個(gè)原子“他”和“們”組成。

正則表達(dá)式的本質(zhì)是它的“原子”可以有多種不同的形式。前面的例子是最簡(jiǎn)單的情形,即每個(gè)原子由一個(gè)普通字符組成。除此以外,“原子”還可以是特殊符號(hào)、通配符、字符集以及子表達(dá)式。

簡(jiǎn)繁體轉(zhuǎn)換:

TextPro內(nèi)部采用Unicode編碼。通過(guò)讀入和保存不同編碼的文件可以實(shí)現(xiàn)不同編碼之間的轉(zhuǎn)換。TextPro可以實(shí)現(xiàn)繁體漢字與簡(jiǎn)化漢字之間的互相轉(zhuǎn)換。
簡(jiǎn)繁漢字轉(zhuǎn)換牽涉到許多問(wèn)題,尤以多義字和古今用法中的異體字為難,無(wú)法兼顧。TextPro的漢字轉(zhuǎn)換以處理佛經(jīng)(古代文體)為主,未顧及現(xiàn)代漢字特點(diǎn)。
TextPro對(duì)漢字處理的原則是:一是遵循我國(guó)現(xiàn)有的漢字標(biāo)準(zhǔn);二是兼容全部BIG5碼漢字;三是采用多層次的轉(zhuǎn)換功能(如果文本行末有硬回車(chē),宜使用TextPro的“刪除換行”功能進(jìn)行預(yù)處理)。后者是指除了一對(duì)一的漢字轉(zhuǎn)換外,在內(nèi)部轉(zhuǎn)換時(shí)還采取了以詞組選擇多義字的方法以盡量減少轉(zhuǎn)換錯(cuò)誤;不過(guò),要想在轉(zhuǎn)換后得到完全正確的文章,仍須逐字校對(duì)。
在將文件保存到Big5編碼時(shí),可以用異體字和組字式替代Big5編碼不支持的漢字。在設(shè)置->選項(xiàng)中可以設(shè)置是否“轉(zhuǎn)成組字式”。
TextPro在漢字轉(zhuǎn)換之外還提供了一個(gè)補(bǔ)充功能:可以用自定義替換表進(jìn)行漢字的替換。用法在“正則表達(dá)式和自定義替換說(shuō)明”的幫助文件(RegExp.chm)中有介紹。
TextPro開(kāi)發(fā)過(guò)程中,糾正了NJStar把BIG5碼漢字轉(zhuǎn)成GB碼時(shí)出現(xiàn)的約200處錯(cuò)誤。原則是出現(xiàn)一對(duì)多的對(duì)應(yīng)時(shí),保留原字(GBK碼)。
簡(jiǎn)體轉(zhuǎn)繁體中解決了部分一對(duì)多的難題,但對(duì)復(fù)雜情形和古文還不夠用,只能起到輔助作用。

軟件標(biāo)簽: 文本處理

其他版本下載

最新評(píng)論查看所有(1)條評(píng)論 >

第 1 樓 湖南省衡陽(yáng)市 網(wǎng)友 客人 發(fā)表于: 2012/6/20 19:56:49
點(diǎn)擊打開(kāi)TEXTPRO,把文本粘貼至打開(kāi)的TEXTPRO處理窗口,點(diǎn)擊轉(zhuǎn)換,選中規(guī)范行首,然后再用一次轉(zhuǎn)全角。

支持( 0 ) 蓋樓(回復(fù))

發(fā)表評(píng)論

昵稱(chēng):
表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
查看所有(1)條評(píng)論 > 字?jǐn)?shù): 0/500

TOP
軟件下載