善肯網頁TXT采集器是一款來自我愛破解論壇大神出品,它采用全新的正則表達式抓取下載內容,及時小說站點加密或者無法復制粘貼都可以成功采集,可下載、可實時預覽、可文本替換,并可以將每個章節(jié)存為TXT文件,非常實用,有需要的朋友歡迎使用。
軟件簡介:
開發(fā)之初是為了看小說方便,個人喜歡下載到本地慢慢看,但是很多小說網站不支持下載,或者下載有限制【非VIP小說】,也在論壇里面找過一些采集器,但是個人覺得不太好用,輸入正則表達式后,會出來章節(jié),但是點擊下載卻并不能把文本下載下來,我做好這個軟件后也繼續(xù)測試過,同樣的正則表達式,那些軟件確實匹配不出內容,所以下載失敗。也有可能是那些軟件有些我不知道的規(guī)則,但是結果就是并不能完成我想要的下載。甚至不知道是規(guī)則的問題還是軟件的問題又或者是網站設置原因……
所以我開發(fā)的這個軟件就特地加了個預覽功能,可以知道我到底能不能獲取網頁數(shù)據,我獲取后能不能正確匹配出內容。
功能介紹:
1、規(guī)則設置:
①在規(guī)則設置窗口,在網站中隨便找一篇文,不寫任何規(guī)則,先點擊實時預覽,看看能不能獲取網頁源代碼,能獲取則再寫規(guī)則,不能獲取就沒必要繼續(xù)了。
②規(guī)則設置使用的是正則表達式匹配內容,有一定基礎最好,沒基礎也可以參考給的范例,簡單學習下,不需要深入學習正則。
③規(guī)則設置的時候,目錄頁和內容頁需要分開預覽,也就需要兩個鏈接,一個目錄頁鏈接、一個內容頁鏈接。
④關于替換,有通用替換和定制替換,這里目前不需要正則,普通替換就好,需要注意的是必須要輸入值,空格也行。刪除:選中整行,再按住delete鍵就行。內置\n再作為替換數(shù)據的時候代表換行。
⑤編碼,目前只設置有GBK和UFT-8,差不多大多數(shù)網站就是這兩種編碼其中之一。
2、解析與下載
①解析請按解析地址2按鈕,1按鈕目前任性不想刪,后面要開發(fā)其他功能,
②支持單章節(jié)下載和全文下載。
③支持添加章節(jié)數(shù)【有的小說沒有章節(jié)數(shù)的時候就可以勾上】
④支持在線看,但是需要聯(lián)網,此功能只是輔助,并非專業(yè)的看小說軟件。
⑤下載進度和總需時間顯示,內置多線程。
3、關于軟件
①其實只要.exe就行,規(guī)則全是自己添加,commonrule.xml里面是通用替換規(guī)則。網站規(guī)則在rule文件夾下。我這邊在里面放了兩個網站的規(guī)則,主要是測試的時候是用的。其他網站規(guī)則,大家可以自己添加,或者支持開發(fā)者也行。
②軟件沒加殼,c#開發(fā)的,沒放病毒。不放心請不要用,我不背鍋。
③關于軟件里面有個www.52pojie.cn跳轉到論壇,我個人測試跳轉的時候被360提示了,也有可能是因為跳轉的是360瀏覽器,不知道你們會不會有這個問題。
④xml里面的內容,如果不清楚的話還是不要動它,免得軟件識別失敗報錯。
⑤需要.net framework 4.5或者及以上版本框架支持,如果你電腦沒有的話,需要下載安裝,框架不大的。
4、其他
暫時沒想到,后面想到再說。
最后,不管怎樣,還是打滾求支持,不喜請勿噴。
這個是第一個版本,所以肯定存在我之前測試沒有遇到的bug或者需要優(yōu)化的問題,歡迎大家溫柔的反饋哈。
理論上只要是目錄頁到內容頁的形式的都可以使用,不限于小說。