1,、采集說明
1.1,、請(qǐng)確認(rèn)你會(huì)看網(wǎng)頁(yè)源代碼,,并且了解大部分常用html標(biāo)簽的作用。如果不會(huì)看源代碼,,請(qǐng)付費(fèi)定制,;
1.2、采集規(guī)則是使用正則進(jìn)行編寫的,,但是有些朋友不熟悉正則,,建議稍微花一點(diǎn)點(diǎn)時(shí)間了解一下正則表達(dá)式,在這里我們也提供了一些簡(jiǎn)單的正則代碼方便不太熟悉正則的朋友編寫,,當(dāng)然熟悉正則的我們還是希望直接使用正則來進(jìn)行;
````````````````````````````````````````````````````````````````````````
'[內(nèi)容]' => '(.*?)',
'[數(shù)字]' => '\d*',
'[空白]' => '\s*',
'[任意]' => '.*?',
'[參數(shù)]' => '[^\>\<]*?',
'[屬性]' => '[^\>\<\'"]*?',
````````````````````````````````````````````````````````````````````````
如上,,我們支持以上幾種標(biāo)簽,,下面分別解釋
[內(nèi)容] 就是我們需要獲取的東西
[數(shù)字] 這是純數(shù)字
[空白] 這是用在換行的地方,包括換行 空格 \r \n
[任意] 這就是任意字符
[參數(shù)] 這是html代碼中的參數(shù) 如`alt="標(biāo)題"` 這樣的
[屬性] 這是html代碼中參數(shù)的屬性 對(duì)于上述例子中的`alt="標(biāo)題"` ,,可以代替`標(biāo)題`
1.3,、關(guān)于添加站點(diǎn)的說明
1.3.1、我們的程序在章節(jié)對(duì)比匹配時(shí)以其中一個(gè)站點(diǎn)為基準(zhǔn)進(jìn)行章節(jié)重排,,這個(gè)站點(diǎn)稱作基準(zhǔn)站,,亂章錯(cuò)章很大程度上和基準(zhǔn)站的質(zhì)量有關(guān);
1.3.2,、當(dāng)然基準(zhǔn)站不是一成不變的,,基準(zhǔn)站和站點(diǎn)管理里面替換源站有關(guān),小說添加新書時(shí),,通過哪個(gè)站點(diǎn)采集來的哪個(gè)站點(diǎn)就為小說的基準(zhǔn)站,,當(dāng)添加新站點(diǎn)替換源站為打開時(shí),通過這個(gè)站點(diǎn)入庫(kù)了同本小說,,第一次入庫(kù)時(shí)該新站替換為小說的基準(zhǔn)站,,建議除了起點(diǎn)中文等原創(chuàng)站點(diǎn)之外,替換源站這個(gè)功能盡量不要打開,,否則會(huì)造成章節(jié)錯(cuò)亂,;
1.3.3、入庫(kù)排序?qū)Ρ鹊臅r(shí)候?qū)σ槐緯曰鶞?zhǔn)站為準(zhǔn),,例如本來一本書的基準(zhǔn)站是頂點(diǎn)中文,,在采集筆趣閣后基準(zhǔn)站變成了筆趣閣,之后入庫(kù)都會(huì)按照筆趣閣的進(jìn)行入庫(kù)和對(duì)比,;
1.3.4,、在更改基準(zhǔn)站之后會(huì)有一個(gè)小說章節(jié)自動(dòng)重排的功能,更改基準(zhǔn)站時(shí)會(huì)把之前的章節(jié)重新排一次,,只要不是基準(zhǔn)站變化,,重排只會(huì)重排上一次之后的,,比如上一次基準(zhǔn)站更新到了100章,然后別的站點(diǎn)更新到了102 章,,隨后基準(zhǔn)站才更新,,這時(shí)候基準(zhǔn)站就只重排101、102兩章,;
1.3.5,、優(yōu)質(zhì)站點(diǎn)和原創(chuàng)站點(diǎn)與普通站點(diǎn)的區(qū)別是基準(zhǔn)站更新慢了之后優(yōu)質(zhì)站點(diǎn)或原創(chuàng)站點(diǎn)有新章節(jié)入庫(kù),小說章節(jié)會(huì)根據(jù)優(yōu)質(zhì)站點(diǎn)或原創(chuàng)站點(diǎn)的入庫(kù)章節(jié)往后增加,,而普通站點(diǎn)只會(huì)變成未匹配狀態(tài)不會(huì)自動(dòng)增加章節(jié),;
1.3.6、建議站點(diǎn)配置
下面是我們提供的最適合程序的,,但是會(huì)導(dǎo)致小說添加過慢,,您也可以自己來設(shè)置,只要不開啟替換源站正常情況下不會(huì)出現(xiàn)太大的問題
替換源站不能隨便開 打開就會(huì)章節(jié)錯(cuò)亂,,正常情況下最多只能開一個(gè)起點(diǎn),,如果開啟了原創(chuàng)站限制,原創(chuàng)站可以都開啟,,如果開啟較多的替換源站則會(huì)相互沖突導(dǎo)致章節(jié)錯(cuò)亂
1.3.6.1,、原創(chuàng)站點(diǎn):添加新書、不替換源站,;
1.3.6.2,、優(yōu)質(zhì)站點(diǎn):不添加新書、不替換源站,;
1.3.6.3,、普通站點(diǎn):不添加新書、不替換源站,;
1.4,、關(guān)于規(guī)則采集的說明:規(guī)則采集分為兩步走,第一步添加站點(diǎn),,第二步添加規(guī)則,,下面就以筆趣閣http://www.biqugecom.com為例說明規(guī)則采集的詳細(xì)步驟;
2,、第一步:添加站點(diǎn),;選擇“采集管理-站點(diǎn)管理-站點(diǎn)管理-添加”進(jìn)行新站點(diǎn)的添加
2.1、關(guān)于添加站點(diǎn)的說明
2.1.1,、站點(diǎn)名稱,,站點(diǎn)關(guān)鍵詞請(qǐng)根據(jù)站點(diǎn)來填寫,在章節(jié)換源頁(yè)面中url中可以選用站點(diǎn)關(guān)鍵詞,正確填寫有助于優(yōu)化,!
2.1.2,、站點(diǎn)類型的選擇,請(qǐng)參考本文檔1.3,,關(guān)于站點(diǎn)添加新書和替換源站的配置請(qǐng)參考本文檔1.3.6,,注意1.3.6的配置僅是本程序的建議配置,不帶表普通站不可添加新書和替換源站,,當(dāng)使用普通站點(diǎn)添加新書或替換源站時(shí)可能會(huì)導(dǎo)致基準(zhǔn)站質(zhì)量不好,,出現(xiàn)小說章節(jié)錯(cuò)誤、排序錯(cuò)誤等問題,;站點(diǎn)權(quán)重影響小說章節(jié)顯示,,比如說同一本小說由多站采集匹配,閱讀小說時(shí)會(huì)優(yōu)先顯示權(quán)重高的章節(jié),,但是權(quán)重最大值不能超過100,;
2.1.3、樣式和備注,,追書模式下有用,,目前4.*之后已經(jīng)移除追書模式,,不必填寫任何數(shù)據(jù),,這里暫時(shí)不做過多介紹;
2.1.4,、添加新書和替換源站配置請(qǐng)參考本文檔1.3.6,,如果添加新書狀態(tài)為“是”,添加條件為“或[OR]關(guān)系”時(shí),,最少章節(jié)和最少字?jǐn)?shù)滿足一個(gè),,即可添加新書,如果都不滿足,,即使添加新書狀態(tài)為“是”也不會(huì)添加新書,;當(dāng)添加新書狀態(tài)為“是”,添加條件為“與[AND]關(guān)系”時(shí),,最少章節(jié)和最少字?jǐn)?shù)必須同時(shí)滿足才可添加新書,,否則即使添加新書狀態(tài)為“是”也不會(huì)添加新書,新書添加入庫(kù)以后,,本站即為新書的基準(zhǔn)站,;替換源站狀態(tài)為“是”時(shí),采集到的小說第一次入庫(kù)時(shí)會(huì)替換原來的基準(zhǔn)站為本站,,狀態(tài)為“否”時(shí),,采集小說只做匹配不會(huì)替換基準(zhǔn)站,關(guān)于基準(zhǔn)站的說明,,請(qǐng)參考本文檔1.3,;本文檔為方便說明,,就對(duì)筆趣閣站點(diǎn)做了如下配置;
3,、第二步:添加規(guī)則,;選擇“采集管理-規(guī)則管理-規(guī)則管理-添加”進(jìn)行規(guī)則的添加,輸入框名稱后面帶“*”的為必填或必選,,不帶“*”的輸入框,,如果能找到對(duì)應(yīng)的內(nèi)容建議把正則表達(dá)式寫上,找不到對(duì)應(yīng)內(nèi)容的,,可以為空,,本程序會(huì)自動(dòng)填充;
3.1,、規(guī)則信息的填寫
3.1.1,、規(guī)則名稱的選擇,可根據(jù)自己喜好自由填寫,,,;小說采集來以后,會(huì)根據(jù)后臺(tái)“采集管理-采集管理-匹配設(shè)置”內(nèi)預(yù)先設(shè)定進(jìn)行小說分類的匹配,,此處的站點(diǎn)分類選擇不會(huì)影響采集,,但是會(huì)影響文章的分類,具體參考“采集管理-采集管理-匹配設(shè)置”,,比如這里選擇了“先男后女”,,采集到的文章就先與默認(rèn)匹配規(guī)則進(jìn)行匹配,如默認(rèn)規(guī)則匹配不到則再與女生匹配規(guī)則進(jìn)行匹配,,匹配到的分類就是文章在本站的分類,,一次類推;所屬站點(diǎn)選擇第一步添加的站點(diǎn),,注意不要選擇錯(cuò)誤,,如這里選擇錯(cuò)誤,將會(huì)根據(jù)選擇的站點(diǎn)進(jìn)行匹配,,如果要進(jìn)行API采集請(qǐng)選擇狀態(tài)為“是”只需要填寫對(duì)應(yīng)的API KEY即可,,本文檔介紹的是規(guī)則采集,在這里就不做過多介紹,;
3.1.2,、下圖為筆趣閣網(wǎng)站某本小說的目錄頁(yè),在對(duì)目錄頁(yè)進(jìn)行采集時(shí),,你會(huì)發(fā)現(xiàn)本頁(yè)面會(huì)有一個(gè)最新章節(jié)包含本小說后九章的信息,,但是本頁(yè)面正文卷最后也包含小說后九章的內(nèi)容,如果進(jìn)行采集會(huì)造成后九章章節(jié)重復(fù);有三種方法可以解決此問題,,可以通過選擇跳過始章9或跳過尾章9或過濾重復(fù)解決此問題,;本文檔采用過濾重復(fù)方法進(jìn)行操作,具體配置參考3.1.5下面的圖,;
3.1.2.1,、如果選擇跳過始章9,那么我們會(huì)發(fā)現(xiàn)小說目錄順序沒有出現(xiàn)錯(cuò)誤,,那么過濾重復(fù)和處理亂序可選可不選,;
3.1.2.2、如果選擇選擇“跳過尾章9”也可以解決采集章節(jié)重復(fù)問題,,但會(huì)出現(xiàn)章節(jié)目錄排序混亂問題(后九章拍到了所有章節(jié)的前面),,那么此時(shí)需要打開處理亂序功能,本程序會(huì)對(duì)小說章節(jié)進(jìn)行重新排序,;
3.1.2.3,、如果選擇“過濾重復(fù)”也可解決采集重復(fù)問題,但是由于采集為從上到下進(jìn)行采集,,也會(huì)出現(xiàn)章節(jié)亂序問題,,因此選擇過濾重復(fù)時(shí),必須打開處理亂序,;
3.1.3,、個(gè)別站點(diǎn)目錄頁(yè)面最后幾章章節(jié)名加的有防采集的干擾字符,如果有的話 ,,可以數(shù)一下最后幾章有,,添加到章節(jié)名糾錯(cuò)輸入框就可以了,;
3.1.4,、如果個(gè)別站點(diǎn)對(duì)本站進(jìn)行了屏蔽,不能采集操作,,建議開啟代理,,代理配置參考“采集管理-采集管理-代理設(shè)置”;
3.1.5,、關(guān)于下載選項(xiàng),,選擇不支持下載的話,通過本規(guī)則采集到的小說用戶只可以在線閱讀,,不可下載離線閱讀,;如果選擇支持下載的話用戶可以在線閱讀也可以下載離線閱讀;如果選擇僅下載的話用戶只能進(jìn)行下載離線閱讀,,不可在線閱讀,;本文檔選擇不支持下載;
3.2、更新列表規(guī)則
3.1,、關(guān)于正則的說明:本文檔選擇了sublime text3代碼編輯器,;然后回到需要進(jìn)行采集的頁(yè)面查看源代碼,將源代碼復(fù)制到事先準(zhǔn)備的編輯器或者在線正則表達(dá)式,,本文檔采用的是編輯器,,以下使用編輯器操作進(jìn)行介紹,使用在線正則表達(dá)式的,,只需要執(zhí)行對(duì)應(yīng)操作即可,,不再做過多介紹;熟悉正則的朋友們直接在內(nèi)容替換上方填寫內(nèi)容對(duì)應(yīng)的正則就行了,,不熟悉正則的朋友,,建議花一點(diǎn)時(shí)間先了解一下正則表達(dá)式;如果不想學(xué)習(xí)呢就參考本文1.2熟悉一下正則的基本寫法,,下面本文檔也會(huì)每個(gè)輸入框也會(huì)根據(jù)筆趣閣的源代碼寫出2-3個(gè)正則表達(dá)式做參考,;將源代碼復(fù)制到編輯器以后,按下Ctrl+F,選擇正則符號(hào)(在線正則表達(dá)式?jīng)]有此步操作)以后,,就可以在輸入框填寫正則表達(dá)式了,,注意寫完以后要按下enter鍵檢查自己寫的是否匹配上內(nèi)容(在線正則匹配上的內(nèi)容會(huì)直接出現(xiàn)),匹配上內(nèi)容以后注意查看,,匹配的內(nèi)容是不是自己想要采集的,,有無多余匹配(匹配到了自己不想讓匹配的信息),有多余匹配的話,,正則還需要修改,,無多余匹配的話,將正則表達(dá)式復(fù)制到后臺(tái)對(duì)應(yīng)的內(nèi)容替換框即可,;
3.2,、最新更新列表頁(yè)就是將要進(jìn)行采集的網(wǎng)站的最新更新或最近更新頁(yè)面,編碼集的選擇,,大多數(shù)情況下程序會(huì)自動(dòng)判斷將要進(jìn)行采集的頁(yè)面編碼,;
3.2.1、列表頁(yè)地址就寫上,,列表頁(yè)對(duì)應(yīng)的地址,,本文檔以筆趣閣為例就寫了“http://www.biqugecom.com”,如需做多頁(yè)采集,只需要在地址后面加上“?page=[page]”,;
3.2.2,、更新列表頁(yè)的正則說明:朋友們通過更新列表頁(yè)的源代碼會(huì)發(fā)現(xiàn)后臺(tái)需要填寫的小說名稱、小說書號(hào),、更新標(biāo)識(shí)在源代碼中均有體現(xiàn),;小說名稱相信熟悉HTML代碼的朋友們都能看到,,這里就不做過多闡述,小說書號(hào)呢就是小說名稱對(duì)應(yīng)的a標(biāo)簽的href屬性后面的那組數(shù)字,,如下圖中“仙界贏家”對(duì)應(yīng)的書號(hào)就是34175,;那么更新標(biāo)識(shí)呢?更新標(biāo)識(shí)就是優(yōu)先章節(jié)ID或最新章節(jié)名或更新時(shí)間或更新字?jǐn)?shù),,總之每次小說更新這個(gè)標(biāo)識(shí)會(huì)變化就可以當(dāng)做更新標(biāo)識(shí),,實(shí)在找不到的話,可以不填,,本程序會(huì)自動(dòng)填充,;本文檔這里就選擇更新時(shí)間為更新標(biāo)識(shí)也就是2019-05-28;
3.2.3,、根據(jù)上面的源代碼,,本文檔會(huì)每個(gè)內(nèi)容替換輸入框?qū)?-3個(gè)正則表達(dá)式作為參考(每一個(gè)以“;”作為結(jié)束),;
3.2.3.1,、小說名稱對(duì)應(yīng)正則:
class="s2">\s*<a\s*href=.*\s*target.*>(.*?)<\/a;
class="s2">\s?<a\s+href\S*\s*target\S*">(.*?)<\/a,;
<span\s+class="s1">\s?\[\s?<a\s+rel="bookmark".*\n.*\n.*target="_blank">(.*?)<\/a,;
3.2.3.2、小說書號(hào)對(duì)應(yīng)正則:
class="s2">\s?<a\s+href.*\/\d*/(\d*)\/"\s*target,;
class="s2">\s?<a\s*href\S*\/\d*\/(\d*)\/"\s*target,;
class="s2"><a[^\d]*\d*\/(\d*)\/"\s*target;
3.2.3.3,、更新標(biāo)識(shí)對(duì)應(yīng)正則:
class="s4".*\s*class="s5">(.*)</span></li,;
class="s5">(\d*-\d*-\d*)</span></li;
class="s5"\D(\d{4}-\d{2}-\d{2})</span></li,;
3.3,、信息頁(yè)規(guī)則說明:進(jìn)入小說信息頁(yè)(一般來說在將要進(jìn)行采集的站點(diǎn)隨便找本小說點(diǎn)進(jìn)去,就來到了小說信息頁(yè)),然后將信息頁(yè)源代碼復(fù)制到編輯器或者在線正則表達(dá)式,,參考3.1,;如下圖通過源代碼我們會(huì)發(fā)現(xiàn)小說名稱,、作者,、封面等一些信息,把我們發(fā)現(xiàn)的信息通過正則表達(dá)式檢索,,把匹配的正則表達(dá)式復(fù)制到對(duì)應(yīng)的內(nèi)容替換框,,只要一本小書的信息頁(yè)正則匹配的上,整站所有小說信息頁(yè)都匹配的上,,找不到的不帶“*”的信息可以為空,,下面就以《我的老婆是冰山女總裁》說明一下小說信息頁(yè)的正則表達(dá)式,;
3.3.1、信息頁(yè)地址,,填寫小說信息頁(yè)的地址小說分類ID和小說ID分別用[subnovelid]和 [novelid]代替,,如點(diǎn)擊的小說信息頁(yè)地址為http://www.biqugecom.com/40/40386/,地址就填http://www.biqugecom.com/[subnovelid]/[novelid]/
3.3.2,、小說名稱的正則
<h1>(.*)</h1>,;
<title>(.*)無彈窗;(根據(jù)head內(nèi)title標(biāo)簽寫的正則)
property="og:title"\s+.*="(.*)"\/>,;(根據(jù)head內(nèi)meta標(biāo)簽寫的正則)
3.3.3,、小說作者的正則
<p>作.*者:(.*)</p>;
<h1>.*</h1>[^者]*者:(.*)</p>,;
meta.*author.*="(.*)"\/>,;(根據(jù)head內(nèi)meta標(biāo)簽寫的正則)
3.3.4、小說封面正則
<img\s+src="(.*)\/>\s?<a,;
src="(.*)"\s?\/><a\s+class;
id="bdshare"[^<]*<[^"]*"(.*)"\s?\/>;
3.3.5,、本文檔所選取的筆趣閣,沒有小說頻道,,所以不再填寫小說頻道的正則,,如果目標(biāo)網(wǎng)站有小說頻道的話,建議寫上,,這里不做過多介紹,;
3.3.6、本小說的分類為都市言情,,對(duì)應(yīng)正則如下:
<meta\s+\S*category"\s+[^"]*"(.*)"\/>,;
>\s?(.*)\s?>;
<a\s?href="/"[^;]*;\s?(.*)\s?>,;
3.3.7,、本文檔所選取的筆趣閣,沒有小說子類,,所以不再填寫小說子類的正則,,如果目標(biāo)網(wǎng)站有小說子類的話,建議寫上,,這里不做過多介紹,;
3.3.8、小說簡(jiǎn)介對(duì)應(yīng)正則
property="og:description"[^"]*"(.*)"\/>,;(根據(jù)head內(nèi)meta標(biāo)簽寫的正則)
<div\s?id="intro">([^\/]*)\/,;
3.3.9、小說進(jìn)度為最新章節(jié),,對(duì)應(yīng)正則如下:
最新章節(jié):[^>]*>(.*)<\/a>,;
property="og:novel:latest_chapter_name"[^"]*"(.*)"\/>,;(根據(jù)head內(nèi)meta標(biāo)簽寫的正則)
3.3.10、本文檔所選取的筆趣閣,,不顯示小說字?jǐn)?shù),,所以不再填寫小說字?jǐn)?shù)匹配的正則,如果目標(biāo)網(wǎng)站有小說字?jǐn)?shù)的話,,建議寫上,,這里不做過多介紹;
3.3.11,、本文檔所選取的筆趣閣,,不顯示小說標(biāo)簽,所以不再填寫小說標(biāo)簽匹配的正則,,如果目標(biāo)網(wǎng)站有小說標(biāo)簽的話,,建議寫上,這里不做過多介紹,;
3.4,、小說目錄頁(yè)規(guī)則說明:在目標(biāo)站點(diǎn)隨便進(jìn)入一本小說目錄頁(yè),PC端不方便采集的話,,移動(dòng)端也可以采集,,如果采集移動(dòng)端目錄頁(yè)地址和匹配正則都需要填寫移動(dòng)端的,本文檔使用PC端進(jìn)行采集,,移動(dòng)端不做過多介紹,;進(jìn)入小說目錄頁(yè)以后查看源代碼,復(fù)制到編輯器,,我們從源代碼中會(huì)發(fā)現(xiàn)小說的章節(jié)ID和章節(jié)名稱等信息,,把檢索對(duì)應(yīng)信息的正則表達(dá)式填寫到內(nèi)容替換框就可以了;
3.4.1,、目錄頁(yè)地址,,填寫小說目錄頁(yè)的地址小說分類ID和小說ID分別用[subnovelid]和 [novelid]代替,如點(diǎn)擊的小說目錄頁(yè)地址為http://www.biqugecom.com/40/40386/,,地址就填http://www.biqugecom.com/[subnovelid]/[novelid]/,;
3.4.2、章節(jié)ID正則
<dd>\s?<a\s+href.*\/\d*\/\d{1,5}\/(.*).html,;
<dd>\s?<a\s+.*\/.*\/\d{1,5}\/(.*).html,;
<dd>\s?<a\s+\S*\/\d*\/[^\/]*\/(\d{1,10});
3.4.3,、章節(jié)名稱正則
<dd>[^>]*>([^<]*),;
<dd.*html["|']>(.*)<\/a>;
<dd>\s?<a\s+\S*["|']>(.*)<\/a>,;
3.4.4,、章節(jié)地址,填寫小說章節(jié)的地址小說分類ID和小說ID及章節(jié)ID分別用[subnovelid]和 [novelid]及[chapterid]代替,,如點(diǎn)擊的小說章節(jié)地址為 http://www.biqugecom.com/40/40386/30637128.html ,,地址就填http://www.biqugecom.com/[subnovelid]/[novelid]/[chapterid].html;
3.5,、章節(jié)頁(yè)規(guī)則說明:在目標(biāo)站點(diǎn)隨便找本小說進(jìn)入章節(jié)頁(yè),,將源代碼復(fù)制到編輯器,寫出匹配對(duì)應(yīng)內(nèi)容的正則表達(dá)式復(fù)制到后臺(tái)對(duì)應(yīng)內(nèi)容替換輸入框,,章節(jié)接口地址為在使用API獲取章節(jié)內(nèi)容時(shí)填寫,,本文檔講的是正則采集,對(duì)此在這里不做過多介紹,,為空就行,;
3.5.1、章節(jié)名稱對(duì)應(yīng)正則
<h1>\s+(.*)<\/h1>,;
readtitle\s?=\s?"\s?(.*)";<,;(根據(jù)head內(nèi)meta標(biāo)簽寫的正則)
<h1>\s+([^<]*);
3.5.2,、章節(jié)分頁(yè)地址說明:如果采集的站點(diǎn)站點(diǎn)章節(jié)是有分頁(yè)的,,那么就把分頁(yè)的地址填上去頁(yè)碼用[page]代替;如章節(jié)分頁(yè)的地址為http://www.biqugecom.com/40/40386/18150402_2.html,那么分頁(yè)地址就填http://www.biqugecom.com/[subnovelid]/[novelid]/[chapterid]_[page].html,,由于本文檔選擇的筆趣閣沒有章節(jié)分頁(yè),,這里不過詳細(xì)說明;
3.5.3,、章節(jié)內(nèi)容對(duì)應(yīng)正則
<div\s+id="content".*<br\s?\/>\s?<br\s?\/>([^#]*)<script>read3,;
read2.*\s+.*<br\s?\/>([^#]*)read3;
3.6,、上面的信息填寫完以后點(diǎn)擊確認(rèn)添加那么規(guī)則就可以用了,;
4、測(cè)試采集及采集
4.1,、大家規(guī)則寫好添加上以后,,返回規(guī)則列表,找到剛才寫的規(guī)則,,進(jìn)行測(cè)試,,選擇運(yùn)行測(cè)試,查看采集到的信息,,如果確實(shí)是我們想要采集的信息(如下圖),,那么則可加入任務(wù),開始正式采集,,如果采集不到信息或者部分采集出錯(cuò),,那么大部分情況是由于我們的正則寫的有問題,,根據(jù)報(bào)的錯(cuò)誤提示返回繼續(xù)編輯規(guī)則,修改報(bào)錯(cuò)的正則即可,;
4.2,、確認(rèn)采集測(cè)試成功以后,開始采集時(shí),,可以選擇手動(dòng)采集或自動(dòng)采集,;
4.2.1、如果選擇手動(dòng)采集在規(guī)則列表對(duì)應(yīng)的規(guī)則后面選擇采集然后選擇前臺(tái)采集輸入對(duì)應(yīng)的開始采集頁(yè)碼和結(jié)束頁(yè)碼及翻頁(yè)時(shí)間間隔即可,,在每次采集結(jié)束后,,任務(wù)會(huì)自動(dòng)停止,需要再次采集時(shí),,重復(fù)上述操作,;
4.2.2、如果選擇自動(dòng)采集那么在規(guī)則列表對(duì)應(yīng)規(guī)則后面點(diǎn)擊任務(wù),,輸入采集時(shí)間間隔,,自動(dòng)采集為循環(huán)采集,一次采集任務(wù)結(jié)束后,,任務(wù)進(jìn)入休眠狀態(tài),,在經(jīng)過時(shí)間間隔的時(shí)間以后,任務(wù)會(huì)自動(dòng)開啟繼續(xù)進(jìn)行下一輪的采集,,附加參數(shù)為start/1/end/10(1代表開始頁(yè)碼,,10代表結(jié)束頁(yè)碼,可根據(jù)需要自行填寫),,然后選擇加入后臺(tái)任務(wù)確認(rèn)執(zhí)行就大功告成了,;