首先,,我講解下什么是關(guān)關(guān)采集器,,也就是小說站長老司機(jī)常說的關(guān)關(guān),其實關(guān)關(guān)采集器是杰奇小說系統(tǒng)的輔助采集器,是一個軟件,,它使用的是杰奇后臺采集規(guī)則,但程序只能在windows平臺下運行,,所以linux想用杰奇做站又想用關(guān)關(guān)的話可能就比較麻煩了,,下面講下要使用關(guān)關(guān)采集器的話一些文檔需要注意的東西。
關(guān)關(guān)采集器主要注意的是兩個文件夾
rules文件夾,、log文件夾:
Rules是我們放關(guān)關(guān)采集規(guī)則的地方,;
log是記日志的東西,就是關(guān)關(guān)采集器出錯的時候會記錄錯誤的信息,我們看到這個就知道采集出錯在哪里了,;
現(xiàn)在我們點開關(guān)關(guān)采集器,,直接打開NovelSpider.exe,就可以啟動關(guān)關(guān)采集器了,。(注:打開的過程會有點慢,,所以點擊一次就等一下。千萬不要再點打開,,否則在一段時間后會打開多個關(guān)關(guān)采集器?。?br />
有些關(guān)關(guān)會出現(xiàn)提示框,我們不管它直接關(guān)掉,。
了解關(guān)關(guān)采集器的一些常用的東西
打開之后,,我們應(yīng)該立刻修改“設(shè)置(S)”→系統(tǒng)設(shè)置。:
1.修改本地網(wǎng)站目錄,,比如,,我的在D:\xiaoshuo
2.再修改數(shù)據(jù)庫連接字符串
DataSource=127.0.0.1;
Database=數(shù)據(jù)庫名稱;
UserID=數(shù)據(jù)庫管理用戶名;
Password=數(shù)據(jù)庫管理密碼;
port=3306;
charset=gbk
這上面是設(shè)置關(guān)關(guān)采集器的東西,就是第一次用的時候要設(shè)置,,設(shè)置好了就不需要再設(shè)置了,。
關(guān)于“關(guān)關(guān)采集器”分類設(shè)置
第一:分類設(shè)置一般用大類對應(yīng),這些對應(yīng)你網(wǎng)站的類別,。譬如1|玄幻奇幻=,玄幻,奇幻,魔法,魔幻,玄幻魔法,奇幻玄幻,玄幻小說,玄幻·魔幻,玄幻異界,玄幻奇幻,
1是你網(wǎng)站第一個藍(lán)米玄幻奇幻,,等號后面的是采集目標(biāo)網(wǎng)站可能遇到的分類,越詳細(xì)越好,,一些模板網(wǎng)站對應(yīng)你的玄幻奇幻沒有的,,你就添加進(jìn)去。
第二:是設(shè)置里面的生成
默認(rèn)不需要修改,,第一個生成目錄頁html是你網(wǎng)站小說目錄頁的html,,如果你網(wǎng)站用的是偽靜態(tài)那就不需要生成,第二個生成內(nèi)容頁html這個是小說內(nèi)容的點擊去看小說的文字章節(jié),,這個和上面第一個一樣,,如果你網(wǎng)站用的是偽靜態(tài)那就不需要生成。
如果在建靜態(tài)小說網(wǎng)站的話就需要生成了,,這個很耗費硬盤的,。一般1000本小說都要幾G的空間了。
第三:生成全文閱讀,。不用管他一般用不到,。
第四:生成OPF。這個是一定要生成的要不網(wǎng)站打不開,,你的小說網(wǎng)站也是如果不生成是打開錯誤的,。這里打勾就行了。其他的設(shè)置不要管,沒有特殊要求是用不到的,。
(注意:【設(shè)置--的電子書設(shè)置】這個不需要管,,默認(rèn)即可,所以的勾勾都不要選,,設(shè)置里面的圖片設(shè)置也是默認(rèn)即可,,所以的勾勾都不要選。)
第五:文字廣告,。如果你想在你的小說內(nèi)容里面添加廣告可以在這打上內(nèi)容,,看需要選擇第一個入庫章節(jié)添加文字廣告真實入庫也就是會把你的廣告添加入你采集下來的小說,,files/article/txt/0/1這些路徑的txt文檔里面
這個,,你的小說是手機(jī)版所以需要選擇第一個,在你添加廣告的時候,,章節(jié)閱讀會看到不過還是不要用這些功能,。
第六:其他【過濾替換】、【文字轉(zhuǎn)圖片】,。不需要管
第七:日志選擇,。全部打勾就可以,這個是采集遇到的記錄錯誤的日志,,可以根據(jù)這個排除錯誤,。
如何看關(guān)關(guān)規(guī)則行不行
點擊規(guī)則,進(jìn)入規(guī)則管理器,,我們選擇做不的那個三角型符號下拉選擇你要測試的規(guī)則點擊右邊的載入,,然后點擊"測試規(guī)則",就會彈出一個界面,如果出現(xiàn)這些這個是獲取ID和小說名字
這個是獲得小說信息內(nèi)容包含小說名字分類簡介和封面。
有些網(wǎng)站這些信息沒有采集全,我們采集回來的話也會出現(xiàn)不全的這個沒什么影響,,主要小說章節(jié)內(nèi)容可以看就行了,。然后這些是獲取采集的章節(jié),這個是獲取小說的內(nèi)容,。
這樣就是一個好的采集規(guī)則我們可以用這個采集規(guī)則去采集小說更新了,。
如何采集
一般,我們使用的是標(biāo)準(zhǔn)采集模式,。
我們點“采集--標(biāo)準(zhǔn)采集模式”有時候會出現(xiàn)錯誤提示,,不管我們在采集框架隨便點一個規(guī)則,他就會出現(xiàn)正的位置了還有一些出現(xiàn)什么提示我們也是忽略他直接點擊【繼續(xù)】就可以了,。
進(jìn)入標(biāo)準(zhǔn)采集后正確的姿勢后,,一般用的是第一個按目標(biāo)站頁面獲取編號,這個我們規(guī)則寫的時候都是按目標(biāo)站最近更新的小說設(shè)置的,,采集的時候會自動采集對方更新的小說我們更新的時候也會跟著別人的小說網(wǎng)站更新,。
1.設(shè)置好ID的范圍,按目標(biāo)站ID采集很少用到一般需要特殊采集對方的某一本書采集的時候才采集。
2.按目標(biāo)站ID采集很少用到一般需要特殊采集對方的某一本書采集的時候才采集,。
3.按自己網(wǎng)站的小說ID采集的,,也是要更新自己網(wǎng)站的某一本小說才點擊,但是模板站不一定有這本書,,所以采集起來很慢,。很少用、基本沒用,。
4.到最下面的日志記錄這個一定個要選上會記錄采集小說的到時候無緣無故出現(xiàn)采集不了的信息,。循環(huán)采集這個也一定要選上,這個是自動采集的時候保證采集器自動循環(huán)采集對方的網(wǎng)站,,循環(huán)時間設(shè)置看你自己的需求,,我一般設(shè)置是十分鐘。如果你想不停采集那設(shè)置為零,。
如何設(shè)置采集動作,?
【添加新書】:這個要加書的時候添加的;
【慎用】:后面帶的這兩個字的這個是對比模板站的章節(jié)名稱如果對就繼續(xù)采集不對就清空再采集,,這個不要用,,會出大問題的。有時候不小心把自己百度收錄過的頁面清空那就悲劇了,。其他的一些功能那就沒什么了看文字就知道了,;
【設(shè)置2】:這個是對比章節(jié)的選擇哪個都差不多,反正我怎么感覺不出來有什么不同你默認(rèn)就可以,;
【空章節(jié)處理方式】:就是模板站有些小說內(nèi)容是空的,,看你自己需要,不過注意的就是不要選擇第二個跳過本章,,因為跳過這個章節(jié)就會空出一個章節(jié)名字,,下次采集的時候少一個章節(jié)名字就和模板站對比章節(jié)名字就無法更新這本書了;
【章節(jié)排列方式】:這個是看目標(biāo)站的情節(jié)的,,比較復(fù)雜,。我給你的采集規(guī)則都是按目標(biāo)站順序的。不要選擇什么,,一般用到的是【目標(biāo)站順序】這個和【按章節(jié)ID順序】,,其他的不要用。用這兩個都不會出問題,,我給你的設(shè)置默認(rèn)即可,;
【過濾設(shè)置】:看你自己需要設(shè)置看字面意思很明白了;
【去除水印】:這個基本不需要,;
【代理】,、【進(jìn)度】:一般設(shè)置上面的三個數(shù)字都是000,;
這樣就采集快了,代理IP那個是目標(biāo)站封你的采集然后你在網(wǎng)上找一些代理來,,開啟代理功能然后采集的,。
到這里關(guān)關(guān)的一些功能都講完了,其他的是一些輔助的功能可以以后自己慢慢了解,。
下面就設(shè)置好點擊開始采集可以了,,選好規(guī)則選好按什么采集采集動作進(jìn)的等可以點擊開始了;
如提示“成功開始采集的模式”,,這樣就好了可以去看你的網(wǎng)站更新了沒有,。
后記:因為關(guān)關(guān)采集器升級的原因,各版本可能有區(qū)別,,但是大體相差不大,,變通下就行了或者網(wǎng)上百度下隨便可以找到解決方案的。