網(wǎng)絡神采下載
6.2.16 免費版- 軟件大?。?span itemprop="fileSize">5.91 MB
- 更新日期:2018-07-31
- 軟件語言:簡體中文
- 軟件類別:網(wǎng)頁輔助
- 軟件授權:免費軟件
- 軟件官網(wǎng):未知
- 適用平臺:WinXP, Win7, Win8, Win10, WinAll
- 軟件廠商:
軟件介紹人氣軟件相關文章網(wǎng)友評論下載地址
網(wǎng)絡神采款在電腦上運行的采集工具;用戶將軟件安裝成功之后,點擊快捷方式進入軟件的主界面,對相關的采集信息進行設置完成,點擊開始的按鈕,就能完成任務的采集;軟件對網(wǎng)頁的數(shù)據(jù)下載,并且是免費的提供給大家使用,智能的采集功能,讓您節(jié)約許多的時間,而且對二次開發(fā)的功能注冊,采用了分布式的部署,感興趣的朋友不要錯過!
軟件功能
源文件查看器
設置采集任務時,需要分析網(wǎng)頁源文件,以確定如何提取里面的信息。源文件查看器為軟件附帶的一個工具,其文件名為:htmlview.exe。
正則式測試器
軟件附帶的一個正則表達式測試工具。
網(wǎng)址編碼器
用于把帶有漢字的URL進行編碼,或對已編碼的URL解碼。
任務升級器
可以將低版本的任務文件升級到新版。
在線發(fā)布器
可以將本地數(shù)據(jù)在線發(fā)布到網(wǎng)站
HTML標記
采集時,軟件將自動剔除內容中HTML標記,然而,用戶可以選擇保留一些標記。在這里維護一個標記庫,以供編輯任務時選擇。
正則表達式
在這里維護預置正則表達式,供“采集結果替換”使用。
插入“增量式變量”
在起始地址中,除了可以使用“頁碼變量”外還可以使用增量,例如:http://www.aaa.com/search.asp?keyword=北京&start={0,1000,20},表示start參數(shù)將從0變到1000,每次遞增20。
插入“倒序頁碼變量”
適用于倒序采集,即先采集排在后面的頁面。例如:http://www.aaa.com/search.asp?keyword=北京&page={100,1,-1},表示page參數(shù)將從100變到1,每次減1。
插入POST參數(shù)的前后輟
假設這是一個查詢信息的頁面:http://www.aaa.com/query.asp,在這個網(wǎng)站進行查詢后,URL中并不顯視任何參數(shù),因為它們以POST方式被提交。在軟件中,如果將參數(shù)包括在{post}與{/post}之間,就表示模擬POST方式提交。例如:http://www.aaa.com/query.asp?{post}keyword=北京&page={1,100}{/post},表示將其中的keyword和page參數(shù)以POST方式提交。其中的page參數(shù)就是上面提到的頁碼參數(shù),在這里表示采集1到100頁。
插入年、月、天、日期變量
假設這是一個帶有“日期變量”的起始地址:http://www.aaa.com/news/{time:yyyy-MM-dd}/news_list.asp,采集時其“日期變量”會被替換為當前日期,如:http://www.aaa.com/news/2007-05-24/news_list.asp。
編碼/解碼選中部分
對起始地址文本框的選中部分進行了URL編碼或解碼。注意:起始地址中如果有漢字,一般必須要對URL進行編碼。
捕獲網(wǎng)址
當訪問某些網(wǎng)站時,URL中并不顯視任何參數(shù),因為這些參數(shù)都以POST方式被提交。如果得不到這些POST參數(shù),則不能通過軟件進行訪問并查詢。在這里可以捕獲POST網(wǎng)址,其中包括隱藏的POST參數(shù)。捕獲后,網(wǎng)址會被自動填寫到起始地址文本框中。
軟件特色
發(fā)布結果
軟件默認將采集結果保存到結果文件,發(fā)布結果是指將結果文件中的采集結果發(fā)布到你現(xiàn)有的數(shù)據(jù)庫。
結果導出為
將結果文件中的采集結果導出為ACCESS、EXCEL、文本文件。
查看結果
查看結果文件中的采集結果。
清空結果
清空結果文件中的采集結果。
發(fā)布時重復行
將采集結果發(fā)布到數(shù)據(jù)庫時,可以做數(shù)據(jù)重復性檢查,以避免重復采集。這里的“重復行”是指發(fā)布時與數(shù)據(jù)庫中現(xiàn)有記錄重復的數(shù)據(jù)行。為便于日后查看,可以選擇將這些重復行保存到文件。在這里可以查看、清空重復行。
發(fā)布時出錯行
將采集結果發(fā)布到數(shù)據(jù)庫時,可能會產生錯誤,例如,由于現(xiàn)有數(shù)據(jù)字段長度太小裝不下采集的信息等。為便于日后查看,可以選擇將這些發(fā)布失敗的數(shù)據(jù)行,也就是“出錯行”,保存到文件。在這里可以查看、清空出錯行。
歷史記錄
軟件在采集時支持歷史記錄對比,即通過檢查歷史記錄判斷該地址是否已經采集過,如果已經采集過,則不再采集。在這里可以查看和管理歷史記錄。
任務日志
可以選擇將任務的運行日志保存到文件,在這里可以查看日志。
使用方法
1、在本站河東軟件園將軟件下載完成之后解壓成功,點擊poster.exe運行軟件;
2、點擊應用程序圖標即可進入軟件的主界面,可以對相關的選項進行設置;
3、點擊文件夾的圖標即可對本地數(shù)據(jù)庫文件選擇;
4、發(fā)布之后是否對本地數(shù)據(jù)進行刪除,也支持對緩存的大小進行設置;
5、目標地址編輯窗口,快速的完成對參數(shù)名稱的查找設置;
6、可以對捕獲的地址參數(shù)等進行查看;
7、對自定義的錯誤進行設置,包括了錯誤列表的顯示;
8、設置完成之后,點擊開始發(fā)布的按鈕,即可對發(fā)布的狀態(tài)信息查看;
9、對軟件的關于信息進行查看;
10、支持用戶對工作流程進行查看;
使用說明
入門采集示例
示例分析
新聞采集是最常用的,也是最容易理解的,我們就拿一個簡單的新聞采集任務作為入門示例。該任務有兩層:“新聞列表”和“新聞內容”。我們將新聞列表作為“起始地址”,然后通過“導航規(guī)則”從“新聞列表”提取“新聞內容”的網(wǎng)址,最后根據(jù)“采集規(guī)則”采集所需內容。
創(chuàng)建任務
在軟件主窗口,單擊菜單“任務”->“新建”,打開“任務編輯”對話框來創(chuàng)建一個任務。下面通過圖文混合,一步步討論如何填寫設置:
第一步:任務概述
在“任務概述”中,我們只填寫一個任務名稱即可:鄭州大學新聞信息。其它設置暫且不討論,等您熟練以后再參考我們的幫助文檔。
第二步:起始地址
起始地址就是我們要采集內容的入口地址,在這里是“新聞列表”:http://www3.zzu.edu.cn/msgs/vmsgisapi.dll/vmsglist?mtype=x&lan=202&tts=&tops=&pn={1,100}。其中,“pn”是分頁變量名,這個可以通過在瀏覽時“新聞列表”時對其進行翻頁并觀察得出。如果“pn=1”就表示第1頁,“pn=2”表示第2頁,以此類推。我們?yōu)?ldquo;pn”指定一個變量值:{1,100},就表示將要采集1到100頁。這種分頁變量格式是我們軟件定義的,可以通過點擊“插入”按鈕插入預置分頁變量(詳見這里)。
第三步:導航規(guī)則
因為該任務有兩層,所以需要建兩條“導航規(guī)則”,分別命名為:“新聞列表”和“新聞內容”。我們需要從“新聞列表”提取“新聞內容”的網(wǎng)址,以實現(xiàn)導航。因此,設“新聞列表”為“中間層”,并填寫“下一層網(wǎng)址模板”以提取網(wǎng)址。而“新聞內容”只需選中“最終頁面”,然后保存即可。
那如何確定“新聞列表”的“下一層網(wǎng)址模板”呢?請看下圖。
通過查看“新聞列表”的源文件,我們可以找出“新聞內容”的網(wǎng)址,即黃色部分所示。我們把網(wǎng)址中的變量部分替換成“*”(通配符),便是“下一層網(wǎng)址模板”,即:http://www16.zzu.edu.cn/msgs/vmsgisapi.dll/onemsg?msgid=* 。這樣,我們在提取時就有了一個依據(jù):只提取匹配模板的網(wǎng)址,而跳過其它網(wǎng)址。
“導航規(guī)則”最終設置如下:
第四步:采集規(guī)則
通過“導航規(guī)則”我們一路走到了“最終頁面”,也就是“新聞內容”,接下來就需要根據(jù)“采集規(guī)則”采集所需內容了。如上圖所示,一條“采集規(guī)則”對應一個數(shù)據(jù)庫字段,也就是一種信息類型,如:標題、發(fā)布者、供稿人、內容等。“數(shù)據(jù)庫字段”可以不填,默認為其規(guī)則名稱。而“所屬層次”為跨層采集功能,本示例用不到,保持默認即可。
下面就是最重要的:“信息前標志”和“信息后標志”,軟件通過在源文件中查找“前后標志”來定位要采集的信息。那么如何取得信息的前后標志呢?請看下圖。
如圖所示,“紅色部分”表示信息的前標志,而“黃色部分”為后標志,被夾在中間的“藍色部分”就是我們需要采集的內容。依次為:“標題”、、“發(fā)布者”、“供稿人”、“發(fā)布日期”、“閱讀次數(shù)”、“內容”。
“采集規(guī)則”最終設置如下:
注意:
1、如果使用“前后標志”采集信息,必須與“網(wǎng)頁源文件”中出現(xiàn)的順序一致。
2、一條“采集規(guī)則”應用后,會將“采集內容”的尾部作為“當前位置”,然后從“當前位置”查找下一條“采集規(guī)則”的“信息前標志”。
3、如果選中了“全局規(guī)則”、“靜態(tài)規(guī)則”,則再不受“當前位置”影響。
第五步:采集結果
如圖所示,我們不在這里做任何設置,采集后直接將結果導出即可。
使用技巧
1、 自動填寫“采集規(guī)則名稱”
設置采集規(guī)則時,如果“信息前標志”中包含“漢字或字母”,則自動提取為“采集規(guī)則名稱”。例如:
2、導入導出任務
可免費注冊兩個神采帳號,不同帳號之間“導出/導入”任務,導入后簡單修改即可實現(xiàn)自己的采集需求。
導出時,可按住 Ctrl 鍵選中多個任務。運行或暫停任務也是一樣,可多選。
3、復制任務
同一種任務(例如,同一個網(wǎng)站下的不同欄目),或智能采集任務(不需要配規(guī)則,只要修改起始地址),非常適合復制一個任務,然后再修改:
4、采集后的內容,保留換行、圖片等
默認時,采集后的內容不保留任何HTML標記,所以換行、圖片等無法顯示。在采集規(guī)則設置中,可明確保留哪些HTML標記:
“HTML標記”庫是可以維護的,軟件菜單:設置 -> HTML標記:
5、預置規(guī)則名稱
6、將固定值作為結果
手工設置一個固定值,可用于指定分類、地區(qū)等。截圖示例:
、
7、默認結果替換
在采集規(guī)則中,可以設置“采集結果替換”,對采集后的內容進行替換。如果需要經常替換一些內容,如將“ ”替換為“空格”({sapce}),可在軟件設置中設置一個默認替換:
其中“默認結果替換.xml”是從“任務編輯 -> 采集規(guī)則 -> 采集結果替換”導出的。
8、手動修改任務狀態(tài)
采集任務只有“暫停”時,才可以繼續(xù)采集,即斷點續(xù)采,如果“停止”任務,則必須從頭采集。
如果不小心停止了任務,可在任務的XML文件中,將任務狀態(tài)手動修改為“暫停”:
任務名稱
9、源文件替換
“源文件替換”是神采最靈活的設置之一,可將“JS腳本鏈接”替換成普通鏈接,以方便“提取下一層網(wǎng)址”,進行導航。源文件替換,實際上是“動態(tài)改變”網(wǎng)頁的源文件,以方便導航、采集。
例如,如果“列表”頁面源文件中存在這種“JS腳本鏈接”:文章標題,文章內容的實際地址,就需要用到源文件替換。
源文件替換設置為:
舊值中的“{id}”表示一個參數(shù),用來表示文章的ID(即 220433);
新值中的“${id}”表示引用舊值中的參數(shù)“{id}”,在替換后組成新的URL。
10、查看源文件替換效果
源文件替換后,不確定是否替換成功,可以采集整個“網(wǎng)頁源文件”,以查看替換后的樣子:
如果仍然有疑問,還可將采集到的“網(wǎng)頁源文件”復制到“工具 -> 正則式測試器”(RegexTester.exe),實際測試一下。因為源文件替換中的“舊值”,可直接轉換為“正則表達式” :
11、正則表達式應用:采集規(guī)則
正則表達式非常靈活,采集規(guī)則中的“前后標志”、導航規(guī)則中的“下一層網(wǎng)址模板”,最終都會被軟件轉換成正則式。
如果需要手寫“正則表達式”進行提取內容,可在“采集規(guī)則-> 采集結果替換”中使用正則式:
12、正則表達式應用:導航規(guī)則
“下一層網(wǎng)址模板”中使用“*”通配符,是軟件定義的一種規(guī)則。也可以直接使用標準的“正則表達式”提取“下一層網(wǎng)址”,使匹配更準確、更靈活:
常見問題
如果進行循環(huán)采集?
循環(huán)采集原理:
以百度新聞搜索為例:
取“循環(huán)標志”、限制采集范圍:
下載地址
-
網(wǎng)絡神采下載 6.2.16 免費版
其他版本下載
- 查看詳情火車頭采集器 9.4 最新版22.9 MB簡體中文17-05-22
- 查看詳情sugarnms Tool下載(智和網(wǎng)管軟件) 2017 免費版3.26 MB簡體中文17-05-29
- 查看詳情熊貓采集軟件下載 2.6.0.0 免費版12 MB簡體中文17-12-08
- 查看詳情老樹地圖數(shù)據(jù)采集大師下載 5.2.0.0 免費版39.8 MB簡體中文19-10-20
- 查看詳情紅鈴鐺采集軟件破解版下載 2.8.0.1 綠色版28.3 MB簡體中文17-09-01
- 查看詳情后羿采集器 3.5.1 官方版45.3 MB簡體中文20-05-11
- 查看詳情XISE菜刀下載 20.0 去后門版5.81 MB簡體中文17-03-04
- 查看詳情關鍵詞網(wǎng)址采集器下載 2.0.2.0 免費版2.74 MB簡體中文18-07-21
- 查看詳情高德地圖數(shù)據(jù)采集器下載 3.1.0 官方版27.6 MB簡體中文17-09-06
- 查看詳情Editortools旗艦版(全自動無人值守采集) 3.4 免費版17.8 MB簡體中文19-04-16
人氣軟件
三茗edu v8.3下載(網(wǎng)絡保護系統(tǒng))166 MB
/簡體中文sniffer portable 4.9下載 (64位)60.6 MB
/簡體中文Dreamweaver CC2016439.9 MB
/簡體中文magnetX(磁力搜索神器)2.19 MB
/簡體中文mockup builder(原型設計工具)下載12.6 MB
/簡體中文SysNucleus WebHarvy(網(wǎng)頁數(shù)據(jù)抓取工具)58.17 MB
/英文Adobe Brackets(HTML編輯器)15.68 MB
/簡體中文有專自媒體助手7.07 MB
/簡體中文quickchm(CHM文件制作軟件)1.87 MB
/簡體中文Save as PDF插件(chrome網(wǎng)頁轉PDF插件)63 KB
/簡體中文
相關文章
查看所有評論>>網(wǎng)友評論共0條
精彩評論
- 最新評論