免费黄色视频在线观看不卡无码国产一区二区三区_亚洲中文字幕无码中文字 _亚洲 国产专区 校园 欧美_国内自拍真实伦在线视频_国产精品成人观看视频免费

河東軟件園:綠色免費的軟件下載站! 最新軟件|軟件分類|軟件專題|軟件發(fā)布

所在位置:首頁 > 網(wǎng)絡軟件 > 網(wǎng)頁輔助 > 網(wǎng)絡神采下載 6.2.16 免費版

網(wǎng)絡神采下載

 6.2.16 免費版
  • 軟件大?。?span itemprop="fileSize">5.91 MB
  • 更新日期:2018-07-31
  • 軟件語言:簡體中文
  • 軟件類別:網(wǎng)頁輔助
  • 軟件授權:免費軟件
  • 軟件官網(wǎng):
  • 適用平臺:WinXP, Win7, Win8, Win10, WinAll
  • 軟件廠商:

8.9
軟件評分

本地下載文件大?。?.91 MB 高速下載需下載高速下載器,提速50%

軟件介紹人氣軟件相關文章網(wǎng)友評論下載地址

為您推薦:網(wǎng)頁輔助

  網(wǎng)絡神采款在電腦上運行的采集工具;用戶將軟件安裝成功之后,點擊快捷方式進入軟件的主界面,對相關的采集信息進行設置完成,點擊開始的按鈕,就能完成任務的采集;軟件對網(wǎng)頁的數(shù)據(jù)下載,并且是免費的提供給大家使用,智能的采集功能,讓您節(jié)約許多的時間,而且對二次開發(fā)的功能注冊,采用了分布式的部署,感興趣的朋友不要錯過!

網(wǎng)絡神采下載 6.2.16 免費版

軟件功能

  源文件查看器

  設置采集任務時,需要分析網(wǎng)頁源文件,以確定如何提取里面的信息。源文件查看器為軟件附帶的一個工具,其文件名為:htmlview.exe。

  正則式測試器

  軟件附帶的一個正則表達式測試工具。

  網(wǎng)址編碼器

  用于把帶有漢字的URL進行編碼,或對已編碼的URL解碼。

  任務升級器

  可以將低版本的任務文件升級到新版。

  在線發(fā)布器

  可以將本地數(shù)據(jù)在線發(fā)布到網(wǎng)站

  HTML標記

  采集時,軟件將自動剔除內容中HTML標記,然而,用戶可以選擇保留一些標記。在這里維護一個標記庫,以供編輯任務時選擇。

  正則表達式

  在這里維護預置正則表達式,供“采集結果替換”使用。

  插入“增量式變量”

  在起始地址中,除了可以使用“頁碼變量”外還可以使用增量,例如:http://www.aaa.com/search.asp?keyword=北京&start={0,1000,20},表示start參數(shù)將從0變到1000,每次遞增20。

  插入“倒序頁碼變量”

  適用于倒序采集,即先采集排在后面的頁面。例如:http://www.aaa.com/search.asp?keyword=北京&page={100,1,-1},表示page參數(shù)將從100變到1,每次減1。

  插入POST參數(shù)的前后輟

  假設這是一個查詢信息的頁面:http://www.aaa.com/query.asp,在這個網(wǎng)站進行查詢后,URL中并不顯視任何參數(shù),因為它們以POST方式被提交。在軟件中,如果將參數(shù)包括在{post}與{/post}之間,就表示模擬POST方式提交。例如:http://www.aaa.com/query.asp?{post}keyword=北京&page={1,100}{/post},表示將其中的keyword和page參數(shù)以POST方式提交。其中的page參數(shù)就是上面提到的頁碼參數(shù),在這里表示采集1到100頁。

  插入年、月、天、日期變量

  假設這是一個帶有“日期變量”的起始地址:http://www.aaa.com/news/{time:yyyy-MM-dd}/news_list.asp,采集時其“日期變量”會被替換為當前日期,如:http://www.aaa.com/news/2007-05-24/news_list.asp。

  編碼/解碼選中部分

  對起始地址文本框的選中部分進行了URL編碼或解碼。注意:起始地址中如果有漢字,一般必須要對URL進行編碼。

  捕獲網(wǎng)址

  當訪問某些網(wǎng)站時,URL中并不顯視任何參數(shù),因為這些參數(shù)都以POST方式被提交。如果得不到這些POST參數(shù),則不能通過軟件進行訪問并查詢。在這里可以捕獲POST網(wǎng)址,其中包括隱藏的POST參數(shù)。捕獲后,網(wǎng)址會被自動填寫到起始地址文本框中。

軟件特色

  發(fā)布結果

  軟件默認將采集結果保存到結果文件,發(fā)布結果是指將結果文件中的采集結果發(fā)布到你現(xiàn)有的數(shù)據(jù)庫。

  結果導出為

  將結果文件中的采集結果導出為ACCESS、EXCEL、文本文件。

  查看結果

  查看結果文件中的采集結果。

  清空結果

  清空結果文件中的采集結果。

  發(fā)布時重復行

  將采集結果發(fā)布到數(shù)據(jù)庫時,可以做數(shù)據(jù)重復性檢查,以避免重復采集。這里的“重復行”是指發(fā)布時與數(shù)據(jù)庫中現(xiàn)有記錄重復的數(shù)據(jù)行。為便于日后查看,可以選擇將這些重復行保存到文件。在這里可以查看、清空重復行。

  發(fā)布時出錯行

  將采集結果發(fā)布到數(shù)據(jù)庫時,可能會產生錯誤,例如,由于現(xiàn)有數(shù)據(jù)字段長度太小裝不下采集的信息等。為便于日后查看,可以選擇將這些發(fā)布失敗的數(shù)據(jù)行,也就是“出錯行”,保存到文件。在這里可以查看、清空出錯行。

  歷史記錄

  軟件在采集時支持歷史記錄對比,即通過檢查歷史記錄判斷該地址是否已經采集過,如果已經采集過,則不再采集。在這里可以查看和管理歷史記錄。

  任務日志

  可以選擇將任務的運行日志保存到文件,在這里可以查看日志。

使用方法

  1、在本站河東軟件園將軟件下載完成之后解壓成功,點擊poster.exe運行軟件;

網(wǎng)絡神采下載 6.2.16 免費版

  2、點擊應用程序圖標即可進入軟件的主界面,可以對相關的選項進行設置;

網(wǎng)絡神采下載 6.2.16 免費版

  3、點擊文件夾的圖標即可對本地數(shù)據(jù)庫文件選擇;

網(wǎng)絡神采下載 6.2.16 免費版

  4、發(fā)布之后是否對本地數(shù)據(jù)進行刪除,也支持對緩存的大小進行設置;

網(wǎng)絡神采下載 6.2.16 免費版

  5、目標地址編輯窗口,快速的完成對參數(shù)名稱的查找設置;

網(wǎng)絡神采下載 6.2.16 免費版

  6、可以對捕獲的地址參數(shù)等進行查看;

網(wǎng)絡神采下載 6.2.16 免費版

  7、對自定義的錯誤進行設置,包括了錯誤列表的顯示;

網(wǎng)絡神采下載 6.2.16 免費版

  8、設置完成之后,點擊開始發(fā)布的按鈕,即可對發(fā)布的狀態(tài)信息查看;

網(wǎng)絡神采下載 6.2.16 免費版

  9、對軟件的關于信息進行查看;

網(wǎng)絡神采下載 6.2.16 免費版

  10、支持用戶對工作流程進行查看;

網(wǎng)絡神采下載 6.2.16 免費版

使用說明

  入門采集示例

  示例分析

  新聞采集是最常用的,也是最容易理解的,我們就拿一個簡單的新聞采集任務作為入門示例。該任務有兩層:“新聞列表”和“新聞內容”。我們將新聞列表作為“起始地址”,然后通過“導航規(guī)則”從“新聞列表”提取“新聞內容”的網(wǎng)址,最后根據(jù)“采集規(guī)則”采集所需內容。

  創(chuàng)建任務

  在軟件主窗口,單擊菜單“任務”->“新建”,打開“任務編輯”對話框來創(chuàng)建一個任務。下面通過圖文混合,一步步討論如何填寫設置:

  第一步:任務概述

網(wǎng)絡神采下載 6.2.16 免費版

  在“任務概述”中,我們只填寫一個任務名稱即可:鄭州大學新聞信息。其它設置暫且不討論,等您熟練以后再參考我們的幫助文檔。

  第二步:起始地址

網(wǎng)絡神采下載 6.2.16 免費版

  起始地址就是我們要采集內容的入口地址,在這里是“新聞列表”:http://www3.zzu.edu.cn/msgs/vmsgisapi.dll/vmsglist?mtype=x&lan=202&tts=&tops=&pn={1,100}。其中,“pn”是分頁變量名,這個可以通過在瀏覽時“新聞列表”時對其進行翻頁并觀察得出。如果“pn=1”就表示第1頁,“pn=2”表示第2頁,以此類推。我們?yōu)?ldquo;pn”指定一個變量值:{1,100},就表示將要采集1到100頁。這種分頁變量格式是我們軟件定義的,可以通過點擊“插入”按鈕插入預置分頁變量(詳見這里)。

  第三步:導航規(guī)則

網(wǎng)絡神采下載 6.2.16 免費版

  因為該任務有兩層,所以需要建兩條“導航規(guī)則”,分別命名為:“新聞列表”和“新聞內容”。我們需要從“新聞列表”提取“新聞內容”的網(wǎng)址,以實現(xiàn)導航。因此,設“新聞列表”為“中間層”,并填寫“下一層網(wǎng)址模板”以提取網(wǎng)址。而“新聞內容”只需選中“最終頁面”,然后保存即可。

  那如何確定“新聞列表”的“下一層網(wǎng)址模板”呢?請看下圖。

網(wǎng)絡神采下載 6.2.16 免費版

  通過查看“新聞列表”的源文件,我們可以找出“新聞內容”的網(wǎng)址,即黃色部分所示。我們把網(wǎng)址中的變量部分替換成“*”(通配符),便是“下一層網(wǎng)址模板”,即:http://www16.zzu.edu.cn/msgs/vmsgisapi.dll/onemsg?msgid=* 。這樣,我們在提取時就有了一個依據(jù):只提取匹配模板的網(wǎng)址,而跳過其它網(wǎng)址。

  “導航規(guī)則”最終設置如下:

網(wǎng)絡神采下載 6.2.16 免費版

  第四步:采集規(guī)則

網(wǎng)絡神采下載 6.2.16 免費版

  通過“導航規(guī)則”我們一路走到了“最終頁面”,也就是“新聞內容”,接下來就需要根據(jù)“采集規(guī)則”采集所需內容了。如上圖所示,一條“采集規(guī)則”對應一個數(shù)據(jù)庫字段,也就是一種信息類型,如:標題、發(fā)布者、供稿人、內容等。“數(shù)據(jù)庫字段”可以不填,默認為其規(guī)則名稱。而“所屬層次”為跨層采集功能,本示例用不到,保持默認即可。

  下面就是最重要的:“信息前標志”和“信息后標志”,軟件通過在源文件中查找“前后標志”來定位要采集的信息。那么如何取得信息的前后標志呢?請看下圖。

網(wǎng)絡神采下載 6.2.16 免費版

  如圖所示,“紅色部分”表示信息的前標志,而“黃色部分”為后標志,被夾在中間的“藍色部分”就是我們需要采集的內容。依次為:“標題”、、“發(fā)布者”、“供稿人”、“發(fā)布日期”、“閱讀次數(shù)”、“內容”。

  “采集規(guī)則”最終設置如下:

網(wǎng)絡神采下載 6.2.16 免費版

  注意:

  1、如果使用“前后標志”采集信息,必須與“網(wǎng)頁源文件”中出現(xiàn)的順序一致。

  2、一條“采集規(guī)則”應用后,會將“采集內容”的尾部作為“當前位置”,然后從“當前位置”查找下一條“采集規(guī)則”的“信息前標志”。

  3、如果選中了“全局規(guī)則”、“靜態(tài)規(guī)則”,則再不受“當前位置”影響。

  第五步:采集結果

網(wǎng)絡神采下載 6.2.16 免費版

  如圖所示,我們不在這里做任何設置,采集后直接將結果導出即可。

使用技巧

  1、 自動填寫“采集規(guī)則名稱”

  設置采集規(guī)則時,如果“信息前標志”中包含“漢字或字母”,則自動提取為“采集規(guī)則名稱”。例如:

網(wǎng)絡神采下載 6.2.16 免費版

  2、導入導出任務

  可免費注冊兩個神采帳號,不同帳號之間“導出/導入”任務,導入后簡單修改即可實現(xiàn)自己的采集需求。

  導出時,可按住 Ctrl 鍵選中多個任務。運行或暫停任務也是一樣,可多選。

網(wǎng)絡神采下載 6.2.16 免費版

  3、復制任務

  同一種任務(例如,同一個網(wǎng)站下的不同欄目),或智能采集任務(不需要配規(guī)則,只要修改起始地址),非常適合復制一個任務,然后再修改:

網(wǎng)絡神采下載 6.2.16 免費版

  4、采集后的內容,保留換行、圖片等

  默認時,采集后的內容不保留任何HTML標記,所以換行、圖片等無法顯示。在采集規(guī)則設置中,可明確保留哪些HTML標記:

網(wǎng)絡神采下載 6.2.16 免費版

  “HTML標記”庫是可以維護的,軟件菜單:設置 -> HTML標記:

網(wǎng)絡神采下載 6.2.16 免費版

  5、預置規(guī)則名稱

網(wǎng)絡神采下載 6.2.16 免費版

  6、將固定值作為結果

  手工設置一個固定值,可用于指定分類、地區(qū)等。截圖示例:

網(wǎng)絡神采下載 6.2.16 免費版

  、

  7、默認結果替換

  在采集規(guī)則中,可以設置“采集結果替換”,對采集后的內容進行替換。如果需要經常替換一些內容,如將“ ”替換為“空格”({sapce}),可在軟件設置中設置一個默認替換:

網(wǎng)絡神采下載 6.2.16 免費版

  其中“默認結果替換.xml”是從“任務編輯 -> 采集規(guī)則 -> 采集結果替換”導出的。

  8、手動修改任務狀態(tài)

  采集任務只有“暫停”時,才可以繼續(xù)采集,即斷點續(xù)采,如果“停止”任務,則必須從頭采集。

  如果不小心停止了任務,可在任務的XML文件中,將任務狀態(tài)手動修改為“暫停”:

網(wǎng)絡神采下載 6.2.16 免費版

  任務名稱

網(wǎng)絡神采下載 6.2.16 免費版

  9、源文件替換

  “源文件替換”是神采最靈活的設置之一,可將“JS腳本鏈接”替換成普通鏈接,以方便“提取下一層網(wǎng)址”,進行導航。源文件替換,實際上是“動態(tài)改變”網(wǎng)頁的源文件,以方便導航、采集。

  例如,如果“列表”頁面源文件中存在這種“JS腳本鏈接”:文章標題,文章內容的實際地址,就需要用到源文件替換。

  源文件替換設置為:

  舊值中的“{id}”表示一個參數(shù),用來表示文章的ID(即 220433);

  新值中的“${id}”表示引用舊值中的參數(shù)“{id}”,在替換后組成新的URL。

網(wǎng)絡神采下載 6.2.16 免費版

  10、查看源文件替換效果

  源文件替換后,不確定是否替換成功,可以采集整個“網(wǎng)頁源文件”,以查看替換后的樣子:

網(wǎng)絡神采下載 6.2.16 免費版

  如果仍然有疑問,還可將采集到的“網(wǎng)頁源文件”復制到“工具 -> 正則式測試器”(RegexTester.exe),實際測試一下。因為源文件替換中的“舊值”,可直接轉換為“正則表達式” :

網(wǎng)絡神采下載 6.2.16 免費版

  11、正則表達式應用:采集規(guī)則

  正則表達式非常靈活,采集規(guī)則中的“前后標志”、導航規(guī)則中的“下一層網(wǎng)址模板”,最終都會被軟件轉換成正則式。

  如果需要手寫“正則表達式”進行提取內容,可在“采集規(guī)則-> 采集結果替換”中使用正則式:

網(wǎng)絡神采下載 6.2.16 免費版

  12、正則表達式應用:導航規(guī)則

  “下一層網(wǎng)址模板”中使用“*”通配符,是軟件定義的一種規(guī)則。也可以直接使用標準的“正則表達式”提取“下一層網(wǎng)址”,使匹配更準確、更靈活:

網(wǎng)絡神采下載 6.2.16 免費版

常見問題

  如果進行循環(huán)采集?

  循環(huán)采集原理:

網(wǎng)絡神采下載 6.2.16 免費版

  以百度新聞搜索為例:

網(wǎng)絡神采下載 6.2.16 免費版

  取“循環(huán)標志”、限制采集范圍:

網(wǎng)絡神采下載 6.2.16 免費版

下載地址

查看所有評論>>網(wǎng)友評論0

發(fā)表評論

您的評論需要經過審核才能顯示

精彩評論

最新評論

蓋樓回復X

(您的評論需要經過審核才能顯示)