【智能模式】如何對采集字段進行配置
摘要:在智能模式下,后羿采集器會自動對網址進行識別并提取頁面內容,本教程為大家演示如何對字段進行設置。 免費下載軟件
在智能模式下,后羿采集器會按照列表類型對網址進行識別并采集列表元素中的字段,如果軟件自動識別的字段不符合您的需求,或者您需要修改字段的相關信息,那么您可以右擊字段,然后在彈出的菜單欄中進行設置,如下圖所示:
具體設置的詳細介紹如下:
1、修改字段名稱
2、合并字段
合并字段有兩種辦法,一種是點擊一條需要合并的字段,右擊選擇“合并字段”,然后在頁面中選擇需要合并的字段,這種方式適合兩個字段的合并。在合并字段中,用戶可以設置兩個字段內容之間的分隔符,如果不需要分隔符,在分隔符部分直接設置為空白就好。
另外一種方法是按crtl或shift選中多個字段,然后右擊“合并字段”,這種方法適合多個字段的合并。
3、在頁面中選擇
如果要修改字段中提取的內容,或者在添加新字段時進行提取對象的設置,可以點擊“在頁面中選擇”或者字段上的瞄準器圖標,然后在網頁中點擊需要的數據。
4、編輯字段Xpath
5、設置取值屬性
不同的數據需要設置不同的取值屬性,在設置新字段的時候,字段的取值默認的是文本字段,一般情況下,在您選取新數據時,后羿采集器會自動幫你判斷好字段屬性,您不需要另外設置,但如果出現判斷失誤的情況下,您可以自己設置字段的取值屬性。
提取文本:適合普通的文本數據
提取內部HTML:適合提取不包括內容自身的HTML
提取外部HTML:適合提取包括內容自身的HTML
提取鏈接地址:適合提取鏈接的數據
提取圖片等媒體地址:適合提取圖片等媒體資源
提取輸入框內容:適合提取輸入框的文字,多用于關鍵詞采集時使用
下載按鈕:用于提取下載地址
6、識別格式選擇
在進行圖像識別時,通常軟件會自動檢測到識別格式,如果有些內容未識別到或者識別結果不正確,我們可以手動選擇識別格式。需要注意的是,圖像識別功能為企業版功能。
7、數據處理
8、設置特殊字段
在數據采集過程中,如果需要采集一些特殊字段,如采集時的時間、當前網頁標題、當前網頁URL等,這些字段無法直接在網頁中提取,那么可以使用“改為特殊字段”功能進行字段設置,通常我們會新建字段,然后把字段改為特殊字段,我們也可以直接把其他字段改為特殊字段。
9、刪除字段
10、清空所有
如果不需要軟件自動識別出來的字段,可以使用“清空所有”功能清空字段,重新設置需要的字段。
11、添加字段
如果要增加新字段,可以點擊“添加字段”按鈕新增字段,然后到頁面中點擊需要采集的數據。