【流程圖模式】如何倒序采集網頁數據
摘要:在數據采集的時候,經常會需要倒序采集(從最后一頁開始往前采集數據)的情況。本文將簡單說明如何使用后羿采集器的流程圖模式進行網頁數據的倒序采集。 免費下載軟件
在數據采集的時候,經常會需要倒序采集(從最后一頁開始往前采集數據)的情況。本文將簡單說明如何使用后羿采集器的流程圖模式進行網頁數據的倒序采集。
情況一:列表頁翻頁后,鏈接改變,存在最后一頁鏈接
處理方式一:將列表頁最后一頁鏈接作為采集鏈接
當我們能夠直接拿到網站最后一頁的鏈接時,可以通過直接復制鏈接的形式,用最后一頁的鏈接來創建采集任務。
1. 在瀏覽器里點擊到最后一頁,復制最后一頁的鏈接。

2. 創建一個流程圖模式采集任務。

3. 流程圖模式識別到列表后軟件會提示是否需要識別下一頁按鈕,根據操作提示,手動點選識別“上一頁”按鈕來實現翻頁。

4. 啟動任務開始倒序采集。

處理方式二:批量設置倒序頁碼
當網站的鏈接會根據翻頁而改變,卻沒有“上一頁”按鈕實現往前翻頁的操作時,可以通過設置頁碼來實現倒序采集。
1. 復制第二頁的鏈接。一般來說第一頁的鏈接有可能跟第二頁、第三頁的鏈接有差別,沒法直接通過第一頁的鏈接來找規律生成鏈接,所以建議是直接復制第二頁的鏈接來創建任務。

2. 利用批量生成網址功能來生成鏈接。如下圖所示,“起始”設置成“最后一頁”,“截至”設置成“第一頁”,“步長”選擇“遞減”。
詳細的操作流程請參考教程:如何批量生成網址

3. 已經批量生成網址的情況下,就不需要設置翻頁按鈕了??梢栽诓僮魈崾緝冗x擇“不需要翻頁,只采集當前頁”。如果頁面內容較多需要滾動才能顯示更多的數據,建議設置成“瀑布流分頁(滾動加載)”。

4. 啟動任務開始倒序采集。

情況二:列表頁翻頁后,鏈接不變,不存在最后一頁鏈接
處理方式一:網頁存在跳轉到最后一頁的按鈕
當網站的鏈接不會根據翻頁而改變,我們無法直接拿到最后一頁的鏈接時,我們可以通過直接點擊最后一頁的翻頁按鈕來跳轉到最后一頁,實現倒序采集。
1. 創建一個流程圖模式采集任務。

2. 添加點擊組件,翻頁到最后一頁。

3. 同樣識別到列表后軟件會提示是否需要識別下一頁按鈕,根據操作提示,手動點選識別“上一頁”按鈕來實現翻頁。

4. 啟動任務開始倒序采集。

處理方式二:網頁存在頁碼輸入框
當網站的鏈接不會根據翻頁而改變,我們無法直接拿到最后一頁的鏈接時,我們可以通過直接輸入最后一頁的頁碼來跳轉到最后一頁,實現倒序采集。
1. 創建一個流程圖模式采集任務。

2. 添加“輸入文本”組件和“點擊”組件,翻頁到最后一頁。

3. 同樣識別到列表后軟件會提示是否需要識別下一頁按鈕,根據操作提示,手動點選識別“上一頁”按鈕來實現翻頁。

4. 啟動任務開始倒序采集。
