【流程圖模式】如何通過批量輸入關鍵字采集數據
摘要:本教程為大家介紹如何采集網站上多關鍵詞的數據 免費下載軟件
本文介紹如何使用后羿采集器的流程圖模式,為大家介紹如何采集網站上多關鍵詞的數據。
步驟一:新建采集任務
1、復制官網的網頁地址(需要搜索結果頁的網址,而不是首頁的網址)
點此了解關于如何正確地輸入網址。
2、新建流程圖模式采集任務
您可以在軟件上直接新建采集任務,也可以通過導入規則來創建任務。
點此了解如何導入和導出采集規則。
步驟二:配置采集規則
1、設置多個關鍵字循環任務
在流程圖模式輸入網址新建任務之后,我們點擊搜索框,然后在左上角出現的操作提示框內輸入要采集的文字。
點此了解輸入文字組件的更多內容。
由于我們需要輸入多個關鍵詞的數據,因此我們選擇點擊操作框上的批量輸入文本按鈕。
接著選擇批量輸入單個文本。
然后在彈出的文本列表中輸入我們需要設置的文本,這里我們輸入“設置”、“采集”、“數據”這幾個關鍵詞。
點擊“確定”按鈕后,軟件會自動生成一個循環關鍵詞的列表。
然后我們點擊頁面上的搜索按鈕,在操作框內選擇“點擊一次該元素”按鈕,跳轉到搜索結果頁。
2、設置提取字段數據
輸入多個關鍵字循環設置好之后,我們設置需要提取的字段數據,點擊網頁上的字段,在左上角的操作提示框內選擇提取全部元素。接著軟件會自動識別到分頁,用戶按照軟件提示去設置分頁。
然后我們可以在這個基礎上對采集字段進行設置,用戶可以按照自己的需求去設置。
更多詳情內容,請參考以下教程:
3、設置深入采集
如果我們需要采集詳情頁的數據,可以使用深入采集功能。
更多詳情內容,請參考以下教程:
4、設置詳情頁數據
詳情頁的采集和單頁類型的采集方式是一樣的。我們點擊頁面上需要采集的數據,然后在操作提示框內點擊“提取該元素中的數據”按鈕,之后數據設置可參考列表頁的設置。
更多詳情內容,請參考以下教程:
5、完整組件圖
步驟三:設置并啟動采集任務
1、啟動采集任務
點擊“開始采集”按鈕,可在彈出的啟動設置頁面中進行一些高級設置,包括“定時啟動、防屏蔽、自動導出、文件下載、加速引擎、數據去重、開發者設置”功能,本次操作沒有用到以上功能,直接點擊啟動按鈕開始采集。
點此深入了解什么是定時啟動。
點此深入了解什么是自動導出。
點此深入了解如何下載圖片。
【溫馨提示】免費版本可以使用非周期性定時采集功能,下載圖片功能是免費的;專業版及以上用戶可使用定時啟動功能;旗艦版用戶可以使用自動導出功能及加速引擎功能。
2、運行任務提取數據
任務啟動之后便開始自動采集數據,我們從界面上可以直觀的看到程序運行過程和采集結果,采集結束之后會有提醒。
步驟四:導出并查看數據
數據采集完成后,我們可以查看和導出數據,后羿采集器支持多種導出方式(手動導出到本地、手動導出到數據庫、自動發布到數據庫、自動發布到網站)和導出文件的格式(EXCEL、CSV、HTML和TXT),同時還支持導出具體條數,可以在數據中選擇想導出的條數,然后點擊“確認導出”。