當(dāng)前位置:電腦軟件 > 網(wǎng)絡(luò)軟件 > 網(wǎng)站優(yōu)化 > 火車采集器免費(fèi)版V9.10

火車采集器免費(fèi)版V9.10

大?。?3.4MB語言:簡體中文類別:網(wǎng)站優(yōu)化

類型:國產(chǎn)軟件授權(quán):免費(fèi)軟件時(shí)間:2019/10/23

官網(wǎng):

環(huán)境:Windows10,Windows8,Windows7,WinVista,WinXP

安全檢測:無插件360通過騰訊通過金山通過瑞星通過

本地下載

火車采集器英文名LocoySpider,它是一款專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析、挖掘軟件,它擁有網(wǎng)址采集、內(nèi)容采集、數(shù)據(jù)處理、數(shù)據(jù)發(fā)布、日志管理等等功能,且支持多數(shù)據(jù)庫,能夠無限級(jí)多頁采集、全自動(dòng)運(yùn)行、分布式高速采集、多識(shí)別系統(tǒng)、采集監(jiān)控系統(tǒng),可以非常好的幫助網(wǎng)站管理優(yōu)化人員對網(wǎng)站進(jìn)行分析優(yōu)化?,F(xiàn)在已經(jīng)被電商運(yùn)營人員、企業(yè)人員、 網(wǎng)站站長等各行業(yè)的人使用。有需要的用戶快來下載火車采集器免費(fèi)版吧,小編在下文還為大家附上了簡單的使用教程!
火車采集器免費(fèi)版

采集器教程

1、新建分組--新建任務(wù)

2、添加網(wǎng)址+ 編輯獲取網(wǎng)址的規(guī)則

選擇范圍在 ul 里面的 li 里面的鏈接,注意排除重復(fù)地址,可以點(diǎn)擊下面測試網(wǎng)址采集獲取。

可以看到有采集到的文章鏈接了。

3、采集內(nèi)容規(guī)則
我這邊需要采集下面圖上展示數(shù)據(jù)(catid是欄目id,可以將采集到的數(shù)據(jù)放入對應(yīng)欄目,設(shè)置固定值就好)

著重說下內(nèi)容和圖片的采集,標(biāo)題和描述同理內(nèi)容采集

內(nèi)容采集:
打開一個(gè)采集的文章頁面,查看源代碼(禁了右鍵的f11 或者在網(wǎng)址前面加上 view-source: 一樣可以查看):選中文章開頭一個(gè)位置,截取一段在ctrl+f 搜下是否唯一一段,若是就可以放在位置下圖1處,結(jié)尾同開頭一樣。我截取內(nèi)容不想里面還帶有鏈接圖片可以數(shù)據(jù)處理,添加--html標(biāo)簽排除--選好確定--確定

還有需要下載頁面圖片,勾選和填寫下面選項(xiàng)

圖片采集:
(1)選中范圍和內(nèi)容一樣(文章內(nèi)圖片)
(2)數(shù)據(jù)處理選 提取第一張圖片,內(nèi)容是:http://www.xxx.com/2017/33/aa.jpg
(3)只要aa.jpg,正則過濾,獲取內(nèi)容:aa.jpg
(4)數(shù)據(jù)庫存儲(chǔ)有前綴,添加上, upload/xxxxx/

找一個(gè)頁面測試一下,可以看到對應(yīng)項(xiàng)目都獲取到了。

4、發(fā)布內(nèi)容設(shè)置,這里以方式三發(fā)布到數(shù)據(jù)庫為例子,編輯后回到這邊勾選剛定義的模塊就好:


5、我需要保存圖片到本地,要設(shè)置下保存文件的路徑(ftp后續(xù)會(huì)試著使用)。

6、保存,查看剛新建的任務(wù),右鍵 開始任務(wù)運(yùn)行,這邊就可以看到文字和圖片都下載下來了,數(shù)據(jù)庫里面也可以看到了。

功能介紹

一、網(wǎng)址采集
1、可以通過網(wǎng)址采集規(guī)則的設(shè)定,快速采集到所需的網(wǎng)址信息。可手動(dòng)輸入、批量添加或直接從文本導(dǎo)入網(wǎng)址,并能自動(dòng)篩選去除重復(fù)的網(wǎng)址信息。
2、支持多級(jí)頁面網(wǎng)址的采集,多級(jí)網(wǎng)址采集可以使用頁面分析自動(dòng)得到地址、手動(dòng)填寫規(guī)則兩種方式。應(yīng)對多級(jí)分頁中內(nèi)容不同,但地址相同的頁面網(wǎng)址采集,軟件設(shè)置了 GET,POST 和 ASPXPOST 三種 HTTP 請求方式。
3、支持網(wǎng)址采集測試,可以驗(yàn)證操作的正確性,避免操作有誤導(dǎo)致采集結(jié)果不準(zhǔn)確。
二、內(nèi)容采集
1、可以通過分析網(wǎng)頁源代碼,設(shè)定內(nèi)容采集規(guī)則,精準(zhǔn)采集到網(wǎng)頁中散亂分布的內(nèi)容數(shù)據(jù),并支持多級(jí)多頁等復(fù)雜頁面中的內(nèi)容采集。
2、通過定義標(biāo)簽,能夠?qū)?shù)據(jù)進(jìn)行分類采集,比如將文章內(nèi)容的標(biāo)題與正文分開采集。軟件配置了三種內(nèi)容提取的方式:前后截取、正則提取、正文提取??蛇x性強(qiáng),用戶可以按照使用需求進(jìn)行選擇。
3、內(nèi)容采集同樣支持測試功能,可選用一個(gè)典型頁面來測試內(nèi)容采集的正確性,以便及時(shí)更正和進(jìn)行下一步數(shù)據(jù)處理。
三、數(shù)據(jù)處理
對于采集到的信息數(shù)據(jù),軟件可以對其進(jìn)行一系列的智能處理,使采集到的數(shù)據(jù)更加符合我們的使用標(biāo)準(zhǔn)。主要包括 1)標(biāo)簽過濾:過濾掉內(nèi)容中不需要的空格,鏈接等標(biāo)簽;2)替換:支持近義、同義詞替換;3)數(shù)據(jù)轉(zhuǎn)換:支持漢譯英、簡轉(zhuǎn)繁、轉(zhuǎn)換為拼音等;4)自動(dòng)摘要、自動(dòng)分詞:支持自動(dòng)生成摘要和自動(dòng)分詞功能;5)下載選項(xiàng):支持任意格式的文件探測下載,并能夠?qū)⑾鄬Φ刂分悄苎a(bǔ)全為絕對地址。
四、數(shù)據(jù)發(fā)布
1、將數(shù)據(jù)采集下來后默認(rèn)將數(shù)據(jù)保存在本地?cái)?shù)據(jù)庫(sqlite 、MySQL、sqlserver),用戶可以根據(jù)自己的需求選擇對數(shù)據(jù)的后續(xù)操作以完成數(shù)據(jù)發(fā)布,支持直接查看數(shù)據(jù)、在線發(fā)布數(shù)據(jù)和入數(shù)據(jù)庫,并支持用戶進(jìn)行發(fā)布接口的使用和開發(fā)。
2、根據(jù)數(shù)據(jù)庫類型用相關(guān)軟件打開可以直接查看數(shù)據(jù),配置一個(gè)發(fā)布模塊即可將數(shù)據(jù)在線發(fā)布到網(wǎng)站,可以設(shè)置自動(dòng)登陸網(wǎng)站,獲取欄目列表等;如果入到用戶自己的數(shù)據(jù)庫中,用戶只需寫幾個(gè) SQL 語句,程序就會(huì)按照用戶的 SQL 語句導(dǎo)入數(shù)據(jù);保存為本地文件時(shí)支持本地 SQL 或文本文件(word、excel、html,txt)格式。
五、多任務(wù)多線程運(yùn)行
可以選擇同時(shí)運(yùn)行多個(gè)任務(wù),支持不同網(wǎng)站或同一站點(diǎn)下不同欄目的內(nèi)容同時(shí)采集,能夠有計(jì)劃的調(diào)度任務(wù)。單個(gè)任務(wù)在采集內(nèi)容和發(fā)布內(nèi)容時(shí)均可以使用多線程運(yùn)行,提升運(yùn)行效率。
六、HTTP 二級(jí)代理服務(wù)器
可以通過二級(jí)代理服務(wù)器的功能實(shí)現(xiàn) IP 的更換,避免因 IP 被限制訪問而導(dǎo)致的采集無法運(yùn)行,用戶需先獲取一些代理 IP,然后將代理 IP 導(dǎo)入采集器中完成設(shè)置即可。
七、計(jì)劃任務(wù)管理器
支持計(jì)劃任務(wù)管理,能夠定時(shí)自動(dòng)地進(jìn)行采集發(fā)布,實(shí)現(xiàn)自動(dòng)更新的功能,可對加入計(jì)劃任務(wù)內(nèi)的任務(wù)設(shè)置其執(zhí)行的頻率和開始運(yùn)行的時(shí)間,執(zhí)行頻率可以選擇每周、每天、每間隔,或根據(jù)用戶需求自定義 corn 表達(dá)式執(zhí)行。
八、任務(wù)運(yùn)行日志管理
配置了采集監(jiān)控系統(tǒng),任務(wù)運(yùn)行管理器將采集監(jiān)控模塊生成的記錄信息組裝成日志條目,如果啟用了自動(dòng)運(yùn)行功能或需要對程序運(yùn)行狀況進(jìn)行監(jiān)控,可以查看任務(wù)運(yùn)行日志中某個(gè)日期時(shí)間段內(nèi)的運(yùn)行情況,來做具體的分析。可以具體了解到任務(wù)的成功數(shù)量、失敗數(shù)量,重復(fù)數(shù)量和用時(shí)等數(shù)據(jù)。
九、插件擴(kuò)展
1、支持 PHP 和 C#插件擴(kuò)展,可以幫助用戶對采集的數(shù)據(jù)進(jìn)行修改處理,完成用戶的更多需求,極大的擴(kuò)展了采集器的功能。用戶可以按照插件開發(fā)手冊自行開發(fā)所需插件,也可以使用火車采集器官方開發(fā)的一些插件資源。
2、中配置了插件管理器,可對插件列表進(jìn)行管理和選擇插件方法,支持插件測試。

軟件特色

一、全網(wǎng)通用
1、基于 web 結(jié)構(gòu)的采集
火車采集器的采集原理是基于 web 結(jié)構(gòu)的源代碼提取,幾乎適用于所有的網(wǎng)頁,以及網(wǎng)頁中能夠看到的所有內(nèi)容;
2、擴(kuò)展性強(qiáng)
支持接口和插件多種擴(kuò)展延伸,打破操作局限,滿足更加多樣化的使用需求,使這款軟件真正做到全網(wǎng)通用。
二、功能全面
1、集采集發(fā)布于一體
在每個(gè)功能上都做了優(yōu)化設(shè)置,除了最基礎(chǔ)的數(shù)據(jù)采集,更是融入了強(qiáng)大的數(shù)據(jù)處理和數(shù)據(jù)發(fā)布功能,全面完善了對于數(shù)據(jù)利用的整個(gè)流程。
2、多元化的功能配置
在許多細(xì)節(jié)操作中配置多項(xiàng)可選方式。
1)多種提取方式:網(wǎng)址和內(nèi)容的提取均設(shè)置了多種方式,網(wǎng)址采集包含手動(dòng)填寫采集規(guī)則、頁面自動(dòng)分析,內(nèi)容提取包含前后截取、正則提取、正文提取,標(biāo)簽組合,用戶可根據(jù)自己的需要選擇不同方式;
2)多識(shí)別系統(tǒng):正文識(shí)別、任意編碼識(shí)別等多種智能識(shí)別系統(tǒng);
3)圖片、壓縮文件、視頻等任意格式的文件都能輕松下載;
4)支持Access/MySQL/MsSQL/Sqlite/Oracle 五種類型的數(shù)據(jù)庫發(fā)布;5)可選擇使用加密狗,隨時(shí)移動(dòng)更安全。
三、高效穩(wěn)定
1、分布式高速采集系統(tǒng)
采用分布式高速采集系統(tǒng),將任務(wù)分配至多個(gè)服務(wù)端同時(shí)運(yùn)行采集,多任務(wù)多線程式的運(yùn)行模式,能夠最大化提升運(yùn)行效率。
2、占用資源少
任務(wù)量得以分解,服務(wù)端所占用資源減少,使得這款軟件的性能更加穩(wěn)定。
四、數(shù)據(jù)精準(zhǔn)
1、采集監(jiān)控系統(tǒng)
實(shí)時(shí)地監(jiān)控采集,任務(wù)運(yùn)行日志報(bào)錯(cuò)統(tǒng)計(jì),及時(shí)修復(fù),確保數(shù)據(jù)不被遺漏。
2、數(shù)據(jù)處理準(zhǔn)確
多種精細(xì)化的數(shù)據(jù)處理方式,結(jié)合測試功能讓火車采集器做到數(shù)據(jù)采集無誤,精準(zhǔn)可用。

使用人群

1、企業(yè)人員
收集潛在的客戶信息,快速挖掘新客戶;通過分析客戶行為開展業(yè)務(wù),降低風(fēng)險(xiǎn)和預(yù)算,洞察競爭對手的業(yè)務(wù)數(shù)據(jù),助力商業(yè)決策。
2、電商運(yùn)營
按照用戶需求定向采集商品信息、商家信息、產(chǎn)品評價(jià),挖掘相關(guān)數(shù)據(jù)背后的潛在價(jià)值,進(jìn)行精準(zhǔn)的營銷優(yōu)化,提升運(yùn)行效率。
3、政府機(jī)關(guān)
實(shí)時(shí)匯集國內(nèi)外信息數(shù)據(jù),掌握所關(guān)注的動(dòng)態(tài)信息,進(jìn)行輿情監(jiān)控,及時(shí)對不利或危情信息進(jìn)行預(yù)警,并通過分析數(shù)據(jù)指導(dǎo)社會(huì)與經(jīng)濟(jì)的發(fā)展。
4、網(wǎng)站站長
實(shí)現(xiàn)定時(shí)采集數(shù)據(jù)和自動(dòng)發(fā)布數(shù)據(jù),采集優(yōu)質(zhì)內(nèi)容加工處理后填充發(fā)布到網(wǎng)站,讓網(wǎng)站快速擁有強(qiáng)大的內(nèi)容支撐,輕松提升流量與人氣。
5、個(gè)人需求者
批量下載大量的文件,圖片等內(nèi)容,解決個(gè)人在學(xué)術(shù)研究或生活,工作等方面的數(shù)據(jù)需求,取代手動(dòng)復(fù)制粘貼,提高效率,節(jié)省下更多時(shí)間。

更新日志

火車采集器免費(fèi)版V9.10(2019-10-23)
1、修復(fù)分頁采集請求出錯(cuò)的問題
2、批量網(wǎng)址處理中,時(shí)間格式增加轉(zhuǎn)換為“時(shí)間戳”的功能。
3、修復(fù)“智能提取電話”功能意外變?yōu)椤爸悄芴崛∴]箱”的bug。
4、無限極列表頁采集,是否由于重復(fù)數(shù)據(jù)而停止修改為可配置(原為自動(dòng)停止采集)。
5、修復(fù)老板鍵設(shè)置為空之后,會(huì)默認(rèn)變成 CtrL+Alt的bug。
6、修復(fù)由于沒有水印配置,導(dǎo)致的程序批量復(fù)制出錯(cuò)的問題。
7、修復(fù)由于多頁未能獲取到,導(dǎo)致由多頁獲取數(shù)據(jù)的標(biāo)簽丟失的bug。
8、發(fā)布模塊,數(shù)據(jù)庫的編碼增加utf8mb4格式支持。
9、修復(fù)分頁循環(huán)匹配時(shí),組合標(biāo)簽僅獲取第一頁的bug
10、優(yōu)化批量網(wǎng)址處理中,由于數(shù)據(jù)量太多而導(dǎo)致程序卡頓的問題。
11、修復(fù)使用PHP插件,無法獲取請求cookie的問題。
軟件標(biāo)簽:火車頭采集器
下載地址

有問題?點(diǎn)擊報(bào)錯(cuò)+投訴+提問

網(wǎng)友評論

0條評論

評分:
captcha 評論需審核后才能顯示

實(shí)時(shí)熱詞