面對(duì)互聯(lián)網(wǎng)海量的信息,文旅局、景區(qū)和涉旅企業(yè)都迫切希望獲取與自身相關(guān)的有價(jià)值數(shù)據(jù)信息,如何方便快捷地獲取這些信息就變得至關(guān)重要。如果采用原始的手工收集方式,費(fèi)時(shí)費(fèi)力且毫無效率,面對(duì)越來越多的信息資源,勞動(dòng)強(qiáng)度和難度可想而知。因此,都迫切需要一種能夠提供高質(zhì)量和高效運(yùn)作的信息采集解決方案。
由于各地區(qū)各企業(yè)旅游信息化建設(shè)程度不同,某些旅游相關(guān)數(shù)據(jù)已經(jīng)無法通過系統(tǒng)數(shù)據(jù)交換的方式進(jìn)行數(shù)據(jù)流通,還有大量的旅游數(shù)據(jù)在互聯(lián)網(wǎng)上,這些相關(guān)數(shù)據(jù)都有決策分析價(jià)值,因此旅游采集抓取系統(tǒng)通過數(shù)據(jù)爬蟲技術(shù)在互聯(lián)網(wǎng)上抓取旅游相關(guān)要素?cái)?shù)據(jù),通過數(shù)據(jù)清洗方式進(jìn)入到數(shù)據(jù)倉庫供系統(tǒng)使用,解決一部分?jǐn)?shù)據(jù)來源難的問題。
數(shù)據(jù)自動(dòng)采集抓取系統(tǒng)針對(duì)不同用戶的應(yīng)用需求,以抓取互聯(lián)網(wǎng)數(shù)據(jù)為目的,實(shí)現(xiàn)在用戶自定義規(guī)則下,從互聯(lián)網(wǎng)中抓取指定信息。抓取的信息可存入數(shù)據(jù)庫或直接入庫發(fā)送至指定欄目,實(shí)現(xiàn)信息及時(shí)更新和數(shù)據(jù)量有效提升。
根據(jù)用戶事先配置好的規(guī)則進(jìn)行數(shù)據(jù)采集,當(dāng)數(shù)據(jù)源地址進(jìn)行了更新,或者添加新數(shù)據(jù)時(shí),系統(tǒng)自動(dòng)會(huì)進(jìn)行檢測(cè),并進(jìn)行采集,然后更新到自己的數(shù)據(jù)中心數(shù)據(jù)庫(或者別的存儲(chǔ)方式),這個(gè)過程不再需要人工干涉。
數(shù)據(jù)自動(dòng)采集抓取系統(tǒng)分網(wǎng)頁采集和接口采集,采集到的數(shù)據(jù)調(diào)用大數(shù)據(jù)中心系統(tǒng)提供的接口輸入到數(shù)據(jù)中心中,其它系統(tǒng)需要的數(shù)據(jù)直接從數(shù)據(jù)中心系統(tǒng)中獲取,同時(shí)也可以讓數(shù)據(jù)自動(dòng)采集抓取系統(tǒng)被動(dòng)觸發(fā)采集,獲取最新數(shù)據(jù)。數(shù)據(jù)自動(dòng)采集抓取系統(tǒng)提供定時(shí)采集功能,設(shè)置采集時(shí)間和周期進(jìn)行定時(shí)采集,也可以提供接口調(diào)用采集。
數(shù)據(jù)采集抓取系統(tǒng)是旅游大數(shù)據(jù)中心的一個(gè)重要組成部分,通過采集抓取系統(tǒng)將旅游大數(shù)據(jù)中心的所采集的有關(guān)所有旅游行業(yè)數(shù)據(jù)進(jìn)行管控。數(shù)據(jù)所涵蓋的范圍主要包括旅游行業(yè)吃、住、行、游、購、娛、便民等數(shù)據(jù)。
返回頂部