優(yōu)勝從選擇開始,我們是您最好的選擇!—— 中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)
0373-5939925
2851259250@qq.com
我要檢測(cè) 我要投稿 合法期刊查詢
您的位置:網(wǎng)站首頁 > 優(yōu)秀論文 > 正文

web挖掘技術(shù)在競(jìng)爭(zhēng)情報(bào)活動(dòng)中的應(yīng)用淺析-科技論文

作者:馬奎林來源:原創(chuàng)日期:2012-07-16人氣:948
web內(nèi)容挖掘。Web內(nèi)容挖掘是一種基于網(wǎng)頁內(nèi)容的web挖掘。是從大量的web數(shù)據(jù)中發(fā)現(xiàn)信息、抽取知識(shí)的過程。這些數(shù)據(jù)既有文本數(shù)據(jù),也有圖像、聲頻、音頻等多媒體數(shù)據(jù),既有來自于數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù),也有用HTML標(biāo)記的半結(jié)構(gòu)化數(shù)據(jù)和無結(jié)構(gòu)的自由文本。
(二)web結(jié)構(gòu)挖掘。Web結(jié)構(gòu)挖掘是從www的組織結(jié)構(gòu)和連接關(guān)系中推導(dǎo)知識(shí)。Web結(jié)構(gòu)挖掘通過分析一個(gè)網(wǎng)頁鏈接和被鏈接數(shù)量以及對(duì)象,建立web自身的連接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類,并且可以由此獲得不同網(wǎng)頁間相似度和關(guān)聯(lián)度的信息。Web結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點(diǎn),并且可以指向眾多權(quán)威站點(diǎn)的相關(guān)主題站點(diǎn)。
(三)web使用挖掘。除了web內(nèi)容和web鏈接結(jié)構(gòu)以外,web挖掘的另一個(gè)重要任務(wù)是對(duì)web使用記錄進(jìn)行挖掘。Web內(nèi)容挖掘和web結(jié)構(gòu)挖掘的對(duì)象是網(wǎng)上的原始數(shù)據(jù),而web使用記錄的挖掘則與此不同,它面對(duì)的是在用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手?jǐn)?shù)據(jù)。它通過挖掘web日志記錄和相關(guān)數(shù)據(jù),從而發(fā)現(xiàn)用戶訪問web頁面的模式。
三、Web挖掘技術(shù)研究
(一)Web內(nèi)容挖掘?qū)崿F(xiàn)技術(shù)。Web內(nèi)容挖掘主要體現(xiàn)為對(duì)web文本的挖掘,包括對(duì)文本內(nèi)容的總結(jié)、分類、聚類機(jī)關(guān)聯(lián)分析等。1.文本總結(jié)。其目的是對(duì)文本信息進(jìn)行濃縮,給出它的緊湊描述。文本總結(jié)是指從文檔中抽取關(guān)鍵信息,用簡(jiǎn)潔的形式對(duì)文檔內(nèi)容進(jìn)行摘要或解釋。這樣,用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體內(nèi)容。2.文本分類。分類的概念是在已有數(shù)據(jù)的基礎(chǔ)上學(xué)會(huì)一個(gè)分類函數(shù)或構(gòu)造出一個(gè)分類模型,即通常所說的分類器。分類器一般分為訓(xùn)練和分類兩個(gè)階段。3.文本聚類。文本聚類是一種典型的無教師的機(jī)器學(xué)習(xí)問題。目前的文本聚類方法大致可以分為層次凝聚法和平面劃分法兩種類型。聚類是把一組個(gè)體按照相似性歸成若干類別,即“物以類聚”。4.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則模式數(shù)據(jù)描述型模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無監(jiān)督學(xué)習(xí)的方法。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則通常要經(jīng)過以下3個(gè)步驟:連接數(shù)據(jù),做數(shù)據(jù)準(zhǔn)備;給定最小支持度和最小可信度,利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則;可視化顯示、理解、評(píng)估關(guān)聯(lián)規(guī)則。
(二)用戶使用記錄挖掘?qū)崿F(xiàn)技術(shù)。在挖掘Web用戶使用記錄時(shí)描述用戶訪問的數(shù)據(jù)包括:IP地址、參考頁面、訪問日期和時(shí)間、用戶Web站點(diǎn)及配置信息。這些數(shù)據(jù)可以來自于服務(wù)器端、客戶端、代理服務(wù)器端或者是公司的數(shù)據(jù)庫。
發(fā)現(xiàn)用戶使用記錄信息的方法有兩種。一種方法是通過對(duì)日志文件進(jìn)行分析,包含兩種方式,是訪問前先進(jìn)行預(yù)處理,即將日志數(shù)據(jù)映射為關(guān)系表并采用相應(yīng)的數(shù)據(jù)挖掘技術(shù),如關(guān)聯(lián)規(guī)則或聚類技術(shù)來訪問日志數(shù)據(jù);二是對(duì)日志數(shù)據(jù)進(jìn)行直接訪問以獲取用戶的導(dǎo)航信息。另一種方法是通過對(duì)用戶點(diǎn)擊事件的搜集和分析發(fā)現(xiàn)用戶導(dǎo)航行為。
四、Web挖掘在競(jìng)爭(zhēng)情報(bào)系統(tǒng)中的應(yīng)用
(一)利用Web挖掘獲取、開發(fā)和利用競(jìng)爭(zhēng)對(duì)手和客戶的信息。從Web挖掘技術(shù)的實(shí)現(xiàn)流程來看,Web挖掘不僅僅是像網(wǎng)絡(luò)信息檢索那樣只是把符合查詢要求的記錄返回給用戶,這樣得到的結(jié)果集不僅數(shù)量龐大,而且包括很多不相關(guān)信息。正如前面所提到的,Web挖掘不僅能夠從WWW的大量的數(shù)據(jù)中發(fā)現(xiàn)信息,而且它還能發(fā)現(xiàn)權(quán)威站點(diǎn)、有重要價(jià)值的“隱藏”信息,并且能夠監(jiān)視和預(yù)測(cè)用戶的訪問習(xí)慣、購買行為,并能夠發(fā)現(xiàn)顧客購買模式趨勢(shì)。
(二)挖掘Web日志記錄來發(fā)現(xiàn)用戶訪問Web頁面的模式。通過分析和探究web日志記錄中的規(guī)律,可以識(shí)別電子商務(wù)的潛在客戶,增強(qiáng)對(duì)最終用戶的互聯(lián)網(wǎng)信息服務(wù)的質(zhì)量和交付,并改進(jìn)Web服務(wù)器系統(tǒng)的性能。挖掘Web日志訪問紀(jì)錄,有助于聚類用戶并將用戶分門別類,以便實(shí)現(xiàn)個(gè)性化的市場(chǎng)服務(wù).
(三)Web挖掘在反競(jìng)爭(zhēng)情報(bào)活動(dòng)中的應(yīng)用。反競(jìng)爭(zhēng)情報(bào)是企業(yè)競(jìng)爭(zhēng)情報(bào)活動(dòng)的重要組成部分,忽視競(jìng)爭(zhēng)對(duì)手的競(jìng)爭(zhēng)情報(bào)活動(dòng)、低估競(jìng)爭(zhēng)對(duì)手搜集競(jìng)爭(zhēng)情報(bào)的能力勢(shì)必導(dǎo)致企業(yè)失去已有的競(jìng)爭(zhēng)優(yōu)勢(shì)?,F(xiàn)在,已有越來越多的企業(yè)建立了自己的Web站點(diǎn),企業(yè)上網(wǎng)已成為一股不可逆轉(zhuǎn)的潮流。因此,對(duì)它進(jìn)行監(jiān)控是企業(yè)了解競(jìng)爭(zhēng)對(duì)手的競(jìng)爭(zhēng)情報(bào)活動(dòng)的重要途徑。在競(jìng)爭(zhēng)情報(bào)計(jì)算機(jī)系統(tǒng)中,可以充分利用Web挖掘技術(shù),通過運(yùn)用分析訪問者的IP地址、客戶端歷屆域、信息訪問路徑等Web監(jiān)控技術(shù)、統(tǒng)計(jì)敏感信息訪問率等方法實(shí)現(xiàn)對(duì)競(jìng)爭(zhēng)對(duì)手的防范,以達(dá)到識(shí)別競(jìng)爭(zhēng)對(duì)手保護(hù)企業(yè)敏感性信息的目的。
總之,作為一種新型的信息處理與分析技術(shù),web挖掘的確在競(jìng)爭(zhēng)情報(bào)活動(dòng)中具有巨大的應(yīng)用潛力。充分運(yùn)用web挖掘來發(fā)掘蘊(yùn)藏在互聯(lián)網(wǎng)上的競(jìng)爭(zhēng)情報(bào)資源,將會(huì)為企業(yè)競(jìng)爭(zhēng)力的提升提供強(qiáng)大的支持與動(dòng)力。

網(wǎng)絡(luò)客服QQ: 沈編輯

投訴建議:0373-5939925????投訴建議QQ:

招聘合作:2851259250@qq.com (如您是期刊主編、文章高手,可通過郵件合作)

地址:河南省新鄉(xiāng)市金穗大道東段266號(hào)中州期刊聯(lián)盟 ICP備案號(hào):豫ICP備2020036848

【免責(zé)聲明】:中州期刊聯(lián)盟所提供的信息資源如有侵權(quán)、違規(guī),請(qǐng)及時(shí)告知。

版權(quán)所有:中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)

關(guān)注”中州期刊聯(lián)盟”公眾號(hào)
了解論文寫作全系列課程

核心期刊為何難發(fā)?

論文發(fā)表總嫌貴?

職院?jiǎn)挝话l(fā)核心?

掃描關(guān)注公眾號(hào)

論文發(fā)表不再有疑惑

論文寫作全系列課程

掃碼了解更多

輕松寫核心期刊論文

在線留言