web挖掘技術(shù)在競爭情報(bào)活動(dòng)中的應(yīng)用淺析-科技論文

作者：馬奎林來源：原創(chuàng)日期：2012-07-16人氣：1298

web內(nèi)容挖掘。Web內(nèi)容挖掘是一種基于網(wǎng)頁內(nèi)容的web挖掘。是從大量的web數(shù)據(jù)中發(fā)現(xiàn)信息、抽取知識的過程。這些數(shù)據(jù)既有文本數(shù)據(jù)，也有圖像、聲頻、音頻等多媒體數(shù)據(jù)，既有來自于數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)，也有用HTML標(biāo)記的半結(jié)構(gòu)化數(shù)據(jù)和無結(jié)構(gòu)的自由文本。
（二）web結(jié)構(gòu)挖掘。Web結(jié)構(gòu)挖掘是從www的組織結(jié)構(gòu)和連接關(guān)系中推導(dǎo)知識。Web結(jié)構(gòu)挖掘通過分析一個(gè)網(wǎng)頁鏈接和被鏈接數(shù)量以及對象，建立web自身的連接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類，并且可以由此獲得不同網(wǎng)頁間相似度和關(guān)聯(lián)度的信息。Web結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點(diǎn)，并且可以指向眾多權(quán)威站點(diǎn)的相關(guān)主題站點(diǎn)。
（三）web使用挖掘。除了web內(nèi)容和web鏈接結(jié)構(gòu)以外，web挖掘的另一個(gè)重要任務(wù)是對web使用記錄進(jìn)行挖掘。Web內(nèi)容挖掘和web結(jié)構(gòu)挖掘的對象是網(wǎng)上的原始數(shù)據(jù)，而web使用記錄的挖掘則與此不同，它面對的是在用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手?jǐn)?shù)據(jù)。它通過挖掘web日志記錄和相關(guān)數(shù)據(jù)，從而發(fā)現(xiàn)用戶訪問web頁面的模式。
三、Web挖掘技術(shù)研究
（一）Web內(nèi)容挖掘?qū)崿F(xiàn)技術(shù)。Web內(nèi)容挖掘主要體現(xiàn)為對web文本的挖掘，包括對文本內(nèi)容的總結(jié)、分類、聚類機(jī)關(guān)聯(lián)分析等。1.文本總結(jié)。其目的是對文本信息進(jìn)行濃縮，給出它的緊湊描述。文本總結(jié)是指從文檔中抽取關(guān)鍵信息，用簡潔的形式對文檔內(nèi)容進(jìn)行摘要或解釋。這樣，用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體內(nèi)容。2.文本分類。分類的概念是在已有數(shù)據(jù)的基礎(chǔ)上學(xué)會一個(gè)分類函數(shù)或構(gòu)造出一個(gè)分類模型，即通常所說的分類器。分類器一般分為訓(xùn)練和分類兩個(gè)階段。3.文本聚類。文本聚類是一種典型的無教師的機(jī)器學(xué)習(xí)問題。目前的文本聚類方法大致可以分為層次凝聚法和平面劃分法兩種類型。聚類是把一組個(gè)體按照相似性歸成若干類別，即“物以類聚”。4.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則模式數(shù)據(jù)描述型模式，發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無監(jiān)督學(xué)習(xí)的方法。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則通常要經(jīng)過以下3個(gè)步驟：連接數(shù)據(jù)，做數(shù)據(jù)準(zhǔn)備；給定最小支持度和最小可信度，利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則；可視化顯示、理解、評估關(guān)聯(lián)規(guī)則。
（二）用戶使用記錄挖掘?qū)崿F(xiàn)技術(shù)。在挖掘Web用戶使用記錄時(shí)描述用戶訪問的數(shù)據(jù)包括：IP地址、參考頁面、訪問日期和時(shí)間、用戶Web站點(diǎn)及配置信息。這些數(shù)據(jù)可以來自于服務(wù)器端、客戶端、代理服務(wù)器端或者是公司的數(shù)據(jù)庫。
發(fā)現(xiàn)用戶使用記錄信息的方法有兩種。一種方法是通過對日志文件進(jìn)行分析，包含兩種方式，是訪問前先進(jìn)行預(yù)處理，即將日志數(shù)據(jù)映射為關(guān)系表并采用相應(yīng)的數(shù)據(jù)挖掘技術(shù)，如關(guān)聯(lián)規(guī)則或聚類技術(shù)來訪問日志數(shù)據(jù)；二是對日志數(shù)據(jù)進(jìn)行直接訪問以獲取用戶的導(dǎo)航信息。另一種方法是通過對用戶點(diǎn)擊事件的搜集和分析發(fā)現(xiàn)用戶導(dǎo)航行為。
四、Web挖掘在競爭情報(bào)系統(tǒng)中的應(yīng)用
（一）利用Web挖掘獲取、開發(fā)和利用競爭對手和客戶的信息。從Web挖掘技術(shù)的實(shí)現(xiàn)流程來看，Web挖掘不僅僅是像網(wǎng)絡(luò)信息檢索那樣只是把符合查詢要求的記錄返回給用戶，這樣得到的結(jié)果集不僅數(shù)量龐大，而且包括很多不相關(guān)信息。正如前面所提到的，Web挖掘不僅能夠從WWW的大量的數(shù)據(jù)中發(fā)現(xiàn)信息，而且它還能發(fā)現(xiàn)權(quán)威站點(diǎn)、有重要價(jià)值的“隱藏”信息，并且能夠監(jiān)視和預(yù)測用戶的訪問習(xí)慣、購買行為，并能夠發(fā)現(xiàn)顧客購買模式趨勢。
（二）挖掘Web日志記錄來發(fā)現(xiàn)用戶訪問Web頁面的模式。通過分析和探究web日志記錄中的規(guī)律，可以識別電子商務(wù)的潛在客戶，增強(qiáng)對最終用戶的互聯(lián)網(wǎng)信息服務(wù)的質(zhì)量和交付，并改進(jìn)Web服務(wù)器系統(tǒng)的性能。挖掘Web日志訪問紀(jì)錄，有助于聚類用戶并將用戶分門別類，以便實(shí)現(xiàn)個(gè)性化的市場服務(wù).
（三）Web挖掘在反競爭情報(bào)活動(dòng)中的應(yīng)用。反競爭情報(bào)是企業(yè)競爭情報(bào)活動(dòng)的重要組成部分，忽視競爭對手的競爭情報(bào)活動(dòng)、低估競爭對手搜集競爭情報(bào)的能力勢必導(dǎo)致企業(yè)失去已有的競爭優(yōu)勢?，F(xiàn)在，已有越來越多的企業(yè)建立了自己的Web站點(diǎn)，企業(yè)上網(wǎng)已成為一股不可逆轉(zhuǎn)的潮流。因此，對它進(jìn)行監(jiān)控是企業(yè)了解競爭對手的競爭情報(bào)活動(dòng)的重要途徑。在競爭情報(bào)計(jì)算機(jī)系統(tǒng)中，可以充分利用Web挖掘技術(shù)，通過運(yùn)用分析訪問者的IP地址、客戶端歷屆域、信息訪問路徑等Web監(jiān)控技術(shù)、統(tǒng)計(jì)敏感信息訪問率等方法實(shí)現(xiàn)對競爭對手的防范，以達(dá)到識別競爭對手保護(hù)企業(yè)敏感性信息的目的。
總之，作為一種新型的信息處理與分析技術(shù)，web挖掘的確在競爭情報(bào)活動(dòng)中具有巨大的應(yīng)用潛力。充分運(yùn)用web挖掘來發(fā)掘蘊(yùn)藏在互聯(lián)網(wǎng)上的競爭情報(bào)資源，將會為企業(yè)競爭力的提升提供強(qiáng)大的支持與動(dòng)力。

關(guān)鍵字：科技論文論文篇論文投稿咨詢

上一篇：中年知識分子心理健康的現(xiàn)狀分析
下一篇：在生活中學(xué)習(xí)有用的地理知識-社科論文

欄目分類

熱門排行

推薦信息

期刊知識