您的位置:網(wǎng)站首頁 > 優(yōu)秀論文 > 正文
web挖掘技術(shù)在競(jìng)爭(zhēng)情報(bào)活動(dòng)中的應(yīng)用淺析-科技論文
作者:馬奎林來源:原創(chuàng)日期:2012-07-16人氣:948
web內(nèi)容挖掘。Web內(nèi)容挖掘是一種基于網(wǎng)頁內(nèi)容的web挖掘。是從大量的web數(shù)據(jù)中發(fā)現(xiàn)信息、抽取知識(shí)的過程。這些數(shù)據(jù)既有文本數(shù)據(jù),也有圖像、聲頻、音頻等多媒體數(shù)據(jù),既有來自于數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù),也有用HTML標(biāo)記的半結(jié)構(gòu)化數(shù)據(jù)和無結(jié)構(gòu)的自由文本。
(二)web結(jié)構(gòu)挖掘。Web結(jié)構(gòu)挖掘是從www的組織結(jié)構(gòu)和連接關(guān)系中推導(dǎo)知識(shí)。Web結(jié)構(gòu)挖掘通過分析一個(gè)網(wǎng)頁鏈接和被鏈接數(shù)量以及對(duì)象,建立web自身的連接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類,并且可以由此獲得不同網(wǎng)頁間相似度和關(guān)聯(lián)度的信息。Web結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點(diǎn),并且可以指向眾多權(quán)威站點(diǎn)的相關(guān)主題站點(diǎn)。
(三)web使用挖掘。除了web內(nèi)容和web鏈接結(jié)構(gòu)以外,web挖掘的另一個(gè)重要任務(wù)是對(duì)web使用記錄進(jìn)行挖掘。Web內(nèi)容挖掘和web結(jié)構(gòu)挖掘的對(duì)象是網(wǎng)上的原始數(shù)據(jù),而web使用記錄的挖掘則與此不同,它面對(duì)的是在用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手?jǐn)?shù)據(jù)。它通過挖掘web日志記錄和相關(guān)數(shù)據(jù),從而發(fā)現(xiàn)用戶訪問web頁面的模式。
三、Web挖掘技術(shù)研究
(一)Web內(nèi)容挖掘?qū)崿F(xiàn)技術(shù)。Web內(nèi)容挖掘主要體現(xiàn)為對(duì)web文本的挖掘,包括對(duì)文本內(nèi)容的總結(jié)、分類、聚類機(jī)關(guān)聯(lián)分析等。1.文本總結(jié)。其目的是對(duì)文本信息進(jìn)行濃縮,給出它的緊湊描述。文本總結(jié)是指從文檔中抽取關(guān)鍵信息,用簡(jiǎn)潔的形式對(duì)文檔內(nèi)容進(jìn)行摘要或解釋。這樣,用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體內(nèi)容。2.文本分類。分類的概念是在已有數(shù)據(jù)的基礎(chǔ)上學(xué)會(huì)一個(gè)分類函數(shù)或構(gòu)造出一個(gè)分類模型,即通常所說的分類器。分類器一般分為訓(xùn)練和分類兩個(gè)階段。3.文本聚類。文本聚類是一種典型的無教師的機(jī)器學(xué)習(xí)問題。目前的文本聚類方法大致可以分為層次凝聚法和平面劃分法兩種類型。聚類是把一組個(gè)體按照相似性歸成若干類別,即“物以類聚”。4.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則模式數(shù)據(jù)描述型模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無監(jiān)督學(xué)習(xí)的方法。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則通常要經(jīng)過以下3個(gè)步驟:連接數(shù)據(jù),做數(shù)據(jù)準(zhǔn)備;給定最小支持度和最小可信度,利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則;可視化顯示、理解、評(píng)估關(guān)聯(lián)規(guī)則。
(二)用戶使用記錄挖掘?qū)崿F(xiàn)技術(shù)。在挖掘Web用戶使用記錄時(shí)描述用戶訪問的數(shù)據(jù)包括:IP地址、參考頁面、訪問日期和時(shí)間、用戶Web站點(diǎn)及配置信息。這些數(shù)據(jù)可以來自于服務(wù)器端、客戶端、代理服務(wù)器端或者是公司的數(shù)據(jù)庫。
發(fā)現(xiàn)用戶使用記錄信息的方法有兩種。一種方法是通過對(duì)日志文件進(jìn)行分析,包含兩種方式,是訪問前先進(jìn)行預(yù)處理,即將日志數(shù)據(jù)映射為關(guān)系表并采用相應(yīng)的數(shù)據(jù)挖掘技術(shù),如關(guān)聯(lián)規(guī)則或聚類技術(shù)來訪問日志數(shù)據(jù);二是對(duì)日志數(shù)據(jù)進(jìn)行直接訪問以獲取用戶的導(dǎo)航信息。另一種方法是通過對(duì)用戶點(diǎn)擊事件的搜集和分析發(fā)現(xiàn)用戶導(dǎo)航行為。
四、Web挖掘在競(jìng)爭(zhēng)情報(bào)系統(tǒng)中的應(yīng)用
(一)利用Web挖掘獲取、開發(fā)和利用競(jìng)爭(zhēng)對(duì)手和客戶的信息。從Web挖掘技術(shù)的實(shí)現(xiàn)流程來看,Web挖掘不僅僅是像網(wǎng)絡(luò)信息檢索那樣只是把符合查詢要求的記錄返回給用戶,這樣得到的結(jié)果集不僅數(shù)量龐大,而且包括很多不相關(guān)信息。正如前面所提到的,Web挖掘不僅能夠從WWW的大量的數(shù)據(jù)中發(fā)現(xiàn)信息,而且它還能發(fā)現(xiàn)權(quán)威站點(diǎn)、有重要價(jià)值的“隱藏”信息,并且能夠監(jiān)視和預(yù)測(cè)用戶的訪問習(xí)慣、購買行為,并能夠發(fā)現(xiàn)顧客購買模式趨勢(shì)。
(二)挖掘Web日志記錄來發(fā)現(xiàn)用戶訪問Web頁面的模式。通過分析和探究web日志記錄中的規(guī)律,可以識(shí)別電子商務(wù)的潛在客戶,增強(qiáng)對(duì)最終用戶的互聯(lián)網(wǎng)信息服務(wù)的質(zhì)量和交付,并改進(jìn)Web服務(wù)器系統(tǒng)的性能。挖掘Web日志訪問紀(jì)錄,有助于聚類用戶并將用戶分門別類,以便實(shí)現(xiàn)個(gè)性化的市場(chǎng)服務(wù).
(三)Web挖掘在反競(jìng)爭(zhēng)情報(bào)活動(dòng)中的應(yīng)用。反競(jìng)爭(zhēng)情報(bào)是企業(yè)競(jìng)爭(zhēng)情報(bào)活動(dòng)的重要組成部分,忽視競(jìng)爭(zhēng)對(duì)手的競(jìng)爭(zhēng)情報(bào)活動(dòng)、低估競(jìng)爭(zhēng)對(duì)手搜集競(jìng)爭(zhēng)情報(bào)的能力勢(shì)必導(dǎo)致企業(yè)失去已有的競(jìng)爭(zhēng)優(yōu)勢(shì)?,F(xiàn)在,已有越來越多的企業(yè)建立了自己的Web站點(diǎn),企業(yè)上網(wǎng)已成為一股不可逆轉(zhuǎn)的潮流。因此,對(duì)它進(jìn)行監(jiān)控是企業(yè)了解競(jìng)爭(zhēng)對(duì)手的競(jìng)爭(zhēng)情報(bào)活動(dòng)的重要途徑。在競(jìng)爭(zhēng)情報(bào)計(jì)算機(jī)系統(tǒng)中,可以充分利用Web挖掘技術(shù),通過運(yùn)用分析訪問者的IP地址、客戶端歷屆域、信息訪問路徑等Web監(jiān)控技術(shù)、統(tǒng)計(jì)敏感信息訪問率等方法實(shí)現(xiàn)對(duì)競(jìng)爭(zhēng)對(duì)手的防范,以達(dá)到識(shí)別競(jìng)爭(zhēng)對(duì)手保護(hù)企業(yè)敏感性信息的目的。
總之,作為一種新型的信息處理與分析技術(shù),web挖掘的確在競(jìng)爭(zhēng)情報(bào)活動(dòng)中具有巨大的應(yīng)用潛力。充分運(yùn)用web挖掘來發(fā)掘蘊(yùn)藏在互聯(lián)網(wǎng)上的競(jìng)爭(zhēng)情報(bào)資源,將會(huì)為企業(yè)競(jìng)爭(zhēng)力的提升提供強(qiáng)大的支持與動(dòng)力。
(二)web結(jié)構(gòu)挖掘。Web結(jié)構(gòu)挖掘是從www的組織結(jié)構(gòu)和連接關(guān)系中推導(dǎo)知識(shí)。Web結(jié)構(gòu)挖掘通過分析一個(gè)網(wǎng)頁鏈接和被鏈接數(shù)量以及對(duì)象,建立web自身的連接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類,并且可以由此獲得不同網(wǎng)頁間相似度和關(guān)聯(lián)度的信息。Web結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點(diǎn),并且可以指向眾多權(quán)威站點(diǎn)的相關(guān)主題站點(diǎn)。
(三)web使用挖掘。除了web內(nèi)容和web鏈接結(jié)構(gòu)以外,web挖掘的另一個(gè)重要任務(wù)是對(duì)web使用記錄進(jìn)行挖掘。Web內(nèi)容挖掘和web結(jié)構(gòu)挖掘的對(duì)象是網(wǎng)上的原始數(shù)據(jù),而web使用記錄的挖掘則與此不同,它面對(duì)的是在用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手?jǐn)?shù)據(jù)。它通過挖掘web日志記錄和相關(guān)數(shù)據(jù),從而發(fā)現(xiàn)用戶訪問web頁面的模式。
三、Web挖掘技術(shù)研究
(一)Web內(nèi)容挖掘?qū)崿F(xiàn)技術(shù)。Web內(nèi)容挖掘主要體現(xiàn)為對(duì)web文本的挖掘,包括對(duì)文本內(nèi)容的總結(jié)、分類、聚類機(jī)關(guān)聯(lián)分析等。1.文本總結(jié)。其目的是對(duì)文本信息進(jìn)行濃縮,給出它的緊湊描述。文本總結(jié)是指從文檔中抽取關(guān)鍵信息,用簡(jiǎn)潔的形式對(duì)文檔內(nèi)容進(jìn)行摘要或解釋。這樣,用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體內(nèi)容。2.文本分類。分類的概念是在已有數(shù)據(jù)的基礎(chǔ)上學(xué)會(huì)一個(gè)分類函數(shù)或構(gòu)造出一個(gè)分類模型,即通常所說的分類器。分類器一般分為訓(xùn)練和分類兩個(gè)階段。3.文本聚類。文本聚類是一種典型的無教師的機(jī)器學(xué)習(xí)問題。目前的文本聚類方法大致可以分為層次凝聚法和平面劃分法兩種類型。聚類是把一組個(gè)體按照相似性歸成若干類別,即“物以類聚”。4.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則模式數(shù)據(jù)描述型模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無監(jiān)督學(xué)習(xí)的方法。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則通常要經(jīng)過以下3個(gè)步驟:連接數(shù)據(jù),做數(shù)據(jù)準(zhǔn)備;給定最小支持度和最小可信度,利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則;可視化顯示、理解、評(píng)估關(guān)聯(lián)規(guī)則。
(二)用戶使用記錄挖掘?qū)崿F(xiàn)技術(shù)。在挖掘Web用戶使用記錄時(shí)描述用戶訪問的數(shù)據(jù)包括:IP地址、參考頁面、訪問日期和時(shí)間、用戶Web站點(diǎn)及配置信息。這些數(shù)據(jù)可以來自于服務(wù)器端、客戶端、代理服務(wù)器端或者是公司的數(shù)據(jù)庫。
發(fā)現(xiàn)用戶使用記錄信息的方法有兩種。一種方法是通過對(duì)日志文件進(jìn)行分析,包含兩種方式,是訪問前先進(jìn)行預(yù)處理,即將日志數(shù)據(jù)映射為關(guān)系表并采用相應(yīng)的數(shù)據(jù)挖掘技術(shù),如關(guān)聯(lián)規(guī)則或聚類技術(shù)來訪問日志數(shù)據(jù);二是對(duì)日志數(shù)據(jù)進(jìn)行直接訪問以獲取用戶的導(dǎo)航信息。另一種方法是通過對(duì)用戶點(diǎn)擊事件的搜集和分析發(fā)現(xiàn)用戶導(dǎo)航行為。
四、Web挖掘在競(jìng)爭(zhēng)情報(bào)系統(tǒng)中的應(yīng)用
(一)利用Web挖掘獲取、開發(fā)和利用競(jìng)爭(zhēng)對(duì)手和客戶的信息。從Web挖掘技術(shù)的實(shí)現(xiàn)流程來看,Web挖掘不僅僅是像網(wǎng)絡(luò)信息檢索那樣只是把符合查詢要求的記錄返回給用戶,這樣得到的結(jié)果集不僅數(shù)量龐大,而且包括很多不相關(guān)信息。正如前面所提到的,Web挖掘不僅能夠從WWW的大量的數(shù)據(jù)中發(fā)現(xiàn)信息,而且它還能發(fā)現(xiàn)權(quán)威站點(diǎn)、有重要價(jià)值的“隱藏”信息,并且能夠監(jiān)視和預(yù)測(cè)用戶的訪問習(xí)慣、購買行為,并能夠發(fā)現(xiàn)顧客購買模式趨勢(shì)。
(二)挖掘Web日志記錄來發(fā)現(xiàn)用戶訪問Web頁面的模式。通過分析和探究web日志記錄中的規(guī)律,可以識(shí)別電子商務(wù)的潛在客戶,增強(qiáng)對(duì)最終用戶的互聯(lián)網(wǎng)信息服務(wù)的質(zhì)量和交付,并改進(jìn)Web服務(wù)器系統(tǒng)的性能。挖掘Web日志訪問紀(jì)錄,有助于聚類用戶并將用戶分門別類,以便實(shí)現(xiàn)個(gè)性化的市場(chǎng)服務(wù).
(三)Web挖掘在反競(jìng)爭(zhēng)情報(bào)活動(dòng)中的應(yīng)用。反競(jìng)爭(zhēng)情報(bào)是企業(yè)競(jìng)爭(zhēng)情報(bào)活動(dòng)的重要組成部分,忽視競(jìng)爭(zhēng)對(duì)手的競(jìng)爭(zhēng)情報(bào)活動(dòng)、低估競(jìng)爭(zhēng)對(duì)手搜集競(jìng)爭(zhēng)情報(bào)的能力勢(shì)必導(dǎo)致企業(yè)失去已有的競(jìng)爭(zhēng)優(yōu)勢(shì)?,F(xiàn)在,已有越來越多的企業(yè)建立了自己的Web站點(diǎn),企業(yè)上網(wǎng)已成為一股不可逆轉(zhuǎn)的潮流。因此,對(duì)它進(jìn)行監(jiān)控是企業(yè)了解競(jìng)爭(zhēng)對(duì)手的競(jìng)爭(zhēng)情報(bào)活動(dòng)的重要途徑。在競(jìng)爭(zhēng)情報(bào)計(jì)算機(jī)系統(tǒng)中,可以充分利用Web挖掘技術(shù),通過運(yùn)用分析訪問者的IP地址、客戶端歷屆域、信息訪問路徑等Web監(jiān)控技術(shù)、統(tǒng)計(jì)敏感信息訪問率等方法實(shí)現(xiàn)對(duì)競(jìng)爭(zhēng)對(duì)手的防范,以達(dá)到識(shí)別競(jìng)爭(zhēng)對(duì)手保護(hù)企業(yè)敏感性信息的目的。
總之,作為一種新型的信息處理與分析技術(shù),web挖掘的確在競(jìng)爭(zhēng)情報(bào)活動(dòng)中具有巨大的應(yīng)用潛力。充分運(yùn)用web挖掘來發(fā)掘蘊(yùn)藏在互聯(lián)網(wǎng)上的競(jìng)爭(zhēng)情報(bào)資源,將會(huì)為企業(yè)競(jìng)爭(zhēng)力的提升提供強(qiáng)大的支持與動(dòng)力。
欄目分類
熱門排行
推薦信息
- 人工智能時(shí)代算法傳播的倫理失范問題及其治理對(duì)策研究
- 鋼鐵行業(yè)成本預(yù)算系統(tǒng)開發(fā)應(yīng)用實(shí)踐
- 基于區(qū)塊鏈的零信任網(wǎng)絡(luò)安全架構(gòu)
- 新時(shí)期CDN帶寬預(yù)測(cè)及運(yùn)營(yíng)部署方案研究
- 電動(dòng)汽車充電站智能監(jiān)控系統(tǒng)的質(zhì)量控制標(biāo)準(zhǔn)和實(shí)施策略
- 裝載機(jī)怠速提升動(dòng)臂抖動(dòng)故障的分析與解決措施
- 測(cè)量技術(shù)與測(cè)繪技術(shù)在公路橋梁工程中的應(yīng)用分析
- 基于物聯(lián)網(wǎng)的建筑電氣設(shè)備安全智能監(jiān)測(cè)系統(tǒng)設(shè)計(jì)
- 5G ToB行業(yè)專網(wǎng)規(guī)劃設(shè)計(jì)方法研究
- 綜合能源管理下智慧園區(qū)空調(diào)系統(tǒng)的智能控制與可持續(xù)性能效提升
期刊知識(shí)
- 2023JCR影響因子正式公布!
- 國內(nèi)核心期刊分級(jí)情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點(diǎn)分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識(shí)點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點(diǎn)那些評(píng)職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認(rèn)可省市級(jí)黨報(bào)?是否有什么說據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報(bào)?
- 《農(nóng)業(yè)經(jīng)濟(jì)》論文投稿解析,難度指數(shù)四顆星,附好發(fā)選題!