av色综合网,成年片色大黄全免费网站久久,免费大片黄在线观看,japanese乱熟另类,国产成人午夜高潮毛片

公務員期刊網(wǎng) 精選范文 數(shù)據(jù)挖掘技術范文

數(shù)據(jù)挖掘技術精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)挖掘技術主題范文,僅供參考,歡迎閱讀并收藏。

數(shù)據(jù)挖掘技術

第1篇:數(shù)據(jù)挖掘技術范文

關鍵詞:Web數(shù)據(jù)挖掘;分類;流程

中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2009)26-7335-01

WebData Mining Technology

SONG Yu

(Wuhan Institute of Shipbuilding Technology, Wuhan 430050, China)

Abstract: In this paper, Webdata mining technology, the basic idea was introduced to describe the content, structure, excavation of the use of three main types of Webdata mining, and a typical Webdata mining process are described.

Key words: Webdata mining; classification; process

所謂數(shù)據(jù)挖掘Data Mining 就是從大量的、不完全的、有噪聲的、模糊的、隨機的原始數(shù)據(jù)中提取隱含在其中的、事先未知的、但又是潛在有用的信息和知識的過程 。

1 什么是Web的數(shù)據(jù)挖掘

Web挖掘是從Web資源上抽取信息或知識的過程,它是將傳統(tǒng)的數(shù)據(jù)挖掘的思想和方法應用于Web,從Web文檔和Web活動中抽取感興趣的、潛在的、有用的模式和隱藏信息。Web挖掘可在多方面發(fā)揮作用,如搜索引擎結構的挖掘,搜索引擎的開發(fā),改進和提高搜索引擎的質量和效率,確定權威頁面。Web挖掘研究覆蓋了多個研究領域,包括數(shù)據(jù)庫技術、信息獲取技術、統(tǒng)計學、人工智能中的機器學習和神經(jīng)網(wǎng)絡等。特別是電子商務領域,通過對用戶特征的理解和分析,如對用戶訪問行為、頻度、內容等的分析,提取出用戶的特征,從而為用戶定制個性化的界面,有助于開展有針對性的電子商務活動。

2 Web數(shù)據(jù)挖掘的分類

根據(jù)挖掘的對象不同我們可以把基于Web的數(shù)據(jù)挖掘分為三大類:

1) Web內容的挖掘(WebContent Mining)

所謂Web內容的挖掘實際上就是從Web文檔及其描述中獲取知識, Web文檔文件挖掘以及基于概念索引或Agent 技術的資源搜索也應該歸于此類。Web信息資源類型眾多,目前WWW 信息資源已經(jīng)成為網(wǎng)絡信息資源的主體,然而除了大量的人們可以直接從網(wǎng)上抓取、建立索引、實現(xiàn)查詢服務的資源之外,相當一部分信息是隱藏著的數(shù)據(jù)(如由用戶的提問而動態(tài)生成的結果,存在于數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù),或是某些私人數(shù)據(jù))無法被索引,從而無法提供對它們有效的檢索方式,這就迫使我們把這些內容挖掘出來。若從信息資源的表現(xiàn)形式來看,Web信息內容是由文本、圖像、音頻、視頻、元數(shù)據(jù)等種種形式的數(shù)據(jù)組成的,因而我們所說的Web內容的挖掘也是一種針對多媒體數(shù)據(jù)的挖掘。

2) Web結構的挖掘(WebStructure Mining)

這一類型的挖掘是從萬維網(wǎng)的整體結構和網(wǎng)頁上的相互鏈接中發(fā)現(xiàn)知識的過程,它主要挖掘Web潛在的鏈接結構模式。這種思想源于引文分析,即通過分析一個網(wǎng)頁鏈接和被鏈接數(shù)量以及對象來建立Web自身的鏈接結構模式。這種模式可以用于網(wǎng)頁歸類并且可以由此獲得有關不同網(wǎng)頁間相似度及關聯(lián)度的信息。Web結構挖掘有助于用戶找到相關主題的權威站點,而且對網(wǎng)絡資源檢索結果的排序有很大意義。

3) Web使用的挖掘(WebUsage Mining)

Web使用的挖掘,也稱為Web日志挖掘(WebLog Mining)。與前兩種挖掘方式以網(wǎng)上的原始數(shù)據(jù)為挖掘對象不同,基于Web使用的挖掘面對的是在用戶和網(wǎng)絡交互的過程中抽取出來的第二手數(shù)據(jù)。這些數(shù)據(jù)包括:網(wǎng)絡服務器訪問記錄、服務器日志記錄、用戶注冊信息以及用戶訪問網(wǎng)站時的行為動作等等。Web使用挖掘將這些數(shù)據(jù)一一紀錄到日志文件中,然后對積累起來的日志文件進行挖掘,從而了解用戶的網(wǎng)絡行為數(shù)據(jù)所具有的意義。我們前面所舉的例子正屬于這一種類型。

3 Web挖掘技術的流程

Web挖掘指使用數(shù)據(jù)挖掘技術在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個研究領域,包括數(shù)據(jù)庫技術、信息獲取技術、統(tǒng)計學、人工智能中的機器學習 和神經(jīng)網(wǎng)絡等。Web挖掘可以在很多方面發(fā)揮作用,如對搜索引擎的結構進行挖掘,確定權威頁面,Web文檔分類,Weblog挖掘,智能查詢,建立MetaWeb數(shù)據(jù)倉庫等。

典型Web數(shù)據(jù)挖掘的處理流程如下:

3.1 查找資源

任務是從目標Web文檔中得到數(shù)據(jù),值得注意的是有時信息資源不僅限于在線Web文檔,還包括電子郵件、電子文檔、新聞組,或者網(wǎng)站的日志數(shù)據(jù)甚至是通過Web形成的交易數(shù)據(jù)庫中的數(shù)據(jù)。

3.2 信息選擇和預處理

任務是從取得的Web資源中剔除無用信息和將信息進行必要的整理。例如從Web文檔中自動去除廣告連接、去除多余格式標記、自動識別段落或者字段并將數(shù)據(jù)組織成規(guī)整的邏輯形式甚至是關系表。

1) 模式發(fā)現(xiàn)

自動進行模式發(fā)現(xiàn)??梢栽谕粋€站點內部或在多個站點之間進行。

2) 模式分析

驗證、解釋上一步驟產(chǎn)生的模式??梢允菣C器自動完成,也可以是與分析人員進行交互來完成。

4 結束語

Web數(shù)據(jù)挖掘還有待進一步的研究,尤其是近來對Web內容挖掘方面集中在信息集成,如建立基于Web的知識庫或基于Web的數(shù)據(jù)倉庫的研究上。

參考文獻:

[1] 范明,孟小峰.數(shù)據(jù)挖掘概念與技術[M].北京:機械工業(yè)出版社,2007.

第2篇:數(shù)據(jù)挖掘技術范文

[關鍵詞] 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘方法

隨著信息技術迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,數(shù)據(jù)挖掘(Data Mining)技術由此應運而生。

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關系和模式,進而預測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預測變量集的對數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。

2.關聯(lián)規(guī)則。關聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術之一。關聯(lián)規(guī)則在數(shù)據(jù)挖掘領域應用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關聯(lián)關系,但是,并不是所有通過關聯(lián)得到的屬性之間的關系都有實際應用價值,要對這些規(guī)則要進行有效的評價,篩選有意義的關聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關聯(lián)的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進行檢驗。

4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數(shù)的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡。神經(jīng)網(wǎng)絡建立在自學習的數(shù)學模型基礎之上,能夠對大量復雜的數(shù)據(jù)進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡既可以表現(xiàn)為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡模擬人腦神經(jīng)元結構,建立三大類多種神經(jīng)元網(wǎng)絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優(yōu)點。

6.遺傳算法。遺傳算法是一種受生物進化啟發(fā)的學習方法,通過變異和重組當前己知的最好假設來生成后續(xù)的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現(xiàn)各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎,解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準確數(shù)據(jù)或噪聲數(shù)據(jù)內在的結構聯(lián)系。

8.支持向量機。支持向量機(SVM)是在統(tǒng)計學習理論的基礎上發(fā)展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現(xiàn)已成為訓練多層感知器、RBF神經(jīng)網(wǎng)絡和多項式神經(jīng)元網(wǎng)絡的替代性方法。另外,支持向量機算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經(jīng)元網(wǎng)絡在內的其他算法所不能及的。支持向量機可以應用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。

事實上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結束語

目前,數(shù)據(jù)挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術的深人研究,數(shù)據(jù)挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。

第3篇:數(shù)據(jù)挖掘技術范文

關鍵詞:數(shù)據(jù)挖掘;聚類算法;關聯(lián)規(guī)則;決策樹;遺傳算法

中圖分類號:TP301文獻標識碼:A文章編號:1009-3044(2009)13-3331-02

1 引言

數(shù)據(jù)挖掘是一個多學科的交叉領域,這些學科包括數(shù)據(jù)庫技術、機器學習、統(tǒng)計學、模式識別、信息檢索、神經(jīng)網(wǎng)絡、基于知識的系統(tǒng)、人工智能、高性能計算和數(shù)據(jù)可視化等[1]。目前,對于數(shù)據(jù)挖掘方面的研究已經(jīng)取得了很大的進展,開發(fā)出了許多新的數(shù)據(jù)挖掘算法、系統(tǒng)和應用。本文將先對數(shù)據(jù)挖掘的概念及實施步驟進行說明,然后將分類歸納數(shù)據(jù)挖掘中的各種常見算法,最后對數(shù)據(jù)挖掘目前的研究方向進行預測。

2 數(shù)據(jù)挖掘的概念及流程

2.1 數(shù)據(jù)挖掘的概念

簡單地說,數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中“挖掘”知識,即從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道、但又是潛在有用的信息和知識的過程。它是一種決策支持過程,可以從企業(yè)數(shù)據(jù)庫的大量數(shù)據(jù)中,挖掘出潛在的模式,預測客戶的行為,幫助企業(yè)的決策者做出正確的判斷,從而減少投資的風險,獲得更大的利潤。

2.2 數(shù)據(jù)挖掘的流程

一般來講,數(shù)據(jù)挖掘的整個過程由五個步驟組成:

1) 數(shù)據(jù)挖掘的最后結果是不可預測的,但是要探索的問題應該是有預見的,為了數(shù)據(jù)挖掘而進行數(shù)據(jù)挖掘,是不可取的。因此,清晰地定義出業(yè)務問題,認清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的第一步,也是很重要的一步。

2) 數(shù)據(jù)準備[2],數(shù)據(jù)準備又可以分成數(shù)據(jù)選擇,數(shù)據(jù)預處理,數(shù)據(jù)轉化三個步驟。數(shù)據(jù)選擇,是從大量與業(yè)務對象有關的數(shù)據(jù)中選擇出適合進行數(shù)據(jù)挖掘的數(shù)據(jù);數(shù)據(jù)預處理,包括進行數(shù)據(jù)清洗,數(shù)據(jù)推測,數(shù)據(jù)轉換等。數(shù)據(jù)清洗,指的是清除掉一些明顯的噪聲數(shù)據(jù),提高數(shù)據(jù)的質量;數(shù)據(jù)推測,是因為在前面兩步中,也許會出現(xiàn)數(shù)據(jù)不全的情形,所以進行適當?shù)耐扑?補齊所需的數(shù)據(jù);數(shù)據(jù)轉換,是將數(shù)據(jù)轉換成一個分析模型,這個分析模型是針對數(shù)據(jù)挖掘算法建立的,建立一個真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關鍵;數(shù)據(jù)轉化,則是在做完前面的步驟以后,適當?shù)目s減即將進行分析的數(shù)據(jù)庫規(guī)模,以上這些工作會直接影響到數(shù)據(jù)挖掘時的效率和準確性,同樣很重要。

3) 數(shù)據(jù)挖掘,這是整個數(shù)據(jù)挖掘過程中最重要的一步,即使用適當?shù)臄?shù)據(jù)挖掘算法對剛才處理出的數(shù)據(jù)進行分析,進而得到可能的模式模型。根據(jù)不同數(shù)據(jù)的特點以及用戶不同的需求,對同樣的任務,可以選用不同的算法,目前常見的算法包括聚類算法、關聯(lián)分析、分類算法、遺傳算法等。

4) 結果評價,通過上述步驟得到的模式模型,并不一定是真實有效的,甚至可能會是和實際情況完全相反的,所以還需要對得到的結果進行評價。這一步使用的方法包括用數(shù)據(jù)代入進行驗證,也可以根據(jù)常規(guī)的經(jīng)驗進行一些判斷,一般由數(shù)據(jù)挖掘具體操作而定。如果沒有得到合適的模式模型,就需要重新選擇數(shù)據(jù),甚至需要選用其他的數(shù)據(jù)挖掘算法,因此,數(shù)據(jù)挖掘的過程往往都是一個不斷反復的過程。

5) 知識同化,完成上述步驟后,如果得到了可以接受的模式模型,就需要進一步把得出的模型形象化,運用到所需的信息系統(tǒng)中去。

3 數(shù)據(jù)挖掘的常見算法

數(shù)據(jù)挖掘常用的分析方法包括聚類算法(Cluster Algorithm)、關聯(lián)規(guī)則(Association Rules)、決策樹算法(Decision Tree Algorithm)、遺傳算法(Genetic Algorithm)等。

3.1 聚類算法

聚類是一種常見的數(shù)據(jù)分析工具,其目的是把大量數(shù)據(jù)點的集合分成若干類,使得每個類中的數(shù)據(jù)之間最大程度的相似,而不同類中的數(shù)據(jù)最大程度的不同。常見的聚類算法主要包括層次聚類算法(Hierarchical Clustering Method)、分割聚類算法 (Partitioning Clustering Method)、基于密度的方法(Density-Based Methods)、基于網(wǎng)格的方法(Grid-Based Methods)等[3]。

1) 層次聚類算法,是通過將給定的數(shù)據(jù)集組織成若干組數(shù)據(jù),并形成一個相應的樹狀圖,進行層次式的分解,直到某種條件滿足為止,具體又可分為“自底向上”和“自頂向下”兩種算法[4]。這兩種算法的思路正好相反,前者是將每個對象都作為一個原子聚類,再進行聚合,最后得到相應的結果,而后者是將所有對象看成一個聚類,再進行分解。CURE算法、CHAMELEON算法、BIRCH算法等是比較常用的層次聚類算法。

2) 分割聚類算法,是先將數(shù)據(jù)集分成k個分組,每一個分組就代表一個聚類,然后從這k個初始分組開始,然后通過反復迭代的方法改變分組,使得每一次改進之后的分組方案都較前一次好,最終使同一分組中的記錄越來越近,不同分組中的記錄原來越遠,從而得到最優(yōu)解。使用這一思想的主要算法有K-means算法、K-medoids算法、CLARANS算法等。

3) 基于密度的方法與其它方法的最要區(qū)別在于:它不基于各種距離,而是從數(shù)據(jù)對象的分布密度出發(fā),將密度足夠大的相鄰區(qū)域連接起來,從而可以發(fā)現(xiàn)具有任意形狀的聚類,并能有效處理異常數(shù)據(jù),它的代表算法有DBSCAN算法、OPTICS算法、DENCLUE算法等。

4) 基于網(wǎng)格的方法則是從對數(shù)據(jù)空間劃分的角度出發(fā),利用屬性空間的多維網(wǎng)格數(shù)據(jù)結構,將數(shù)據(jù)空間劃分為有限空間的單元,以構成一個可以進行聚類分析的網(wǎng)格結構。該方法的主要特點是處理時間與數(shù)據(jù)對象的數(shù)目無關,但與每維空間劃分的單元數(shù)相關,而且,這種方法還與數(shù)據(jù)的輸入順序無關,可以處理任意類型的數(shù)據(jù),但是聚類的質量和準確性降低了,它的代表算法有STING算法[5]和CLIQUE算法等。

3.2 關聯(lián)規(guī)則

關聯(lián)規(guī)則是數(shù)據(jù)挖掘研究的重要內容,它描述了數(shù)據(jù)庫中一組對象與另一組對象之間存在的某種關聯(lián)關系。從大量商業(yè)記錄中挖掘有趣的關聯(lián)關系,有助于許多商務決策的制定,如分類設計、交叉購物等。關聯(lián)規(guī)則是形如A=>B的蘊涵式,表示形式如pen=>ruler [支持度=20%,置信度=60%],支持度和置信度分別反映規(guī)則的有用性和確定性,這條規(guī)則就意味著所有的顧客中有20%的人同時購買了鋼筆和直尺,而買了鋼筆的顧客的60%也買了直尺。在關聯(lián)規(guī)則中,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。如果一條關聯(lián)規(guī)則同時滿足最小支持度閾值和最小置信度閾值,就認為它是有趣的,并稱為強關聯(lián)規(guī)則。

關聯(lián)規(guī)則挖掘一般分為兩步:1) 找出所有頻繁項集,即滿足最小支持度的項集;2) 從頻繁項集中產(chǎn)生強關聯(lián)規(guī)則。最為著名的關聯(lián)規(guī)則挖掘算法就是R.Agrawal和R.Srikant于1994年提出的挖掘布爾關聯(lián)規(guī)則中頻繁項集的原創(chuàng)性算法Apriori。它使用一種稱作逐層搜索的迭代方法,k項集用于探索(k+1)項集。首先,通過掃描數(shù)據(jù)庫,累積每個項的計數(shù),并收集滿足最小支持度的項,找出頻繁1項集的集合。該集合記作L1。然后,L1用于找頻繁2項集的集合L2,L2用于找L3,如此下去,直到不能找到頻繁k項集。找每個Lk需要一次數(shù)據(jù)庫全掃描。

但是,Apriori算法也有其不足之處:1) 可能產(chǎn)生大量的候選集;2) 生成每個Lk都需要重復掃描數(shù)據(jù)庫。后來,陸續(xù)出現(xiàn)了一系列Apriori算法的改進算法,以及其他的關聯(lián)規(guī)則挖掘算法,比如RIApriori算法、Apriori-improve算法、FP-growth算法等,這大大提高了關聯(lián)規(guī)則挖掘的速度和準確性,也推動了關聯(lián)規(guī)則挖掘理論的進一步發(fā)展。

3.3 決策樹算法

決策樹是一種類似于流程圖的樹結構,每個內部節(jié)點(非樹葉節(jié)點)表示在一個屬性上測試,每個分支代表一個測試輸出,而每個樹葉節(jié)點(或終節(jié)點)存放一個類標號。決策樹算法主要圍繞決策樹的兩個階段展開:第一階段,決策樹的構建,通過遞歸的算法將訓練集生成一棵決策樹;第二階段,由測試數(shù)據(jù)檢驗生成的決策樹,消除由于統(tǒng)計噪聲或數(shù)據(jù)波動對決策樹的影響,來達到凈化樹的目的,得到一棵正確的決策樹。常見的決策樹算法主要有ID3算法[6]、C4.5算法、CART算法、SPRINT算法等。

3.4 遺傳算法

遺傳算法是基于進化理論,并采用遺傳結合,遺傳變異,自然選擇等設計方法的一種進化計算算法的優(yōu)化算法。進化計算算法的基礎是生物進化,隨著時間的流逝,進化出更好的或更適應的個體。在數(shù)據(jù)挖掘中,遺傳算法可以用于評估聚類、關聯(lián)規(guī)則等算法的適合度。在應用遺傳算法解決問題時,最困難的一步應該是怎樣將問題建模成一組個體的集合,然后在計算中,首先假設一個初始模型,然后對其反復進行雜交技術和變異技術的算法,最后用適應度函數(shù)確定初始集合中應該保留的那個最優(yōu)個體。這個算法的優(yōu)點在于容易并行化,但是對問題進行建模很困難,雜交變異過程以及適應度函數(shù)也很難確定。

4 結束語

隨著數(shù)據(jù)量的積累和數(shù)據(jù)庫種類的多樣化,數(shù)據(jù)挖掘的應用前景非常的廣闊,從上面對各種常見算法的歸納可以看出,每種算法都有局限性,很難采用單一的方法解決相應的問題,因此,多方法融合將成為數(shù)據(jù)挖掘未來的發(fā)展趨勢。

參考文獻:

[1] 韓家煒,堪博.數(shù)據(jù)挖掘:概念與技術[M].2版.范明,孟小峰,譯.北京:機械工業(yè)出版社,2007.

[2] 曾瑩,陳曉.數(shù)據(jù)挖掘及算法淺談[J].中國科技信息,2005(14):75.

[3] 鄒志文,朱金偉.數(shù)據(jù)挖掘算法研究與綜述[J].計算機工程與設計,2005,26(9):2304-2307.

[4] 賀玲,吳玲達,蔡益朝.數(shù)據(jù)挖掘中的聚類算法綜述[J].計算機應用研究,2007(1):10-13.

[5] Wang W,Yang J,Muntz R.STING:A statistical information grid approach to spetial data mining[C].Twenty―third international conference on very large data bases,l997.

[6] Quinlan J R.Introduction of decision trees[J].Machine Leaming,1986(1):81-106.

第4篇:數(shù)據(jù)挖掘技術范文

關鍵詞:Web數(shù)據(jù)挖掘;挖掘過程;挖掘技術

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2009)15-3852-02

The Summary of Web Mining Technology

PAN Zheng-gao1,2

(1.School of Information and Computer,Hefei University of Technology,Hefei 230009,China;2.the Lab of Artificial Intelligence and Data Mining,Suzhou University,Suzhou 234000,China)

Abstract:WWW contains abundant information,as a enormous,extensive and global service center of information.Web Mining can be assumed speedinessly and effectively the information what we needed.This text introduce the types,procession and technologys of Web Mining,except the foreground of it's application.Those work based on the basic concept and characteristic of Web Mining.

Key words:Web Mining; Mining Course; Mining Technology

1 引言

隨著Internet的發(fā)展,Web信息迅速膨脹,如何從海量的Web信息中快速和準確地獲取有用信息已經(jīng)成為近幾年數(shù)據(jù)挖掘領域研究的熱點。Web上的數(shù)據(jù)與其他的數(shù)據(jù)相比較存在著明顯的特點,這些特點使得Web挖掘在方法和技術方面與傳統(tǒng)的數(shù)據(jù)挖掘有著顯著的不同。

2 Web數(shù)據(jù)挖掘的概念

Web數(shù)據(jù)挖掘(Web Mining),簡稱Web挖掘,是由Oren Etzioni在1996年首先提出的[1]。它是數(shù)據(jù)挖掘技術和Internet應用研究相結合的研究領域。一般,對Web數(shù)據(jù)挖掘定義如下:Web數(shù)據(jù)挖掘是指Web從文檔結構和使用的集合C中發(fā)現(xiàn)隱含的模式P。如果將C看作輸入,P看作輸出,則Web挖掘的過程就是從輸入到輸出的一個映射[2]。

Web挖掘是指從大量的Web數(shù)據(jù)中發(fā)現(xiàn)新穎的、潛在可用的及最終可以理解的知識(包括概念、模式、規(guī)則、規(guī)律、約束及可視化等形式)的非平凡過程。Web挖掘是數(shù)據(jù)挖掘技術和Internet應用研究相結合的產(chǎn)物,其涉及的技術覆蓋了多個研究領域,包括數(shù)據(jù)庫技術、信息獲取技術、統(tǒng)計學、機器學習、神經(jīng)網(wǎng)絡等。

3 Web數(shù)據(jù)的特點[3]

1) 異構數(shù)據(jù)庫環(huán)境。Web上的每一個站點就是一個數(shù)據(jù)源,每個數(shù)據(jù)源都是異構的,因而每一站點的信息和組織都不一樣,這就構成了一個巨大的異構數(shù)據(jù)庫。

2) 分布式數(shù)據(jù)源。Web頁面散布在世界各地的Web服務器上,形成了分布式數(shù)據(jù)源。

3) 半結構化。半結構化是Web上數(shù)據(jù)的最大特點。Web上的數(shù)據(jù)非常復雜,沒有特定的模型描述,是一種非完全結構化的數(shù)據(jù),稱之為半結構化數(shù)據(jù)。

4) 動態(tài)性強。Web是一個動態(tài)性極強的信息源,信息不斷地快速更新,各站點的鏈接信息和訪問記錄的更新非常頻繁。

5) 多樣復雜性。Web包含了各種信息和資源,有文本數(shù)據(jù)、超文本數(shù)據(jù)、圖表、圖像、音頻數(shù)據(jù)和視頻數(shù)據(jù)等多種多媒體數(shù)據(jù)。

4 Web數(shù)據(jù)挖掘的分類

Web挖掘技術根據(jù)挖掘的方向一般分為三類:Web內容挖掘,Web結構挖掘和Web使用記錄的挖掘。

4.1 Web內容挖掘(WCM,Web Content Mining)

Web內容挖掘是指從大量的Web數(shù)據(jù)中發(fā)現(xiàn)信息、抽取知識的過程。這些Web數(shù)據(jù)的形式有Web頁面、Web頁面上各種鏈接所指向的內容以及網(wǎng)絡數(shù)據(jù)庫里的數(shù)據(jù)等。從內容方面,Web內容挖掘可分為Web文本挖掘和Web多媒體挖掘,它們的不同在于提取的特征不同。從方法上,Web內容挖掘可分為數(shù)據(jù)庫方法和信息抽取方法。

4.2 Web結構挖掘(WSM,Web Structure Mining)

Web結構挖掘是從Web的組織結構、Web文檔結構與其鏈接關系中挖掘潛在的知識和模式。通過對Web結構的分析,可以發(fā)現(xiàn)頁面結構和鏈接關系中所蘊涵的有用模式;也可以對頁面及其鏈接進行分類和聚類,發(fā)現(xiàn)權威頁面。有關這方面的算法研究成果有:Page-rank、HITS(Hyperlink-Induced Topic Search)及改進的HITS(將內容信息加入到鏈接結構中去)、Hub/authority(Kleinberg,1998)[4]。

4.3 Web使用挖掘(WUM,Web Usage Mining)

Web使用挖掘是應用數(shù)據(jù)挖掘技術從Web數(shù)據(jù)中發(fā)現(xiàn)用戶訪問模式的過程[5]。它可以幫助我們提高Internet信息服務的質量,改進Web服務器的系統(tǒng)性能和結構。

5 Web數(shù)據(jù)挖掘過程

Web數(shù)據(jù)挖掘過程是一個完整的KDD過程,但是與傳統(tǒng)的數(shù)據(jù)和數(shù)據(jù)倉庫相比,Web上的信息是非結構化或半結構化的、動態(tài)的、并且是容易造成混淆的,所以很難直接以Web網(wǎng)頁上的數(shù)據(jù)進行數(shù)據(jù)挖掘,而必須經(jīng)過必要的數(shù)據(jù)處理。典型Web挖掘的處理流程如圖1所示,包括如下四個過程:

1) 查找資源:根據(jù)挖掘目的,從Web資源中提取相關數(shù)據(jù),構成目標數(shù)據(jù)集,Web數(shù)據(jù)挖掘主要從這些數(shù)據(jù)通信中進行數(shù)據(jù)提取。其任務是從目標Web數(shù)據(jù)(包括Web文檔、電子郵件、電子文檔、新聞組、網(wǎng)站日志、網(wǎng)絡數(shù)據(jù)庫中的數(shù)據(jù)等)中得到數(shù)據(jù)。

2) 數(shù)據(jù)預處理:在進行Web挖掘之前對“雜質”數(shù)據(jù)進行過濾,例如消除數(shù)據(jù)的不一致性;將多個數(shù)據(jù)源中的數(shù)據(jù)統(tǒng)一為一個數(shù)據(jù)存儲等。預處理數(shù)據(jù)的效果直接影響到挖掘算法產(chǎn)生的規(guī)則和模式。數(shù)據(jù)預處理主要包括站點識別、數(shù)據(jù)選擇、數(shù)據(jù)凈化、用戶識別和會話識別等。

3) 模式發(fā)現(xiàn):利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的及最終可以理解的信息和知識。常用的模式發(fā)現(xiàn)技術包括:路徑分析、關聯(lián)規(guī)則挖掘、時序模式發(fā)現(xiàn)、聚類和分類等技術。

4) 模式分析:利用合適的工具和技術對挖掘出來的模式進行分析、解釋、可視化,把發(fā)現(xiàn)的規(guī)則模式轉換為知識。

6 常用的數(shù)據(jù)挖掘技術

6.1 路徑分析技術

我們通常采用圖的方法來分析Web頁面之間的路徑關系。G=(V,E),其中:V是頁面的集合,E是頁面之間的超鏈接集合,頁面定義為圖中的頂點,而頁面間的超鏈接定義為圖中的有向邊。頂點v的入邊表示對v的引用,出邊表示v引用了其他的頁面,這樣形成網(wǎng)站的結構圖,從圖中可以確定最頻繁的訪問路徑。路徑分析技術常用于進行改進站點的結構。如70%的用戶訪問/company/product時,是從/company開始,經(jīng)過/company/new/company/products/company/product。此時可以將路徑放在比較顯著的地方,方便了用戶訪問,也提高了該產(chǎn)品的點擊率。

6.2 關聯(lián)規(guī)則技術

關聯(lián)規(guī)則挖掘技術主要用于從用戶訪問序列數(shù)據(jù)庫的序列項中挖掘出相關的規(guī)則,就是要挖掘出用戶在一個訪問期限(Session),從服務器上訪問的頁面文件之間的聯(lián)系,這些頁面之間并不存在直接的參引(Reference)關系。使用關聯(lián)規(guī)則可以發(fā)展很多相關信息或產(chǎn)品服務。例如:某信息A和B,同時被很多用戶瀏覽,則說明A和B有可能相關。同時點擊的用戶越多,其相關度就可能越高。系統(tǒng)可以利用這種思想為用戶推薦相關信息或產(chǎn)品服務。如當當電子書店就采用了這一模式用以推薦相關書目。當你選擇某本圖書時,系統(tǒng)會自動給你推薦信息,告知“很多讀者在購買此書時還購買的其他書目”。ACM數(shù)字圖書館也采用了這一思想,推出信息推薦服務“Peer to Peer”。

6.3 序列模式挖掘技術

序列模式數(shù)據(jù)挖掘技術就是要挖掘出交易集之間的有時間序列關系的模式。它與關聯(lián)挖掘技術都是從用戶訪問下的日志中尋找用戶普遍訪問的規(guī)律,關聯(lián)挖掘技術注重事務內的關系,而序列模式技術則注重事務之間的關系。發(fā)現(xiàn)序列模式,便于預測用戶的訪問模式,有助于開展基于這種模式的有針對性的廣告服務。依賴于發(fā)現(xiàn)的關聯(lián)規(guī)則和序列模式,能夠在服務器方動態(tài)地創(chuàng)立特定的有針對性的頁面,以滿足訪問者的特定需求。

6.4 聚類分類技術

分類規(guī)則可挖掘出某些共同的特性,而這一特性可對新添加到數(shù)據(jù)庫中的數(shù)據(jù)項進行分類。在Web數(shù)據(jù)挖掘中,分類技術可根據(jù)訪問用戶而得到個人信息、共同的訪問模式以及訪問某一服務器文件的用戶特征。而聚類技術則是對符合某一訪問規(guī)律特征的用戶進行用戶特征挖掘。發(fā)現(xiàn)分類規(guī)則可以識別一個特殊群體的公有屬性的描述,這種描述可以用于分類新的檢索。如政府機關的用戶一般感興趣的頁面是/company/product。聚類可以從Web訪問信息數(shù)據(jù)庫中聚集出具有相似特性的用戶群。在Web事務日記中聚類用戶信息或數(shù)據(jù)項能夠便于開發(fā)和執(zhí)行未來的市場戰(zhàn)略。這些事務信息可以用在:在找出用戶共同興趣后,進行合作式信息推薦,共同體的成員可以互相推薦新的滾動信息;自動給一個特定的用戶聚類發(fā)送銷售郵件,為用戶聚類動態(tài)地改變一個特殊的站點等。

7 Web挖掘的研究熱點[6]

在未來一段時間內,Web挖掘研究的焦點可能會集中到以下幾個方面:

1) 高性能Web搜索引擎。盡管搜索引擎性能已有了較大提高,但搜索引擎的最終目標是“理解用戶需求精確返回所需”,如何翻譯用戶的非專業(yè)搜索請求,實現(xiàn)自然語言處理,涉及興趣爬蟲、元搜索引擎、垂直搜索、移動搜索和多媒體搜索等方面的研究。

2) Web數(shù)據(jù)的特征描述與監(jiān)控。如何表示W(wǎng)eb文本內容的特征數(shù)據(jù),如何表示和識別Web中的圖像、flash等多媒體數(shù)據(jù),進而進行網(wǎng)頁分類、內容跟蹤、過濾和報警等,對于不良網(wǎng)站的監(jiān)控等有著積極意義。

3) Web數(shù)據(jù)的獲取與集成。包括Web文本特征的提取和表示,如何用一種廣泛兼容的半結構化數(shù)據(jù)模型表示網(wǎng)頁;如何抽取動態(tài)網(wǎng)頁中的數(shù)據(jù);如何在分布的Web中獲取信息;如何在指定網(wǎng)頁中快速定位所需的數(shù)據(jù)區(qū);如何利用數(shù)據(jù)庫和數(shù)據(jù)倉庫技術查詢和存儲Web內容等。

4) Web數(shù)據(jù)流挖掘。Web日志、cookie、點擊流等流式數(shù)據(jù)量巨大,如何識別和過濾爬蟲的訪問信息;如何有效收集和處理日志以外的訪問數(shù)據(jù);如何有效標識用戶、設置用戶會話時間等。

5) 安全與非法訪問檢測。如何評價Web數(shù)據(jù)信息本身的可靠和安全性;如何對Web內容、郵件、各種日志和用戶訪問行為的分析,識別出威脅、欺詐、入侵、無用的數(shù)據(jù)和異常行為,從而構建安全的網(wǎng)絡環(huán)境。

6) 個性化與安全隱患。如何跟蹤、學習和表達多變的用戶興趣及行為模式,在個性化服務中過濾信息,實現(xiàn)商業(yè)應用,在提醒個性化服務時不侵犯用戶隱私等都是亟待決的問題。

7) 基于Web的模式分析技術和工具。如何將Web挖掘的結果在瀏覽器中可視化地表達,包括統(tǒng)計、關聯(lián)、聚類、分類等工具開發(fā)等。

8) Web挖掘的算法改進與質量評估。由于Web數(shù)據(jù)本身的特點,使得Web挖掘不能照搬數(shù)據(jù)挖掘的理論和技術,而需要對現(xiàn)有的算法等方面都進行改進。Web挖掘算法和挖掘系統(tǒng)的性能通常需要大量用戶的反饋,實際運行測試,因而缺乏有效的評價模式。

9) Web挖掘在社會領域的應用。Web已經(jīng)是人類社會活動的一面鏡子,如何在Web中發(fā)現(xiàn)社會現(xiàn)象、問題和熱點的規(guī)律,為社會學家、經(jīng)濟學家、教育學者提供有價值的知識。

此外,分布式Web挖掘、語義Web挖掘、無線網(wǎng)絡下的Web挖掘、Web2.0時代的Web挖掘、多語言環(huán)境下的Web挖掘等是值得研究的方向。同時,Web挖掘技術應用于具體領域的研究將持續(xù)受到關注,例如,銀行證券、企業(yè)ERP、醫(yī)療衛(wèi)生、農(nóng)業(yè)、電子商務、網(wǎng)絡教學、BLOG等。

8結束語

Web挖掘技術是一個新興的研究領域,對它的研究和應用正在成為一個熱點。伴隨著Internet的快速發(fā)展,Web挖掘技術的研究和發(fā)展將會迎來更好的契機。

參考文獻:

[1]EtzioniO.The World Wide Web:Quagmire or goldmine[J]. Communication of the ACM, 1996, 39(11).

[2]王玉珍.Web數(shù)據(jù)挖掘的分析與探索[J].計算機發(fā)展與應用,2003;(4).

[3]張藝雪.Web上的數(shù)據(jù)挖掘及應用[J].信息科技,2007;(3)115-116.

[4]Wang K , Zhou S, Liew S C. Building hierarchical classifiers using class proximity [C]. In: proc of VLDB’97, Edinburgh, UK, 1999:363-374.

第5篇:數(shù)據(jù)挖掘技術范文

【關鍵詞】數(shù)據(jù)倉庫 數(shù)據(jù)挖掘 技術 應用

信息時代背景下,傳統(tǒng)數(shù)據(jù)庫主要是面向事務并存儲在線交易的數(shù)據(jù)信息,但是無法為人們找到信息中隱藏的重要內容。因此社會發(fā)展新形勢下,數(shù)據(jù)倉庫與挖掘技術應運而生,并成為企業(yè)現(xiàn)代化發(fā)展的重要應用技術,不僅能夠提高數(shù)據(jù)信息管理能力,還能夠促進企業(yè)發(fā)展。因此加強對該課題的研究具有積極意義。

1 數(shù)據(jù)倉庫及數(shù)據(jù)挖掘技術概念

所謂數(shù)據(jù)倉庫技術設計靈感來自于傳統(tǒng)數(shù)據(jù)庫技術,其主要是在計算機中實現(xiàn)數(shù)據(jù)存儲的一種技術。但是相比較傳統(tǒng)數(shù)據(jù)庫,二者存在本質上的差別。數(shù)據(jù)倉庫的出現(xiàn)并未取代傳統(tǒng)數(shù)據(jù)庫,二者共存在信息時代,且發(fā)揮自身獨特的優(yōu)勢。數(shù)據(jù)庫主要存儲在線交易數(shù)據(jù),且盡量避免冗余,通常采取符合范式規(guī)則設計;而數(shù)據(jù)倉庫在設計過程中有意引入冗余,采取反范式方式實現(xiàn)設計目標。

而數(shù)據(jù)挖掘技術是在數(shù)據(jù)集合基礎之上,從中抽取隱藏在數(shù)據(jù)當中的有用信息的非平凡過程。這些信息表現(xiàn)形式呈現(xiàn)多樣化,如概念、規(guī)則等。它在具體應用過程中,不僅能夠幫助決策者分析歷史與當前數(shù)據(jù)信息,還具有預見作用。就本質上來看,數(shù)據(jù)挖掘過程也是知識發(fā)現(xiàn)的過程。數(shù)據(jù)挖掘技術是多個學科綜合的結果,對此其融合了多項技術功能,如聚類、分類及預測等,且這些功能并非獨立存在,而是存在相互依存關系。

2 數(shù)據(jù)倉庫與挖掘技術的應用

2.1 數(shù)據(jù)倉庫技術的應用

作為信息提供平臺,其從業(yè)務處理系統(tǒng)中獲得數(shù)據(jù),并以星型與雪花模型實現(xiàn)對數(shù)據(jù)的有效組織。一般情況下,它具體應用主要表現(xiàn)在四個方面:

2.1.1 抽取數(shù)據(jù)信息

數(shù)據(jù)倉庫具有獨立性,在應用中需要從事務處理系統(tǒng)、外部數(shù)據(jù)源等介質當中獲取數(shù)據(jù),并設置定時抽取,但需要合理控制操作時間、順序等,以提高數(shù)據(jù)信息有效性。

2.1.2 存儲和管理數(shù)據(jù)

作為數(shù)據(jù)倉庫的關鍵,數(shù)據(jù)存儲及管理模式直接決定其自身特性。因此該方面工作需要從技術特點入手,并積極解決對各項業(yè)務并行處理、查詢優(yōu)化等問題。

2.1.3 表現(xiàn)數(shù)據(jù)

數(shù)據(jù)表現(xiàn)作為數(shù)據(jù)倉庫的開端,集中在多位分析、數(shù)理統(tǒng)計等多個方面。其中多維分析是數(shù)據(jù)倉庫的核心,也是具體表現(xiàn)形式,而通過數(shù)據(jù)統(tǒng)計能夠幫助企業(yè)抓住機遇,實現(xiàn)經(jīng)濟效益最大化目標。

2.1.4 技術咨詢

數(shù)據(jù)倉庫的出現(xiàn)及應用并不簡單,其是一個系統(tǒng)性的解決方案和工程。實施數(shù)據(jù)倉庫時,技術咨詢服務十分重要,是一個必不可少的部分,對此在應用中,應加強對技術咨詢的關注力度。

2.2 數(shù)據(jù)挖掘技術在各領域中的應用

不同于傳統(tǒng)時代,社會各領域在參與激烈的市場競爭過程中,充分認識到數(shù)據(jù)對自身長遠發(fā)展戰(zhàn)略實現(xiàn)的重要性。因此數(shù)據(jù)挖掘技術在當前各行業(yè)發(fā)展中隨處可見。

2.2.1 應用于醫(yī)學方面,提高診斷準確率

眾所周知,人體奧秘無窮無盡,遺傳密碼、人類疾病等方面都蘊含了海量數(shù)據(jù)信息。而傳統(tǒng)研究模式,單純依靠人工無法真正探索真正的秘密。而利用數(shù)據(jù)挖掘技術能夠有效解決這些問題,給醫(yī)療工作者帶來了極大的便利。同時,醫(yī)療體制改革背景下,醫(yī)院內部醫(yī)療器具的管理、病人檔案資料整理等方面同樣涉及數(shù)據(jù),引進數(shù)據(jù)挖掘技術,能夠深入分析疾病之間的聯(lián)系及規(guī)律,幫助醫(yī)生診斷和治療,以達到診斷事半功倍的目標,且為保障人類健康等提供強大的技術支持。

2.2.2 應用于金融方面,提高工作有效性

銀行及金融機構中涉及儲蓄、信貸等大量數(shù)據(jù)信息。利用數(shù)據(jù)挖掘技術管理和應用這些數(shù)據(jù)信息,能夠幫助金融機構更好地適應互聯(lián)網(wǎng)金融時代的發(fā)展趨勢。提高金融數(shù)據(jù)完整、可靠性,為金融決策提供科學依據(jù)。金融市場變幻莫測,要想在競爭中提升自身核心競爭力,需要對數(shù)據(jù)進行多維分析和研究。在應用中,特別是針對偵破洗黑錢等犯罪活動,可以采取孤立點分析等工具進行分析,為相關工作有序開展奠定堅實的基礎。

2.2.3 應用于高校日常管理方面,實現(xiàn)高校信息化建設

當前,針對高校中存在的貧困大學生而言,受到自身家庭等因素的影響,他們學業(yè)與生活存在很多困難。而高校給予了貧困生很多幫助。對此將數(shù)據(jù)挖掘技術引入到貧困生管理工作中,能夠將校內貧困生群體作為主要研究對象,采集和存儲在校生生活、學習等多方面信息,然后構建貧困生認定模型,并將此作為基礎進行查詢和統(tǒng)計,為貧困生針對管理工作提供技術支持,從而提高高校學生管理實務效率,促進高校和諧、有序發(fā)展。

2.2.4 應用于電信方面,實現(xiàn)經(jīng)濟效益最大化目標

現(xiàn)代社會發(fā)展趨勢下,電信產(chǎn)業(yè)已經(jīng)不僅限于傳統(tǒng)意義上的電話服務提供商、而將語言、電話等有機整合成為一項數(shù)據(jù)通信綜合業(yè)務。電信網(wǎng)、因特網(wǎng)等網(wǎng)絡融合已經(jīng)成為必然趨勢,并將成為未來發(fā)展的主要方向。在大融合影響下,數(shù)據(jù)挖掘技術應用能夠幫助運營商業(yè)務運作,如利用多維分析電信數(shù)據(jù);或者采取聚類等方法查找異常狀態(tài)及盜用模式等,不斷提高數(shù)據(jù)資源利用率,更為深入地了解用戶行為,促進電信業(yè)務的推廣及應用,從而實現(xiàn)經(jīng)濟效益最大化目標。

3 結論

根據(jù)上文所述,數(shù)據(jù)倉庫與挖掘技術作為一項新型技術,在促進相關產(chǎn)業(yè)發(fā)展等方面占據(jù)十分重要的位置。因此在具體應用中,除了要積極明確數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫之間的差別之外,還應切實結合實際情況,積極引入數(shù)據(jù)挖掘技術,充分挖掘和探索數(shù)據(jù)信息中的重要內容,為制定科學決策提供支持,同時還應加大對技術的深度研究,不斷提高技術應用水平,從而為用戶帶來更大的利益。

參考文獻

[1]陳宏.淺談數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術及應用[J].科技廣場,2011,09:90-93.

[2]崔愿星.淺析數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的應用[J].內江科技,2014,01:141-142.

[3]王慧.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在醫(yī)院信息系統(tǒng)中的應用[J].電腦開發(fā)與應用,2014,01:76-78.

[4]靳鑫.淺析數(shù)據(jù)倉庫和數(shù)據(jù)挖掘[J].中國新通信,2012,11:29-31.

第6篇:數(shù)據(jù)挖掘技術范文

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關系和模式,進而預測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預測變量集的對數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。

2.關聯(lián)規(guī)則。關聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術之一。關聯(lián)規(guī)則在數(shù)據(jù)挖掘領域應用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關聯(lián)關系,但是,并不是所有通過關聯(lián)得到的屬性之間的關系都有實際應用價值,要對這些規(guī)則要進行有效的評價,篩選有意義的關聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關聯(lián)的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進行檢驗。

4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數(shù)的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡。神經(jīng)網(wǎng)絡建立在自學習的數(shù)學模型基礎之上,能夠對大量復雜的數(shù)據(jù)進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡既可以表現(xiàn)為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡模擬人腦神經(jīng)元結構,建立三大類多種神經(jīng)元網(wǎng)絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優(yōu)點。

6.遺傳算法。遺傳算法是一種受生物進化啟發(fā)的學習方法,通過變異和重組當前己知的最好假設來生成后續(xù)的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現(xiàn)各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎,解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準確數(shù)據(jù)或噪聲數(shù)據(jù)內在的結構聯(lián)系。

8.支持向量機。支持向量機(SVM)是在統(tǒng)計學習理論的基礎上發(fā)展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現(xiàn)已成為訓練多層感知器、RBF神經(jīng)網(wǎng)絡和多項式神經(jīng)元網(wǎng)絡的替代性方法。另外,支持向量機算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經(jīng)元網(wǎng)絡在內的其他算法所不能及的。支持向量機可以應用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。

事實上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結束語

目前,數(shù)據(jù)挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術的深人研究,數(shù)據(jù)挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。

參考文獻:

蘇新寧楊建林鄧三鴻等:數(shù)據(jù)挖掘理論與技術[M].北京:科學技術文獻出版社,2003

第7篇:數(shù)據(jù)挖掘技術范文

[關鍵詞] 數(shù)據(jù)挖掘 商業(yè)決策 數(shù)據(jù)分析

一、應用數(shù)據(jù)挖掘技術支撐商業(yè)管理理念的實施

商業(yè)管理理論及理念的研究一直沒有停歇,那面是“二八原則”,這面又是“藍平長二”,無論是什么,其宗旨都是為使企業(yè)能在激烈的商業(yè)競爭中審時度勢,迅速出擊,知己知彼,百戰(zhàn)不殆。任何好的商業(yè)決策都必須及時、準確,有真實可靠的事實與數(shù)據(jù)為依據(jù)。商業(yè)組織如果感覺不靈敏,很容易陷入“夜半臨深池”的危險境地卻不自知,有先進的管理理念也無濟于事。面對日益復雜的競爭環(huán)境,數(shù)據(jù)挖掘技術應運而生。

數(shù)據(jù)挖掘技術基于人工智能、機器學習、統(tǒng)計學等技術,可高度自動化地從深層次上分析商業(yè)組織在運營過程中積累的海量業(yè)務數(shù)據(jù),抽取重要信息,使商業(yè)組織大大提高認知其組織內外環(huán)境的能力,靈活應對突發(fā)事件,迅速制定合理決策,使先進的商業(yè)管理理念落到實處。

二、數(shù)據(jù)挖掘功能及其所能解決的典型商業(yè)問題

1.關聯(lián)分析

關聯(lián)分析是從大量的數(shù)據(jù)中發(fā)現(xiàn)項集之間相關關系或因果結構的數(shù)據(jù)分析方法。通過對大量銷售數(shù)據(jù)的分析,可以發(fā)現(xiàn)兩種或多種商品之間存在的關聯(lián)關系,據(jù)此可改變商品的擺放位置,制定捆綁銷售等策略。亞馬遜及當當?shù)荣徫锞W(wǎng)站在用戶選擇商品后及時給出的其他商品的推介就是利用關聯(lián)分析得到的。

2.分類與預測

分類與預測是通過對當前數(shù)據(jù)集合的描述以識別未知數(shù)據(jù)的歸屬或預測未來數(shù)據(jù)的發(fā)展趨勢。通過對大量銷售數(shù)據(jù)的分析,可以確定特定客戶的興趣、消費習慣、消費傾向和消費需求,進而推斷其下一步的消費行為,據(jù)此進行定向營銷和推送服務,必將大大節(jié)省營銷成本,獲得良好的營銷收益。

3.聚類分析

聚類就是按照事物的某些屬性把事物聚集成類。聚類之前類的數(shù)量及類的特征都是未知的。應用聚類技術能發(fā)現(xiàn)不同客戶群并刻畫出客戶群的特征,據(jù)此制定營銷策略和客戶服務策略,如超市根據(jù)客戶聚集地中心點制定班車路線,制定商品宣傳策略等。

4.孤立點分析

數(shù)據(jù)庫中包含的與其他數(shù)據(jù)行為或模型不一致的數(shù)據(jù)對象稱為孤立點,在數(shù)據(jù)庫中查找識別孤立點的技術即為孤立點分析。在銀行、電信等行業(yè)的業(yè)務數(shù)據(jù)中發(fā)現(xiàn)的孤立點可能預示著欺詐行為,盡早識別,可以為企業(yè)減少不必要的經(jīng)濟損失。另外可用于網(wǎng)絡的入侵檢測,生態(tài)系統(tǒng)的失調檢測,特殊病種檢測等。

5.時序演變分析

時序演變分析是建立事件或對象行為隨時間變化的規(guī)律或趨勢的模型。據(jù)此方法利用股市交易信息可分析股市的波動趨勢,利用商業(yè)交易信息可分析出產(chǎn)品的銷量變化趨勢、目標市場發(fā)展趨勢等,利用天氣狀況數(shù)據(jù)可分析天氣的變化趨勢等。

6.文本信息抽取

文本信息抽取是從非結構化的文本中提取重要信息的過程。利用該技術可獲取競爭情報,可從新聞等文本中動態(tài)抽取日期、地點和人物等信息,并借助關聯(lián)分析方法進一步識別出產(chǎn)品、企業(yè)、人、事件和地點之間的關系,使企業(yè)對競爭環(huán)境的感知更敏銳。

7.Web挖掘

Web挖掘是指從網(wǎng)絡環(huán)境中提取有價值信息的過程。如搜索引擎的應用;如分析網(wǎng)站的參觀者和購買者的高頻率瀏覽路徑,以確定用戶對某產(chǎn)品的需求,發(fā)現(xiàn)用戶的個人喜好,發(fā)現(xiàn)用戶的去留傾向……據(jù)此可改變網(wǎng)頁的設置,為用戶提供個性化服務,改變受歡迎產(chǎn)品的經(jīng)營和宣傳策略等。

三、數(shù)據(jù)挖掘流程及所面對的問題

數(shù)據(jù)挖掘流程可描述為“數(shù)據(jù)選擇數(shù)據(jù)預處理數(shù)據(jù)挖掘模式評估知識表示”。

數(shù)據(jù)挖掘首先根據(jù)分析目標從數(shù)據(jù)源中選取與業(yè)務相關的數(shù)據(jù)。數(shù)據(jù)源是存儲業(yè)務數(shù)據(jù)的數(shù)據(jù)庫或數(shù)據(jù)倉庫。選取的數(shù)據(jù)通常會存在不完整、含噪聲(錯誤數(shù)據(jù))、不一致等問題,需要預處理數(shù)據(jù)使數(shù)據(jù)適合于挖掘。在這一過程中元數(shù)據(jù)起了非常重要的作用。

數(shù)據(jù)挖掘之前必須選定數(shù)據(jù)挖掘模型,即先做出某種假定,關聯(lián)分析、聚類分析及分類與預測為不同的挖掘模型。分析商品銷售數(shù)據(jù)時假定其中某些商品具有相關性,則選擇關聯(lián)分析模型,若挖掘的結果找到了產(chǎn)品A的購買帶來產(chǎn)品B的購買則是具體的模式。最終需要評測這種模式是不是真實有效且對商業(yè)決策有指導意義(模型評估,利用興趣度度量加人的識別),保留有意義的模型,并用一種用戶容易理解的方式表達出來(知識表示)。

數(shù)據(jù)的選擇和預處理會直接影響數(shù)據(jù)挖掘的結果。另外任何一種挖掘模型和挖掘算法都不是萬能的,不同的商業(yè)問題需要用不同的方法去解決。對于特定的商業(yè)問題和特定數(shù)據(jù)可能有多種算法,需要評估以選取最佳算法。

四、總結

數(shù)據(jù)挖掘作為正在興起并得到廣泛應用的信息技術具有巨大的商業(yè)價值,特別是在銀行、電信、保險、交通、網(wǎng)上商城、超市等商業(yè)領域都有很好的表現(xiàn)。數(shù)據(jù)挖掘技術可以組織并深層次分析企業(yè)積累的海量業(yè)務數(shù)據(jù),預測客戶行為,預測產(chǎn)品狀況,預測市場走勢,幫助決策者正確判斷即將出現(xiàn)的機會,調整策略,減少風險。因此利用數(shù)據(jù)挖掘技術必將大大提高商業(yè)組織利用信息的能力,使得信息更好地為決策服務。

但數(shù)據(jù)挖掘不是萬能的,在實際應用中還要受到許多限制。有足夠的合適的數(shù)據(jù),選擇恰當?shù)哪P秃退惴?,有決策者的支持等都是有效應用數(shù)據(jù)挖掘技術的必要條件。

參考文獻:

[1]李佩鈺等:藍平長二 商業(yè)理論洛陽紙貴,biz.省略

[2]欒世武:數(shù)據(jù)挖掘給企業(yè)應用帶來什么,省略ki.省略

第8篇:數(shù)據(jù)挖掘技術范文

[關鍵詞]計算機;數(shù)據(jù);挖掘技術

中圖分類號:TP31 文獻標識碼:A 文章編號:1009-914X(2015)33-0244-01

計算機數(shù)據(jù)挖掘技術的產(chǎn)生是社會的一種進步,了解計算機數(shù)據(jù)挖掘對我們來說非常的重要,計算機數(shù)據(jù)挖掘技術對于龐大的數(shù)據(jù)有著整理分析的作用,這不僅僅對于企業(yè)的工作產(chǎn)生了巨大的作用,還對日常工作 生活等也提供重要的幫助。

1 計算機數(shù)據(jù)挖掘的概念及對象

1.1 計算機數(shù)據(jù)挖掘的概念

計算機數(shù)據(jù)挖掘是在社會的發(fā)展進入了網(wǎng)絡信息時代之后產(chǎn)生的網(wǎng)絡衍生產(chǎn)品,計算機數(shù)據(jù)挖掘主要是通過一定的手段對企業(yè)內部進行數(shù)據(jù)挖掘,然后通過一定的分析,對那些通過數(shù)據(jù)挖掘得到的數(shù)據(jù)進行整理,進而分析企業(yè)的市場以及企業(yè)的發(fā)展等等問題。計算機數(shù)據(jù)挖掘對處于網(wǎng)絡信息時代之中的企業(yè)來說非常重要,它是處于網(wǎng)絡信息時代之中的企業(yè)長遠發(fā)展的助推器,作為處于信息時代的企業(yè)要抓住這個促進自己發(fā)展的大好契機。

1.2 計算機數(shù)據(jù)挖掘的對象

計算機數(shù)據(jù)挖掘具有一定的針對性,計算機數(shù)據(jù)挖掘的對象(目標數(shù)據(jù))并不是所有的數(shù)據(jù),它是具有選擇性的,計算機數(shù)據(jù)挖掘的對象主要是指企業(yè)中能夠揭示一些未發(fā)現(xiàn)的隱藏信息和企業(yè)中比較有意義和研究價值的數(shù)據(jù),明確這一點非常的重要,計算機數(shù)據(jù)挖掘的對象的選擇性是影響計算機數(shù)據(jù)挖掘效率的主要因素,對于一個沒有充分認識計算機數(shù)據(jù)挖掘對象的選擇性的企業(yè)來說,它的計算機數(shù)據(jù)挖掘的效率會比成熟的計算機數(shù)據(jù)挖掘的企業(yè)或者是充分認識到計算機數(shù)據(jù)挖掘的對象的選擇性的企業(yè)要低得多。同時,明確目標數(shù)據(jù)的類型也非常重要,它直接決定了要使用的數(shù)據(jù)挖掘技術和方法,大體上數(shù)據(jù)類型分為三類:記錄數(shù)據(jù),給予圖形的數(shù)據(jù)和有序的數(shù)據(jù)。

2 計算機數(shù)據(jù)挖掘的任務及過程

2.1 計算機數(shù)據(jù)挖掘的任務

計算機數(shù)據(jù)挖掘主要是對海量的數(shù)據(jù)進行挖掘和分析,必須經(jīng)過計算機數(shù)據(jù)準備和計算機數(shù)據(jù)規(guī)律尋找的固定過程,在計算機數(shù)據(jù)挖掘的過程中,計算機數(shù)據(jù)準備和計算機數(shù)據(jù)規(guī)律的尋找一個都不能少,我們要做好計算機數(shù)據(jù)挖掘的每一步,計算機數(shù)據(jù)挖掘的任務主要有對計算機數(shù)據(jù)挖掘的結果與企業(yè)的市場現(xiàn)狀進行一個具體的聯(lián)系、對計算機數(shù)據(jù)挖掘的結果進行一定的分類,對計算機數(shù)據(jù)挖掘的結果進行一定的變異分析。在處理計算機數(shù)據(jù)挖掘的任務時,我們要完成計算機數(shù)據(jù)挖掘的每一個任務,首先,對計算機數(shù)據(jù)挖掘的結果與企業(yè)的市場現(xiàn)狀進行一個具體的聯(lián)系是計算機數(shù)據(jù)挖掘的根本任務,而對計算機數(shù)據(jù)挖掘的結果進行一定的分類是計算機數(shù)據(jù)挖掘的主要任務,最后對計算機數(shù)據(jù)挖掘的結果進行一定的變異分析是計算機數(shù)據(jù)挖掘的必要任務。

2.2 計算機數(shù)據(jù)挖掘的過程

計算機數(shù)據(jù)挖掘的過程具有一定的復雜性,計算機數(shù)據(jù)挖掘的基本過程:第一,對計算機數(shù)據(jù)的來源進行一定的分析。這一步非常的重要,一個完整的計算機數(shù)據(jù)挖掘的過程必須以這一步為基礎,只有對計算機數(shù)據(jù)的來源進行一定的分析,我們才能夠進行下一步的操作;第二,從計算機數(shù)據(jù)的來源的分析結果中獲取一定的信息,然后我們要對計算機數(shù)據(jù)的來源的分析結果進行研究,在研究的過程中,我們要查閱相關的專業(yè)知識和專業(yè)的研究數(shù)據(jù)挖掘的技術,只有具備了相關的專業(yè)知識和專業(yè)的研究數(shù)據(jù)挖掘的技術,我們才能夠更好地對計算機數(shù)據(jù)進行挖掘;第三,對計算機數(shù)據(jù)挖掘的信息進行一定的整合,檢查出不太合理的相關信息;第四,數(shù)據(jù)挖掘的實施。根據(jù)挖掘具體任務選擇相應的數(shù)據(jù)挖掘實施算法;第五,結果評估與整理。在完成實施階段后,要對數(shù)據(jù)挖掘結果進行評估和整理,完成整個數(shù)據(jù)挖掘的過程。

3 計算機數(shù)據(jù)挖掘的技術應用挑戰(zhàn)

計算機數(shù)據(jù)挖掘最大的應用領域就是商業(yè)領域,它能夠為商業(yè)機構提供欺詐偵查和客戶市場分類等數(shù)據(jù)。在這個高速發(fā)展的信息時代,網(wǎng)絡是商業(yè)發(fā)展的主要推動因素,我們要使計算機數(shù)據(jù)挖掘在商業(yè)上的應用領域更廣。

3.1 在金融企業(yè)的應用及重要作用

金融企業(yè)是具有一定風險的企業(yè),其重要的就是要對投資的風險做出評估,這樣,才能在我們金融企業(yè)進行投資時把風險降到最低。這時,金融企業(yè)就利用計算機數(shù)據(jù)挖掘技術對我們的投資項目進行評估預測。如:在企業(yè)收購股票時,就要根據(jù)這只股票歷史走向的數(shù)據(jù)做,從而做出評估,在做出較為精準的判斷和選擇。在金融業(yè)涉及到借貸款的問題時,企業(yè)要根據(jù)貸款對象日常的誠信做出調查,然后再進行數(shù)據(jù)的挖掘統(tǒng)計,從而判斷出貸款對象是屬于低風險還是高風險。由此可見,計算機數(shù)據(jù)挖掘技術對金融企業(yè)的投資、貸款有著重要的作用。

3.2 電子商務企業(yè)的應用

電子商務企業(yè)最注重的便是網(wǎng)站的瀏覽量和點擊率及與客戶的成交單子的數(shù)量。企業(yè)如何提高網(wǎng)站的瀏覽量和點擊率和用戶的交易數(shù)量就成了問題的核心。電子商務企業(yè)可以根據(jù)用戶在瀏覽網(wǎng)頁時的收藏物品的情況、購物車的情況、成交記錄的情況進行物品的推薦。這就需要應用技術數(shù)據(jù)挖掘技術對用戶的一系列情況做出數(shù)據(jù)的整合。通過數(shù)據(jù)的分析推薦的商品,及時客戶最終沒有購買,也會增加該物品的瀏覽量,這也使得我們電子商務的瀏覽量得到提升,從而增加企業(yè)在該行業(yè)的競爭力。

3.3 企業(yè)競爭的應用

社會經(jīng)濟在不斷的發(fā)展進步,隨著而來的相同企業(yè)的數(shù)量也在不斷的增加,如何在眾多相同的企業(yè)里脫穎而出是所有企業(yè)思考的問題。一個企業(yè)除了要具有自己的特色之外,還要充分了解對手的情況,這時,就需要我們的企業(yè)利用計算機數(shù)據(jù)挖掘技術對競爭企業(yè)進行系統(tǒng)的分析調差,這樣,才能做到充分了解對手。吸取競爭對手的長處,在看到企業(yè)的短處時,也要使自己的企業(yè)避免相似的問題出現(xiàn)。所以,計算機數(shù)據(jù)挖掘技術在企業(yè)相互競爭時起著不可忽視的重大作用。

3.4 計算機數(shù)據(jù)挖掘技術面臨的挑戰(zhàn)

數(shù)據(jù)挖掘技術面臨的最大挑戰(zhàn)就是隱私的保護和數(shù)據(jù)的安全性問題。當數(shù)據(jù)在不同的抽象級別視角去考察的時候,數(shù)據(jù)挖掘對隱私和數(shù)據(jù)安全就構成了威脅。它威脅到保持數(shù)據(jù)安全和防止干涉隱私的目標的實現(xiàn)。

4 結語

社會的科技在不斷的發(fā)展進步,而計算機數(shù)據(jù)挖掘技術在我們的社會生活中的不同領域都發(fā)揮著其最大的作用。計算機數(shù)據(jù)挖掘技術將會在各個領域得到廣泛的應用,并對人類的活動產(chǎn)生深遠的影響。

參考文獻

第9篇:數(shù)據(jù)挖掘技術范文

一、海量數(shù)據(jù)挖掘關鍵技術隨時代而變化

所謂海量數(shù)據(jù)挖掘,是指應用一定的算法,從海量的數(shù)據(jù)中發(fā)現(xiàn)有用的信息和知識。海量數(shù)據(jù)挖掘關鍵技術主要包括海量數(shù)據(jù)存儲、云計算、并行數(shù)據(jù)挖掘技術、面向數(shù)據(jù)挖掘的隱私保護技術和數(shù)據(jù)挖掘集成技術。

1.海量數(shù)據(jù)存儲

海量存儲系統(tǒng)的關鍵技術包括并行存儲體系架構、高性能對象存儲技術、并行I/O訪問技術、海量存儲系統(tǒng)高可用技術、嵌入式64位存儲操作系統(tǒng)、數(shù)據(jù)保護與安全體系、綠色存儲等。

海量數(shù)據(jù)存儲系統(tǒng)為云計算、物聯(lián)網(wǎng)等新一代高新技術產(chǎn)業(yè)提供核心的存儲基礎設施;為我國的一系列重大工程如平安工程等起到了核心支撐和保障作用;海量存儲系統(tǒng)已經(jīng)使用到石油、氣象、金融、電信等國家重要行業(yè)與部門。發(fā)展具有自主知識產(chǎn)權、達到國際先進水平的海量數(shù)據(jù)存儲系統(tǒng)不僅能夠填補國內在高端數(shù)據(jù)存儲系統(tǒng)領域的空白,而且可以滿足國內許多重大行業(yè)快速增長的海量數(shù)據(jù)存儲需要,并創(chuàng)造巨大的經(jīng)濟效益。

2.云計算

目前云計算的相關應用主要有云物聯(lián)、云安全、云存儲。云存儲是在云計算(cloud computing)概念上延伸和發(fā)展出來的新概念,是指通過集群應用、網(wǎng)格技術或分布式文件系統(tǒng)等功能,將網(wǎng)絡中大量各種不同類型的存儲設備通過應用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務訪問功能的一個系統(tǒng)。

當云計算系統(tǒng)運算和處理的核心是大量數(shù)據(jù)的存儲和管理時,云計算系統(tǒng)中就需要配置大量的存儲設備,那么云計算系統(tǒng)就轉變成為一個云存儲系統(tǒng),所以云存儲是一個以數(shù)據(jù)存儲和管理為核心的云計算系統(tǒng)。

3.并行數(shù)據(jù)挖掘技術

高效率的數(shù)據(jù)挖掘是人們所期望的,但當數(shù)據(jù)挖掘的對象是一個龐大的數(shù)據(jù)集或是許多廣泛分布的數(shù)據(jù)源時,效率就成為數(shù)據(jù)挖掘的瓶頸。隨著并行處理技術的快速發(fā)展,用并行處理的方法來提高數(shù)據(jù)挖掘效率的需求越來越大。

并行數(shù)據(jù)挖掘涉及到了一系列體系結構和算法方面的技術,如硬件平臺的選擇(共享內存的或者分布式的)、并行的策略(任務并行、數(shù)據(jù)并行或者任務并行與數(shù)據(jù)并行結合)、負載平衡的策略(靜態(tài)負載平衡或者動態(tài)負載平衡)、數(shù)據(jù)劃分的方式(橫向的或者縱向的)等。處理并行數(shù)據(jù)挖掘的策略主要涉及三種算法:并行關聯(lián)規(guī)則挖掘算法、并行聚類算法和并行分類算法。

4.面向數(shù)據(jù)挖掘的隱私保護技術

數(shù)據(jù)挖掘在產(chǎn)生財富的同時也隨之出現(xiàn)了隱私泄露的問題。如何在防止隱私泄露的前提下進行數(shù)據(jù)挖掘,是信息化時代各行業(yè)現(xiàn)實迫切的需求。

基于隱私保護的數(shù)據(jù)挖掘是指采用數(shù)據(jù)擾亂、數(shù)據(jù)重構、密碼學等技術手段,能夠在保證足夠精度和準確度的前提下,使數(shù)據(jù)挖掘者在不觸及實際隱私數(shù)據(jù)的同時,仍能進行有效的挖掘工作。

受數(shù)據(jù)挖掘技術多樣性的影響,隱私保護的數(shù)據(jù)挖掘方法呈現(xiàn)多樣性。基于隱私保護的數(shù)據(jù)挖掘技術可從4個層面進行分類:從數(shù)據(jù)的分布情況,可以分為原始數(shù)據(jù)集中式和分布式兩大類隱私保護技術;從原始數(shù)據(jù)的隱藏情況,可以分為對原始數(shù)據(jù)進行擾動、替換和匿名隱藏等隱私保護技術;從數(shù)據(jù)挖掘技術層面,可以分為針對分類挖掘、聚類挖掘、關聯(lián)規(guī)則挖掘等隱私保護技術;從隱藏內容層面,可以分為原始數(shù)據(jù)隱藏、模式隱藏。

5.數(shù)據(jù)挖掘集成技術

數(shù)據(jù)挖掘體系框架由三部分組成:數(shù)據(jù)準備體系、建模與挖掘體系、結果解釋與評價體系。其中最為核心的部分是建模與挖掘體系,它主要是根據(jù)挖掘主題和目標,通過挖掘算法和相關技術(如統(tǒng)計學、人工智能、數(shù)據(jù)庫、相關軟件技術等),對數(shù)據(jù)進行分析,挖掘出數(shù)據(jù)之間內在的聯(lián)系和潛在的規(guī)律。大體上,數(shù)據(jù)挖掘應用集成可分為幾類:數(shù)據(jù)挖掘算法的集成、數(shù)據(jù)挖掘與數(shù)據(jù)庫的集成、數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的集成、數(shù)據(jù)挖掘與相關軟件技術的集成、數(shù)據(jù)挖掘與人工智能技術的集成等。

二、海量數(shù)據(jù)挖掘應用廣泛但深度不足

2011年中國數(shù)據(jù)挖掘軟件市場規(guī)模達接近2億元,2012-2014年還將快速增長。從數(shù)據(jù)挖掘應用行業(yè)上看,國內大多數(shù)的用戶都來自電信、銀行、保險、稅務、政府等領域。應用主題主要包含:消費者行為分析、信用評分與風險管理、欺詐行為偵測、購物籃分析等方面。目前,國內數(shù)據(jù)挖掘應用仍停留在初級階段,行業(yè)企業(yè)大規(guī)模的運用數(shù)據(jù)挖掘技術尚需時日。

1.國內數(shù)據(jù)挖掘應用可分為3個層次

從數(shù)據(jù)挖掘應用層次上看,大體可以分為三個層次:第一層次是把挖掘工具當作單獨的工具來用,不用專門建設系統(tǒng);第二層次則是把數(shù)據(jù)挖掘模塊嵌入到系統(tǒng)中,成為部門級應用;第三層次是企業(yè)級應用,相當于把挖掘系統(tǒng)作為整個企業(yè)運營的中央處理器。目前,國內的數(shù)據(jù)挖掘應用的企業(yè)基本處于第一層次,偶爾某些企業(yè)用戶能夠做到第二層次。

2.國內有代表性的數(shù)據(jù)挖掘行業(yè)應用情況簡評

(1)通信業(yè):國內應用數(shù)據(jù)挖掘的企業(yè)還是以通信企業(yè)(移動、聯(lián)通、電信)為首,應用的深度和廣度都處于領先地位。

(2)互聯(lián)網(wǎng)企業(yè):隨著電子商務的普及,各大商務網(wǎng)站已經(jīng)大規(guī)模使用數(shù)據(jù)挖掘技術,并且迅速從中取得商業(yè)價值。例如,國內很多網(wǎng)上商城已經(jīng)開始使用數(shù)據(jù)挖掘技術進行客戶聚類或者商品關聯(lián)推廣。另外,搜索引擎企業(yè)使用數(shù)據(jù)挖掘技術的需求也非常迫切。

(3)政府部門:我國政府部門中使用數(shù)據(jù)挖掘技術比較領先的是稅務系統(tǒng)。數(shù)據(jù)挖掘在電子政務中的應用,更多的涉及到報表填制、數(shù)據(jù)統(tǒng)計。

(4)國內金融行業(yè):操作型數(shù)據(jù)挖掘應用在國內金融行業(yè)應用廣泛,尤其是信貸評審領域。中小型銀行數(shù)據(jù)挖掘需求將是未來金融行業(yè)數(shù)據(jù)挖掘市場的主要增長點。未來5年時間里,數(shù)據(jù)挖掘應用在金融行業(yè)仍將高速發(fā)展。