- 相關推薦
數(shù)據(jù)挖掘讀書筆記
導語:數(shù)據(jù)挖掘(Data Mining)是一項較新的數(shù)據(jù)庫技術,它基于由日常積累的大量數(shù)據(jù)所構成的數(shù)據(jù)庫,從中發(fā)現(xiàn)潛在的、有價值的信息——稱為知識,用于支持決策。以下小編為大家介紹數(shù)據(jù)挖掘讀書筆記文章,歡迎大家閱讀參考!
1、數(shù)據(jù)挖掘要解決的問題
可伸縮(算法在處理各種規(guī)模的數(shù)據(jù)時都有很好的性能。隨著數(shù)據(jù)的增大,效率不會下降很快。)
高維性(簡單的說就是多維數(shù)據(jù)的意思。平時我們經(jīng)常接觸的是一維數(shù)據(jù)或者可以寫成表形式的二維數(shù)據(jù),高維數(shù)據(jù)也可以類推,不過維數(shù)較高的時候,直觀表示很難。)
異種數(shù)據(jù)和復雜數(shù)據(jù)
數(shù)據(jù)的所有權與分布(分布式數(shù)據(jù)挖掘:應付分布式海量數(shù)據(jù)的現(xiàn)代方法)
非傳統(tǒng)的分析(傳統(tǒng)方法:基于一種假設-檢驗模式;數(shù)據(jù)挖掘分析-時機性樣本,而不是隨機樣本)
2、數(shù)據(jù)挖掘任務
1)預測任務(目標變量/因變量:被預測的屬性;說明變量/自變量:用來做預測的屬性)
2)描述任務
A預測建模:分類-預測離散的目標變量和回歸-預測連續(xù)的目標變量
B關聯(lián)分析
C聚類分析
D異常檢測(識別其特征顯著不同于其他數(shù)據(jù)的觀測值。這樣的觀測值稱為異常點或離群點)
3、屬性的四種類型
1)標稱
2)序數(shù)
3)區(qū)間
4)比率
。ú紶栕兞浚築oolean Variable (布爾型變量) 是有兩種邏輯狀態(tài)的變量,它包含兩個值:真和假。如果在表達式中使用了布爾型變量,那么將根據(jù)變量值的真假而賦予整型值1或0。)
數(shù)據(jù)挖掘讀書筆記2
1. 確定業(yè)務對象
清晰地定義出業(yè)務問題,認清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步.挖掘的最后結構是不可預測的,但要探索的問題應是有預見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會成功的.
2. 數(shù)據(jù)準備
1)數(shù)據(jù)清理
消除噪聲或不一致數(shù)據(jù)。
2)數(shù)據(jù)集成
多種數(shù)據(jù)源可以組合在一起
3)數(shù)據(jù)選擇
搜索所有與業(yè)務對象有關的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應用的數(shù)據(jù).
4)數(shù)據(jù)變換
將數(shù)據(jù)轉換成一個分析模型.這個分析模型是針對挖掘算法建立的.建立一個真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關鍵.
3. 數(shù)據(jù)挖掘
對所得到的經(jīng)過轉換的數(shù)據(jù)進行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完成.
4. 結果分析
解釋并評估結果.其使用的分析方法一般應作數(shù)據(jù)挖掘操作而定,通常會用到可視化技術.
5. 知識的同化
將分析所得到的知識集成到業(yè)務信息系統(tǒng)的組織結構中去.
3、 數(shù)據(jù)挖掘熱點
8.1電子商務網(wǎng)站的數(shù)據(jù)挖掘
在對網(wǎng)站進行數(shù)據(jù)挖掘時,所需要的數(shù)據(jù)主要來自于兩個方面:一方面是客戶的背景信息,此部分信息主要來自于客戶的登記表;而另外一部分數(shù)據(jù)主要來自瀏覽者的點擊流,此部分數(shù)據(jù)主要用于考察客戶的行為表現(xiàn)。但有的時候,客戶對自己的背景信息十分珍重,不肯把這部分信息填寫在登記表上,這就會給數(shù)據(jù)分析和挖掘帶來不便。在這種情況之下,就不得不從瀏覽者的表現(xiàn)數(shù)據(jù)中來推測客戶的背景信息,進而再加以利用。就分析和建立模型的技術和算法而言,網(wǎng)站的數(shù)據(jù)挖掘和原來的數(shù)據(jù)挖掘差別并不是特別大,很多方法和分析思想都可以運用。所不同的是網(wǎng)站的數(shù)據(jù)格式有很大一部分來自于點擊流,和傳統(tǒng)的數(shù)據(jù)庫格式有區(qū)別。因而對電子商務網(wǎng)站進行數(shù)據(jù)挖掘所做的主要工作是數(shù)據(jù)準備。
8.2生物基因的數(shù)據(jù)挖掘
生物基因數(shù)據(jù)挖掘則完全屬于另外一個領域,在商業(yè)上很難講有多大的價值,但對于人類卻受益非淺。例如,基因的組合千變?nèi)f化,得某種病的'人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正;?這都需要數(shù)據(jù)挖掘技術的支持。對于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無論在數(shù)據(jù)的復雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,都要復雜得多。從分析算法上講,更需要一些新的和好的算法。現(xiàn)在還遠沒有達到成熟的地步。
8.3文本的數(shù)據(jù)挖掘
在現(xiàn)實世界中,可獲取的大部分信息是存儲在文本數(shù)據(jù)庫中的,由來自各種數(shù)據(jù)源的大量文檔組成。由于電子形式的信息量的飛速增長,文本數(shù)據(jù)庫得到飛速的發(fā)展。文檔數(shù)據(jù)庫中存儲最多的數(shù)據(jù)是所謂的半結構化數(shù)據(jù)(semistructure data),它既不是完全無結構的,也不是完全結構化的。在最近數(shù)據(jù)庫領域研究中已由大量有關半結構化數(shù)據(jù)的建模和實現(xiàn)方面的研究。而且,信息檢索技術已經(jīng)被用來處理費結構化文檔。傳統(tǒng)的信息檢索已經(jīng)不適應日益增長的大量文本數(shù)據(jù)處理的需要。因此,文檔挖掘就成為數(shù)據(jù)挖掘中一個日益流行而重要的流行課題。
8.4Web數(shù)據(jù)挖掘
Web上有海量的數(shù)據(jù)信息,怎樣對這些數(shù)據(jù)進行復雜的應用成了現(xiàn)今數(shù)據(jù)庫技術的研究熱點。數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容,解決數(shù)據(jù)的應用質(zhì)量問題。充分利用有用的數(shù)據(jù),廢棄虛偽無用的數(shù)據(jù),是數(shù)據(jù)挖掘技術的最重要的應用。顯然,面向Web的數(shù)據(jù)挖掘比面向單個數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復雜得多。因為它面臨如下諸多挑戰(zhàn):
1、 對于有效的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘而言,Web的存儲量實在是太龐大了。
2、 Web頁面的復雜性遠比任何傳統(tǒng)的文本文檔復雜得多。
3、 Web是一個動態(tài)性極強得信息源。
4、 Web面對的是一個廣泛形形色色的用戶群體。
5、 Web上的信息只有很小的一部分是相關的或有用的。
一般的,Web數(shù)據(jù)挖掘可分為三類:Web內(nèi)容挖掘(Web content mining),Web結構挖掘(Web structure mining),Web使用紀律挖掘(Web usage mining)。
面向Web的數(shù)據(jù)挖掘是一項復雜的技術,由于上述種種挑戰(zhàn)的存在,因而面向Web的數(shù)據(jù)挖掘成了一個難以解決的問題。而XML的出現(xiàn)為解決Web數(shù)據(jù)挖掘的難題帶來了機會。由于XML能夠使不同來源的結構化的數(shù)據(jù)很容易地結合在一起,因而使搜索多樣的不兼容的數(shù)據(jù)庫能夠成為可能,從而為解決Web數(shù)據(jù)挖掘難題帶來了希望。XML的擴展性和靈活性允許XML描述不同種類應用軟件中的數(shù)據(jù),從而能描述搜集的Web頁中的數(shù)據(jù)記錄。同時,由于基于XML的數(shù)據(jù)是自我描述的,數(shù)據(jù)不需要有內(nèi)部描述就能被交換和處理。作為表示結構化數(shù)據(jù)的一個工業(yè)標準,XML為組織、軟件開發(fā)者、Web站點和終端使用者提供了許多有利條件。相信在以后,隨著XML作為在Web上交換數(shù)據(jù)的一種標準方式的出現(xiàn),面向Web的數(shù)據(jù)挖掘?qū)兊梅浅]p松。
4、 數(shù)據(jù)挖掘的未來
當前,DMKD研究方興未艾,其研究與開發(fā)的總體水平相當于數(shù)據(jù)庫技術在70年代所處的地位,迫切需要類似于關系模式、DBMS系統(tǒng)和SQL查詢語言等理論和方法的指導,才能使DMKD的應用得以普遍推廣。DMKD的研究還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:
發(fā)現(xiàn)語言的形式化描述,即研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會像SQL語言一樣走向形式化和標準化。
尋求數(shù)據(jù)挖掘過程中的可視化方法,使知識發(fā)現(xiàn)的過程能夠被用戶理解,也便于在知識發(fā)現(xiàn)的過程中進行人機交互。
研究在網(wǎng)絡環(huán)境下的數(shù)據(jù)挖掘技術(WebMining),特別是在因特網(wǎng)上建立DMKD服務器,并且與數(shù)據(jù)庫服務器配合,實現(xiàn)WebMining。
加強對各種非結構化數(shù)據(jù)的開采(DataMining for Audio & Video),如對文本數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開采。
交互式發(fā)現(xiàn)。
知識的維護更新。
但是,不管怎樣,需求牽引與市場推動是永恒的,DMKD將首先滿足信息時代用戶的急需,大量的基于DMKD的決策支持軟件產(chǎn)品將會問世。只有從數(shù)據(jù)中有效地提取信息,從信息中及時地發(fā)現(xiàn)知識,才能為人類的思維決策和戰(zhàn)略發(fā)展服務。也只有到那時,數(shù)據(jù)才能夠真正成為與物質(zhì)、能源相媲美的資源,信息時代才會真正到來。