閱讀屋>讀書筆記> 資料探勘讀書筆記

資料探勘讀書筆記

資料探勘讀書筆記

  導語:資料探勘(Data Mining)是一項較新的資料庫技術,它基於由日常積累的大量資料所構成的資料庫,從中發現潛在的、有價值的資訊——稱為知識,用於支援決策。以下小編為大家介紹資料探勘讀書筆記文章,歡迎大家閱讀參考!

  資料探勘讀書筆記1

  1、資料探勘要解決的問題

  可伸縮(演算法在處理各種規模的資料時都有很好的效能。隨著資料的增大,效率不會下降很快。)

  高維性(簡單的說就是多維資料的意思。平時我們經常接觸的是一維資料或者可以寫成表形式的二維資料,高維資料也可以類推,不過維數較高的時候,直觀表示很難。)

  異種資料和複雜資料

  資料的所有權與分佈(分散式資料探勘:應付分散式海量資料的現代方法)

  非傳統的分析(傳統方法:基於一種假設-檢驗模式;資料探勘分析-時機性樣本,而不是隨機樣本)

  2、資料探勘任務

  1)預測任務(目標變數/因變數:被預測的屬性;說明變數/自變數:用來做預測的屬性)

  2)描述任務

  A預測建模:分類-預測離散的目標變數和迴歸-預測連續的目標變數

  B關聯分析

  C聚類分析

  D異常檢測(識別其特徵顯著不同於其他資料的觀測值。這樣的觀測值稱為異常點或離群點)

  3、屬性的四種類型

  1)標稱

  2)序數

  3)區間

  4)比率

  (布林變數:Boolean Variable (布林型變數) 是有兩種邏輯狀態的變數,它包含兩個值:真和假。如果在表示式中使用了布林型變數,那麼將根據變數值的真假而賦予整型值1或0。)

  資料探勘讀書筆記2

  1. 確定業務物件

  清晰地定義出業務問題,認清資料探勘的目的是資料探勘的重要一步.挖掘的最後結構是不可預測的,但要探索的問題應是有預見的,為了資料探勘而資料探勘則帶有盲目性,是不會成功的.

  2. 資料準備

  1)資料清理

  消除噪聲或不一致資料。

  2)資料整合

  多種資料來源可以組合在一起

  3)資料選擇

  搜尋所有與業務物件有關的內部和外部資料資訊,並從中選擇出適用於資料探勘應用的資料.

  4)資料變換

  將資料轉換成一個分析模型.這個分析模型是針對挖掘演算法建立的.建立一個真正適合挖掘演算法的分析模型是資料探勘成功的關鍵.

  3. 資料探勘

  對所得到的經過轉換的資料進行挖掘.除了完善從選擇合適的挖掘演算法外,其餘一切工作都能自動地完成.

  4. 結果分析

  解釋並評估結果.其使用的分析方法一般應作資料探勘操作而定,通常會用到視覺化技術.

  5. 知識的同化

  將分析所得到的知識整合到業務資訊系統的組織結構中去.

  3、 資料探勘熱點

  8.1電子商務網站的.資料探勘

  在對網站進行資料探勘時,所需要的資料主要來自於兩個方面:一方面是客戶的背景資訊,此部分資訊主要來自於客戶的登記表;而另外一部分資料主要來自瀏覽者的點選流,此部分資料主要用於考察客戶的行為表現。但有的時候,客戶對自己的背景資訊十分珍重,不肯把這部分資訊填寫在登記表上,這就會給資料分析和挖掘帶來不便。在這種情況之下,就不得不從瀏覽者的表現資料中來推測客戶的背景資訊,進而再加以利用。就分析和建立模型的技術和演算法而言,網站的資料探勘和原來的資料探勘差別並不是特別大,很多方法和分析思想都可以運用。所不同的是網站的資料格式有很大一部分來自於點選流,和傳統的資料庫格式有區別。因而對電子商務網站進行資料探勘所做的主要工作是資料準備。

  8.2生物基因的資料探勘

  生物基因資料探勘則完全屬於另外一個領域,在商業上很難講有多大的價值,但對於人類卻受益非淺。例如,基因的組合千變萬化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正常基因?這都需要資料探勘技術的支援。對於生物資訊或基因的資料探勘和通常的資料探勘相比,無論在資料的複雜程度、資料量還有分析和建立模型的演算法而言,都要複雜得多。從分析演算法上講,更需要一些新的和好的演算法。現在還遠沒有達到成熟的地步。

  8.3文字的資料探勘

  在現實世界中,可獲取的大部分資訊是儲存在文字資料庫中的,由來自各種資料來源的大量文件組成。由於電子形式的資訊量的飛速增長,文字資料庫得到飛速的發展。文件資料庫中儲存最多的資料是所謂的半結構化資料(semistructure data),它既不是完全無結構的,也不是完全結構化的。在最近資料庫領域研究中已由大量有關半結構化資料的建模和實現方面的研究。而且,資訊檢索技術已經被用來處理費結構化文件。傳統的資訊檢索已經不適應日益增長的大量文字資料處理的需要。因此,文件挖掘就成為資料探勘中一個日益流行而重要的流行課題。

  8.4Web資料探勘

  Web上有海量的資料資訊,怎樣對這些資料進行復雜的應用成了現今資料庫技術的研究熱點。資料探勘就是從大量的資料中發現隱含的規律性的內容,解決資料的應用質量問題。充分利用有用的資料,廢棄虛偽無用的資料,是資料探勘技術的最重要的應用。顯然,面向Web的資料探勘比面向單個數據倉庫的資料探勘要複雜得多。因為它面臨如下諸多挑戰:

  1、 對於有效的資料倉庫和資料探勘而言,Web的儲存量實在是太龐大了。

  2、 Web頁面的複雜性遠比任何傳統的文字文件複雜得多。

  3、 Web是一個動態性極強得資訊源。

  4、 Web面對的是一個廣泛形形色色的使用者群體。

  5、 Web上的資訊只有很小的一部分是相關的或有用的。

  一般的,Web資料探勘可分為三類:Web內容挖掘(Web content mining),Web結構挖掘(Web structure mining),Web使用紀律挖掘(Web usage mining)。

  面向Web的資料探勘是一項複雜的技術,由於上述種種挑戰的存在,因而面向Web的資料探勘成了一個難以解決的問題。而XML的出現為解決Web資料探勘的難題帶來了機會。由於XML能夠使不同來源的結構化的資料很容易地結合在一起,因而使搜尋多樣的不相容的資料庫能夠成為可能,從而為解決Web資料探勘難題帶來了希望。XML的擴充套件性和靈活性允許XML描述不同種類應用軟體中的資料,從而能描述蒐集的Web頁中的資料記錄。同時,由於基於XML的資料是自我描述的,資料不需要有內部描述就能被交換和處理。作為表示結構化資料的一個工業標準,XML為組織、軟體開發者、Web站點和終端使用者提供了許多有利條件。相信在以後,隨著XML作為在Web上交換資料的一種標準方式的出現,面向Web的資料探勘將會變得非常輕鬆。

  4、 資料探勘的未來

  當前,DMKD研究方興未艾,其研究與開發的總體水平相當於資料庫技術在70年代所處的地位,迫切需要類似於關係模式、DBMS系統和SQL查詢語言等理論和方法的指導,才能使DMKD的應用得以普遍推廣。DMKD的研究還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:

  發現語言的形式化描述,即研究專門用於知識發現的資料探勘語言,也許會像SQL語言一樣走向形式化和標準化。

  尋求資料探勘過程中的視覺化方法,使知識發現的過程能夠被使用者理解,也便於在知識發現的過程中進行人機互動。

  研究在網路環境下的資料探勘技術(WebMining),特別是在因特網上建立DMKD伺服器,並且與資料庫伺服器配合,實現WebMining。

  加強對各種非結構化資料的開採(DataMining for Audio & Video),如對文字資料、圖形資料、影片影象資料、聲音資料乃至綜合多媒體資料的開採。

  互動式發現。

  知識的維護更新。

  但是,不管怎樣,需求牽引與市場推動是永恆的,DMKD將首先滿足資訊時代使用者的急需,大量的基於DMKD的決策支援軟體產品將會問世。只有從資料中有效地提取資訊,從資訊中及時地發現知識,才能為人類的思維決策和戰略發展服務。也只有到那時,資料才能夠真正成為與物質、能源相媲美的資源,資訊時代才會真正到來。

【資料探勘讀書筆記】相關文章: