閱讀屋>行業> 論資料探勘技術在電力行業中的應用論文

論資料探勘技術在電力行業中的應用論文

　　引言資料探勘是指從資料集合中自動抽取隱藏在資料中的那些有用資訊的非平凡過程,這些資訊的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史資料及當前資料,並從中發現隱藏的關係和模式,進而預測未來可能發生的行為。資料探勘的過程也叫知識發現的過程。

　　一、資料探勘技術資料探勘就是指

　　從資料庫中發現知識的過程。包括儲存和處理資料,選擇處理大量資料集的演算法、解釋結果、使結果視覺化。整個過程中支援人機互動的模式。資料探勘從許多交叉學科中得到發展,並有很好的前景。這些學科包括資料庫技術、機器學習、人工智慧、模式識別、統計學、模糊推理、專家系統、資料視覺化、空間資料分析和高效能計算等。資料探勘綜合以上領域的理論、演算法和方法,已成功應用在超市、金融、銀行、生產企業和電信,並有很好的表現。

　　二、資料探勘的過程

　　挖掘資料過程可以分為3個步驟:資料預處理、模式發現、模式分析。

　　(1)資料預處理。實際系統中的資料一般都具有不完全性、冗餘性和模糊性。因此,資料探勘一般不對原始資料進行挖掘,要透過預處理提供準確、簡潔的資料。預處理主要完成以下工作:包括合併資料,將多個檔案或多個數據庫中的資料進行合併處理;選擇資料,提取出適合分析的資料集合;資料清洗、過濾,剔除一些無關記錄,將檔案、圖形、影象及多媒體等檔案轉換成可便於資料探勘的格式等。

　　(2)模式發現。模式發現階段就是利用挖掘演算法挖掘出有效的、新穎的、潛在的、有用的以及最終可以理解的資訊和知識。可用於Web的挖掘技術有路徑選擇、關聯分析、分類規則、聚類分析、序列分析、依賴性建模等等。

　　(3)模式分析。模式分析是從模式發現階段獲得的模式、規則中過濾掉不感興趣的規則和模式。透過技術手段,對得到的模式進行資料分析,得出有意義的結論。常用的技術手段有:關聯規則、分類、聚類、序列模式等。

　　三、資料探勘在電力系統負荷預測中的應用

　　電力負荷預測是能量管理系統及配電管理系統的重要組成部分,是電力系統規劃和執行排程的依據,也是電力市場化商業運營所必需的基本內容。負荷預測工作的關鍵在於收集大量的歷史資料,建立科學有效的預測模型,採用有效的演算法,以歷史資料為基礎,進行大量試驗性研究,總結經驗,不斷修正模型和演算法,以真正反映負荷變化規律。其過程為:

　　(1) 調查和選擇歷史負荷資料資料

　　多方面調查收集資料,包括電力企業內部資料和外部資料,從眾多的資料中挑選出有用的一小部分,即把資料濃縮到最小量。挑選資料時的標準要直接、可靠並且是最新的資料。如果資料的收集和選擇得不好,會直接影響負荷預測的質量。透過建立計算機資料管理系統,利用計算機軟體系統來自動管理資料。

　　(2) 負載資料預處理

　　經過初步整理,還用於資料分析的預處理,平滑異常值的歷史資料和缺失資料的異常資料主要是水平的,垂直的方法附錄。正在分析資料之前和之後的兩個時間的負載資料作為基準,來設定要處理的資料時,要處理的資料的範圍中最大的變化的資料的處理的水平超過該範圍時,它被認為是壞的資料,使用平均法平滑變化;垂直負載資料預處理中的資料處理的考慮其24小時的小迴圈,即,相同的時間的日期不同的負載應具有相似的,同時負載值應保持在一定範圍內,校正外的範圍內的資料進行處理,在最近幾天的壞資料,力矩載荷的意思。

　　(3) 歷史資料的整理

　　一般來說,由於預測的質量不會超過所用資料的質量,所以要對所收集的與負荷有關的統計資料進行稽核和必要的加工整理,來保證資料的質量,從而為保證預測質量打下基礎,即要注意資料的完整無缺,數字準確無誤,反映的都是正常狀態下的水平,資料中沒有異常的“分離項”,還要注意資料的補缺,並對不可靠的資料加以核實調整。透過建立資料完整性、一致性約束模型,來建立海量資料集為後面的資料探勘做好充分的'準備。

　　(4) 建立負荷預測模型

　　負荷預測模型是統計資料軌跡的概括,預測模型是多種多樣的,因此,對於具體資料要選擇恰當的預測模型,這是負荷預測過程中至關重要的一步。當由於模型選擇不當而造成預測誤差過大時,就需要改換模型,必要時,還可同時採用幾種數學模型進行運算,以便對比、選擇。

　　(5) 選擇演算法

　　選擇聚類法又稱聚類分析法,它是對一組負荷影響因素資料進行聚類的方法,聚類後的資料即構成了一組分類。聚類的標準是以資料的表象(即資料屬性值)為依據的,聚類的工具是將一組資料按表象而將相近的歸併成類,最終形成若干個類,在類內資料具有表象的相似性,而類間的資料具有表象的相異性。聚類的演算法也有很多,有遺傳演算法,劃分法,層次法,基於密度方法,基於網格方法等。四、CURE演算法在負荷預測中的應用 CURE演算法是一種分層聚類演算法。典型的資料點來表示一個具有固定數目的聚類。的CURE演算法需要作為引數輸入的群集數?。由於CURE聚類的代表點的某些有代表性的,可以發現具有任何尺寸和形狀的聚類。同時,在一個叢集代表點的選擇方式的中心“縮水”排除“噪音”。

　　歷史上第一個資料庫負荷預測,資料提取樣品。的資料樣本聚類,可以分為兩種方法:一個是所有樣本資料進行聚類,這個方法會使主記憶體容量是遠遠不夠的,系統無法掃描一次完成。我們使用所有的樣本資料被分成多個區域,每個區域的資料進行聚類,使每個分割槽可以品嚐到所有的資料載入到主記憶體。然後,針對每個分割槽,使用分層演算法的聚類。

　　電力系統的應用SCADA系統中的資料測量、記錄、轉換、傳輸、收集資料,並可能導致故障和負載資料丟失或異常。異常資料的生成是隨機的,因此,在資料庫中的不確定性的分佈,不同型別的異常資料出現單獨或在一個特定的時刻,或交叉混合發生在同一天連續,或在相同的連續天期的橫分佈,以及許多其他場合。異常資料的處理的關鍵影響的預測結果的準確性。使用兩種不同的技術,以刪除異常。第一種技術是要刪除的叢集增長緩慢。當簇的數量低於某一閾值,將只包含一個或兩個叢集成員的刪除,第二種方法是在叢集的最後階段,非常小的叢集中刪除。

　　最後對樣本中的全部資料進行聚類,為了保證可以在記憶體中處理,輸入只包括各個分割槽獨自聚類時發現的簇的代表性點。使用c個點代表每個簇,對磁碟上的整個資料庫進行聚類。資料庫中的資料項被分配到與最近的代表性點表示的簇中。代表性點的集合必須足夠小以適應主存的大小。

　　結束語

　　資料探勘技術雖然得到了一定程度的應用,並取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對資料探勘技術的深人研究,資料探勘技術必將更加成熟,並取得更加顯著的效果。

【論資料探勘技術在電力行業中的應用論文】相關文章：