任務6.3構建並評價分類模型,簡要敘述兩種模型評估方法

本文目錄一覽:

評價指標體系的構建

6.3.1 評價指標構建方法

6.3.1.1 代表性評價指標構建方法

目前,國際上對於土地生態評價研究,具有代表性的成果有2個,即壓力-狀態-響應評價體系和土地條件變化評價指標體系。

(1)壓力-狀態-響應(PSR)評價體系「壓力-狀態-響應」(Pressure-State-Response,PSR)評價體系是世界銀行、聯合國糧農組織、聯合國發展署、聯合國環境署在1996年聯合開展的土地質量指標研究項目中所提出的研究成果。該評價體系主要目的是回答發生了什麼、為了什麼、我們如何做這3個問題。其中,壓力指標用以表明那些造成妨礙持續發展的人類活動和消費模式或經濟系統的一些因素;狀態指標用以反映持續發展過程中各系統的狀態;響應指標用以表明人類為促進持續發展進程所採取的對策。這種方法適合於選取生態環境方面的指標,而對於社會經濟方面的指標不太適合。PSR評價指標體系主要提供的是一種評價思路,它強調在分析應用過程中,必須把壓力指標、狀態指標和響應指標結合起來考慮,而不能僅僅依賴某一項指標,孤立地考察一項指標往往可能得出不正確的結論。各國各地區在實際應用過程中,要結合自己的具體情況,通過補充、完善來靈活運用。

(2)土地條件變化評價指標體系:土地條件變化評價指標體系是由M.Vieira等人提出的。在這個指標框架中,M.Vieira提出了定性和定量兩種土地條件變化指標,其中定性變化指標要求直觀、易於獲取,如土壤顏色、地表形態等;定量指標應強調計算方法的規範與統一。具體應用指標的選擇一定要立足於評價區域的土地資源特徵,變化指標的觀測頻率取決於指標本身的特徵,在觀測值的分析比較方法上,可採用橫向比較、縱向比較和假設比較等綜合分析,並通過因果分析分辨出是自身內部因子還是外部因子。

到目前為止,國外關於土地生態評價的系統、完整的一套指標體系尚未見報道。然而可以肯定,所有的這些工作都會為將來土地生態評價領域形成系統的指標體系奠定堅實的基礎。

6.3.1.2 本次研究採用的評價指標構建方法及擬選指標

本次研究在借鑒相關學者在生態安全評價指標體系建立的基礎上,結合河南實際情況,依據上述選取評價指標的原則,通過對影響生態安全的各種因素包括自然因素和人文因素等的全面系統的分析研究、綜合壓力-狀態-響應評價指標體系和可持續發展的生態安全評價理論、對土地資源生態安全的制約性因素或主導性因子的辨識,從中選取最能代表和反映河南省土地資源生態安全狀況的具體指標,且以土地可持續發展為目的,旨在促使經濟、社會和自然生態的協調統一,最終構建河南省土地資源生態安全評價的擬選指標體系。該體系包含土地生態環境的自然狀態、土地生態環境的經濟狀態和土地生態環境的社會狀態三大類26個擬選指標(表6.1)。

表6.1 河南省土地資源生態安全評價擬選指標體系

R&D: 研究與實驗發展 (research and development)。

6.3.2 評價指標的篩選

評價指標的篩選方法有兩大類: 一是定性分析法,又稱經驗法或專家意見法,包括理論分析法和特爾菲法 (Delphi),主要是憑藉評價者個人的知識和經驗,借鑒同行專家的意見,綜合後進行篩選,這種方法的優點是簡單易行,缺點是主觀性較強; 二是定量分析法,目前採用的主要有主成分分析法、相關分析法和獨立性分析等,這類方法的優點是客觀性較強,缺點是比較機械且計算量大,不一定符合評價的實際。本次研究採用的是專家調研法。

按照指標選擇的原則,對土地資源生態安全評價指標體系中擬選要素指標通過發放專家調查表的方式,徵詢有關專家意見。本次調查選擇了來自多家相關單位的不同專業的專家共 55 名,請每位專家對土地資源生態安全評價指標體系中的全部 3 個評價方面和 26 個要素指標進行排序,首先對系統層方面進行排序 (從 1 到 3,1 為最重要),再分別對要素指標相對評價方面的重要性進行排序。如果專家認為還有其他重要指標可以列入,加以補充,並與原有指標一起選擇和排序。根據專家排序結果,按遞減順序原則進行統計,專家調查統計結果見表 6.2。對於系統層方面,專家排序第一的賦值為 3 分,排序第二的賦值為 2 分,排序第三的賦值為 1 分; 對於要素指標,專家排序第一的賦值為 10 分,排序第二的賦值為 9 分,依此類推,排序第十名為 1 分。各個指標最後得分的計算方法如下式所示。

河南省土地資源生態安全理論、方法與實踐

式中:S為各指標的最後得分;fi為各指標的賦值;pi為各指標的排名。

在進行專家調查過程中,有些專家也提出了其他的要素指標,對這些要素指標,課題組又組織了一些專家進行專門討論。專家一致認為,這些要素指標雖然比較重要,但其重要性略差於課題組所選的要素指標,因此沒有再次進行專家調查。

表6.2 河南省土地資源生態安全評價擬選指標統計排序

續表

注:*表示指標排名,**表示指標得分。

表6.3 河南省土地資源生態安全評價指標體系框架

6.3.3 評價指標體系框架

根據要素指標選擇的4個原則、擬選指標排序狀況和專家討論的意見,課題組篩選掉了分值低且差別大的一些指標,從而最終在擬選指標體系中選出17項最終要素指標,並主要根據得分和重要性排序情況,對各項指標的權重進行了賦值和計算(具體見本篇第七章評價指標權重的確定)。河南省土地資源生態安全評價的最終指標體系框架見表6.3。

分類:基本概念、決策樹與模型評估

分類 (classification)分類任務就是通過學習得到一個目標函數(targetfunction)f,把每個屬性集x映射到一個預先定義的類別號y。目標函數也稱分類模型(classification model)。分類模型可用於以下目的:描述性建模、預測性建模

分類技術(或分類法)是一種根據輸入數據集建立分類模型的系統方法。分類法的例子包括決策樹分類法、基於規則的分類法、神經網路、支持向量機和樸素貝葉斯分類法。

首先,需要一個訓練集(training set),它又類標號一致的記錄組成。使用訓練集建立分類模型,該模型隨後運用於檢驗集(test set ),檢驗集由類標號未知的記錄組成。

分類模型的性能根據模型正確和錯誤預的檢驗記錄計數進行評估,這些計數存放在稱作混淆矩陣( confusion matrix)的表格中。表4-2描述二元分類問題的混滑矩陣。表中每個表項 fij 表示實際類標號為i但被預測為類j的記錄數,例如, f01 代表原本屬於類0但被誤分為類1的記錄數。按照混淆矩陣中的表項,被分類模型正確預測的樣本總數是( f11+f00 ),而被錯誤預測的樣本總數是( f10+f01 )。

同樣,分類模型的性能可以用錯誤率(error rate)來表示,其定義如下:

為了解釋決策樹分類的工作原理,考慮上一節中介紹的脊椎動物分類問題的簡化版本。這裡我們不把脊椎動物分為五個不同的物種,而只考慮兩個類別:哺乳類動物和非哺乳類動物。假設科學家發現了一個新的物種,怎麼判斷它是哺乳動物還是非哺乳動物呢?一種方法是針對物種的特徵提出一系列問題。第一個問題可能是,該物種是冷血動物還是恆溫動物。如果它是冷血的,則該物種肯定不是哺乳動物;否則它或者是某種鳥,或者是某種哺乳動物。如果它是恆溫的,需要接著問:該物種是由雌性產越進行繁殖的嗎?如果是,則它肯定為哺乳動物,否則它有可能是非哺乳動物(鴨嘴獸和針鼴這些產蛋的哺乳動物除外)。

上面的例子表明,通過提出一系列精心構思的關於檢驗記錄屬性的問題,可以解決分類問題。每當一個問題得到答案,後續的問題將隨之而來,直到我們得到記錄的類標號。這一系列的問題和這些問題的可能回答可以組織成決策樹的形式,決策樹是一種由結點和有向邊組成的層次結圖4-4顯示哺乳類動物分類問題的決策樹,樹中包含三種結點。

根節點 (root node),它沒有入邊,但有零條或多條出邊。

內部節點 (internal node),恰有一條入邊和兩條或多條出邊。

葉節點 (leaf node)或 終結點 (terminal node)。恰有一條入邊,但沒有出邊。

在決策樹中,毎個葉結點都賦予一個類標號。非終結點(non- terminal node)(包括根結點和內部結點)包含屬性測試條件,用以分開具有不同特性的記錄。例如,在圖44中,在根結點處,使用體溫這個屬性把冷血脊権動物和恆溫脊椎動物區別開來。因為所有的冷血脊椎動物都是非乳動物,所以用一個類稱號為非嘴乳動物的葉結點作為根結點的右子女。如果脊椎動物的體溫是恆溫的,則接下來用胎生這個屬性來區分乳動物與其他恆溫動物(主要是鳥類)。

一旦構造了決策樹,對檢驗記錄進行分類就相當容易了。從樹的根結點開始,將測試條件用於檢驗記錄,根據測試結果選擇適當的分支,沿著該分支或者到達另一個內部結點,使用新的測試條件,或者到達一個葉結點。到達葉結點之後,葉結點的類稱號就被賦值給該檢驗記錄。例如圖45顯示應用決策樹預測火烈鳥的類標號所經過的路徑,路徑終止於類稱號為非哺乳動物的葉結點。

在 Hunt演算法中,通過將訓練記錄相繼劃分成較純的子集,以遞歸方式建立決策樹。設 是與結點t相關聯的訓練記錄集,而y={y1,y2…,yc}是類標號,Humt演算法的遞歸定義如下:

(1)如果 中所有記錄都屬於同一個類 ,則t是葉結點,用 標記。

(2)如果 中包含屬於多個類的記錄,則選擇一個 屬性測試條件 ( attribute test condition),將記錄劃分成較小的子集。對於測試條件的每個輸出,創建一個子女結點,並根據測試結果將 中的記錄分布到子女結點中。然後,對於每個子女結點,遞歸地調用該演算法。為了解釋該演算法如何執行,考慮如下問題:預測貸款申請者是會按時歸還貸款,還是會拖欠貸款。對於這個問題,訓練數據集可以通過考察以前貨款者的貸放記錄來構造。在圖4-6所示的例子中,每條記錄都包含貸款者的個人信息,以及貨款者是否拖欠貨款的類標號。

該分類問題的初始決策樹只有一個結點,類標號為「拖欠款者=否」(見圖4-7a),意味大多數貸款者都按時歸還貸款。然而,該樹需要進一步的細化,因為根結點包含兩個類的記錄。根據「有房者」測試條件,這些記錄被劃分為較小的子集,如圖4-7b所示。選取屬性測試條件的理由稍後討論,目前,我們假定此處這樣選是劃分數據的最優標準。接下來,對根結點的每個子女遞歸地調用Hunt演算法。從圖4-6給出的訓練數據集可以看出,有房的貨款者都按時償還了貸款,因此,根結點的左子女為葉結點,標記為「抱欠款者=否」(見圖4-7b)。對於右子女,我們需要繼續遞歸調用Hunt演算法,直到所有的記錄都屬於同一個類為止。每次遞歸調用所形成的決策樹顯示在圖4-7c和圖4-7d中。

如果屬性值的每種組合都在訓練數據中出現,並且每種組合都具有演算法是有效的。但是對於大多數實際情況,這些假設太苛刻了,因此,需要附加的條件來處理以下的情況。

(1)演算法的第二步所創建的子女結點可能為空,即不存在與這些結點相關聯的記錄。如果沒有一個訓練記錄包含與這樣的結點相關聯的屬性值組合,這種情形就可能發生。這時,該結點成為葉結點,類標號為其父結點上訓練記錄中的多數類。

(2)在第二步,如果與D相關聯的所有記錄都具有相同的屬性值(目標屬性除外),則不可能進一步劃分這些記錄。在這種情況下,該結點為葉結點,其標號為與該結點相關聯的訓練記錄中的多數類。

決策樹歸納的學習演算法必須解決下面兩個問題。

(1) 如何分裂訓練記最? 樹增長過程的每個遞歸步都必須選擇一個屬性測試條件,將記錄劃分成較小的子集。為了實現這個步驟,演算法必須提供為不同類型的屬性指定測試條件的方法,並且提供評估每種測試條件的客觀度量。

(2) 如何停止分裂過程? 需要有結束條件,以終止決策樹的生長過程。一個可能的策略是分裂結點,直到所有的記錄都屬於同一個類,或者所有的記錄都具有相同的屬性值。儘管兩個結東條件對於結束決策樹歸納演算法都是充分的,但是還可以使用其他的標準提前終止樹的生長過程。提前終止的優點將在4.4.5節討論。

決策樹歸納演算法必須為不同類型的屬性提供表示屬性測試條件和其對應輸出的方法。

二元屬性 二元屬性的測試條件產生兩個可能的輸出,如圖4-8所示。

標稱屬性 由於標稱屬性有多個屬性值,它的測試條件可以用兩種方法表示,如圖4-9所示對於多路劃分(圖4-9a),其輸出數取決於該屬性不同屬性值的個數。例如,如果屬性婚姻狀況有三個不同的屬性值一單身、已婚、離異,則它的測試條件就會產生一個三路劃分。另一方面,某些決策樹演算法(如CART)只產生二元劃分,它們考慮創建k個屬性值的二元劃分的所有 +1種方法。圖4-9b顯示了把婚姻狀況的屬性值劃分為兩個子集的三種不同的分組方法。

序數屬性 序數屬性也可以產生二元或多路劃分,只要不違背序數屬性值的有序性,就可以對屬性值進行分組。圖410顯示了技照屬性村衣尺嗎劃分訓練記錄的不同的方法。圖4-10a和圖4-10b中的分組保持了屬性值間的序關係,而圖4-10c所示的分組則違反了這一性質,因為它把小號和大號分為一組,把中號和加大號放在另一組。

連續屬性對於連續屬性來說,測試條件可以是具有二元輸出的比較測試(Av)或(A≥v),也可以是具有形如 ≤A (i=1,…,k)輸出的范查詢,圖4-11顯示了這些方法的差別。對於二元劃分,決策樹演算法必須考慮所有可能的劃分點v,並從中選擇產生最佳劃分的點v。對於多路劃分,演算法必須考慮所有可能的連續值區間。可以採用2.3.6節介紹的離歐化的策略,離散化之後,每個離散化區間賦予一個新的序數值,只要保持有序性,相鄰的值還可以聚集成較寬的間。

有很多度量可以用來確定劃分記錄的最佳方法,這些度量用劃分前和劃分後記錄的類分布定義。設p(i|t)表示給定結點t中屬於類i的記錄所佔的比例,有時,我們省略結點t,直接用 表示該比例。在兩類問題中,任意結點的類分布都可以記作( , ),其中 =1- 。例如,考慮圖4-12中的測試條件,劃分前的類分布是(0.5,0.5),因為來自每個類的記錄數相等。如果使用性屬性來劃分數據,則子女結點的類分布分別為(0.6,0.4)和(0.4,0.6),雖然劃分後兩個類的分布不再平衡,但是子女結點仍然包含兩個類的記錄:按照第二個屬性車型進行劃分,將得到純度更高的劃分。

選擇最佳劃分的度量通常是根據劃分後子女結點不純性的程度。不純的程度越低,類分布就越傾斜。例如,類分布為(0,1)的結點具有零不純性,而均衡分布(0.5,0.5)的結點具有最高的不純性。不純性度量的例子包括:

圖4-13顯示了二元分類問題不純性度量值的比較,p表示屬於其中一個類的記錄所佔的比例。從圖中可以看出,三種方法都在類分布均衡時(即當p=0.5時)達到最大值,而當所有記錄都屬於同一個類時(p等於1或0)達到最小值。下面我們給出三種不純性度量方法的計算實例。

為了確定測試條件的效果,我們需要比較父結點(劃分前)的不純程度和子女結點(劃分後)的不純程度,它們的差越大,測試條件的效果就越好。增益4是一種可以用來確定劃分效果的標準:

考慮圖4-14中的圖表,假設有兩種方法將數據劃分成較小的子集。劃分前,Gimi指標等於0.5,因為屬於兩個類的記錄個數相等。如果選擇屬性A劃分數據,結點N1的Gi指標等於0,.4898,而N2的Gimi指標等於0.480,派生結點的Gini指標的加權平均為(7/12)×0.4898+(5/2)×0.480=0.486。類似的,我們可以計算屬性B的Gini指標加權平均是0.371。因為屬性B具有更小的Gini指標,它比屬性A更可取。

熵和Gini指標等不純性度量趨向有利於具有大量不同值的屬性。圖4-12顯示了三種可供選擇的測試條件,劃分本章習題2中的數據集。第一個測試條件性別與第二個測試條件車型相比,容易看出車型似乎提供了更好的劃分數據的方法,因為它產生更純的派生結點。然而,如果將這兩個條件與顧客D相比,後者看來產生更純的劃分,但顧客D卻不是一個有預測性的屬性,因為每個樣本在該屬性上的值都是唯一的。即使在不太極端情形下,也不會希望產生大量輸出的測試條件,因為與每個劃分相關聯的記錄太少,以致不能作出可靠的預測。

解決該問題的策略有兩種。第一種策略是限制測試條件只能是二元劃分,CART這樣的決策樹演算法採用的就是這種策略:另一種策略是修改評估劃分的標準,把屬性測試條件產生的輸出數也考慮進去,例如,決策樹演算法C4.5採用稱作增益率( gain ratio)的劃分標準來評估劃分。增益率定義如下:

建立決策樹之後,可以進行樹剪枝( tree-pruning),以減小決策樹的規模。決策樹過大容易受所謂過分擬合( overfitting)現象的影響。通過修剪初始決策樹的分支,剪枝有助於提高決策樹的泛化能力。過分擬合和樹剪枝問題將在4.4節更詳細地討論。

Web使用挖據就是利用數據挖據的技術,從Web訪問日誌中提取有用的模式。這些模式能夠揭示站點訪問者的一些有趣特性:例如,一個人頻繁地訪問某個Web站點,並打開介紹同一產品的網頁,如果商家提供一些打折或免費運輸的優惠,這個人很可能會購買這種商品。

在Web使用挖掘中,重要的是要區分用戶訪問和Web機器人( Web robot)訪問,Web機器人(又稱Web爬蟲)是一個軟體程序,它可以自動跟蹤嵌入網頁中的超鏈接,定位和獲取 Iinternet上的信息。這些程序安裝在搜素引的入口,收集索引網頁必須的文檔。在應用Web挖掘技術分析人類的測覽習慣之前,必須過濾掉Web機器人的訪問。

下面是對決策樹歸納演算法重要特點的總結。

(1)決策樹歸納是一種構建分類模型的非參數方法。換句話說,它不要求任何先驗假設,不假定類和其他屬性服從一定的概率分布(不像第5章介紹的一些技術)。

(2)找到最佳的決策樹是NP完全問題。許多決策樹演算法都採取啟發式的方法指導對假設空間的搜索。例如,4.3.5節中介紹的演算法就採用了一種貪心的、自頂向下的遞歸劃分策略建立決策樹

(3)已開發的構建決策樹技術不需要昂貴的計算代價,即使訓練集非常大,也可以快速建立模型。此外,決策樹一旦建立,未知樣本分類非常快,最壞情況下的時間複雜度是O(w),其中w是樹的最大深度。

(4)決策樹相對容易解釋,特別是小型的決策樹。在很多簡單的數據集上,決策樹的準確率也可以與其他分類演算法相媲美。

(5)決策樹是學習離散值函數的典型代表。然而,它不能很好地推廣到某些特定的布爾問題。個著名的例子是奇偶函數,當奇數(偶數)個布爾屬性為真時其值為0(1)。對這樣的函數準確建模需要一棵具有2^d個結點的滿決策樹,其中d是布爾屬性的個數(見本章習題1)

(6)決策樹演算法對於雜訊的干擾具有相當好的魯棒性,採用避免過分擬合的方法之後尤其如此。避免過分擬合的方法將在4.4節介紹。

(7)元余屬性不會對決策樹的準確率造成不利的影響。一個屬性如果在數據中它與另一個屬性是強相關的,那麼它是冗餘的。在兩個冗餘的屬性中,如果已經選擇其中一個作為用於劃分的屬性,則另一個將被忽略。然而,如果數據集中含有很多不相關的屬性(即對分類任務沒有用的屬性),則某些不相關屬性可能在樹的構造過程中偶然被選中,導致決策樹過於龐大。通過在預處理階段刪除不相關屬性,特徵選擇技術能夠幫助提高決策樹的準確率。我們將在4.4.3節考察不相關屬性過多的問題。

(8)由於大多數的決策樹演算法都採用自頂向下的遞歸劃分方法,因此沿著樹向下,記錄會越來越少。在葉結點,記錄可能太少,對於葉結點代表的類,不能做出具有統計意義的判決,這就是所謂的數據碎片( data fragmentation)問題,解決該問題的一種可行的方法是,當樣本數小於某個特定值時停止分裂。

(9)子樹可能在決策樹中重複多次,如圖4-19所示,這使得決策樹過於複雜,並且可能更難解釋。當決策樹的每個內部結點都依賴單個屬性測試條件時,就會出現這種情形。由於大多數的決策樹演算法都採用分治劃分策略,因此在屬性空間的不同部分可以使用相同的測試條件,從而導致子樹重複問題。

(10)迄今為止,本章介紹的測試條件每次都只涉及一個屬性。這樣,可以將決策樹的生長過程看成劃分屬性空間為不相交的區域的過程,直到每個區域都只包含同一類的記錄(見圖4-20)。兩個不同類的相鄰區域之間的邊界稱作決策邊界( decision boundary),由於測試條涉及單個屬性,因此決策邊界是直線,即平行於「坐標軸」,這就限制了決策樹對連續屬性之間複雜關係建模的表達能力。圖4-21顯示了一個數據集,使用一次只涉及一個屬性的測試條件的決策樹演算法很難有效地對它進行分類。

斜決策樹 ( oblique decision tree)可以克服以上的局限,因為它允許測試條件涉及多個屬性。圖4-21中的數據集可以很容易地用斜決策樹表示,該斜決策樹只有一個結點,其測試條件為:

x+y1

儘管這種技術具有更強的表達能力,並且能夠產生更緊湊的決策樹,但是為給定的結點找出最佳測試條件的計算可能是相當複雜的。

構造歸納 ( constructive induction)提供另一種將數據劃分成齊次非矩形區域的方法(見2.3.5節),該方法創建複合屬性,代表已有屬性的算術或邏輯組合。新屬性提供了更好的類區分能力,並在決策樹歸納之前就增廣到數據集中。與斜決策樹不同,構造歸納不需要昂貴的花費,因為在構造決策樹之前,它只需要一次性地確定屬性的所有相關組合。相比之下,在擴展每個內部結點時,斜決策樹都需要動態地確定正確的屬性組合。然而,構造歸納會產生冗餘的屬性,因為新創建的屬性是已有屬性的組合

(11)研究表明不純性度量方法的選擇對決策樹演算法的性能影響很小,這是因為許多度量方法相互之間都是一致的,如圖4-13所示。實際上,樹剪枝對最終決策樹的影響比不純性度量的選擇的影響更大。

綜合評價模型的構建

目前在水土保持治理效益綜合評價中,主要有定性評價和定量評價兩種方法,並且已從單獨使用定性評價方法轉為定性評價和定量評價方法相結合,或者將幾種定量評價方法綜合起來使用。定量評價方法主要有綜合評價法、經濟分析法和投入產出分析法,綜合評價法中又包括模糊評價法、灰色關聯分析法、灰色模型預測法等。本研究主要採用基於半梯形分布函數的多層次模糊綜合評價模型、基於 Delphi法的多層次模糊綜合評價模型、基於歸一化指標的模糊綜合評價模型等4 種方法進行水土保持治理效益的綜合評價。

6.1.4.1 基於半梯形分布函數的多層次模糊綜合評價模型

(1)建立評價指標等級體系

根據《水土保持綜合治理 規劃通則》(GB/T 15772—2008)、《水土保持綜合治理驗收規範》(GB/T 15773—2008)和《土壤侵蝕分類分級標準》(SL190—2007),查閱相關文獻(如蔡國軍等,2009;卜貴賢等,2011),並結合研究區域內的小流域水土保持治理的實際情況,劃分每項指標所對應的各級標準,見表6.3。

(2)確定評語集V

一般情況下將小流域水土保持治理效益劃分為五個等級,對於本研究從低到高依次為:Ⅰ級(很差)、Ⅱ級(較差)、Ⅲ級(一般)、Ⅳ級(良好)和Ⅴ級(優等),用V={υ1,υ2,…,υ5} 表示。

表6.3 小流域水土保持治理效益評價指標等級劃分標準表

(3)確定隸屬度函數

本研究的隸屬函數採用半梯形分布函數,各單項指標的量劃分為兩類:一類為正效指標(效益型),越大越優;另一類是負效指標(成本型),越小越優。此函數表示為

正效指標函數:

南水北調河南水源區水土流失規律及治理模式與效益評價研究

負效指標函數:

南水北調河南水源區水土流失規律及治理模式與效益評價研究

式中:Gi——某一指標的標準值;

ui——該指標的實際值;

μi——該指標的隸屬度。

(4)確定模糊矩陣

將已經標準化處理過的數據代入上述隸屬度函數中,可得到m×n階矩陣,建立模糊評價矩陣R

南水北調河南水源區水土流失規律及治理模式與效益評價研究

式中:m——指標個數;

n——各指標標準分的級數。

(5)模糊關係運算

經典模糊數學中的模糊運算為B=A○R,該運算又稱為最大最小值法,由於其容易丟失信息,為減少信息丟失,上述模糊運算改進為B=A·R,上式稱為乘法運算,能較好地表達各因素對重要性程度和對評價結果的貢獻率。根據層次分析法得到的準則層與目標層的權重向量,可分別對準則層與指標層進行綜合評價:

南水北調河南水源區水土流失規律及治理模式與效益評價研究

式中:Ck——隸屬於第k等級的隸屬度歸一化處理值;

rij——第i個評價指標隸屬於第j等級的隸屬度。

(6)改進的模糊綜合評判

在模糊綜合評判的基礎上,將評價等級檔次集與上述評價確定的權重相結合,可得到與各評語集相對應的綜合評分分值為

南水北調河南水源區水土流失規律及治理模式與效益評價研究

式中:Sk——評價等級檔次集Vk所對應的量化評語集。

(7)效益評價等級的確定。根據綜合評分分值所處評語集範圍即可確定其評價等級。

6.1.4.2 基於Delphi 法的多層次模糊綜合評價模型

綜合評價指標體系中的指標根據指標特徵可分為定量指標和定性指標兩大類。定量指標是可以直接量化的指標;定性指標只有通過統計分析、經驗判斷和相關數學方法才能量化確定。在多層次模糊綜合評價過程中,用傳統的數值定量方法很難客觀、準確地做出前後一致的評價。如項目對生態環境的影響,一般難以精確計量,只能用「很好」「較好」「一般」「較差」「很差」等帶有模糊屬性的語言來表示。這些概念之間的劃分,本身也具有模糊性。因此本研究的第二種方法採用模糊統計技術與Delphi法相結合的方法確定隸屬度,構建模糊評價矩陣。

(1)確定評價因素集

將評價因子根據某種屬性分成m個因素子集,記作u1,u2,…,um,則評價因素集U={u1,u2,…,um}。

(2)確定評語集V及標準隸屬度D

將小流域水土保持治理效益劃分為五個等級,對於本書從低到高依次為:Ⅰ級(很差)、Ⅱ級(較差)、Ⅲ級(一般)、Ⅳ級(良好)和Ⅴ級(優等),用V={υ1,υ2,…,υ5} 表示。取值D={d1,d2,…,d5},分別對應0.2、0.4、0.6、0.8、1.0,為某一隸屬度集。

(3)專家評估

將印有評價指標與評價等級的表格發給專家,各個專家結合本領域及相關領域對各個指標定出相應的級別。專家評估時並不要求給出具體的分值,只需在「很差」「較差」「一般」「較好」和「很好」5個評語級別中選擇其認為最合適的級別即可。

由於專家評估具有很強的主觀因素,所以如何體現專家評估的優勢,削弱其劣勢,是一個非常重要的問題。應用專家評估法應注意以下問題:

1)選聘專家時應注意的問題。專家選聘的合理與否,直接影響到評價結果的準確程度,所以在專家的選聘工作需要考慮以下3 個問題:所選專家必須對評價指標所涉及的各方面情況很熟悉,並在評價指標領域擁有一定的權威性,而且有經驗;所選專家在所涉及專業的分布上要全面、合理,具有代表性;專家人數要適當,各類專家比例應合理,專家人數過少代表性不好,而且容易造成個人好惡偏見對最終評價結果的影響過大;人數過多,數據處理工作量過大,評判周期過長,致使最後結果的準確性不一定很高。

2)專家評估時應注意的問題。對專家評估可以採取調查問卷的形式,也可通過函詢的方法,應避免權威、資歷、壓力、勸說、口才等方面的影響。在各位專家打分以後,應針對不同方案對各位專家的打分結果進行專家意見的一致性檢驗,對意見不集中的方案,應採取重新打分,或另請專家再次打分。本文採用目前被廣泛應用的Delphi法進行評估。Delphi法區別於其他專家評估法的主要特點是匿名性和多次反饋,通過函詢方法多次徵詢意見,允許專家在後一次的反饋意見中修改前一次的意見。避免了會議討論時由於害怕權威而隨聲附和、因顧慮情面不願與他人意見衝突等弊病,使各種意見收斂較快,最終結論具有一定程度的綜合意見的客觀性。

(4)隸屬度計算與模糊評價矩陣的確定

根據多位專家的評語,進行模糊統計分析計算,於是可以得到關於m個評價指標的從評價因素集U到評語集V的模糊關係,建立模糊評價矩陣R

南水北調河南水源區水土流失規律及治理模式與效益評價研究

式中:Ri=(ri1,ri2,…,ri5)為相對於評價因素ui的單因素模糊評價,是評價語集V上的子集;rij為相對於評價因素ui給與評語υj的隸屬度,由回收的專家評語整理計算得到,對於第i個評價指標,有υi1個V1級評語、υi2個V2級評語、……υi5個V5級評語,則有

南水北調河南水源區水土流失規律及治理模式與效益評價研究

選聘11位專家對小流域水土保持效益進行評價,利用Delphi法整理得到各位專家評估的統計結果,構成5個模糊評價矩陣。

(5)多層次模糊綜合評價模型的構建

根據前面計算得到的權向量矩陣WPT和模糊評價矩陣Ri可以計算得到

Bi=WiRi=(bi1bi2… bi5)(6.16)

≠1,則需採用歸一化方法將Bi處理為

=(

)。

設評價等級矩陣為F=(f1f2f3f4f5)T=(20 40 60 80 100)T,分別對應於很差、較差、一般、良好和優等5個等級,則各子系統的評價指標值Qi為

南水北調河南水源區水土流失規律及治理模式與效益評價研究

通過各子系統的評價分數Qi及其相對於目標層的權重WCT計算得到總目標的綜合評價指標值Q為

南水北調河南水源區水土流失規律及治理模式與效益評價研究

(6)效益評價等級的確定

根據綜合評分分值所處評語集範圍即可確定其評價等級。

6.1.4.3 基於歸一化指標的模糊綜合評價模型1

(1)建立評價指標標準值

根據《水土保持綜合治理規劃通則》(GB/T 15772—2008)、《水土保持綜合治理 驗收規範》(GB/T 15773—2008)和《土壤侵蝕分類分級標準》(SL190—2007),查閱相關文獻(蔡國軍等,2009;卜貴賢等,2011),並結合研究區域內的小流域水土保持治理的實際情況,確定每項指標所對應的標準值基準值和理想值(表6.4)。

表6.4 小流域水土保持治理效益評價指標標準值

(2)確定評價指標的歸一化矩陣

由於評價指標體系中各指標的量綱不同,指標間數量差異也較大,使得不同指標間在量上不能直接進行比較,缺乏可比性。所以,在對小流域水土保持治理效益評價分析之前須對各項指標值進行歸一化處理。本研究採用建立模糊數學隸屬度函數對指標進行歸一化處理,得到評價指標的歸一化矩陣R(x)。根據對評價指標類型的不同,分為越大越優型和越小越優型。

南水北調河南水源區水土流失規律及治理模式與效益評價研究

南水北調河南水源區水土流失規律及治理模式與效益評價研究

式中:x——指標的實際值;

α1,α2——分別為指標的標準值下限和上限,可根據表6.4中的基準值和理想值確定。

(3)效益評價值的確定

效益評價值Q′採用下列模糊關係方程求得:

Q′=W·R (6.21)

式中:Q′——評價結果即判斷子集;

W——模糊集中的權重分配;

R——各評價指標的單因素評價矩陣。

為了讓所得評價結果直觀明了,將效益評價值Q′換算成百分制,得到Q。

(4)效益評價等級的確定

設評語集為{20,40,60,80,100},分別對應於Ⅰ級(很差)、Ⅱ級(較差)、Ⅲ級(一般)、Ⅳ級(良好)和Ⅴ級(優等)5個等級。

根據效益評價值Q所處評語集範圍即可確定其評價等級。

這種方法在指標等級之間的差值不均勻的情況下,當正效指標數據接近於標準值下限時,指標的歸一化值偏小,導致評價分值偏低;當負效指標數據接近於標準值下限時,指標的歸一化值偏大,導致評價分值偏高,但誤差均在可接受範圍之內。

6.1.4.4 基於歸一化指標的模糊綜合評價模型2

(1)建立評價指標標準值

根據《水土保持綜合治理 規劃通則》(GB/T 15772—2008)、《水土保持綜合治理 驗收規範》(GB/T 15773—2008)和《土壤侵蝕分類分級標準》(SL190—2007),查閱相關文獻(如蔡國軍等,2009;卜貴賢等,2011),並結合研究區域內的小流域水土保持治理的實際情況,確定每項指標所對應標準值的理想值,見表6.4。

(2)確定評價指標的歸一化矩陣

本方法對指標的歸一化處理與前面方法不同。對指標進行歸一化處理後,同樣得到評價指標的歸一化矩陣R(x)。根據對評價指標類型的不同,分為越大越優型和越小越優型。

南水北調河南水源區水土流失規律及治理模式與效益評價研究

南水北調河南水源區水土流失規律及治理模式與效益評價研究

式中:x——指標的實際值;

α2——指標的標準值,可根據表6.4中的理想值確定。

(3)效益評價值的確定

效益評價值Q′仍然採用模糊關係方程(6.21)求得。同樣將效益評價值Q′換算成百分制,得到Q。

(4)效益評價等級的確定

根據效益評價值Q所處評語集範圍即可確定其評價等級。

這種方法在指標數據與標準值相差較大時,歸一化數值更接近於0,容易導致評價分值誤差比較大,正效指標的結果偏大,負效指標的結果偏小,但誤差均在可接受範圍之內。

python數據分析與應用-Python數據分析與應用 PDF 內部全資料版

給大家帶來的一篇關於Python數據相關的電子書資源,介紹了關於Python方面的內容,本書是由人民郵電出版社出版,格式為PDF,資源大小281 MB,黃紅梅 張良均編寫,目前豆瓣、亞馬遜、噹噹、京東等電子書綜合評分為:7.8。

內容介紹

目錄

第1章 Python數據分析概述 1

任務1.1 認識數據分析 1

1.1.1 掌握數據分析的概念 2

1.1.2 掌握數據分析的流程 2

1.1.3 了解數據分析應用場景 4

任務1.2 熟悉Python數據分析的工具 5

1.2.1 了解數據分析常用工具 6

1.2.2 了解Python數據分析的優勢 7

1.2.3 了解Python數據分析常用類庫 7

任務1.3 安裝Python的Anaconda發行版 9

1.3.1 了解Python的Anaconda發行版 9

1.3.2 在Windows系統中安裝Anaconda 9

1.3.3 在Linux系統中安裝Anaconda 12

任務1.4 掌握Jupyter Notebook常用功能 14

1.4.1 掌握Jupyter Notebook的基本功能 14

1.4.2 掌握Jupyter Notebook的高 級功能 16

小結 19

課後習題 19

第2章 NumPy數值計算基礎 21

任務2.1 掌握NumPy數組對象ndarray 21

2.1.1 創建數組對象 21

2.1.2 生成隨機數 27

2.1.3 通過索引訪問數組 29

2.1.4 變換數組的形態 31

任務2.2 掌握NumPy矩陣與通用函數 34

2.2.1 創建NumPy矩陣 34

2.2.2 掌握ufunc函數 37

任務2.3 利用NumPy進行統計分析 41

2.3.1 讀/寫文件 41

2.3.2 使用函數進行簡單的統計分析 44

2.3.3 任務實現 48

小結 50

實訓 50

實訓1 創建數組並進行運算 50

實訓2 創建一個國際象棋的棋盤 50

課後習題 51

第3章 Matplotlib數據可視化基礎 52

任務3.1 掌握繪圖基礎語法與常用參數 52

3.1.1 掌握pyplot基礎語法 53

3.1.2 設置pyplot的動態rc參數 56

任務3.2 分析特徵間的關係 59

3.2.1 繪製散點圖 59

3.2.2 繪製折線圖 62

3.2.3 任務實現 65

任務3.3 分析特徵內部數據分布與分散狀況 68

3.3.1 繪製直方圖 68

3.3.2 繪製餅圖 70

3.3.3 繪製箱線圖 71

3.3.4 任務實現 73

小結 77

實訓 78

實訓1 分析1996 2015年人口數據特徵間的關係 78

實訓2 分析1996 2015年人口數據各個特徵的分布與分散狀況 78

課後習題 79

第4章 pandas統計分析基礎 80

任務4.1 讀/寫不同數據源的數據 80

4.1.1 讀/寫資料庫數據 80

4.1.2 讀/寫文本文件 83

4.1.3 讀/寫Excel文件 87

4.1.4 任務實現 88

任務4.2 掌握DataFrame的常用操作 89

4.2.1 查看DataFrame的常用屬性 89

4.2.2 查改增刪DataFrame數據 91

4.2.3 描述分析DataFrame數據 101

4.2.4 任務實現 104

任務4.3 轉換與處理時間序列數據 107

4.3.1 轉換字元串時間為標準時間 107

4.3.2 提取時間序列數據信息 109

4.3.3 加減時間數據 110

4.3.4 任務實現 111

任務4.4 使用分組聚合進行組內計算 113

4.4.1 使用groupby方法拆分數據 114

4.4.2 使用agg方法聚合數據 116

4.4.3 使用apply方法聚合數據 119

4.4.4 使用transform方法聚合數據 121

4.4.5 任務實現 121

任務4.5 創建透視表與交叉表 123

4.5.1 使用pivot_table函數創建透視表 123

4.5.2 使用crosstab函數創建交叉表 127

4.5.3 任務實現 128

小結 130

實訓 130

實訓1 讀取並查看P2P網路貸款數據主表的基本信息 130

實訓2 提取用戶信息更新表和登錄信息表的時間信息 130

實訓3 使用分組聚合方法進一步分析用戶信息更新表和登錄信息表 131

實訓4 對用戶信息更新表和登錄信息表進行長寬錶轉換 131

課後習題 131

第5章 使用pandas進行數據預處理 133

任務5.1 合併數據 133

5.1.1 堆疊合併數據 133

5.1.2 主鍵合併數據 136

5.1.3 重疊合併數據 139

5.1.4 任務實現 140

任務5.2 清洗數據 141

5.2.1 檢測與處理重複值 141

5.2.2 檢測與處理缺失值 146

5.2.3 檢測與處理異常值 149

5.2.4 任務實現 152

任務5.3 標準化數據 154

5.3.1 離差標準化數據 154

5.3.2 標準差標準化數據 155

5.3.3 小數定標標準化數據 156

5.3.4 任務實現 157

任務5.4 轉換數據 158

5.4.1 啞變數處理類別型數據 158

5.4.2 離散化連續型數據 160

5.4.3 任務實現 162

小結 163

實訓 164

實訓1 插補用戶用電量數據缺失值 164

實訓2 合併線損、用電量趨勢與線路告警數據 164

實訓3 標準化建模專家樣本數據 164

課後習題 165

第6章 使用scikit-learn構建模型 167

任務6.1 使用sklearn轉換器處理數據 167

6.1.1 載入datasets模塊中的數據集 167

6.1.2 將數據集劃分為訓練集和測試集 170

6.1.3 使用sklearn轉換器進行數據預處理與降維 172

6.1.4 任務實現 174

任務6.2 構建並評價聚類模型 176

6.2.1 使用sklearn估計器構建聚類模型 176

6.2.2 評價聚類模型 179

6.2.3 任務實現 182

任務6.3 構建並評價分類模型 183

6.3.1 使用sklearn估計器構建分類模型 183

6.3.2 評價分類模型 186

6.3.3 任務實現 188

任務6.4 構建並評價回歸模型 190

6.4.1 使用sklearn估計器構建線性回歸模型 190

6.4.2 評價回歸模型 193

6.4.3 任務實現 194

小結 196

實訓 196

實訓1 使用sklearn處理wine和wine_quality數據集 196

實訓2 構建基於wine數據集的K-Means聚類模型 196

實訓3 構建基於wine數據集的SVM分類模型 197

實訓4 構建基於wine_quality數據集的回歸模型 197

課後習題 198

第7章 航空公司客戶價值分析 199

任務7.1 了解航空公司現狀與客戶價值分析 199

7.1.1 了解航空公司現狀 200

7.1.2 認識客戶價值分析 201

7.1.3 熟悉航空客戶價值分析的步驟與流程 201

任務7.2 預處理航空客戶數據 202

7.2.1 處理數據缺失值與異常值 202

7.2.2 構建航空客戶價值分析關鍵特徵 202

7.2.3 標準化LRFMC模型的5個特徵 206

7.2.4 任務實現 207

任務7.3 使用K-Means演算法進行客戶分群 209

7.3.1 了解K-Means聚類演算法 209

7.3.2 分析聚類結果 210

7.3.3 模型應用 213

7.3.4 任務實現 214

小結 215

實訓 215

實訓1 處理信用卡數據異常值 215

實訓2 構造信用卡客戶風險評價關鍵特徵 217

實訓3 構建K-Means聚類模型 218

課後習題 218

第8章 財政收入預測分析 220

任務8.1 了解財政收入預測的背景與方法 220

8.1.1 分析財政收入預測背景 220

8.1.2 了解財政收入預測的方法 222

8.1.3 熟悉財政收入預測的步驟與流程 223

任務8.2 分析財政收入數據特徵的相關性 223

8.2.1 了解相關性分析 223

8.2.2 分析計算結果 224

8.2.3 任務實現 225

任務8.3 使用Lasso回歸選取財政收入預測的關鍵特徵 225

8.3.1 了解Lasso回歸方法 226

8.3.2 分析Lasso回歸結果 227

8.3.3 任務實現 227

任務8.4 使用灰色預測和SVR構建財政收入預測模型 228

8.4.1 了解灰色預測演算法 228

8.4.2 了解SVR演算法 229

8.4.3 分析預測結果 232

8.4.4 任務實現 234

小結 236

實訓 236

實訓1 求取企業所得稅各特徵間的相關係數 236

實訓2 選取企業所得稅預測關鍵特徵 237

實訓3 構建企業所得稅預測模型 237

課後習題 237

第9章 家用熱水器用戶行為分析與事件識別 239

任務9.1 了解家用熱水器用戶行為分析的背景與步驟 239

9.1.1 分析家用熱水器行業現狀 240

9.1.2 了解熱水器採集數據基本情況 240

9.1.3 熟悉家用熱水器用戶行為分析的步驟與流程 241

任務9.2 預處理熱水器用戶用水數據 242

9.2.1 刪除冗餘特徵 242

9.2.2 劃分用水事件 243

9.2.3 確定單次用水事件時長閾值 244

9.2.4 任務實現 246

任務9.3 構建用水行為特徵並篩選用水事件 247

9.3.1 構建用水時長與頻率特徵 248

9.3.2 構建用水量與波動特徵 249

9.3.3 篩選候選洗浴事件 250

9.3.4 任務實現 251

任務9.4 構建行為事件分析的BP神經網路模型 255

9.4.1 了解BP神經網路演算法原理 255

9.4.2 構建模型 259

9.4.3 評估模型 260

9.4.4 任務實現 260

小結 263

實訓 263

實訓1 清洗運營商客戶數據 263

實訓2 篩選客戶運營商數據 264

實訓3 構建神經網路預測模型 265

課後習題 265

附錄A 267

附錄B 270

參考文獻 295

學習筆記

Jupyter Notebook(此前被稱為 IPython notebook)是一個互動式筆記本,支持運行 40 多種編程語言。 Jupyter Notebook 的本質是一個 Web 應用程序,便於創建和共享文學化程序文檔,支持實時代碼,數學方程,可視化和 markdown。 用途包括:數據清理和轉換,數值模擬,統計建模,機器學習等等 。 定義 (推薦學習:Python視頻教程) 用戶可以通過電子郵件,Dropbox,GitHub 和 Jupyter Notebook Viewer,將 Jupyter Notebook 分享給其他人。 在Jupyter Notebook 中,代碼可以實時的生成圖像,視頻,LaTeX和JavaScript。 使用 數據挖掘領域中最熱門的比賽 Kaggle 里的資料都是Jupyter 格式 。 架構 Jupyter組件 Jupyter包含以下組件: Jupyter Notebook 和 ……

本文實例講述了Python實現的微信好友數據分析功能。分享給大家供大家參考,具體如下: 這裡主要利用python對個人微信好友進行分析並把結果輸出到一個html文檔當中,主要用到的python包為 itchat , pandas , pyecharts 等 1、安裝itchat 微信的python sdk,用來獲取個人好友關係。獲取的代碼 如下: import itchatimport pandas as pdfrom pyecharts import Geo, Baritchat.login()friends = itchat.get_friends(update=True)[0:]def User2dict(User): User_dict = {} User_dict[“NickName”] = User[“NickName”] if User[“NickName”] else “NaN” User_dict[“City”] = User[“City”] if User[“City”] else “NaN” User_dict[“Sex”] = User[“Sex”] if User[“Sex”] else 0 User_dict[“Signature”] = User[“Signature”] if User[“Signature”] else “NaN” ……

基於微信開放的個人號介面python庫itchat,實現對微信好友的獲取,並對省份、性別、微信簽名做數據分析。 效果: 直接上代碼,建三個空文本文件stopwords.txt,newdit.txt、unionWords.txt,下載字體simhei.ttf或刪除字體要求的代碼,就可以直接運行。 #wxfriends.py 2018-07-09import itchatimport sysimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams[‘font.sans-serif’]=[‘SimHei’]#繪圖時可以顯示中文plt.rcParams[‘axes.unicode_minus’]=False#繪圖時可以顯示中文import jiebaimport jieba.posseg as psegfrom scipy.misc import imreadfrom wordcloud import WordCloudfrom os import path#解決編碼問題non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd) #獲取好友信息def getFriends():……

Python數據分析之雙色球基於線性回歸演算法預測下期中獎結果示例

本文實例講述了Python數據分析之雙色球基於線性回歸演算法預測下期中獎結果。分享給大家供大家參考,具體如下: 前面講述了關於雙色球的各種演算法,這裡將進行下期雙色球號碼的預測,想想有些小激動啊。 代碼中使用了線性回歸演算法,這個場景使用這個演算法,預測效果一般,各位可以考慮使用其他演算法嘗試結果。 發現之前有很多代碼都是重複的工作,為了讓代碼看的更優雅,定義了函數,去調用,頓時高大上了 #!/usr/bin/python# -*- coding:UTF-8 -*-#導入需要的包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport operatorfrom sklearn import datasets,linear_modelfrom sklearn.linear_model import LogisticRegression#讀取文件d……

以上就是本次介紹的Python數據電子書的全部相關內容,希望我們整理的資源能夠幫助到大家,感謝大家對鬼鬼的支持。

注·獲取方式:私信(666)

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/278240.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-19 13:21
下一篇 2024-12-19 13:21

相關推薦

  • TensorFlow Serving Java:實現開發全功能的模型服務

    TensorFlow Serving Java是作為TensorFlow Serving的Java API,可以輕鬆地將基於TensorFlow模型的服務集成到Java應用程序中。…

    編程 2025-04-29
  • Python訓練模型後如何投入應用

    Python已成為機器學習和深度學習領域中熱門的編程語言之一,在訓練完模型後如何將其投入應用中,是一個重要問題。本文將從多個方面為大家詳細闡述。 一、模型持久化 在應用中使用訓練好…

    編程 2025-04-29
  • ARIMA模型Python應用用法介紹

    ARIMA(自回歸移動平均模型)是一種時序分析常用的模型,廣泛應用於股票、經濟等領域。本文將從多個方面詳細闡述ARIMA模型的Python實現方式。 一、ARIMA模型是什麼? A…

    編程 2025-04-29
  • Python實現一元線性回歸模型

    本文將從多個方面詳細闡述Python實現一元線性回歸模型的代碼。如果你對線性回歸模型有一些了解,對Python語言也有所掌握,那麼本文將對你有所幫助。在開始介紹具體代碼前,讓我們先…

    編程 2025-04-29
  • VAR模型是用來幹嘛

    VAR(向量自回歸)模型是一種經濟學中的統計模型,用於分析並預測多個變數之間的關係。 一、多變數時間序列分析 VAR模型可以對多個變數的時間序列數據進行分析和建模,通過對變數之間的…

    編程 2025-04-28
  • 如何使用Weka下載模型?

    本文主要介紹如何使用Weka工具下載保存本地機器學習模型。 一、在Weka Explorer中下載模型 在Weka Explorer中選擇需要的分類器(Classifier),使用…

    編程 2025-04-28
  • 如何計算兩種股票收益率的協方差

    協方差是用來衡量兩個變數間線性關係強度的方法,它顯示了兩個變數如何一起變化。在股票市場中,我們常常需要計算兩種股票之間的協方差,以衡量它們的投資回報之間的關係。本文將從多個方面詳細…

    編程 2025-04-28
  • Python實現BP神經網路預測模型

    BP神經網路在許多領域都有著廣泛的應用,如數據挖掘、預測分析等等。而Python的科學計算庫和機器學習庫也提供了很多的方法來實現BP神經網路的構建和使用,本篇文章將詳細介紹在Pyt…

    編程 2025-04-28
  • Python AUC:模型性能評估的重要指標

    Python AUC是一種用於評估建立機器學習模型性能的重要指標。通過計算ROC曲線下的面積,AUC可以很好地衡量模型對正負樣本的區分能力,從而指導模型的調參和選擇。 一、AUC的…

    編程 2025-04-28
  • 量化交易模型的設計與實現

    本文將從多個方面對量化交易模型進行詳細闡述,並給出對應的代碼示例。 一、量化交易模型的概念 量化交易模型是一種通過數學和統計學方法對市場進行分析和預測的手段,可以幫助交易者進行決策…

    編程 2025-04-27

發表回復

登錄後才能評論