分類python代碼實例的簡單介紹

本文目錄一覽:

求Python代碼 如何分類統計

統計一個列表中每一個元素的個數在Python里有兩種實現方式,第一種是新建一個dict,鍵是列表中的元素,值是統計的個數,然後遍歷list。items=[“cc”,”cc”,”ct”,”ct”,”ac”]count={}foriteminitems:count[item]=count.get(item,0)+1

如何用python實現隨機森林分類

大家如何使用scikit-learn包中的類方法來進行隨機森林算法的預測。其中講的比較好的是各個參數的具體用途。

這裡我給出我的理解和部分翻譯:

參數說明:

最主要的兩個參數是n_estimators和max_features。

n_estimators:表示森林裡樹的個數。理論上是越大越好。但是伴隨着就是計算時間的增長。但是並不是取得越大就會越好,預測效果最好的將會出現在合理的樹個數。

max_features:隨機選擇特徵集合的子集合,並用來分割節點。子集合的個數越少,方差就會減少的越快,但同時偏差就會增加的越快。根據較好的實踐經驗。如果是回歸問題則:

max_features=n_features,如果是分類問題則max_features=sqrt(n_features)。

如果想獲取較好的結果,必須將max_depth=None,同時min_sample_split=1。

同時還要記得進行cross_validated(交叉驗證),除此之外記得在random forest中,bootstrap=True。但在extra-trees中,bootstrap=False。

這裡也給出一篇老外寫的文章:調整你的隨機森林模型參數 

這裡我使用了scikit-learn自帶的iris數據來進行隨機森林的預測:

[python] view plain copy

from sklearn.tree import DecisionTreeRegressor

from sklearn.ensemble import RandomForestRegressor

import numpy as np

from sklearn.datasets import load_iris

iris=load_iris()

#print iris#iris的4個屬性是:萼片寬度 萼片長度 花瓣寬度 花瓣長度 標籤是花的種類:setosa versicolour virginica

print iris[‘target’].shape

rf=RandomForestRegressor()#這裡使用了默認的參數設置

rf.fit(iris.data[:150],iris.target[:150])#進行模型的訓練

#

#隨機挑選兩個預測不相同的樣本

instance=iris.data[[100,109]]

print instance

print ‘instance 0 prediction;’,rf.predict(instance[0])

print ‘instance 1 prediction;’,rf.predict(instance[1])

print iris.target[100],iris.target[109]

返回的結果如下:

(150,)

[[ 6.3  3.3  6.   2.5]

 [ 7.2  3.6  6.1  2.5]]

instance 0 prediction; [ 2.]

instance 1 prediction; [ 2.]

2 2

在這裡我有點困惑,就是在scikit-learn算法包中隨機森林實際上就是一顆顆決策樹組成的。但是之前我寫的決策樹博客中是可以將決策樹給顯示出來。但是隨機森林卻做了黑盒處理。我們不知道內部的決策樹結構,甚至連父節點的選擇特徵都不知道是誰。所以我給出下面的代碼(這代碼不是我的原創),可以顯示的顯示出所有的特徵的貢獻。所以對於貢獻不大的,甚至是負貢獻的我們可以考慮刪除這一列的特徵值,避免做無用的分類。

[python] view plain copy

from sklearn.cross_validation import cross_val_score, ShuffleSplit

X = iris[“data”]

Y = iris[“target”]

names = iris[“feature_names”]

rf = RandomForestRegressor()

scores = []

for i in range(X.shape[1]):

score = cross_val_score(rf, X[:, i:i+1], Y, scoring=”r2″,

cv=ShuffleSplit(len(X), 3, .3))

scores.append((round(np.mean(score), 3), names[i]))

print sorted(scores, reverse=True)

顯示的結果如下:

[(0.934, ‘petal width (cm)’), (0.929, ‘petal length (cm)’), (0.597, ‘sepal length (cm)’), (0.276, ‘sepal width (cm)’)]

這裡我們會發現petal width、petal length這兩個特徵將起到絕對的貢獻,之後是sepal length,影響最小的是sepal width。這段代碼將會提示我們各個特徵的貢獻,可以讓我們知道部分內部的結構。

python把excel第一列相同的分類

Python操作excel文件根據某一字段將相同的類拆分。

需要安裝pandas,xlrd,openpyxl庫。

定義新列需要用到columns.tolist()函數,具體代碼如下:col_name=df.columns.tolistcol_name.insert(新列位置,’新列名稱’)wb=df.reindex(columns=col_name)然後後面再接一行代碼用來定義新列的計算規則。

如何用python將文件夾中圖片根據顏色分類

本文實例講述了Python通過PIL獲取圖片主要顏色並和顏色庫進行對比的方法。分享給大家供大家參考。具體分析如下:

這段代碼主要用來從圖片提取其主要顏色,類似Goolge和Baidu的圖片搜索時可以指定按照顏色搜索,所以我們先需要將每張圖片的主要顏色提取出來,然後將顏色劃分到與其最接近的顏色段上,然後就可以按照顏色搜索了。

在使用google或者baidu搜圖的時候會發現有一個圖片顏色選項,感覺非常有意思,有人可能會想這肯定是人為的去劃分的,呵呵,有這種可能,但是估計人會累死,開個玩笑,當然是通過機器識別的,海量的圖片只有機器識別才能做到。

那用python能不能實現這種功能呢?答案是:能

利用python的PIL模塊的強大的圖像處理功能就可以做到,下面上代碼: 

複製代碼代碼如下:

import colorsys

def get_dominant_color(image):

#顏色模式轉換,以便輸出rgb顏色值

image = image.convert(‘RGBA’)

#生成縮略圖,減少計算量,減小cpu壓力

image.thumbnail((200, 200))

max_score = None

dominant_color = None

for count, (r, g, b, a) in image.getcolors(image.size[0] * image.size[1]):

# 跳過純黑色

if a == 0:

continue

saturation = colorsys.rgb_to_hsv(r / 255.0, g / 255.0, b / 255.0)[1]

y = min(abs(r * 2104 + g * 4130 + b * 802 + 4096 + 131072) 13, 235)

y = (y – 16.0) / (235 – 16)

# 忽略高亮色

if y 0.9:

continue

# Calculate the score, preferring highly saturated colors.

# Add 0.1 to the saturation so we don’t completely ignore grayscale

# colors by multiplying the count by zero, but still give them a low

# weight.

score = (saturation + 0.1) * count

if score max_score:

max_score = score

dominant_color = (r, g, b)

return dominant_color

使用方法:

from PIL import Image

print get_dominant_color(Image.open(‘logo.jpg’))

這樣就會返回一個rgb顏色,但是這個值是很精確的範圍,那我們如何實現百度圖片那樣的色域呢??

其實方法很簡單,r/g/b都是0-255的值,我們只要把這三個值分別劃分相等的區間,然後組合,取近似值。例如:劃分為0-127,和128-255,然後自由組合,可以出現八種組合,然後從中挑出比較有代表性的顏色即可。

當然我只是舉一個例子,你也可以劃分的更細,那樣顯示的顏色就會更準確~~大家趕快試試吧

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/254523.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-14 17:42
下一篇 2024-12-14 17:42

相關推薦

  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29
  • 蝴蝶優化算法Python版

    蝴蝶優化算法是一種基於仿生學的優化算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化算法Python版…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智能、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29

發表回復

登錄後才能評論