關於python中類似於group的信息

本文目錄一覽：

1、python 常用的系統函數有哪些
2、python 21：match對象的兩個方法group()和groups()
3、python 正則表達式 groups和group有什麼區別？
4、python數據分析需要學習哪些內容？
5、python模擬數據庫group by count怎麼寫

python 常用的系統函數有哪些

1.常用內置函數：(不用import就可以直接使用)

help(obj) 在線幫助, obj可是任何類型

callable(obj) 查看一個obj是不是可以像函數一樣調用

repr(obj) 得到obj的表示字符串，可以利用這個字符串eval重建該對象的一個拷貝

eval_r(str) 表示合法的python表達式，返回這個表達式

dir(obj) 查看obj的name space中可見的name

hasattr(obj,name) 查看一個obj的name space中是否有name

getattr(obj,name) 得到一個obj的name space中的一個name

setattr(obj,name,value) 為一個obj的name space中的一個name指向vale這個object

delattr(obj,name) 從obj的name space中刪除一個name

vars(obj) 返回一個object的name space。用dictionary表示

locals() 返回一個局部name space,用dictionary表示

globals() 返回一個全局name space,用dictionary表示

type(obj) 查看一個obj的類型

isinstance(obj,cls) 查看obj是不是cls的instance

issubclass(subcls,supcls) 查看subcls是不是supcls的子類

類型轉換函數

chr(i) 把一個ASCII數值,變成字符

ord(i) 把一個字符或者unicode字符,變成ASCII數值

oct(x) 把整數x變成八進制表示的字符串

hex(x) 把整數x變成十六進制表示的字符串

str(obj) 得到obj的字符串描述

list(seq) 把一個sequence轉換成一個list

tuple(seq) 把一個sequence轉換成一個tuple

dict(),dict(list) 轉換成一個dictionary

int(x) 轉換成一個integer

long(x) 轉換成一個long interger

float(x) 轉換成一個浮點數

complex(x) 轉換成複數

max(…) 求最大值

min(…) 求最小值

用於執行程序的內置函數

complie 如果一段代碼經常要使用,那麼先編譯,再運行會更快。

2.和操作系統相關的調用

系統相關的信息模塊 import sys

sys.argv是一個list,包含所有的命令行參數.

sys.stdout sys.stdin sys.stderr 分別表示標準輸入輸出,錯誤輸出的文件對象.

sys.stdin.readline() 從標準輸入讀一行 sys.stdout.write(“a”) 屏幕輸出a

sys.exit(exit_code) 退出程序

sys.modules 是一個dictionary，表示系統中所有可用的module

sys.platform 得到運行的操作系統環境

sys.path 是一個list,指明所有查找module，package的路徑.

操作系統相關的調用和操作 import os

os.environ 一個dictionary 包含環境變量的映射關係 os.environ[“HOME”] 可以得到環境變量HOME的值

os.chdir(dir) 改變當前目錄 os.chdir(‘d:\\outlook’) 注意windows下用到轉義

os.getcwd() 得到當前目錄

os.getegid() 得到有效組id os.getgid() 得到組id

os.getuid() 得到用戶id os.geteuid() 得到有效用戶id

os.setegid os.setegid() os.seteuid() os.setuid()

os.getgruops() 得到用戶組名稱列表

os.getlogin() 得到用戶登錄名稱

os.getenv 得到環境變量

os.putenv 設置環境變量

os.umask 設置umask

os.system(cmd) 利用系統調用，運行cmd命令

操作舉例：

os.mkdir(‘/tmp/xx’) os.system(“echo ‘hello’ /tmp/xx/a.txt”) os.listdir(‘/tmp/xx’)

os.rename(‘/tmp/xx/a.txt’,’/tmp/xx/b.txt’) os.remove(‘/tmp/xx/b.txt’) os.rmdir(‘/tmp/xx’)

用python編寫一個簡單的shell

#!/usr/bin/python

import os, sys

cmd = sys.stdin.readline()

while cmd:

os.system(cmd)

cmd = sys.stdin.readline()

用os.path編寫平台無關的程序

os.path.abspath(“1.txt”) == os.path.join(os.getcwd(), “1.txt”)

os.path.split(os.getcwd()) 用於分開一個目錄名稱中的目錄部分和文件名稱部分。

os.path.join(os.getcwd(), os.pardir, ‘a’, ‘a.doc’) 全成路徑名稱.

os.pardir 表示當前平台下上一級目錄的字符 ..

os.path.getctime(“/root/1.txt”) 返回1.txt的ctime(創建時間)時間戳

os.path.exists(os.getcwd()) 判斷文件是否存在

os.path.expanduser(‘~/dir’) 把~擴展成用戶根目錄

os.path.expandvars(‘$PATH’) 擴展環境變量PATH

os.path.isfile(os.getcwd()) 判斷是否是文件名，1是0否

os.path.isdir(‘c:\Python26\temp’) 判斷是否是目錄,1是0否

os.path.islink(‘/home/huaying/111.sql’) 是否是符號連接 windows下不可用

os.path.ismout(os.getcwd()) 是否是文件系統安裝點 windows下不可用

os.path.samefile(os.getcwd(), ‘/home/huaying’) 看看兩個文件名是不是指的是同一個文件

os.path.walk(‘/home/huaying’, test_fun, “a.c”)

遍歷/home/huaying下所有子目錄包括本目錄,對於每個目錄都會調用函數test_fun.

例：在某個目錄中，和他所有的子目錄中查找名稱是a.c的文件或目錄。

def test_fun(filename, dirname, names): //filename即是walk中的a.c dirname是訪問的目錄名稱

if filename in names: //names是一個list,包含dirname目錄下的所有內容

print os.path.join(dirname, filename)

os.path.walk(‘/home/huaying’, test_fun, “a.c”)

文件操作

打開文件

f = open(“filename”, “r”) r只讀 w寫 rw讀寫 rb讀二進制 wb寫二進制 w+寫追加

讀寫文件

f.write(“a”) f.write(str) 寫一字符串 f.writeline() f.readlines() 與下read類同

f.read() 全讀出來 f.read(size) 表示從文件中讀取size個字符

f.readline() 讀一行,到文件結尾,返回空串. f.readlines() 讀取全部，返回一個list. list每個元素表示一行，包含”\n”\

f.tell() 返回當前文件讀取位置

f.seek(off, where) 定位文件讀寫位置. off表示偏移量，正數向文件尾移動，負數表示向開頭移動。

where為0表示從開始算起,1表示從當前位置算,2表示從結尾算.

f.flush() 刷新緩存

關閉文件

f.close()

regular expression 正則表達式 import re

簡單的regexp

p = re.compile(“abc”) if p.match(“abc”) : print “match”

上例中首先生成一個pattern(模式),如果和某個字符串匹配，就返回一個match object

除某些特殊字符metacharacter元字符，大多數字符都和自身匹配。

這些特殊字符是。^ $ * + ? { [ ] \ | ( )

字符集合(用[]表示)

列出字符,如[abc]表示匹配a或b或c,大多數metacharacter在[]中只表示和本身匹配。例：

a = “.^$*+?{\\|()” 大多數metachar在[]中都和本身匹配，但”^[]\”不同

p = re.compile(“[“+a+”]”)

for i in a:

if p.match(i):

print “[%s] is match” %i

else:

print “[%s] is not match” %i

在[]中包含[]本身，表示”[“或者”]”匹配.用

和

表示.

^出現在[]的開頭,表示取反.[^abc]表示除了a,b,c之外的所有字符。^沒有出現在開頭，即於身身匹配。

-可表示範圍.[a-zA-Z]匹配任何一個英文字母。[0-9]匹配任何數字。

\在[]中的妙用。

\d [0-9]

\D [^0-9]

\s [ \t\n\r\f\v]

\S [^ \t\n\r\f\v]

\w [a-zA-Z0-9_]

\W [^a-zA-Z0-9_]

\t 表示和tab匹配, 其他的都和字符串的表示法一致

\x20 表示和十六進制ascii 0x20匹配

有了\，可以在[]中表示任何字符。註：單獨的一個”.”如果沒有出現[]中，表示出了換行\n以外的匹配任何字符,類似[^\n].

regexp的重複

{m,n}表示出現m個以上(含m個),n個以下(含n個). 如ab{1,3}c和abc,abbc,abbbc匹配，不會與ac,abbbc匹配。

m是下界，n是上界。m省略表下界是0,n省略，表上界無限大。

*表示{,} +表示{1,} ?表示{0,1}

最大匹配和最小匹配 python都是最大匹配，如果要最小匹配，在*,+,?,{m,n}後面加一個?.

match object的end可以得到匹配的最後一個字符的位置。

re.compile(“a*”).match(‘aaaa’).end() 4 最大匹配

re.compile(“a*?”).match(‘aaaa’).end() 0 最小匹配

使用原始字符串

字符串表示方法中用\\表示字符\.大量使用影響可讀性。

解決方法：在字符串前面加一個r表示raw格式。

a = r”\a” print a 結果是\a

a = r”\”a” print a 結果是\”a

使用re模塊

先用re.compile得到一個RegexObject 表示一個regexp

後用pattern的match,search的方法,得到MatchObject

再用match object得到匹配的位置,匹配的字符串等信息

RegxObject常用函數:

re.compile(“a”).match(“abab”) 如果abab的開頭和re.compile(“a”)匹配，得到MatchObject

_sre.SRE_Match object at 0x81d43c8

print re.compile(“a”).match(“bbab”)

None 註：從str的開頭開始匹配

re.compile(“a”).search(“abab”) 在abab中搜索第一個和re_obj匹配的部分

_sre.SRE_Match object at 0x81d43c8

print re.compile(“a”).search(“bbab”)

_sre.SRE_Match object at 0x8184e18 和match()不同,不必從開頭匹配

re_obj.findall(str) 返回str中搜索所有和re_obj匹配的部分.

返回一個tuple,其中元素是匹配的字符串.

MatchObject的常用函數

m.start() 返回起始位置,m.end()返回結束位置(不包含該位置的字符).

m.span() 返回一個tuple表示(m.start(), m.end())

m.pos(), m.endpos(), m.re(), m.string()

m.re().search(m.string(), m.pos(), m.endpos()) 會得到m本身

m.finditer()可以返回一個iterator,用來遍歷所有找到的MatchObject.

for m in re.compile(“[ab]”).finditer(“tatbxaxb”):

print m.span()

高級regexp

| 表示聯合多個regexp. A B兩個regexp，A|B表示和A匹配或者跟B匹配.

^ 表示只匹配一行的開始行首,^只有在開頭才有此特殊意義。

$ 表示只匹配一行的結尾

\A 表示只匹配第一行字符串的開頭 ^匹配每一行的行首

\Z 表示只匹配行一行字符串的結尾 $匹配第一行的行尾

\b 只匹配詞的邊界例：\binfo\b 只會匹配”info” 不會匹配information

\B 表示匹配非單詞邊界

示例如下：

print re.compile(r”\binfo\b”).match(“info “) #使用raw格式 \b表示單詞邊界

_sre.SRE_Match object at 0x817aa98

print re.compile(“\binfo\b”).match(“info “) #沒有使用raw \b表示退格符號

None

print re.compile(“\binfo\b”).match(“\binfo\b “)

_sre.SRE_Match object at 0x8174948

分組(Group) 示例：re.compile(“(a(b)c)d”).match(“abcd”).groups() (‘abc’, ‘b’)

#!/usr/local/bin/python

import re

x = “””

name: Charles

Address: BUPT

name: Ann

Address: BUPT

“””

#p = re.compile(r”^name:(.*)\n^Address:(.*)\n”, re.M)

p = re.compile(r”^name:(?P.*)\n^Address:(?P.*)\n”, re.M)

for m in p.finditer(x):

print m.span()

print “here is your friends list”

print “%s, %s”%m.groups()

Compile Flag

用re.compile得到RegxObject時，可以有一些flag用來調整RegxObject的詳細特徵.

DOTALL, S 讓.匹配任意字符,包括換行符\n

IGNORECASE, I 忽略大小寫

LOCALES, L 讓\w \W \b \B和當前的locale一致

MULTILINE, M 多行模式，隻影響^和$(參見上例)

VERBOSE, X verbose模式

python 21：match對象的兩個方法group()和groups()

返回查到到的匹配文本。

import re

phoneNumRegex = re.compile(r’\d\d\d-\d\d\d-\d\d\d\d’)

mo = phoneNumRegex.search(‘My number is 415-555-4242.’)

print(‘Phone number found:’ + mo.group())

Phone number found:415-555-4242

假定想要將區號從電話號碼中分離，添加括號將在正則表達式中創建「分組」：(\d\d\d) -(\d\d\d-\d\d\d\d)。然後可以使用group()匹配對象方法，從一個分組中獲取匹配的文本。

正則表達式字符串中的第一對括號是第1組。第二對括號是第2組。

向group()匹配對象方法傳入整數1或2,就可以取得匹配文本的不同部分。向group()方法傳入0或不傳入參數，將返回整個匹配的文本。

group()方法在分組的情況下，可以通過指定參數來返回指定分組的匹配文本。

phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)’)

mo = phoneNumRegex.search(‘My number is 415-555-4242.’)

mo.group(1)

‘415’

mo.group(2)

‘555-4242’

mo.group(0)

‘415-555-4242’

mo.group()

‘415-555-4242’

使用groups()方法,返回一個元組。有多少分組就有多少元素。

mo.groups()

(‘415′ ,’555-4242’)

areaCode, mainNumber =mo.groups()

print(areaCode)

415

print(mainNumber)

555-4242

python 正則表達式 groups和group有什麼區別？

group和groups是兩個不同的函數。

一般，m.group(N) 返回第N組括號匹配的字符。

而m.group() == m.group(0) == 所有匹配的字符，與括號無關，這個是API規定的。

m.groups() 返回所有括號匹配的字符，以tuple格式。

m.groups() == (m.group(0), m.group(1), …)

正則表達式中，group（）用來提取分組截獲的字符串，（）用來分組。

組是通過 “(” 和 “)” 元字符來標識的。 “(” 和 “)” 有很多在數學表達式中相同的意思；它們一起把在它們裏面的表達式組成一組。舉個例子，你可以用重複限制符，象 *, +, ?, 和 {m,n}，來重複組裡的內容，比如說(ab)* 將匹配零或更多個重複的 “ab”。

如果不引入括號，整個個表達式作為一個組，是group(0)

對於題目中的例子：

m = re.match(“([abc])+”, “abc”)

+號在括號外面。括號最多匹配到一個字符，要麼是a，要麼是c，這個python引擎匹配的是末尾的c。

而m.group() == m.group(0) 這個返回的是整個匹配的字符串”abc”.

python數據分析需要學習哪些內容？

1.統計基礎

理工科的學生在本科階段學習過概率論與數理統計，單從做數據分析的角度已經夠用。其他方面，可以根據需要查看相關書籍，隨時進行查漏補缺即可。個人推薦《深入淺出統計學》，可以讓統計理論的學習有趣又自然。

2.數據庫知識

關係型數據庫很重要。在學習數據分析的初期甚至很長一段時間，你接觸到的數據都存儲在關係型數據庫中，需要學習SQL語言進行數據查詢。關於SQL語言，強力推薦《SQL必知必會》，整本書通俗易懂，是學習SQL語言的不二之選。

學習數據庫的本質就是在學習一種與數據打交道的邏輯思維與能力。編程中的很多思想都和關係型數據庫、SQL相通，比如：SQL中對data進行group by的操作，這個在Excel里類似於透視表，在Python/R中也有相應的group function去處理數據。甚至在以後的進階過程，你會接觸到分佈式數據庫和所對應的no-SQL語句。

3.編程能力

Excel。透視表(Pivot Table)是做數據分析的必備技能。透視表可以幫你迅速匯總數據，看到各類型數據的直觀特徵就像是讓你站在更高的視角看待數據。作為進階，Excel自帶的函數、各種插件，以及VBA也是很好的工具。

python模擬數據庫group by count怎麼寫

1、group by和count（）操作同時使用，查出來的東西不一樣，每個都有其應用的情況，如本例：最開始方法查出來的就是分組以後每個分組的記錄條數，如果程序中要計算每個分組的記錄條數，恰恰用這種方法。

2 、要更多靠數據庫去解決問題。

3 、意識到子查詢的威力，當遇到解決不了的問題的時候，可以試試用子查詢去解決。（實踐證明的）。

原創文章，作者：GTZAR，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/330903.html