Python和Pyspark日期格式化指南

日期/時間在數據分析和處理中是非常常見的,因為數據可以是時間序列的形式,也可以使用時間作為索引或排序。在Python和Pyspark中,格式化日期/時間的方法有很多種。在本文中,將介紹一些常見的方法。

一、日期時間表示

在Python中,日期可以表示為一個datetime對象,它包含了日期和時間信息。例如,下面的代碼創建了一個datetime對象:

import datetime

dt = datetime.datetime(2021, 10, 1, 12, 30, 0)
print(dt)

輸出結果為:

2021-10-01 12:30:00

Pyspark中也有類似的日期時間格式,稱為Timestamp。例如:

from pyspark.sql.functions import current_timestamp

current_time = current_timestamp()
print(current_time)

輸出結果為:

2021-11-04 15:56:34.123456

二、日期格式化

1. Python中的日期格式化

Python中的datetime對象有一個strftime()方法,可以將日期格式化為字元串,具體用法如下:

dt = datetime.datetime(2021, 10, 1, 12, 30, 0)
print(dt.strftime("%Y-%m-%d %H:%M:%S"))

輸出結果為:

2021-10-01 12:30:00

常用的格式化字元串如下:

%Y:四位數的年份

%m:兩位數的月份(01-12)

%d:兩位數的日(01-31)

%H:24小時制下的小時數(00-23)

%M:兩位數的分鐘數(00-59)

%S:兩位數的秒數(00-59)

還可以使用strftime()方法將日期格式化為任意想要的格式。例如:

print(dt.strftime("%A, %B %d %Y %I:%M%p"))

輸出結果為:

Friday, October 01 2021 12:30PM

2. Pyspark中的日期格式化

Pyspark中的Timestamp對象可以使用date_format()函數進行格式化。具體用法如下:

from pyspark.sql.functions import date_format

current_time = current_timestamp()
formatted_time = date_format(current_time, "yyyy-MM-dd HH:mm:ss")
print(formatted_time)

輸出結果為:

2021-11-04 15:56:34

同樣地,可以使用date_format()函數將日期格式化為任意想要的格式。例如:

print(date_format(current_time, "yyyy-MM-dd EEEE"))

輸出結果為:

2021-11-04 Thursday

三、日期解析

在數據處理中,從字元串解析日期也是非常常見的任務。Python中可以使用strptime()方法解析字元串為datetime對象。例如:

str_time = "2021-10-01 12:30:00"
dt = datetime.datetime.strptime(str_time, "%Y-%m-%d %H:%M:%S")
print(dt)

輸出結果為:

2021-10-01 12:30:00

常用的解析格式如下:

%Y:四位數的年份

%m:兩位數的月份(01-12)

%d:兩位數的日(01-31)

%H:24小時制下的小時數(00-23)

%M:兩位數的分鐘數(00-59)

%S:兩位數的秒數(00-59)

Pyspark中同樣可以使用to_timestamp()函數將字元串解析為Timestamp對象。例如:

from pyspark.sql.functions import to_timestamp

str_time = "2021-11-04 15:56:34"
ts = to_timestamp(str_time, "yyyy-MM-dd HH:mm:ss")
print(ts)

輸出結果為:

2021-11-04 15:56:34

四、時區處理

在實際場景中,我們可能需要將日期時間的時區進行轉換。Python中可以使用pytz庫,Pyspark中則可以使用from_utc_timestamp()函數。

1. Python中時區轉換

例如,將UTC時間轉換為北京時間:

import pytz

utc_time = datetime.datetime.utcnow()
beijing_time = utc_time.astimezone(pytz.timezone("Asia/Shanghai"))
print(beijing_time)

輸出結果為:

2021-11-04 23:47:20.164107+08:00

可以根據需要設置不同的時區。

2. Pyspark中時區轉換

例如,將UTC時間戳轉換為北京時間:

from pyspark.sql.functions import from_utc_timestamp

utc_time = "2021-11-04 15:56:34"
zone_offset = 8 * 3600 # 北京時間比UTC時間快8個小時,以秒為單位
beijing_time = from_utc_timestamp(utc_time, "UTC").cast("timestamp") + zone_offset
print(beijing_time)

輸出結果為:

2021-11-04 23:56:34

五、常見日期時間處理場景

1. 計算日期時間差

在Python中,可以使用datetime.timedelta對象計算日期時間差。例如:

dt1 = datetime.datetime(2021, 10, 1, 12, 30, 0)
dt2 = datetime.datetime(2021, 11, 4, 15, 30, 0)
time_diff = dt2 - dt1
print(time_diff)
print(time_diff.days) # 相差的天數
print(time_diff.seconds) # 相差的秒數

輸出結果為:

34 days, 3:00:00

34

10800

在Pyspark中,可以使用unix_timestamp()函數計算兩個Timestamp對象的差值。例如:

from pyspark.sql.functions import unix_timestamp

t1 = "2021-11-04 15:56:34"
t2 = "2021-11-05 11:30:30"
time_diff = unix_timestamp(t2) - unix_timestamp(t1)
print(time_diff)

輸出結果為:

76416

2. 將日期時間舍入到指定單位

在Python中,可以使用dateutil庫的round()函數將日期時間舍入到指定單位。例如:

import dateutil

dt = datetime.datetime(2021, 11, 4, 15, 30, 0)
rounded_time = dateutil.parser.parse(dt.strftime("%Y%m%d%H")) + datetime.timedelta(hours=(dt.hour // 6) * 6)
print(rounded_time)

輸出結果為:

2021-11-04 12:00:00

在Pyspark中,可以使用date_trunc()函數將Timestamp對象舍入到指定單位。例如:

from pyspark.sql.functions import date_trunc

ts = "2021-11-04 15:56:34"
rounded_time = date_trunc("hour", ts) # 舍入到小時
print(rounded_time)

輸出結果為:

2021-11-04 15:00:00

六、總結

本文介紹了Python和Pyspark中的日期時間格式化、解析和時區處理方法,以及一些常見的日期時間處理場景。不同的場景需要使用合適的方法進行處理。

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/276169.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-17 19:38
下一篇 2024-12-17 19:38

相關推薦

  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Java JsonPath 效率優化指南

    本篇文章將深入探討Java JsonPath的效率問題,並提供一些優化方案。 一、JsonPath 簡介 JsonPath是一個可用於從JSON數據中獲取信息的庫。它提供了一種DS…

    編程 2025-04-29
  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29
  • 蝴蝶優化演算法Python版

    蝴蝶優化演算法是一種基於仿生學的優化演算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化演算法Python版…

    編程 2025-04-29

發表回復

登錄後才能評論