將數據從r包導入python,r數據的導入和導出

本文目錄一覽:

如何在R中導入不同類型的數據

在使用R的時候,我們肯定需要導入數據,現在總結一下如何導入不同類型的數據:

1.使用鍵盤輸入數據

在導入數據比較少的時候,我們使用這種方法。R中的函數 edit() 會自動調用一個允許手動輸入數據的文本編輯器。具體步驟如下:

(1) 創建一個空數據框(或矩陣) ,其中變數名和變數的模式需與理想中的最終數據集一致;

(2) 針對這個數據對象調用文本編輯器,輸入你的數據,並將結果保存回此數據對象中。在下例中,你將創建一個名為 mydata 的數據框,它含有三個變數: age (數值型) 、 height(字元型)和 weight (數值型) 。然後通過edit()函數調用文本編輯器,鍵入數據,最後保存結果。編輯器界面如下,我們在這個界面可以輸入變數值,也可以改變變數類型。

[plain] view plain copy

mydata-data.frame(age=numeric(0),height=numeric(0),weight=numeric(0))

edit(mydata)

需要注意的是函數 edit() 事實上是在對象的一個副本上進行操作的。如果你沒有將它其賦值到一個對象,你的所有修改將會全部丟失!

2.導入帶分隔符的文本文件數據/CSV文件

read.table() 可以從帶分隔符的文本文件中導入數據。此函數可讀入一個表格格式的文件並將其保存為一個數據框。其語法如下:

read.table(file,header=value,sep=”delimter”,row.names=”name”)

file表示文件名,header表示表的首行是否包含變數值的邏輯值,sep 用來指定分隔數據的分隔符, row.names 用以指定一個或多個表示行標識符的變數,是個一可選參數,他還有許多參數,可以通過幫助文檔進行查看。

3.導入Excel數據

雖然Excel可能是世界上最流行的數據分析工具,但R如果直接讀取Excel數據還是比較困難的。

但我們可以在Excel中將數據將其導出為一個逗號分隔文件(csv) ,並使用前文描述的方式將其導入R中。在Windows系統中,你也可以使用 RODBC 包來訪問Excel文件。但它好像只能在32位的R軟體上面使用。雖然也有一些包可以這些問題,比如gdata,XLConnect,xlsReadWrite等,但它的有許多前提要求,比如Java環境,Per,或者32-bit R。因此一般情況將數據轉換為csv文件或者將數據導入到資料庫在導入在R。

4.導入XML數據

強大的R中有若干用於處理XML文件的包。 XML 包允許用戶讀取、寫入和操作XML文件。因為我還沒有遇到這種數據,因此還不太清楚xml包大體如何使用,感興趣的朋友可以下載xml包,通過幫助文檔進行學習。

5.從網頁抓取數據

不僅Python可以爬取網頁數據,R也可以在Web數據抓取。在這個的過程中,用戶可以從互聯網上提取嵌入在網頁中的信息,並將其保存為R中的數據結構以做進一步的分析。 完成這個任務的一種途徑是使用函數 readLines()下載網頁,然後使用如 grep() 和 gsub() 一類的函數處理它。對於結構複雜的網頁,可以使用RCurl 包和 XML 包來提取其中想要的信息。

6.導入SPSS數據

我們可以調用通過 foreign 包中的函數 read.spss() 將SPSS數據集可以導入到R中,也可以使用 Hmisc 包中的 spss.get() 函數。函數 spss.get() 是對 read. spss() 的一個封裝,它可以為你自動設置後者的許多參數,讓整個轉換過程更加簡單一致,最後得到數據分析人員所期望的結果。使用的時候我們只需要安裝Hmisc 包,在較新的R中foreign 包已被默認安裝。

[plain] view plain copy

mydata-spss.get(“data.sav”,use.value.labels=TRUE)

這段代碼中,data.sav 是要導入的SPSS數據文件, use.value.labels=TRUE 表示讓函數將帶有值標籤的變數導入為R中水平對應相同的因子, mydataframe 是導入後的R數據框。

python 導入數據包的幾種方法

1.直接導入整個數據包:improt 數據包

2.導入數據包中的某一個函數: from 數據包 improt 函數(當函數這一項為 * 時為導入整個數據包)

3. 導入之定義的數據包()

將R環境下的Seurat RDS格式數據轉化成為到python環境下scanpy的anndata格式

無論是單細胞、空間組還是ATAC的數據,有時由於下游分析的需求或可視化的需求,同時由於python的運算速度的優勢,目前越來越多單細胞分析的工具開始在python環境下開發(scanpy/spGCN/scVelo……),但是大家大多都習慣了R的分析環境(Seurat/Harmony/Monocle3……),所以我們經常需要在不同的環境中運行同一個分析對象,這所以涉及到的數據類型的轉變就非常關鍵了。

想直接想找工具將RDS轉為python可讀數據對象的包,目前還沒有……(如果有大佬可以開發一下)。

目前所以從數據本身出發有三種方式,總結自目前網路上一些可行的方法:

1,提取矩陣(稀疏/稠密)和特徵信息(metadata),手動構築 anndata (單細胞分析時python中的一種數據結構,具體了解可以看一下: ,寫得挺好)就好。前提是對R的S4對象和python的anndata對象有基礎的認識,就可以搞定,這是最本質也是最萬能的方法,除了門檻高。

2,存儲的時候就注意,不要保存成rds,或者已經這樣保存了也無所謂,可以讀入再重新存:

(1)存儲成 h5ad格式 。Seurat數據寫成h5需要藉助包 SeuratDisk :

從R環境下Seurat的對象保存成h5ad的格式:

然後用python的anndata包/scanpy包直接讀入就好,因為h5ad本來就是單細胞在跑一python環境中分析最基礎的格式,對標R中的seurat對象或sce對象

這個方法可以具體參考: 他寫得更加詳細一點

(2)Seurat官方設置 loom格式 也是可行方式之一:

參見:

將Seurat對象轉為loom:

在python環境下讀入loom,成為adata:

總而言之,經個人使用和實際操作來說, 第二個存儲成為h5ad的方法時最好用的、也最友好 ,除了只能保存一個assay之外,就都沒問題,但是如果許多保存多個assay成為anndata中的多個layer,這就的用手動的方法了。

原創文章,作者:GEGBX,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/331155.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
GEGBX的頭像GEGBX
上一篇 2025-01-16 15:47
下一篇 2025-01-16 15:47

相關推薦

  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智慧、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • 蝴蝶優化演算法Python版

    蝴蝶優化演算法是一種基於仿生學的優化演算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化演算法Python版…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29

發表回復

登錄後才能評論