Python BioPython 模塊

我們大多數人在與其他編程語言進行比較時，都會想到為什麼 Python 會發展得如此之快？是的，Python 確實在很短的時間內就出名了，現在我們可以看到 Python 在各個領域的應用。是的，每個領域都意味著每個可以看到技術的領域。Python 編程語言不僅僅局限於編程或開發目的，現在我們也可以看到它在醫療、商業、國防、電子商務等各個領域的應用。Python 的巨大發展和影響力背後的主要原因是它的簡單性，以及隨之而來的大量庫。許多領域正因為使用了 Python 而達到成功和發展的新高度。

如果我們再看一下我們提到的領域的名稱，我們會發現我們也提到了醫學領域。現在，我們中的許多人會認為 Python 如何在醫療領域有所幫助。這個問題的答案不僅僅限於醫院或診所使用的醫療設備，Python 還被用於其他各種醫學領域。可以看到 Python 的一個重要醫學領域是生物信息學，在這裡我們不必混淆遺傳學(也就是生物技術)和生物信息學。

注:生物信息學是一個跨學科領域，包括生物學和各種其他領域的研究，如計算機科學、數學、物理等。

在 Python 中，我們有一個非常著名的模塊，Biopython，用於生物信息學，隨著許多科學家現在使用這個模塊進行研究，這個模塊的使用正在迅速增加。在本教程中，我們將學習這個 Biopython 模塊，並了解一些相關知識。我們還將通過一個例子了解它的安裝以及它如何用於生物信息學的研究工作。

BioPython 模塊

在 Python 甚至大多數編程語言中，Biopython 不僅是最受歡迎的，也是最大的生物信息學包。Biopython 模塊包含許多不同的子包，用於執行常見的生物信息學任務。Biopython 模塊主要用 python 編寫，但也包含 C 代碼，是 Chang 和 Chapman 開發的。Biopython 包中的 C 代碼用於優化模塊的複雜計算部分。Biopython 可以在多種操作系統上運行，如視窗、Linux、UNIX、蘋果 OS X 等。

在我們開始學習 BioPython 模塊之前，我們必須對生物信息學術語有一個基本的概念，如脫氧核糖核酸、核糖核酸、蛋白質序列、基因組序列等。否則就不容易理解這個模塊的工作原理和功能。除了生物信息學的基本術語之外，我們應該確保我們的系統中存在最新版本的 Python，並且我們熟悉 pip 安裝程序。

生物藝術模塊:簡介

Biopython 模塊是不同 python 模塊的集合，它提供了許多不同的功能來處理各種遺傳結構，如 DNA、RNA 和蛋白質序列操作。我們在這裡提到的蛋白質序列操作可以是在蛋白質序列中尋找基序，反向互補一個 DNA 序列等。在 Biopython 模塊中，我們提供了很多解析器，在這些解析器的幫助下，我們可以讀取 SwissPort、GenBank、FASTA 等所有主要的遺傳資料庫。這些解析器在閱讀主要的包裝器/介面時也非常有幫助，這對於運行其他流行的生物信息學工具/軟體如 Entrez、NCBI BLASTN 等非常有幫助。在 Biopython 模塊的幫助下，我們可以使用 python 程序在 Python 環境中完成所有這些工作。

生物藝術模塊:特點

到目前為止，我們肯定已經知道生物密碼模塊有多重要，以及它對所有與生物信息學領域相關的人有多有幫助。現在，我們將討論 BioPython 模塊提供的功能，以及它以哪些功能而聞名。以下是 BioPython 模塊的顯著特徵列表:

Biopython 模塊具有易於學習、易於移植和非常清晰的語法。
Biopython 模塊為我們提供了處理蛋白質序列格式的選項。
Biopython 模塊為我們提供了各種工具，通過這些工具，我們可以管理不同類型的蛋白質結構。
BioPython 模塊是面向對象的，解釋和交互與 python 相同。
Biopython 模塊為我們提供了許多本地生物信息學服務，包括 Clustalw、Blast、浮雕等。
BioPython 模塊支持各種生物信息學文件格式，如 SCOP、FASTA、Medline 或 PubMed、PDB、ExPaSY 相關格式和 GenBank。
通過 Biopython 模塊，我們可以訪問各種在線服務和資料庫，如 NCBI 服務，包括 PubMed、Blast、Entrez 等。，以及像 Prosite 和 SwissPort 這樣的 ExPaSY 服務。
BioPython 模塊還為我們提供了 BioSQL 的選項，這是一組標準的 SQL 表，我們可以使用它們來存儲序列以及特性和注釋。

我們現在已經看到了 Biopython 模塊的所有顯著特徵，現在我們可以理解這個模塊對於生物信息學領域所做的所有工作有多有用。

生物藝術模塊:目標

眾所周知，BioPython 模塊是生物信息學領域所有野外工作和研究工作的最佳 python 包，但是這個包的構建應該有一些目標。如果我們泛泛而談，BioPython 模塊的構建目標是通過 python 語言提供對生物信息學工作所需的所有數據和工具的標準但簡單且廣泛的訪問。但這不是構建這個模塊的唯一目標；還有其他主要目標。我們將討論構建 Biopython 模塊的所有這些主要目標，並在本節中列出它們。

以下是構建 Biopython 模塊的所有主要或特定目標的列表:

Biopython 模塊是為幫助進行基因組數據分析而構建的。
BioPython 模塊的構建目標是提供高質量且可重用的腳本和模塊。
構建 BioPython 模塊的目標之一是提供對所有生物信息學資源的標準化訪問。
BioPython 模塊也是以快速數組操作為目標構建的，它可以用於 PDB、馬爾可夫模型、樸素貝葉斯和集群代碼。

因此，這些都是 BioPython 模塊作為生物信息學軟體包在 python 中構建和引入的具體和主要目標。

BioPython 模塊:優勢

我們現在已經看到了 Biopython 模塊的特性，以及它如何對所有與生物信息學領域相關的人非常有幫助。我們可以很容易地描述這個模塊的一些優點，但是仍然有一些我們無法用列出的特性或目標來猜測的優點。因此，在這一節中，我們將看到 Biopython 模塊的所有優點，以及它在許多方面的幫助。

以下是將 Biopython 模塊用於所有與生物信息學相關的研究和工作的一些優勢:

Biopython 模塊為我們提供了在聚類過程中使用的不同微陣列數據類型。
Biopython 模塊還為醫療應用中使用的所有類型的期刊數據提供支持。
Biopython 模塊為我們提供了清除基於烹飪書風格的文檔的選項。
Biopython 模塊在讀取和寫入樹形視圖類型的不同文件時也非常有用。
BioPython 模塊非常有幫助，因為它通過提供各種子模塊來支持解析器開發，這些子模塊可以用來將生物信息學文件解析成序列加特徵的通用類或特定格式的記錄對象。
Biopython 模塊還支持用於 PDB 表示、分析和解析的結構數據。
Biopython 模塊還為各種生物信息學資料庫提供支持，如 BioSQL 資料庫(一個在所有生物信息學項目中被廣泛用作標準資料庫的資料庫)。

這是我們在使用 BioPython 模塊時擁有的所有優勢的列表，它還描述了這個模塊如何對與生物信息學領域相關的每個人都非常有幫助和有用。

BioPython 模塊:安裝

現在，我們將了解它的實現及其在 Python 程序中的功能。我們必須首先在我們的系統中安裝 Biopython 模塊，然後只有我們能夠在 python 程序中導入和使用該模塊的功能。因此，我們將在這裡了解 Biopython 模塊在我們系統中的安裝過程，我們還將檢查我們設備中安裝的 python 的兼容性。這是因為 2.5 以上的 python 版本支持 bioython Module，2.5 以下版本的 Python 不支持 bioython Module 的安裝和導入。這就是為什麼首先我們應該確保安裝在我們系統中的 Python 具有更高的要求或最新版本。

現在，如果我們不知道系統中安裝的 Python 版本，並且想要檢查它，那麼我們可以在命令提示符終端中使用以下命令:


python --version

當我們按回車鍵時，將顯示我們系統中安裝的 Python 版本，正如我們在輸出圖像中看到的那樣。

在顯示的版本中，我們可以看到系統中安裝的 Python 版本高於所需版本。但是，如果我們系統中的 Python 版本不等於或高於所需版本，即 Python 2.5 版本，那麼我們應該首先更新它，然後只有我們才能繼續安裝部分。

注意:有許多其他方法可以檢查我們系統中安裝的 Python 版本，但是我們更喜歡使用這種方法，因為這是最簡單的方法。

現在，在檢查了我們系統中安裝的 Python 版本後，我們將期待安裝 Biopython 模塊，我們將使用 pip 安裝程序來安裝該模塊。我們將使用命令提示符終端中的以下 pip 安裝程序命令在我們的系統中安裝 Biopython 模塊:


pip install biopython

當我們寫完命令後按回車鍵時，pip 安裝程序將開始在我們的系統中安裝 Biopython 模塊。

BioPython 模塊現在已經成功安裝在我們的系統中，現在我們可以將其導入到 python 程序中使用其功能並學習其實現。

BioPython 模塊:實施

為了了解 Biopython 模塊是如何工作的，以及它如何幫助解析生物信息學文件，我們首先要創建一個樣本 fasta 文件(這裡的「FASTA」指的是源自生物信息學軟體的文件格式序列)。在 FASTA 文件格式中，文件中的序列是一個接一個排列的，文件中出現的每個序列都會有自己的 ID、名稱、描述和實際序列數據。

我們首先要打開系統中的記事本，在裡面寫下以下內容:

現在，我們必須保存這個名為「SampleFile1.fasta」的記事本文件，並且我們必須將它保存在安裝 Python 的同一個目錄中，這樣我們就不必在打開文件時寫入整個目錄。現在，我們將在 python 程序中使用 BioPython 模塊，並通過解析我們創建的示例 fasta 文件來學習它的實現。

看看下面的 Python 程序，我們已經使用 Biopython 模塊的函數解析了示例 fasta 文件:


# Importing required functions from BioPython 模塊
from Bio.SeqIO import parse
from Bio.SeqRecord import SeqRecord 
from Bio.Seq import Seq 

# Open the sample FASTA file we have created
sampleFile = open("SampleFile1.fasta") 

# Parsing the file in the Python program
parseRecords = parse(sampleFile, "fasta")

# Using for loop to printing attributes of files
for record in parseRecords:
    # Printing multiple attributes of the file
    print("Id of FASTA File: %s" % record.id) 
    print("Name of FASTA File: %s" % record.name) 
    print("Description of FASTA File: %s" % record.description) 
    print("Annotations in FASTA File: %s" % record.annotations) 
    print("Sequence Data in FASTA File: %s" % record.seq)

輸出:

Id of FASTA File: sampleFile|P2426|FMS1_ECOLI
Name of FASTA File: sampleFile|P2426|FMS1_ECOLI
Description of FASTA File: sampleFile|P2426|FMS1_ECOLI CS1 is a fimbrial subunit of the precursor (Have CS1 pilin)
Annotations in FASTA File: {}
Sequence Data in FASTA File: MKLKKTIGADALATLFATMGASAVEKTISVTASVDMTVDLLQSDGSALPNSVALTYSPAVNNFEAHTINTVVQTNDSDKGVVVKLSAMPVLSNVLNPTLQIPVSVNFAGKPLSTTGITIDSNDLNFASSGVNKVSMTQKLSIHADATRVTGGALTAGQYQGLVSIILTKSTTTTTTTKGT

Id of FASTA File: sampleFile|P2631|FMS3_ECOLI
Name of FASTA File: sampleFile|P2631|FMS3_ECOLI
Description of FASTA File: sampleFile|P2631|FMS3_ECOLI CS3 is a fimbrial subunit of the precursor (Have CS3 pilin)
Annotations in FASTA File: {}
Sequence Data in FASTA File: MLKIKYLLIGLSKSAMSSYSLAAAGPTLTKELALTVLSPAALDATWAPQDNLTLSNTGVSNTLVGVLTLSNTSIDTVSIANTNVSDTSKNGTVTFAHETNNSASFATTISTDNANITLDKNAGNTIVKTTNGSPLPTNLPLKFITTEGNEHLVSGNYRANITITSTIKGGGTKKGTTDKK

說明:

我們首先在程序中導入了 Biopython 模塊的不同工具，比如 parse、SeqRecord 和 Seq，使用了『from』關鍵字。然後，我們使用 open()函數打開了在程序中創建的示例 fasta 文件。之後，我們對初始化的變數使用了 parse()函數來打開樣本文件，即 sample file。然後，我們遍歷 parseRecords 變數(文件解析的初始化變數)來列印文件的不同屬性。

我們展示了 BioPython 模塊的下列屬性及其各自的功能:

我們用 record.id 列印了文件中的 id，
我們使用 record.name 在文件中列印了序列的名稱，
我們使用 record.description 列印文件中存在的序列描述，
我們使用 record.annotations 來列印序列的注釋，
最後，我們使用 record.seq 列印樣本文件中的序列。

正如我們在輸出中看到的，樣本 fasta 文件的所有屬性都被成功列印，這些屬性首先為第一個序列列印，然後為第二個序列列印。

這是一個示例文件示例，展示了我們如何在生物信息學工作中使用 BioPython 模塊，以及它如何使用 python 程序幫助解析生物信息學軟體文件。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/291941.html