我們大多數人往往對閱讀完整的報紙甚至一篇完整的文章不感興趣。在這種情況下,我們只想知道文章的關鍵詞、標題或許多這樣的小東西,這樣我們就不必花那麼多時間閱讀一篇完整的文章。當我們只想閱讀精選的文章,卻不知道如何為自己挑選有用的文章時,這也變得很有用。我們都必須意識到什麼是網頁抓取以及它是如何工作的。我們也知道網路報廢有多重要,以及從一個源網站中提取所有有用的信息對我們有多大幫助。我們也可以在報紙網站上執行這一操作,從那裡我們可以獲取一篇文章的鏈接,並從該文章中提取有用的信息。我們可以通過使用 Python 程序來執行所有這些,對於這個任務,Python 為我們提供了一個非常有用的模塊,即newspaper3k
模塊。在本教程中,我們將學習 Python 的newspaper3k
模塊,我們將學習如何使用該模塊使用 Python 程序執行報紙報廢和管理。
Python 模塊中的報紙,基本上是為了從報紙文章中精選有用的信息而設計的。因此,我們可以使用 Python 的newspaper3k
模塊,通過在 Python 程序中對文章的網路鏈接進行問題來對文章進行廢棄和處理。我們可以從一篇文章中檢索所有有用的信息,如標題、關鍵詞等。,通過使用newspaper3k
模塊的功能。Python 的newspaper3k
模塊使用了具有網頁廢棄功能的高級演算法,因此可以從報紙網站中提取所有有用的文本。newspaper3k
模塊在我們日常生活中通常使用的在線報紙網站上工作非常令人驚訝。
newspaper3k
模塊不是 Python 中的內置模塊,因此,我們必須首先在系統中安裝這個模塊,只有在此之後,我們才能從文章的網路鏈接中收集有用的信息。我們可以使用多種方法從多個來源安裝這個newspaper3k
模塊,但是我們建議的方法是使用畫中畫安裝程序。通過 pip 安裝程序,我們可以在命令提示符終端使用以下命令非常容易地安裝newspaper3k
模塊:
pip install newspaper3k
一旦我們將上面給出的命令寫入我們設備的終端 Shell,我們就應該按回車鍵開始安裝過程,然後我們必須等待一段時間才能完成安裝過程。一旦該newspaper3k
模塊的安裝過程完成,它將在終端 Shell 中向我們顯示以下安裝成功消息窗口:
我們可以看到,Python 的newspaper3k
模塊已經成功安裝在我們的系統中,現在,我們可以通過將其導入 Python 程序來使用newspaper3k
模塊中的功能來執行報紙報廢。
Python 的newspaper3k
模塊支持它,這就是為什麼它變得更加流行的原因,因為人們可以從他們選擇的語言中刪除新聞文章。newspaper3k
模塊支持以下語言,並附帶其輸入代碼:
| -你好。不,不。 | 語言 | 語言的輸入代碼 |
| one | 阿拉伯語 | 阿肯色州 |
| Two | 中國人 | 中文 |
| three | 希臘的 | -他 |
| four | 丹麥的 | 這 |
| five | 義大利的 | 它 |
| six | 德國人 | 需要(demand 的縮寫) |
| seven | …還有更多 | …. |
當我們在程序中為一篇文章的網路鏈接創建一個實例時,我們必須提供一種語言的輸入代碼。我們在程序中提供的語言代碼將幫助newspaper3k
模塊執行並使用其特定語言的特定演算法集來從文章中抓取和精選。
我們已經在系統中安裝了newspaper3k
模塊,現在我們都想執行它的實現,這樣我們就可以理解這個模塊是如何工作的。newspaper3k
模塊的實現也將幫助我們學習如何從文章中挑選多個關鍵詞和有用的信息。但是,在 Python 程序中使用newspaper3k
模塊 will 之前,我們應該注意到,我們必須首先為文章鏈接創建一個實例。我們創建的文章實例將使用newspaper3k
模塊的功能從文章中獲取所有信息。因此,首先,我們應該了解文章實例的語法以及其中使用了哪些參數。
創建實例的語法:
按照下面的語法,我們必須在程序中使用來為文章創建一個實例:
instanceName = Article(urlOfArticle, language = "language input code according to the article's language")
從上面寫的語法中我們可以看到,我們使用了以下兩個參數:
- 文章網址:在這裡,我們必須提供文章的網路鏈接,我們將從這裡收集文章中的有用信息。
- 語言:我們要提供文章所用語言的輸入代碼。
我們現在已經學習了創建文章實例的語法,現在可以繼續newspaper3k
模塊的實現部分了。我們將使用下面的示常式序來理解這個newspaper3k
模塊的實現。
NLTK 模塊:NLTK 模塊在進行報紙報廢的時候也是非常重要的,我們要將這個模塊和newspaper3k
模塊配合使用,才能成功的對一篇文章進行報紙報廢。nltk 模塊用於對文章的鏈接執行 NLP,如果不執行 NLP,我們就無法從文章中收集有用的信息。因此,在使用示例中的newspaper3k
模塊時,我們還必須使用 nltk 模塊,並使用程序中的下載(‘ punkt ‘)功能下載 nltk 數據。我們還應該確保 ntlk 模塊安裝在我們的系統中,如果它沒有安裝在我們的系統中,我們可以使用以下命令來安裝它:
pip install nltk
在完成 ntlk 模塊的安裝過程後,我們可以繼續newspaper3k
模塊的實現部分,並將其用作執行報紙報廢的示常式序。
例 1: 看看下面的 Python 程序,我們用了一篇 TOI 的文章,用newspaper3k
模塊進行報紙報廢:
# Import article from the newspaper module
from newspaper import Article
# Import nltk module
import nltk
# Download ntlk data
nltk.download('punkt')
# URL of the TOI's news article
urlOfArticle = "http:// timesofindia.indiatimes.com/world/china/chinese-expert-warns-of-troops-entering-kashmir/articleshow/59516912.cms"
# Creating instance for the article
instanceOfArticle = Article(urlOfArticle, language="en") # en is for English
# Downloading the article piece from the program
instanceOfArticle.download()
# Parsing the article
instanceOfArticle.parse()
# Performing NLP on the article piece
instanceOfArticle.nlp()
# Extracting title of the article
print("Title of the article:", instanceOfArticle.title)
print("n")
# Extracting texts from the article
print("Text from the article:", instanceOfArticle.text)
print("n")
# Extract summary of the article
print("Summary of the article piece:", instanceOfArticle.summary)
print("n")
# Extracting important keywords of the article
print("Important Keywords of the article:", instanceOfArticle.keywords)
print("n")
print ("We have successfully performed scrapping from the piece of article's link given in the code!")
輸出:
我們已經成功地從代碼中給出的文章鏈接中執行了報廢!
說明:
我們首先從程序中的newspaper3k
模塊和 nltk 模塊導入文章,這樣我們就可以使用這兩個模塊的功能來執行報紙報廢。之後,我們在 URL 變數中給出了一篇文章的鏈接(一篇 TOI 的最新文章)。然後,我們使用 article()函數初始化了文章的實例,並在其中給出了初始化後的 URL 作為參數。此外,我們還在 article()函數中提供了帶有 URL 變數的語言輸入代碼。之後,我們使用 download()函數下載程序中的文章,然後使用 parse()函數解析文章。之後,我們在 NLP()函數的幫助下對解析後的文章片段執行自然語言處理。現在,在對解析後的文章執行 NLP 之後,我們能夠列印文章中的有用信息。因此,首先,我們使用了」。title “函數列印文章的標題,然後,我們使用。文本」功能。接下來,我們使用列印文章的摘要」。總結」功能,之後,我們使用列印了文章的重要關鍵詞。關鍵詞」功能。
當我們使用newspaper3k
模塊執行文章鏈接的廢棄時,我們使用了一些重要的功能來成功完成該任務。這些功能對於執行報紙報廢和處理以及在輸出中列印重要信息非常有用。在本節中,我們將了解newspaper3k
模塊的重要功能,如下所示:
| 不,先生 | 函數名 | 功能正常工作 |
| one | 第()條 | 首先,我們必須創建一個文章實例,以便從示例中給出的文章鏈接中收集任何有用的信息,我們可以使用 article()函數來創建一個。 |
| Two | 下載() | 藉助下載()函數,我們可以下載我們在程序中提供的網址的文章。 |
| three | 解析() | 下載文章後,我們必須解析文章,我們可以使用 parse()函數來實現。 |
| four | nlp() | 在從文章中收集任何有用的信息之前,我們還必須對解析後的文章執行 nlp,我們可以使用 NLP()函數來做到這一點。 |
| five | 實例名稱.title | 它用來列印文章的標題。 |
| six | instance name . text-執行處理名稱.文字 | 如果我們想列印文章的文本,我們可以使用這個函數。 |
| seven | instanceName .關鍵字 | 這個函數非常有用,因為它列印了文章中所有重要的關鍵詞。 |
| eight | instanceName.summary | 如果我們想列印文章的摘要,可以使用這個功能。 |
這些都是newspaper3k
模塊的重要功能,我們可以根據自己選擇的信息類型(如關鍵詞、標題等)來使用。)我們想從文章中。
我們不可能都閱讀完整的報紙,因此,我們只想從文章中獲得有用的信息。newspaper3k
模塊為我們提供了一個選項,我們只能通過對文章執行報紙報廢來獲取文章的有用信息。我們可以在 Python 程序中使用newspaper3k
模塊的功能來執行報紙報廢,並在輸出中列印來自文章鏈接的所有有用信息。
原創文章,作者:簡單一點,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/126878.html