python達摩院全部課程,達摩院程序員

本文目錄一覽:

圖計算軟件NetworkX和Graphscope有什麼差別?

近年來,全球大數據進入加速發展時期,數據量呈現指數級爆髮式增長,而這些大量數據中不同個體間交互產生的數據以圖的形式表現,如何高效地處理這些圖數據成為了業界及其關心的問題。很過用普通關係數據無法跑出來的結果,用圖數據進行關聯分析會顯得異常高效。

提到處理圖數據,我們首先想到NetworkX,這是網絡計算上常用的Python包,可提供靈活的圖構建、分析功能。但是我們使用NetworkX跑大規模圖數據時,不僅經常碰到內存不足的問題,而且分析速度很慢,究其原因,是NetworkX只支持單機運行。通過網上搜索,新發現了一個名為GraphScope的系統不僅號稱兼容NetworkX的API,而且支持分佈式部署運行,性能更優。針對GraphScope和NetworkX的處理能力,我們參考圖計算中常用的測試框架LDBC,通過一組實驗來對比下二者的性能。

一、實驗介紹

為了比較兩者的計算效率,先用阿里雲拉起了配置為8核CPU,32GB內存的四台ECS,設計了三組比較實驗,分別是NetworkX單機下的計算性能,GraphScope單機多worker的計算性能以及GraphScope分佈式多機多worer的計算性能。

數據上,我們選取了SNAP開源的圖數據集twitter,來自 LDBC數據集的datagen-7_5-fb,datagen-7_7-zf和datagen-8_0-fb作為實驗數據,以下是數據集的基本信息:

· Twitter: 81,307個頂點,1,768,135條邊

· Datagen-7_5-fb: 633,432個頂點,34,185,747條邊,稠密圖

· Datagen-7_7-zf: 13,180,508個頂點,32,791,267條邊,稀疏圖

· Datagen-8_0-fb: 1,706,561個頂點,107,507,376條邊,這個數據集主要測試兩個系統可處理的圖規模能力

實驗設計上我選擇常用的SSSP、BFS、PageRank、WCC算法,以及較高複雜度的All Pair shortest Path length算法,以載圖時間,內存佔用和計算時間這三個指標為依據,對兩個系統進行計算性能的比較。

NetworkX是一個單機系統,在實驗中只考慮NetworkX在單機環境下的運行時間;GraphScope支持分佈式運行,故進行兩個配置,一個是單機4worker,另外一個配置是4台機器,每台機器4個worker。

二、實驗結果

首先,GraphScope的載圖速度比NetworkX顯著提升。

在前三個圖數據集中,無論是GraphScope的單機多worker模式,還是GraphScope的分佈式模式,載圖速度都比NetworkX快:

GraphScope單機模式載圖速度平均比NetworkX快5倍,最高紀錄——在datagen-7_5-fb上比NetworkX快了6倍。

分佈式模式下GraphScope的載圖時間比NetworkX平均快了27倍,最高紀錄——在datagen-7_7-zf數據集上比NetworkX快了63倍。

在datagen-8_0-fb數據集上,NetworkX因內存溢出無法載圖,GraphScope單機多worker和GraphScope分佈式載圖時間分別為142秒和13.6秒。

————————————————

版權聲明:本文為CSDN博主「6979阿強」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。

原文鏈接:

圖計算軟件Gelly和Graphscope有什麼區別?

Gelly是Flink的圖API庫,而GraphScope是阿里研發的圖計算平台,是一個完整的平台,包括圖數據管理,執行引擎還支持多種圖算法

圖計算引擎Neo4j和Graphscope有什麼區別?

Neo4j是單機系統,主要做圖數據庫。GraphScope是由阿里巴巴達摩院智能計算實驗室研發的圖計算平台,是全球首個一站式超大規模分佈式圖計算平台,並且還入選了中 國科學技術協會「科創中 國」平台。Graphscope的代碼在github.com/alibaba/graphscope上開源。SSSP算法上,GraphScope單機模式下平均要比Neo4j快176.38倍,最快在datagen-9.2_zf數據集上快了292.2倍。

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/293574.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-26 13:14
下一篇 2024-12-26 13:14

相關推薦

  • 兼職程序員能掙錢嗎?

    可以。不過,兼職程序員賺錢的關鍵就在於如何找到並利用合適的機會。 一、掌握技能 作為程序員,掌握必要的技能是兼職掙錢的前提。除了紮實的編程技能,了解相關工具和平台也非常重要。常見的…

    編程 2025-04-29
  • Python股票量化投資課程 百度網盤

    本文將從以下幾個方面對Python股票量化投資課程 百度網盤做詳細闡述。 一、量化投資的意義 量化投資是指利用數學模型和計算機技術,對市場進行數據挖掘、統計分析,採用科學的方法制定…

    編程 2025-04-29
  • 西瓜創客python課程:從入門到精通

    本文將對西瓜創客python課程進行詳細闡述。旨在為初學者提供一個從入門到精通的學習路徑,並為已經有一定基礎的人提供更深入的學習體驗。 一、為什麼選擇西瓜創客python課程 西瓜…

    編程 2025-04-28
  • 兼職程序員外包平台的開發與實現

    隨着社會經濟和科技的快速發展,更多人選擇通過互聯網進入編程行業。兼職開發已成為一種新型就業方式,並且這種方式在新冠肺炎疫情襲來、大規模遠程辦公的背景下更為普遍。本文將從多個方面詳細…

    編程 2025-04-28
  • 自動換行後不能全部顯示文字的解決方法

    在網頁設計中,自動換行是非常必要的。但是有時候會出現自動換行後不能全部顯示文字的情況。下面將從多個方面闡述這個問題的解決方法。 一、字號和行高 字號和行高是影響內容顯示的兩個重要因…

    編程 2025-04-27
  • 如何批量下載某博主全部微博相冊

    這篇文章將教大家如何通過Python代碼批量下載某博主全部微博相冊。 一、獲取微博相冊鏈接 首先,我們需要獲取到某博主的所有微博相冊鏈接。可以通過以下代碼獲取到某博主的首頁鏈接: …

    編程 2025-04-27
  • 傳智播客黑馬程序員怎麼樣

    傳智播客是一家專業的IT培訓機構,旗下的黑馬程序員培訓項目備受好評,那麼傳智播客黑馬程序員怎麼樣呢?本文將從多個方面為大家詳細闡述,讓大家更加了解其優缺點。 一、學習方式 傳智播客…

    編程 2025-04-27
  • Python課程感悟

    本文將從初學Python的難處、Python在數據處理和機器學習中的應用、Python在Web開發中的應用、Python的開源生態、Python與其他編程語言的比較等多個方面闡述個…

    編程 2025-04-27
  • Python查找字符串中某個字符的全部索引

    本文主要介紹如何使用Python編程語言查找字符串中某個字符的全部索引。 一、使用string.find()方法 Python中字符串類型有一個內置方法string.find(),…

    編程 2025-04-27
  • 如何使用getField函數:Java程序員的必備技能

    Java中有很多反射API可以幫助開發者在運行時獲取或者修改某些屬性或方法的值。getField方法就是Java反射中一個非常實用的方法。本文將詳細介紹getField方法的用法以…

    編程 2025-04-23

發表回復

登錄後才能評論