python达摩院全部课程,达摩院程序员

本文目录一览:

图计算软件NetworkX和Graphscope有什么差别?

近年来,全球大数据进入加速发展时期,数据量呈现指数级爆发式增长,而这些大量数据中不同个体间交互产生的数据以图的形式表现,如何高效地处理这些图数据成为了业界及其关心的问题。很过用普通关系数据无法跑出来的结果,用图数据进行关联分析会显得异常高效。

提到处理图数据,我们首先想到NetworkX,这是网络计算上常用的Python包,可提供灵活的图构建、分析功能。但是我们使用NetworkX跑大规模图数据时,不仅经常碰到内存不足的问题,而且分析速度很慢,究其原因,是NetworkX只支持单机运行。通过网上搜索,新发现了一个名为GraphScope的系统不仅号称兼容NetworkX的API,而且支持分布式部署运行,性能更优。针对GraphScope和NetworkX的处理能力,我们参考图计算中常用的测试框架LDBC,通过一组实验来对比下二者的性能。

一、实验介绍

为了比较两者的计算效率,先用阿里云拉起了配置为8核CPU,32GB内存的四台ECS,设计了三组比较实验,分别是NetworkX单机下的计算性能,GraphScope单机多worker的计算性能以及GraphScope分布式多机多worer的计算性能。

数据上,我们选取了SNAP开源的图数据集twitter,来自 LDBC数据集的datagen-7_5-fb,datagen-7_7-zf和datagen-8_0-fb作为实验数据,以下是数据集的基本信息:

· Twitter: 81,307个顶点,1,768,135条边

· Datagen-7_5-fb: 633,432个顶点,34,185,747条边,稠密图

· Datagen-7_7-zf: 13,180,508个顶点,32,791,267条边,稀疏图

· Datagen-8_0-fb: 1,706,561个顶点,107,507,376条边,这个数据集主要测试两个系统可处理的图规模能力

实验设计上我选择常用的SSSP、BFS、PageRank、WCC算法,以及较高复杂度的All Pair shortest Path length算法,以载图时间,内存占用和计算时间这三个指标为依据,对两个系统进行计算性能的比较。

NetworkX是一个单机系统,在实验中只考虑NetworkX在单机环境下的运行时间;GraphScope支持分布式运行,故进行两个配置,一个是单机4worker,另外一个配置是4台机器,每台机器4个worker。

二、实验结果

首先,GraphScope的载图速度比NetworkX显著提升。

在前三个图数据集中,无论是GraphScope的单机多worker模式,还是GraphScope的分布式模式,载图速度都比NetworkX快:

GraphScope单机模式载图速度平均比NetworkX快5倍,最高纪录——在datagen-7_5-fb上比NetworkX快了6倍。

分布式模式下GraphScope的载图时间比NetworkX平均快了27倍,最高纪录——在datagen-7_7-zf数据集上比NetworkX快了63倍。

在datagen-8_0-fb数据集上,NetworkX因内存溢出无法载图,GraphScope单机多worker和GraphScope分布式载图时间分别为142秒和13.6秒。

————————————————

版权声明:本文为CSDN博主「6979阿强」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:

图计算软件Gelly和Graphscope有什么区别?

Gelly是Flink的图API库,而GraphScope是阿里研发的图计算平台,是一个完整的平台,包括图数据管理,执行引擎还支持多种图算法

图计算引擎Neo4j和Graphscope有什么区别?

Neo4j是单机系统,主要做图数据库。GraphScope是由阿里巴巴达摩院智能计算实验室研发的图计算平台,是全球首个一站式超大规模分布式图计算平台,并且还入选了中 国科学技术协会“科创中 国”平台。Graphscope的代码在github.com/alibaba/graphscope上开源。SSSP算法上,GraphScope单机模式下平均要比Neo4j快176.38倍,最快在datagen-9.2_zf数据集上快了292.2倍。

原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/293574.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小蓝小蓝
上一篇 2024-12-26 13:14
下一篇 2024-12-26 13:14

相关推荐

  • 兼职程序员能挣钱吗?

    可以。不过,兼职程序员赚钱的关键就在于如何找到并利用合适的机会。 一、掌握技能 作为程序员,掌握必要的技能是兼职挣钱的前提。除了扎实的编程技能,了解相关工具和平台也非常重要。常见的…

    编程 2025-04-29
  • Python股票量化投资课程 百度网盘

    本文将从以下几个方面对Python股票量化投资课程 百度网盘做详细阐述。 一、量化投资的意义 量化投资是指利用数学模型和计算机技术,对市场进行数据挖掘、统计分析,采用科学的方法制定…

    编程 2025-04-29
  • 西瓜创客python课程:从入门到精通

    本文将对西瓜创客python课程进行详细阐述。旨在为初学者提供一个从入门到精通的学习路径,并为已经有一定基础的人提供更深入的学习体验。 一、为什么选择西瓜创客python课程 西瓜…

    编程 2025-04-28
  • 兼职程序员外包平台的开发与实现

    随着社会经济和科技的快速发展,更多人选择通过互联网进入编程行业。兼职开发已成为一种新型就业方式,并且这种方式在新冠肺炎疫情袭来、大规模远程办公的背景下更为普遍。本文将从多个方面详细…

    编程 2025-04-28
  • 自动换行后不能全部显示文字的解决方法

    在网页设计中,自动换行是非常必要的。但是有时候会出现自动换行后不能全部显示文字的情况。下面将从多个方面阐述这个问题的解决方法。 一、字号和行高 字号和行高是影响内容显示的两个重要因…

    编程 2025-04-27
  • 如何批量下载某博主全部微博相册

    这篇文章将教大家如何通过Python代码批量下载某博主全部微博相册。 一、获取微博相册链接 首先,我们需要获取到某博主的所有微博相册链接。可以通过以下代码获取到某博主的首页链接: …

    编程 2025-04-27
  • 传智播客黑马程序员怎么样

    传智播客是一家专业的IT培训机构,旗下的黑马程序员培训项目备受好评,那么传智播客黑马程序员怎么样呢?本文将从多个方面为大家详细阐述,让大家更加了解其优缺点。 一、学习方式 传智播客…

    编程 2025-04-27
  • Python课程感悟

    本文将从初学Python的难处、Python在数据处理和机器学习中的应用、Python在Web开发中的应用、Python的开源生态、Python与其他编程语言的比较等多个方面阐述个…

    编程 2025-04-27
  • Python查找字符串中某个字符的全部索引

    本文主要介绍如何使用Python编程语言查找字符串中某个字符的全部索引。 一、使用string.find()方法 Python中字符串类型有一个内置方法string.find(),…

    编程 2025-04-27
  • 如何使用getField函数:Java程序员的必备技能

    Java中有很多反射API可以帮助开发者在运行时获取或者修改某些属性或方法的值。getField方法就是Java反射中一个非常实用的方法。本文将详细介绍getField方法的用法以…

    编程 2025-04-23

发表回复

登录后才能评论