MongoDB GridFS 详解

一、GridFS 简介

GridFS 是 MongoDB 中用于存储大文件的一种机制。MongoDB 在设计时就考虑到了处理大文件的问题。当文件大于 16 MB 时,MongoDB 会将文件切分成多个 chunk,每个 chunk 大小为 255kb,然后将每个 chunk 存储到 GridFS 中。

GridFS 的存储结构包含两个部分:文件的元信息(metadata)和 chunk 数据。

二、 GridFS 的元信息

GridFS 使用文件元信息来跟踪存储数据的详细信息。 这些元信息会被存储在一个名为 “files” 的集合中。下面是 GridFS 中文件元信息的一些字段:

{
    "_id" : "filename",
    "length" : NumberLong(1024),
    "chunkSize" : 261120,
    "uploadDate" : ISODate("2018-07-04T03:57:28.942Z"),
    "md5" : "1f3870be274f6c49b3e31a0c6728957f",
    "filename" : "test.jpg",
    "contentType" : "image/jpeg"
}

其中:

  • _id:与文件名相同;
  • length:整个文件的大小;
  • chunkSize:chunk 大小,缺省值为 255KB;
  • uploadDate:上传文件的UTC时间;
  • md5:文件的 MD5 码。在服务端计算时使用此字段可能可靠性较低,推荐一次客户端计算,上传到服务端;
  • filename:文件名,必须为字符串类型,且长度小于 512 个字节。它是唯一的,还与文件 _id 相关;
  • contentType:文件的类型。mime-type 类型使用制定的字符串。在插入和查找时,contentType 字段是可选的。
    在文件集合内建立的文档是,属性_id是文件名,属性filename是上传时的原文件名

三、GridFS 的 chunk 数据

chunk 数据存储在 GridFS 的另一个集合中,名为 “chunks”。在写文件时,GridFS 根据指定大小将文件切分成 chunk,然后将每个 chunk 存储为一个独立的数据块。 chunks 集合中存储 chunk 数据,每个 chunk 对应文件的拆分的分片。

由于 Chunk 是存储很多的文件,所以 splitsize 最大尽量不要超过256m,如果超过 chunk 就只存储一份

{
"_id" : ObjectId("5ec04bf97e2f5019757ddd04"),
"files_id" : ObjectId("5eb33e3ed4b3c7231c958a0c"),
"n" : 0,
"data" : BinData(0,"...")
}

其中:

  • _id:Chunk 的唯一标识,一般不需要主动定义;
  • files_id:与 chunk 相关联的文件在集合 “files” 中的 id,决定 Chunk 属于哪个文件;
  • n:这个字段是按字节顺序编号的,通过这个字段,你就可以还原出原来的文件;
  • data:实际数据的二进制表示,是 BinData 类型的值;
  • uploadDate:切片上传的日期;

四、使用 Java 进行 GridFS 操作

1. 引入依赖

在 pom.xml 中添加 mongodb-driver-sync 依赖项。

<dependency>
    <groupId>org.mongodb</groupId>
    <artifactId>mongodb-driver-sync</artifactId>
    <version>3.11.2</version>
</dependency>

2. 定义 MongoClient 和 GridFSBucket

// 连接 MongoDB 服务
MongoClient mongoClient = MongoClients.create("mongodb://localhost:27017");
GridFSBucket gridFSBucket = GridFSBuckets.create(mongoClient.getDatabase("test"), "fs");

3. 上传和下载文件

// 上传文件
try(FileInputStream fileInputStream = new FileInputStream(new File("test.jpg"))) {
    ObjectId fileId = gridFSBucket.uploadFromStream("test.jpg", fileInputStream)
    System.out.println("上传成功,文件 ID:" + fileId.toString());
}

// 下载文件
try(FileOutputStream fileOutputStream = new FileOutputStream(new File("test-download.jpg"))) {
    gridFSBucket.downloadToStream(fileId, fileOutputStream);
    System.out.println("下载完成。");
}

4. 删除文件

gridFSBucket.delete(fileId);
System.out.println("删除成功。");

总结

本文详细介绍了 MongoDB 中的 GridFS 机制,包括 GridFS 的元信息和 chunk 数据结构,以及使用 Java 对 GridFS 进行操作的基本流程。通过深入理解 GridFS,我们可以更好地应对大文件的存储和管理问题。

原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/186129.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小蓝小蓝
上一篇 2024-11-26 21:10
下一篇 2024-11-27 05:44

相关推荐

  • 神经网络代码详解

    神经网络作为一种人工智能技术,被广泛应用于语音识别、图像识别、自然语言处理等领域。而神经网络的模型编写,离不开代码。本文将从多个方面详细阐述神经网络模型编写的代码技术。 一、神经网…

    编程 2025-04-25
  • Linux sync详解

    一、sync概述 sync是Linux中一个非常重要的命令,它可以将文件系统缓存中的内容,强制写入磁盘中。在执行sync之前,所有的文件系统更新将不会立即写入磁盘,而是先缓存在内存…

    编程 2025-04-25
  • Java BigDecimal 精度详解

    一、基础概念 Java BigDecimal 是一个用于高精度计算的类。普通的 double 或 float 类型只能精确表示有限的数字,而对于需要高精度计算的场景,BigDeci…

    编程 2025-04-25
  • Python输入输出详解

    一、文件读写 Python中文件的读写操作是必不可少的基本技能之一。读写文件分别使用open()函数中的’r’和’w’参数,读取文件…

    编程 2025-04-25
  • nginx与apache应用开发详解

    一、概述 nginx和apache都是常见的web服务器。nginx是一个高性能的反向代理web服务器,将负载均衡和缓存集成在了一起,可以动静分离。apache是一个可扩展的web…

    编程 2025-04-25
  • Linux修改文件名命令详解

    在Linux系统中,修改文件名是一个很常见的操作。Linux提供了多种方式来修改文件名,这篇文章将介绍Linux修改文件名的详细操作。 一、mv命令 mv命令是Linux下的常用命…

    编程 2025-04-25
  • MPU6050工作原理详解

    一、什么是MPU6050 MPU6050是一种六轴惯性传感器,能够同时测量加速度和角速度。它由三个传感器组成:一个三轴加速度计和一个三轴陀螺仪。这个组合提供了非常精细的姿态解算,其…

    编程 2025-04-25
  • git config user.name的详解

    一、为什么要使用git config user.name? git是一个非常流行的分布式版本控制系统,很多程序员都会用到它。在使用git commit提交代码时,需要记录commi…

    编程 2025-04-25
  • 详解eclipse设置

    一、安装与基础设置 1、下载eclipse并进行安装。 2、打开eclipse,选择对应的工作空间路径。 File -> Switch Workspace -> [选择…

    编程 2025-04-25
  • Python安装OS库详解

    一、OS简介 OS库是Python标准库的一部分,它提供了跨平台的操作系统功能,使得Python可以进行文件操作、进程管理、环境变量读取等系统级操作。 OS库中包含了大量的文件和目…

    编程 2025-04-25

发表回复

登录后才能评论