MongoDB GridFS 详解

一、GridFS 简介

GridFS 是 MongoDB 中用于存储大文件的一种机制。MongoDB 在设计时就考虑到了处理大文件的问题。当文件大于 16 MB 时，MongoDB 会将文件切分成多个 chunk，每个 chunk 大小为 255kb，然后将每个 chunk 存储到 GridFS 中。

GridFS 的存储结构包含两个部分：文件的元信息（metadata）和 chunk 数据。

二、 GridFS 的元信息

GridFS 使用文件元信息来跟踪存储数据的详细信息。这些元信息会被存储在一个名为 “files” 的集合中。下面是 GridFS 中文件元信息的一些字段：

{
    "_id" : "filename",
    "length" : NumberLong(1024),
    "chunkSize" : 261120,
    "uploadDate" : ISODate("2018-07-04T03:57:28.942Z"),
    "md5" : "1f3870be274f6c49b3e31a0c6728957f",
    "filename" : "test.jpg",
    "contentType" : "image/jpeg"
}

其中：

_id：与文件名相同；
length：整个文件的大小；
chunkSize：chunk 大小，缺省值为 255KB；
uploadDate：上传文件的UTC时间；
md5：文件的 MD5 码。在服务端计算时使用此字段可能可靠性较低，推荐一次客户端计算，上传到服务端；
filename：文件名，必须为字符串类型，且长度小于 512 个字节。它是唯一的，还与文件 _id 相关；
contentType：文件的类型。mime-type 类型使用制定的字符串。在插入和查找时，contentType 字段是可选的。
在文件集合内建立的文档是，属性_id是文件名，属性filename是上传时的原文件名

三、GridFS 的 chunk 数据

chunk 数据存储在 GridFS 的另一个集合中，名为 “chunks”。在写文件时，GridFS 根据指定大小将文件切分成 chunk，然后将每个 chunk 存储为一个独立的数据块。 chunks 集合中存储 chunk 数据，每个 chunk 对应文件的拆分的分片。

由于 Chunk 是存储很多的文件，所以 splitsize 最大尽量不要超过256m，如果超过 chunk 就只存储一份

{
"_id" : ObjectId("5ec04bf97e2f5019757ddd04"),
"files_id" : ObjectId("5eb33e3ed4b3c7231c958a0c"),
"n" : 0,
"data" : BinData(0,"...")
}

其中：

_id：Chunk 的唯一标识，一般不需要主动定义；
files_id：与 chunk 相关联的文件在集合 “files” 中的 id，决定 Chunk 属于哪个文件；
n：这个字段是按字节顺序编号的，通过这个字段，你就可以还原出原来的文件；
data：实际数据的二进制表示，是 BinData 类型的值；
uploadDate：切片上传的日期；

四、使用 Java 进行 GridFS 操作

1. 引入依赖

在 pom.xml 中添加 mongodb-driver-sync 依赖项。

<dependency>
    <groupId>org.mongodb</groupId>
    <artifactId>mongodb-driver-sync</artifactId>
    <version>3.11.2</version>
</dependency>

2. 定义 MongoClient 和 GridFSBucket

// 连接 MongoDB 服务
MongoClient mongoClient = MongoClients.create("mongodb://localhost:27017");
GridFSBucket gridFSBucket = GridFSBuckets.create(mongoClient.getDatabase("test"), "fs");

3. 上传和下载文件

// 上传文件
try(FileInputStream fileInputStream = new FileInputStream(new File("test.jpg"))) {
    ObjectId fileId = gridFSBucket.uploadFromStream("test.jpg", fileInputStream)
    System.out.println("上传成功，文件 ID：" + fileId.toString());
}

// 下载文件
try(FileOutputStream fileOutputStream = new FileOutputStream(new File("test-download.jpg"))) {
    gridFSBucket.downloadToStream(fileId, fileOutputStream);
    System.out.println("下载完成。");
}

4. 删除文件

gridFSBucket.delete(fileId);
System.out.println("删除成功。");

总结

本文详细介绍了 MongoDB 中的 GridFS 机制，包括 GridFS 的元信息和 chunk 数据结构，以及使用 Java 对 GridFS 进行操作的基本流程。通过深入理解 GridFS，我们可以更好地应对大文件的存储和管理问题。

原创文章，作者：小蓝，如若转载，请注明出处：https://www.506064.com/n/186129.html