一、GridFS 简介
GridFS 是 MongoDB 中用于存储大文件的一种机制。MongoDB 在设计时就考虑到了处理大文件的问题。当文件大于 16 MB 时,MongoDB 会将文件切分成多个 chunk,每个 chunk 大小为 255kb,然后将每个 chunk 存储到 GridFS 中。
GridFS 的存储结构包含两个部分:文件的元信息(metadata)和 chunk 数据。
二、 GridFS 的元信息
GridFS 使用文件元信息来跟踪存储数据的详细信息。 这些元信息会被存储在一个名为 “files” 的集合中。下面是 GridFS 中文件元信息的一些字段:
{
"_id" : "filename",
"length" : NumberLong(1024),
"chunkSize" : 261120,
"uploadDate" : ISODate("2018-07-04T03:57:28.942Z"),
"md5" : "1f3870be274f6c49b3e31a0c6728957f",
"filename" : "test.jpg",
"contentType" : "image/jpeg"
}
其中:
- _id:与文件名相同;
- length:整个文件的大小;
- chunkSize:chunk 大小,缺省值为 255KB;
- uploadDate:上传文件的UTC时间;
- md5:文件的 MD5 码。在服务端计算时使用此字段可能可靠性较低,推荐一次客户端计算,上传到服务端;
- filename:文件名,必须为字符串类型,且长度小于 512 个字节。它是唯一的,还与文件 _id 相关;
- contentType:文件的类型。mime-type 类型使用制定的字符串。在插入和查找时,contentType 字段是可选的。
在文件集合内建立的文档是,属性_id是文件名,属性filename是上传时的原文件名
三、GridFS 的 chunk 数据
chunk 数据存储在 GridFS 的另一个集合中,名为 “chunks”。在写文件时,GridFS 根据指定大小将文件切分成 chunk,然后将每个 chunk 存储为一个独立的数据块。 chunks 集合中存储 chunk 数据,每个 chunk 对应文件的拆分的分片。
由于 Chunk 是存储很多的文件,所以 splitsize 最大尽量不要超过256m,如果超过 chunk 就只存储一份
{
"_id" : ObjectId("5ec04bf97e2f5019757ddd04"),
"files_id" : ObjectId("5eb33e3ed4b3c7231c958a0c"),
"n" : 0,
"data" : BinData(0,"...")
}
其中:
- _id:Chunk 的唯一标识,一般不需要主动定义;
- files_id:与 chunk 相关联的文件在集合 “files” 中的 id,决定 Chunk 属于哪个文件;
- n:这个字段是按字节顺序编号的,通过这个字段,你就可以还原出原来的文件;
- data:实际数据的二进制表示,是 BinData 类型的值;
- uploadDate:切片上传的日期;
四、使用 Java 进行 GridFS 操作
1. 引入依赖
在 pom.xml 中添加 mongodb-driver-sync 依赖项。
<dependency>
<groupId>org.mongodb</groupId>
<artifactId>mongodb-driver-sync</artifactId>
<version>3.11.2</version>
</dependency>
2. 定义 MongoClient 和 GridFSBucket
// 连接 MongoDB 服务
MongoClient mongoClient = MongoClients.create("mongodb://localhost:27017");
GridFSBucket gridFSBucket = GridFSBuckets.create(mongoClient.getDatabase("test"), "fs");
3. 上传和下载文件
// 上传文件
try(FileInputStream fileInputStream = new FileInputStream(new File("test.jpg"))) {
ObjectId fileId = gridFSBucket.uploadFromStream("test.jpg", fileInputStream)
System.out.println("上传成功,文件 ID:" + fileId.toString());
}
// 下载文件
try(FileOutputStream fileOutputStream = new FileOutputStream(new File("test-download.jpg"))) {
gridFSBucket.downloadToStream(fileId, fileOutputStream);
System.out.println("下载完成。");
}
4. 删除文件
gridFSBucket.delete(fileId);
System.out.println("删除成功。");
总结
本文详细介绍了 MongoDB 中的 GridFS 机制,包括 GridFS 的元信息和 chunk 数据结构,以及使用 Java 对 GridFS 进行操作的基本流程。通过深入理解 GridFS,我们可以更好地应对大文件的存储和管理问题。
原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/186129.html