深度剖析pdfjs-dist

PDF.js是一种基于JavaScript的PDF渲染框架,它可以在现代浏览器中为每个页面提供高质量的PDF文件阅读体验。pdfjs-dist是由PDF.js代码库构建的NPM Package,将PDF.js的核心渲染器封装为一个可嵌入的,用于Node.js和浏览器的脚本文件。

一、基本用法

使用pdfjs-dist可以很方便地将PDF文件嵌入到Web应用中。以下是代码示例:

  
    const pdfjsLib = require('pdfjs-dist');
    
    pdfjsLib.getDocument('example.pdf').promise.then((pdf) => {
        pdf.getPage(1).then((page) => {
            const scale = 1.5;
            const viewport = page.getViewport({ scale: scale });

            const canvas = document.getElementById('pdf-canvas');
            const context = canvas.getContext('2d');
            canvas.height = viewport.height;
            canvas.width = viewport.width;

            const renderContext = {
                canvasContext: context,
                viewport: viewport
            };
            page.render(renderContext);
        });
    });
  

上述代码通过调用pdfjsLib对象中的getDocument方法获取PDF文档,然后在获取的文档中,使用getPage方法获取指定页面。获取到页面后,我们可以通过指定缩放比例并调用getViewport方法获取页面视口。获取视口后,我们可以通过新建一个canvas元素来显示页面,最后,使用page.render方法渲染页面内容到canvas上。

二、高级用法

1. 导出PDF为图片

在某些场景中,我们需要将PDF文档导出为图片,以便于在其他平台或介质中展示。使用pdfjs-dist,我们可以轻松完成此操作。以下是代码示例:

  
    const pdfjsLib = require('pdfjs-dist');
    const fs = require('fs');
    const path = require('path');

    pdfjsLib.getDocument('example.pdf').promise.then((pdf) => {
        const pageCount = pdf.numPages;
        const promises = [];
        for(let i = 1; i  {
                const scale = 1.5;
                const viewport = page.getViewport({ scale: scale });
                const canvas = document.createElement('canvas');
                const context = canvas.getContext('2d');
                canvas.height = viewport.height;
                canvas.width = viewport.width;
                const renderContext = {
                    canvasContext: context,
                    viewport: viewport
                };
                return page.render(renderContext).promise.then(() => {
                    const imageData = canvas.toDataURL('image/png');
                    return imageData;
                });
            });
            promises.push(promise);
        }
        Promise.all(promises).then((data) => {
            data.forEach((imageData, index) => {
                fs.writeFileSync(path.join(__dirname, `page-${index+1}.png`), imageData);
            });
        });
    });
  

上述代码通过在PDF文档中迭代获取每个页面并将其渲染为canvas元素,并将canvas元素转换为base64编码的图像数据,使用fs模块将图像数据写入文件系统中。通过此方法,我们可以将PDF文档中的每个页面导出为独立的PNG图像文件。

2. 搜索PDF

使用pdfjs-dist,我们还可以实现在PDF文档中进行内容搜索的功能。以下是代码示例:

  
    const pdfjsLib = require('pdfjs-dist');

    pdfjsLib.getDocument('example.pdf').promise.then((pdf) => {
        const pageCount = pdf.numPages;
        const promises = [];
        for(let i = 1; i  {
                return page.getTextContent().then((textContent) => {
                    const textItems = textContent.items;
                    const searchText = 'example';
                    const matches = [];

                    for (let j = 0; j  {
            const allMatches = [].concat(...data);
            console.log(allMatches);
        });
    });
  

上述代码通过在PDF文档中迭代获取每个页面并获取其中的文本内容,使用正则表达式搜索文本内容,并将搜索结果构建为一个数组返回。

3. 合并多个PDF文档

使用pdfjs-dist,我们还可以很容易地实现将多个PDF文档合并为一个大的PDF文档的功能。以下是代码示例:

  
    const pdfjsLib = require('pdfjs-dist');
    const fs = require('fs');
    const path = require('path');

    const docUrlList = [
        'example1.pdf',
        'example2.pdf',
        'example3.pdf'
    ];

    const mergePdfs = (docUrlList) => {
        const promises = [];
        docUrlList.forEach((url) => {
            const promise = pdfjsLib.getDocument(url).promise;
            promises.push(promise);
        });
        Promise.all(promises).then((docs) => {
            const mergedPdf = docs[0];
            const pageCount = mergedPdf.numPages;
            for(let i = 1; i < docs.length; i++) {
                const doc = docs[i];
                for(let j = 1; j  {
                        doc.getPage(j).then((srcPage) => {
                            const viewport = srcPage.getViewport({ scale: 1 });
                            page.setWidth(viewport.width);
                            page.setHeight(viewport.height);

                            const context = page.getContext('2d');
                            const renderContext = {
                                canvasContext: context,
                                viewport: viewport
                            };
                            srcPage.render(renderContext).then(() => {
                                if(i === docs.length - 1 && j === doc.numPages) {
                                    mergedPdf.save().then(() => {
                                        console.log('Merge complete!');
                                    });
                                }
                            });
                        });
                    });
                }
            }
        });
    };

    mergePdfs(docUrlList);
  

上述代码首先将所有PDF文档获取并存储在docs数组中,在获取第一个文档作为基础文档。然后,迭代所有文档并将每个页面插入到基础文档中,最终将合并后的文档保存为一个新的PDF文档。

三、总结

pdfjs-dist是一种非常实用的PDF渲染器封装,在实现PDF渲染和相关操作时,我们可以节省大量时间和精力。希望这篇文章可以对您了解并使用pdfjs-dist有所帮助。

原创文章,作者:PTRUD,如若转载,请注明出处:https://www.506064.com/n/371586.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
PTRUDPTRUD
上一篇 2025-04-23 18:08
下一篇 2025-04-23 18:08

相关推荐

  • 深度查询宴会的文化起源

    深度查询宴会,是指通过对一种文化或主题的深度挖掘和探究,为参与者提供一次全方位的、深度体验式的文化品尝和交流活动。本文将从多个方面探讨深度查询宴会的文化起源。 一、宴会文化的起源 …

    编程 2025-04-29
  • Python下载深度解析

    Python作为一种强大的编程语言,在各种应用场景中都得到了广泛的应用。Python的安装和下载是使用Python的第一步,对这个过程的深入了解和掌握能够为使用Python提供更加…

    编程 2025-04-28
  • Python递归深度用法介绍

    Python中的递归函数是一个函数调用自身的过程。在进行递归调用时,程序需要为每个函数调用开辟一定的内存空间,这就是递归深度的概念。本文将从多个方面对Python递归深度进行详细阐…

    编程 2025-04-27
  • Spring Boot本地类和Jar包类加载顺序深度剖析

    本文将从多个方面对Spring Boot本地类和Jar包类加载顺序做详细的阐述,并给出相应的代码示例。 一、类加载机制概述 在介绍Spring Boot本地类和Jar包类加载顺序之…

    编程 2025-04-27
  • 深度解析Unity InjectFix

    Unity InjectFix是一个非常强大的工具,可以用于在Unity中修复各种类型的程序中的问题。 一、安装和使用Unity InjectFix 您可以通过Unity Asse…

    编程 2025-04-27
  • 深度剖析:cmd pip不是内部或外部命令

    一、问题背景 使用Python开发时,我们经常需要使用pip安装第三方库来实现项目需求。然而,在执行pip install命令时,有时会遇到“pip不是内部或外部命令”的错误提示,…

    编程 2025-04-25
  • 动手学深度学习 PyTorch

    一、基本介绍 深度学习是对人工神经网络的发展与应用。在人工神经网络中,神经元通过接受输入来生成输出。深度学习通常使用很多层神经元来构建模型,这样可以处理更加复杂的问题。PyTorc…

    编程 2025-04-25
  • 深度解析Ant Design中Table组件的使用

    一、Antd表格兼容 Antd是一个基于React的UI框架,Table组件是其重要的组成部分之一。该组件可在各种浏览器和设备上进行良好的兼容。同时,它还提供了多个版本的Antd框…

    编程 2025-04-25
  • 深度解析MySQL查看当前时间的用法

    MySQL是目前最流行的关系型数据库管理系统之一,其提供了多种方法用于查看当前时间。在本篇文章中,我们将从多个方面来介绍MySQL查看当前时间的用法。 一、当前时间的获取方法 My…

    编程 2025-04-24
  • Vue3-pdfjs: 基于Vue 3的PDF库

    一、介绍 Vue3-pdfjs是一个用于在Vue3项目中显示和操作PDF文件的库。它基于pdfjs-dist库,为Vue3提供了一个PDF渲染组件,并且提供了一系列API来方便地操…

    编程 2025-04-24

发表回复

登录后才能评论