日常办公的时候经常会用到 PDF,很多时候我们都需要对它进行一些处理操作,

目录

比如添加水印(图片只是举个例子,这玩意儿不是我做的 = =):

 

这一期我们就来搭建一个免费开源的PDF处理项目——Stirling PDF 。一站式服务,满足你的所有PDF需求。

f97c6ff71800d45cc59cc43a61da0fa5.png

1. 介绍

这是一个强大的本地托管的基于docker的基于web的PDF操作工具,可以让你对PDF文件进行各种操作,如拆分、合并、转换、重新组织、添加图片、旋转、压缩等等。这个本地托管的web应用程序最初是由100%的ChatGPT制作的应用程序,并已发展成为包含各种功能以满足你所有的PDF需求。

Stirling PDF不会进行任何记录或跟踪。

所有文件和PDF文件要么仅存在于客户端,仅在任务执行期间驻留在服务器内存中,要么仅暂时驻留在文件中以执行任务。用户下载的任何文件在那时都已从服务器中删除。

特点:

  • 支持暗黑模式
  • 支持多种语言(包括简体和繁体中文)
  • 有自定义下载选项(详情
  • 并行文件处理和下载
  • 有与外部脚本集成的API
  • 可选的登录和身份验证支持(详情
  • 支持自定义应用程序名称
  • 支持自定义口号、图标、图片,甚至自定义HTML(通过文件覆盖)

2. 项目展示

Demo:https://pdf.gugu.ovh/

9448082adb86a24536da08d476dfbd7e.png

6919feaf162e76f2085a85dbab43568d.png

8dc8b723e591bb7898b402db402a386e.png

5fa24ad728e6d448450d4e3baa2790a4.png 469fbc4036e49ec3483debf7bca283fb.png

3. 相关地址

官方GitHub地址:https://github.com/Stirling-Tools/Stirling-PDF

4. 搭建环境

  • 服务器:咕咕这边用的腾讯云轻量应用服务器,建议服务器内存1G以上,(也可以选择RackNerd的高性价比服务器一年100块钱不到)
  • 系统:Debian 11 (DD 脚本 非必需 DD,用原来的系统也 OK,之后教程都是用 Debian 或者 Ubuntu 搭建~)
  • 安装好 Docker、Docker-compose(相关脚本)
  • 【必需】域名一枚,并做好解析到服务器上(域名购买、域名解析 视频教程
  • 【非必需】提前安装好宝塔面板海外版本 aapanel,并安装好 Nginx(安装地址
  • 【非必需本教程选用】安装好 Nginx Proxy Manager

5. 搭建视频(本周争取)

5.1 YouTube

视频地址:https://youtu.be/smc-6kAo7AM

5.2 哔哩哔哩

哔哩哔哩:https://www.bilibili.com/video/BV1xi421R7jb/

6. 搭建方式

如果你不是用的腾讯云的轻量应用服务器,可以直接跳到 6.1 部分。

安装系统(腾讯云轻量应用服务器)

e59713fba8726d3cb55ae11bca83fe3c.png

腾讯云轻量服务器最大的特点就是 “轻量”,相比 CVM,更适合小白上手,这边我们之间选择 Docker 基础镜像,就可以省去后面安装 Docker 的步骤 (如果你非要用国内的服务器,这边装的 Docker 镜像还会帮你配置好国内镜像源,让你加速访问 docker 镜像资源) 不建议用国内的 。

登陆(腾讯云轻量应用服务器)

2722040ee311eb4a9ebf2a4945bf38f4.png c0b5d360053746c4095d592967ee401f.png e0ba858f021b846ad0abc27acf5008c2.png

6.1 安装 Docker 与 Nginx Proxy Manager

6.2 创建安装目录

创建一下安装的目录:

sudo -i

mkdir -p /root/data/docker_data/stirling_pdf

cd /root/data/docker_data/stirling_pdf

创建并编辑 docker-compose.yml文件

vim docker-compose.yml

填入下面的内容:

version: '3.3'
services:
  stirling-pdf:
    image: frooodle/s-pdf:latest
    ports:
      - '8080:8080'
    volumes:
      - ./trainingData:/usr/share/tessdata #Required for extra OCR languages
      - ./extraConfigs:/configs
#      - ./customFiles:/customFiles/
#      - ./logs:/logs/
    environment:
      - DOCKER_ENABLE_SECURITY=false
      - INSTALL_BOOK_AND_ADVANCED_HTML_OPS=false
  • DOCKER_ENABLE_SECURITY,这个默认就好,如果要开启用户登陆模式的话,再改成 true,具体可以参考:https://github.com/Stirling-Tools/Stirling-PDF 里的 Login authentication来设置,这边就默认 false
  • INSTALL_BOOK_AND_ADVANCED_HTML_OPS也是默认即可,这个是将calibre下载到stirling-pdf,以实现pdf到书籍和高级html转换用的,需要的可以打开

英文输入法下,按 i 修改,完成之后,按一下 esc,然后 :wq 保存退出。

6.3 打开服务器防火墙(非必需)并访问网页

打开防火墙的端口 8080

举例,腾讯云打开方法如下(部分服务商没有自带的面板防火墙,就不用这步操作了):

image-20220630215240864 image-20220630220546335

类似图中的,这边我们填 8080,示例填 stirling_pdf ,确定即可(如果你在 docker-compose 文件里换了 9009,这边就需要填 9009,以此类推)

56a42aff23098af08c1ae587e19739ae.png

查看端口是否被占用(以 8080 为例),输入:

lsof -i:8080  #查看 8080 端口是否被占用,如果被占用,重新自定义一个端口

如果啥也没出现,表示端口未被占用,我们可以继续下面的操作了~

如果出现:

-bash: lsof: command not found

运行:

apt install lsof  #安装 lsof

如果端口没有被占用(被占用了就修改一下端口,比如改成 8381,注意 docker 命令行里和防火墙都要改)

6.4 启动 stirling_pdf

cd /root/data/docker_data/stirling_pdf docker compose up -d

等待拉取好镜像,出现 done的字样之后,

理论上我们就可以输入 http://ip:8080 访问了。

但是这边我们推荐先搞一下反向代理!

做反向代理前,你需要一个域名!

namesilo 上面 xyz 后缀的域名一年就 7 块钱,可以年抛。(冷知识,namesilo上 6位数字的xyz续费永远都是0.99美元 = =)

如果想要长期使用,还是建议买 com 后缀的域名,更加正规一些,可以输入 laodade 来获得 1 美元的优惠(不知道现在还有没有)

namesilo 自带隐私保护,咕咕一直在用这家,价格也是这些注册商里面比较低的,关键是他家不像其他家域名注册商,没有七七八八的套路!(就是后台界面有些 古老 = =)

【域名购买】Namesilo 优惠码和域名解析教程(附带服务器购买推荐和注意事项)

我们接着往下看!

7. 反向代理

7.1 利用 Nginx Proxy Manager

在添加反向代理之前,确保你已经完成了域名解析,不会的可以看这个:域名一枚,并做好解析到服务器上(域名购买、域名解析 视频教程

image-20221016140213282

之后,登陆 Nginx Proxy Manager(不会的看这个:安装 Nginx Proxy Manager相关教程))

注意:

Nginx Proxy Manager(以下简称 NPM)会用到 80443 端口,所以本机不能占用(比如原来就有 Nginx)

直接丢几张图:

80e348f9e664f4889c687769f804b820.png 3a41048b15ef7cde972b77e56a8df4fb.png a73380ffa6098330f91fdcd69e9d5867.png e7ca4be3b1341aaa6f650033c17f8db5.png

注意填写对应的 域名IP 和 端口,按文章来的话,应该是 8080

IP 填写:

如果 Nginx Proxy Manager 和 stirling pdf 在同一台服务器上,可以在终端输入:

ip addr show docker0

查看对应的 Docker 容器内部 IP。

10分钟搭建一个PDF工具箱——Stirling PDF

否则直接填 stirling pdf 所在的服务器 IP 就行。

7.2 利用宝塔面板

发现还是有不少小伙伴习惯用宝塔面板,这边也贴一个宝塔面板的反代配置:

直接新建一个站点,不要数据库,不要 php,纯静态即可。

然后打开下面的配置,修改 Nginx 的配置。

image-20220819150345725 image-20220819150542867

代码如下:

location / {
      proxy_pass http://127.0.0.1:8080/;       # 注意改成你实际使用的端口
      rewrite ^/(.*)$ /$1 break;
      proxy_redirect off;
      proxy_set_header Host $host;
      proxy_set_header X-Forwarded-Proto $scheme;
      proxy_set_header X-Real-IP $remote_addr;
      proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
      proxy_set_header Upgrade-Insecure-Requests 1;
      proxy_set_header X-Forwarded-Proto https;
    }

此方法对 90% 的反向代理都能生效,然后就可以用域名来安装访问了。

有同学可能会问,为什么不直接用宝塔自带的反向代理功能。

image-20220819150730128

也可以,不过咕咕自己之前遇到过当有多个网站需要反代的时候,在这边设置会报错的情况 = =

所以后来就不用了,直接用上面的方法来操作了。

8. 使用教程

建议参考视频,或者自己尝试一下。

8.1 更新 stirling_pdf

cd /root/data/docker_data/stirling_pdf

docker-compose pull

docker-compose up -d    # 请不要使用 docker-compose stop 来停止容器,因为这么做需要额外的时间等待容器停止;docker-compose up -d 直接升级容器时会自动停止并立刻重建新的容器,完全没有必要浪费那些时间。

docker image prune  # prune 命令用来删除不再使用的 docker 对象。删除所有未被 tag 标记和未被容器使用的镜像

提示:

WARNING! This will remove all dangling images.
Are you sure you want to continue? [y/N]

输入 y

利用 Docker 搭建的应用,更新非常容易~

8.2 卸载 stirling_pdf

同样进入安装页面,先停止所有容器。

cd /root/data/docker_data/stirling_pdf

docker-compose down

cd ..

rm -rf /root/data/docker_data/stirling_pdf  # 完全删除

可以卸载得很干净。

9. 常见问题及注意点

1、为什么我的下载超时了

NGINX默认具有超时值,因此如果您在NGINX后面运行Stirling-PDF,则可能需要设置超时值,例如添加配置 proxy_read_timeout 3600;

2、为什么我的应用程序正在下载 .htm文件?

这通常是由您的NGINX配置引起的问题。NGINX的默认文件上传大小为1MB,您需要在Nginx的sites-available文件中添加以下内容。

client_max_body_size SIZE;

其中”SIZE”可以是50M,例如用于50MB的文件。

类似:

3b4d9cea8f6b3960bfca20bfed49201d.png

其他大家评论区交流。

10. 结尾

祝大家用得开心,有问题可以去 GitHub 提 Issues,也可以在评论区互相交流探讨。

同时,有能力给项目做贡献的同学,也欢迎积极加入到 项目 中来,贡献自己的一份力量!

最后,感谢开发人员们的辛苦付出,让我们能用到这么优秀的项目!

参考资料

https://github.com/Stirling-Tools/Stirling-PDF

THE END