Làm thế nào để giải nén và lưu hình ảnh từ một tập tin PDF trong Linux

Làm thế nào để giải nén và lưu hình ảnh từ một tập tin PDF trong Linux
Làm thế nào để giải nén và lưu hình ảnh từ một tập tin PDF trong Linux

Video: Làm thế nào để giải nén và lưu hình ảnh từ một tập tin PDF trong Linux

Video: Làm thế nào để giải nén và lưu hình ảnh từ một tập tin PDF trong Linux
Video: 3 cách quay màn hình có âm thanh trên MacBook / MacOS - YouTube 2024, Tháng tư
Anonim
Bạn có thể dễ dàng chuyển đổi các tệp PDF thành văn bản có thể chỉnh sửa trong Linux bằng cách sử dụng công cụ dòng lệnh "pdftotext". Tuy nhiên, nếu có bất kỳ hình ảnh nào trong tệp PDF gốc, chúng sẽ không được trích xuất. Để trích xuất hình ảnh từ một tập tin PDF, bạn có thể sử dụng một công cụ dòng lệnh gọi là "pdfimages".
Bạn có thể dễ dàng chuyển đổi các tệp PDF thành văn bản có thể chỉnh sửa trong Linux bằng cách sử dụng công cụ dòng lệnh "pdftotext". Tuy nhiên, nếu có bất kỳ hình ảnh nào trong tệp PDF gốc, chúng sẽ không được trích xuất. Để trích xuất hình ảnh từ một tập tin PDF, bạn có thể sử dụng một công cụ dòng lệnh gọi là "pdfimages".

LƯU Ý: Khi chúng ta nói để gõ một cái gì đó trong bài viết này và có dấu ngoặc kép xung quanh văn bản, KHÔNG gõ dấu ngoặc kép, trừ khi chúng tôi chỉ định khác.

Công cụ “pdfimages” là một phần của gói poppler-utils. Bạn có thể kiểm tra xem nó đã được cài đặt trên hệ thống của bạn chưa và cài đặt nó nếu cần thiết bằng cách sử dụng các bước được mô tả trong bài viết này.

Để trích xuất hình ảnh từ một tập tin PDF bằng cách sử dụng pdfimages, bấm "Ctrl + Alt + T" để mở một cửa sổ Terminal. Gõ lệnh sau tại dấu nhắc.

pdfimages /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

LƯU Ý: Đối với tất cả các lệnh được hiển thị trong bài viết này, hãy thay thế đường dẫn đầu tiên trong lệnh và tên tệp PDF thành đường dẫn và tên tệp cho tệp PDF gốc của bạn. Đường dẫn thứ hai nên là đường dẫn đến thư mục gốc mà bạn muốn lưu các hình ảnh được trích xuất. Từ "hình ảnh" ở cuối đường dẫn thứ hai thể hiện bất kỳ điều gì bạn muốn làm nổi bật tên tệp của mình. Tên tệp của hình ảnh được đánh số tự động (000, 001, 002, 003, v.v.). Nếu bạn muốn thêm văn bản vào đầu mỗi hình ảnh, hãy nhập văn bản đó ở cuối đường dẫn thứ hai. Trong ví dụ của chúng tôi, mỗi tên tệp hình ảnh sẽ bắt đầu bằng "hình ảnh", chẳng hạn như hình ảnh-001.ppm, hình ảnh-002.ppm, v.v. Một dấu gạch ngang được thêm vào giữa văn bản bạn chỉ định và số.

Định dạng hình ảnh mặc định là PPM (pixmap di động) cho hình ảnh không đơn sắc hoặc PBM (bitmap di động) cho hình ảnh đơn sắc. Các định dạng này được thiết kế để dễ dàng trao đổi giữa các nền tảng.
Định dạng hình ảnh mặc định là PPM (pixmap di động) cho hình ảnh không đơn sắc hoặc PBM (bitmap di động) cho hình ảnh đơn sắc. Các định dạng này được thiết kế để dễ dàng trao đổi giữa các nền tảng.

LƯU Ý: Bạn có thể nhận được hai tệp hình ảnh cho mỗi hình ảnh trong tệp PDF của mình. Hình ảnh thứ hai cho mỗi hình ảnh trống, vì vậy, bạn sẽ có thể cho biết hình ảnh nào chứa hình ảnh từ tệp bằng hình thu nhỏ trên tệp trong Trình quản lý tệp.

Để tạo tệp hình ảnh.jpg, hãy thêm tùy chọn “-j” vào lệnh, như được hiển thị bên dưới.
Để tạo tệp hình ảnh.jpg, hãy thêm tùy chọn “-j” vào lệnh, như được hiển thị bên dưới.

pdfimages -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

LƯU Ý: Bạn cũng có thể thay đổi đầu ra mặc định thành PNG bằng tùy chọn “-png” hoặc TIFF bằng tùy chọn “-tiff”.

Tệp hình ảnh chính cho mỗi hình ảnh được lưu dưới dạng tệp.jpg. Hình ảnh trống thứ hai vẫn là tệp.ppm hoặc.pbm.
Tệp hình ảnh chính cho mỗi hình ảnh được lưu dưới dạng tệp.jpg. Hình ảnh trống thứ hai vẫn là tệp.ppm hoặc.pbm.
Nếu bạn chỉ muốn chuyển đổi hình ảnh trên và sau một trang nhất định, hãy sử dụng tùy chọn “-f” với một số để cho biết trang đầu tiên cần chuyển đổi, như được hiển thị trong lệnh ví dụ bên dưới.
Nếu bạn chỉ muốn chuyển đổi hình ảnh trên và sau một trang nhất định, hãy sử dụng tùy chọn “-f” với một số để cho biết trang đầu tiên cần chuyển đổi, như được hiển thị trong lệnh ví dụ bên dưới.

pdfimages -f 2 -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

LƯU Ý: Chúng tôi kết hợp tùy chọn “-j” với tùy chọn “-f” để chúng tôi có được hình ảnh.jpg và cũng làm như vậy với tùy chọn “-l” được đề cập bên dưới.

Để chuyển đổi tất cả hình ảnh trước và trên một trang nhất định, hãy sử dụng "-l" (chữ thường "L", không phải là số "1") với số để cho biết trang cuối cùng cần chuyển đổi, như được hiển thị bên dưới.
Để chuyển đổi tất cả hình ảnh trước và trên một trang nhất định, hãy sử dụng "-l" (chữ thường "L", không phải là số "1") với số để cho biết trang cuối cùng cần chuyển đổi, như được hiển thị bên dưới.

pdfimages -l 1 -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

LƯU Ý: Bạn có thể sử dụng tùy chọn “-f” và “-l” cùng nhau để chuyển đổi hình ảnh trong một phạm vi trang cụ thể ở giữa tài liệu của bạn.

Nếu có mật khẩu chủ sở hữu trên tệp PDF, hãy sử dụng tùy chọn “-opw” và mật khẩu trong các dấu nháy đơn, như được hiển thị bên dưới. Nếu mật khẩu trên tệp PDF là mật khẩu người dùng, hãy sử dụng tùy chọn “-upw” thay thế bằng mật khẩu.
Nếu có mật khẩu chủ sở hữu trên tệp PDF, hãy sử dụng tùy chọn “-opw” và mật khẩu trong các dấu nháy đơn, như được hiển thị bên dưới. Nếu mật khẩu trên tệp PDF là mật khẩu người dùng, hãy sử dụng tùy chọn “-upw” thay thế bằng mật khẩu.

LƯU Ý: Đảm bảo có dấu nháy đơn xung quanh mật khẩu của bạn trong lệnh.

pdfimages -opw ‘password’ -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

Đề xuất: