Tìm kiếm đoạn văn bản trang trong tệp PDF

Giới thiệu

Bạn đã bao giờ tự hỏi làm thế nào để định vị các đoạn văn bản cụ thể trong một tài liệu PDF bằng Aspose.PDF cho .NET chưa? Vâng, bạn thật may mắn! Trong hướng dẫn này, chúng tôi sẽ hướng dẫn bạn thực hiện quy trình theo định dạng từng bước đơn giản. Cho dù bạn đang cố gắng trích xuất thông tin, phân tích văn bản hay chỉ điều hướng các phức tạp của thao tác PDF, Aspose.PDF cho .NET sẽ giúp bạn. Hãy cùng tìm hiểu!

Điều kiện tiên quyết

Trước khi bắt đầu, hãy đảm bảo rằng bạn đã có mọi thứ cần thiết:

Aspose.PDF cho .NET: Đảm bảo bạn đã cài đặt thư viện. Bạn có thể lấy nó từđây.
.NET Framework: Đảm bảo bạn đã cài đặt .NET trên máy của mình.
Môi trường phát triển: Khuyến khích sử dụng Visual Studio hoặc bất kỳ IDE nào hỗ trợ .NET.
Tài liệu PDF: Tệp PDF mà bạn sẽ dùng để tìm kiếm các đoạn văn bản.

Nếu bạn chưa có Aspose.PDF cho .NET, đừng lo lắng! Bạn có thể dùng thử miễn phí từđây hoặc mua nóđây.

Nhập gói

Trước khi bắt đầu mã hóa, điều quan trọng là phải nhập các gói cần thiết vào dự án của bạn. Điều này đảm bảo tất cả các lớp và phương thức cần thiết đều có sẵn cho các tác vụ thao tác PDF của bạn.

using System.IO;
using Aspose.Pdf;
using Aspose.Pdf.Text;
using System;

Sau khi đã có những thông tin cần thiết, chúng ta hãy cùng xem hướng dẫn từng bước.

Bước 1: Tải Tài liệu PDF

Bước đầu tiên trong quy trình là tải tệp PDF của bạn vào chương trình. Nếu không có tài liệu đã tải, sẽ không có gì để tìm kiếm, đúng không? Đây là cách bạn thực hiện.

// Đường dẫn đến thư mục tài liệu.
string dataDir = "YOUR DOCUMENT DIRECTORY";
// Mở tài liệu
Document pdfDocument = new Document(dataDir + "SearchTextSegmentsPage.pdf");

dataDir : Biến này giữ đường dẫn đến tệp PDF của bạn. Thay thế"YOUR DOCUMENT DIRECTORY" với thư mục thực tế nơi tập tin của bạn được lưu trữ.
pdfDocument : Sử dụngDocument lớp, chúng ta tải PDF vào bộ nhớ.

Bước 2: Thiết lập Tìm kiếm văn bản

Bây giờ tài liệu của bạn đã được tải, bước tiếp theo là tạo mộtTextFragmentAbsorber đối tượng, cho phép chúng ta tìm kiếm văn bản cụ thể trong tài liệu.

// Tạo đối tượng TextAbsorber để tìm tất cả các trường hợp của cụm từ tìm kiếm đầu vào
TextFragmentAbsorber textFragmentAbsorber = new TextFragmentAbsorber("text");

TextFragmentAbsorber : Đối tượng này được sử dụng để nắm bắt tất cả các lần xuất hiện của văn bản bạn đang tìm kiếm. Thay thế"text" với văn bản thực tế mà bạn muốn tìm kiếm.

Bước 3: Chấp nhận Absorber cho các trang cụ thể

Bạn có thể không phải lúc nào cũng muốn tìm kiếm toàn bộ tài liệu PDF. Trong ví dụ này, chúng tôi sẽ thu hẹp phạm vi tìm kiếm xuống một trang cụ thể.

// Chấp nhận bộ hấp thụ cho tất cả các trang
pdfDocument.Pages[2].Accept(textFragmentAbsorber);

pdfDocument.Pages[2]: Điều này cho biết chúng ta chỉ tìm kiếm trang thứ hai của tài liệu. Bạn có thể sửa đổi chỉ mục để nhắm mục tiêu đến các trang khác.
Accept() : Phương pháp này cho phépTextFragmentAbsorber để xử lý văn bản trong trang được chỉ định.

Bước 4: Trích xuất các đoạn văn bản

Sau khi tìm kiếm trên trang, chúng tôi trích xuất các đoạn văn bản tìm thấy vào một bộ sưu tập.

// Lấy các đoạn văn bản đã trích xuất
TextFragmentCollection textFragmentCollection = textFragmentAbsorber.TextFragments;

TextFragmentCollection:Bộ sưu tập này lưu trữ tất cả các trường hợp của đoạn văn bản được tìm thấy trong quá trình tìm kiếm.

Bước 5: Lặp qua các đoạn văn bản và trích xuất dữ liệu

Bây giờ, chúng ta hãy lặp qua từng đoạn văn bản và trích xuất thông tin chi tiết của nó, chẳng hạn như vị trí, phông chữ và màu sắc.

// Lặp lại các đoạn
foreach (TextFragment textFragment in textFragmentCollection)
{
    foreach (TextSegment textSegment in textFragment.Segments)
    {
        Console.WriteLine("Text : {0} ", textSegment.Text);
        Console.WriteLine("Position : {0} ", textSegment.Position);
        Console.WriteLine("XIndent : {0} ", textSegment.Position.XIndent);
        Console.WriteLine("YIndent : {0} ", textSegment.Position.YIndent);
        Console.WriteLine("Font - Name : {0}", textSegment.TextState.Font.FontName);
        Console.WriteLine("Font - IsAccessible : {0} ", textSegment.TextState.Font.IsAccessible);
        Console.WriteLine("Font - IsEmbedded : {0} ", textSegment.TextState.Font.IsEmbedded);
        Console.WriteLine("Font - IsSubset : {0} ", textSegment.TextState.Font.IsSubset);
        Console.WriteLine("Font Size : {0} ", textSegment.TextState.FontSize);
        Console.WriteLine("Foreground Color : {0} ", textSegment.TextState.ForegroundColor);
    }
}

foreach (TextFragment textFragment in textFragmentCollection) : Chúng tôi lặp lại từng cáiTextFragment trong bộ sưu tập.
foreach (TextSegment textSegment in textFragment.Segments):Bên trong mỗi đoạn có nhiều phân đoạn. Chúng tôi lặp lại chúng để thu thập tất cả thông tin có liên quan.
Các tính chất khác nhau củatextSegmentChúng cung cấp cho chúng ta thông tin chi tiết về văn bản, chẳng hạn như vị trí (X và Y), chi tiết phông chữ, kích thước và màu sắc.

Bước 6: Xuất kết quả

Cuối cùng, sau khi trích xuất tất cả thông tin, kết quả sẽ được in ra trong bảng điều khiển. Điều này giúp bạn thấy chính xác vị trí của văn bản và các chi tiết định dạng của nó.

Sau đây là một mẫu đầu ra để làm rõ hơn:

Text : text
Position : X: 45.0, Y: 75.0
XIndent : 45.0
YIndent : 75.0
Font - Name : Arial
Font - IsAccessible : True
Font - IsEmbedded : False
Font - IsSubset : False
Font Size : 12.0
Foreground Color : System.Drawing.Color [Black]

Đầu ra này cung cấp cho bạn vị trí chính xác và thông tin định dạng của văn bản “text” trên trang được chỉ định.

Phần kết luận

Và bạn đã có nó! Bạn vừa học cách tìm kiếm các đoạn văn bản cụ thể trong một tài liệu PDF bằng Aspose.PDF cho .NET. Quá trình này cực kỳ tiện dụng khi xử lý các tệp PDF lớn, cho phép bạn xác định và trích xuất văn bản chính một cách hiệu quả. Cho dù đó là phân tích dữ liệu, trích xuất thông tin hay chỉ đơn giản là điều hướng qua một tài liệu, Aspose.PDF cung cấp cho bạn các công cụ mạnh mẽ để hoàn thành công việc.

Câu hỏi thường gặp

Tôi có thể tìm kiếm nhiều từ hoặc cụm từ không?

Có, bạn có thể sửa đổiTextFragmentAbsorberđể tìm kiếm văn bản khác nhau bằng cách thay đổi chuỗi nhập.

Có thể tìm kiếm trên nhiều trang không?

Chắc chắn rồi! Bạn có thể lặp qua tất cả các trang trong PDF bằng cách lặp lạipdfDocument.Pages.

Làm thế nào để tìm kiếm văn bản không phân biệt chữ hoa chữ thường?

Bạn có thể sử dụngTextSearchOptions để cho phép tìm kiếm không phân biệt chữ hoa chữ thường.

Tôi có thể sửa đổi văn bản sau khi tìm thấy không?

Có, một khi bạn đã xác định được vị tríTextFragment, bạn có thể sửa đổi thuộc tính văn bản của nó.

Phương pháp này có áp dụng được cho các tệp PDF được mã hóa không?

Có, miễn là bạn mở khóa PDF bằng mật khẩu đúng.

Tìm kiếm văn bản và vẽ hình chữ nhật Tìm kiếm văn bản với Dot Net Regex