Tải tệp văn bản bằng Aspose.Words cho Java

Giới thiệu về tải tệp văn bản bằng Aspose.Words cho Java

Trong hướng dẫn này, chúng ta sẽ khám phá cách tải tệp văn bản bằng Aspose.Words cho Java và thao tác chúng dưới dạng tài liệu Word. Chúng tôi sẽ đề cập đến nhiều khía cạnh khác nhau như phát hiện danh sách, xử lý khoảng trắng và kiểm soát hướng văn bản.

Bước 1: Phát hiện danh sách

Để tải tài liệu văn bản và phát hiện danh sách, bạn có thể làm theo các bước sau:

// Tạo một tài liệu văn bản gốc ở dạng một chuỗi với các phần có thể được hiểu là danh sách.
// Khi tải, ba danh sách đầu tiên sẽ luôn được Aspose.Words phát hiện,
// và các đối tượng List sẽ được tạo cho chúng sau khi tải.
final String TEXT_DOC = "Full stop delimiters:\n" +
        "1. First list item 1\n" +
        "2. First list item 2\n" +
        "3. First list item 3\n\n" +
        "Right bracket delimiters:\n" +
        "1) Second list item 1\n" +
        "2) Second list item 2\n" +
        "3) Second list item 3\n\n" +
        "Bullet delimiters:\n" +
        "• Third list item 1\n" +
        "• Third list item 2\n" +
        "• Third list item 3\n\n" +
        "Whitespace delimiters:\n" +
        "1 Fourth list item 1\n" +
        "2 Fourth list item 2\n" +
        "3 Fourth list item 3";
//Danh sách thứ tư, có khoảng trắng ở giữa số danh sách và nội dung mục danh sách,
// sẽ chỉ được phát hiện dưới dạng danh sách nếu "DetectNumberingWithWhitespaces" trong đối tượng LoadOptions được đặt thành true,
// để tránh các đoạn văn bắt đầu bằng số bị phát hiện nhầm là danh sách.
TxtLoadOptions loadOptions = new TxtLoadOptions();
{
    loadOptions.setDetectNumberingWithWhitespaces(true);
}
// Tải tài liệu trong khi áp dụng LoadOptions làm tham số và xác minh kết quả.
Document doc = new Document(new ByteArrayInputStream(TEXT_DOC.getBytes()), loadOptions);
doc.save("Your Directory Path" + "WorkingWithTxtLoadOptions.DetectNumberingWithWhitespaces.docx");

Mã này trình bày cách tải một tài liệu văn bản với nhiều định dạng danh sách khác nhau và sử dụngDetectNumberingWithWhitespaces tùy chọn để phát hiện danh sách một cách chính xác.

Bước 2: Xử lý các tùy chọn không gian

Để kiểm soát khoảng trắng ở đầu và cuối khi tải tài liệu văn bản, bạn có thể sử dụng mã sau:

@Test
public void handleSpacesOptions() throws Exception {
    final String TEXT_DOC = "      Line 1 \n" +
            "    Line 2   \n" +
            " Line 3       ";
    TxtLoadOptions loadOptions = new TxtLoadOptions();
    {
        loadOptions.setLeadingSpacesOptions(TxtLeadingSpacesOptions.TRIM);
        loadOptions.setTrailingSpacesOptions(TxtTrailingSpacesOptions.TRIM);
    }
    Document doc = new Document(new ByteArrayInputStream(TEXT_DOC.getBytes()), loadOptions);
    doc.save("Your Directory Path" + "WorkingWithTxtLoadOptions.HandleSpacesOptions.docx");
}

Trong ví dụ này, chúng tôi tải một tài liệu văn bản và cắt bớt khoảng trắng ở đầu và cuối bằng cách sử dụngTxtLeadingSpacesOptions.TRIMTxtTrailingSpacesOptions.TRIM.

Bước 3: Kiểm soát hướng văn bản

Để chỉ định hướng văn bản khi tải tài liệu văn bản, bạn có thể sử dụng đoạn mã sau:

@Test
public void documentTextDirection() throws Exception {
    TxtLoadOptions loadOptions = new TxtLoadOptions();
    {
        loadOptions.setDocumentDirection(DocumentDirection.AUTO);
    }
    Document doc = new Document("Your Directory Path" + "Hebrew text.txt", loadOptions);
    Paragraph paragraph = doc.getFirstSection().getBody().getFirstParagraph();
    System.out.println(paragraph.getParagraphFormat().getBidi());
    doc.save("Your Directory Path" + "WorkingWithTxtLoadOptions.DocumentTextDirection.docx");
}

Mã này đặt hướng tài liệu thành tự động phát hiện (DocumentDirection.AUTOvà tải tài liệu văn bản có văn bản tiếng Do Thái. Bạn có thể điều chỉnh hướng tài liệu khi cần thiết.

Mã nguồn hoàn chỉnh để tải tệp văn bản bằng Aspose.Words cho Java

public void detectNumberingWithWhitespaces() throws Exception {
	// Tạo một tài liệu văn bản gốc ở dạng một chuỗi với các phần có thể được hiểu là danh sách.
	// Khi tải, ba danh sách đầu tiên sẽ luôn được Aspose.Words phát hiện,
	// và các đối tượng List sẽ được tạo cho chúng sau khi tải.
	final String TEXT_DOC = "Full stop delimiters:\n" +
			"1. First list item 1\n" +
			"2. First list item 2\n" +
			"3. First list item 3\n\n" +
			"Right bracket delimiters:\n" +
			"1) Second list item 1\n" +
			"2) Second list item 2\n" +
			"3) Second list item 3\n\n" +
			"Bullet delimiters:\n" +
			"• Third list item 1\n" +
			"• Third list item 2\n" +
			"• Third list item 3\n\n" +
			"Whitespace delimiters:\n" +
			"1 Fourth list item 1\n" +
			"2 Fourth list item 2\n" +
			"3 Fourth list item 3";
	// Danh sách thứ tư, có khoảng trắng giữa số danh sách và nội dung mục danh sách,
	// sẽ chỉ được phát hiện dưới dạng danh sách nếu "DetectNumberingWithWhitespaces" trong đối tượng LoadOptions được đặt thành true,
	// để tránh các đoạn văn bắt đầu bằng số bị phát hiện nhầm là danh sách.
	TxtLoadOptions loadOptions = new TxtLoadOptions();
	{
		loadOptions.setDetectNumberingWithWhitespaces(true);
	}
	// Tải tài liệu trong khi áp dụng LoadOptions làm tham số và xác minh kết quả.
	Document doc = new Document(new ByteArrayInputStream(TEXT_DOC.getBytes()), loadOptions);
	doc.save("Your Directory Path" + "WorkingWithTxtLoadOptions.DetectNumberingWithWhitespaces.docx");
}
@Test
public void handleSpacesOptions() throws Exception {
	final String TEXT_DOC = "      Line 1 \n" +
			"    Line 2   \n" +
			" Line 3       ";
	TxtLoadOptions loadOptions = new TxtLoadOptions();
	{
		loadOptions.setLeadingSpacesOptions(TxtLeadingSpacesOptions.TRIM);
		loadOptions.setTrailingSpacesOptions(TxtTrailingSpacesOptions.TRIM);
	}
	Document doc = new Document(new ByteArrayInputStream(TEXT_DOC.getBytes()), loadOptions);
	doc.save("Your Directory Path" + "WorkingWithTxtLoadOptions.HandleSpacesOptions.docx");
}
@Test
public void documentTextDirection() throws Exception {
	TxtLoadOptions loadOptions = new TxtLoadOptions();
	{
		loadOptions.setDocumentDirection(DocumentDirection.AUTO);
	}
	Document doc = new Document("Your Directory Path" + "Hebrew text.txt", loadOptions);
	Paragraph paragraph = doc.getFirstSection().getBody().getFirstParagraph();
	System.out.println(paragraph.getParagraphFormat().getBidi());
	doc.save("Your Directory Path" + "WorkingWithTxtLoadOptions.DocumentTextDirection.docx");
	}

Phần kết luận

Trong hướng dẫn này, chúng tôi đã khám phá cách tải tệp văn bản bằng Aspose.Words cho Java, phát hiện danh sách, xử lý khoảng trắng và điều khiển hướng văn bản. Những kỹ thuật này cho phép bạn thao tác các tài liệu văn bản một cách hiệu quả trong các ứng dụng Java của mình.

Câu hỏi thường gặp

Aspose.Words cho Java là gì?

Aspose.Words for Java là một thư viện xử lý tài liệu mạnh mẽ cho phép các nhà phát triển tạo, thao tác và chuyển đổi tài liệu Word theo chương trình trong các ứng dụng Java. Nó cung cấp nhiều tính năng để làm việc với văn bản, bảng, hình ảnh và các thành phần tài liệu khác.

Làm cách nào tôi có thể bắt đầu với Aspose.Words cho Java?

Để bắt đầu với Aspose.Words cho Java, hãy làm theo các bước sau:

  1. Tải xuống và cài đặt thư viện Aspose.Words cho Java.
  2. Tham khảo tài liệu tạiAspose.Words để tham khảo API Javađể biết thông tin chi tiết và ví dụ.
  3. Khám phá mã mẫu và hướng dẫn để tìm hiểu cách sử dụng thư viện một cách hiệu quả.

Làm cách nào để tải tài liệu văn bản bằng Aspose.Words cho Java?

Để tải tài liệu văn bản bằng Aspose.Words cho Java, bạn có thể sử dụngTxtLoadOptions lớp học vàDocument lớp học. Đảm bảo rằng bạn chỉ định các tùy chọn thích hợp để xử lý khoảng trắng và hướng văn bản nếu cần. Hãy tham khảo hướng dẫn từng bước trong bài viết này để biết ví dụ chi tiết.

Tôi có thể chuyển đổi tài liệu văn bản đã tải sang các định dạng khác không?

Có, Aspose.Words cho Java cho phép bạn chuyển đổi tài liệu văn bản đã tải sang nhiều định dạng khác nhau, bao gồm DOCX, PDF, v.v. Bạn có thể sử dụngDocument lớp để thực hiện chuyển đổi. Kiểm tra tài liệu để biết các ví dụ chuyển đổi cụ thể.

Làm cách nào để xử lý khoảng trắng trong tài liệu văn bản được tải?

Bạn có thể kiểm soát cách xử lý khoảng trắng ở đầu và cuối trong tài liệu văn bản được tải bằng cách sử dụngTxtLoadOptions . Tùy chọn nhưTxtLeadingSpacesOptionsTxtTrailingSpacesOptionscho phép bạn cắt bớt hoặc bảo toàn không gian khi cần thiết. Hãy tham khảo phần “Tùy chọn xử lý không gian” trong hướng dẫn này để biết ví dụ.

Tầm quan trọng của hướng văn bản trong Aspose.Words cho Java là gì?

Hướng văn bản rất cần thiết cho các tài liệu chứa các chữ viết hoặc ngôn ngữ hỗn hợp, chẳng hạn như tiếng Do Thái hoặc tiếng Ả Rập. Aspose.Words for Java cung cấp các tùy chọn để chỉ định hướng văn bản, đảm bảo hiển thị và định dạng văn bản phù hợp trong các ngôn ngữ này. Phần “Kiểm soát hướng văn bản” trong hướng dẫn này trình bày cách đặt hướng văn bản.

Tôi có thể tìm thêm tài nguyên và hỗ trợ cho Aspose.Words cho Java ở đâu?

Để có thêm tài nguyên, tài liệu và hỗ trợ, hãy truy cậpAspose.Words cho tài liệu Java. Bạn cũng có thể tham gia diễn đàn cộng đồng Aspose.Words hoặc liên hệ với bộ phận hỗ trợ của Aspose để được hỗ trợ về các vấn đề hoặc thắc mắc cụ thể.

Aspose.Words cho Java có phù hợp với các dự án thương mại không?

Có, Aspose.Words for Java phù hợp cho cả dự án cá nhân và thương mại. Nó cung cấp các tùy chọn cấp phép để phù hợp với các tình huống sử dụng khác nhau. Đảm bảo xem lại các điều khoản cấp phép và giá cả trên trang web Aspose để chọn giấy phép phù hợp cho dự án của bạn.