在 Aspose.Words for Java 中提取內容的輔助方法

Aspose.Words for Java 中擷取內容的輔助方法簡介

Aspose.Words for Java 是一個功能強大的函式庫，可讓開發人員以程式設計方式處理 Word 文件。使用 Word 文件時的常見任務是從中提取內容。在本文中，我們將探索一些使用 Aspose.Words for Java 有效提取內容的輔助方法。

先決條件

在我們深入研究程式碼範例之前，請確保您已在 Java 專案中安裝並設定了 Aspose.Words for Java。您可以從以下位置下載：這裡.

輔助方法1：依樣式擷取段落

public static ArrayList<Paragraph> paragraphsByStyleName(Document doc, String styleName) {
    //建立一個陣列來收集指定樣式的段落。
    ArrayList<Paragraph> paragraphsWithStyle = new ArrayList<Paragraph>();
    NodeCollection paragraphs = doc.getChildNodes(NodeType.PARAGRAPH, true);

    //瀏覽所有段落以尋找具有指定樣式的段落。
    for (Paragraph paragraph : (Iterable<Paragraph>) paragraphs) {
        if (paragraph.getParagraphFormat().getStyle().getName().equals(styleName))
            paragraphsWithStyle.add(paragraph);
    }
    return paragraphsWithStyle;
}

您可以使用此方法提取 Word 文件中具有特定樣式的段落。當您想要提取具有特定格式的內容（例如標題或區塊引號）時，這非常有用。

輔助方法2：透過節點擷取內容

public static ArrayList<Node> extractContentBetweenNodes(Node startNode, Node endNode, boolean isInclusive) {
    //首先，檢查傳遞給此方法的節點是否有效。
    verifyParameterNodes(startNode, endNode);
    
    //建立一個清單來儲存提取的節點。
    ArrayList<Node> nodes = new ArrayList<Node>();

    //如果任一標記是評論的一部分，包括評論本身，我們需要移動指針
    //轉發到 CommentRangeEnd 節點之後找到的 Comment 節點。
    if (endNode.getNodeType() == NodeType.COMMENT_RANGE_END && isInclusive) {
        Node node = findNextNode(NodeType.COMMENT, endNode.getNextSibling());
        if (node != null)
            endNode = node;
    }
    
    //保留傳遞給此方法的原始節點的記錄，以便在需要時分割標記節點。
    Node originalStartNode = startNode;
    Node originalEndNode = endNode;

    //基於區塊級節點（段落和表格）提取內容。遍歷父節點來找到它們。
    //我們將根據標記節點是否內聯來分割第一個和最後一個節點的內容。
    startNode = getAncestorInBody(startNode);
    endNode = getAncestorInBody(endNode);
    boolean isExtracting = true;
    boolean isStartingNode = true;
    //我們從文檔中提取的當前節點。
    Node currNode = startNode;

    //開始提取內容。處理所有區塊級節點並專門分割第一個
    //需要時加入最後一個節點，以便保留段落格式。
    //這種方法比常規提取器稍微複雜一些，因為我們需要考慮因素
    //使用內聯節點、字段、書籤等進行提取，使其有用。
    while (isExtracting) {
        //克隆當前節點及其子節點以獲得副本。
        Node cloneNode = currNode.deepClone(true);
        boolean isEndingNode = currNode.equals(endNode);
        if (isStartingNode || isEndingNode) {
            //我們需要單獨處理每個標記，因此將其傳遞給單獨的方法。
            //應先處理End以保留節點索引。
            if (isEndingNode) {
                // !isStartingNode：如果標記是同一節點，請勿新增節點兩次。
                processMarker(cloneNode, nodes, originalEndNode, currNode, isInclusive,
                        false, !isStartingNode, false);
                isExtracting = false;
            }
            //條件需要分開，因為區塊級開始和結束標記可能是同一節點。
            if (isStartingNode) {
                processMarker(cloneNode, nodes, originalStartNode, currNode, isInclusive,
                        true, true, false);
                isStartingNode = false;
            }
        } else
            //節點不是開始或結束標記，只需將副本添加到清單中即可。
            nodes.add(cloneNode);

        //移動到下一個節點並將其提取。如果下一個節點為空，
        //其餘內容可以在不同的部分中找到。
        if (currNode.getNextSibling() == null && isExtracting) {
            //轉到下一部分。
            Section nextSection = (Section) currNode.getAncestor(NodeType.SECTION).getNextSibling();
            currNode = nextSection.getBody().getFirstChild();
        } else {
            //移動到主體中的下一個節點。
            currNode = currNode.getNextSibling();
        }
    }

    //為了與內嵌書籤模式相容，請新增下一段（空）。
    if (isInclusive && originalEndNode == endNode && !originalEndNode.isComposite())
        includeNextParagraph(endNode, nodes);

    //返回節點標記之間的節點。
    return nodes;
}

此方法可讓您提取兩個指定節點之間的內容，無論它們是段落、表格或任何其他區塊級元素。它處理各種場景，包括內聯標記、欄位和書籤。

輔助方法 3：產生新文檔

public static Document generateDocument(Document srcDoc, ArrayList<Node> nodes) throws Exception {
    Document dstDoc = new Document();
    
    //從空白文檔中刪除第一段。
    dstDoc.getFirstSection().getBody().removeAllChildren();
    
    //將清單中的每個節點匯入到新文件中。保留節點的原始格式。
    NodeImporter importer = new NodeImporter(srcDoc, dstDoc, ImportFormatMode.KEEP_SOURCE_FORMATTING);
    for (Node node : nodes) {
        Node importNode = importer.importNode(node, true);
        dstDoc.getFirstSection().getBody().appendChild(importNode);
    }
    
    return dstDoc;
}

此方法可讓您透過從來源文件匯入節點清單來產生新文件。它保留了節點的原始格式，這使得它對於創建具有特定內容的新文件非常有用。

結論

從 Word 文件中提取內容可能是許多文件處理任務的關鍵部分。 Aspose.Words for Java 提供了強大的幫助器方法來簡化此過程。無論您需要按樣式、節點之間的內容提取段落，還是產生新文檔，這些方法都將幫助您在 Java 應用程式中有效地處理 Word 文件。

常見問題解答

如何安裝 Aspose.Words for Java？

要安裝 Aspose.Words for Java，您可以從 Aspose 網站下載。訪問這裡取得最新版本。

我可以從 Word 文件的特定部分提取內容嗎？

是的，您可以使用本文中提到的方法從 Word 文件的特定部分中提取內容。只需指定定義要提取的部分的開始和結束節點即可。

Aspose.Words for Java 與 Java 11 相容嗎？

是的，Aspose.Words for Java 與 Java 11 及更高版本相容。您可以在 Java 應用程式中使用它，不會出現任何問題。

我可以自訂提取內容的格式嗎？

是的，您可以透過修改生成文件中匯入的節點來自訂提取內容的格式。 Aspose.Words for Java 提供了廣泛的格式化選項來滿足您的需求。

在哪裡可以找到 Aspose.Words for Java 的更多文件和範例？

您可以在 Aspose 網站上找到 Aspose.Words for Java 的綜合文件和範例。訪問https://reference.aspose.com/words/java/取得詳細的文件和資源。

在 Aspose.Words for Java 中從文件中提取內容在 Aspose.Words for Java 中尋找和取代文本