PdfExtractor

PdfExtractor class

Klass för att extrahera bilder och text från PDF-dokument.

public sealed class PdfExtractor : Facade

Konstruktörer

namn Beskrivning
PdfExtractor() Initierar nyPdfExtractor objekt.
PdfExtractor(Document) Initierar nyPdfExtractor objekt på basen avdocument .

Egenskaper

namn Beskrivning
Document { get; } Får dokumentfasaden arbetar på.
EndPage { get; set; } Hämtar eller ställer in slutsidan i sidintervallet där extrahering kommer att utföras.
ExtractImageMode { get; set; } Ställer in läget för extrahering av bilder.
ExtractTextMode { get; set; } Ställer in läget för extrahering av textresultat.
IsBidi { get; } Är sant när text har hebriska eller arabiska symboler. Detta fall måste särskilt beaktas eftersom strängfunktioner ändrar sitt beteende och startar processtext från höger till vänster (förutom siffror och andra tecken som inte är text).
Password { get; set; } Hämtar eller ställer in indatafilens lösenord.
Resolution { get; set; } Ställ in eller hämta upplösning för extraherade bilder. Standardvärdet är 150. Bilder som har högre upplösningsvärde är mer tydliga. Men ett ökat upplösningsvärde resulterar i ökad tid och minne som behövs för att extrahera bilder. Vanligtvis räcker det för att få en tydlig bild för att ställa in upplösningen till 150 eller 300.
StartPage { get; set; } Hämtar eller ställer in startsidan i sidintervallet där extraheringsoperationen kommer att utföras.
TextSearchOptions { get; set; } Hämtar eller ställer in alternativ för textsökning.

Metoder

namn Beskrivning
virtual BindPdf(Document) Initierar fasaden.
override BindPdf(Stream) Binder PDF-dokument från stream.
override BindPdf(string) Bind in PDF-fil.
virtual Close() Kastar Aspose.Pdf.Dokument bunden med en fasad.
Dispose() Disponerar fasaden.
ExtractAttachment() Extraherar bilagor från ett pdf-dokument.
ExtractAttachment(string) Extraherar bilaga till PDF-fil efter bilagans namn.
ExtractImage() Extrahera bilder från PDF-fil.
ExtractText() Extraherar text från ett pdf-dokument med Unicode-kodning.
ExtractText(Encoding) Extraherar text från ett pdf-dokument med angiven kodning.
GetAttachment() Sparar alla bifogade filer till streams.
GetAttachment(string) Lagrar bilaga i fil.
GetAttachmentInfo() Hämtar listan med bilagor.
GetAttachNames() Returnerar en lista över bilagor i PDF-fil. Obs! ExtractAttachments måste anropas innan du använder den här metoden.
GetNextImage(Stream) Hämta nästa bild från PDF-fil och lagra den i stream.
GetNextImage(string) Hämtar nästa bild från PDF-dokument. Obs: ExtractImage måste anropas innan du använder den här metoden.
GetNextImage(Stream, ImageFormat) Hämta nästa bild från PDF-fil och lagra den i ström med givet bildformat.
GetNextImage(string, ImageFormat) Hämtar nästa bild från PDF-dokument med givet bildformat. Obs: ExtractImage måste anropas innan du använder den här metoden.
GetNextPageText(Stream) Sparar en sidas text för att streama.
GetNextPageText(string) Sparar en sidas text till fil.
GetText(Stream) Sparar text för att streama. se även:ExtractText
GetText(string) Sparar text till fil. se även:ExtractText
GetText(Stream, bool) Sparar text för att streama. se även:ExtractText
HasNextImage() Kontrollerar om fler bilder är tillgängliga i PDF-dokument. Obs: ExtractImage måste anropas innan du använder den här metoden.
HasNextPageText() Indikerar att om kan få fler texter eller inte.

Se även