RED-4875 - move PdfTextExtraction.java from ocr-service to here

2023-03-20 08:21:22 +01:00 · 2023-03-20 08:21:22 +01:00 · 8a35a1bd90
commit 8a35a1bd90
parent a3a2a9ac03
1 changed files with 35 additions and 0 deletions
--- a/src/main/java/com/iqser/red/pdftronlogic/commons/PdfTextExtraction.java
+++ b/src/main/java/com/iqser/red/pdftronlogic/commons/PdfTextExtraction.java
@ -0,0 +1,35 @@
+package com.iqser.red.pdftronlogic.commons;
+
+import java.io.IOException;
+import java.io.InputStream;
+import java.util.ArrayList;
+import java.util.List;
+
+import com.pdftron.common.PDFNetException;
+import com.pdftron.pdf.PDFDoc;
+import com.pdftron.pdf.Page;
+import com.pdftron.pdf.PageIterator;
+import com.pdftron.pdf.TextExtractor;
+
+
+public class PdfTextExtraction {
+
+    public static String extractAllTextFromDocument(InputStream fileStream) throws IOException, PDFNetException {
+
+        PDFDoc pdfDoc = new PDFDoc(fileStream);
+        TextExtractor extractor = new TextExtractor();
+        List<String> texts = new ArrayList<>();
+
+        PageIterator iterator = pdfDoc.getPageIterator();
+        while (iterator.hasNext()) {
+            Page page = iterator.next();
+            extractor.begin(page);
+            texts.add(extractor.getAsText());
+        }
+
+        extractor.destroy();
+        pdfDoc.close();
+        return String.join("\n", texts);
+    }
+
+}