PDF Dokument auslesen und auswerten

Hallo,

hat schon mal jemand mit PHP ein PDF-File ausgelesen und in Text umgewandelt?

Ich möchte ein PDF Dokument mit IPS in Text umwandeln und bestimmte Daten auswerten (Vertretungsplan einer Schule).

Kann mir jemand Tips geben wie ich das mit PHP lösen kann. Ich habe schon einige PHPClasses aus dem Web getestet aber das Ergebnis ist nicht sehr zufriedenstellend.

Gruß Tommy

Hier wurde mir mal was empfohlen, habe ich bis heute aber auch noch nicht getestet :smiley:
Abfallkalender für Lübeck auslesen - Seite 2
Michael

Danke für die Info!

Wie binde ich so etwas in IPS ein? Da fehlt mir jetzt etwas Erfahrung. Eine einfache phpclass kriege ich noch hin aber damit bin ich im Moment überfordert.
Kannst du mir einen Schups in die richtige Richtung geben?

Gruß Tommy

So aus dem Stegreif bekomme ich das auch nicht hin.
Müsste ich mir in Ruhe mal ansehen… leider (für dich) bin ich die nächsten Wochen erstmal unterwegs…
Auf jeden Fall brauchst du auch zusätzlich noch tcpdf. (GitHub - tecnickcom/TCPDF: Official clone of PHP library to generate PDF documents and barcodes)

Michael

Okay kein Problem.

TCPDF ist das nicht zur Erzeugung von PDF`s gedacht?

Ich werde mal sehen ob ich das über ein Tool „pdftotext“ als Zwischenschritt hinbekomme. Falls es noch Ideen gibt immer her damit.

Danke Gruß
Tommy

Ja ist zum erzeugen, Aber ist in der Doku des pdfparser als Abhängigkeit angegeben.
Michael

Hallo,

habe das Problem mit den PDF-Tools „XPDF“ von foolabs gelöst (mit IPS_ExecuteEx aufrufen und dann die Textdatei weiter verarbeitet)!

Wenns jemand brauchen sollte einfach melden.

MfG Tommy

Servus elektroniktommy,

mich würde deine Lösung mit dem XPDF Tool brennend interessieren. Ich muss im Moment genau das gleiche Realisieren und weiß nicht wie!

beste Grüße,
Thomas

Hallo Thomas,

anbei meine Lösung. Ich hoffe das hilft ein wenig.

Gruß Tommy


// Ini und Variablen
$Namepdf= "Wasauchimmer.pdf";
$localDir = IPS_GetKernelDir()."\\Daten\\";
$localDatei = $localDir.$Namepdf;
$Namepdf= "Wasauchimmer.pdf";
$remoteDatei = "http://www.woauchimmer.de/".$Namepdf;
//Downloaden
$content = @file_get_contents($remoteDatei);

if($content == false)
{
echo "Fehler Datei nicht gefunden oder kein Download möglich";
   return;
}

//Speichern
file_put_contents( $localDatei, $content );

// PDF in Textdatei konvertieren und Infodatei erstellen
IPS_ExecuteEx($localDir."convertpdf.bat", $Namepdf."Wasauchimmer.txt info.txt", false, true, -1);

// Textdatei einlesen und alle Umlaute utf8 convertieren
// sonst gibt es Probleme mit Umlauten bei der Weiterverarbeitung
$planstr = utf8_encode(file_get_contents($localDir."Wasauchimmer.txt"));
file_put_contents( $localDir."Wasauchimmer_utf.txt", $planstr );

// Textdatei als Array Zeilenweise einlesen 
$plan = file($localDir."Wasauchimmer_utf.txt");
//
//    ab hier deine Auswertung
//


Das hier muss in die convertpdf.bat im Verzeichnis deiner Wahl, ist bei mir zum Beispiel Daten im IPS-Verzeichniss!!


@echo off
if %1!==! goto ende    --- falls kein Parameter 1 angegeben wurde, wird abgebrochen
if %2!==! goto ende    --- falls kein Parameter 2 angegeben wurde, wird abgebrochen
if %3!==! goto ende    --- falls kein Parameter 3 angegeben wurde, wird abgebrochen

pdftotext.exe -table %1 %2
pdfinfo.exe %1 > %3
:ende