Laden...

Daten aus pdf im xml-Format oder doch eher in einem anderen Format zur Verfügung stellen?

Erstellt von gkd vor 4 Jahren Letzter Beitrag vor 4 Jahren 1.555 Views
G
gkd Themenstarter:in
3 Beiträge seit 2020
vor 4 Jahren
Daten aus pdf im xml-Format oder doch eher in einem anderen Format zur Verfügung stellen?

Guten Morgen zusammen,

hatte gestern abend noch eine lustige Unterhaltung mit einem Bekannten zum Thema "Datenaufbereitung aus pdf".
Nachdem ich ihn davon überzeugt hatte, dass man Daten aus pdf-Files sehr gut exportieren kann (wo er davor noch der Meinung war das sowas nicht funktionieren kann), sind wir beim Dateiformat hängen geblieben.

Er meint er würde es als json-Datei zur Verfügung stellen, mein Favourit wäre als xml-Datei.

Wir haben uns dann mal gedacht, wir lassen mal eine ganze Entwickler-Community darüber philosophieren was intelligenter ist.

Also, was meint ihr? Was ist gescheider? Gibt es ansonnsten ein anderes Format das sich besser eignen würde?

Die Daten sollen am Ende in einer Datenbank gespeichert werden können.

Wünsch euch einen schönen Tag,

Verschneite Grüsse aus Tirol

A
764 Beiträge seit 2007
vor 4 Jahren

Hallo gkd

Nachdem ich ihn davon überzeugt hatte, dass man Daten aus pdf-Files sehr gut exportieren kann

Kannst du uns davon auch überzeugen?

Abgesehen davon, ob json oder xml, es kommt natürlich auf den Anwendungsfall an. Brauche ich xml nicht aus einem bestimmten Grund, verwende ich eher json, weil es etwas schlanker ist und mit newtonsoft so schön einfach zu verwenden.

Gruß
Alf

6.911 Beiträge seit 2009
vor 4 Jahren

Hallo gkd,

Daten aus pdf-Files sehr gut exportieren kann

Afaik direkt mit den Adobe-Methoden vom PDF ist das XML passender und JSON ein Murks wegen der ganzen Meta-Infos.
Exportiere mal versuchsweise in beide Formate und schau dir dann -- wie auch Alf Ator meint -- den für euren Anwendungsfall passenden Weg an.

In Zusammenhang mit dem LiveCycle-Server von Adobe hat XML Vorteile, da so aus dem XML + der Dokumentvorlage (XDP) wieder ein PDF erstellt werden kann.

Die Frage nach dem "besser" von XML od. JSON kann nicht pauschal beantwortet werden.
Wenn ein XSLT-Prozessor verwendet werden soll, so macht JSON nicht viel Sinn um nur ein Beispiel zu nennen.

Die Daten sollen am Ende in einer Datenbank gespeichert werden können.

Das könnte für JSON sprechen, v.a. dann wenn eine entsprechende Dokument-DB verwendet wird, welche JSON bestens unterstützt.

mfG Gü

Stellt fachliche Fragen bitte im Forum, damit von den Antworten alle profitieren. Daher beantworte ich solche Fragen nicht per PM.

"Alle sagten, das geht nicht! Dann kam einer, der wusste das nicht - und hat's gemacht!"

M
368 Beiträge seit 2006
vor 4 Jahren

man Daten aus pdf-Files sehr gut exportieren kann

Das kann mit geeigneten Werkzeugen sogar stimmen. Aber wenn die Quell-pdf-Datei aus Bildern besteht (Stichwort Freepdf oder print2pdf) hat man bzgl. Text- oder anderer Daten ein kleines Problem...

Goalkicker.com // DNC Magazine for .NET Developers // .NET Blogs zum Folgen
Software is like cathedrals: first we build them, then we pray 😉

16.806 Beiträge seit 2008
vor 4 Jahren

Nachdem ich ihn davon überzeugt hatte, dass man Daten aus pdf-Files sehr gut exportieren kann

Also man muss es einfach so sagen: Daten aus PDF Dateien sind pauschal richtig beschissen zu exportieren.
Es gibt keine Garantie, dass Inhalte so gespeichert sind, wie sie dargestellt werden; ganz oft sind automatisierte Dokumente oder eben von freien Tools einfach nur Bilder.

Gute bzw. gut zu verarbeitende Inhalte bekommt man fast nur von offiziellen Adobe Produkten oder von großen Software Produkten wie die Office Suite - und auch hier nicht immer 100%.
PDF ist - im Groben und Ganzen - einfach nur (aus technisch konsumierenden Sicht) ein richtig beschissenes Datenformat.

G
gkd Themenstarter:in
3 Beiträge seit 2020
vor 4 Jahren

Hallo Alf,

zuerst mal vielen Dank für deine Antwort.

Entweder mit dem iText.Sharp oder unter Linux/Mac mit pdfgrep.
Das es mit JSON schlanker wäre, hab ich auch schon mehrfach gelesen / gehört.
Werd es mir mal anschauen.

Hallo Gü,

danke auch dir für deine Antwort.

Hat definitiv ihren Vorteil darin, das dem Benutzer / Kunden die Daten in einem Design seiner Wahl präsentiert werden kann.

Soweit haben wir dies dann nicht beredet, da wir hier uns hauptsächlich rein ums exportieren der Daten geredet haben.
Aber ist definitiv guter Stoff für weitere Fach-Simpeleien. 😄

man Daten aus pdf-Files sehr gut exportieren kann
Das kann mit geeigneten Werkzeugen sogar stimmen. Aber wenn die Quell-pdf-Datei aus Bildern besteht (Stichwort Freepdf oder print2pdf) hat man bzgl. Text- oder anderer Daten ein kleines Problem...

Hallo M.L,

für Bilddaten wäre hier dann eher der Weg über Python zu gehen, oder?

Nachdem ich ihn davon überzeugt hatte, dass man Daten aus pdf-Files sehr gut exportieren kann

Also man muss es einfach so sagen: Daten aus PDF Dateien sind pauschal richtig beschissen zu exportieren.
Es gibt keine Garantie, dass Inhalte so gespeichert sind, wie sie dargestellt werden; ganz oft sind automatisierte Dokumente oder eben von freien Tools einfach nur Bilder.

Gute bzw. gut zu verarbeitende Inhalte bekommt man fast nur von offiziellen Adobe Produkten oder von großen Software Produkten wie die Office Suite - und auch hier nicht immer 100%.
PDF ist - im Groben und Ganzen - einfach nur (aus technisch konsumierenden Sicht) ein richtig beschissenes Datenformat.

Mit exportieren der Daten aus dem pdf allein ist es nicht getan, das stimmt.

Wie würdest du die Daten zur Verfügung stellen, damit Sie nicht von jedem manipuliert werden können?

6.911 Beiträge seit 2009
vor 4 Jahren

Hallo gkd,

für Bilddaten wäre hier dann eher der Weg über Python zu gehen, oder?

Warum kommst du auf Python? Geht mit .NET genauso.

gut zu verarbeitende Inhalte bekommt man fast nur von offiziellen Adobe Produkten

Stimmt und das lässt sich Adobe auch recht gut bezahlen 😉

Wie würdest du die Daten zur Verfügung stellen, damit Sie nicht von jedem manipuliert werden können?

Was meinst du mit "zur Verfügung stellen"?
Als Dokument zum Weiterreichen? Dazu gibt es Signaturen.

mfG Gü

Stellt fachliche Fragen bitte im Forum, damit von den Antworten alle profitieren. Daher beantworte ich solche Fragen nicht per PM.

"Alle sagten, das geht nicht! Dann kam einer, der wusste das nicht - und hat's gemacht!"

G
gkd Themenstarter:in
3 Beiträge seit 2020
vor 4 Jahren

😁 stimmt. 🙂 Hier war schneller getippt als wie nachgedacht. Danke für den Hinweis.