Inhalt
Für das Auslesen von PDF Dateien gibt es zahlreiche Ansätze.
Large Language Models können das teilweise aber unexakt, während symbolische Ansätze bisher gescheitert sind. Es gibt wenigstens zwei vielversprechende Ansätze mit hybridem Vorgehen - auch für fliessende Dokumente ohne feste Positionen. Was ist bisher möglich? Was geht, was geht nicht?
Im Vortrag werden Vorgehensweisen vorgestellt, mit denen Content aus PDF geholt werden kann, so dass er weiterverarbeitet werden kann.
Zunächst werden verschiedene Layout-Formen dargestellt und die Schwierigkeiten bei der Aufgabe erläutert. Darauf aufbauend werden dann die Vorteile, Nachteile und Grenzen der aktuellen Methoden dargestellt. Mit einigen Beispielen wird dies illustriert.
Das lernen Sie
Die Zuhörer sollen mehrere Ansätze verstehen und eine Einschätzung für den Stand der Technik bekommen.
Vorkenntnisse
Grundsätzliches Wissen über Technische Dokumente, PDF und XML.