Lokales OCR mit KI zur Verarbeitung von PDF

Mater1984 · 10.05.2025

Hi zusammen,
Ich habe im Moment im Rahmen einer Stammbaum Erstellung das Problem, dass ich große PDF Dokumente (270 MB) vom National Archive habe.
Diese sind nicht transkribiert und enthalten große Mengen an Daten.
Z.B. Gefallene aus dem 2. WW. Mitgliederlisten der NSDAP usw.
Hier ein Beispiel: https://catalog.archives.gov/id/325638079?objectPage=2

Ich würde diese gerne Transkribieren um darin nach Namen und Daten suchen zu können.
Da mein Rechner sich so oder so 90% der Zeit langweilt dachte ich daran mit OCR, KI und einer lokalen Variante von Transkribus zu arbeiten.
Transkribus sollte als OpenSource verfügbar sein.
Hat einer von euch Erfahrung damit oder einen Ansatz?

mz_z · 15.05.2025

Spannend, noch nie von dem Programm gehört. Klingt aber sehr gut.

Spontan hätte ich Mistral OCR oder Tesseract empfohlen.

Was für einen Ansatz brauchst du denn? Erstmal klingt deiner schon vernünftig und ich freue mich darauf, von Ergebnissen zu hören.

Mater1984 · 15.05.2025

mz_z schrieb:
Spannend, noch nie von dem Programm gehört. Klingt aber sehr gut.

Spontan hätte ich Mistral OCR oder Tesseract empfohlen.

Was für einen Ansatz brauchst du denn? Erstmal klingt deiner schon vernünftig und ich freue mich darauf, von Ergebnissen zu hören.

Vom Ansatz her ist OCR4ALL perfekt. Allerdings läuft das leider nicht so rund wie ich es gerne hätte.

Man muss jede Seite manuell kontrollieren und meistens nachjustieren.
Tabellen werden nicht sauber erkannt und noch weitere Kleinigkeiten.
Wenn ich Zeit habe muss ich mich da mal genauer einlesen.

Hier gibt es auch noch mehr Infos

FDMLab@LABW

Das Projekt FDMLab@LABW untersucht Methoden des maschinellen Lernens zur automatisierten Erkennung und Annotation digitaler Texte und Bilder.

fdmlab.landesarchiv-bw.de

Beitrag automatisch zusammengeführt: 15.05.2025

Hier die Präsentation

https://fdmlab.landesarchiv-bw.de/event/2021-werkzeuge-zur-texterkennung/presentation.pdf

Luebke · 21.05.2025

GPT4ALL kann PDF einlesen und inhaltlich lesen, allerdings behandelt er die Inhalte meist nur sehr oberflächlich, was es für meine Zwecke eher seminützlich macht (oder meine Fragestellung ist einfach noch nicht optimal?). Konkrete Namenssuchen allerdings sollten vermutlich kein Problem sein denke ich...
Als Model habe ich EM German Mistral verwendet, was imho sehr gut funktioniert.

ragnar440 · 28.05.2025

Hast du dir schonmal Tesseract oder Stirling-PDF angeschaut?

Das sind so die Tools die mir bekannt sind.

Mater1984 · 29.05.2025

An tesseract bin ich gerade dran

Suche

Lokales OCR mit KI zur Verarbeitung von PDF

Mater1984

Profi

mz_z

Enthusiast

Mater1984

Profi

FDMLab@LABW

Luebke

Urgestein

ragnar440

Profi

Mater1984

Profi

Ähnliche Themen