Lokales OCR mit KI zur Verarbeitung von PDF

Mater1984

Semiprofi
Thread Starter
Mitglied seit
28.06.2024
Beiträge
210
Hi zusammen,
Ich habe im Moment im Rahmen einer Stammbaum Erstellung das Problem, dass ich große PDF Dokumente (270 MB) vom National Archive habe.
Diese sind nicht transkribiert und enthalten große Mengen an Daten.
Z.B. Gefallene aus dem 2. WW. Mitgliederlisten der NSDAP usw.
Hier ein Beispiel: https://catalog.archives.gov/id/325638079?objectPage=2

Ich würde diese gerne Transkribieren um darin nach Namen und Daten suchen zu können.
Da mein Rechner sich so oder so 90% der Zeit langweilt dachte ich daran mit OCR, KI und einer lokalen Variante von Transkribus zu arbeiten.
Transkribus sollte als OpenSource verfügbar sein.
Hat einer von euch Erfahrung damit oder einen Ansatz?
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Spannend, noch nie von dem Programm gehört. Klingt aber sehr gut.

Spontan hätte ich Mistral OCR oder Tesseract empfohlen.

Was für einen Ansatz brauchst du denn? Erstmal klingt deiner schon vernünftig und ich freue mich darauf, von Ergebnissen zu hören.
 
Spannend, noch nie von dem Programm gehört. Klingt aber sehr gut.

Spontan hätte ich Mistral OCR oder Tesseract empfohlen.

Was für einen Ansatz brauchst du denn? Erstmal klingt deiner schon vernünftig und ich freue mich darauf, von Ergebnissen zu hören.
Vom Ansatz her ist OCR4ALL perfekt. Allerdings läuft das leider nicht so rund wie ich es gerne hätte.

Man muss jede Seite manuell kontrollieren und meistens nachjustieren.
Tabellen werden nicht sauber erkannt und noch weitere Kleinigkeiten.
Wenn ich Zeit habe muss ich mich da mal genauer einlesen.

Hier gibt es auch noch mehr Infos
Beitrag automatisch zusammengeführt:

Hier die Präsentation

 
Zuletzt bearbeitet:
GPT4ALL kann PDF einlesen und inhaltlich lesen, allerdings behandelt er die Inhalte meist nur sehr oberflächlich, was es für meine Zwecke eher seminützlich macht (oder meine Fragestellung ist einfach noch nicht optimal?). Konkrete Namenssuchen allerdings sollten vermutlich kein Problem sein denke ich...
Als Model habe ich EM German Mistral verwendet, was imho sehr gut funktioniert.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh