Über ein Tomedo-Modul lassen sich Kartei-Eintrag-Vorlagen oder Dokumente per Regex analysieren und auswerten. Dabei kommt ein eigenes Formular-Import-System zum Einsatz, das mit eher einfacher Textverarbeitung arbeitet.

Der integrierte OCR-/Dokumentenparser erlaubt es, Inhalte aus PDF-Dokumenten zuverlässig auszulesen. 

Das funktioniert insgesamt gut – aktuell ist diese Funktionalität noch als Beta-Test gekennzeichnet, was darauf hindeutet, dass noch Verbesserungen vorgesehen sind.

In meinen Tests hat sich jedoch ein zentrales Problem gezeigt:  
Zeilenumbrüche werden vom Parser vollständig ignoriert. Das führt dazu, dass das Dokument intern offenbar als ein einziger Fließtext interpretiert wird – lediglich durch sichtbare Trennzeichen wie Doppelpunkte strukturiert.

Beispiel:

Dokumentinhalt:
Mobil:
E-Mail-Adresse: a@b

Tomedo erkennt daraus offenbar:
Mobil: E-Mail-Adresse: a@b

 

Das bedeutet: Auch wenn ein regulärer Ausdruck korrekt formuliert ist (z. B. `Mobil:\s+(\S.*)`), wird dennoch der Inhalt der nächsten Zeile mitgelesen, wenn das ursprüngliche Feld leer ist.  

Aktuell gibt es keine Möglichkeit, per Regex allein zuverlässig zu verhindern, dass Inhalte nachfolgender Felder als Wert übernommen werden – insbesondere dann nicht, wenn Felder optional leer bleiben dürfen.

Ein Workaround besteht darin, den folgenden bekannten Feldbegriff per Lookahead (`(?=...)`) als Begrenzung zu nutzen, z. B.:

```regex
Mobil:\s+(.*?)(?=\s*E-Mail-Adresse:)
```

Das funktioniert gut, sofern die Reihenfolge der Felder immer gleich bleibt. Bei dynamischen oder unvollständigen Vorlagen ist dieser Ansatz jedoch nicht mehr zuverlässig.

Vorschlag:

Wunsch an die Entwickler
Es wäre sehr hilfreich, wenn die OCR-Texterkennung echte Zeilenumbrüche (`\n` oder `\r\n`) korrekt erkennen und intern erhalten würde.  
Solange das System alles zu einem zusammenhängenden Textblock „verflacht“, ist keine wirklich zuverlässige Extraktion via Regex möglich, sobald leere Felder oder Zeilen im Spiel sind.

Wenn andere Nutzer ähnliche Erfahrungen gemacht haben oder alternative Lösungen kennen, freue ich mich über Rückmeldungen.

Gefragt in Wunsch von (38.8k Punkte)
0 Punkte

Bitte logge dich ein oder melde dich neu an um den Beitrag zu beantworten.

19,702 Beiträge
28,147 Antworten
50,838 Kommentare
33,425 Nutzer