Ik heb een flink aantal artikelen in PDF van het internet door mijn Devonthink OCR (Iris) gehaald. Dat gaat eigenlijk erg goed maar DT moet voor mij grote hoeveelheden documenten vergelijken. Dat doet het prgramma door woorden te wegen. Minder voorkomende woorden zijn dus belangrijker dan simpele woorden. Het probleem is dat er na de OCR eigenlijk nog te veel verkeerde woorden in de PDF zijn opgeslagen die dan dus (doordat ze weinig voorkomen) een hoge score krijgen. Het gaat om engelse documenten.
Weet iemand of het mogelijk is de woorden in de PDF zelf aan te passen? Ik heb al flink gezocht maar vind hier op internet eigenlijk niets over. Elke uitleg is erg welkom!
Guus