Verbeteren tekst in OCR scan

Ik heb een flink aantal artikelen in PDF van het internet door mijn Devonthink OCR (Iris) gehaald. Dat gaat eigenlijk erg goed maar DT moet voor mij grote hoeveelheden documenten vergelijken. Dat doet het prgramma door woorden te wegen. Minder voorkomende woorden zijn dus belangrijker dan simpele woorden. Het probleem is dat er na de OCR eigenlijk nog te veel verkeerde woorden in de PDF zijn opgeslagen die dan dus (doordat ze weinig voorkomen) een hoge score krijgen. Het gaat om engelse documenten.

Weet iemand of het mogelijk is de woorden in de PDF zelf aan te passen? Ik heb al flink gezocht maar vind hier op internet eigenlijk niets over. Elke uitleg is erg welkom!

Guus

Een Apple is emotie...

PSYCHOMAC

3.692

Verbeteren tekst in OCR scan

17 januari 2009 - 22:31 reactie #1

geplaatst door: PSYCHOMAC

PDFPen zou je eens kunnen bekijken....

iMac 2007 20", iMac 27", iMac 21", 10x iMac G3 , 2x iMac G4, 1x iMac G5 ,2xPM dual 1.8 en dual 2.0 G5; 2x MacPro ;15/17/23inch Display(alu en model ervoor), powerbook 12/15/27inch, Apple TV, 2xApple Cube/17 "ADC Scherm, PM G4 QuickSilver, en verder nog veel te veel om op te noemen. Een verzamelaar dus!

Guus

topic starter

784

Verbeteren tekst in OCR scan

17 januari 2009 - 22:55 reactie #2

geplaatst door: Guus

Bedankt voor je tip!

Ik heb het programma opgehaald en globaal bekeken. Het lijkt erop dat je elk stukje tekst apart moet selecteren en eventueel aanpassen. Dat werkt redelijk omslachtig met zoveel documenten.

Merkwaardig als je bedenkt dat ik de woorden in DT gewoon in een lijst kan zien. Komt er in een PDF geen extra tekstlaag of zoiets? Dan zou ik daar de spellingscontrole op los kunnen laten.

Guus

Een Apple is emotie...