Supportvragen digitale media > Grafische software en technieken
Vreemd tekstprobleem in PDF’s
(1/1)
Jakko W:
(In feite is dit een vervolg op m’n eerdere vragen over PDF’s automatisch opknippen, roteren e.d.) Nu ik klaar ben met de hele oude verenigingsbladen, ben ik aangeland bij nummers die met moderne software opgemaakt zijn:
Vreemd tekstprobleem in PDF’s
Deze hebben dan ook selecteerbare tekst, wat betekent dat ik er makkelijker adressen en telefoonnummers in zou moeten kunnen censureren in Voorvertoning (met het redigeergereedschap) dan in nummers die bestaan uit scans. Helaas blijkt er daar een hele vervelende adder onder het gras te zitten, en ik kom er niet uit hoe ik eenvoudig daar omheen kan werken. Hopelijk heeft iemand hier ideeën?
Wat er aan de hand is, is dat als ik het redigeergereedschap gebruik, er meer verdwijnt dan alleen de tekst die ik daarmee zwartmaak. Niet onmiddellijk, maar zodra Voorvertoning de PDF bewaart verdwijnen er ook andere letters en vormen op de bladzijde, dan alleen de ongewenste tekst. Hier bijvoorbeeld:
Vreemd tekstprobleem in PDF’s
Hier heb ik een e-mailadres geredigeerd, maar de g in Penningmeester is ook ineens weg. Dit gebeurt bij alle letters waarvan de stok in het geredigeerde vlak valt. En dit is niet eens het ergste — soms verdwijnen hele afbeeldingen of grote vlakken kleur spoorloos, blijkbaar omdat ze ook zo’n stuk raken.
Om uit te zoeken wat hier aan de hand is, heb ik eens zo’n PDF geopend in Illustrator. Het (b)lijkt eraan te liggen dat dit allemaal geen tekst is maar outlines ván tekst, en dan ook nog eens opgeknipt volgens de omtrekken van een vectorafbeelding die achter de tekst ligt. Nog gekker is dat die vectorafbeelding dan ook weer in stukken geknipt is naar de omtrekken (rechthoekig) van de resulterende „tekst”vakken … Kijk maar:
Vreemd tekstprobleem in PDF’s
Het woord E-MAIL hier bestaat uit meerdere stukken, allemaal precies conform de randen van de lichte en donkere lijnen erachter (die van een vectorafbeelding zijn). Dit wordt duidelijker als ik één van die stukken wis:
Vreemd tekstprobleem in PDF’s
Maar zoals ik zei is de vectorafbeelding óók in dezelfde stukken geknipt:
Vreemd tekstprobleem in PDF’s
Het blijkt dan ook nog eens dat achter (bijna) alles een laag staat met alle tekst erop, en dan ook echt als tekst.
Ik denk dat dat is waarom Voorvertoning de fout ingaat: het kan — is mijn vermoeden — niet goed bepalen wat nu eigenlijk tekst is en wat een vorm die de tekst volgt, waardoor er dingen gewist worden die gewoon op de bladzijde moeten blijven staan.
Mijn idee was dan dat als ik de neptekst weggooi en de tekstlaag naar voren kan halen, het probleem weg zou moeten zijn. Met de hand dit alles verwijderen is echter geen doen: dit gaat niet om één nummer maar om tientallen. Dus de volgende gedachte: Even alles met dezelfde vulkleur als de tekst selecteren, weggooien, klaar.
Helaas:
Vreemd tekstprobleem in PDF’s
Elk stukje neptekst staat in een eigen clip group en die geeft als vulkleur een vraagteken aan, zodat er niks anders geselecteerd wordt dan de groep die dat al is :( Alleen door op de groep te dubbelklikken, zodat je alléén met die groep werkt, is de vulkleur te achterhalen — maar dan kun je weer niet alles met dezelfde vulkleur selecteren :mad: Ook het toverstafje werkt niet (want de vulkleur is ?), en omdat de bladzijde niet uit lagen opgebouwd is kan ik ook niet gewoon even de laag met de neptekst eruit gooien.
Nog één ding dat ik kon bedenken: niks wissen, alleen de laag met tekst helemaal naar voren halen, de PDF bewaren en dan redigeren. Dat werkt beter, in de zin dat er minder wegvalt, maar nog altijd bijvoorbeeld de g van Penningmeester. Waar ik ook niet goed bijkan, want die zou daar nu toch als tekst moeten staan óver de vorm heen.
Heeft iemand enig idee hoe ik makkelijk en snel al die neptekst kan selecteren zonder dat stuk voor stuk te moeten doen?
nnsa:
Dit is misschien te simpel gedacht, of een oplossing:
Als je (bijvoorbeeld) een emailadres wil afschermen, waarom leg je er dan geen ondoorzichtig vlak op. De PDF dan flattened opslaan, dan kan iemand anders er ook niet meer bij…?
Welke PDF editor gebruik je ?
Jakko W:
Ik zou liefst de tekst doorzoekbaar houden, anders zette ik ze helemaal om in bitmaps. Voorvertoning heeft grondig gereedschap aan boord om dingen onleesbaar te maken,¹ maar dat verslikt zich in de nodeloze ingewikkeldheid van deze PDF’s (wat, denk ik, de schuld is van InDesign en niet van degene die de opmaak gedaan heeft). Als ik van de overbodige tekst-als-vormen af kan komen, dan doet dat gereedschap waarschijnlijk wel precies wat het hoort te doen.
¹ Gebruik je het redigeergereedschap op een afbeelding, dan vervangt het de pixels daarvan door een zwart vlak met een grijs kruis — haal je het document door b.v. File Juicer, dan krijg je bitmaps met die vlakken er ook op. Selecteer je er tekst mee, dan komen er zwarte vierkantjes met grijze kruizen overheen en wordt die tekst ook echt uit het document verwijderd.
Navigatie
[0] Berichtenindex
Naar de volledige versie