Van .docx naar .pdf
2 september 2022 - 14:29   
geplaatst door: HermanvdB
Wanneer ik een word (.docx) document afdruk als .pdf valt het mij op dat de bestandsgrootte van bijvoorbeeld 143 kB naar 377 kB gaat. Kies ik in word voor opslaan-als en daarna opslaan als pdf, wijzigt de grootte ook van 143 kB naar 377 kB. In mijn "windows tijd" ben ik gewend dat de grootte kleiner in plaats van groter.
Een poging tot verkleinen via de Finder met Quartz Filter "Reduce file size" heeft geen invloed. Heeft iemand enig idee?
Van .docx naar .pdf
2 september 2022 - 14:48    reactie #1
geplaatst door: puk1980
.docx is een gezipped formaat. Het is dus niet zo vreemd dat dat weinig bytes in beslag neemt.
Van .docx naar .pdf
2 september 2022 - 16:16    reactie #2
geplaatst door: Dick de Roos
Je kunt de PDF natuurlijk ook nog verkleinen met Adobe Acrobat of met Voorvertoning.
Van .docx naar .pdf
2 september 2022 - 16:29    reactie #3
geplaatst door: nnsa
Wat is het probleem met deze relatief geringe bestandsvergroting. Het zijn Kb’s geen Gb’s.

En het feitelijke antwoord is door @Puk1980 gegeven.
Bewerkt: 2 september 2022 - 17:01 door nnsa
Ⓒnnsa(i)-2025
Van .docx naar .pdf
2 september 2022 - 18:14    reactie #4
geplaatst door: HermanvdB
Het voorbeeld dat ik heb gegeven zijn inderdaad geen Gb's maar Kb's. Ik heb ook voorbeelden waar een bestand van Kb's naar Mb's gaat. En ja, het is een geneuzel van de eerste orde. Maar heb je veel documenten zowel als .docx en .pdf dan loopt het in het totaal wel op.....
Van .docx naar .pdf
2 september 2022 - 18:17    reactie #5
geplaatst door: Sypie
.docx is een gezipped formaat.
Dit. Verander .doxc maar eens in .zip en kijk dan naar eens naar de inhoud.
Van .docx naar .pdf
2 september 2022 - 19:00    reactie #6
geplaatst door: HermanvdB
.docx bestand gezipt en wordt 25% kleiner.
Van .docx naar .pdf
2 september 2022 - 19:34    reactie #7
geplaatst door: Jakko W
Een poging tot verkleinen via de Finder met Quartz Filter "Reduce file size" heeft geen invloed. Heeft iemand enig idee?
Ik gók dat dit komt omdat het PDF-formaat de gegevens in het bestand anders wegzet dan dat dat in een Word-document gedaan wordt … Als je een tekstdocument hebt en je bewaart het als Word-document wordt het ook groter, want in dat laatste formaat steekt er allerlei opmaak bij die overbodig is voor de tekst zelf maar wel om aan tekstverwerkers duidelijk te maken wat het precies allemaal is.

Wellicht dat het verschil in grootte op Windows tegenover macOS ligt in dat Windows niet allerlei extra gegevens erbij doet, maar macOS wel? Want je hebt geen idee hoe de conversie precies gedaan wordt: is dat door routines van Microsoft, of geeft Word het gewoon aan macOS en zegt „hier een PDF van, graag?” En in het eerste geval zou het me ook nog eens totaal niet verbazen als de Windows-versie van Word totaal andere conversie-code heeft dan de Mac-versie, en dus ook een ander bestand produceert … (Dat is dan weer te testen als je toegang tot allebei hebt: maak van hetzelfde document een PDF in Word, onder zowel Windows als macOS, en vergelijk de bestandsafmetingen.)
Van .docx naar .pdf
2 september 2022 - 19:59    reactie #8
geplaatst door: nnsa
De belangrijkse reden dat een .docx document, waarbij het niet uitmaakt of de productie heeft plaatsgevonden in Windows of MacOS, is dat bij de conversie naar .pdf een aantal aanvullende zaken ook in het pdf-bestand terechtkomen zoals @Jakko W al aangaf. Met name de export van Lettertypes zorgt voor een toename van het bestand.

Het weer kleiner maken van het pdf bestand, of het pdf bestand weer opslaan als .zip bestand lijkt me het paard achter de wagen spannen.

Ook aanwezige afbeeldingen in een .docx bestand kunnen bij conversie een eigen leven gaan leiden.
Ⓒnnsa(i)-2025
Van .docx naar .pdf
2 september 2022 - 20:20    reactie #9
geplaatst door: HermanvdB
Hetzelfde .docx bestand van 154 Kb converteren naar .pdf:
1.
Op Mac via afdrukken als pdf geeft 370 Kb
2.
Op Mac via Word opslaan als met keuze lokaal geeft 370 Kb
3.
Op Mac via Word opslaan als met keuze onlineservice Microsoft geeft 245 Kb
4.
Op Windows via Word afdrukken of opslaan als geeft in beide gevallen 245 Kb

Maar het Word document bevat een klein logo. Haal ik dat weg, dan is het pdf 170 Kb. Dus ja, afbeeldingen gooien iets overhoop bij de conversie……
Van .docx naar .pdf
2 september 2022 - 20:23    reactie #10
geplaatst door: Sypie
.docx bestand gezipt en wordt 25% kleiner.
Ik bedoelde eigenlijk om alleen de extensie te veranderen, niet om het document te zippen.
Van .docx naar .pdf
2 september 2022 - 20:23    reactie #11
geplaatst door: Nord
.docx is een gezipped formaat. Het is dus niet zo vreemd dat dat weinig bytes in beslag neemt.
Volgens mij is .docx een xml-formaat, niet gezipped (de x van xml ;-)).
 MBP 13" (2018) 2.7 GHz 16GB RAM 1TB SSD Sequoia 15.4.1 ;  Time Capsule 3TB ;  iPhone 16 Pro ; "Information is not knowledge. ... Music is THE BEST".
Van .docx naar .pdf
2 september 2022 - 20:37    reactie #12
geplaatst door: nnsa
Het .docx formaat is gebaseerd op het xml formaat en is een gezipped formaat:

Citaat
DOCX

DOCX, dat na 2007 in Microsoft Office Word wordt gebruikt, vervangt het huidige eigen standaardbestandsformaat door een nieuw op XML gebaseerd gecomprimeerd bestandsformaat, waarbij de letter X wordt toegevoegd na de traditionele bestandsnaamextensie, namelijk DOC wordt DOCX. DOCX is een open standaard.

Het DOCX-formaat is eigenlijk een ZIP-bestand. U kunt de unzip-software gebruiken om het DOCX-bestand te openen en veel kleine bestanden te krijgen. Een verscheidenheid aan configuratiebestanden, tekstbestanden en mediabestanden is te vinden in het DOCX-bestand.

Is dus wel gezipped.

Bron
Bewerkt: 2 september 2022 - 21:06 door nnsa
Ⓒnnsa(i)-2025
Van .docx naar .pdf
2 september 2022 - 22:01    reactie #13
geplaatst door: puk1980
Volgens mij is .docx een xml-formaat, niet gezipped (de x van xml ;-)).
Had je de .docx link, die je had meegekopiëerd, ook bekeken? :wink:
Van .docx naar .pdf
2 september 2022 - 22:06    reactie #14
geplaatst door: Feek
Een .docx is zeker een gezipt bestand!  Wijzig de extensie maar eens van .docx naar .zip Deze kan je weer uitpakken en de inhoud bekijken.
Ik "unzip" regelmatig .docx bestanden om 'originele' afbeeldingen er uit te halen. Ook om in bv template afbeeldingen te wijzigen.... (je moet wel weten hoe je dat moet doen...)

Inderdaad de toegevoegde Font bestanden heeft ook zeker invloed op de grootte van de pdf
Van .docx naar .pdf
2 september 2022 - 22:10    reactie #15
geplaatst door: nnsa
Maar het Word document bevat een klein logo. Haal ik dat weg, dan is het pdf 170 Kb. Dus ja, afbeeldingen gooien iets overhoop bij de conversie……
Citaat
Ook aanwezige afbeeldingen in een .docx bestand kunnen bij conversie een eigen leven gaan leiden.
Ⓒnnsa(i)-2025
Van .docx naar .pdf
3 september 2022 - 10:18    reactie #16
geplaatst door: Nord
Had je de .docx link, die je had meegekopiëerd, ook bekeken? :wink:
Ik was me niet bewust dat ik een link toegevoegd had, dat gebeurt blijkbaar automagisch.
Dus nee, niet bekeken, maar was wel verhelderend geweest.
 MBP 13" (2018) 2.7 GHz 16GB RAM 1TB SSD Sequoia 15.4.1 ;  Time Capsule 3TB ;  iPhone 16 Pro ; "Information is not knowledge. ... Music is THE BEST".
Van .docx naar .pdf
3 september 2022 - 11:19    reactie #17
geplaatst door: Jakko W
Hetzelfde .docx bestand van 154 Kb converteren naar .pdf:
1.
Op Mac via afdrukken als pdf geeft 370 Kb
2.
Op Mac via Word opslaan als met keuze lokaal geeft 370 Kb
3.
Op Mac via Word opslaan als met keuze onlineservice Microsoft geeft 245 Kb
4.
Op Windows via Word afdrukken of opslaan als geeft in beide gevallen 245 Kb
Dat geeft al aan dat de conversie onder Windows iets anders doet dan die op een Mac. Wat en hoe precies, dat is sterk de vraag, natuurlijk.

Misschien interessant om te bekijken of er verschillen zitten tussen het bestand uit poging 1 en dat uit 2, of tussen die uit 3 en 4. Je kunt kijken of er verschil op zit met het commando diff in de terminal: open de terminal, typ daar diff in met een spatie erachter, en sleep dan de twee PDF’s erop. Na een druk op Return vergelijkt dat de bestanden, en als er verschil op zit wordt het gemeld:
Citaat
Binary files 1.pdf and 2.pdf differ
Als er geen melding komt, zijn de bestanden tot op de laatste bit identiek.
Van .docx naar .pdf
3 september 2022 - 12:33    reactie #18
geplaatst door: boiing
Ik was me niet bewust dat ik een link toegevoegd had, dat gebeurt blijkbaar automagisch.
Die link stond in de eerste reactie in dit draadje, van puk1980. Jij quootte 'm. Niks automagisch aan :music: :wink:.
The amount of energy needed to refute bullshit is an order of magnitude bigger than that needed to produce it (Brandolini's Law)
Van .docx naar .pdf
3 september 2022 - 12:38    reactie #19
geplaatst door: HermanvdB
Goed, om een lang verhaal kort te maken: het is nu eenmaal zo. Waarschijnlijk is het de leercurve en moet ik dingen gewoon loslaten en er vanuit gaan dat het allemaal goed gaat.
Wel fijn zo'n forum waar deskundigen je kunnen helpen overigens.
Van .docx naar .pdf
3 september 2022 - 12:44    reactie #20
geplaatst door: nnsa
Goed, om een lang verhaal kort te maken: het is nu eenmaal zo.
Inderdaad, van die paar Kb zou ik niet wakker liggen…
Ⓒnnsa(i)-2025
Van .docx naar .pdf
3 september 2022 - 12:56    reactie #21
geplaatst door: boiing
... het is nu eenmaal zo.
Klopt :thumbs-up:. In het algemeen: een PDF is vrijwel altijd een groter bestand dan een Word document met vergelijkbare inhoud. Dat heeft allerlei technische redenen maar ik zou er niet te lang over nadenken. Gebruik wat je nodig hebt, met de huidige opslagruimtes is het niet echt meer relevant.
The amount of energy needed to refute bullshit is an order of magnitude bigger than that needed to produce it (Brandolini's Law)
Van .docx naar .pdf
3 september 2022 - 21:14    reactie #22
geplaatst door: bertvanderveen
De verschillen in omvang voor de op verschillende manieren gemaakte pdf's heeft te maken met hoe de gebruikte fonts (lettertypen) aan de pdf toegevoegd worden. De meest compacte vorm gebruikt enkel de glyphs (dat is de officiële naam voor een letterteken - dus buiten abc etc. ook £ @ en zo meer) die in de tekst van het document voorkomen -- dat heet een subset.
Je kunt je afvragen waarom dat niet altijd gebeurt, vooral als het om de bestandsgrootte gaat, maar er is een maar… als je in een pdf iets wilt veranderen heb je een probleem als de glyph die je nodig hebt niet in de subset zit. Daarom is het in veel gevallen handiger als het hele font in de pdf 'zit'.

Wat betreft het doc(x) formaat - daarin wordt een heleboel informatie meegenomen die het bestand groter maakt dan wat in principe nodig is voor opmaak en dergelijke. Zoals info over het OS en de systeemversie, info over de licentie van de software, lokatie qua taalinstelling, de standaard stijlkenmerken van je app, etc. etc.

In een redelijk ver verleden was de grootte van een bestand belangrijk; we betaalden nog per MB die overgeseind werd, maar nu maakt het schijnbaar niet meer uit. Wat volgens mij niet terecht is. Dataverkeer is een van de grootste energiesluipers & net zoals je in de huidige tijd je thermostaat een graadje lager moet zetten, zou het ook niet verkeerd zijn om je bits-consumptie en -uitwisseling zo minimaal mogelijk te houden.

Maar dat is mij mening, dus.
Bert Vanderveen [...]
+++ Applegebruiker sinds 1989 (van System 6 via OSX naar macOS 15)
Van .docx naar .pdf
3 september 2022 - 21:51    reactie #23
geplaatst door: nnsa
Dataverkeer is een van de grootste energiesluipers & net zoals je in de huidige tijd je thermostaat een graadje lager moet zetten, zou het ook niet verkeerd zijn om je bits-consumptie en -uitwisseling zo minimaal mogelijk te houden.
@bertvanderveen: vind je dit echt een efficiënt proces ? Een productie in MS Word, dan bewaren in PDF formaat en daarna de PDF met Adobe Acrobat Professional, of Abby Fine Reader of iets dergelijks weer kleiner maken om een beetje ruimte te besparen op een cloud oplossing of op je eigen schijf. Is dit niet penny wise but money fool ?

Wat ik wel met je eens ben is het ten alle tijden tegen gaan van verspillingen in de ruimste zin van het woord.
Ⓒnnsa(i)-2025
Van .docx naar .pdf
3 september 2022 - 22:35    reactie #24
geplaatst door: boiing
In een redelijk ver verleden was de grootte van een bestand belangrijk; we betaalden nog per MB die overgeseind werd, maar nu maakt het schijnbaar niet meer uit. Wat volgens mij niet terecht is. Dataverkeer is een van de grootste energiesluipers ...
Ja prima, maar alles wel in perspectief:

Citaat
According to the International Energy Agency (IEA), data centers and data transmission networks each account for about 1% of global electricity consumption in 2019. Since 2010, the number of internet users worldwide has doubled and internet traffic has increased tenfold. The energy consumption however, remained stable over that period and hardly grew, due to the concentration of IT in data centers. (bron)
Dataverkeer maakt dus weinig uit in het globale energiegebruik. Verder nog dit:

The-Worlds-Most-Used-Apps-by-Downstream-Traffic.jpegVan .docx naar .pdf


Dit gaat over mobiel verkeer maar het punt is helder: video, social networking en dan de rest. Niet de PDF van HermanvdB :music:.

Kortom: leuk om bestandsgrootte ter discussie te stellen maar het is volkomen irrelevant in het grote geheel der dingen. Bovendien ging het niet over dataverkeer in het draadje, alleen over de grootte van een bestand op je schijf.

... & net zoals je in de huidige tijd je thermostaat een graadje lager moet zetten, zou het ook niet verkeerd zijn om je bits-consumptie en -uitwisseling zo minimaal mogelijk te houden.
Nee dus. Blijf lezen, onderzoeken, en zaken afwegen. Een graadje lager is prima, bit-consumptie schaamte is onzin (maakt geen zak uit) maar een beetje minder vlees eten (bijvoorbeeld) maakt wél veel uit, globaal gezien :wink:.
The amount of energy needed to refute bullshit is an order of magnitude bigger than that needed to produce it (Brandolini's Law)