Dubbele bestanden verwijderen
2 februari 2023 - 11:22   
geplaatst door: WimvanD
Na jaren bestanden/foto's/muziek etc opslaan is mijn externe hdd (Lacie 2 big dock) een zootje geworden.
Copie van een copie in een map naar andere map ...

Welke is de beste manier om dubbele bestanden op te zoeken en te verwijderen.
Iets standaard via Finder ?
Nieuwe slimme map maken heb ik al gevonden maar dan nog moet je alles manueel aflopen.
Of met extra non-Apple programma ?
Dubbele bestanden verwijderen
2 februari 2023 - 12:24    reactie #1
geplaatst door: orange
Sinds 12-01-1963.
Hobby > Music in Motion: www.drumcorpsinprogress.nl
Dubbele bestanden verwijderen
2 februari 2023 - 14:43    reactie #2
geplaatst door: Flix
Dan vraag ik me altijd weer af: hoe weet de software dat het daadwerkelijk dubbele bestanden zijn?
Ik heb het idee dat zoiets toch wel mensenwerk blijft, zelfs met AI...
Dubbele bestanden verwijderen
2 februari 2023 - 14:50    reactie #3
geplaatst door: orange
Naam, extensies en bitjes vergelijken?

Als iets dezelfde naam heeft, maar het één is een PDF en het ander een ISO, dan wordt het uiteraard niet als dubbel bestand aangemerkt.

Als iets exact hetzelfde is, maar wel een andere naam heeft ook niet.

Verder is niet elk dubbel bestand ongewenst. Ik heb werkmappen van jaren waar in veel mappen hetzelfde bestand te vinden zal zijn. Dat zou ik toch wel graag zo houden.

Dus inderdaad... het is en blijft altijd mensenwerk als je niet alsnog een zooitje van je harddisk wilt maken.
Bewerkt: 2 februari 2023 - 18:18 door orange
Sinds 12-01-1963.
Hobby > Music in Motion: www.drumcorpsinprogress.nl
Dubbele bestanden verwijderen
2 februari 2023 - 17:39    reactie #4
geplaatst door: doctor_apple
@Orange:

Dat doen we door een techniek genaamd "hashing". We kijken naar de inhoud van het bestand om daar vervolgens een digitale vingerafdruk van te maken.

Voorbeeld: ik heb een textbestand

-rw-r--r-- 1 docapple users   54 Feb  2 14:54 Testbestand.txt

Met de inhoud:

Dit is een testbestand om iets kleins te demonstreren

er zijn tools voor om een "afdruk" te maken ... Bijvoorbeeld shasum ...

Doen we dat op een *nix systeem (shasum bestandsnaam), dan krijg ik:

8814377921f52d4e94637ff50d1de3d788d3d1ad  Testbestand.txt

Hernoem ik het bestand en verander ik de aanmaaktijd en datum, en voer ik het commando nogmaals uit, dan krijg ik als antwoord:

8814377921f52d4e94637ff50d1de3d788d3d1ad  T2.txt

Identieke "afdruk" zoals je ziet ...

Verander ik "Dit" in "Dat" dan krijg ik een andere waarde:

ef919d512d97aff7c1b9609f747ef7cf7585dea5  T2.txt

Welnu, als je dit mechanisme toepast, tesamen met het kijken naar: aanmaakdatum, wijzigingsdatum, bestandsgrootte en nog een paar zaken, dan kun je daar met een grote trefzekerheid vaststellen of iets aan elkaar gelijk is of niet.

Op het linux/unix platform bestaan daar al decennia lang tools voor, welke vaak net zo eenvoudig zijn als het intypen van een eenvoudige opdrachtregel op de terminal. Voorbeeld van een dergelijke (razendsnelle) tool is: fdupes.

Dit (terminal) programma is gratis te downloaden en werkt op de prompt

Als ik het hierboven gebruikte testbestand kopieer in een map met daarin nog een map en weer een kopie en voer het programma uit, dan ziet dat er als volgt uit:

fdupes -r .
./T2.txt
./Testbestand.txt
./Nepbestand.txt
./MacFreak/T2.txt


Oftewel, het programma vindt dat de volgende bestanden dubbel zijn (al hebben ze andere namen)

Wil je bij elk gevonden bestand een terugkoppeling krijgen welke te behouden geef je in:

fdupes -rd .
[1] ./T2.txt
[2] ./Testbestand.txt
[3] ./Nepbestand.txt
[4] ./MacFreak/T2.txt

Set 1 of 1, preserve files [1 - 4, all, quit]:


Wat ik meestal doe (bij media bestanden) voordat ik deze verder verwerk, is alles in een centrale map dumpen. Dus een grote map met soms wel paar honderd gigabyte aan video's, foto's en muziek ... Bestandsnamen zijn dan (voor mij) even niet relevant.

Vervolgens schoon ik de map op door alle duplicaten eruit te halen en automatisch te verwijderen. Na inmiddels denk wel enkele tientallen zo niet een honderdtal aan terabytes op die manier te hebben verwerkt, heb ik er het nodige vertrouwen in dat dit werkt 🤣 ...

Dus, dan start ik de terminal op in de betreffende map en type ik:

fdupes -rdN .

LET OP, niet zomaar ingeven ...

Wat dit doet is: check op duplicaten, ook in submappen en verwijder duplicaten en laat van elk gevonden duplicaat 1 bestand staan ...

Werkt als een trein. Dan haal ik de bestanden door exiftool om ze te soorteren naar type (video, foto, plaatje) aan de hand van hun inhoud en krijg dan een mappenstructuur als:

exiftool -progress -r $2 '-Directory<FileTypeExtension'

TXT, DOC, MP4, M4A, MP3, RAW, JPG, PDF

In de mappen zitten dan ook de desbetreffende bestanden. En dat is de een na laatste stap ... Vervolgens kan ik de bestanden slepen naar bestemming of naar de betreffende librarian (bibliotheek-software), zij het Apple Music, MusicBee (Windows), Photos of gewoon, met de hand ...

Natuurlijk is verdere verwerking mogelijk, zelfs geautomatiseerd inzake bestandsnaamgeving. Maar dat is voor gevorderden 😉 ...

Hoe dan ook, eigenlijk komt het neer op:

1. Bestanden die je wilt schonen in een map plaatsen (inclusief submappen)
2. fdupes -r . > "rapport.txt"
opgeven als je een textbestand wilt hebben met alle dubbele bestanden
2. fdupes -rd .
als je een prompt wilt krijgen om te kiezen tussen welk bestand je wilt behouden OF
2. fdupes -rdN .
als je fdupes altijd 1 kopie wilt laten behouden
3. exiftool -progress -r $2 '-Directory<FileTypeExtension'
om vervolgens alles in mapjes te stoppen
4. find . -type d -empty -delete
om lege mapjes te wissen.

Let op, bovenstaande is enkel ter illustratie ... Gebruik op eigen risico, en enkel na begrip van de tools  :music: ... Allemaal standaard *nix tools, die ook (gratis) voor Apple macOS beschikbaar zijn.

Ik heb volgens mij ergens een relatief eenvoudig scriptje geschreven om mappen met Foto's en Video's op te schonen, maar kan me even niet meer herinneren waar ik dat heb staan.

Voor FDUPES is een alternatief via een lange opdrachten regel op macOS. Helaas is de unix-laag van macOS nogal uitgekleed en niet voorzien van al de handigheidjes die onder Linux te vinden zijn, maar het goede eraan is natuurlijk dat het wel heel gemakkelijk geinstalleerd kan worden en in de kern het hier wel degelijk een unix-variant betreft.

Zo, dat was de late middag-koffie-pauze, nu afsluiten en klaar maken voor een wat langere reis ...

Dubbele bestanden verwijderen
2 februari 2023 - 17:52    reactie #5
geplaatst door: Flix
Naam, extensies en bitjes vergelijken?
Precies. Of zoals @doctor_apple het met een tikje meer woorden (...) ook uitlegt.
Maar waar software geweldig is snel een vergelijking te maken tussen miljarden bitjes, kan het één belangrijk ding niet: naar de context kijken. En dat is wat je als mens continue, bewust of onbewust doet.
Zoals je in het vervolg van je reactie ook al aangeeft. Niet alles wat dubbel is, beschouw je als mens en gebruiker, als een duplicaat.

Nog een voorbeeld: als je bv achter elkaar 10 foto's neemt van een object, elke vanuit een iets andere hoek, met een iets andere zoom, belichting, etc, om de mooiste te bewaren en de rest weg te gooien, zal software deze nooit kunnen zien als dubbele bestanden. Want andere bitjes, andere naam, andere tijd. Hoogstens zal ie de correlatie kunnen vaststellen, en moet dan alsnog jou erbij halen om de finale keuze te maken.

Dit ondanks al het Terminal getypt van hierboven...
Dubbele bestanden verwijderen
2 februari 2023 - 18:20    reactie #6
geplaatst door: orange
Het beste is en blijft gewoon netjes werken, en het niet zo ver laten komen dat je aan het graven moet naar al dan niet dubbele bestanden.

Maar ja, dat is blijkbaar lastig voor velen.  :wink:
Sinds 12-01-1963.
Hobby > Music in Motion: www.drumcorpsinprogress.nl
Dubbele bestanden verwijderen
2 februari 2023 - 18:26    reactie #7
geplaatst door: nnsa
De besparing die je dacht te genieten door er een 'rommeltje' van te maken op je HD, vertaalt zich nu in kwardratische inspanningen om er weer structuur in aan de brengen. Een paar hulpmiddelen zijn Gemini 2, clean my drive en clean my mac.

Succes !
Dubbele bestanden verwijderen
2 februari 2023 - 18:59    reactie #8
geplaatst door: puk1980
Op het linux/unix platform bestaan daar al decennia lang tools voor, welke vaak net zo eenvoudig zijn als het intypen van een eenvoudige opdrachtregel op de terminal. Voorbeeld van een dergelijke (razendsnelle) tool is: fdupes.

Ter info:

fdupes voor macOS is beschikbaar via Homebrew.

https://formulae.brew.sh/formula/fdupes

https://www.macfreak.nl/tips-nieuwtjes-mededelingen/homebrew-3-0-is-uit/

Dubbele bestanden verwijderen
2 februari 2023 - 19:24    reactie #9
geplaatst door: Jakko W
Het beste is en blijft gewoon netjes werken, en het niet zo ver laten komen dat je aan het graven moet naar al dan niet dubbele bestanden.

Maar ja, dat is blijkbaar lastig voor velen.  :wink:
Een paar jaar geleden heb ik daar ergens een artikel over gelezen, dat vooral jongeren amper of niet doorhebben hoe mappen überhaupt werken, laat staan wat je eraan hebt, en daarom alles op dezelfde plek neergooien (d.w.z. meestal de standaardlocatie waarop een willekeurig programma z’n Bewaar-venster opent). En hoe opleidingen die enigszins computergericht zijn, daardoor veel tijd kwijt zijn aan het proberen aan te leren hoe je bestanden ordentelijk op je schijf kunt zetten zodat je ook dingen terug kunt vinden.
Dubbele bestanden verwijderen
2 februari 2023 - 19:58    reactie #10
geplaatst door: nnsa
Een paar jaar geleden heb ik daar ergens een artikel over gelezen, dat vooral jongeren amper of niet doorhebben hoe mappen überhaupt werken, laat staan wat je eraan hebt…
Een alternatief is alles op de HD pletteren, middels een ultieme bestandsnaamgeving, tags en vullen van file-info. Met daarnaast ultieme zoek-tools +  indexeren middels bijvoorbeeld NeoFinder.
Dubbele bestanden verwijderen
2 februari 2023 - 23:41    reactie #11
geplaatst door: Timotheus
Nog een alternatief: nieuwe HD kopen, daarop de dingen zetten die je in elk geval wilt bewaren, de rest gewoon op de oude HD laten staan, en daarop van tijd tot tijd opzoeken wat je eventueel mist op de nieuwe HD. En na verloop van een bepaalde periode de oude HD gewoon wissen.
I went there and came back / It was nothing special / The river at high tide / The mountain veiled by misty rain
Dubbele bestanden verwijderen
3 februari 2023 - 06:29    reactie #12
geplaatst door: sluisje

geblokkeerd

Nog een voorbeeld: als je bv achter elkaar 10 foto's neemt van een object, elke vanuit een iets andere hoek, met een iets andere zoom, belichting, etc, om de mooiste te bewaren en de rest weg te gooien, zal software deze nooit kunnen zien als dubbele bestanden.
Dergelijke software is er wel degelijk! Zelf gebruik ik daarvoor GraphicConverter. Hierin kun je ook instellen in welke mate de foto's moeten overeenkomen om als duplicaat te worden gezien.
Dubbele bestanden verwijderen
3 februari 2023 - 08:43    reactie #13
geplaatst door: nnsa
Dergelijke software is er wel degelijk!
Klopt, alleen kan de software niet bepalen, wat jij de mooiste, te bewaren foto vindt. Dus toch veel handwerk...
Dubbele bestanden verwijderen
3 februari 2023 - 11:02    reactie #14
geplaatst door: Flix
Hierin kun je ook instellen in welke mate de foto's moeten overeenkomen om als duplicaat te worden gezien.
Dat noemde ik: software kan een mate van correlatie vaststellen. Maar daar moet je dan ook weer mee oppassen, want het kan zijn dat ie dan ook andere foto's gaat betrekken in zo'n reeks, en gaat zien als dubbele bestanden. En als je het dan niet zelf manueel naloopt, zou je meer kwijt kunnen raken dan dat je wilt.

En zoals @nnsa ook zegt: het bepalen van de beste/mooiste foto kan alleen jij doen.
Dubbele bestanden verwijderen
3 februari 2023 - 11:57    reactie #15
geplaatst door: sluisje

geblokkeerd

Hoeveel handwerk je eraan hebt bepaal je zelf. Het is in mijn opinie een zeer handig hulpmiddel voor een eerste schifting.
Dubbele bestanden verwijderen
3 februari 2023 - 12:23    reactie #16
geplaatst door: nnsa
Hoeveel handwerk je eraan hebt bepaal je zelf. Het is in mijn opinie een zeer handig hulpmiddel voor een eerste schifting.
Het zal zich niet beperken tot afbeeldingen alleen...
Uiteraard bepaal je alles zelf, zo ook een rommel op je schijven maken...  :wink:

Tools:

  • Gemini 2;
  • Clean my Drive;
  • Clean my Mac;
  • Duplicate File Finder Remover;
  • Cleaner One Pro;
  • TrashMe 3;
  • Etc.;

https://apps.apple.com/nl/app/duplicate-file-finder-remover/id1032755628?mt=12

https://apps.apple.com/nl/app/cleaner-one-pro-disk-clean/id1133028347?mt=12

https://apps.apple.com/nl/app/trashme-3/id1490879410?mt=12
Dubbele bestanden verwijderen
3 februari 2023 - 14:34    reactie #17
geplaatst door: WimvanD
Gemini 2 een kans gegeven.
Vind wel wat dubbele bestanden maar om te verwijderen moet je dus programma kopen   :thumbs-down:
Ook wat schrik om zomaar door een programma automatisch te laten verwijderen.
Ik heb graag nog wat controle wat ik weg gooi.
Dubbele bestanden verwijderen
3 februari 2023 - 15:11    reactie #18
geplaatst door: sluisje

geblokkeerd

In GraphicConverter, wat ik al eerder noemde, kun je twee duplicaten naast elkaar zien met nog wat metainformatie. Vervolgens kun je aangeven welke van de twee je naar de prullenbak wilt verplaatsen.
Dubbele bestanden verwijderen
3 februari 2023 - 16:41    reactie #19
geplaatst door: nnsa
Ook wat schrik om zomaar door een programma automatisch te laten verwijderen.
Ik heb graag nog wat controle wat ik weg gooi.
Ik schrik er niet van, omdat je zelf kan aangeven welk bestand je wilt verwijderen. Als je niets aanvinkt, gaat Gemini voor jou beslissen (dat moet je meestal niet willen).

Schermafbeelding 2023-02-03 om 16.38.33.pngDubbele bestanden verwijderen