最近,我接到了任务:清理我父亲的文件和文件夹。可是面临的难题是,里面有大量名称不正确的重复文件。由于外部驱动器上有备份,同时编辑同一个文件的多个版本,或者甚至改变目录结构,同一个文件会复制多次、更换名称、更换位置,完全占用磁盘空间。查明每一个文件成了异常困难的问题。幸好,有一款小巧的软件可以找到并删除你系统上的重复文件,从而帮助节省宝贵的时间,那就是dupeGuru。这个重复文件删除软件用Python编写而成,年初换成了GPLv3许可证。所以是时候用它来清理你的系统了!
dupeGuru的安装
在Ubuntu上,你可以添加Hardcoded Software个人程序包存档(PPA):
- $ sudo apt-add-repository ppa:hsoft/ppa
- $ sudo apt-get update
然后用下列命令安装:
- $ sudo apt-get install dupeguru-se
在Arch Linux上,该程序在在AUR中(https://aur.archlinux.org/packages/dupeguru-se/)。
如果你喜欢自己编译,源代码在GitHub上(https://github.com/hsoft/dupeguru)。
dupeGuru的基本用法
DupeGuru的初衷是既快速又安全。这意味着该程序在系统上运行时不会乱套。它删除你不想要删除的文件的可能性很小。然而,既然我们仍在讨论文件删除,谨小慎微总归是好主意:做好备份始终必不可少。
一旦你采取了防范措施,就可以通过这个命令来启动duprGuru了:
- $ dupeguru_se
你应该会看到文件夹选择画面,你可以在这里添加想要扫描、以删除重复文件的文件夹。
一旦你选择了目录并启动扫描,dupeFuru就会显示结果:以列表的形式显示重复文件。
请注意:默认情况下,dupeGuru根据文件内容、而不是根据文件名称来匹配文件。为了确保你没有误删除重要文件,匹配列为你显示了匹配算法的准确性。你可以从这里选择想要执行操作的重复文件,点击“Action”(操作)按钮,就可以看到可用的操作。
可以选择的操作相当广泛。简而言之,你可以删除重复文件、将重复文件移到另一个位置、忽略重复文件、打开重复文件、重命名重复文件,或者甚至对它们执行自定义命令。如果你选择删除重复文件,可能会惊喜地发现可用的删除选项。
你不仅可以将重复文件发送到垃圾箱或***删除,还可以选择留下指向原始文件的链接(使用符号链接或硬链接)。换句话说,重复文件会被删除,留下的只是原始文件的链接,这能省下大量磁盘空间。如果你将那些文件导入到工作空间,或者有基于它们的依赖项,这项功能特别有用。
还有一个奇特的选项:你可以将结果导出到HTML或CSV文件。我并不确信你为什么会这么做,但我想如果你想要追查重复文件,而不是对重复文件执行dupeGuru的任何操作,这很有用。
***但并非最不重要的是,参数选择菜单可以让删除重复文件的美梦成真。
这里你可以选择扫描的标准,或基于内容,或基于名称,还有控制结果数量的重复文件阈值。还可以定义你在操作中所能选择的自定义命令。在众多的其他小选项当中,我们注意到:默认情况下,dupeGuru忽略小于10KB的文件。
想了解更多信息,建议访问官方网站(http://www.hardcoded.net/dupeguru/),那里有许多说明文档、支持论坛及其他好东西。
总结一下,只要我要准备备份数据或者释放部分硬件空间,就会使用dupeGuru这款可靠的软件。我发觉它对高级用户来说功能足够强大,对新手来说又界面直观、易于使用。锦上添花的是:dupeGuru跨平台,这意味着你还可以在Mac或Windows PC上使用它。如果你有特定的要求,想清理音乐或图像文件,也不用担心,因为它有两个变种:dupeguru-me(http://www.hardcoded.net/dupeguru_me/)和 dupeguru-pe(http://www.hardcoded.net/dupeguru_pe/),它们分别能找到重复的音轨和图片。与常规版本的区别主要在于,它不仅仅比较文件格式,还考虑到了特定的媒体元数据,比如质量和比特率。
你觉得dupeGuru怎么样?会考虑用它吗?还是说你建议使用什么另外的重复文件删除软件?欢迎留言交流。
原文标题:How to deduplicate files on Linux with dupeGuru