Anna的档案已经备份了世界上最大的漫画影子图书馆(95TB)——您可以帮助播种
annas-archive.li/blog, 2023-05-13, 在 Hacker News 上讨论
世界上最大的漫画书影子图书馆曾有一个单点故障……直到今天。
最大的漫画书影子库可能是某个 Library Genesis 分支:Libgen.li。运营该网站的管理员收集了一个疯狂的漫画合集,超过 200 万个文件,总计超过 95TB。然而,与其他 Library Genesis 合集不同,这个合集并没有通过种子文件批量提供。你只能通过他缓慢的个人服务器单独访问这些漫画——一个单点故障。直到今天!
在这篇文章中,我们将告诉您更多关于这个合集的信息,以及我们为支持更多此类工作的筹款活动。
Barbara Gordon 博士试图在图书馆的平凡世界中迷失自己…
Libgen 分支
首先,一些背景信息。您可能知道 Library Genesis 因其庞大的图书收藏而闻名。较少人知道的是,Library Genesis 的志愿者还创建了其他项目,例如大量的杂志和标准文档收藏、Sci-Hub 的完整备份(与 Sci-Hub 的创始人 Alexandra Elbakyan 合作),以及确实是一个庞大的漫画收藏。
在某个时候,Library Genesis 镜像的不同运营者各奔东西,这导致了当前拥有多个不同“分支”的情况,所有这些分支仍然使用 Library Genesis 的名称。Libgen.li 分支独有这个漫画收藏,以及一个相当大的杂志收藏(我们也在处理这个)。
合作
鉴于其规模,这个合集长期以来一直在我们的愿望清单上,所以在我们成功备份 Z-Library 之后,我们将目光投向了这个合集。起初我们直接抓取它,这是一项相当大的挑战,因为他们的服务器状况不佳。我们通过这种方式获得了大约 15TB,但进展缓慢。
幸运的是,我们设法与图书馆的运营者取得了联系,他同意直接将所有数据发送给我们,这快了很多。即便如此,传输和处理所有数据仍然花费了半年多的时间,我们几乎因磁盘损坏而失去所有数据,这意味着要重新开始。
这次经历让我们相信,尽快将这些数据发布出去是很重要的,以便它可以被广泛镜像。我们只需一两次不幸的事件就可能永远失去这个合集!
合集
快速行动确实意味着这个合集有点无序……让我们来看看。想象一下我们有一个文件系统(实际上我们正在通过种子文件分割它):
/repository /0 /1000 /2000 /3000 …/comics0/comics1/comics2/comics3/comics4第一个目录,/repository,是其中更结构化的部分。此目录包含所谓的“千目录”:每个目录包含一千个文件,这些文件在数据库中按顺序编号。目录0包含comic_id为0–999的文件,依此类推。
这与Library Genesis用于其小说和非小说收藏的方案相同。这个想法是,每个“千目录”一旦填满,就会自动转变为一个种子。
然而,Libgen.li 的运营者从未为这个合集制作种子文件,因此成千上万个目录可能变得不便,最终变成了“未分类目录”。这些是 /comics0 到 /comics4。它们都包含独特的目录结构,可能在收集文件时有意义,但现在对我们来说意义不大。幸运的是,metadata 仍然直接指向所有这些文件,因此它们在磁盘上的存储组织实际上并不重要!
metadata 以 MySQL 数据库的形式提供。这可以直接从 Libgen.li 网站下载,但我们也会将其与我们自己的包含所有 MD5 哈希的表一起通过种子文件提供。
分析
当你将 95TB 的数据倒入你的存储集群时,你会试图弄清楚里面到底有什么……我们进行了一些分析,看看是否可以通过删除重复项来稍微减少大小。以下是我们的一些发现:
- 语义重复(同一本书的不同扫描)理论上可以被过滤掉,但这很棘手。当我们手动查看漫画时,发现了太多的误报。
- 有一些仅通过MD5识别的重复项,相对来说比较浪费,但过滤掉这些只会节省约百分之一。 在这个规模上,这仍然大约是1TB,但同样,在这个规模上,1TB并不重要。我们为了不意外破坏数据宁愿不这样冒险。
- 我们发现了一些非书籍数据,例如基于漫画书的电影。这似乎也是浪费,因为这些已经通过其他方式广泛可用。然而,我们意识到我们不能仅仅过滤掉电影文件,因为还有一些互动漫画书是在电脑上发布的,有人录制并保存为电影。
- 最终,我们能从集合中删除的任何东西只会节省几个百分点。然后我们想起我们是数据囤积者,而那些将要镜像这些数据的人也是数据囤积者,所以,“你说什么,删除?!” :)
因此,我们向您展示完整、未修改的集合。这是大量的数据,但我们希望足够多的人会关心并继续分享它。
筹款活动
我们正在以一些大块的形式发布这些数据。第一个种子是/comics0,我们将其放入一个巨大的12TB .tar文件中。这比无数个小文件更适合您的硬盘和种子软件。
作为此次发布的一部分,我们正在进行筹款活动。我们希望筹集20,000美元以支付此集合的运营和合同费用,并支持正在进行和未来的项目。我们有一些庞大的项目正在进行中。
我捐款支持的是谁? 简而言之:我们正在备份人类的所有知识和文化,并使其易于访问。我们所有的代码和数据都是开源的,我们是一个完全由志愿者运营的项目,到目前为止我们已经保存了125TB的书籍(除了Libgen和Scihub现有的种子)。最终,我们正在构建一个飞轮,激励和鼓励人们寻找、扫描和备份世界上的所有书籍。我们将在未来的文章中写下我们的总体计划。:)
如果您捐赠12个月的“惊奇档案员”会员(780美元),您可以“领养一个种子”,这意味着我们会将您的用户名或信息放在其中一个种子的文件名中!
您可以通过访问Anna的档案并点击“捐赠”按钮来捐款。我们也在寻找更多志愿者:软件工程师、安全研究员、匿名商家专家和翻译人员。您还可以通过提供托管服务来支持我们。当然,请继续分享我们的种子!
感谢所有已经如此慷慨支持我们的人!你们真的在创造不同。
以下是迄今为止发布的种子(我们仍在处理其余部分):
- comics0__shoutout_to_tosec.torrent (kindly adopted by Anonymous)
- TBD…
所有种子文件可以在安娜的档案的“Datasets”下找到(我们不会直接链接到那里,以免链接被Reddit、Twitter等移除)。从那里,跟随链接到Tor网站。
接下来是什么?
一堆种子文件非常适合长期保存,但不太适合日常访问。我们将与托管合作伙伴合作,将所有这些数据上传到网络上(因为安娜的档案不直接托管任何内容)。当然,您可以在安娜的档案上找到这些下载链接。
我们也邀请大家利用这些数据!帮助我们更好地分析、去重、放到IPFS上、重新混合、用它训练你的AI模型等等。这些都是你的,我们迫不及待地想看看你会用它做些什么。
最后,如前所述,我们仍有一些重大发布即将到来(如果某人能意外地给我们发送一个特定的ACS4数据库的转储,你知道在哪里找到我们……),以及建立飞轮以备份世界上所有的书籍。
所以请继续关注,我们才刚刚开始。