Anna的档案已经备份了世界上最大的漫画影子图书馆（95TB）——您可以帮助播种

annas-archive.li/blog, 2023-05-13, 在 Hacker News 上讨论

世界上最大的漫画书影子图书馆曾有一个单点故障……直到今天。

最大的漫画书影子库可能是某个 Library Genesis 分支：Libgen.li。运营该网站的管理员收集了一个疯狂的漫画合集，超过 200 万个文件，总计超过 95TB。然而，与其他 Library Genesis 合集不同，这个合集并没有通过种子文件批量提供。你只能通过他缓慢的个人服务器单独访问这些漫画——一个单点故障。直到今天！

在这篇文章中，我们将告诉您更多关于这个合集的信息，以及我们为支持更多此类工作的筹款活动。

Libgen 分支

首先，一些背景信息。您可能知道 Library Genesis 因其庞大的图书收藏而闻名。较少人知道的是，Library Genesis 的志愿者还创建了其他项目，例如大量的杂志和标准文档收藏、Sci-Hub 的完整备份（与 Sci-Hub 的创始人 Alexandra Elbakyan 合作），以及确实是一个庞大的漫画收藏。

在某个时候，Library Genesis 镜像的不同运营者各奔东西，这导致了当前拥有多个不同“分支”的情况，所有这些分支仍然使用 Library Genesis 的名称。Libgen.li 分支独有这个漫画收藏，以及一个相当大的杂志收藏（我们也在处理这个）。

合作

鉴于其规模，这个合集长期以来一直在我们的愿望清单上，所以在我们成功备份 Z-Library 之后，我们将目光投向了这个合集。起初我们直接抓取它，这是一项相当大的挑战，因为他们的服务器状况不佳。我们通过这种方式获得了大约 15TB，但进展缓慢。

幸运的是，我们设法与图书馆的运营者取得了联系，他同意直接将所有数据发送给我们，这快了很多。即便如此，传输和处理所有数据仍然花费了半年多的时间，我们几乎因磁盘损坏而失去所有数据，这意味着要重新开始。

这次经历让我们相信，尽快将这些数据发布出去是很重要的，以便它可以被广泛镜像。我们只需一两次不幸的事件就可能永远失去这个合集！

合集

快速行动确实意味着这个合集有点无序……让我们来看看。想象一下我们有一个文件系统（实际上我们正在通过种子文件分割它）：

/repository

/0

/1000

/2000

/3000

…

/comics0

/comics1

/comics2

/comics3

/comics4

第一个目录，/repository，是其中更结构化的部分。此目录包含所谓的“千目录”：每个目录包含一千个文件，这些文件在数据库中按顺序编号。目录0包含comic_id为0–999的文件，依此类推。

这与Library Genesis用于其小说和非小说收藏的方案相同。这个想法是，每个“千目录”一旦填满，就会自动转变为一个种子。

然而，Libgen.li 的运营者从未为这个合集制作种子文件，因此成千上万个目录可能变得不便，最终变成了“未分类目录”。这些是 /comics0 到 /comics4。它们都包含独特的目录结构，可能在收集文件时有意义，但现在对我们来说意义不大。幸运的是，metadata 仍然直接指向所有这些文件，因此它们在磁盘上的存储组织实际上并不重要！

metadata 以 MySQL 数据库的形式提供。这可以直接从 Libgen.li 网站下载，但我们也会将其与我们自己的包含所有 MD5 哈希的表一起通过种子文件提供。

分析

当你将 95TB 的数据倒入你的存储集群时，你会试图弄清楚里面到底有什么……我们进行了一些分析，看看是否可以通过删除重复项来稍微减少大小。以下是我们的一些发现：

语义重复（同一本书的不同扫描）理论上可以被过滤掉，但这很棘手。当我们手动查看漫画时，发现了太多的误报。
有一些仅通过MD5识别的重复项，相对来说比较浪费，但过滤掉这些只会节省约百分之一。在这个规模上，这仍然大约是1TB，但同样，在这个规模上，1TB并不重要。我们为了不意外破坏数据宁愿不这样冒险。
我们发现了一些非书籍数据，例如基于漫画书的电影。这似乎也是浪费，因为这些已经通过其他方式广泛可用。然而，我们意识到我们不能仅仅过滤掉电影文件，因为还有一些互动漫画书是在电脑上发布的，有人录制并保存为电影。
最终，我们能从集合中删除的任何东西只会节省几个百分点。然后我们想起我们是数据囤积者，而那些将要镜像这些数据的人也是数据囤积者，所以，“你说什么，删除？！” :)

因此，我们向您展示完整、未修改的集合。这是大量的数据，但我们希望足够多的人会关心并继续分享它。

筹款活动

我们正在以一些大块的形式发布这些数据。第一个种子是/comics0，我们将其放入一个巨大的12TB .tar文件中。这比无数个小文件更适合您的硬盘和种子软件。

作为此次发布的一部分，我们正在进行筹款活动。我们希望筹集20,000美元以支付此集合的运营和合同费用，并支持正在进行和未来的项目。我们有一些庞大的项目正在进行中。

我捐款支持的是谁？ 简而言之：我们正在备份人类的所有知识和文化，并使其易于访问。我们所有的代码和数据都是开源的，我们是一个完全由志愿者运营的项目，到目前为止我们已经保存了125TB的书籍（除了Libgen和Scihub现有的种子）。最终，我们正在构建一个飞轮，激励和鼓励人们寻找、扫描和备份世界上的所有书籍。我们将在未来的文章中写下我们的总体计划。:)

如果您捐赠12个月的“惊奇档案员”会员（780美元），您可以“领养一个种子”，这意味着我们会将您的用户名或信息放在其中一个种子的文件名中！

您可以通过访问Anna的档案并点击“捐赠”按钮来捐款。我们也在寻找更多志愿者：软件工程师、安全研究员、匿名商家专家和翻译人员。您还可以通过提供托管服务来支持我们。当然，请继续分享我们的种子！

感谢所有已经如此慷慨支持我们的人！你们真的在创造不同。

以下是迄今为止发布的种子（我们仍在处理其余部分）：

comics0__shoutout_to_tosec.torrent (kindly adopted by Anonymous)
TBD…

所有种子文件可以在安娜的档案的“Datasets”下找到（我们不会直接链接到那里，以免链接被Reddit、Twitter等移除）。从那里，跟随链接到Tor网站。

接下来是什么？

一堆种子文件非常适合长期保存，但不太适合日常访问。我们将与托管合作伙伴合作，将所有这些数据上传到网络上（因为安娜的档案不直接托管任何内容）。当然，您可以在安娜的档案上找到这些下载链接。

我们也邀请大家利用这些数据！帮助我们更好地分析、去重、放到IPFS上、重新混合、用它训练你的AI模型等等。这些都是你的，我们迫不及待地想看看你会用它做些什么。

最后，如前所述，我们仍有一些重大发布即将到来（如果某人能意外地给我们发送一个特定的ACS4数据库的转储，你知道在哪里找到我们……），以及建立飞轮以备份世界上所有的书籍。

所以请继续关注，我们才刚刚开始。

- 安娜和团队 (Reddit, Telegram)