eMule:见证文件共享万象更新的十年

大名鼎鼎的非商业开源软件,全球网友们自由共享资源的工具,“电骡”——eMule已经诞生了10年,至此十周年纪念之际,来自欧洲的物理学家,计算机科学家,同时也是海盗党成员,eMule mod的作者,为我们回顾了p2p文件共享软件领域的发展历史,并阐述了他们的观点和他们目前的开发方向。
原文成于2012年5月13日,作者:David Xanatos,Ekliptor;翻译:Ejack。


  2002年5月13日,一个名为eMule(电骡)的文件共享客户端洋溢着青春的气息,步入了我们这个共享的世界。光阴荏苒,十年流去,我们愿借此周年之机,回顾一下自eMule问世以来在文件共享应用方面的主要技术成就。我们还将展望未来,看看如何将无所不能的BitTorrent进一步至臻完美,成为不可能被关闭的网络。

  早期如Napster(始于1999年)这样的主流文件共享应用程序完全是中心化运作的。Napster依靠一台服务器保存每个用户所共享的文件,向用户提供完全集中式的文件搜索功能,甚至用户之间要开始文件传输也需要通过服务器。这种过分集中的弊端是显而易见的:当RIAA强制关闭了Napster服务器之后,Napster很快便销声匿迹。

Napster

Napster是p2p文件共享始祖

  幸运的是,此时不那么中心化的下一代文件共享网络已经开始崭露头角。一方面来说,当时已经出现了完全去中心化的文件共享网络,例如Gnutella。这类应用多采用泛洪查询的方式搜索网络中的其它客户端,换句话说就是挨个向每一个找到的客户端发送请求,直到找到足够多的结果、或者搜索超时才会停止。不过这种网络拓扑虽受益于彻底剥离服务器,却也遇到了网络规模难以估量的麻烦。简而言之,用户是无法充分有效地搜索整个网络的。另一方面,基于服务器的eDonkey2000(译者注:也就是为我们所熟知的“电驴)(始于2000年9月6日)走上了历史舞台。eDonkey2000与Napster的最大不同之处就是每个人都可以建立自己的eD2k服务器。这种多个服务器同时存在的局面虽然意味着不再会因为某台服务器的关闭而祸及整个网络,但其缺陷也一目了然:用户只能局限于某一台服务器搜索和共享文件。该系统与BitTorrent颇有几分相似:索引服务器都是系统中的核心机制,需要通过服务器来查找其它节点。不过,BitTorrent(始于2001年)在这条依赖于索引服务器的道路上显然走得更远:索引服务器可以控制允许哪些人加入这个群体、每个客户端可以获取多少个节点,等等等等……eDonkey2000(eD2k)网络的设计目标则截然不同——他们致力于实现一个完全去中心化并且可估量的网络。依据这种理念,eDonkey2000于2002年5月启动了一个名为Flock的新项目。经过beta测试后,该项目更名为Overnet,并最终于2004年8月完成了与原始eDonkey2000客户端的融合。

电驴

电驴-eDonkey开创了新的历史

  2002年,另一个面貌崭新且发展迅猛的客户端也踏入了eD2k网络(eD2k代表eDonkey2000网络中基于服务器的部分)。这一年的5月13日(也就是距今整整10年前),一个可接入eD2k网络的开源客户端、也就是我们的寿星eMule正式诞生了。到2004年6月时,整个eD2k网络的规模总计约200万用户,其中eDonkey2000的Overnet网络用户只有约80万。由此可见eMule是eD2k网络中无与匹敌的客户端,并在接下来的岁月里开始与BitTorrent并肩霸占了文件共享领域。

eMule

与电驴不同,eMule是非商业软件

  BitTorrent与eMule这两种网络都逐渐转向了更加去中心化的结构。为了让每一个用户都能检索到所有服务器上的文件,eMule添加了关键字搜索功能,可通过UDP报文对所有服务器进行查询;此外还添加了来源交换功能,可通过TCP在客户端之间交换关于某个文件的来源信息。BitTorrent也吸纳了后一种功能,实现了节点交换特性。2004年上半年,eMule引入了Kademlia网络。这是一种去中心化、基于DHT的键值存储表,能够查找文件来源以及执行关键字搜索。这使得eD2k服务器结束了它的历史使命。BitTorrent再次跟随着eMule的脚步前进,于2005年也实现了自己的DHT。

bittorrent

bittorrent后于eMule实现DHT

  在文件共享领域引入DHT无疑是踏出了革命性的一步。说DHT意义重大不仅仅是因为用户有了文件的哈希值就能够下载文件(当然,还需要几个已知节点来引导进这个网络),更重要的是它实现了一个完全去中心化并且可估量的网络。传统的去中心化网络(如Gnutella)采用泛洪查询方式查找信息时,需要发送O(n)条请求;而DHT查找相同规模的信息只需要发送O(log2(n))条请求。当网络的规模扩大一倍之后,查找整个网络所需的请求数目一般来说也只需要多1条,不论网络的实际规模到何等天文数字也是如此。下面我们举例说明这种结构的好处:假设有个拥有200万用户的网络,你期望在这个网络中找到关于某个文件的信息,而且很不幸的是这个文件并不存在于这个网络中(也就是说,在这个网络中无人共享此文件)。如果走泛洪查询的路子,我们就必须挨个问到网络中的每一个用户,之后才能知道这个文件并不存在。当然,实际这样的搜索过程通常会进入超时,但我们只能估计(并不能确定)这个文件并不存在。而借助神奇的DHT,你只需要向21个节点(log2(2000000))进行查询,就能确知这个文件并不存在于整个网络中。而且这只是数学上最差的搜索情况。一般来说实际所需的查询数目将会远远低于这个最大值,因为在你的查找路径上也许只需要3到4次请求(这是目前eMule的Kademlia实际搜索的经验数据)就可以找到最接近于你所需要的文件的节点。

p2p网络

去中心化是技术对自由的追求和向往

  我们认为BitTorrent所应当引进的下一个功能就是真正基于DHT的关键字搜索功能。Tribler这款客户端已经在这个方向上进行了一些尝试。不过,他们的种子被散播到了一些其它的知名客户端,导致搜索结果难以估量。大家都知道,海盗湾在只支持磁力链接后,其种子库的总大小只有约90MB。不妨设想这90MB完全实现分布式存储后的情况:在一个百万规模的网络中,每个节点只需保存数百kB的分布式数据,就足以保障每个种子都在网络中有数以千计的副本。这样,即使有非常多的节点并不在线,也足以确保用户找到所有的种子。不幸的是,之前所有去中心化的共享搜索功能都不可避免地遇到同一个棘手问题:垃圾信息。在这一点上我们eMule开发人员应当学习Torrent的社区化——像海盗湾这样的网站可以担负起甄别的责任,为用户提供可信的搜索结果。如果他们(海盗湾)能够继续承担甄别种子质量的责任,那么不妨通过公钥加密来对种子签署认证,这样就可以实现不受任何垃圾信息侵袭、而又完全去中心化的搜索。如果一个用户充分信任某个种子站点,他完全可以将该站点的公钥添加到Torrent客户端中,这样客户端就可以检查搜索到的每个种子的数字签名,并过滤掉所有的虚假结果。如果未来能够按照这种完全去中心化的方式发展,那么一个像海盗湾这等规模的种子站点将只需要一台普配的笔记本便足矣。这台“服务器”只需每隔几小时接入互联网,采用其私钥为种子签署认证。不妨想想在这种情况下,想要跟踪这样一个“种子站点”将是多么困难的事儿。于是几无可能轻易关掉种子站点了。

  我们现在正从事开发一款客户端,将会提供上述搜索种子的功能。目前该软件还处于封闭alpha测试阶段,即将进入beta公测。

关于本文作者
  David Xanatos是奥地利盗版党(也译作:海盗党)的建党成员之一,现居于维也纳,白天任职于某大学教授物理,晚上则开发各种文件共享应用软件。David Xanatos因他的得意作品NeoMule而广为人知。
  Ekliptor是位计算机科学家,来自慕尼黑。他曾开发过多款eMule Mod,目前在大学中致力研究eMule的Kademlia系统所存在的缺陷以及解决办法。
  他们二人目前合作的项目名为“Neoloader”。这款客户端能够从BitTorrent、eMule以及各种一键下载链接(如RapidShare)中下载文件。

原文:《eMule: A Decade of File-Sharing Innovations
译文:《eMule:见证文件共享万象更新的十年》作者:Ejack
转载请注明。

43条评论隐藏

  1. #1 Handsome
    2012年5月18日 周五 10:40 | 回复

    看前面介绍海盗党成员。还以为是海盗湾呢 :mrgreen:

  2. #2 kio
    2012年5月18日 周五 11:26 | 回复

    @Handsome 海盗党就是盗版党的另一种翻译叫法

  3. 2012年5月18日 周五 18:41 | 回复

    话说我现在基本不用emule下载了,花点小钱用渣雷离线省心。但我网络空闲时还是会打开xtreme,只用来上传。

  4. #4 kalyrenyaren
    2012年5月18日 周五 19:05 | 回复

    @小野 那个是因为你下载的不是稀缺资源。不然渣雷根本拖不完的。

  5. #5 Pale_Cheung
    2012年5月18日 周五 20:34 | 回复

    很期待 能 同时 同 ed2k 和 torrent 网络下载的客户端。

    训练离线确实对稀有资源无力。

    但是他是在中国上下行现在是差到一个数量级以上的网络环境下,发展得有滋有味的,心里真舒服。

  6. #6 zwgzwg12
    2012年5月18日 周五 22:12 | 回复

    “Neoloader”,期待中

  7. #7 FoxCyy
    2012年5月21日 周一 11:53 | 回复

    迅雷用户前来祝贺并开始使用电骡! 😀

  8. #8 cftiger
    2012年5月24日 周四 00:09 | 回复

    ed2k 和 torrent 同时下载的客户端目前 bitcomet 配合 emule 插件就可以。下稀有源的只要找到种子,ed2k 又有源的,我就用 bitcomet 下。
    的确,目前emule就只用来下稀有源的和共享之用了(只共享稀有源)。若非 ed2k 有那么多稀有源,也许也不用 emule 了。
    吐槽一下其不足。现硬件和网速都如此强了,其搜索设定仍太保守,搜源能力极差。本来手动连接弥补其不足,但又限制连接次数(不知是每几分钟一次。我知道源的ip和端口,就是死活手动连不上)。下载抗干扰能力差(不管是网络环境还是系统环境),在天朝这种垃圾网络环境下,经常下几百K又要重新排队,还经常给个“队列满了”给你(我可以百分百肯定队列未满)。
    总结一句就是老掉牙的老太爷,真的适合欧洲人用。
    当然其最大优势是不用发布,不用种子。若BT软件以后整合磁链搜索功能,则它连这种优势都没有了。

  9. #9 peng
    2012年5月24日 周四 09:05 | 回复

    @cftiger 那是因为中国的迅雷之流,离线下载之类造成的。国外可没有这些鬼东西。你说emule搜源能力差和连接不上也只是在中国的情况,国外服务器因为中国出的“种子搜索神器”,所以服务器早就禁止中国人搜索了,甚至屏蔽中国人的加密连接,再加上墙的封锁,所以你说的问题都是中国人自作孽的结果。至于能搜索文件的BT,你可以用vuze,国外很多人都用。
    另外你自己也说了你用emule看中的是稀有资源,那你想想为何emule有稀有资源,其他没有呢?

  10. #10 share
    2012年5月25日 周五 18:08 | 回复

    太好了,emule和bt强强联手,编写自由的歌章

  11. #11 cftiger
    2012年5月27日 周日 13:56 | 回复

    其实emule搜源能力不差,是连源能力差。当你点开始下载后,它通常会搜到源,但就是连不上,主要是其预设太保守,不能重复连接。即使你知道源的ip和端口,由于它已经连过一次了,所以连你手动连接也不允许,要等N分钟后(想快点可以关了emule重开)。这种情况bt好多了。
    还有种情况是,连上了,就是没有下载,整天就是排队,排队。当你排到个位数,以为下一个就到你了,它却又变回“队列已满”或几千。这种情况bt也有。
    由于它下载经常没有达到一块9.28M大小,当你导入文件块时,他会把那些已下但没达整块的碎块清0。
    没有打开程序时开始下载或不开始下载,结果emule崩溃后,如果里面有一大堆下载,你重新运行emule后,这N个下载会同时开始,由于连接数太多,这时连服务器就会给个LowId给你,还有就是由于没连服务器前就开始下载,所以搜到的源数都较少。
    还有,你的highid或lowid是由你是否连接了服务器决定,而不是由外网内网。大家知道lowid和lowid是不能互连的,那那个“不用服务器也能下载”几乎成了废话。如果emule不改进,有一天所有的服务器都关闭后,一样死翘翘。
    用下载能力差的emule来下载源少的资源,就是名副其实的老牛拉破车。
    最近下稀有资料老是下不完整,故来发泄一下。
    emule稀有源多,一是它以共享软件的名义,默认共享是打开的。而有的软件考虑到安全性没打开。隐患真存在,你输入“密码”,“日记”,一搜一大堆,我还曾搜到一个某局长的日记,不过没什么关键东东。连我这个老鸟有次也不小心把密码文件共享了几天才发现,不得不把所有密码都改过。
    二是像我一样共享精神的共享了一大堆稀有源。为什么选下载能力不强的emule共享稀有源?习惯了,同时也就扎个堆。

  12. #12 hhh
    2012年5月27日 周日 14:09 | 回复

    @cftiger 手动重复连接(或关了emule重开)的话可能会遭到这个待遇:https://www.emulefans.com/aggressive-client-ban/

  13. #13 hhh
    2012年5月27日 周日 14:19 | 回复

    @cftiger

    那个“不用服务器也能下载”几乎成了废话。

    请教那么多只用KAD的人比如说我是怎么用的?我现在已经不连服务器了,除非我想使用ed2k搜索时。

    一是它以共享软件的名义,默认共享是打开的。

    默认共享的只有temp中未完成文件和emule的incoming文件夹,真不知道你的默认共享的是什么?还是你用了一些不怀好意的人修改的mod?

    看了上面你所有的观点,我觉得你不是老鸟,而只是用了较久的“新人”。因为很多概念和机制你都没搞清楚,而加入了自己的猜测和理解。

  14. #14 hhh
    2012年5月27日 周日 14:25 | 回复

    @cftiger

    用下载能力差的emule来下载源少的资源,就是名副其实的老牛拉破车

    源少也怪emule?emule也没办法变出来哪怕一个人来共享你需要的资源呀。

  15. #15 cftiger
    2012年5月27日 周日 14:30 | 回复

    上面那位老兄提到的连接问题。很多国人以为网络分割只有天朝有。其实外国一样有,不同isp连接不上在外国一样存在。现在天朝好像不止不同isp分割,不同ip段也分割。有时我发现同一isp同一地区即使连接上了,就是下载不了,换一个ip段就好了。
    其实emule下载能力相对bt差,最大一个原因就是其连接次数预设值太保守,都是N分钟内只能连接一次。bt则好多了,一次连不上,很快就第二次连接。正是其连接能力相对较弱,造成很多富余的上传带宽。如我emule设定的上传带宽就常常用不满。
    vuze主要是美剧,中文资源几乎没有。

  16. #16 cftiger
    2012年5月27日 周日 14:43 | 回复

    @hhh
    “这种行为会是对宝贵资源的极大浪费(连接和带宽)”现在的带宽,连接数,计算能力还是十年前吗?请求一次连接要带宽多少,系统的连接数还是十次吗?10分钟一次是不是太长了。
    我所说的“默认共享”是指只要软件打开,你原来共享的文件就会被共享,bt则不同,每次都要手动打开。

  17. #17 cftiger
    2012年5月27日 周日 14:58 | 回复

    @hhh
    你不连服务器还能下载,那只是因为还有很多其他人连接了服务器获得了 highid,若所有服务器都被 FBI 关闭后,你还能下载那才说明你 NB。我就一直奇怪,emule 判断 high,lowid 不是根据你的端口是否能到达,二是要连接服务器来判断。

  18. #18 cftiger
    2012年5月27日 周日 15:14 | 回复

    上面提到的也只是我想到的,还有不少缺点一时想不起来。不得不说欧洲人的东东相当保守。
    新手看到上面那些批评,请不要就放弃emule,我都是希望它能够改进的(听到说emule开发进度要减慢,相当遗憾)。作为共享软件而不是下载软件,它目前来说还是最强大的。所以我目前把所有途径下载来的稀有资源都放到里面共享了。但它不会是我首选的下载软件。

  19. 2012年5月28日 周一 02:07 | 回复

    看到好消息了,

  20. #20 怒火天尊
    2012年5月30日 周三 22:48 | 回复

    其实 迅雷为中国人作的贡献也很大

  21. #21 syc
    2012年5月31日 周四 08:37 | 回复

    是你們貢獻很多給迅雷xd 迅雷賺你們白花花的鈔票….

  22. #22 hagoubang
    2012年5月31日 周四 09:09 | 回复

    @怒火天尊 还帮助有关部门抓过人对国家贡献很大。小青年们如果喜欢就继续用迅雷吧,在迅雷面前你们都是裸露的,下得什么A片B片上面都好备案。

  23. #23 throll
    2012年6月1日 周五 22:09 | 回复

    @cftiger
    1.emule尋蒐能力,連結能力只能說在天朝請自動打八折,外有不少client or server有加載china ip filter,內有景德鎮和無良isp,你就認命吧
    2.bt的暴力連接要求可是曾經讓海盜灣都要投降放棄,十年前雖然網路沒這麼發達,但人數沒這麼多,況且p2p的問題通常不是在頻寬而在session承受能力
    3.emule的連接請求在排隊時就代表已經確認連接,想要快速建立可連接數請在選項設定,當然前題是真的有這麼多客戶端,至於bt/em 在下載的連接/優先權機制不太一樣,不停的像bt發送連接請求只會落得被ban的下場
    4.kad的hight or low id跟server id無必然關聯性,kad一開始設計目的就是在無server下運作的,當然有連server的狀況下,kad表建立會比較快
    5.正規mod可分享的資料夾和暫存檔是可設定的,把重要資料丟進去那…我也沒辦法

  24. #24 Eli4ph
    2012年6月3日 周日 10:52 | 回复

    @cftiger 把全部评论看了一下,发现你对emule相关的设置以及运作有一定的了解,但是许多概念或者机制理解有偏差,如24楼兄台所说,KAD表的建立在连服务器的情况下会比较快,没连时就要慢许多,所以只要你一直挂机应该就不会有差异了(emule本来就特别强调稳定性长时间挂机的,挂个一年半载再关机的人也不是没有)。另外,关于一些可以实现单emule没有实现的功能,有些是官方明确不会添加的,但没说不能添加,所以假如你有能力的话,可以自己做个MOD。第三,关于你说的个人隐私被泄露,我觉得是你的文件管理有些乱,本来个人密码这种隐私极强的东西就不应该和分享的稀有资源放在一起的。(再稀有也不及你隐私重要吧?)第四,既然你说你会共享一些稀有源,你也知道在天朝,搜索很不实用,建议你把生成的ED2K链接贴到网站上,现在ED2K地址分享的网站有许多,你随手贴几个网站就OK了,也许贴链接会让你觉得麻烦,但是我想你也是本着分享的心的,稍微花一些时间,可以让资源更好地流通,你可以酌情考虑一下这个建议

  25. #25 Eli4ph
    2012年6月3日 周日 10:55 | 回复

    @throll 兄台請教下,emule的config文件夾裡的nodes.dat假如沒有可以建立KAD表麼?

  26. #26 kalyrenyaren
    2012年6月3日 周日 13:53 | 回复

    @Eli4ph
    kad就是根据node.dat里面的节点开始搜索的,没有当然不可以。

  27. 2012年6月6日 周三 10:53 | 回复

    海盗党就是盗版党的另一种翻译叫法

  28. 2012年6月7日 周四 21:44 | 回复

    九九回來這裡就看到10年的生日慶賀!一同來祝福騾子可以長長久久….
    想想我騎騾也騎了9年多了啊….(遠目

  29. 2012年6月7日 周四 21:44 | 回复

    @風之水 錯字啦…久久

  30. #30 Jurio
    2012年6月12日 周二 18:18 | 回复

    无论emule的kad还是bt的dht都只能作为辅助,没有核心服务器(bt的tracker服务器)都无法正常工作。em bt协议都属于十年前的老技术了,缺陷很多。em bt都是暴露ip的软件,isp和警方很容易知道你上传下载了什么文件,国外被抓的有很多。bt大行其道是因为西方法律无法禁止,但是在美国em就没人用,估计就是法律问题。

  31. #31 Jurio
    2012年6月12日 周二 18:28 | 回复

    去中心化P2P是发展趋势。不过Gnutella也属于落后的技术。Gnutella网络必须通过网站引导,搜索可用的超对等点叶,Gnutella不是真正的无中心P2P。真正无中心P2P还是日本的P2P:share、perfect dark。日本版权保护非常严格,使用暴露ip的bt em很容易被抓。开发出来的专用P2P软件不仅绝对无中心,还能实现匿名通讯,完全无法被侦测。这是次世代的P2P,如果西方版权法律也和日本一样严格,肯定也会这样发展。正因为大部分国家法律允许,所以全球才会以服务器为中心的P2P最为普及。bt甚至发展成完全取消dht,只能用私人tracker服务器的PT模式,目前PT网站最火。

  32. 2012年6月12日 周二 18:54 | 回复

    @Jurio 所以使用的時後還要多加上IP過濾,過濾掉有問題的釣魚伺服器,也就是所謂的蜜罐。
    還有有問題的IP端,IP過濾都有賴於大家的更新。
    (當然也可以過濾掉渣雷的離線IP機房…呵呵)

  33. #33 foops
    2012年6月12日 周二 21:40 | 回复

    @Jurio 美国法律共享盗版就犯法,即使不发生上传。所以emule敢用的人少。

  34. 2012年6月15日 周五 15:48 | 回复

    据说下一代去中心化大牛是 磁力链……

  35. #35 kaweri
    2012年6月15日 周五 17:41 | 回复

    @电骡资源 什么下一代,磁力链就是电驴链接的变种,也就国人无知才把很老的东西以为是新鲜玩意儿,可以看wiki百科:http://en.wikipedia.org/wiki/Magnet_URI_scheme

    The standard was developed in 2002, partly as a “vendor- and project-neutral generalization” of the ed2k: and freenet: URI schemes used by eDonkey2000 and Freenet,

  36. #36 四足兽
    2012年7月21日 周六 16:23 | 回复

    我也有了一种数学证明方法,关于“DHT查找相同规模的信息只需要发送O(log2(n))条请求”。

    搭建在KAD网络上的个人简易blog是有可能实现的。这可免于网站备案;免于某防火墙的骚扰;免于搭建私人blog的硬件,带宽开销;免于商业blog的广告占用带宽。

    这种blog访问量再大,也不必担心阻塞。甚至此节点下线,简易blog也能被访问,因为临近节点有内容缓存。“KAD节点如果因为带宽不够,造成查询阻塞,就会自动由临近节点为此节点加速。加速节点根据需要,可以自动增加或减少”早已实现。

    商业网站为了节省带宽,大多不提供原始尺寸照片存储。KAD简易blog默认只显示缩略图,访问者也能更进一步浏览中间大小的jpg图片,如果觉得图片优美,可以下载原始尺寸的。为了防低质量图片泛滥,所有blog图片默认不加入KAD共享,下载量达到一定数量的原始尺寸图片,才默认自动hash计算,加入全网共享。

    为了快速内容缓存,当IP改变后,自动通知临近节点。

    为了避免用近似关键字搜索blog的不便,(自愿)设置每篇blog内容属性时,强制使用规范的关键字。客户端自带全部关键字:哲学(现象学,结构主义,解构主义,分析哲学……插一句,我是西方哲学爱好者),人类学(体质人类学,文化人类学),神学,考古学,文学,平面艺术,摄影,古典音乐……

    尽量借鉴wikipedia的优点。用户可以设置日记的编辑权限,允许第三方修改(以不同的字体显示)。减少了网页里常见的长长的,让人头晕的跟贴,回复。与wikipedia不同的是,对盗版内容宽容。

    如果没人愿意做这事,那就由我开始。可我不会编程,以前学的c语言早忘了。扩展emule最少需要哪些编程知识?哪些开发工具?请指点

  37. #37 slash
    2012年7月23日 周一 13:07 | 回复

    @四足兽 想法很好

    但现在免费的、大容量的、直链的、可定制的、完全无广告的网上存储和blog服务早已出现,像Dropbox和WordPress.com。所以你说的免于搭建私人blog的硬件,带宽开销;免于商业blog的广告占用带宽,等等问题,都不存在。存在的只有版权问题

    国内比较特殊,假如能有基于P2P的blog,能解决除了版权问题之外的更多问题,在国内更有用。但问题是,由于大陆用户比较白痴,网络生态较差,不会有多少人来用这种玩意。没有用户群也搞不出声音来

    blog搬到KAD上也排除了搜索引擎的收录,这应该是普通文字blog的第一流量来源吧。再则P2P的blog,稳定性也不够

    不过虽然有这些种种麻烦,但至少在技术上,还是值得一试,看起来这还是挺新颖挺有趣的

  38. #38 slash
    2012年7月23日 周一 13:09 | 回复

    @四足兽 至少先要把C++和网络知识弄透吧,工具不成问题,肚子里的货才最重要

  39. #39 四足兽
    2012年7月27日 周五 18:54 | 回复

    @slash

    谢谢鼓励。
    我主要是为了解决某防火墙的骚扰。不同于西厢方案。让每个人都用代理服务器,开销太大。
    即使能实现p2p的blog,我也没打算让非常多的人用。用户群越多,蜕化得越厉害。早期豆瓣的文字水平,远不是现在的豆瓣能匹敌。

  40. #40 swift
    2012年8月1日 周三 07:17 | 回复
  41. #41 四足兽
    2012年8月12日 周日 11:12 | 回复

    p2p博客内容不被搜索引擎索引的确是大缺点,但也摆脱了搜索引擎的弊端。在这种blog里,有个鲜明的特征:站内文章搜索排名只依据内容深度,不依据浏览量或粗放的推荐次数(这常常导致肤浅无益的流行)。一般来说,文章越深入透彻,理解文章所花费的时间越长。所以那些浏览时间越长的文章排名靠前。但阅读时间长的文章可能冗长,见解贫乏。引入变量:阅读时间/字符数。这个比值越大,排名越靠前。

    无效统计数据必须清除。如果页面是其知识范围以外的,或者是外语文本,他可能匆匆一瞥就跳过去,这不能断定文本质量低劣;如果因为某事暂时离开,页面会被机器认为阅读了很长时间。

    棘手的是,新手与老手在领会同一个知识范围内的文本,所需时间相差很大。给站内搜索排名造成很大的波动。站内搜索结果还需多级修正。

    如果其它mod篡改这种搜索排名核心原则,那么搜索排名将变得混乱不堪,毫无价值。最头疼的是人为设立的恶意客户端。它力图破坏p2p博客。仅仅用ipfilter是非常不够的(它的实力远非迅雷能匹敌,ipfilter可能会变得异常庞大)。它如果使用动态ip进行扰乱,那么记下对方的hash,ip地址,端口。2小时后照此ip发起访问,询问对方hash,如果得到答复且hash匹配,则初步认为此次访问可信。

    为了加快响应,只在某hash24小时内第一次浏览blog时,暂停全部文件的上传/下载,让出带宽。这是为了防止恶意点击blog。p2p网路功能越多,破坏手段也越多。

    尽管我希望找到问题的应对办法,但更希望得到批评:那些我没注意到的问题。

    搜索引擎按引用次数(喧嚣翻腾的主流人群)给搜索结果排序。可是哲学家们也需要观察思想中的暗流,最无人过问,最无人理会之处。搜索引擎恰恰对哲学家们关上了这扇大门。

    商业搜索引擎不会以内容深度为核心排名规则。搜索出的结果注定只有少数人感兴趣。商业搜索引擎力图让最大多数人使用,最大限度地展示广告。搜索引擎引以为傲的是“精准”,可是作为个体的人,真正需要的是什么?连他本人都难于回答。

    一部分人可能回答“是爱情”。可爱情是有害的,它会极大地消解反抗政治/种族压迫的意愿。各种土政策就是活生生的压迫。对抗这些土政策不仅是可能的,而且每天都在发生。如果不是因为土政策的失效,权力不会有任何改写土政策的意愿。

    在哲学家那里,每种价值都已然是问题。

  42. #42 Ejack
    2012年8月13日 周一 06:59 | 回复

    @四足兽
    非常好的想法。
    博客质量的评判,已经牵涉到人类主观意识的问题。任何单方面的数字评估恐怕都是不全面的。相对阅读时间较长就一定表明博客质量很高吗?有些博主喜用艰深晦涩的文字;有些推理作品本身就需要读者反复阅读在字里行间追索蛛丝马迹;单一的标准总会倾向于对某类作品有利,不可不察。
    我们所能做到的,恐怕仍然只有统计出最流行的、最受欢迎的作品。它们有可能是非常优秀的,也有可能是迎合读者口味的。
    真正有价值的作品,如同埋在沙砾中的黄金,终须一日被人挖掘才能为人所知——一如过去、现在、未来的任何一个“今天”。

  43. #43 诸神黄昏
    2012年10月17日 周三 22:54 | 回复

    @cftiger 多说无益,emule,BT BAN!想用渣星吸我们?!作梦呢!在ZB连BT也一并ban掉渣星.反正渣星就是渣,没什么有价值的玩意,连渣雷都不如的垃圾.

1条Trackback/Pingback显示

发表评论

您的Email将不会显示出来。头像请至Gravatar.com注册上传。*号标注项为必填。

*
*
*
标签用法
字数:0