有人说百度(baidu)读中文的能力强于Google(谷歌)等其他搜索引擎,笔者深不以为然。截止北京时间2009年6月27日,百度依然无法阅读页面链接中出现的中文,搜索到的页面链接有中文的话,搜索结果下方的链接中显示为乱码。而Google等一些搜索引擎不但显示正确,而且还能给链接中带有中文关键词的页面加权重 [2]。为了让百度会读中文,这里笔者写了一个《帮助百度读中文》用户脚本。
《帮助百度读中文》用户脚本的功能有:
- 能够更好地帮助百度阅读链接中出现的中文(不限于中文字,理论上是所有CJK [7]汉字,乃至于所有文字),消灭乱码,让它显示正确;
- 消灭百度右栏的诸多广告,右栏仅保留关键词的贴吧链接提示;
- 消灭百度搜索结果中滥竽充数的广告和竞价排名结果。
- 将“把百度设为主页”换为其他搜索引擎链接。
如何使用安装用户脚本(UserScript):
Firefox用户请安装Greasemonkey扩展:
https://addons.mozilla.org/zh-CN/firefox/addon/748 [8]
启用了Greasemonkey扩展的Firefox浏览器,点击下方的下载按钮即自动安装《帮助百度读中文》脚本。
其他浏览器用户请看这里:
https://www.emulefans.com/userscript-on-various-browsers/ [9]
《帮助百度读中文》UserScript v0.7下载 [10]
via [11]
意见和建议请在本文评论 [12]中提出。
by tomchen1989 2009-7-8 v0.7
本脚本效果图:
Note:
- 本用户脚本无法给链接中的中文关键词的页面加权重,改变搜索结果次序;
- 可以完全隐藏ADBlock Plus [13]的几个常用list没有处理到的广告信息;
- 可与BaiduMonkey [14]脚本一同使用,本脚本能完全处理BaiduMonkey没有处理到的一些广告信息(可能是没来及更新的缘故);
- 可与baidu++ [15]脚本一同使用;
- 可与baidu_ad [16]、baidu_ad_killer [17]等脚本一同使用,不过本脚本已经包含去广告功能所以无需使用那些脚本;
- 本脚本可运行于IE678、Firefox、Opera、Google Chrome、Safari等浏览器,但是可能需要安装某些浏览器的扩展。
- 搜索引擎现有12个,默认状态是“Google英文”。本脚本为轻型脚本,不打算使用GM setValue或cookies,如想修改默认/增/删/搜索引擎的话,请用记事本打开脚本,手动修改设置。
更新:
ver 0.1 @ 2009-6-26
初始版本。
ver 0.2 @ 2009-6-27
缩减代码,修正一些错误,兼容BaiduMonkey脚本,兼容其他浏览器。
ver 0.3 @ 2009-6-29
兼容baidu++、baidu_ad等脚本,恢复无须隐藏的一些文字信息。
ver 0.4 @ 2009-6-30
乱码变中文和隐藏广告两功能分离,修正进行某些搜索时误隐藏搜索框或链接decode错误的bug。
ver 0.5 @ 2009-7-2
修正与BaiduMonkey、baidu++三者同时使用的bug,修正GBK等编码的URL误decode的bug,新增其他搜索引擎链接功能。
ver 0.6.1 @ 2009-7-3
修正搜狗搜索中文字词的bug,搜索引擎增至14个。
ver 0.7 @ 2009-7-8
无关键词时链接变普通文字,兼容新版baidu++1.0.0。
附1:百度中文识别的其他问题
比如搜索“SEO”,目前百度的结果第一页 [18]居然有4个结果是日文网页,而且几个日文网页的标题也识别为乱码,4个日文网页中有一个声明了使用的是日文编码shift_jis,百度依然无视;
而Google搜索“SEO” [19]则无误,能够正常识别哪些是中文网页。
同时,国内无疑有很多SEOer在对关键词“SEO”拼命做SEO,然而,中文搜索引擎百度的“SEO”关键词第一页结果却挤进了4个日文网页,这无疑也是一大讽刺。
另外现在Google已经支持中文分词搜索了,百度能识别中文分词的优势已经不再存在。
ps. wikipedia上的“SEO”解释 [20]
附2:愚昧的《百度更懂中文》视频广告
笔者不能想象一个把简单的中文链接读成乱码、无法分辨中日文网页的搜索引擎会做这种广告: