百度阿拉丁平台从推出的第一天到现在已经很久了,不过只是说在技术突破中,还未完全开放。至于多久完全开放,这个估计至少得等个两三年。因为百度阿拉丁平台的实现,必须要先突破两大技术瓶颈。否则又会像所谓的百度框计算一样,变成空话。
几年前,搜索引擎的蜘蛛开始逐渐强大,从最开始的html文件到之后的doc,flash,pdf,gif等文件都能抓取。现在,只要是网页上显示的东西,蜘蛛都能抓回来。不过,互联网的东西这么多,目前蜘蛛所能抓取的,太少了。所以百度就很神经的吹捧自己有了一个什么阿拉丁。根据官方的说法,这个阿拉丁呢,是个神灯,可以照亮一些黑暗的地方。
具体说来有两点,第一,互联网上加密或者需要付费才能看到的东西;第二,互联网上可以被抓去,但是连地址都不知道的东西。
需要付费才能看到的东西,你百度认为别人会给你开接口么,会让你去抓么。你去抓了别人就能通过你看到这个信息了,那别人还找谁去收费啊?找你啊?所以,这个付费的东西,你是永远抓不到的。
连地址都不知道的也不好抓,除非你从www.a.cn一直按ascii顺序抓到www.zzzzz.cn,而这之间有多少是不能成功返回数据的呢?并且,这些都只是首页,那内部页面呢,没有链接指向的页面很多吧,你靠什么抓?光凭你嘴巴说啊?
百度阿拉丁,不过是百度怕我们遗忘了他的存在,而定期搞出来的种种口号和宣传而已。不必当真。童言无忌。