下一代搜索技术的四块积木

按照我的设想,下一代Internet搜索技术,应该由以下四个部分组成:

一、以互联网搜索为核心的网络资源搜索。

现在最常见的搜索工具,Google、百度、Yahoo、MSN Search之类的,都属于这个范畴。再加上今后会出现的越来越多的各种专业信息搜索,比如论文、文献、MP3、BT、RSS等等搜索工具。

二、以桌面搜索为核心的个人资源搜索。

现在的桌面搜索工具还刚刚起步,今后的发展不可限量。总的趋势是,个人的计算机内的信息资源,都只需要搜索,而不需要费力气整理。就像现在GMail提出的口号。

三、以即时通讯工具为桥梁的网格资源搜索。

这个东西,现在似乎还只是局限与P2P文件共享的搜索,我的设想是,假设我的好友,能够帮我在他的机器里搜索有没有我要的东西,前提是我们两个人都各自装了桌面搜索工具,同时如果他愿意的话,也可以将搜索到的信息共享给自己的朋友。现在的P2P文件共享搜索,除了依托中央服务器的搜索本来就算不上是网格搜索之外,即使是基于好友的互助式搜索,也没有全文检索的能力,总之大有改进的余地。

四、以机器辅助标引Tags为手段的全球信息资源整合。

全球信息资源主要存在于两种地方,一个是公开的互联网上的某个服务器中,一个就是各个不同的个人电脑之中。如何提高搜索的命中率与效率,为各种信息建立主题词索引是一个关键。我之前分析过,“主题词是有管理的tags;tags无管理的主题词”。因此,姜伟的“计算机辅助主题词标引”技术,大可以派上用处。假设用户在自己的机器上装一个工具软件,在用户上网浏览网页、进行编辑Office文档等等工作的时候,这个工具可以在合适的位置提示该文档也许可以标引出几个“主题词/tags”,这样用户就可以更好的整理自己的知识与资料。与此同时,用户浏览公共信息时标引的主题词,也可以上传到某个服务器上,这个服务器可以汇总各个使用者对于同一个URL的主题词标引词情况,统计大家最为认为的,标引重复程度最高的“前N个词”作为这个URL的主题词。这对于今后搜索的效果提升,相信大有好处。

以上的设想,总结起来,是需要一种全新的客户端软件+全新的搜索服务模式+互助式的搜索协作机制。这就是我设想的下一代搜索技术!

各位走过路过的朋友,如果对实现这样的技术有兴趣,可以和我联系!

原文写于:2005年8月13日,现在看来,似乎还没有我理想中的搜索服务出现,也许「360搜索能够达成我的愿望」。