搜索引擎之机器学习排序为什么出现较晚

2019-06-05 13:01:33 董宝山

  利用机器学习技术来对搜索结果进行排序,这是近几年非常热门的研究领城。信息检索领城已经发展几十年,为何将机器学习技术和信息检索技术相互结合出现的较晚,主要要有两方面的原因。

  方面是因为,搜索基本检索模型可以看出,用来对查询和文档的相关性进行排序,所考虑的因素并不多,主要是利用词频、逆文档频率和文档长度这几个因子来人工报合排序公式。因为考虑因素不多,由人工进行公式拟合是完全可行的,此时机器学习并不能派上很大用场,因为机器学习更适合采用很多特征来进行公式拟合,此时若指望人工将几十种考虑因素拟合出排序公式是不太现实的,而机器学习做这种类型的工作则常合适。随着搜索引擎的发展,对于某个网页进行排序需要考虑的因素越来越多,比如网页的PageRank 值、查询和文档匹配的单词个数、网页URL链接地址长度等都对网页排名产生影响,Google 目前的网页排序公式考虑了200 多种因子,此时机器学习的作用即可发挥出来,这是原因之。

  搜索引擎之机器学习排序为什么出现较晚

  另外个原因是: 对于有监督机器学习来说,首先需要大量的训练数据,在此基础上可能自动学习排序模型,单靠人工标注大量的训练数据不太现实。对于搜索引举来说,尽管无法靠人工来标注大量训练数据,但是用户点击记录是可以当做机器学习方法训练数据的替代品,比如用户发出个查询,搜索引攀返回搜索结果,用户会点击其中某个网页,可以假设用户点击的网页是和用户查询更加相关的页面。尽管这种假设很多时候并不成立,但是实际经验表明使用这种点击数据来训练机器学习系统是确实可行的。

  外链代发 三叶草手工  百度脑图  创建百度指数