浅谈百度三种中文分词技术7z

2019年06月15日 来源:

中文分词技术是搜索引擎对于用户提交查询的关键词,搜索引擎用中文分词把词按照一定的规格,将一个长尾词分割成几个部分,从而概括一段话的主要内容,让用户能更快速度的找到想要的内容。

搜索引擎常用的几种分词方法有三种:

一、字符串匹配的方法;(字符串匹配的分词一般为3种:1.正向匹配法;2.逆向匹配法;3.少切分)

二、理解分词方法;

三、统计分词方法。

字符串匹配方法:在百度中搜索我喜欢玩宠物连连看而在百度位的是以标题和搜索的长尾词相符合,说明在站条件相当的情况下,先显示标题匹配的页。这样文章标题中的长尾是在排名中非常重要的。而在百度第二页我喜欢玩宠物连连看用百度快照查看,很显然长尾词已经被分成我喜欢,玩,宠物连连看而在外后已经被分成:我,喜欢玩,宠物,连连看,这种匹配方法是少切分方式。

理解分词方法:当输入的字符串中包含3个中文字符的话百度分词就会直接接到数据库索引词汇;而当字符串长度》4个中文字符的时候,百度中分词会会把这个词分成若干个字符。如:百度搜索电动车。

统计分词方法:相邻的字同时出现的次数越多,中文分词就会可能把出现相邻的字当成你一个词。例如在百度中输入一个字符而在下面百度也把站标红了,这样可以看得出与站这两个字符相邻出现的次数非常多,统计分词已经把站纳入了词库。

对于百度中文分词的理解:

中文分词中强调一点:按照不同长度优先匹配的情况,可以分为(长)匹配和小(短)匹配;长尾词在文章中的间距也是决定文章排名的因素。如:我喜欢玩宠物连连看在百度第十三页的时候已经被分词成我,喜欢,玩,宠物,连连,看

全字匹配得到的词的权重会高于分开的词的权重。

根据自己的观察现在百度大部分都是使用的是正向匹配。

百度分词对于一句话分词之后,还会去掉句子中的没有意义的词语。

本文由的作者,转载请保留,谢谢合作

注:相关站建设技巧阅读请移步到建站教程频道。

企业如何提升网站优化质量度?
检查化验
企业建站解决方案
相关文章
  • 邢捕头范明撞车住院被医院拒之门外
    邢捕头范明撞车住院被医院拒之门外

    被医院“拒之门外”邢捕头范明撞车住院 被医院拒之门外 护士长与赵金贵、贾大作家的精彩对戏 我看好你哦!你是否曾记得《武林外传》里深受观众喜爱的邢捕头的这句经典台词?近日邢捕头范明来到郑州,正式加入由歌坛才女周艳泓、相声演员李伟健主演的...

  • 宝贝智慧岛
    宝贝智慧岛

    宝贝智慧岛2015年中国商业WiFi行业研究报告(55页)随着WiFi技术的成熟与迭代,未来WiFi络会成为区别于运营商络的另一大数据络。 WiFi络由私人WiFi络和江苏连云港海港城商业广场景观设计概念方案(34页)连云港市是陇海铁路的东端起点, 位于中国东南沿海的中部,...

  • 墨西哥与新西兰两种海洋哺乳动物面临灭绝
    墨西哥与新西兰两种海洋哺乳动物面临灭绝

    墨西哥与新西兰两种海洋哺乳动物面临灭绝近日举行的国际捕鲸委员会会议警告称,若不立即禁止刺捕捞,两种海洋哺乳动物物种将消失。刺捕捞是将长带形的列敷设于水域中,使鱼刺入目或被衣缠络后加以捕捞的作业方式,被广泛应用于各国的捕捞业。国际捕鲸委...

  • 松江区检测中心参加全市蔬菜农残突击专项监测行动
    松江区检测中心参加全市蔬菜农残突击专项监测行动

    松江区检测中心参加全市蔬菜农残突击专项监测行动为了进一步确保市郊菜区上市蔬菜的安全放心,根据市农委2007年蔬菜农药残留量监测方案工作要求,在市农技中心的统一组织部署下,9月3日全市组织承担市级监测任务的检测机构开展突击专项监测行动。全面对全市...

  • 科学建港产业兴港功能强港效率立港
    科学建港产业兴港功能强港效率立港

    海风为韵,涛声作曲,浩瀚的南黄海铿锵协奏,为洋口港龙腾四海而歌。随着一带一路、长江经济带、长三角一体化、江苏沿海开发四大国家战略的全面实施,江苏东部江海交汇处,中国经济为发达的长三角北翼洋口港以其独特的区位优势、强有力的发展态势开启...

  • 周小川详解金改内在逻辑准入放宽才能形成合理价格
    周小川详解金改内在逻辑准入放宽才能形成合理价格

    十八届三中全会之后,各界对于金融市场化改革拭目以待。进入12月,从《关于金融支持中国自由贸易试验区建设的意见》(以下简称《意见》)出台,再到《同业存单暂行管理办法》落地,金融改革正在不断深入。近日,周小川在接受《财经》杂志专访时再次提及未来...