• 匿名
点击 208回答 1 2019-07-19 11:14

Python无监督抽词 SEO如何快速正确分词

已解决 悬赏分:0 - 解决时间 2019-07-23 03:07
反对 举报 收藏
最佳答案
  • 匿名
支持 反对 举报 2019-07-19 11:14




凝聚程度:两个字连续出现的概率并不是各自独立的程度。例如“上”出现的概率是1×10^-5,”床”出现的概率是1×10^-10,如果这两个字的凝聚程度低,则”上床”出现的概率应该和1×10^-15接近,但是事实上”上床”出现的概率在1×10^-11次方,远高于各自独立概率之积。所以我们可以认为“上床”是一个词。
左邻字集合熵:分出的词左边一个字的信息量,比如”巴掌”,基本只能用于”打巴掌”,“一巴掌”,“拍巴掌”,反之”过去”这个词,前面可以用“走过去”,“跑过去”,“爬过去”,“打过去”,“混过去”,“睡过去”,“死过去”,“飞过去”等等,信息熵就非常高。

浙ICP备2021030705号-2