宝塔服务器面板,一键全能部署及管理,送你10850元礼包,点我领取

对于nlp的应用,我们应该先把停用词以及出现频率很低的词汇给过滤掉

在英文里,比如’the’,’and’,’their’都可以作为停用词来处理,但是,也要考虑自己的使用场景。例如,在中文中,“好”,“很好”这些词汇在有些应用中可以作为停用词过滤掉。但是如果是情感分析,这些词不能被过滤,也不能当作停用词处理掉哦亲。

出现频率特别低的词汇对文本分析的作用不大,可以过滤掉。当停用词和出现频率低的词汇都过滤掉后,得到了一个词典库。

对于词的标准化,有两种常用的技术,一种是stemming,另一种是lemmazation。

对于stemming操作,就是将部分属于一个母词的不同词汇给统一成一个单词,这个单词不一定是英语中正常存在的单词。例如,可以将went,go,going统一成go,也可以将fly,flies统一成fli,这里fli就不是实际存在的词汇。对于stemming的实际使用,有一个著名的算法叫做PoterStemmer。其部分规则可以参见下图。可以看到,如果要实现这么一个算法自然语言处理2-3: 停用词过滤以及stemming操作-风君子博客

 光有程序员是不够的,还需要语言学家来制定这种标准化的规则。

另一个lemmazation就不用过多了解了,它和stemming的区别就是,运用lemmazation标准化后的单词是英语中实际存在的词汇,而stemming标准化后的单词则不一定哦。反正这些规则也不需要过多了解,只要知道他们是用于标准化的以及会使用就ok了