在python中使用NLTK标记文本

给定一个字符序列和一个定义的文档单元，令牌化就是将其切成碎片（称为令牌）的任务，也许同时丢掉某些字符（例如标点符号）。在nltk和python的上下文中，这仅仅是将每个标记放入列表的过程，因此我们可以遍历一个标记，而不是一次遍历每个字母。

例如，给定输入字符串-

Hi man, how have you been?

我们应该得到输出-

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

我们可以使用NLTK中的word_tokenize方法对此文本进行标记。例如，

示例

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

my_sent = "Hi man, how have you been?"
tokens = word_tokenize(my_sent)

print(tokens)

输出结果

这将给出输出-

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']