词是语言的基本单元,是有词义的语音形成的语言符号。对于语言学来说,词的研究十分重要。从语料库中提取要害词是用来实现信息检索、文天职类、语言气概剖析、自动摘要、机械翻译等义务的重要前置步骤。这是由于要害词归纳综合了文本的主要内容,词语之间的关系也包罗了重要的语义信息。
另外,词语的划分也涉及到许多问题,如词的局限是一个词的字形仍是三个字的熟语?是一个句子的主干仍是隶属因素?这些问题都需要在语言学中深入研究。此外,词汇计数也对自然语言处置手艺有着重要意义,即从文档中自动盘算单词泛起的频率,以及文档中的单词数目。