本文基于论文《Efficient Estimation of Word Representations in Vector Space》,描述了词向量训练模型CBOW和Ski-gram的原理,以及给出keras实现。
本文基于论文<A Neural Probabilistic Language Model>提出的神经网络语言模型(NNML),介绍了其原理,以及使用keras复现了模型。
介绍了语义角色标注(SRL)的概念,标注流程,并使用pyltp进行测试。语义角色标注 (Semantic Role Labeling, SRL) 是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元 (语义角色) ,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。
本文介绍了N元语言模型的概念,困惑度的概念,数据平滑的方法,以及语言模型的自适应问题。
本文介绍了语料库的基础知识,包括语料库的概念、分类、语料库的发展、语料库的采集和加工等。以及概略的介绍了一些著名的语料库,比如:宾州大学树库、PropBank、NomBank、PDTB、WordNet等。
结巴分词是不错的处理nlp的库,本文基于C#语言演示结巴分词的使用,包括:分词、自定义分词、关键词提取、词性标注等。
自然语言处理是建立在概率论和信息论基础上的学科,本文回顾了一些基本数学概念,包括:条件概率、贝叶斯公式、信息熵、交叉熵等