1. 基础概念与任务
- 自然语言处理(NLP):构建人与机器之间沟通的桥梁,实现人机交流。
- 自然语言理解(NLU):让计算机理解人类语言的意义和上下文。
- 自然语言生成(NLG):使计算机能够生成符合语法和语义规则的自然语言文本。
- 分词(Tokenization/Segmentation):将句子、段落分解为字词单位。
- 词性标注(Part-of-Speech Tagging):判定句子中每个词的语法范畴并标注词性。
- 命名实体识别(Named Entity Recognition, NER):识别文本中具有特定意义的实体,如人名、地名、机构名等。
- 句法分析(Syntax Parsing):解析句子中各个成分的依赖关系,生成句法分析树。
- 语义分析:深入理解文本的含义,进行语义角色标注、指代消解等操作。
2. 高级技术与模型
- Attention 机制:从关注全部到关注重点,将有限的注意力集中在重点信息上。
- Encoder-Decoder:一类算法的统称,常用于解决序列到序列(Seq2Seq)的任务。
- Seq2Seq(Sequence-to-Sequence):输入一个序列,输出另一个序列,输入和输出序列的长度可变。
- Transformer:使用自注意力(self-attention)机制的Seq2Seq模型,广泛应用于NLP任务。
- BERT(Bidirectional Encoder Representations from Transformers):通过无监督预训练的Transformer模型,显著提升了NLP任务的性能。
- 词嵌入(Word Embeddings):将词映射到高维实数向量空间,以便计算机处理。
- softmax:分类器,也可做归一化处理,常用于多分类问题的输出层。
3. 数据与评估
- 语料库(Corpus):用于NLP研究的大量文本数据集合。
- 平衡语料:包含各种主题和领域的文本,以反映真实世界的语言使用情况。
- 量化评估:使用量化指标(如准确率、召回率、F1分数等)来评估NLP模型的性能。
4. 其他相关术语
- 正则化(Normalization):对数据进行规范化处理,以减少模型过拟合的风险。
- 标准化(Scaling):将特征缩放到同一尺度,有助于模型训练。
- 未登录词(Out-of-Vocabulary Words, OOV):在语料库或词典中未出现的词,是NLP处理中的一个挑战。
- 多模态(Multi-modal):结合多种信息模态(如文本、图像、音频)进行NLP任务。
- SOTA(State-of-the-Art):技术发展最新水平,用于评估当前模型的性能是否达到领域内的顶尖水平。
38
发表回复