在此空间中,如果想要知道某一组聚集成类的单词的含义,可以通过使用主成分分析法(PCA),也可以使用降维法。但这些方法太简单并且会遗漏了周边的大量信息,因而产生误差。在研究的初始阶段,这些方法很好用,(如数据科学中的逻辑或线性回归)但并不是前沿技术。
我们还可以将单词的一部分当作向量,这些向量可以代表单词的含义。想象一下"undesirability"这个词。使用"形态学方法",它涉及一个词所具有的不同部分,我们认为它由词素(单词部分)构成:"Un + desire + able + ity"。每个语素都有自己的向量。这允许我们构建一个神经网络,它可以构成一个更大的单位的意义,而更大的单位又由所有这些语素组成。
深度学习还可以通过创建句法分析器来理解句子的结构,谷歌正在使用这样的依赖解析技术,在他们的"McParseface"和"SyntaxNet"(两种语言解析器),不过更加宏大,更加复杂。
通过分析句子结构,我们开始理解句子的意义,可以从单词的含义开始,也可以从整个短语和句子开始,无论单词的意义、短语还是句子,都用向量来表示。如果想知道句子之间的关系,我们可以创建神经网络来帮助分析。
深度学习也适用于情感分析。请看这个电影评论:"这部电影不在乎是不是巧妙,也不在乎幽默与否"。传统的机器学习算法会认为这是一个积极的评论,因为"聪明"和"幽默"是积极的词汇,但是神经网络能够识别出它的真正含义。
另外,深度学习算法实现的机器翻译中,它从句子开始翻译,并生成一个向量,然后用另外一种语言生成所需要的信息。
总而言之,NLP与深度学习相结合,就是表示单词、短语的向量,以及它们的含义。
文章原标题《Introduction Into Semantic Modeling for Natural Language Processing》