NBA最新资讯在自然环境中回答这21个问题就能深刻理解NLP迁移学习了
在大自然的怀抱中,回答这21个问题,就能深刻理解NLP迁移学习了!你知道BERT的掩码语言模型由来已久吗?你知道注意力机制的时间复杂度不一定是输入的二次方量级吗?你知道你可以反向实现Google的模型吗?
当下,全球研究人员已经在此领域做出了大量工作,取得了丰硕的成果!NLP也许是当前最吸引人的研究领域。NLP是一个庞大的话题,在本文中我们并不对NLP的基本理论进行过多展开。
以下,我们向大家提出21个问题,它们可以测试你对NLP最新进展有多么熟悉,使你足以面对任何将要到来的技术讨论。毕竟,从某种程度上来说,掌握多少专业术语决定了你的水平。
Q1:NLP预训练模型(PTM)的最新进展如何?参考论文:Pre-trained Models for Natural Language Processing: A Survey,https://arxiv.org/pdf/2003.08271.pdf
近年来,大量的研究工作表明,大规模语料库上的预训练模型可以学习到通用的语言表征,这有助于下游的NLP任务,可以避免从头开始训练一个新的模型。随着算力的发展,各种深度学习模型(例如,Transformer)层出不穷。
随着网络训练技巧的发展,PTM架构也逐渐从浅层向深层发展:
「第一代PTM」旨在学习优秀的词嵌入。由于在下游任务中,这些第一代PTM方法自身并不被需要,所以它们往往层数很浅(例如,Skip-Gram和GloVe)。尽管这些预训练嵌入可以捕获单词的一些特征,但是它们是上下文无关,不够全面。
「第二代PTM」重点关注学习上下文相关的词嵌入(例如、CoVe、ELMo和BERT)。在下游任务中,还需要这些学习到的编码器来表征上下文中的单词。此外,对于不同的目的,也提出了各种各样的预训练任务来学习PTM。
Q2:被用来训练PTMs的问题都有哪些?参考论文:Pre-trained Models for Natural Language Processing: A Survey
预先定好的挑战性任务对于让语言处理更为普适化至关重要。在此基础之上,我们总结三类主要类型:监督式学習(SL)、无监督式学習(USL)以及自监督式學習(SSSL)。
监督式學習(SL)
SL基于“輸入-輸出”對組成訓練數據集,它們通常包括標註過並且可分辨為正確或錯誤形式的小型語句子。
無監督式學習(USL)
USL則是在沒有標籤的情況下去尋找資料內部模式,這種方法常見於聚類分析與降維等技術。
自我監控學習(SSSL)
SSSL則是一種強大的預訓練策略,它通過創建一個目標函數來促使機器從它自己的生成樣本中學會,並這樣持續進行,以進一步提高性能。
通过这种方式,即便是在没有标记数据的情况下,也能够使用大量未标记数据进行有效地信息抽取。这就意味着一旦我们建立了一种高效且灵活的人工智能系统,那么它将能够不断地改善自己,并根据所接收到的新信息调整其行为,以达到最佳效果。这就是为什么人工智能正在成为未来世界不可或缺的一部分,而非仅仅作为一种工具而存在。
虽然自我监控可能看起来像是一种奇异且难以理解的事物,但实际上,它只不过是利用了人类现有的知识与技能,将其应用于自动化过程中的一个更为强大的阶段。在这个阶段里,每一次尝试都会带给人更多关于如何更好地理解和应对生活中的挑战以及如何创造出真正意义上的“智慧机器”的见解。而这一切都是通过不断实验、探索并优化AI系统内部结构实现得到提升,如同科学家们一直以来追求了解宇宙奥秘一样,只不过现在,他们利用的是代码而不是望远镜。