你有没有这样的疑问:为什么火爆的人工智能大模型,偏偏要被称为“大语言模型(LLM,Large Language Model)”呢?当我们看到电脑屏幕上,AI 竟然能像人一样流畅地对话,甚至给出颇有洞见的观点时,那种好奇心油然而生: 计算机,究竟是如何学会人类语言的? 还能和我们进行如此深刻的交流?
要解答这些疑问,就得从人工智能大模型的“起点”说起。 说到底,大语言模型的基础,其实是概率统计和线性代数。看到这里,曾经在高数、概率、线代里挣扎过的小伙伴们,是不是瞬间感觉有点熟悉? 没错,那些枯燥的数学公式知识,正是 AI 语言能力的基石。
大语言模型的核心,就是概率统计。它的最主要目标,就是去预测在给定的上下文语境中,下一个词语(Token)出现的可能性有多大。
如果你对这个词还不太熟悉,可以回顾之前的文章:
公众号:中物联教育培训【中物灵境AI+专栏】Token:AI 理解世界的“积木”
为了让模型学会这项“预测”技能,人们投入了海量的人类文本数据,例如浩如烟海的书籍、文章、网页、代码等等。 这些数据,都是语言的载体。 大语言模型就像一个孜孜不倦的学生,通过分析这些数据,不断发现上下文之间的模式和规律,从而逐渐掌握了不同语言的结构、语法、语义,以及隐藏在语言背后的知识。
这就像一个刚刚来到世界的幼童。 最初,他们听到的是父母日常的对话,虽然懵懵懂懂,并不理解语言的含义,但他们却能敏锐地捕捉到语言发音的模式。 然后,他们可能会第一次无意识地发出“MaMa”的声音,而父母往往会欣喜若狂,用兴奋的表情和亲昵的肢体接触来鼓励这种行为。 幼童逐渐理解了这种“奖励”机制,就会尝试发出更多的声音,并进一步借助外部的物体来识别实体对象,最终慢慢演化出有意义的对话。 而父母也在无意识中,摸索出了一套教孩子说话的有效方法,比如用叠词来强调一句话中的重点,像“肉肉”、“凳凳”、“果果”等等。 这些叠词,虽然成年人在日常交流中很少使用,但对于孩子来说,却能帮助他们快速理解重要的实体词汇。 接下来,孩子们会学习各种动词以及动宾结构,例如“吃肉肉”、“坐凳凳”、“吃果果”。
再往后,孩子们开始区分“你”、“我”、“他”的主体概念,学习形容和描述事物的方式,更重要的是,开始理解和运用抽象的概念。
你看,大语言模型的训练过程,其实和孩子学习语言的过程有着异曲同工之妙。只不过,我们用更大规模、更高速度的方式,让人工智能掌握了全世界几乎所有能够接触到的公共知识。 虽然一开始,大模型并不知道自己生成的内容对人类是否有价值,但是通过人类的反馈,它可以更好地学习和掌握人类所需要的语言模式,以及人类在得到期望的反馈后,是否会像父母鼓励孩子一样,对模型的行为进行“鼓励”。
同时,人类绝大多数有效的知识,都是以文字作为基础进行传播和记录的。 在没有其他感知器官和运动器官的情况下,大语言模型最先能够做到的,就是通过语言的输出,来构建和人类之间的连接。 当然,对于掌握了海量知识的大模型来说,会不会在未来的某个时间点,突然“顿悟”,理解自身存在的主体性,甚至具备主体意识,这确实是我们今后需要认真思考的重要问题。
就像父母只是把孩子带到这个世界,但父母并没有制造孩子。 随着年龄的增长,孩子也会逐渐发展出独立的人格,拥有自己独立的世界。
所以,现在你明白为什么人工智能大模型,又被称为“大语言模型”了吗? 因为语言,既是它们学习的起点,也是它们与人类沟通、展现能力的最重要桥梁。