˴

ݸ ɽݵһҵ97͹ҵ԰A

18565871528(tel)

18565871528(fax)

ǰλã > Τ¹صַ >

ȻǴúаƻ Чͽڼ䵽ڼ

2023-02-27 02:28 С

短评:自然语€处理呼唤中国方案 云服″从数字时代到智能时代

€€信息社会50人论坛执行主席段永朝

€€2023??6?/p>

€€美国OpenAI公司的ChatGPT甫一推出,即€起全球浪潮€一时间各种惊艳测试令人目不暇接。ChatGPT在文档摘要€内容撰写€机器翻译€问题解答等领域的非¤现,成为2023年度智能科技领域的抢眼新闻€?/p>

€€ChatGPT是人工智能传统领域自然语€处理(NLP)的创新″,基于GPT3.5语言″、Transformer机器学习″和无监督、半监督-微调预训练技术,通过巨量参数、海量文本数据的训练和学习,具备强大的文本生成能力€?/p>

€€值得注意的是,ChatGPT的技术路线,有着鲜明的计算语€学演进的特征。理论计算语€学以语法解析和语义的形式理论研究为核心,通常以形式€辑和符号方法为基础,包括自然语€的计算复杂€€应用上下文相关语法和线性有界图灵机″等€?/p>

€€1990年以来,计算语言学一直以统计方法为主,如神经网络和机器学习€神经网络方法因为缺乏统″解释性受到一定程度的排斥。直?015年前后,深度学习方法NLP的主要框架€这里重大的突破在于Transformer机器学习″中使用的自注意力机制,即对输入数据的每一部分的重要€进行差异€加权€?/p>

€€注意力模型的思想,缘于心理学家WilliamJames?30年前提出的€认知注意力”概念€James提出注意力的“聚光灯″”将注意力分为两个阶段:€个阶段是注意力在视场中的均匀分布,这时€信息获得并行处理;另一个阶段是注意力的聚焦过程,这时€信息是串行处理的€?/p>

€€1986年,Charles W?Eriksen & James D?St?James提出了变焦镜头模型,为注意力″增加了环境变量的调节参数?/p>

€€ChatGPT€使用的自注意力机制,实际上就是这种变焦注意力处理过程在数据编?解码过程中的延伸应用。传统自然语€处理过程中的编码-解码过程,采用€用计算框架,实质上是€注意力散光”过程€ChatGPT€采用的自注意力机制,在每个编?解码过程中,都加入了自我注意机制,从而大大加强了预训练的效果?/p>

€€但是,需要看到的是,ChatGPT无论取得了何种成就,其语€″的基本€想,依然是乔姆斯基的形式语法€瑞士语€学家索绪尔的“能?€指€两分法。也就是说,以英语(屈折语言)为主要研究对象的主流自然语€处理€术,不可避免地带有乔姆斯基€存在先天语法结构假设€,以及索绪尔€符号€语音€对″分离假设”这两个重要的假设€?/p>

€€对中文语境的研究者€开发€和使用者来说,这两个假设在汉语环境下是否依然成立,是一个基€性问题€?/p>

€€ChatGPT的火爆,其实更应该引发深层次的€€€著名语€学家萨丕尔€沃尔夫,在100多年前曾经指出€语€决定人的认知”;认知语言学的创始人莱考夫也说,在语言认知过程中,€要特别重视€隐喻€的认知价€(1980)€?/p>

€€汉藏语系与印欧语系在语音、词汇€语形€语义€语法等层面有诸多不同€汉语的自然语言处理固然可以借鉴当代西方主流的语€″、处理技术,但从根本上来说,汉语具备的音形义统一的特征需要给予特别的关注。这€点是呼唤中文自然语言处理€术创新发展的关键?/p>

€€€近百度的€则新闻引人关注€百度在多年潜心耕€的基础上推出的“文心一€”大″,一方面依靠计算€术€人工智能技术的大量积累,另€方面更立足海量中文文本€图形€数据的丰富环境,在中文环境的自然语€处理中独具特色,前景可期。百度核心战略业′€的智能云未来势必也要接入文心€€,文心一€带来的庞大AI算力和数据需求将为百度智能云提供巨大的营收增量€ChatGPT和文心一€等将使云市场游戏规则发生根本改变,彻底改变云计算厂商的核心竞争力,€合跑AI的云将成为云计算市场领导者,云服″从数字时代到智能时代?/p>

€€当然,这€领域的长足发展,还有赖于语言学家、心理学家€人类学家和计算机科学家的深度合作与创新?/p>