语言规划是人类有意识改变或调节语言的结构与功能的活动,旨在使语言能更好地适配社会需要,助推社会发展。对语言进行有意识的改变与调节不是一件容易的事,一是因为语言与人和社会的关系密切,否则也不会有“规划语言就是规划社会”的说法;二是由于语言不仅是交流的工具,也具有文化的容器、身份的象征、知识的载体、社会的镜子、国家的资源等功能。这些语言功能的重要性会随社会发展水平的不同而不同,这就需要规划者能顺势而为
大语言模型(以下简称“大模型”a)是当前生成式人工智能最主流的技术,具有强大的生成、迁移与交互能力。简单地说,该技术通过训练模型阅读海量文本,使其在语言表达、即时对话、任务规划、逻辑推衍等许多方面具备了与人类媲美的能力。目前,学界业界主要围绕3 个方面开展大模型的研究:(1)倾尽所有算力,通过提高数据质量、优化模型架构和训练策略等各种手段来研发基础、通用大模型,提升模型能力;(2)深入探索大模型的
近20年来,深度学习技术显著提升了机器的自然语言处理能力,使之在诸多任务上接近甚至超过人类水平。机器学习的对象不再是直接来自人类语言学研究成果(知识),而是人类语言材料(数据)。在靠数据和算力驱动的大语言模型几近建成巴别塔的当下,语言学家通过深挖语言现象总结的语言学知识价值何在?本文提出从知识到数据的研究思路,设计了空间语义理解的6 项任务:空间信息正误判别、异常空间信息识别、缺失参照成分补回、空间语义角色标注、空间表达异形同义判别、空间方位关系推理,以构建中文空间语义理解能力评测数据集为例,介绍从SpaCE2021 到SpaCE2024 数据集的设计思想、数据集制作概况以及机器在空间语义理解任务上的表现。总的来看,参加SpaCE 赛事的大语言模型,在依赖表面分布特征(形式线索)的任务上容易获得好成绩,在依赖深层语义理解(认知能力)的任务上容易表现不好。因此,在人工智能高速发展使得语言学知识在计算机信息处理领域被动边缘化的当下,语言学知识的价值需要拓展,即用于指导小而精的高品质语言数据,以提升机器学习的效果和效率。为了计算应用的目的,语法研究应该在观察充分、描写充分、解释充分之上,追求更具挑战性的目标——生成充分。
通用大语言模型在古汉语语言信息处理任务上的效果往往不够理想,因此,我们从领域知识学习需求出发,针对古汉语信息处理任务“低资源”“富知识”的特点,从头构建了专门适用于古代汉语理解与生成的大语言模型“AI 太炎”。通过合理的模型设计、数据处理、基座训练及微调,仅使用1.8B 参数量即可取得较好效果。该模型具有较强的古典文献释读能力,支持句读标点、典故识别、词义解释及文白翻译等多种具有挑战性的文言文理解任务,兼容简体字和繁体字文本。实验显示,与大型通用模型和其他领域模型相比,“AI 太炎”在多项古汉语信息处理关键任务上表现出明显优势,且达到了接近或超过人类基线的水平。此外,在辅助古籍整理、辞书编纂和语言研究等方面,该模型也表现出了很大的应用潜力。
大语言模型为自动文本简化提供了新思路。为了探究大语言模型的中文文本简化能力,本研究构建了中文篇章级文本简化数据集,对其中的平行文本对进行了特征分析;在此基础上,设计大语言模型自动文本简化实验,采用零样本、少样本、少样本+ 词表和少样本+ 规则这4 种提示策略,综合已有的和本研究特有的语言特征评估指标,测评了6种国内外常用大语言模型在不同提示策略下的中文文本简化能力。研究发现,少样本提示策略在文本特征上表现最佳,显著提高了信息保存度;在提示中加入外部词表,有助于大语言模型使用相对简单的词语;在提示中融入简化规则,能使大语言模型使用更简洁的句法结构。不同的大语言模型在难度控制和语义保留程度上各有优势与局限,但在语篇衔接与连贯和段落划分上与人类专家存在明显差距,且均出现了不同程度的幻觉现象。未来仍需构建较大规模的高质量中文简化数据集,多角度诱导语言大模型的文本简化能力。
迫切需要探索大语言模型的语言与知识机理 韩先培(中国科学院软件研究所) 大模型是当前人工智能研究的最前沿,正逐渐成为信息产业的重要基础设施。但是,大模型虽然在写作、推理、规划、数学、代码等诸多领域都展现出了强大甚至比肩人类的能力,却经常出现内容幻觉、价值观错位、歧视偏见等问题。应该如何解决这一难题? 首先,要加强对大模型内部语言和知识机理的研究,实现对大模型的深入理解,从原理上保障大模型的可靠
所谓中文二语教学大时代,指21 世纪特别是近年来,海内外中文作为第二语言教学学科内外发生了一些前所未有的新变化:中文教学走向海外,如中国参与建设的孔子学院;中文教育人才培养体系化,中国已形成完整的中文二语教育本硕博培养体系;海外中文学习者低龄化,越来越多的国家将中文纳入中小学教育体系;中文教学实用化,伴随“一带一路”倡议等中外合作的不断拓展和深化,对中文的实用需求大为增多;中文教学科技化,教育技术
国际中文教育中的“国际”,其实质内涵是“国际人群”,分为海外华人和非华人两大异质性群体。国际中文教育的发展,必然要立足于对其“人群特征”尽可能细致的分析性认识。海外华人是国际中文教育的核心人群,非华人则是潜在的主体人群,面向这两大人群的中文教育分别对应“中文祖语传承”和“中文二语传播”。鉴于新老华人社会祖语保持的现状,“中文祖语传承”的对象人群可细分为“有较好家庭语言环境”“有一定家庭语言环境”“没有或基本没有家庭语言环境”3 类,并据此设计不同的核心课程、教材、教法。根据母语文情况,可对“中文二语传播”的对象人群再分类,按文字划分为“汉字文化圈”和“非汉字文化圈”,后者按与中国的地理关系再分为“周边”与“非周边”。根据中文与其他国家语言文字的远近亲疏展开理论探究和教学实践,才能校正与印欧语对比的中文本体观。对象人群的步步细化,相应研究的步步深化,正是国际中文教育的发展之路。进一步丰富对象人群的下位构成,才能实现学术和社会资源上更加合理的分工、配置,以达到精准服务的目的。
清华大学东欧交换生中国语文专修班是中华人民共和国成立之初,在毛泽东等中央领导人直接参与下,由周恩来主持,并经外交部、文化教育委员会和教育部等多部门协同运作,委托清华大学建立的当代中国第一个对外汉语教学机构。该班发端于中国和东欧五国交换留学生的动议,中外双方就学习内容与期限、生源资质、生活待遇等问题进行了充分的协商,形成了建国初期留学生教学与管理的雏形。1950年9 月,清华专修班正式成立,至1952年秋季转入北京大学之前,实有教职员工17人,学生36名。其行政管理分为3个层面:政府层面为东欧来华留学生工作组,由相关部委人员组成;学校层面为外籍学生指导委员会,由校内知名学者组成;机构层面即清华大学东欧交换生中国语文专修班,在行政级别上与“系”平级,由邓懿主持具体教学工作。清华专修班的工作原则有二,一为“分工合作”,二为“民主集中”。回首望去,清华专修班的建立不仅培养了一批知华友华的外国学生,而且为中国对外汉语教学的发展奠定了稳固的基石,在中国乃至世界汉语教育史上占有重要的一席。
国际中文教育工程化就是用工程思维来解决国际中文教育过程中的相关问题,大体可以理解为运用相关知识和技术去配置教育资源和教学手段,按照一定的规范和标准通过集成化的方式来构造可用于国际中文教育领域的产品。其基本特征可以从目标层面和操作层面两方面进行概括。前者包括需求驱动性、产品导向性、功能助推性,后者包括要素集成化、结构模块化、规程条理化、运行平台化。从本体论、认识论、方法论和价值论出发,可以提出国际中文教育工程化应遵循的4 条基本原则:整体思维和组块思维相结合、工具性和人文性相结合、数据驱动和人机协同相结合、规模化和个性化相结合。可以说,工程化实践已经成为推动国际中文教育新生态出现和发展重要而基础的路径。
汉语和英语作为外语教学的相异之处突出体现在:中国人学英语,口语与书面语的学习几乎是同步的;而英语区学生学习汉语,口语与书面语的学习无法同步,从口语学习进入书面语学习,必须在汉字学习上再下功夫、花时间,过好汉字关。智能时代,可以用拼音击键或语音输出汉字,这为破除“汉语难学”的迷信带来机遇。国外学者使用“电写为主,笔写为辅”教学模式,取得了良好的教学效果。本文进一步提出“电打汉字开路,笔写汉字跟进”的新思路:在汉语学习的开始阶段,先教授、引导学生“电打汉字”,让学生破除对汉字学习的畏难情绪;再在教学过程中适度穿插“笔写汉字”的练习,引导学生逐步由“电打”过渡到“笔写”,因为“笔写”有助于对汉字的记忆、体会和认识,确保学好汉语书面语。
人工智能背景下国际中文教育学科发展的七个问题 崔希亮(北京语言大学) 国际中文教育是在全球语境中把中文作为第二语言对学习者开展的中国语言文化教育,其内涵包括来华留学生的中国语言文化教育和在地化的中国语言文化教育。人工智能技术的发展,尤其是生成性大语言模型的发展,给国际中文教育赋予了新的内涵,催生了国际中文教育学科的数智化转型。因此在学科发展方面,我们应该考虑以下7 个问题。 (1)学科的交叉和