2023年11月10日中午,社会科学部在北京大学数字化实验教学中心举办“数字与人文节气沙龙”立冬篇活动。本次活动是“节气沙龙”系列活动的第18期,主题是“北京大学CCL语言资源建设概况——语言知识数据化和可视化”。沙龙由中国语言文学系詹卫东教授主讲,邀请计算中心、外国语学院的专家学者参与本次活动。
詹卫东介绍了北京大学中国语言学研究中心(CCL)在语言资源建设方面的工作概况,主要包括CCL语料库、现代汉语句法结构树库、现代汉语述补结构数据库、现代汉语构式知识库等。CCL语料库是一个长期发展的项目,自2004年上线后,经历了多次升级扩展。即将发布的2023版,语料库规模将从开始的2亿字扩充到超过20亿字,在语料类型多样性和代表性等方面,也有较大提升,新增了早期北京话语料、《人民日报》语料、多种网络平台的语料、古代汉语的四库全书语料等多种有代表性的语料。
詹卫东作主题报告
詹卫东具体介绍了CCL在线语料库新版的改进情况:包括语篇信息(如语料年代)标注、复杂组合查询、搭配查询、过滤机制、汉英双语语料的查询功能升级等多个方面。未来,语料库还将基于Elastic Search框架,改进检索页面的前端设计、检索结果的可视化、检索历史记录日志和统计分析等功能,但也需要加强更稳定高效的网络系统环境建设。
詹卫东认为,语言资源建设是基础工作,需要在理论研究支撑、应用研究驱动以及工程技术保障三位一体的合力下,才能得到更好的发展。在以大语言模型为代表的AI技术快速迭代大背景下,CCL语料库的发展迫切需要仰仗像计算中心这样实力雄厚的专业团队支持,助力CCL语料库实现升级换代,为广大用户提供更加智能化的语言资源服务。
参会嘉宾交流讨论
与会专家学者一致认为,CCL语料库是一项非常宝贵的有影响力的资源,目前的查询语句体系已经相对完备。对于语料库存在的网络服务稳定性问题,可能需要从多个方面去寻求改进方法,比如进一步梳理用户的查询需求,建立更有效的查询表达式审核机制;研究更好的监控服务器运行状态的方法;让项目建立在稳定可靠的开源技术框架的基础上,有利于系统维护和升级。这些建议将有助于进一步优化CCL语料库的查询效果和使用体验。
在本次沙龙的基础上,计算中心将与CCL语料库建设团队进一步沟通合作,推动北京大学语言资源建设进入新的阶段。社科部也将和计算中心一起,为文科信息基础设施建设提供更好的技术支撑。
延伸视频:立冬篇数字资源
专题链接:“数字与人文”节气沙龙