“数字与人文”节气沙龙

“数字与人文领域专项支持计划”之“节气沙龙”(芒种篇)举行

发布日期:2023-06-12     点击量:

2023年6月6日中午,社会科学部在百周年纪念讲堂咖啡厅举办“数字与人文领域专项支持计划”之“节气沙龙”芒种篇活动,本次活动是“节气沙龙”系列活动的第十一期,也是主题教育调研课题“北京大学文科实验实践综合平台建设”调研的一部分。主题是“中国玄幻影视对日传播研究暨语料库建设”。沙龙邀请了外国语学院日语系副教授刘琳琳、中国社会科学调查中心数据部副主任王堃作主题报告。

法学院杨明,艺术学院李道新,对外汉语教育学院路云,中国语言文学系邵永海、詹卫东、汪锋,信息管理系黄文彬、王继民、位通,外国语学院苏祺、史阳、高山、成沫、刘淼、杨梦,大数据分析与应用技术国家工程实验室黄晶,儒藏中心杨韶蓉,图书馆刘丹等学者作为特邀嘉宾参加了本次活动。来自心理与认知科学学院、新闻与传播学院、政府管理学院、哲学系、艺术学院等不同院系、单位的40余位师生现场参与了本次活动。沙龙由外国语学院吴杰伟和中国社会科学调查中心丁华主持。

活动现场

刘琳琳作题为“数字人文视域中的当代国风影视对日传播——以玄幻影视为中心”的报告。她通过实地调研的图片为大家直观展示了国风影视在日译介发行的途径与特点。她从专业角度聚焦日译字幕,以《三生三世十里桃花》中“劫”这一典型带有中国佛道背景的词在日文版字幕中的不同翻译为切口,梳理出从译为“試練试炼”“苦行”等随具体语境而变化的词汇翻译词,到直接搬用“劫”这一概念的发展脉络,以此说明中国国风文化在日本的传播与接受。她由此揭示了搭建完整的文本库语料库的重要性。刘琳琳介绍了她正在搭建的字幕对译语料库搭建的工作流程,并提出了在进展中遇到的一些困惑和思考,如公开的平台与方式、相关的知识产权问题等。

刘琳琳作主题报告

王堃作题为“国内外现有语料库的建设情况和功能使用”的报告。她先概述了国内外语料库的现状和发展趋势,然后重点介绍了几个代表性语料库的功能和特色。在此基础上,她提出了几个语料库建设的可行路径和创新思路:一是功能扩展,包括超出文本本身的语义搜索和提供不同访问粒度的数据访问接口;二是语料扩展,包括新的语料生成、知识图谱的构建和元数据的扩展;三是智能优化,包括智能标注、自动摘要,以及和GPT-4联动。

王堃作主题报告

到场嘉宾围坐,展开面对面的交流讨论。社会科学部副部长郭琳作了简短的致辞,表示今天这场沙龙荟萃了多个领域的专家,是难得的供需对接、学科对话的平台,能为校级数据平台建设提供切实的意见。

杨明关注数据库搭建与公开中的法律风险,并指出这种风险并不会因为学术研究的公益性而消失。他认为,风险主要包括知识产权的风险和数据利用的风险,而且这种风险会随着数据的形式(如文字、音像等)和颗粒度的变化而变化。由此,他提出两个可能的措施:一是限制数据的传播范围,构建学术共同体中的共享模式;二是限制数据的下载方式,通过技术手段控制使用者的复制、粘贴等操作。

丁华指出,为了保证数据安全性,一方面可以请数据用户到保密机房完成限制性数据的分析,另一方面充分尊重数据存放和共享方的意愿和权益,对于无法大范围公开的数据,可以采取请数据用户提交研究计划,经数据存放方审核许可,再通过签署协议的方式获取数据使用权。黄文彬把数据库的建设分为采集、存储、管理、利用四大阶段,并指出需要注意数据来源,在采集存储的时候做好分类标注,在管理利用的时候注意版本等细节问题。王继民考虑到从头搭建数据库工作量较大,可以利用已有的数据库,或者采用机器+人工的形式。他同时指出在目前大模型下,搜索与问答之间的界限已经不是特别明晰了。位通介绍了自己的研究领域,并指出,他能够通过技术获得一个结果,然而对结果的解读需要更专业的人文学者的加入,他期待通过学校这一平台来推进数字与人文更深入的结合。

苏祺提出了几点忧虑:一是研究人员在数字人文中的角色问题,很难要求一个人既掌握技术,又具有问题意识;二是数据库构建成果的评估体制和学术机制问题,语料库搭建这种基础的、耗时的工作与其他论文、项目之间如何衡量比较,能否被纳入现有的考核体系;三是数据库的管理问题,目前更多的情况是专门的数据库搭建完了,自己的项目结束了,这个数据库也就没有负责人运维了。丁华补充指出,目前在调查数据领域也存在同样的问题,有些学者完成数据采集后,没有将数据进行发布和共享,限制了数据可以发挥的价值。她建议可以通过调查中心进行清理和规范化,发布在图书馆的开放研究数据平台上供申请者下载使用。

李道新就数据库搭建中的论文发表问题分享了自己的项目经历。他主张平台不仅仅只是基础设施的构建,一个数据的翻译,更可以进行各个环节与过程的研究。他的课题组在搭建中国电影知识体系平台(CCKS)的过程中发表了30余篇核心期刊论文,做到了高成果产出。同时他介绍了平台避免法律风险的一些措施。李道新和吴杰伟也都关注到了中国电影海外传播研究中的文化价值。

詹卫东介绍了北京大学现代汉语语料库(CCL语料库)的背景,通过语料库建设把汉语的语言资源做成全世界学术界关注的资源中心。詹卫东指出,ChatGPT也可以看作一个特别巨大的语料库,可能会覆盖大部分早期语料库的功能。由此,类似刘琳琳建立的那种规模并不是特别大、方向特别聚焦的语料库,反而可能是未来的发展方向,数据库可能更应该向纵深、学术导向发展。路云肯定了CCL语料库对国际学生培养以及应用语言学研究的重要作用。她同时提出了具体的问题,即对外汉语教育学院在长期的教学实践中积累了大量的课程资源,并达到了接近百万级的播放学习量。他们希望能通过分析这部分学习数据来对国际化的学习者提供一些策略的支撑,但在数据清洗和模型建立上遇到了困难。她表示,通过今天的交流讨论,意识到了建立相关视频库的价值意义。

刘丹介绍了“北京大学开放研究数据平台”的背景和功能,并介绍了“北大学者”这一可以自由定制的学者个人平台。她还对数据库建设提出了一些建议:一是推荐了科技部和财政部认定的20个国家级的科学数据中心,作为社会科学部牵头组织数据共享平台建设的某种参考;二是希望考虑一些现实的、可落地的、能够吸引用户的应用转化。

杨韶蓉介绍了《儒藏》的工作进展情况。得益于数字与人文的发展,《儒藏》的编纂打破了传统的手工编纂模式,进入了数字化和数据化的过程。黄晶、高山、成沫和刘淼等均作了发言。

现场讨论

在本次沙龙中,与会师生踊跃发言、各抒己见,数据库的搭建者和使用者、数字与人文课题的实践者们就文科实验实践综合平台建设中语料库的建设展开了充分的沟通对话。社会科学部作为联系人文社科和理工学科的桥梁,将继续组织“节气沙龙”系列活动,为更多探索文理交叉可能性的项目打造展示的空间和交流的平台。

版权所有 社会科学部

  • 官网

  • 微博

  • 微信