欢迎来到内蒙古自治区社会科学院,内蒙古社会科学院是内蒙古自治区直属的综合性哲学社会科学研究机构。

“蒙古语语料库”二期工程:填补互联网上无蒙古文文献空白

来源:中国新闻网作者:2018-11-27编辑:张慧 查看数0评论0

11月26日,内蒙古自治区社会科学院“蒙古语语料库”首席专家巴特尔研究员接受中新网记者李爱平专访,详细介绍了“蒙古语语料库”二期工程情况。

正在实施的“蒙古语语料库”二期工程(简称二期工程)总字数将达到1.2亿词,目前已完成佛教重要典籍《甘珠尔经》的录入工作。其最大意义在于“填补互联网上无蒙古文文献的空白,最终能使蒙古学学者有文献可用”。

巴特尔对记者透露,二期工程“文献语料库”是“扫描文件、电子文档、拉丁文转写”三位一体的大型蒙古文文献语料库。

巴特尔表示,二期工程语料库有三大特点:第一、穷尽式收集自蒙古文第一份文献成吉思汗碑以及《蒙古秘史》等中世纪文献,好中选优《黄金史》《甘珠尔经》《御制清文鉴》等木刻板文献,均衡选录社会科学、自然科学、报纸、政治、法律、文学、医学、农牧业、应用、口语等10大类文献;第二、遵循文献学原则,即每份文献提供原图、录入文件、拉丁文标音三种形式;第三、语料库实现免费在线网络查询检索。

巴特尔告诉记者,二期工程自2015年实施近三年来,截至目前已完成13世纪—16世纪中世纪文献、17世纪—18世纪近代文献(大部分)、19世纪现代文献部分和20世纪—21世纪当代文献部分,约完成8000万字语料的录入校对工作。

“蒙古语语料库建设工程”是“一次规划,多年实施”的中国首个蒙古语、达斡尔语、鄂温克语、鄂伦春语大型综合性语料库。它涵盖言语语料和文献语料两部分,总字数将达到2亿词。

2005年“蒙古语语料库建设工程”确立为内蒙古自治区民族文化大区建设重点项目,设计20年完成。一期工程言语语料库(2005-2014)已于2014年11月验收,二期工程文献语料库(2015-2024)正在实施。

巴特尔表示,一期工程言语语料库(8000小时语料)旨在大规模搜集真实言语语料,重点在中国八省自治区、蒙古国四省一市、俄罗斯布里亚特共和国和卡尔梅克共和国境内97个点采访了6725人,搜集蒙古语、达斡尔语、鄂温克语、鄂伦春语自然口语语料4192小时(相当于4000多万词)。它是已建成的世界上最大的蒙古语自然口语语料库。同时还完成了4000多小时的书面语语料库。两项合计“蒙古语语料库建设工程”一期工程共完成了8000多小时的言语语料。

在巴特尔看来,二期工程的实施,不仅对蒙古语等少数民族语言(文字)的规范化、信息化和内蒙古语言生活的健康和谐发展,具有重要的理论意义,也对保护、传承和开发、利用民族语言文化遗产,维护中国语言文化安全具有重要的现实意义。


内蒙古社会科学院版权所有,未经书面授权禁止使用

地址:内蒙古呼和浩特市大学东街129号 邮编:010010