博物馆日⑭|20万页中国古籍被AI找回,源自一辈子和古籍打交道的川大教授
封面新闻
封面新闻,亿万年轻人的生活方式。
2021-05-18 22:52
关注

封面新闻记者 曾洁

宋刻本《后村居士集》、北宋《金粟山大藏经》写本、清文澜阁《四库全书》零本……5月18日,20万页古籍以数字化的方式回归了。

世界博物馆日这天,“汉典重光”海外古籍数字化回归发布会在中国科技馆举行。一批珍藏于加州大学伯克利分校的中文古籍善本,以数字化方式回归故土,落地汉典重光古籍平台。首批20万页古籍已完成数字化,并沉淀为覆盖3万多字的古籍字典,方便公众翻阅、检索古籍。据悉,AI对这批离家百年的古籍的识别准确率高达97.5%。

20万页古籍以数字化的方式“回归”,背后源自一位七旬老人的奔走。中央文史馆馆员、四川大学教授陈力花费两年时间,奔走联系加州大学伯克利分校,让收藏在伯克利的中文古籍善本通过达摩院技术,以数字化方式回归故土。首批数字化古籍中,有40多种宋元珍本向公众开放。守护古籍一生的他希望,更多普通人有机会亲近古籍,通过古籍与先贤对话。

据了解,阿里达摩院技术团队与四川大学专家联手研发了一套全新的古籍识别系统。利用单字检测、无监督单字聚类、小样本学习、主动学习等机器学习方法,构造了一套边识别古籍、边训练模型的系统,以97.5%的准确率完成对20万页古籍的整体识别。

一辈子都在和古籍打交道的陈力还记得第一次在浙江嘉业堂看到《古今图书集成》的场景。离任国家图书馆常务副馆长之后,陈力受聘于川大,心系古籍保护与传承。在他看来,典籍是中华文明的传承载体,更是人类世界的公共财产,希望有更多力量参与中国古籍的保护和传承,让更多普通人有机会接触古籍、使用古籍,让所有蒙尘的古籍重焕新生,让书写在古籍里的文字活起来。

特别声明:本文为人民日报新媒体平台“人民号”作者上传并发布,仅代表作者观点。人民日报仅提供信息发布平台。
打开客户端发表评论