——《数典》编纂委员会总主编、大数据战略重点实验室主任连玉明教授访谈录
编者按:全球首部多语种《数典》2020年5月由科学出版社在中国北京出版。这是迄今为止全球首部全面系统研究大数据标准术语的多语种专业工具书。为深入探寻《数典》的编纂过程、创新内容及其时代价值,记者对《数典》编纂委员会总主编、大数据战略重点实验室主任连玉明教授进行了专访。
记者:“数典”是如何提出的,是基于什么样的背景研究编纂这样一部开全球先河的鸿篇巨制?
连玉明:“数典”一词是由《数典》编纂委员会主任赵德明首次提出的,定义为大数据标准术语体系。初衷在于构建大数据标准术语体系,形成公共话语系统,在各行业、各领域架起沟通的桥梁,助力全球共同把握好数字化、网络化、智能化发展机遇,处理好大数据发展在法律、安全、政府治理等方面挑战。
回顾历史,中华民族修“典”古已有之,比如中国最早一部历史文献总集《尚书》、中国最早医学典籍《黄帝内经》、最早真正意义上的字典《说文解字》、世界上最早由政府颁布的药典《新修本草》等等,都在传播信息、传递秩序、传输价值、传承文明的过程中发挥了极为重要的作用,对中华文明乃至世界文明都产生了深远影响。《数典》正是在数字文明时代对中华民族修“典”精神的继承和发扬。
人类历经了刀耕火种的原始文明、精耕细作的农业文明、机器轰鸣的工业文明后,迈入了全新的数字文明大门。可以说是历史的长河以时间为轴,文明的进步以规则为纲。古有结绳记事、肘尺丈量、甲骨刻字、“车同轨、书同文”,近有以标准为支撑的工业规模化大生产,数字文明规则的确立是我们共同的使命。
中国正在加快建设数字中国,推动信息化更好造福社会、造福人民、造福世界。中国首个国家大数据综合试验区的贵州,享誉全球的中国数谷贵阳,有责任致力于数字文明的规则探索。近年来,贵州贵阳把大数据上升为全省全市的发展战略,坚定不移实施大数据战略行动,持续以理论创新引领实践创新,以标准创新推动规则创新,不断取得大数据前瞻性基础研究、引领性原创成果的重大突破。《数典》正是在这样的背景下,这样的基础上研究编纂的。
记者:以大数据标准术语为标志的《数典》,对提升中国大数据的国际话语权和规则制定权,加快大数据知识国际传播和普及应用有哪些意义?
连玉明:《数典》是由中国研究、编纂并出版的迄今为止全球首部全面系统研究大数据标准术语的多语种专业工具书,是中国顺应大数据发展趋势的规则创新和标准创新,是中国大数据发展理论创新和实践创新的产物。
《数典》以全球语境和未来视角,首次对大数据知识体系进行了全面梳理,提出了涵盖大数据基础、大数据战略、大数据技术、大数据经济、大数据金融、大数据治理、大数据标准、大数据安全和大数据法律在内的九个方面的术语架构。凡百工作,首重定名,学术的发展、知识的分享,一个重要的前提就是规范表达。从这个意义上讲,《数典》的首创性探索对提升中国大数据的国际话语权和规则制定权,加快大数据知识国际传播和普及应用,促进全球大数据发展具有现实而深远的意义。
也正是基于这种贡献,《数典》得到了联合国教科文组织的推荐,认为“全球首部多语种《数典》的出版具有非常重要的价值”,“《数典》开创性地提供了汉语、阿拉伯语、英语、法语、德语、意大利语、日语、 韩语、葡萄牙语、俄语和西班牙语十一种语言文字的对照,以全球语境和未来视角,对大数据知识体系进行了全面梳理。基于大数据标准术语知识导航式的交流互鉴,让不同国度和文化背景的人们都能对大数据概念有充分的理解和认知。这种工程化的研究与应用,不但能够支撑知识传播的效果、范围和层次,而且能够促进科学研究、企业创新、教育培训中的合作和交流”。
记者:作为全球首部多语种《数典》,它在前瞻性、创新性和权威性体现在哪些方面?
连玉明:《数典》在选词过程中特别注重反映全球前沿动态的新名词、新术语,如选入块数据、数权法、主权区块链、场景大数据、治理科技等,突出《数典》的前瞻性。
《数典》的创新性主要体现在原创性的架构、首创性的11种语言的多语种表现形式。它是在全球范围内首次全面系统研究大数据标准术语,通过探索大数据的规律和本质,构建了具有科学性、特色化的“9编-45章-255节”架构,收录5692条大数据标准术语,形成了统一规范、符合国际通用规则的多语种学术话语体系和术语标准体系。
《数典》的研究与编纂是大数据战略重点实验室联合国内外数十家专业机构和数百位专家学者共同努力和集体智慧的结晶,是跨学科、专业化、开放型的一项大数据理论研究创新实践。在研究、编纂《数典》的过程中,始终坚持专家选词和权威数据库相结合,聚焦科学引文索引(SCI)、社会科学引文索引(SSCI)、工程索引(EI)和科学技术会议录索引(ISTP)四大权威检索数据库,并结合中国知网知识发现网络平台中的大数据相关文献资料,构建《数典》基础语料库,同时以专家研究成果为参考,力求词目的准确性、科学性和实用性。
基于以上特性,《数典》得到了全国科学技术名词审定委员会的推荐,认为“由于文化习惯的差异、技术研发的差别,大数据在发展应用中正面临着不同步、不统一、难交流、难互促的问题。解决这个问题的关键在于规则和标准,首要的就是建立一套大数据术语体系。在大数据发展中主导标准制定,掌握标准话语权,不仅能够引领新一轮科技革命和产业变革的发展方向,而且也将在发展中占领制高点”。并肯定“中国大数据发展具有独特优势。这种优势就表现在以贵州,尤其是贵阳为代表的一批持续推动大数据战略行动实践的‘先发’地区。作为我国第一个大数据综合试验区,贵州在大数据发展的理论创新、政策创新、实践创新、标准创新方面先行先试,取得了一系列重大成果。这些成果,以摆在我们面前的这部《数典》为代表,为我国主导推动大数据术语研究奠定了坚实基础。这部整合全国力量、集成全球资源研发编撰的《数典》,是我国主导推动大数据标准术语研究的一个标志性成果,获得了联合国教科文组织国际工程科技知识中心的认可和推荐,从而在全球范围内更具话语价值”。
记者:《数典》开创性地以十一种语言对照形式呈现并得到联合国教科文组织的认可和推荐,在编纂翻译中突破哪些难点?
连玉明:的确,《数典》体系架构及选词的原创性、11种语言对照呈现的开创性等,为研究、编纂、翻译、审校和排版工作都带来巨大挑战。在《数典》从研究到出版的整个过程中,在编纂委员会的坚强领导下,研编团队、翻译团队、审校团队共同努力、协同创新,才确保此项浩大工程圆满完成,我把它概括为“八难八破”。
首先是以创新翻译机制为突破,破解翻译工作量大、难度大问题。为确保短时间内高效高质完成10个语种的翻译任务,《数典》编纂委员会统筹组织多语种高精尖译者团队开展高效合作,创新建立多家翻译团队背对背同时翻译优中选优的机制。二是以创新研究团队、多语种翻译团队集中研讨办公模式为突破,破解各语种翻译理解不一致问题。三是以创新体例规范机制为突破,破解多语种体例协调难度大问题。四是以创新集中研讨审校工作机制为突破,破解审校工作量大、难度大问题。五是以国际化视角和标准规范为指导,破解11种语言排序难问题。汉语排在第一位,10种外语译文按照各语种英语名称的首字母音序排列。同时,依据《语种名称代码 第1部分:2字母代码》(GB/T 4880.1—2005),在每个外文词目前冠以其语言代码,方便读者辨别语种。六是以体系定位为原则,以《数典》“955N”的框架逻辑作为编码指引,破解多语种词目编码问题。七是以确立化繁为简的原则为突破,破解多语种索引排序问题。《数典》语种多、词目类别多样化,仅中文词目就包含了9种不同类别的词目,其他语种在翻译后仍存在2-5种不同类型的词目,编纂委员会最终确定了化繁为简的原则,忽略词目中的标点符号,以充分尊重该语种使用者的语言习惯为原则,分别制定该语种的索引规范。八是以创新建设排版数据库的方式为突破,破解排版难问题。《数典》的排版工作先为11个语种建立数据库,运用基于XML的文档自动排版技术,集数据格式化、版式定义、批量生成为一体,高效率完成11个语种的合并排版工作,并保证后期校对过程的高效修改。
记者:众所周知,国之交在于民相亲,民相亲在于心相通。心相通的前提是语言通。《数典》的编纂出版无疑为中国的科技输出和对外开放提供了有利条件,特别是在促进“一带一路”建设和推动构建人类命运共同体方面有哪些促进作用和积极意义?
连玉明:诚如您刚才讲的,语言通是国之交、民相亲的前提和基础。《数典》以十一种语言对照的形式呈现,覆盖了全球4大语系、11大语种,语言的使用范围覆盖全球6大洲的200余个国家和地区,尤其是“一带一路”沿线国家。
当前,我们正进入万物皆可数化、一切皆可连接、计算无处不在的数字时代。在这样的背景下,推动企业之间、政府部门之间、地区之间、国家之间加强合作、深化交流,需要在各行业、各方面、各领域架起沟通的桥梁,形成公认共用的话语系统,这其中构建大数据领域的标准术语体系尤为重要。《数典》正是构建起了这样一个融通中外、凝聚共识的标准术语体系,搭建语言相通的桥梁,更好地促进政策沟通、设施联通、贸易畅通、资金融通、民心相通,促进“一带一路”建设和推动构建人类命运共同体。
同时,我们也希望能够通过《数典》中大数据前沿术语、前瞻性理念,更好分享近年来数字中国建设成果,更好助力数字丝绸之路快速发展,进一步与世界共享数字中国发展红利。贯彻习近平主席在第二届“一带一路”国际高峰论坛开幕式上发表主旨演讲中所指出的,“要顺应第四次工业革命发展趋势,共同把握数字化、网络化、智能化发展机遇,共同探索新技术、新业态、新模式,探寻新的增长动能和发展路径,建设数字丝绸之路、创新丝绸之路”。
记者:以《数典》为核心的数典工程,还有哪些新构想?
连玉明:我们计划在《数典》的基础上构建系统的创新成果体系,积极推进《数典》的海内外馆藏工作和版权输出工作,并研发有关平台。
接下来的五年,大数据战略重点实验室将以数典工程为主攻方向。研究、编纂、翻译、出版《大数据百科术语辞典》多语种对照系列丛书10卷、《联合国工作语言大数据标准术语手册》(汉阿英法俄西对照)、《海峡两岸简繁对照大数据百科术语辞典》、《粤港澳大湾区简繁对照大数据百科术语辞典》、多语种对照简明大数据辞典系列丛书12卷等。
同时,我们将积极对接中外图书馆,积极开展与国际机构的交流与合作,通过多种方式推进数典工程系列出版物馆藏工作。
我们还将积极推进《数典》版权输出。目前,《数典》已纳入中宣部重点出版物海外出版发行项目和国家新闻出版署丝路书香工程,并由Alpha Science International Limited和Narosa Publishing House Pvt. Ltd.向全球英文出版。
在此基础上,大数据战略重点实验室还将积极研究开发“数字丝绸之路大数据多语种翻译服务平台”和“数典云平台”,推动大数据术语内容纳入全国科技名词委术语在线平台,建设开源开放动态数据库和世界通用语言的全球开放平台,积极为“一带一路”建设和推动构建人类命运体贡献力量。
记者:大数据战略重点实验室成立以来,陆续研究出版“块数据、数权法、主权区块链”,被誉为“数字文明三部曲”,这次《数典》的研究出版,对助力于中国数谷贵阳崛起有哪些推动作用?
连玉明:大数据战略重点实验室研究出版的“块数据、数权法、主权区块链”是中国数谷贵阳在大数据领域理论创新的标志性成果,在国内外引起强烈反响,被誉为“数字文明三部曲”。互联网砸碎了一个旧世界,而以块数据、数权法、主权区块链为核心的“数字文明三部曲”则是解决如何构建一个新世界。它们将成为重构数字文明新秩序的三大支柱,对推动构建网络空间命运共同体和更美好的人类数字文明具有现实而深远的意义。《数典》是大数据战略重点实验室继“数字文明三部曲”之后的又一重大标志性成果。
可以说,《数典》让世界又一次看到中国数谷贵阳在大数据标准领域再一次抢占了制高点,助力中国再一次提升大数据领域的国际话语权和规则制定权。同时,《数典》的研究出版也将大力促进贵州贵阳的高水平对外开放。《数典》的十一种语言文字承载着全球共谋创新发展之希冀,就像两千多年前,穿越云贵高原的“茶马古道”“南方丝绸之路”将产自中国的丝绸、茶叶等源源不断地输往世界各地一样。我们也希望这一荧荧之光激荡起全球大数据发展创新烈火,共同燃亮世界数字文明的更美好未来。
大数据是一个前沿领域,大数据发展永无止境。大数据战略重点实验室会以更加务实、专业和科学的精神,助力中国数谷贵阳、国家大数据(贵州)综合试验区持续致力于大数据理论创新、规则创新、标准创新、实践创新,将更多前瞻性、创新性、科学性成果呈现在世界面前,为人类的数字文明作出更多中国数谷贡献!