缘起
“暮从碧山下,山月随人归。却顾所来径,苍苍横翠微。”人有时候回顾多年前偶然一点点的灵光一动,由于“不放弃”的坚持而居然可以不丢失,随后会形成一条希望的光河,流淌至今而蔚然有型,这实在是一件令人欣喜的快事。
远溯到上世纪八十年代末到九十年代的大部分时间,中国的语言学界曾经涌动着一股被称为“语文现代化”的学术热潮。那时中国制订拼音方案领军人物的周有光先生还健在,较为年轻的还有尹斌庸先生等,他们热心于研究汉语中词汇的结构和规律,希望汉语的书写或保存中对于词汇的表达更真实和科学些,能够使汉语的使用者能够有效地解决“词盲”的问题。语言学家们经过这十多年的努力,最后得到了一个正式的结果,那就是1996年公布、进而于2012年修订公布的《中华人民共和国国家标准GB/T 16159-2012—汉语拼音正词法基本规则》,明确规定了用汉语拼音拼写现代汉语时词汇的形成和使用规则。
有谁能想到,这场语言学范围的探索热流,竟然冲击了一个万里之外的“局外人”。那时我远在北欧留学,所学的是技术学科,于语言学从未涉猎,但仗着当时尚算年轻,好奇心强,竟隔着网络世界关注了这些语言学家的讨论,津津有味。不过毕竟是外行,没有语言学方面的起码训练,也只好做个“观棋不语真君子”的旁观者了。
不过,以局外人的眼光,还是有一些心得的:一,中国的文字改革自19世纪开始,历经各代学者的努力,以制订注音、罗马化拼音特别是汉语拼音,制订标点符号,文字简化,推广普通话等等,使得汉语一直在经历现代化的洗礼。我们现在日常使用的现代汉语早已和历史上书面语言与日常语言脱节的方式有了脱胎换骨的变化,这是历代语言学家辛勤耕耘的成果;二,以周有光先生为代表的,工作上多少与上世纪的领导机构“中国文字改革委员会”(文改会)有交集的学术群体,有时自称为“文改老兵”的,有更大的梦想,就是实现汉语写作的拼音化,创造并实施拼音化的汉语文字。这个追求,现在看来,早在上实际九十年代时与中国社会的实际就有些脱节了。汉字拼音化,其实在技术上实现并非难得不得了。看看我们的邻国越南,五十年代就断然废止了使用两千多年的汉字,强制实行“罗马化越南语”,即使用拉丁字母附加若干标识符来拼写越南语,这样一个巨大的变化发生至今七十年了,对于以文字为载体的整个越南国家社会的存在和运行并没有形成大的负面影响,就是一个有力的范例。但是,对于中国这样一个有悠久历史和灿烂文化的大国来说,汉字的使用已经是民族灵魂的一部分,是中国人心理上不可缺少的精神支撑,要创建和使用拼音化的汉语书写系统就远远不是一个技术上可行的问题了,因此基本上不具备现实可行性。
可是,“语文现代化”学派的探索,毕竟有着许多的真知灼见啊,怎样才能使得他们得以成为技术世界的一部分呢?那年,1993年的7月,就在穿越挪威特隆赫姆市郊区的莫浩特学生城的一片草地的小路上,我的大脑中忽然闪现了一个念头:为什么不可以在计算机内部创造分词连写的拼音化汉语表达形式,而对外则汉字照常使用呢?
人一生会有许多的想法,大多数都是想想以后也就丢弃了。唯有这样一个一闪念的东西,却由此驻留于我的脑海中,挥之不去了。在以后的许多年里,我当然同大多数人一样,要去工作、要养家,从事的是与语言学没有关系的技术工作,但还是始终在关注、在思考、在搜集资料,成了生活中的一个改不掉的习惯。甚至在“语文现代化”的热潮渐渐沉寂,周有光、尹斌庸先生等也都陆续作古后,这个积习也没有改变,成了我的一个执念。
没有放弃的努力,却是在年老退休以后有了新的开端。2021年秋天,我因为一场重病的后遗,身体不支,辞去了工作,回归家园。几个月后,感到体力有所恢复,也由此感到闲暇多了许多,可以干点什么了。那作什么呢?再自然不过,当然是把自己多年酝酿的汉语计算机内部表达的新想法付诸于技术实现了。
于是2021年的岁末开始在家里的计算机上开始伏案。似乎冥冥之中早有安排,这项工作开展得一切都井然有序。先是汉语拼音音节的编制,继之于汉语中单音节(即汉字的单字)语言单位的表达,囊括了当代中国社会使用的绝大多数常用单字,然后开发相应的应用程序,以为演示之用。接着开始编制多音节词汇(即通常所说的词组),加入我们生活中常用的词语,再加入中国及世界的主要地名、行政区名,再加入近年来新出现的各种新名词特别是网络流行名词……与此同时,还考虑了汉字简体繁体两种字体在现存汉字编码中存在的转换出错问题,还加入了目前汉字系统尚不能准确表达的轻声、儿化音等特色,加入了汉语拼音变声音节的处理,也增加了由本系统输出汉语拼音的显示时对《汉语拼音正词法基本规则》的支持。不知不觉地,几年岁月以降,我们的系统——经一位朋友建议命名为可读汉语表达式(RHE)——已经包含了大约11万个语言单位,可以用来表达绝大多数的现代汉语文档,也可用来表达相当多的古汉语文献,如诗词歌赋等。
千里之行,始于足下。2025年以来,在RHE的系统开发初具规模的基础上,应用开发也逐渐开始。我们已经在电脑上基本完成了以RHE为存储格式的编辑程序,标志着RHE已经具备了一个信息系统输入、存储和输出三大要素。本文就是用这个程序写作的。它不再将文章存放为繁简分明的汉字内码,而代之以RHE的内部表达,从而使用这可以在简体、繁体、拼音、混合等等显示形式间任意选择和切换。可以这么说,只要使用RHE作为载体,再讨论汉字简体和繁体孰优孰劣将变得毫无意义。网页版正在积极开发中,当您看到本文时我们的网站建设也一定已经初出茅庐。此外,手机上的APP开发也正在积极筹备中,将会把这个新的汉语技术送到每个人的手头。更重要的是,我们已经开始有了一个若干朋友特别是年轻朋友组成的兴趣小组,成为未来团队的雏形。总之,在继续探索、创建汉语处理技术新平台的道路上,我们已经出发!
洞中方数日,世上已千年。就在我们往往情不自禁地感叹对于一个人短短的几十年何其流逝太快时,世界总是在巨变之中。回顾八十年代末周有光学派发起“语文现代化”讨论时,汉语的信息处理技术尚处于生涩初创的年代,而今的汉语信息世界,早已是林木葱郁、花团锦簇、万紫千红!再环顾当今世界,人工智能的技术潮流正在以席卷之势呼啸而来,惊涛拍岸,卷起千堆雪!身处在这时代的洪流中,我们在技术创新上的这点小小所得,似乎只能算得上是一只丑小鸭,还在摇摇摆摆,难于与众鸟比翼;又只是一叶扁舟,尚在激流中徘徊。我们的信心来自何处?那是一种别出心裁的“尺有所短,寸有所长”的见解,是一种“涓滴汇集,方成汪洋”的透视。我们的坚持,来自“世界因我而改变”的决心和自信,因为可读汉语表达式这门技术既然已诞生,它就必然要在这个世界上找到适合它生长的空间。丑小鸭会长大,会展翅飞向更广阔的世界。
“两岸青山相对出,孤帆一片日边来。”朋友,欢迎您登上这艘小船,与我们同行!也许您将见证脚下这艘小艇蜕变为巨轮。
杨明伟
【人物简介】杨明伟,1955年出生于中国陕西安康,1970年代曾做过下乡知青数年。1978考入北京大学计算机科学系,1982年获科学学士。1985年在中国人民大学信息系获工科硕士。1993年在挪威工业学院(NTH,现为挪威科技大学NTNU)获工科博士。多年在北美从事计算机应用工作,2021年退休,现居加利福尼亚南部。居家后从事汉语现代化研究,发明了可读汉语表达式并给予技术实现。这项研究还在继续进行中。
Yang Mingwei, born in 1955 in Ankang, Shaanxi, China, worked for several years as a “sent-down youth”in the countryside during the 1970s. In 1978, he was admitted to the Department of Computer Science at Peking University and received a Bachelor of Science degree in 1982. In 1985, he earned a Master of Engineering degree from Renmin University of China in the Department of Information Management. In 1993, he obtained a Doctor degree in Engineering from the Norwegian Institute of Technology (NTH, now the Norwegian University of Science and Technology, NTNU). He worked for many years in computer applications in North America and retired in 2021. Now he is living in South California. After retirement, he has been doing research on the modernization of the Chinese language, inventing "Readable Hanyu Expressions" and implementing it technically. This study is still ongoing.