7万汉字在网上不能用不好用,梅兵代表:完善中文字符集,推动传统文化数字化传播
2023-03-05 18:22:21 作者:储舒婷

微信图片_20230305181058.jpg

目前,在通用电脑字符集中已编码汉字总数已达9万以上,但有7万多字在数据库中并不能使用。针对目前中文字符集中古文字缺位、有字不能用、有字不好用等问题,今年的全国两会上,全国人大代表、华东师大党委书记梅兵建议,完善中文字符集,推动传统文化数字化传播。

今年2月中共中央、国务院印发《数字中国建设整体布局规划》提出,打造自信繁荣的数字文化,深入实施国家文化数字化战略。然而,数字媒体时代,文字信息的传播高度依赖于字符集这一基础支撑平台,由于当前中文字符集建设的不足,作为传统文化基本载体的历史文献在数字化传播中存在话语障碍,直接影响了弘扬中华优秀传统文化和国家文化数字化战略。

梅兵代表指出,主要问题包括:

字符集中古文字缺位,造成最具历史厚度的中华文化资源的网络盲区。具体来说,作为中国传统文化主要载体的历史文献分两类:一类是传世文献(十三经之类),另一类是出土古文献(主要是古文字文献)。而作为中国文化传承系统两翼之一的古文字,却并未被目前国际标准电脑字符集所覆盖。

其次,有字不能用,大批已在国际标准中编码的汉字网络和数据库使用受限。以最重要的字书《说文解字》为例,第一卷收字703个,其中属于网络和数据库受限使用的126个。编码字遭到网络排斥,检索查找的对象常被张冠李戴,乱点鸳鸯,传统文献的网络阅读就如被蒙上一头雾水。值得注意的是,已经正式在国际标准字符集中获得合法地位的汉字,竟有70%以上还遭受如此不公正待遇,这对传统文化数字化传播造成的负面影响是难以估量的。

再次,有字不好用,作为中文字符集核心的GBK部分大面积存在“一字多码”状况。当前在网络和数据库中使用不受限的汉字只有GBK字符集这个范围,但是GBK字符集却存在“一字多码”的问题。在文字输入过程中,一字多码的输入源,就可能导致同字却使用不同内码字的结果,由此造成文献搜索查找的尴尬:该找到的找不到,该搜齐的搜不齐,传统文化宝藏的数字化传播就这样在不知不觉中被打了折扣。不难推想,在这样一个字符集支持下去进行传统文献的数字阅读,会发生很大问题。

对此,她建议高度重视中文字符集建设,加强整体规划和协调管理。例如,解决“一字多码”的问题并不困难,可开发针对性的输入法,用提示多码字的方式来帮助输入者规避不当文字输入。在网络检索的环节,则可以通过开发有效的同字多码认同程序来保证检索数据的准确性。另一方面,要实现中国标准的统一编码,增强中文字符集的国际影响力。




  作者:储舒婷

  编辑:储舒婷

责任编辑:樊丽萍


*文汇独家稿件,转载请注明出处。

热门评论
打开文汇APP,查看更多精彩评论
Logo

文汇报

源于事实 来自眼界
DownLoad