跳转至

Unicode 链接化草案

Y.D.X.

2024年11月27日 10:29:42

前不久Unicode针对“链接化”问题发布了58号草案,正在征求反馈。

Proposed Draft UTS #58: Unicode Linkification

你在聊天框里发出纯文本,软件会自动识别出其中的URL,把它做成单击就能访问的链接,即链接化(linkification)。

然而对于汉字等非ASCII字符,这么实用的功能却常常失效。

URL夹在括号内,但右括号被误当成URL的一部分,于是好好的网页变成了404

URL除了错误延长,还会提前终止。

URL本来有文字锚点,但第一个字就被裁去了,锚点完全丢失

传统上用编码解决非ASCII字符问题,但那样会变成一大段天书,效果很差。

编码会制造天书

新的58号草案有望促进解决这类问题。它计划规定一种从纯文本检测URL的标准方法,为每一字符记录相关属性,并提供算法流程。

比如针对上文提到的括号问题,当前草案规定:与URL内匹配的应视作URL的一部分,而不匹配的应终止解析。字符的这一性质会记录到Link_TerminationLink_Paired_Opener等字段。

The Unicode Blog: Feedback Requested on Proposed Draft UTS #58 Unicode Linkification

xkcd: Unicode