阅读(4413) (6)

鸿蒙OS IDN

2022-06-06 16:29:30 更新

IDN

java.lang.Object

|---java.net.IDN

public final class IDN
extends Object

提供在普通 Unicode 表示和 ASCII 兼容编码 (ACE) 表示之间转换国际化域名 (IDN) 的方法。 国际化域名可以使用整个 Unicode 范围内的字符,而传统域名仅限于 ASCII 字符。 ACE 是一种仅使用 ASCII 字符的 Unicode 字符串编码,可以与只理解传统域名的软件(例如域名系统)一起使用。

国际化域名在 RFC 3490 中定义。RFC 3490 定义了两种操作:ToASCII 和 ToUnicode。 这两个操作使用 Nameprep 算法,它是 Stringprep 的一个配置文件,以及 Punycode 算法来来回转换域名字符串。

上述转换过程的行为可以通过各种标志进行调整:

  • 如果使用 ALLOW_UNASSIGNED 标志,则要转换的域名字符串可以包含在 Unicode 3.2 中未分配的代码点,这是 IDN 转换所基于的 Unicode 版本。 如果未使用该标志,则将此类未分配代码点的存在视为错误。
  • 如果使用 USE_STD3_ASCII_RULES 标志,则对照 RFC 1122 和 RFC 1123 检查 ASCII 字符串。如果它们不符合要求,则会出错。

这些标志可以逻辑或在一起。

安全考虑对于国际化域名支持很重要。 例如,英文域名可能是同形异义词——通过替换非拉丁字母而恶意拼写错误。 Unicode 技术报告 #36 讨论了 IDN 支持的安全问题以及可能的解决方案。 应用程序有责任在使用国际域名时采取足够的安全措施。

字段摘要

修饰符和类型 字段 描述
static int ALLOW_UNASSIGNED 允许处理未分配代码点的标志
static int USE_STD3_ASCII_RULES 标记以打开对 STD-3 ASCII 规则的检查

方法总结

修饰符和类型 方法 描述
static String toASCII(String input) 将字符串从 Unicode 转换为 ASCII 兼容编码 (ACE),由 RFC 3490 的 ToASCII 操作定义。
static String toASCII(String input, int flag) 将字符串从 Unicode 转换为 ASCII 兼容编码 (ACE),由 RFC 3490 的 ToASCII 操作定义。
static String toUnicode(String input) 将字符串从 ASCII 兼容编码 (ACE) 转换为 Unicode,由 RFC 3490 的 ToUnicode 操作定义。
static String toUnicode(String input, int flag) 将字符串从 ASCII 兼容编码 (ACE) 转换为 Unicode,由 RFC 3490 的 ToUnicode 操作定义。
从类 java.lang.Object 继承的方法
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait

字段详细信息

ALLOW_UNASSIGNED

public static final int ALLOW_UNASSIGNED

允许处理未分配代码点的标志

USE_STD3_ASCII_RULES

public static final int USE_STD3_ASCII_RULES

标记以打开对 STD-3 ASCII 规则的检查

方法详情

toASCII

public static String toASCII(String input, int flag)

将字符串从 Unicode 转换为 ASCII 兼容编码 (ACE),由 RFC 3490 的 ToASCII 操作定义。

ToASCII 操作可能会失败。 如果任何步骤失败,ToASCII 就会失败。 如果 ToASCII 操作失败,将抛出 IllegalArgumentException。 在这种情况下,不应在国际化域名中使用输入字符串。

标签是域名的独立部分。 RFC 3490 中定义的原始 ToASCII 操作仅对单个标签进行操作。 该方法可以处理标签和整个域名,假设域名中的标签总是用点分隔。 以下字符被识别为点:\u002E(句号)、\u3002(表意句号)、\uFF0E(全角句号)和\uFF61(半角表意句号)。 如果将点用作标签分隔符,则此方法还将在输出翻译字符串中将它们全部更改为 \u002E(句号)。

参数:

参数名称 参数描述
input 要处理的字符串
flag 进程标志; 可以是 0 或可能标志的任何逻辑或

返回:

翻译后的字符串

Throws:

Throw名称 Throw描述
IllegalArgumentException 如果输入字符串不符合 RFC 3490 规范

toASCII

public static String toASCII(String input)

将字符串从 Unicode 转换为 ASCII 兼容编码 (ACE),由 RFC 3490 的 ToASCII 操作定义。

这种方便的方法就像通过调用两个参数对应物一样工作,如下所示:

toASCII(input, 0);

参数:

参数名称 参数描述
input 要处理的字符串

返回:

翻译后的字符串

Throws:

Throw名称 Throw描述
IllegalArgumentException 如果输入字符串不符合 RFC 3490 规范

toUnicode

public static String toUnicode(String input, int flag)

将字符串从 ASCII 兼容编码 (ACE) 转换为 Unicode,由 RFC 3490 的 ToUnicode 操作定义。

ToUnicode 永远不会失败。 如果出现任何错误,输入字符串将不加修改地返回。

标签是域名的独立部分。 RFC 3490 中定义的原始 ToUnicode 操作仅对单个标签进行操作。 该方法可以处理标签和整个域名,假设域名中的标签总是用点分隔。 以下字符被识别为点:\u002E(句号)、\u3002(表意句号)、\uFF0E(全角句号)和\uFF61(半角表意句号)。

参数:

参数名称 参数描述
input 要处理的字符串
flag 进程标志; 可以是 0 或可能标志的任何逻辑或

返回:

翻译后的字符串

toUnicode

public static String toUnicode(String input)

将字符串从 ASCII 兼容编码 (ACE) 转换为 Unicode,由 RFC 3490 的 ToUnicode 操作定义。

这种方便的方法就像通过调用两个参数对应物一样工作,如下所示:

toUnicode(input, 0);

参数:

参数名称 参数描述
input 要处理的字符串

返回:

翻译后的字符串