目前可检测的特殊 Unicode 码点与类别如下 (包括但不限于):
- ZWSP: 零宽空格
- ZWNJ: 零宽非连字
- ZWJ: 零宽连字
- BOM: 字节序标记
- WJ: 单词连接符
- MVS: 蒙古元音分隔符
- SHY: 软连字符
除字符扫描外,还支持基于
cl100k_base (GPT-4) & o200k_base (GPT-4o) BPE Tokenization 进行分词,便于辅助判定快速体验: https://links.xmsl.dev/analyzer 欢迎反馈
示例文本 (内含隐写水印):
ZWSP: LoremIpsumDolor
ZWNJ: HelloWorld
ZWJ: FooBar
BOM: StartOfText
WJ: AlphaBeta
MVS: FirstSecond* 更新: LLM 文本水印实现原理和解释请参考 https://t.me/hatschannel/1127