Java——Character

news2026/5/12 15:39:49
Character1、Unicode基础2、检查code point和char3、code point与char的转换4、按code point处理char数组或序列5、字符属性6、字符转换1、Unicode基础Unicode给世界上每个字符分配了一个编号编号范围为0x0000000x10FFFF。编号范围在0x00000xFFFF的字符为常用字符集称BMPBasic MultilingualPlane字符。编号范围在0x100000x10FFFF的字符叫做增补字符supplementary character​。Unicode主要规定了编号但没有规定如何把编号映射为二进制。UTF-16是一种编码方式或者叫映射方式它将编号映射为两个或4个字节对BMP字符它直接用两个字节表示对于增补字符使用4个字节表示前两个字节叫高代理项high surrogate​范围为0xD800 0xDBFF后两个字节叫低代理项low surrogate​范围为0xDC000xDFFF。UTF-16定义了一个公式可以将编号与4字节表示进行相互转换。Java内部采用UTF-16编码char表示一个字符但只能表示BMP中的字符对于增补字符需要使用两个char表示一个表示高代理项一个表示低代理项。使用int可以表示任意一个Unicode字符低21位表示Unicode编号高11位设为0。整数编号在Unicode中一般称为代码点code point​表示一个Unicode字符与之相对还有一个词代码单元code unit表示一个char。2、检查code point和char//判断一个int是不是一个有效的代码点小于等于0x10FFFF的为有效大于的为无效publicstaticbooleanisValidCodePoint(intcodePoint)//判断一个int是不是BMP字符小于等于0xFFFF的为BMP字符大于的不是publicstaticbooleanisBmpCodePoint(intcodePoint)//判断一个int是不是增补字符0x0100000X10FFFF为增补字符publicstaticbooleanisSupplementaryCodePoint(intcodePoint)//判断char是否是高代理项0xD8000xDBFF为高代理项publicstaticbooleanisHighSurrogate(charch)//判断char是否为低代理项0xDC000xDFFF为低代理项publicstaticbooleanisLowSurrogate(charch)//判断char是否为代理项 char为低代理项或高代理项则返回truepublicstaticbooleanisSurrogate(charch)//判断两个字符high和low是否分别为高代理项和低代理项publicstaticbooleanisSurrogatePair(charhigh,charlow)//判断一个代码点由几个char组成增补字符返回2, BMP字符返回1publicstaticintcharCount(intcodePoint)3、code point与char的转换除了简单的检查外Character类中还有很多方法进行code point与char的相互转换。//根据高代理项high和低代理项low生成代码点这个转换有个公式这个方法封装了这个公式publicstaticinttoCodePoint(charhigh,charlow)//根据代码点生成char数组即UTF-16表示如果code point为BMP字符则返回的char//数组长度为1如果为增补字符长度为2, char[0]为高代理项char[1]为低代理项publicstaticchar[]toChars(intcodePoint)//将代码点转换为char数组与上面方法类似只是结果存入指定数组dst的指定位置indexpublicstaticinttoChars(intcodePoint,char[]dst,intdstIndex)//对增补字符code point生成低代理项publicstaticcharlowSurrogate(intcodePoint)//对增补字符code point生成高代理项publicstaticcharhighSurrogate(intcodePoint)4、按code point处理char数组或序列Character包含若干方法以方便按照code point处理char数组或序列。返回char数组a中从offset开始count个char包含的code point个数publicstaticintcodePointCount(char[]a,intoffset,intcount)比如如下代码输出为2, char个数为3但code point为2。char[]chsnewchar[3];chs[0]马;Character.toChars(0x1FFFF,chs,1);System.out.println(Character.codePointCount(chs,0,3));除了接受char数组还有一个重载的方法接受字符序列CharSequencepublicstaticintcodePointCount(CharSequenceseq,intbeginIndex,intendIndex)CharSequence是一个接口它的定义如下所示publicinterfaceCharSequence{intlength();charcharAt(intindex);CharSequencesubSequence(intstart,intend);publicStringtoString();}它与一个char数组是类似的有length方法有charAt方法根据索引获取字符String类就实现了该接口。返回char数组或序列中指定索引位置的code pointpublicstaticintcodePointAt(char[]a,intindex)publicstaticintcodePointAt(char[]a,intindex,intlimit)publicstaticintcodePointAt(CharSequenceseq,intindex)如果指定索引位置为高代理项下一个位置为低代理项则返回两项组成的code point检查下一个位置时下一个位置要小于limit没传limit时默认为a.length。返回char数组或序列中指定索引位置之前的code pointpublicstaticintcodePointBefore(char[]a,intindex)publicstaticintcodePointBefore(char[]a,intindex,intstart)publicstaticintcodePointBefore(CharSequenceseq,intindex)codePointAt是往后找codePointBefore是往前找如果指定位置为低代理项且前一个位置为高代理项则返回两项组成的code point检查前一个位置时前一个位置要大于等于start没传start时默认为0。根据code point偏移数计算char索引publicstaticintoffsetByCodePoints(char[]a,intstart,intcount,intindex,intcodePointOffset)publicstaticintoffsetByCodePoints(CharSequenceseq,intindex,intcodePointOffset)如果字符数组或序列中没有增补字符返回值为indexcodePointOffset如果有增补字符则会将codePointOffset看作code point偏移转换为字符偏移start和count取字符数组的子数组。比如如下代码char[]chsnewchar[3];Character.toChars(0x1FFFF,chs,1);System.out.println(Character.offsetByCodePoints(chs,0,3,1,1));输出结果为3,index和codePointOffset都为1但第二个字符为增补字符一个code point偏移是两个char偏移所以结果为3。5、字符属性Unicode在给每个字符分配一个编号之外还分配了一些属性Character类封装了对Unicode字符属性的检查和操作下面介绍一些主要的属性。获取字符类型general category​publicstaticintgetType(intcodePoint)publicstaticintgetType(charch)Unicode给每个字符分配了一个类型这个类型是非常重要的很多其他检查和操作都是基于这个类型的。getType方法的参数可以是int类型的code point也可以是char类型。char类型只能处理BMP字符而int类型可以处理所有字符。Character类中很多方法都是既可以接受int类型也可以接受char类型后续只列出int类型的方法。返回值是int表示类型Character类中定义了很多静态常量表示这些类型下表列出了一些字符、type值以及Character类中常量的名称。字符type值常量名称A1UPPERCASE_LEFTERa2LOWERCASE_LEFTER马5OTHER_LETTER19DECIMAL_DIGIT_NUMBER15SPACE_SEPARATOR\n15CONTROL-20DASH_PUNCTUATION{21START_PUCNTUATION_23CONNECTOR_PUNCTUATION24OTHER_PUNCTUATION25MATH_SYMBOL26CURRENCY_SYMBOL检查字符是否在Unicode中被定义publicstaticbooleanisDefined(intcodePoint)每个被定义的字符其getType()返回值都不为0如果返回值为0表示无定义。注意与isValidCodePoint的区别后者只要数字不大于0x10FFFF都返回true。检查字符是否为数字publicstaticbooleanisDigit(intcodePoint)getType()返回值为DECIMAL_DIGIT_NUMBER的字符为数字。需要注意的是不光字符’0’、‘1’、……、9’是数字中文全角字符的09也是数字。比如charch9;//中文全角数字System.out.println((int)ch, Character.isDigit(ch));输出为65305,true全角字符的9, Unicode编号为65305它也是数字。检查是否为字母Letter​publicstaticbooleanisLetter(intcodePoint)如果getType()的返回值为下列之一则为LetterUPPERCASE_LETTER LOWERCASE_LETTER TITLECASE_LETTER MODIFIER_LETTER OTHER_LETTER除了TITLECASE_LETTER和MODIFIER_LETTER其他在表中有示例而这两个平时碰到的也比较少就不介绍了。只要其中之一返回true就返回true。检查是否为字母Alphabetic​publicstaticbooleanisAlphabetic(intcodePoint)这也是检查是否为字母与isLetter的区别是isLetter返回true时isAlphabetic也必然返回true此外getType()值为LETTER_NUMBER时isAlphabetic也返回true而isLetter返回false。LETTER_NUMBER中常见的字符有罗马数字字符如’I’、‘Ⅱ’、‘Ⅲ’、‘Ⅳ’。检查是否为空格字符publicstaticbooleanisWhitespace(intcodePoint)‘\t’、‘\n’、全角空格’ ‘和半角空格’ 的返回值都为true。检查是否为小写字符publicstaticbooleanisLowerCase(intcodePoint)常见的小写字符主要是小写英文字母az。检查是否为大写字符publicstaticbooleanisUpperCase(intcodePoint)常见的大写字符主要是大写英文字母AZ。检查是否为表意象形文字publicstaticbooleanisIdeographic(intcodePoint)大部分中文都返回为true。检查是否为ISO 8859-1编码中的控制字符publicstaticbooleanisISOControl(intcodePoint)我们在第2章介绍过031、127159表示控制字符。检查是否可作为Java标识符的第一个字符publicstaticbooleanisJavaIdentifierStart(intcodePoint)Java标识符是Java中的变量名、函数名、类名等字母Alphabetic​、美元符号$​、下画线_可作为Java标识符的第一个字符但数字字符不可以。检查是否可作为Java标识符的中间字符publicstaticbooleanisJavaIdentifierPart(intcodePoint)相比isJavaIdentifierStart主要多了数字字符Java标识符的中间字符可以包含数字。检查是否为镜像mirrowed字符publicstaticbooleanisMirrored(intcodePoint)常见镜像字符有( )、{ }、 、​[ ]​都有对应的镜像。6、字符转换Unicode除了规定字符属性外对有大小写对应的字符还规定了其对应的大小写对有数值含义的字符也规定了其数值。我们先来看大小写Character有两个静态方法对字符进行大小写转换publicstaticinttoLowerCase(intcodePoint)publicstaticinttoUpperCase(intcodePoint)这两个方法主要针对英文字符az和AZ例如toLowerCase(‘A’)返回’a’, toUpper-Case(‘z’)返回’Z’。返回一个字符表示的数值publicstaticintgetNumericValue(intcodePoint)字符’0’’9’返回数值09对于字符az无论是小写字符还是大写字符无论是普通英文还是中文全角数值结果都是1035。例如如下代码的输出结果是一样的都是10。System.out.println(Character.getNumericValue(A));//全角大写ASystem.out.println(Character.getNumericValue(A));System.out.println(Character.getNumericValue(a));//全角小写aSystem.out.println(Character.getNumericValue(a));返回按给定进制表示的数值publicstaticintdigit(intcodePoint,intradix)radix表示进制常见的有二进制、八进制、十进制、十六进制计算方式与get-NumericValue类似只是会检查有效性数值需要小于radix如果无效返回-1。例如digit(‘F’,16)返回15是有效的但digit(‘G’,16)就无效返回-1。返回给定数值的字符形式publicstaticcharforDigit(intdigit,intradix)与digit(int codePoint, int radix)相比进行相反转换如果数字无效返回’\0’。例如 Character.forDigit(15,16)返回’F’。与Integer类似Character也有按字节翻转publicstaticcharreverseBytes(charch)例如翻转字符0x1234System.out.println(Integer.toHexString(Character.reverseBytes((char)0x1234)));输出为3412。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2606484.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…