通过cpdetector这个开源的jar包可以自动判断当前文件的内容编码,从而在读取的时候选择正确的编码读取,避免乱码问题。
原创不易,转载请注明出处:java自动根据文件内容的编码来读取避免乱码
测试结果,提供截图:
GBK文件内容
UTF8文件内容
运行结果:
package com.zuidaima.test; import info.monitorenter.cpdetector.io.ASCIIDetector; import info.monitorenter.cpdetector.io.CodepageDetectorProxy; import info.monitorenter.cpdetector.io.JChardetFacade; import info.monitorenter.cpdetector.io.ParsingDetector; import info.monitorenter.cpdetector.io.UnicodeDetector; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.InputStreamReader; public class Main { public static String getContent(String path) throws Exception { File file = new File(path); CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance(); detector.add(new ParsingDetector(false)); detector.add(JChardetFacade.getInstance()); detector.add(ASCIIDetector.getInstance()); detector.add(UnicodeDetector.getInstance()); java.nio.charset.Charset charset = null; try { charset = detector.detectCodepage(file.toURI().toURL()); } catch (Exception ex) { ex.printStackTrace(); } String charsetName = null; if (charset != null) { charsetName = charset.name(); } else { charsetName = "UTF-8"; } BufferedReader reader = new BufferedReader(new InputStreamReader( new FileInputStream(file), charsetName)); String line = null; String lines = ""; while ((line = reader.readLine()) != null) { lines += line + "\n"; } reader.close(); return lines; } public static void main(String[] args) throws Exception { System.out.println(getContent("bin/gbk.txt")); System.out.println(getContent("bin/utf8.txt")); } }
相关推荐
通过cpdetector这个开源的jar包可以自动判断当前文件的内容编码,从而在读取的时候选择正确的编码读取,避免乱码问题。 测试结果,提供截图: package com.zuidaima.test; import info.monitorenter....
EncodingDetect.java,java自动获取文件的编码,智能识别文件编码,支持本地file及指定url的编码识别,支持多达40余种编码的识别,包括最常见的UTF-8,GBK,GB2312,BIG5,UNICODE,ISO8859_1,ASCII等,FileUtil....
java 解析csv文件例子,csv文件 中文乱码问题
java 识别文件的编码格式 读取文件的编码 utf-8 gbk gb2312 java 编码 java 获取文件编码格式 java 乱码查找
解决JAVA读取properties中文乱码问题
java解析DXF文件信息,这里涉及到各种转换字符串编码的操作,解决了解析过程中遇到中文的乱码问题,包括circle,ellipse,line,lwpolyline等,还涉及到从DXF文件中读取一个字符串、判断CIRCLE实体、判断ellipse实体、...
“字符与编码”是一个被经常讨论的话题,而时常出现的乱码对于... 而对于JAVA来说,在JSP输出、文件读写、甚至数据库访问等环节上,都有可能出现乱码现象,而之所以会出现乱码,都与编码及转码有着莫大的关系。。。
通过用getJavaEncode获取文件的编码工具类,避免一些乱码错误
java读写excel包括utf8转码为可识别汉字gbk,jxl方式读取excel,生成一个新的excel
本代码实现使用Java程序读取word文档成网页,将word文档按原样在网页输出。项目编码为UTF-8,文件编码也是utf8,再不要说乱码这种骚话了,选择utf8加载项目就不会乱码
3.文件编码的自动设别方法与测试示例(自动列出编码、最可能的编码、有多种编码可能的情况下打印用各种编码解码出来的内容以便核对,下载文件中附带乱码的文件例子和正确的读取方法)。 声明: 除了“文件编码的...
java读取txt文本中如含有中文,可能会出现乱码,解决方案是: 1.要统一编码,java工程的编码,txt文本编码,java工程中的java文本编码都统一为utf-8; 2.利用 InputStreamReader(new FileInputStream(fileUrl), ...
常用java转码方法,以及绕过web服务器二次编码技术。
件上传和下载是web开发中常遇到的问题。今天小编给大家分享下Java Web实现文件下载和乱码处理方法的相关资料,需要的朋友可以参考下
经常在读取数据库或者JSP的时候出现乱码,可能很难猜测乱码是什么编码格式的。把乱码贴到这个程序中点解码,程序会用所有选中的字符集对乱码解码,再重新编码。最终得到一些内容,并显示解开乱码的方案。
完善说明,通过对网上的东西,东拼西凑的,终于解决了GDAL读取中文的乱码问题,或者是通过设置Gdal.SetConfigOption("SHAPE_ENCODING","CP936")后,能够读取中文,但是还是存在一个BUG,那比较中文是“张三”,读取...
包括: 1)建立,读取,删除文件等基础方法 2)获得读取文件的流,并可以设置读取文件的编码方式,从而有效解决读文件中出现的乱码问题。 3)获得写文件的流,并可以设置写文件的编码方式。 4)其他...
java串口通信通过静态的CommPortIdentifer.getPortIdentifiers()获得端口列表;再从这个端口列表中选择所需要的端口,并调用...解决中文乱码主要是用OutputStreamWriter包在OutputStream的底层流,设置GBK编码读取.
主要介绍了Java读写txt文件时防止中文乱码问题出现的方法,同时需要注意系统默认的文本保存编码的设置,需要的朋友可以参考下