将很大的内容放在字符串或stringbuilder中

时间:2018-10-11 19:11:53

标签: java

我想获取一个很大的html页面,但是当我尝试使用jsoup解析该页面时,由于页面太大,它报告了很多错误。

我也将此页面另存为文本文件(结果为225mb),但是文件太大,超过了String和StringBuilder的2147483647个字符的限制。

如何处理这么大的字符串?

2 个答案:

答案 0 :(得分:2)

下载文件并将其保存在本地。然后使用缓冲文件读取器逐行读取文件并进行处理。考虑到文件的大小,将整个文件读取为一个字符串似乎是个坏主意,而且您仍然无法有效地分析数据。

答案 1 :(得分:1)

响应为text/plain,而不是HTML,因此请不要使用jsoup。

执行一个简单的HTTP GET,并一次下载一行时解析数据,以最大程度地减少内存使用。无需先存储到磁盘。