java - 将很大的内容放在字符串或stringbuilder中 - Thinbug

将很大的内容放在字符串或stringbuilder中

时间：2018-10-11 19:11:53

标签： java

我想获取一个很大的html页面，但是当我尝试使用jsoup解析该页面时，由于页面太大，它报告了很多错误。

我也将此页面另存为文本文件（结果为225mb），但是文件太大，超过了String和StringBuilder的2147483647个字符的限制。

如何处理这么大的字符串？

2 个答案:

答案 0 :(得分：2)

下载文件并将其保存在本地。然后使用缓冲文件读取器逐行读取文件并进行处理。考虑到文件的大小，将整个文件读取为一个字符串似乎是个坏主意，而且您仍然无法有效地分析数据。

答案 1 :(得分：1)

响应为text/plain，而不是HTML，因此请不要使用jsoup。

执行一个简单的HTTP GET，并一次下载一行时解析数据，以最大程度地减少内存使用。无需先存储到磁盘。