我想获取一个很大的html页面,但是当我尝试使用jsoup解析该页面时,由于页面太大,它报告了很多错误。
我也将此页面另存为文本文件(结果为225mb),但是文件太大,超过了String和StringBuilder的2147483647个字符的限制。
如何处理这么大的字符串?
答案 0 :(得分:2)
下载文件并将其保存在本地。然后使用缓冲文件读取器逐行读取文件并进行处理。考虑到文件的大小,将整个文件读取为一个字符串似乎是个坏主意,而且您仍然无法有效地分析数据。
答案 1 :(得分:1)
响应为text/plain
,而不是HTML,因此请不要使用jsoup。
执行一个简单的HTTP GET,并一次下载一行时解析数据,以最大程度地减少内存使用。无需先存储到磁盘。