Java:从URL下载.txt文件

时间:2016-06-22 14:52:10

标签: java file url download web

我想从网站上下载一个.txt文件,我的代码可以运行,所以我没有收到错误并加载文档,但文档中充满了hmtl代码,而不是我的内容。

public static void main(String[] args) {
    try {
        URL website = new URL("http://www.file-upload.net/download-11700212/document.txt.html");
        String filepath = "C://Users//" + System.getProperty("user.name") + "//Desktop//document.txt";

        ReadableByteChannel channel = Channels.newChannel(website.openStream());
        FileOutputStream stream = new FileOutputStream(filepath);

        stream.getChannel().transferFrom(channel, 0, Long.MAX_VALUE);

        System.out.println("Download successfull.");
    } catch (Exception e) {
        System.out.println("Download was not successfull.");
    }
}

下载本身有效,我在桌面上获得了txt文件,但内容错误且充满了HTML代码。

请帮忙。

感谢。

2 个答案:

答案 0 :(得分:1)

您尝试下载的网址是HTML网页,而不是文档本身。您应该尝试下载的页面上的链接是......

  

http://www.file-upload.net/download5.php?valid=451.69031370715&id=11700212&name=document.txt

但是,如果您希望保证下载文本文件,则应选择直接下载的文本文件,例如

  

http://humanstxt.org/humans.txt

答案 1 :(得分:-2)

我有一个名为Python Webscraper的Python项目,它可以读取URL并将其文本内容复制到没有HTML的文本文件中。

您需要安装名为Beautiful Soup的软件包,然后运行GitHub存储库中的代码。