Question

Hadoop noob在这里。

我已经搜索了一些有关hadoop和python入门的教程，但没有取得多大成功。我还不需要对映射器和缩减器进行任何操作，但它更多的是访问问题。

作为Hadoop集群的一部分， HDFS上有一堆.dat文件。

为了使用Python访问我的客户端（本地计算机）上的那些文件，

我需要在计算机上安装什么？

如何在HDFS上查询文件名？

任何链接也会有所帮助。

Answer 1

我需要在计算机上安装什么？

你需要安装和运行Hadoop，以及Python。

如何在HDFS上查询文件名？

你可以在这里尝试这样的事情。我还没有对代码进行测试，所以不要只依赖它。

request.form['fred']

您还可以查看Pydoop这是Hadoop的Python API。

虽然我的示例包含from subprocess import Popen, PIPE process = Popen('hdfs dfs -cat filename.dat',shell=True,stdout=PIPE, stderr=PIPE) std_out, std_err = process.communicate() check for returncode, std_err if: everything is OK, do whatever with stdout else: do something in else condition，但您可以尝试在没有它的情况下运行，因为它存在安全风险。 Why you shouldn't use shell=True?

Answer 2

据我所知，没有开箱即用的解决方案，而且我发现的大多数答案都使用了对hdfs命令的调用。我在Linux上运行，并遇到同样的挑战。我发现sh包非常有用。这会处理为您运行o / s命令并管理stdin / out / err。

有关详细信息，请参阅此处：https://amoffat.github.io/sh/

不是最好的解决方案，但它是一行（ish）并使用标准包。

这是我删除HDFS目录列表的简化代码。它会列出文件和文件夹，因此如果您需要区分它们，可能需要修改它们。

import sh
hdfsdir = '/somedirectory'
filelist = [ line.rsplit(None,1)[-1] for line in sh.hdfs('dfs','-ls',hdfsdir).split('\n') if len(line.rsplit(None,1))][1:]

我的输出 - 在这种情况下，这些都是目录：

[u'/somedirectory/transaction_basket_fct/date_id=2015-01-01',
 u'/somedirectory/transaction_basket_fct/date_id=2015-01-02',
 u'/somedirectory/transaction_basket_fct/date_id=2015-01-03',
 u'/somedirectory/transaction_basket_fct/date_id=2015-01-04',
 u'/somedirectory/transaction_basket_fct/date_id=2015-01-05',
 u'/somedirectory/transaction_basket_fct/date_id=2015-01-06',
 u'/somedirectory/transaction_basket_fct/date_id=2015-01-07',
 u'/somedirectory/transaction_basket_fct/date_id=2015-01-08']

让我们分解一下：

要运行hdfs dfs -ls /somedirectory命令，我们可以像这样使用sh包：

import sh
sh.hdfs('dfs','-ls',hdfsdir)

sh允许您无缝地调用o / s命令，就好像它们是模块上的函数一样。您将命令参数作为函数参数传递。真的很整洁。

对我来说，这会返回类似的内容：

Found 366 items
drwxrwx---+  - impala hive          0 2016-05-10 13:52 /somedirectory/transaction_basket_fct/date_id=2015-01-01
drwxrwx---+  - impala hive          0 2016-05-10 13:52 /somedirectory/transaction_basket_fct/date_id=2015-01-02
drwxrwx---+  - impala hive          0 2016-05-10 13:52 /somedirectory/transaction_basket_fct/date_id=2015-01-03
drwxrwx---+  - impala hive          0 2016-05-10 13:52 /somedirectory/transaction_basket_fct/date_id=2015-01-04
drwxrwx---+  - impala hive          0 2016-05-10 13:52 /somedirectory/transaction_basket_fct/date_id=2015-01-05

使用.split('\n')

将其拆分为基于换行符的行

使用line.rsplit(None,1)[-1]获取字符串中的最后一个'word'。

要防止列表中的空元素出现问题，请使用if len(line.rsplit(None,1))

最后使用Found 366 items

删除列表中的第一个元素（[1:]）

Answer 3

您应该拥有群集中节点的登录访问权限。让集群管理员选择节点并设置帐户，并告知您如何安全地访问节点。如果您是管理员，请告诉我集群是本地还是远程，如果是远程，那么它是托管在您的计算机上，公司内部还是第三方云上，如果是，那么我可以提供更多相关信息。< / p>

要在HDFS中查询文件名，请登录到群集节点并运行hadoop fs -ls [path]。路径是可选的，如果未提供，则会列出主目录中的文件。如果-R作为选项提供，则它会以递归方式列出路径中的所有文件。此命令还有其他选项。有关此命令和其他Hadoop文件系统shell命令的更多信息，请参阅http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html。

在Python中查询HDFS文件名的一种简单方法是使用esutil.hdfs.ls(hdfs_url='', recurse=False, full=False)，它在子进程中执行hadoop fs -ls hdfs_url，此外它还具有许多其他Hadoop文件系统shell命令的功能（请参阅来源http://code.google.com/p/esutil/source/browse/trunk/esutil/hdfs.py）。 esutil 可以与pip install esutil一起安装。它位于https://pypi.python.org/pypi/esutil的PyPI上，其文档位于http://code.google.com/p/esutil/，其GitHub网站为https://github.com/esheldon/esutil。

Answer 4

仅使用python 3的原始子进程库来“查询HDFS上的文件名”

from subprocess import Popen, PIPE
hdfs_path = '/path/to/the/designated/folder'
process = Popen(f'hdfs dfs -ls -h {hdfs_path}', shell=True, stdout=PIPE, stderr=PIPE)
std_out, std_err = process.communicate()
list_of_file_names = [fn.split(' ')[-1].split('/')[-1] for fn in std_out.decode().split('\n')[1:]][:-1]
list_of_file_names_with_full_address = [fn.split(' ')[-1] for fn in std_out.decode().split('\n')[1:]][:-1]

Answer 5

正如JGC所说，您可以做的最直接的事情是首先登录（通过ssh）节点之一（参与Hadoop集群的服务器）并验证您是否具有正确的访问权限控制和特权：

使用HDFS客户端列出您的主目录，即hdfs dfs -ls
列出位于HDFS中的目标目录，即hdfs dfs -ls <absolute or relative path to HDFS directory>

然后，在Python中，您应该使用子进程和HDFS客户端访问感兴趣的路径，并使用-C标志排除不必要的元数据（以避免以后进行丑陋的后处理）。

即Popen(['hdfs', 'dfs', '-ls', '-C', dirname])

然后，将输出分成新行，然后将获得路径列表。

以下是有关日志记录和错误处理的示例（包括目录/文件不存在时的示例）：

from subprocess import Popen, PIPE
import logging
logger = logging.getLogger(__name__)

FAILED_TO_LIST_DIRECTORY_MSG = 'No such file or directory'

class HdfsException(Exception):
    pass

def hdfs_ls(dirname):
    """Returns list of HDFS directory entries."""
    logger.info('Listing HDFS directory ' + dirname)
    proc = Popen(['hdfs', 'dfs', '-ls', '-C', dirname], stdout=PIPE, stderr=PIPE)
    (out, err) = proc.communicate()
    if out:
        logger.debug('stdout:\n' + out)
    if proc.returncode != 0:
        errmsg = 'Failed to list HDFS directory "' + dirname + '", return code ' + str(proc.returncode)
        logger.error(errmsg)
        logger.error(err)
        if not FAILED_TO_LIST_DIRECTORY_MSG in err:
            raise HdfsException(errmsg)
        return []
    elif err:
        logger.debug('stderr:\n' + err)
    return out.splitlines()

# dat_files will contain a proper Python list of the paths to the '.dat' files you mentioned above.
dat_files = hdfs_ls('/hdfs-dir-with-dat-files/')

使用python从HDFS获取文件名列表

5 个答案: