如何从单词列表的rdd创建数据框

时间:2016-11-08 07:27:18

标签: pyspark

我已经完成了stackoverflow和互联网的所有答案,但没有任何作用。所以我有这个单词列表:

<div class="mainDiv">
    <div class="addrLabel">Address</div>
<div class="addrValue">

<!-- no value at all -->
  <span class="hrefClass">
      <a href="#">next link</a>
  </span>
</div>
<div class="clearfix"></div>

1 个答案:

答案 0 :(得分:0)

查看上面的代码,您尝试将列表转换为DataFrame。一个好的StackOverflow链接是:https://stackoverflow.com/a/35009289/1100699

说到这里,这是您的代码的工作版本:

from pyspark.sql import Row

# Create RDD
tweet_wordsList = ['tweet_text', 'RT', '@ochocinco:', 'I', 'beat', 'them', 'all', 'for', '10', 'straight', 'hours']
tweet_wordsRDD = sc.parallelize(tweet_wordsList)

# Load each word and create row object
wordRDD = tweet_wordsRDD.map(lambda l: l.split(","))
tweetsRDD = wordRDD.map(lambda t: Row(tweets=t[0]))

# Infer schema (using reflection)
tweetsDF = tweetsRDD.toDF()

# show data
tweetsDF.show()

HTH!

相关问题