bigquery trigrams和ngrams viewer之间的百分位差异?

时间:2018-05-31 03:50:26

标签: google-bigquery

有人可以帮助解释一下大问题三元组和ngrams查看器百分位数值之间的差异(对于任何给定的三元组看起来有所不同,但这是一个由帖子https://groups.google.com/forum/#!topic/bigquery-discuss/OT_W0ayVSvg证实的具体例子)?

SELECT * FROM
(SELECT cell.value, cell.volume_fraction
FROM [bigquery-public-data:samples.trigrams] 
WHERE ngram = "of these dinosaurs" AND cell.value = "1888"),
(SELECT cell.value, cell.volume_fraction
FROM [bigquery-public-data:samples.trigrams] 
WHERE ngram = "of these dinosaurs" AND cell.value = "1890")

https://bigquery.cloud.google.com/savedquery/977440528149:1539bcaba54144d3bd9920c55ede72b9

1890 1.6196954972465177E-4 1888 1.6196954972465177E-4

https://books.google.com/ngrams/graph?content=of+these+dinosaurs&year_start=1888&year_end=1890&corpus=15&smoothing=0&share=&direct_url=t1%3B%2Cof%20these%20dinosaurs%3B%2Cc0

1890 0.0000001270% 1888 0.0000001256%

1 个答案:

答案 0 :(得分:0)

解释了这种差异,因为您使用的是两个不同的数据集。 BigQuery trigrams从包含某些书籍的样本数据集中读取数据,并且可能已经过修改以用于测试目的。 official description是:

  

包含已发布作品样本的英语三元组   在1520年至2008年之间。

Google图书现在根据Partner ProgramLibrary Project不断更新,您可以看到here

因此,您要将静态演示258GB数据集中的查询与Google图书平台进行比较。