ANN:语言检测

时间:2013-07-02 10:33:21

标签: algorithm artificial-intelligence neural-network

我正在尝试重新创建google的"Hello Prediction"算法来测试我的网络。我从同一个地方拿到了训练样本。


因为我不指望你按照上面的链接,简而言之就是“Hello Prediction”: 它是Google Prediction API的“hello world”示例,基本上是一个培训示例 ANN包含大量训练集,包括西班牙语,英语和法语的文本串。 到本练习结束时,网络应该能够检测到3种语言中的每一种。


现在我面临着将数据输入网络的问题。

如何操作可变长度的文本字符串以输入固定大小的网络输入?

我见过两种考虑词序的解决方案:

  1. 使网络输入足够大以适应整个句子。这是最现实但最浪费的方法。我相信谷歌已经想出了一个更好的方法。

  2. 将句子分成固定大小(n)字符的子串,如下所示: 如果n = 2,“abcde”变为[“ab”,“bc”,“cd”,de“]。

  3. 有没有人成功解决了这个问题? #2比#1好吗?有第三种解决方案吗?

    谢谢。

1 个答案:

答案 0 :(得分:0)

为什么不尝试某些功能提取? tf_idf常用于NLP,我想你可以找到一些其他有用的数字特征。

相关问题