algorithm - 什么是测量数据质量的技术和实践？

时间：2009-05-14 19:48:43

标签： algorithm artificial-intelligence data-quality

如果我有一大堆描述物理“事物”的数据，我怎样才能衡量数据与它应该代表的“事物”的匹配程度？

一个例子是如果我有一个装有12个小部件的箱子，我知道每个小部件重1磅，应该有一些数据质量'检查'确保箱子重13磅。

另一个例子是，如果我有一盏灯和一个代表该灯的图像，它应该看起来像一盏灯。也许图像尺寸应与灯泡尺寸的比例相同。

除了图像，我的数据是99％的文字（包括高度，宽度，颜色......）。

我在学校学过AI，但除此之外做的很少。

标准人工智能技术是否可行？如果是这样，我如何将问题映射到算法？有些语言比其他语言更容易吗？他们有更好的图书馆吗？

感谢。

答案 0 :(得分：1)

您的问题有些开放，但听起来您想要的是classifier字段中所谓的“machine learning”。

通常，分类器接受一段输入并对其进行“分类”，即：确定对象的类别。许多分类器提供了这种确定的概率，有些甚至可能返回多个具有每个概率的类别。

分类器的一些示例是bayes nets，神经网络，决策列表和decision trees。贝叶斯网络通常用于垃圾邮件分类。电子邮件被概括为“垃圾邮件”或“非垃圾邮件”。

对于您的问题，您希望将对象归类为“高质量”或“质量不高”。

您需要的第一件事就是一堆培训数据。也就是说，您已经知道正确分类的一组对象。获得这个的一种方法是获取一堆对象并手动分类。如果有一个人要分类的对象太多，您可以将它们提供给Mechanical Turk。

获得训练数据后，您就可以构建分类器了。您需要确定哪些属性对您的分类很重要。你可能需要做一些实验才能看出效果如何。然后，您的分类器将从您的训练数据中学习。

经常用于测试的一种方法是将训练数据分成两组。使用其中一个子集训练您的分类器，然后查看它对另一个（通常是较小的）子集的分类程度。

答案 1 :(得分：1)

人工智能是一条道路，自然智慧是另一条道路。

您的挑战与亚马逊的Mechanical Turk完美匹配。将您的数据空间划分为极小的可验证原子，并将它们分配为Mechanical Turk上的HIT。有一些重叠让你自己有一种HIT答案的一致性。

有一家商店有大量的组件CAD图纸需要按相似性进行分组。他们将其分解并将其放在Mechanical Turk上以获得非常令人满意的结果。我可以google几个小时而不再找到那个链接。

有关相关论坛帖子，请参阅here。

答案 2 :(得分：0)

这是一个艰难的答案。例如，什么定义了一盏灯？我可以谷歌图像一些疯狂的灯的图片。或者甚至，查找灯的定义（http://dictionary.reference.com/dic?q=lamp）。灯具必须具有什么样的物理要求。这就是人工智能问题的症结所在。

对于数据，您可以在项目上设置单元测试，以确保12 widget（）在widetBox（）中的重量小于13磅。无论如何，您需要掌握手头的数据才能测试类似的东西。

我希望我能在某种程度上回答你的问题。它有点茫然，我的答案很广泛，但希望它至少会让你朝着一个好的方向发展。