什么是测量数据质量的技术和实践?

时间:2009-05-14 19:48:43

标签: algorithm artificial-intelligence data-quality

如果我有一大堆描述物理“事物”的数据,我怎样才能衡量数据与它应该代表的“事物”的匹配程度?

一个例子是如果我有一个装有12个小部件的箱子,我知道每个小部件重1磅,应该有一些数据质量'检查'确保箱子重13磅。

另一个例子是,如果我有一盏灯和一个代表该灯的图像,它应该看起来像一盏灯。也许图像尺寸应与灯泡尺寸的比例相同。

除了图像,我的数据是99%的文字(包括高度,宽度,颜色......)。

我在学校学过AI,但除此之外做的很少。

标准人工智能技术是否可行?如果是这样,我如何将问题映射到算法? 有些语言比其他语言更容易吗?他们有更好的图书馆吗?

感谢。

3 个答案:

答案 0 :(得分:1)

您的问题有些开放,但听起来您想要的是classifier字段中所谓的“machine learning”。

通常,分类器接受一段输入并对其进行“分类”,即:确定对象的类别。许多分类器提供了这种确定的概率,有些甚至可能返回多个具有每个概率的类别。

分类器的一些示例是bayes nets,神经网络,决策列表和decision trees。贝叶斯网络通常用于垃圾邮件分类。电子邮件被概括为“垃圾邮件”或“非垃圾邮件”。

对于您的问题,您希望将对象归类为“高质量”或“质量不高”。

您需要的第一件事就是一堆培训数据。也就是说,您已经知道正确分类的一组对象。获得这个的一种方法是获取一堆对象并手动分类。如果有一个人要分类的对象太多,您可以将它们提供给Mechanical Turk

获得训练数据后,您就可以构建分类器了。您需要确定哪些属性对您的分类很重要。你可能需要做一些实验才能看出效果如何。然后,您的分类器将从您的训练数据中学习。

经常用于测试的一种方法是将训练数据分成两组。使用其中一个子集训练您的分类器,然后查看它对另一个(通常是较小的)子集的分类程度。

答案 1 :(得分:1)

人工智能是一条道路,自然智慧是另一条道路。

您的挑战与亚马逊的Mechanical Turk完美匹配。将您的数据空间划分为极小的可验证原子,并将它们分配为Mechanical Turk上的HIT。有一些重叠让你自己有一种HIT答案的一致性。

有一家商店有大量的组件CAD图纸需要按相似性进行分组。他们将其分解并将其放在Mechanical Turk上以获得非常令人满意的结果。我可以google几个小时而不再找到那个链接。

有关相关论坛帖子,请参阅here

答案 2 :(得分:0)

这是一个艰难的答案。例如,什么定义了一盏灯?我可以谷歌图像一些疯狂的灯的图片。或者甚至,查找灯的定义(http://dictionary.reference.com/dic?q=lamp)。灯具必须具有什么样的物理要求。这就是人工智能问题的症结所在。

对于数据,您可以在项目上设置单元测试,以确保12 widget()在widetBox()中的重量小于13磅。无论如何,您需要掌握手头的数据才能测试类似的东西。

我希望我能在某种程度上回答你的问题。它有点茫然,我的答案很广泛,但希望它至少会让你朝着一个好的方向发展。

相关问题