AWS宣布推出Amazon SageMaker Ground Truth,以帮助公司为机器学习创建培训数据集。对于可以使用大量未注释数据的人来说,这是一项功能强大的新服务。在过去,人类必须在视频中标记大量的图像或帧,以训练计算机视觉模型。除了人类,Ground Truth还使用机器学习自动标记训练数据集。

ai人工智能存在概率问题,盲目的夸张倾向于得分是不可取的。-而后网
这是过去一年左右新兴主题“机器学习机器学习”的一个例子。机器学习数据目录(MLDC)、概率或模糊匹配、自动化培训数据注释和合成数据创建使用机器学习为下游后续机器学习生成或准备数据,通常解决数据稀缺或碎片问题。这一切都很好,直到我们开始认为机器学习本身依赖于归纳推理,所以它主要基于概率。

想象一下现实医疗服务提供者希望使用计算机视觉来诊断罕见疾病,并且由于缺乏数据,自动注释器用于创建更多训练数据(更多标记图像),开发人员设置90%趋势阈值,这意味着只有达到90%或更高精确分类概率的记录才会被用作训练数据。一旦模型被训练和部署,它就被用于通过文本数据字段的模糊匹配将数据从多个数据库链接在一起的患者。来自不同数据集的实体可以匹配,只要它们具有90%的相同概率即可。最后,模型标记的图像具有90%或更高的可能性,其具有诊断所描绘的疾病。

问题是数据科学家和机器学习专家只关注最终倾向得分,以表明预测的整体准确性。这导致训练数据的准备在演绎和确定性的世界中很好地工作,但是当您引入概率高于概率时,最终倾向得分不再准确。在上面的例子中,有一种观点认为,准确诊断的概率从90%降低到73%(90%x 90%x 90%),这在生与死的情况下并不理想。

随着对ai人工智能可解释性的需求越来越强,需要构建一个新的分析治理框架,以涵盖机器学习中涉及的所有概率,从数据创建到数据准备、培训再到推理。没有它,过度夸大的倾向评分可能会误诊患者、错误地对待客户、并误导公司和政府做出关键决策。