请注意,毫无疑问偏见是否存在;它确实存在。 但问题在于它是如何引入的以及 IT 部门为什么要关心它?
目前,围绕人工智能的炒作已经达到了顶峰。 人们的兴趣被激发,需求巨大,每个人都在争先恐后地寻找适合其市场的“杀手级应用”。
但在热潮的推动下,也有人表示担忧,这是有道理的。 在人工智能中引入偏见是相当简单的,而且这种偏见在某些圈子里引发了警觉。
要了解偏见是如何引入人工智能的,有必要对人工智能模型的训练方式有一个基本的了解。
根据你询问的对象以及他们的严谨程度,你会得到关于学习方法有多少种的不同答案。 事实上,当今使用的方法、算法和模型非常广泛,在许多情况下,对于那些不深入该领域的人来说是难以理解的。 但从高层次上理解模型是如何训练的非常重要,因为这最终就是偏见的引入方式。 记住这一点,训练人工智能模型有三种基本方法:
好的,现在来讨论真正的话题——偏见是如何引入这些系统中的。
我相信你已经知道答案了,答案是基于人类经常参与训练过程这一事实。
造成监督学习偏差的最简单方法就是通过错误标记数据来毒害数据。 例如,如果我对动物进行分类,将“狗”错误地标记为“猫”可能会导致足够大规模的错误识别。 标签的风险在于故意贴错标签,以破坏输出结果。 一些错误标签仅仅是人类判断的产物,例如判断豹子是否是猫,或者猫的雕像是否算作猫。 通过强化学习,在游戏中对“错误”的答案或动作进行积极奖励可能会导致系统故意给出错误答案或总是失败。
对于某些人来说这可能是一个有吸引力的选择。
显然,这对 ChatGPT 等对话式(生成式 AI)有影响,根据其网站介绍, ChatGPT 使用“监督学习和强化学习”进行微调,“使用人类训练师来提高模型的性能”。 当您选择“上调”或“下调”选项对响应进行排名时,该数据可能会被用于进一步微调其模型。 亲爱的读者,我认为你也是人类。 因此,系统可能会进一步出现偏差。 事实是,ChatGPT 的答案经常是完全错误的。 反馈对于进一步训练系统是必要的,这样它才能更频繁地产生正确的答案。
现在这很有趣——我们可以就如何操纵这些系统及其后果进行一次有趣的对话——但我真正想探讨这个话题的原因是偏见问题延伸到遥测,我们都希望使用遥测来推动提供和保护数字服务的系统和服务的自动化的运营数据。
您可能还记得,我曾写过有关数据偏见的文章,因为它与遥测有关,并且 98% 的组织都缺乏洞察力。
在大多数与分析遥测相关的案例中,模型都是使用已标记的数据进行训练的。 (a)错误标记数据、(b)特定类别的数据多样性不足、(c)引入新数据的方法可能会给该系统带来偏差。 错误标记数据会带来问题的原因显而易见,因为如果数据量足够大,就会导致错误识别。 数据多样性的问题在于,超出如此狭窄的训练集的数据将不可避免地被错误分类。
一个典型的例子是训练人工智能模型来识别坦克和其他类型的运输工具。 事实证明,所有坦克都在白天被拍摄到,但其他车辆却没有。 结果,人工智能在坦克与非坦克的较量中表现出色,但实际上却在关联白天与夜晚。 输入集缺乏多样性导致相关性出现偏差。
即使操作性人工智能依赖于强化学习,数据缺乏多样性也是一个问题,因为系统并不具备确定“下一步行动”所需的所有“变量”。
人工智能可能不具备多样化的数据集或其所需的所有变量,原因就在于数据偏差。 具体来说,选择性监控会引入数据偏差,其中仅采集*部分*遥测数据进行分析。 例如,DNS性能对用户体验的影响是众所周知的。 但是,如果模型在训练时没有使用 DNS 遥测来分析应用性能,那么即使 DNS 存在问题,它也可能声称性能很好,因为它不知道 DNS 与应用程序的端到端性能有任何关系。如果“下一步”是提醒某人性能下降,那么系统就会因数据选择偏差而失败。
如果我告诉您我们的年度研究发现,超过一半的组织将“缺失数据”列为获取所需见解的最大挑战,您不会感到惊讶。
因此,即使组织全力利用人工智能来推动运营决策,这也会带来挑战。 如果缺乏多样化的数据集来训练这样的系统,就会产生偏差的可能性。
引入偏差的第三种方式是将数据引入模型的方法。 最常见的操作示例是使用合成测试的结果来确定应用的平均性能,然后使用生成的模型来分析实际流量。 根据综合测试数据集所构成的地点、设备、网络拥塞等的广度,真实用户完全可以接受的性能可能会被识别为失败,反之亦然。