译者 | 崔皓
审校 | 孙淑娟
机器学习并不是一项深奥的技术。正如在复杂的深度神经网络中多参数和超参数的方法只是认知计算的一种表现形式,看上去也没有那么深奥。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
还存在其他一些机器学习的种类(一些涉及到深度神经网络),这类机器学习的模型结果、模型的确定以及影响模型的复杂性都表现得非常透明。
所有这些都取决于组织对其数据来源的理解程度。
换句话说,需要了解从模型训练数据到生产数据模型过程中的一切。这也是解释、改进和改进其结果不可或缺的部分。通过这种方式让组织极大地提升模型的商业价值。
更重要的是,还进一步提高了这项技术的公平性、问责性和透明度,对于整个社会而言也更加可靠、更加完善。
Databricks营销副总裁Joel Minnick承认:“这就是为什么您需要对数据的上游和下游进行细粒度的了解,以便能够负责任地进行机器学习。”
针对模型的数据训练和数据生成会涉及到数据源、数据转换、数据集成等多项技术。在成熟的数据目录方案中,可以实现数据的实时捕获,因此可以随时监控进度从而了解模型的执行进度。“它能让我清楚了解在模型中使用数据的上下文情况。同时,你还可以知道,这些数据是从哪里来的?我们从中获得了哪些其他数据?它是什么时候产生的?这样我就可以更好地理解我应该如何使用这些数据”,数据科学家Minnick 如是说。
“数据沿袭”(记录数据源头、移动、处理过程)由元数据组成,而数据目录用来存储有关数据集。目录还使用户能够将标签和其他描述符作为附加元数据,其可以帮助追溯数据来源和建立数据信任。正如 Minnick 所描述的“数据沿袭”可以生成“API 驱动的服务”,通过这些服务连接一系列平台(包括数据科学家平台、数据工程师平台和终端用户平台)。
数据训练和数据操作的可追溯性提升会影响到机器学习模型结果,而模型结果又和数据科学领域中的数据治理息息相关。因此,数据治理和创建、部署模型的数据科学平台存在千丝万缕的联系。“技能管理表格和文件,又能管理笔记本,同时还可以管理仪表盘。这是管理生产和消费数据的现代方式。”Minnick 评论道。 对于在笔记本中构建模型的数据科学家和通过仪表板监控输出结果的数据科学家来说,对上述说法深以为然。
尽管如此,简单地通过 API 连接数据科学工具平台,从而获取“数据沿袭”只是透明利用机器学习的一个方面。为了达到改进模型的输出目的,还需要通过数据沿袭中确定的内容来对输出模型进行校准。例如,如何让可追溯性模型数据使数据科学家“能够理解一旦一些数据出现问题,就可以分离出这部分数据,”Minnick 指出。
从逻辑上讲,可以利用这些知识了解为什么特定数据类型存在问题,从而纠正它们或通过完全删除它们来提高模型的准确性。根据 Minnick 的说法,越来越多的组织正意识到将“数据沿袭”应用到模型结果的好处,“部分原因是机器学习和人工智能在当今各个行业的兴起。它变得越来越普遍。去年,我们发布 AutoML 产品时,就是使用了“玻璃盒”来代表对数据来源的透明。”
一些组织还利用“数据沿袭”提供的自适应认知计算模型的能力,来增强其法规遵从能力。金融、医疗保健等行业受到高度监管,要求公司清楚地说明他们是如何为客户做出决策的。数据追溯为构建机器学习模型和理解模型结果创建了一张路线图——这对监管机构的合规性非常宝贵。
这些信息还有助于内部审计,使公司能够了解他们在哪些监管领域失职,以便可以纠正问题以防止违规。“能够向监管机构展示非常精细的数据沿袭信息,不仅是跨表格,而且可以在广泛的组织的任何地方使用这些数据,这非常重要,”Minnick 断言。当这一优势与数据来源提高模型准确性的思路不谋而合,这种方法很可能将成为部署该技术的最佳实践。
崔皓,51CTO社区编辑,资深架构师,拥有18年的软件开发和架构经验,10年分布式架构经验。曾任惠普技术专家。乐于分享,撰写了很多热门技术文章,阅读量超过60万。《分布式架
构原理与实践》作者。
原文标题:A “Glass Box” Approach to Responsible Machine Learning,作者:Jelani Harper
# 仪表板
# 涉及到
# 的是
# 这是
# 可追溯
# 我就
# 这一
# 让我
# 惠普
# 还可以
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
通义千问怎么用_通义千问使用方法详细指南【教程】
lovemo手机网页版入口 lovemo官网登录网址
超频爱好者盛宴:液氮超频Xeon 28核处理器
DeepSeek AI:AI通用谜题解题器,解题思路全解析
Veribix Demo Analytics: 优化呼叫录音分析,提升客服效率
Brevio AI:利用AI代理提升电商营销效果
谷歌 Nano Banana:免费AI图像生成的强大工具
Z170芯片组内存兼容性问题终极指南
文心一言辅助进行中文播客脚本起草教程
5分钟搞定求职信:利用AI工具大幅提升求职效率的实操技巧
ChatGPT写论文大纲教程 辅助学术构思与资料检索操作方法
AI赋能营销:5分钟快速生成品牌营销素材全攻略
ASUS Armoury Crate深度评测:最新功能与个性化定制
怎么用AI帮你写一份客户感谢信?维系客户关系的利器
教你用AI帮你写出有说服力的众筹项目文案
Bluecap:加拿大AI会议助手,提升混合办公效率
文心一言如何做本地生活探店文案 文心一言内容种草指南
Beats to Rap On AI Stem Splitter:终极音乐创作工具
稿定设计AI抠图怎样调整透明度_稿定设计AI透明度滑块与渐变设置【攻略】
如何用AI帮你分析用户评论?3步挖掘用户真实需求
深入解析音视频转录:全面指南与实践技巧
Midjourney怎样加风格词调质感_Midjourney风格词技巧【指南】
ChatGPT官网免费使用入口 ChatGPT在线版官方地址
GoHighLevel AI Agent:终极指南,释放你的CRM潜力
E-LabVine:AI赋能的数字化学习平台,提升高中学业表现
百度搜索ai助手怎么关闭 百度搜索ai对话屏蔽方法
AI赋能:五款颠覆性工具助你在线赚钱
AI赋能!图形设计师必备的顶级AI工具
通义千问怎样写小红书文案_通义千问文案写作步骤【步骤】
AI代码助手的崛起:软件工程的未来展望与实用指南
Midjourney怎样加参数调细节_Midjourney参数调整技巧【指南】
ClaudePC端怎么设主题色_ClaudePC端主题设置步骤【教程】
MetaGPT:AI驱动的软件开发团队,颠覆传统编码模式
寓言故事:狮子与老鼠,学习英语的趣味童话之旅
2025年生成式AI发展蓝图:娱乐、医疗及创意产业的革新
如何用ChatGPT模拟面试并优化你的求职文书?
掌握解方程技巧:4.2家庭作业难题精讲与分数系数处理
医疗专家如何利用课程和内容赋能女性对抗癌症
AI交易机器人:TradingView上无需代码即可构建AI交易机器人指南
Google AI Studio Build模式更新:免费AI应用开发新纪元
GitHub Copilot CLI:终端中的 AI 编码助手
Amazon Rekognition: 图像与视频分析的强大AI工具
打造迷人外表:AI技术揭秘面部美学比例与颜值提升
Runway Gen-2怎么用 Runway视频生成AI使用教程
雷小兔ai智能写作如何生成日记_雷小兔ai智能写作日记模板调用【步骤】
3步教你用AI将你的照片变成乐高积木风格
AI赋能音频转录:SovereignAudio自托管解决方案
GitHub Copilot终极指南:提升代码效率与质量
Claude怎么用新功能诗歌创作_Claude诗歌创作使用【方法】
文心一言 4.0 在公文写作规范中的实战技巧
2023-04-09
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。