作者 | Julien Simon
译者 | 弯月
出品 | CSDN(ID:CSDNnews)
最近 , 《2021年人工智能状况报告》发布 。 同时 , Kaggle 也发布了机器学习与数据科学现状调查报告 。 这些报告包含很多值得学习和探讨的地方 , 其中有一些引起了我的注意 。
“在疫情肆虐期间 , 人工智能在关键基础设施领域的应用越来越多 , 比如美国国家电网和超市自动结帐等 。 然而 , 对于该行业的成熟度能否满足其不断增长的部署规模 , 人们仍持质疑态度 。 ”
不可否认 , 机器学习驱动的应用程序逐步渗透到了 IT 的每一个角落 。 但这对各家公司和组织意味着什么?我们如何才能构建可靠的机器学习工作流程?我们是否需要寻找 100 名数据科学家?或者 100 名开发运维工程师?
“Transformer 已成为机器学习的通用架构 。 不仅用于自然语言处理 , 还用于语音、计算机视觉 , 甚至是蛋白质结构的预测 。 ”
我们都知道 IT 界没有万灵药 。 然而 , Transformer 架构确实适用于各种机器学习任务 。 但是 , 我们如何才能跟上机器学习疯狂创新的步伐呢?我们是否需要专家才能应用这些最先进的模型?我们能否找到能够在短时间内创造商业价值的捷径?
文章图片
面向大众的机器学习
如今 , 机器学习无处不在 , 或者说正在朝着这个方向发展 。 几年前 , 福布斯曾有一篇文章表示:“软件吞噬了这个世界 , 而如今人工智能正在吞噬软件” 。 但这到底是什么意思?我认为 , 这意味着机器学习模型可以取代成千上万的遗留代码 。
那么 , 这是否意味着机器学习将完全取代软件工程?如今 , 很多人都在幻想利用 AI 生成代码 , 有些技术其实很有意思 , 比如寻找 Bug和性能问题 。 然而 , 我们不仅不能摆脱开发人员 , 而且还需要赋予他们更多权力 , 同时将无聊的重复性工作交给机器学习 。 换句话说 , 我们真正需要的是让软件吞噬机器学习!
机器学习的最新应用
多年来 , 我一直认为 , 十年前的软件工程最佳实践也适用于数据科学和机器学习:版本控制、可重用性、可测试性、自动化、部署、监控、性能、优化等 。 Google 也曾表示:
“用你熟悉的工程师方式去实现机器学习 , 不要用你不熟悉的机器学习专家的方式 。 ”
—— 机器学习规则 , Google(https://developers.google.com/machine-learning/guides/rules-of-ml)
【取代上万行遗留代码,机器学习模型终“上位”!】我们不需要重新发明轮子 。 开发运维运动已于 10 多年前解决了这些问题 。 如今 , 数据科学和机器学习社区都应该采用和调整这些久经考验的工具和流程 。 这是我们在生产中构建强大、可扩展且可重复的机器学习系统的唯一方法 。 我们可以称之为“机器学习运维”(MLOps) 。
概念验证和 A/B 测试只不过是迈向生产的一小块垫脚石 , 称不上伟大的成就 。 每一位数据科学家和机器学习工程师都应该尽快将他们的机器学习模型投入生产 。 一个沙盒模型即便再伟大 , 也远不如一个普通的生产模型 。
基础设施
现在是 2021 年 , IT 基础设施不应再成为阻碍因素 。 不久前 , 软件已经通过云 API、基础设施即代码、Kubeflow 等抽象化的方式 , 吞噬了基础设施 。
如今 , 机器学习基础设施也在迅速地发展 。 根据 Kaggle 的调查 , 75%的公司都选择使用云服务 , 超过 45% 的企业使用机器学习平台 , 其中Amazon SageMaker、Databricks 和 Azure ML Studio 位居前三 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
