在本集中,我们将讨论事件流技术、混合边缘云策略和实时机器学习基础设施。我们还将这些技术应用于奥迪、博世和 Eon。
Kai Waehner 是 Confluent 的企业架构师和全球现场工程师。 Kai 的主要专业领域包括大数据分析、机器学习、混合云架构、事件流处理和物联网。参考: www.kai-waehner.de
Confluent 由 Apache Kafka® 的原始创建者创立,开创了企业级事件流平台。要了解更多信息,请访问 www.confluent.io。在 www.confluent.io/download 下载 Confluent 平台和 Confluent Cloud。
_________
自动成绩单
[介绍]
欢迎来到工业物联网,聚焦工业物联网思想领袖与您的主持人埃里克·瓦伦扎(Erik Walenza)一起改变当今企业的洞察力。
欢迎回到工业物联网聚光灯播客。我是您的主持人 Erik Walenza,IOT one 的首席执行官。今天我们的嘉宾将是 Kai Vernor,企业架构师和 Confluent 的全球现场工程师。 Confluent 是一个企业事件流平台,由 Apache Kafka 的原始创建者构建,用于分析大数据量。在本次演讲中,我们实时讨论了边缘和云端的事件流,以及为什么混合部署通常是最佳解决方案。我们还探讨了如何实时监控机器学习基础设施。我们还讨论了 ADI Bosch 和 Ian 的案例研究,如果您觉得这些对话很有价值,请给我们留下评论和五星级评价。如果您想分享您公司的故事或推荐一位演讲者,请发送电子邮件至 team@iotone.com。谢谢你。
[埃里克]
凯。非常感谢你今天加入我。
[开]
谢谢你邀请我,埃里克。很高兴来到这里。
[埃里克]
所以凯,在我们开始讨论之前,我会比平时更技术性一点,我很期待。但在我们进入细节之前,我想了解更多你来自哪里。我想你已经,你有过一些有趣的角色。您目前是一名企业架构师和全球现场工程师。所以我其实很想知道这到底是什么意思。然后,您之前是您当前公司冲突以及 Tipco 软件的技术传播者。因此,我还想更多地了解这实际上意味着您如何与公司打交道,但是您能否简要介绍一下您如何处理冲突?
[开]
好,当然。所以我实际上是在扮演一个重叠的角色,这意味着我每年要与数百、50 位客户交谈。如果没有旅行乐队,我真的在世界各地旅行,物联网和工业物联网是一个很大的话题。我与这些客户进行了交谈,以真正解决他们的问题。因此,实际上,虽然它是底层技术,但我们试图解决问题。否则没有商业价值。我认为这也是我们今天要讨论的内容。因此,我真正要做的是分析我们的客户面临挑战和问题的场景,以及我们如何帮助他们甚至尖叫。这就是我们今天要讨论的内容,我的历史和背景确实,我过去曾为不同的集成供应商工作过。因此,这也与我今天使用事件流和使用事件流所做的非常相似。关键挑战通常是与许多不同的系统和技术集成。这是机器和实时传感器。等等只有一方面,还有传统的企业软件系统,既是像 ERP 系统这样的物联网,又是客户关系管理或大数据分析。这就是我真正看到这些架构的概述以及事件流如何融入其中的地方。
[埃里克]
好的,所以你有一种技术业务接口角色,你正在尝试理解问题,然后确定哪种架构可能适合支持它。
[开]
所以我真的正好处于这个中间点,我都教过。甚至是高管层,还有另一边需要雇佣的工程师。
[埃里克]
在最初的对话中,您对最终用户可能如何输入不良数据的完全非技术性技术主题有多少了解,或者,您知道,这些几乎是人力资源主题或与相关的主题,假设一个解决方案可能是完全人性化的方面,你是在早期就进入这些,还是更多,一旦你开始实施,你会弄清楚其他挑战是什么,你会解决它们作为你走?
[开]
不,这真的是早期阶段。所以,我的意思是,我们在不同层面与客户交谈。它既有业务方面的,也有技术方面的。所以,在我们真正有类似试点项目或概念验证的东西之前,我们真的已经从各个层面与许多不同的人进行了交谈,从技术层面到管理层面等等,以了解问题。所以我们提前计划好了。因此,这不仅仅是关于技术以及如何与机器和软件集成,而是关于如何处理数据。那有什么价值。
[埃里克]
然后你有一个非常具体的垂直焦点,或者你在你所涵盖的行业方面是相当水平的
[开]
我们与行业无关。因此,任何行业都使用事件流来持续处理数据。然而,话虽如此,工业物联网中机器的本质是一直产生连续的传感器数据,大数据以及越来越多的数据,当然,工业物联网是最大的行业之一,但实际上与此无关。因此,我们最终还与银行、保险公司在电信公司合作,他们有非常不同的用例,但从技术角度来看,它们通常非常相似。
[埃里克]
是的。一个既有趣又充满挑战的问题是,在现实世界中你可以分析的事物几乎是无穷无尽的。正确的。我想还有某种 80 20 规则。是你看到的情况,比如有一个包含 80% 工作的 5 或 10 个用例的简短列表,还是实际上比这更多样化?
[开]
它确实各不相同,这取决于您如何使用它,这就是我们今天稍后将讨论的内容。但在某些用例中,实际上所有数据都经过处理以进行分析,例如预测性维护或质量保证等传统用例,但随着越来越多的这些工业解决方案提出了如此多的数据。有时,用例更具技术性,因此您只需将解决方案部署在边缘和工厂进行预过滤,因为它包含大量数据,您无需处理所有这些。因此,事件流将传感器数据进行预过滤和预处理,然后将其中的 10% 用于更多用例的分析工具中。所以它真的有很多不同的用例,但最终,通常它真的是为了从白天获得某种价值。我认为这确实是当今的关键挑战,大多数这些工厂和工厂,它们产生越来越多的数据,但今天人们无法使用它。这就是我们通常帮助连接这些不同系统的地方。
[埃里克]
我知道 Confluent 是不是说它是基于 Apache Kafka 构建的,或者这就是您使用的解决方案?能给大家介绍一下,什么是 Apache Kafka?
[开]
那是个很好的观点。这也解释了这是如何相关的。所以 Apache Kafka 是在 LinkedIn 创建的。所以大约 10 年前美国的科技公司,他们开发了这项技术,因为市场上没有其他东西可以实时处理大数据集。因此,我们在大数据方面拥有 20 年的集成中间件。我们拥有 20 年的实时消息系统。但是我们没有可以将两者结合起来的技术,而这就是 LinkedIn 10 年前建立的。然后在他们投入生产之后,他们开放了资源。这正是 Apache Kafka 的特点。因此,它可以可靠地每秒连续处理数百万个数据集。然后当他们开源它时。最初几年,只有其他科技公司使用它,比如 Netflix、Uber 或 eBay。
然而,因为市场上没有其他产品,而且全世界所有行业都需要这种数据处理。所以他们真的,大部分财富 2000 是帕特里克一半不同的项目。考虑到这一点,五年前,Confluence 是由创始人创建的,他们是 Petrik 半拥抱的创造者。所以他们从 LinkedIn 和一些硅谷投资者那里获得了风险投资,并发现这与准备好 CAFCA 生产的想法相吻合,这意味着技术时代通常可以自己运行,但会议确实有助于改进 Kafka 并建立一个生态系统和围绕它的工具。但当然也有服务和支持,因此我总是说传统公司也可以使用 Kafka 运行关键任务工作负载,因为他们需要软件供应商的帮助。
[埃里克]
好的。很有意思。所以这有点像红帽商业模式,对,就像在开源软件之上构建企业解决方案。这似乎是,是的,这是一种趋势,对吧?因为我想开源在调试等方面有很多好处,但在某些时候,对,人们不想,他们不想自己弄清楚。他们需要服务提供商。
[开]
是的。这正是它的工作原理。所以它就像红帽子一样。这个想法实际上是每个人都可以使用 Kafka,而且很多人在没有任何其他供应商的情况下使用它甚至是关键任务,因为他们必须自己拥有专业知识。另一方面,像LinkedIn这样的科技公司,他们也为这个框架做出了贡献,因为它是一个开放的框架。因此,每个人都做出贡献并可以利用它。这正是我们正在做的事情。所以我们正在为 Kafka 做大部分的贡献。所以我们有很多很多全职提交者只是为了这个项目。但是,除了现实世界中的问题,例如工业物联网,您还会遇到诸如合规性、安全性和运营、24 七和保证等问题。这是一个地方。这就是传统公司喜欢的地方,在工业物联网中,对某些东西的要求与科技公司完全不同,后者在云中运行一切。这正是冲突出现的地方,不仅提供框架和支持,还提供工具和专业知识,以便您可以根据 USLS 和您的环境部署它,可以在工厂、混合或云中的任何地方.
[埃里克]
好的。很有意思。好吧,让我们进入主题,然后在这里一点点。所以也许起点只是一个问题,什么是事件流?所以我们有很多关于分析的不同术语,我猜人们经常使用实时分析。而且我认为您在某种程度上也会在您的网站上使用该术语,但是您如何将实时分析与事件流或什么进行比较,
[开]
只有这两个,两个非常重要的术语,因为有很多术语是重叠的,而且不同的供应商和项目通常使用同一个鸟来做不同的事情。所以这确实是我在所有客户会议中学到的关键经验之一,一开始就定义了这些术语。因此,当我谈到事件时,我会解释,流式传输实际上是持续处理数据。那是简短的版本。所以这意味着一些数据源产生数据,这可以是实时数据的传感器,但也可以是移动设备,非常,您从用户按钮的点击中获得请求。所以这是一个事件,它被创建,然后你消费这些事件,然后你不断地处理它们。这主要是主要思想。其他术语是实时分析或流处理或流分析。但真正重要的一点是,它不仅仅是消息传递,因为当人们说半人半人,消息传递框架时,我有时真的会感到不安。这真的是这里的关键点。不是,是的,您可以使用 Kafka 将数据从 a 发送到 B,人们经常使用它,但更重要的是,您还可以处理数据,您可以使用 Apache Kafka 构建无状态和有状态的应用程序。这才是真正的关键区别。综上所述,半车连续集成不同系统、实时批处理等通信信号,大规模实时处理数据,可靠性高。最后就是这样。我的意思是事件流。
[埃里克]
好,太棒了。那就是,非常清楚。然后还有另一个术语,它可能不那么常见,但是事件驱动的架构。你熟悉这个吗?您是否会说这是与事件流重叠的另一件事,或者它是一种特殊的风格,或者那里有什么区别?
[开]
是的,所以它完全重叠。所以事件流更像是一个音乐会和事件驱动的架构,顾名思义,是它背后的架构。但最终的运作方式是你真正考虑事件,甚至可以是一个温柔的事情,就像很多,甚至来自一台机器,或者它可以是来自用户界面的客户交互,所有这些事情都是事件和然后你处理它们甚至阶段。这也是这个基金会的关键。理解这一点绝对很重要,因为在过去 20 年中,无论您更多来自软件业务还是更多来自工业 IOT 和 OT 业务,通常都是您存储在该数据库中的信息。所以一开始它就像一个 Oracle 数据库或文件系统。你更多地谈论大数据分析或云服务,但这里的重点是你总是在数据库中启动数据,然后处理它,然后等到有人使用 [听不清] 或其他客户端使用它。对于许多用例来说,这实际上或多或少是一个为时已晚的架构。以及事件、流和事件驱动架构的作用。它们允许您在数据处于热状态时使用它。这对于工业物联网尤其重要,您希望在工业物联网中持续处理、监控和对传感器数据和其他交互采取行动。这确实是与基于事件的架构的关键基础和区别。因此,具有数据库和审查服务以及所有这些其他技术的传统架构,你知道,从过去开始。
[埃里克]
然后这可能将我们带到对话的第一个深入话题,即边缘的事件流与混合与云部署。因为,你知道,你刚才提到肯定有一些独特的要求,例如,自动驾驶汽车,对,10 分之一秒可能会产生相当大的影响。在现实世界中,我的假设是,很明显你可以,你可以部署它,但当然它最初是为主要云部署而开发的。因此,我假设考虑到计算能力有限的架构等,边缘部署更具挑战性。您如何评估边缘、边缘云和混合选项的部署?
[开]
是的,所以这是一个非常重要的讨论。所以实际上一开始是的,Kafka 是为云设计的,因为我是 LinkedIn 构建它和 LinkedIn,这是所有这些科技公司的一大优势。所以他们完全在云中构建新服务,而且他们中的大多数只关注信息,对吧?所以这不像工业物联网那样是物理的,因此它是非常不同的。但即使在那个时候,10 年前的云与今天也有很大的不同。所以即使在那个时候,你也必须在云中启动你的机器,比如在 AWS 上,你启动一个 Linux 实例,因此它与本地部署没有什么不同。今天考虑到这一点,当然你有所有的选择。我的意思是,融合只有一方面,我们有违禁云,它是云中的完全托管服务,但你只能以无服务器方式使用,所以你不需要管理它。
你只是使用它。然而,话虽如此,如今 90% 左右的 CAFCA 都是自我管理的,而且他们不仅提到了云,而且实际上是在数据中心或边缘部署。这尤其适用于您想要并且需要直接在工厂中进行边缘处理的工业物联网,并牢记这一点。所以有所有这些不同的部署选项。我们有用例,只有边缘分析和处理,以及用于实时质量保证等用例的工厂。但是我们在工业物联网中也看到了许多混合用例,一方面你进行边缘处理。正如我之前提到的,要么仅用于预处理和过滤,甚至可以在边缘构建业务应用程序,但随后您还可以为另一个数据中心或云复制数据以进行分析。这真的是非常免费的。尤其是在工业物联网中,它确实是一个评论用例,我们将拥有混合架构,因为您需要边缘处理来处理某些事情。这不仅是为了延迟,也是为了成本。人们经常学习很难,将所有数据摄取到云端并在那里处理它是多么昂贵,特别是如果你真的想在再次删除之前查看所有传感器数据。因此,这些混合用例是我们在工业物联网中看到的最常见的部署。
[埃里克]
是的。我实际上是一个让我们看看。是上周还是两周前?我与 Foghorn 的 CTO 接洽。你熟悉 Foghorn 公司吗?
[开]
我什至听了。
[埃里克]
哦好的。好,太棒了。所以我想,你知道,他们强调的一件事是,让我们说在边缘进行机器学习的挑战,对吧。只是在那里做计算能力。你怎么看这个?或者让我们说,当您与客户和客户进行对话时,它有点讨论他们的业务需求,您如何评估边缘实际可能做的事情?然后,你知道,我们在说什么边缘?你知道,实际上,我的意思是,假设在传感器上,对,这可能是非常有限的计算或网关或本地服务器,你如何推动对话以了解从基于他们的业务的技术观点?
[开]
是的,这是个好问题。这种关于十字架的讨论总是必须要做的。因此,我们也真正从业务角度开始,您的问题是什么以及我们想要解决什么。然后我们可以深入研究可能的解决方案,或者您可能有不同的选择。我不仅仅是你必须做的一件事,更像是如果你确实想用机器学习和人工智能以及所有这些,这些密码进行预测,通常它是模型训练之间的分离,这意味着采取查看这些历史数据以找到见解和模式,然后将此模型部署到某处进行预测。这是最常见的情况。我们看到这是彼此分开的。因此,您通常只能将一侧摄取到更大的数据湖或存储中,以便在其中进行训练以找到洞察力。
[埃里克]
这可以在更大的数据中心,对吧?您需要更多的计算能力。这通常比在云中,这是一部分,但是,直到你真的需要更多的基础设施,所以你不能经常这样做,不应该直接在 HD 明智的情况下这样做,这更小,但是当你已经完成了更大的训练,具有更多的计算能力,然后是模型评分或预测,这实际上取决于用例,但这可以部署在更靠近边缘的地方。在这里,当我们看到不同的场景时,取决于用例,但您也可以在云或数据中心中进行预测,甚至可以将此模型纳入我们的轻量级应用程序。因此,仅从技术角度来看,我确实了解模型训练所做的事情,例如,在像 tube 或 spark 或云机器学习服务这样的大数据湖中,它们有很多用于模型部署的选项。
[开]
这也可以是 Java 应用程序,并且在分布式系统中具有真正的可扩展性,或者另一方面,您也可以使用例如 C 或 C plus plus 与来自 confluence 的 Kafka 客户端并真正部署它在边缘,就像在微控制器中一样,如果它非常轻巧的话。当然,这也取决于您使用的机器学习技术,但是大多数现代框架在这里也有选择,举个例子,我们看到很多对 TensorFlow 的需求,它是这些前沿之一,深度学习框架,由谷歌发布。在这里你也有不同的选择。你可以训练一个模型并部署它,然后它太大了,它真的必须部署在数据中心或另一边,你可以使用 TensorFlow Lite 并导出它。然后例如,Rhonda 模型,例如在带有 Java 脚本的移动客户端中,或者实际上在带有 C 的嵌入式设备中,因此您拥有所有这些选项。这取决于用途。
[埃里克]
而且我想现在我们有,让我们从一个基本的技术角度说,我们有一种在两个方向上移动的趋势,这使得计算变得更容易一些,比如说两个层面建筑学。所以你在边缘有改进的硬件,你知道,边缘计算能力越来越强。你也有可能实现 5g。也许人们会不同意这一点,但可能会使将数据移动到云中也更具成本效益,或者如果不是更具成本效益,至少,你知道,更好的延迟和带宽将数据移动到云中,这将,这将允许您在不连接到边缘的情况下执行更多此类实时解决方案。您是否看到任何仅基于底层技术发展动态的趋势,这些趋势会促使我们在边缘做更多的工作或在云中做更多的工作?我的意思是,显然它仍将是一个混合体,但你是否看到了一个方向?
[开]
实际上,不,因为它确实取决于用例。而且,像实时一样定义石头术语也很重要,对吧?因为这意味着什么有不同的术语,但总的来说,真的,我可以给你一个例子,说明它总是处于这种混合状态。因此,如果您在世界各地拥有不同的工厂,一方面您想要进行实时分析,例如预测性维护或质量保证,这就是应该在边缘发生的事情。将所有这些数据复制到云中,为延迟和成本甚至仅五个下巴进行处理是没有意义的,首先将其发送到其他地方然后将其取回总是更昂贵。从成本和延迟的角度来看,这是昂贵的。所以你想在胜利的边缘进行这种分析。
然而,话虽如此,在这种情况下,模型训练或用于做其他报告或与其他系统集成,或用于关联来自不同工厂的数据以回答诸如我们在中国有一家工厂和在欧洲有一家工厂这样的问题。那么为什么同一个工厂在中国,问题要多得多。然后你必须关联信息以找出不同的温度峰值和不同的环境。为此,这在边缘没有意义,因为您需要聚合来自不同昆虫、不同地区的数据并通常听到它们,云是关键趋势,因为在这里您可以弹性地向上和向下扩展并集成带有新的接口。为此,您希望在云中执行此操作,以从许多不同的其他系统复制数据。所以我真的认为趋势是,也许两三年前,每次我谈到将所有东西都放到云中时,甚至云提供商当然也想这样做。
但现在的趋势是以混合方式做更多的事情,对于某些用例来说它既是云,又是其他一些用例的边缘。最好的证明就是看看大型云提供商。因此,如果你看看亚马逊、微软、谷歌、阿里巴巴,他们都从故事开始,一切都进入了云端,以及我们所有的 IOT 分析。但是今天所有这些供应商也发布了越来越多的边缘处理工具,因为拥有一些东西是有意义的。
[埃里克]
好的。好,太棒了。那么这实际上是一个很好的过渡到下一个主题,即用于大规模实时集成的事件流。我们在谈论什么类型的集成?你知道,我们正在谈论整合数据。我们在谈论集成系统吗?
[开]
这是个好问题。实际上它可以两者兼而有之。所以首先,在这里还要澄清一下,卡夫卡还是这个冲突,不是什么。那么,Casper 真正是关于事件流的,它还包括数据的集成和处理,但通常,尤其是在工业 IOT 环境中,但也补充了我们的解决方案。因此,如果您在工厂中并希望将所有这些机器集成,甚至直接集成到 PLC,您有不同的选择,您可以直接集成到 PLC。所以像西门子的七模式或二模式总线,或者你使用一个特定的工具来给你一个具体的例子。我在德国看到很多,你当然,人们用很多西门子,所以他们有西门子三五七台PLC。因此,您可以使用像 Siemens MindSphere 这样的 IOT 解决方案,该解决方案专为此类机器的这种集成而构建。
另一方面,这可能不是与世界其他地方集成的最佳解决方案,这意味着您的客户关系管理系统以及其他数据库和数据湖或云服务。因此,在大多数情况下,工业物联网客户确实在这里称赞其他物联网平台。所以它更多的是关于数据集成,而不是直接的系统集成,而是说你可以做到这一点。因此,我们有客户直接集成到 PLC 和机器。另一方面,还有饮食集成和任何本质的 ERP 系统,例如 SAP,这始终是您必须在更深入的讨论中讨论的内容。所以有所有这些选项,人们使用 caftan 是一件很棒的事情,因为它开放且灵活,您可以将它与其他系统结合使用。这不是一个或另一个问题。
最后一点,听众可能还感兴趣的是,现代欧洲和 SSM 以及所有这些工具,其中许多也在幕后运行现金,因为还有软件供应商或这些企业供应商,他们有了解CAFCA的价值。因此也在此基础上构建他们的系统,因为这些系统也有相同的需求。因此,使用 Web 服务(如 rest 或 soap Web 服务)将所有内容存储在数据库中的传统方法不适用于这个更实时、更大的新数据集。这是我们随处可见的最早的方法,
[埃里克]
我想,在 IT 级别集成通常在 OT 级别是非常可行的。至少我的理解是,围绕公司为保护市场份额而设置的数据孤岛,我们仍然面临一些挑战。在开放 OT 级别以使跨供应商的集成变得更容易方面,您是否看到这里的任何趋势,或者,或者让我问您,当您在考虑部署时,这是一个多么重大的挑战?您是否总能找到解决方案?这是一个,这只是投入一点额外时间的问题,或者这是一个重大挑战?
[开]
这绝对是最大的挑战之一。这就是人们想要这样做的原因。正如我在今天开头所说的那样,当我们与客户交谈时,由于专有技术而无法访问该数据,因为到目前为止无法访问更新的基础架构,最终供应商被迫使用诸如 OPC UA 或[听不清],他们不想那样做,否则我会,客户真的会遇到麻烦。所以他们,软件供应商不得不在另一边稍微朝这个方向发展。此外,正如我所说,也有直接与 PLC 集成的技术。例如,如果你想得到一个快速的人。所以如果你想看看,我的工厂里有所有这些机器,我只想从中获取数据来监控它,得到报告。然后您还可以连接到 PLC。所以有点像西门子七。话虽如此,这绝对是获取所有这些数据的最大挑战。然而,这也是人们经常来找我们的原因,因为他们说我可以使用专有解决方案完成最后一英里,例如 Siemens MindSphere,但我们是遍布全球的全球供应商,拥有许多不同的技术。我们不能在任何地方都使用每个专有供应商,因为那是执行状态印章以及 CAFCA 是什么。因此,它使我们变得强大,一方面您可以与所有系统集成,但您也可以将所有系统相互分离。所以这意味着一方面,你可能有一些西门子,你可能有一些通用电气或其他什么。另一方面,您可以直接集成。您可以整合所有这些,然后关联所有这些不同的信息系统,如果您的欧洲系统的 MES 或您的数据湖,也可以将其组合起来,这就是 Kafka 如此强大的原因,因此它是开放和灵活的您如何集成它以及直接或使用免费的其他工具进行集成的用途。这就是为什么我们看到 CAFCA 用于物联网,而且通常用于这些用例,因为您可以与所有东西集成,但您仍然是开放灵活的。
[埃里克]
是的,我想这就是,开源的真正价值在于你有一个大型社区,可以解决和分享问题,分享学习,对吧。您在下一个主题中没有。我们已经稍微谈到了这一点,但这里是机器学习元素,我们已经讨论过,你知道的,在数据湖中进行模型训练,可能更好地存储在云上等等。但也许这里有趣的话题是,当您实施机器学习并且您在架构的不同区域之间进行细分时,您如何看待,比如说实时数据机器学习的未来。
[开]
是的,这是一个非常好的问题。这就是我们经常与人们谈论这个问题的原因,因为我们清楚地看到,对于任何行业来说都是如此,数据科学团队之间存在阻抗不匹配,他们想要分析白天构建模型并进行预测,以及运营团队,可以在云中,也可以在工厂中,非常非常大规模地部署。所以你已经看到了,我见过太多的客户,他们甚至将所有数据从机器中获取到云中。因此,数据科学家可以构建出色的模型,但他们无法再将其部署到生产环境中。因此,您始终必须从一开始就考虑这一点。如果您是一名数据科学人员,可以访问所有历史数据,那么在您开始使用它之前,您需要考虑我的 SLA 是什么,以便以后部署它,它是否必须是实时的?对于大数据,对于小数据,数据集是什么。我的 SLS 是什么。而在生产线中,通常是 24 七个对骑行至关重要的任务,然后以不同的方式配置 CAFCA。然后,当您仅在云中运行它以进行分析时,如果它关闭了几个小时并考虑到这一点,那么为什么我们在这里也看到这么多 Kafka 是因为如果您使用 Kafka 构建过这个管道一次,将会有巨大的优势.因此,假设您有 Kafka DH 与机器集成。然后,您还将数据复制到云端并进行分析。他们是,这条带有 Kafka 的管道是关键任务,运行 24 7 个。于是卡夫卡就建好了。它是一个,它是一个,它是一个处理问题的系统。因此,即使通知关闭,或者存在网络问题,CAFCA 也会处理。
所以这就是它本质上是如何构建一个分布式系统的,或者它不像一个主动被动系统,或者你有维护停机时间,这在 Kafka 中不存在。而且,如果您将它们装在管道上,则可以同时使用它们。您可以将其用于摄取、进入数据分析云,其中数据以历史模式用完数据,批量用于训练或交互式分析。但是同样的管道可以用于生产部署,因为它运行关键任务。因此,您还可以轻松地使用它来进行预测和质量保证,因为这些应用程序始终运行而不会停机,即使在发生故障的情况下也是如此。这就是这些关键优势之一。您可以为所有内容构建一个机器学习基础架构。当然,我是管道的一部分,使用不同的技术,但这正是关键。
所以数据科学家总是会使用管道客户端,对吧?所以他们通常用十二点做快速原型设计,比如木星和通灵学习。这是框架,数据科学家在生产的另一端,在生产线上,您通常不部署管道,并且由于不同的原因,它无法扩展。好吧,这不是一个强大的性能。它们是,您通常部署类似 Java 或 C plus plus 应用程序之类的东西。而作为中间的 CAFCA 处理背压,也是解耦系统,你可以使用这些不同的连接技术,数据科学家可以使用 Python,而生产工程师使用 Java,但你使用相同的数据流。 .
[埃里克]
您还参与构建机器学习算法,或者您是否只专注于管理数据流,然后客户将拥有一些他们用来分析数据的系统。
[开]
所以这是真的,我们正在构建实时基础设施,包括数据处理集成。然后这就是数据科学团队真正选择自己技术的地方。但这也是在这里理解和指出的。这正是优势,因为这里所有这些团队都是不灵活和不同的。上周我实际上接到了一个客户电话,这确实是过去不同团队使用不同技术的正常现象。每个人都试图为此拥有一种标准技术,但在现实世界中,一个数据科学团队使用这个框架,比如 TensorFlow。另一个人说,不,我正在使用谷歌机器学习和其他一些服务,比如终端和这里,因为袖口的中间是解耦系统。您还可以灵活选择选择何种技术。因此,现实情况是,我们的大多数客户都没有一个管道可以将所有数据从 a 发送到 B,但您通常有许多不同的消费者,这可能包括分析工具,您必须根据具体情况进行选择。你的问题和使用。
[埃里克]
好的。有趣的。我认为我们想要讨论的下一个主题是用例。我认为这在这里非常重要,因为了解它的实际部署方式,但在我想详细介绍一些端到端用例之前,我在这里有点切线,这是一个问题最近有很多公司问我,我没有一个很好的答案。所以我希望你有一个更好的,那就是,有没有 5 G 的用例在 20、20、20、21 中真正有意义?或者我们真的吗,你知道,我已经考虑过这个问题,你知道,我已经和一些人交谈过,看起来增强现实对于工业来说是有意义的,因为高带宽要求,你知道,无线解决方案.一旦你让 AGV 变得更加自主,它们可能就有意义了,因为你有同样的情况,你知道,延迟,带宽无线,但似乎还没有这么多。
我的一种假设是,随着 5g 的部署,工厂的 OT 架构可能会开始发生变化。你知道,可能会少一些电线,然后你可以选择以无线方式建造 Greenfield。所以这可能会改变架构,然后人们会专门为此开发解决方案,这种新的连接架构。然后,然后你可能会说,好吧,现在它提供了真正的价值。但是你知道,除了 AGV 和 AR 有点茫然,无法识别任何在短期内真正非常实用的东西,你所说的任何你遇到的东西,是的,这个 5G 真的会解决一个真正的问题为您的一位客户。
[埃里克]
我认为是的,因为今天最大的问题之一肯定是网络和数据通信,因为今天当我去客户那里做工厂时,它已经存在了 20 年,通常是集成模式,我们如何从这些机器中获取数据类似于一个 Windows 服务器,您将在其中连接,然后您将获得一个包含上一小时数据的 CSV 文件,因为没有更好的集成连接。所以我绝对认为,总的来说,通过他们的网络,我可以为边缘的 OT 实施更好的架构。但是说到这里,我也看到了这些关于 5G 的不同意见的讨论。因此,当然不仅有五个便宜,而且还有工厂。还有其他标准和可能性,如何在那里建立网络。还有我认为如果 5g 进入这个工业物联网,我猜更大的工厂等等,他们会为此建立一个私有的 5G 网络。
[开]
所以这也是可能的。我认为这很好,因为我不希望至少从我的客户对话中看到这是云供应商想要的。但是,如果你直接将所有这些 5G 接口从边缘和云端集成,但这可能不会发生,因为安全性和合规性以及所有这些事情,但对于私有 5G 网络,我认为这将是一个巨大的为 OT 中更现代的架构迈出一步。当然,这也是构建更多产品或从中获得更多价值的基石,因为今天工厂最大的问题是人们无法将数据从机器获取到其他系统进行分析.
[埃里克]
好的。明白了。我猜在棕地,你还需要某种硬件吗无论是网,我想。正确的。但那,那变成了
[开]
是的,正是。我的意思是,这只是不同的选择。我的意思是,那么您只需以某种方式将这些机器和生产线中的数据导入其他系统,它可以与 Ethan 一起使用,也可以与 5 G 一起使用,最佳解决方案取决于成本、可扩展性和 NCO。
[埃里克]
好,太棒了。但是很抱歉把它记下来了,让我们进入其中的一些用例。所以你有,让我们看看。实际上,在您提及之前,我不会提及任何这些。我不想丢掉名字,但有一个联网的汽车基础设施。我们应该从那里开始吗?
[开]
是的,这是一个很好的第一个例子。这也与 5G 问题有很好的关系。我想,让我解释一下。所以我认为我们可以在这里涵盖三到四个用例,因为对我来说,当我谈论事件流时,重要的是真正谈论不同的用例,以便人们看到,这不仅仅是针对一个特定场景和一个联网汽车基础设施。作为一个很好的例子,我们在许多客户中看到,奥迪就是其中之一。所以德国汽车公司,我们在四年前就开始与他们建立积极的会议结构。所以他们实际上做的是他们需要与所有在街上行驶的汽车整合。我从八辆开始,还有一辆更豪华的汽车,但他们现在正在将它推广到所有新车上,发生的事情是所有这些汽车最终都连接到云中的流式 Kafka 集群,这样你可以从用例的角度实时对所有数据进行数据关联,对售后之类的东西有需求,对吧?
[埃里克]
那么,您是否总是出于不同的原因与您的客户沟通?就像一方面我向他们发送警报,说他们的引擎有一些奇怪的温度峰值,也许他会去下一个维修店,但同时也是为了让客户乐于进行交叉销售,或者如果你从特斯拉那里知道,您甚至可以升级您的汽车以获得更大的马力。并且有很多用例。然后您甚至可以与合作伙伴系统集成。例如,如果主席自动高速公路上的餐厅或您正在开车,那么您就做了推荐。如果您在午餐时间在这家餐厅停下来,那么您将获得 20% 的折扣和诸如此类的东西,您会看到这里的编辑价值实际上不仅仅是将数据从汽车中获取到其他系统,而是真正关联和使用这些数据以 24 7 的比例实时显示。这正是融合的这些用例之一,我们正在做什么以及从这些汽车正在做什么的技术角度来看。我的意思是,我当然是 Dara,在这种情况下,我今天使用的是作弊。这是一个很好的例子。如果你在这里有五个作弊,你可以做更多的事情,因为数据仍然是来自汽车的数据传输,是成本和延迟以及所有这些事情的最大限制因素。
[开]
好的。好的。很有意思。其中一个主题,也许我们不必在这里专门与 ADI 交谈,因为这可能是一个更敏感的主题,但是一旦你进入这些你有售后服务的情况,例如,当然,不仅仅是对原始设备制造商来说具有价值,但对于许多不同的公司来说,这些公司可能也希望向这位司机、这位车主销售服务,这具有潜在的价值。因此,这不仅成为移动数据的问题,而且还涉及规范谁可以访问数据、以何种方式访问数据、在何种程度上匿名或不匿名。那么,有哪些元数据可用等等,你是否参与了这些关于这件事的讨论,这变得聪明地进入了关于法律隐私的讨论,好吧,我们可以做些什么来喜欢将我们拥有的这些数据货币化?
[开]
是的。所以,实际上这就是问题的全部。我的意思是,尤其是在你担任欧洲主席期间,我们的隐私真的非常非常难,对吧?例如,它与美国并没有太大的不同,因此我们一直在进行行业介绍的讨论,并且您必须符合安全要求,这当然是对话的一部分。例如,您需要符合 GDPR 以及德国和欧洲的要求。所以这是问题的一部分。这也是,我非常需要从架构的角度来考虑这个问题。那么谁可以访问哪些数据?因此,这也是 Confluence 发挥作用的关键,因为如果开源 Kafka,您必须自己使用 Confluent 来实现它,然后您将拥有诸如基于角色的访问控制和审计日志之类的东西。的功能,它可以帮助您解决多租户和所有这些问题。
考虑到这一点,这也为所有这些供应商带来了更多的问题和疑问,因为正如你所说,不仅仅是奥迪或者让我们远离音频,而且总的来说,汽车公司想要获得附加值,但是也是一级和二级供应商。这真的是一个很大的讨论。这就是今天所有这些供应商都面临很多挑战的地方,没有人知道它的发展方向,但今天每个人都在实施自己的联网汽车解决方案。因此,如果您为此进行谷歌搜索,您会发现许多汽车公司、许多供应商以及许多第三方公司,它们今天都在实施,但没有人知道它的去向。但是今天我已经看到一些汽车公司,他们的汽车不仅仅是向一个供应商的一个接口发送数据,而是向两个或三个不同的接口发送数据,因为每个人都想把数据拿出来。
所以这确实是未来几年我们肯定会整合事物和新商业模式出现的地方。在我个人看来,唯一现实的未来是这些不同的供应商也更多地合作。这将会发生,因为它不仅适用于汽车公司,也适用于供应商。如果你看看这些创新,它们就是,它们都在开发软件。如果您参加某种会议,他们不是在谈论硬件,而是在谈论最重要的软件。因此,这确实是市场正在发生彻底变化的地方,因为在这个汽车示例中,在某些年份,许多人不会关心它是奥迪、梅赛德斯还是宝马,而是它与您的智能手机和其他汽车的集成程度如何技术。因此,这是完全进入市场的转变。我们今天在每辆汽车或每家物联网公司都看到了这一点。
[埃里克]
好的。很有意思。是的。这是一个经常出现在我们的客户中的话题,他们有时是汽车一级、二级供应商,对吧。然后他们面临着从原始设备制造商那里获取数据的挑战。而且,您知道,我们现在生产空气过滤器,原始设备制造商永远不会向我们提供我们的数据。正确的。但是我们有这些,我们有这些商业案例。正确的。所以,是的,这是一个非常有趣的讨论。好的。然后我们在这里介绍的下一个是博世的施工跟踪。我认为跟踪和追踪非常有趣,因为它适用于你知道的,基本上任何管理动态资产的人。这里有什么问题,你对博世做了什么?
[开]
所以,这是印度的另一个大问题,也澄清了不同的用例。第一个是让所有有人参与的云进行分析和使用数据。这是普通的混合动力车。是不是我不感兴趣的派对,因为在我更多地谈论这里你看到的用例之前,这也不是所有的实时数据或大数据。因此,在这个用例中,它实际上是关于更小的数据集以及请求响应通信,而不仅仅是流数据。这里的用例是博世有几个不同的建筑区域,但他们与合作伙伴一起使用,并在哪里建造新建筑物。然后你有很多设备在机器中,当然只有一侧,新设备和机器都有传感器,不断地更新后端系统。
但是他们在这里也遇到了许多不同的问题和用例。就像施工区的工人不知道机器或设备在哪里,也不知道什么时候对设备进行维护,更换电池或其他东西。因此,在这种情况下,它实际上是一个跟踪系统,您可以在其中监控来自所有系统的所有信息。实际上,它不仅仅是一台机器和设备,还跟踪和跟踪有关我们客户的信息。因此,每当工人完成某件事时,他都会使用他的移动应用程序。在这种情况下,所以不是流数据,他单击按钮然后它是均匀的,但只是发送到后端,数据存储在那里并相互关联,这样,保时捷首席解决方案,让他们真正了解所有每个合同施工区域的正确上下文中的正确信息。
最后的边缘也同样重要,也就是建筑区域。但是在后端,当然,这对于管理和监控所有不同的项目也很重要。而且所有这些数据都用于分析工具,因为数据科学团队会查看所有建筑领域以及正在发生的事情以及如何改进他们为他们构建的新产品提供的产品或服务。如果这个解决方案也将它部署到云中,这样他们就可以与所有这些不同的边缘系统集成并存储信息并关联它,在这里,我在这个用例中也很重要,他们不只是持续处理数据,但他们也会在 Kafka 中启动数据,以便您也可以使用旧事件。这是我们尚未讨论的部分,但这很重要。
所以在 Kafka 甚至流媒体系统中,一切都只是颠倒了。所以它甚至是基于羊群或事件的保证顺序。然后你也可以获取一些旧数据。所以数据科学家不会像其他人那样实时消费所有数据,但他们会说,给我这个建筑区域最近几个月的所有数据。然后他们想将它与过去三个月从另一个核心建设领域联系起来。他们看到这个建筑区域可能有一些具体的问题,然后他们可以找出问题所在。所以这是一个很好的其他用例,因为这是混合的,这不是大数据,这不仅仅是实时数据。但这仍然是关于 Kafka 对这些事件的集成和处理非常有意义。
[埃里克]
是的。从最终用户的角度来看,这是一个非常有趣的问题,对吧?因为你真的有,即使在建筑工地,你有许多不同的最终用户,他们对数据有完全不同的要求,从寻找工具的人到维护团队,再到管理层,这就是决策关于我们实际需要多少、多少资产等等。我想,是的,再一次,回来,你没有进入,你正在铺设架构。因此,您涵盖了为此所需的架构,但您不会就这些单独的用例向他们提供建议。那是对的吗?或者您是否曾经参与建议哪些用例可能有意义或有帮助?
[开]
这就是为什么我们也有,我的意思是,因为我们有来自所有其他客户的经验。因此,我们也在咨询和参与和方法的帮助下进行。我们不是在做项目本身。因此,这通常是合作伙伴所做的或他们自己所做的。我们确实在流媒体部分和基础设施方面提供帮助,但仅从小牛的角度来看,因为我们没有在这方面进行大规模项目。这也许也很重要。所以正如我之前所说,真的,即使是流媒体也没有竞争力,但真的是免费的,也是管理团队的整体解决方案,后端有一些 MBI 工具。所以这不是中央美术学院,对吧?因此,您可以在此处连接 Tableau 或 Power BI 等传统 BI 工具,或者单击所有这些供应商并连接数据的两个部分。所以这真的是免费的。
[埃里克]
好的。好,太棒了。是的。大约一个月前,我们正在与一家欧洲建筑公司合作,进行跟踪和追踪,嗯,我们当时正在调查他们在中国的情况。我可以通过跟踪人员的位置来加强建筑工地的运营。而且,而且,你知道,我们的人聚集在一起,都是戴着口罩的人,等等。所以这是一种对人们的追踪和追踪,它还可以,在中国非常有效。然后问题是,我们如何将其转化为欧洲市场,这可能都是高度非法的?然后我们想研究的最后一个是能源,一种能源,用于智能家居和智能电网的配电网络。所以这个,是的。完全不同的一组问题。什么,这个案子的背景是什么?
[开]
是的,所以,这就是能源供应商永旺(Aeon)的一个例子。这类公司也有一个完全改变的商业模式。这通常是卡夫卡真正重塑公司的地方。他们经常遇到的问题是,在过去,他们只生产自己的能源,比如核能。当然,这显然是转向更多的绿色能源等等,但商业模式也必须改变,因为他们不能再仅仅销售能源,而且他们也看到越来越多的客户或最终用户,他们自己生产能源,就像他们房子上的太阳能一样。而且通常它们产生的能量甚至超过了它们所使用的能量。所以他们想卖掉它。因此,我支持这个示例,Ian 建立在流式物联网平台上,该平台也是混合的或云中的一些分析,但其他一些处理更多地处于边缘以及他们最终在做什么。
它们不再像在分发平台上。所以这仅意味着一方面,他们仍然与我们自己的能源系统集成以出售他们的能源并进行会计、计费和监控。当然,这里所有这些事情都必须提及,因为它仍然是实时的。甚至对于更大的数据集,这些产生了两个数据系统,他们可以处理它。但另一方面,他们也知道直接与智能家居、智能电网和其他基础设施集成。这样他们就可以进入最终用户的系统,就像客户拥有智能家居一样。有了这个,他们现在提供更多的服务。在这种情况下,例如,您可以出售您的沙龙,将成果转让给另一个人,他们为此提供了平台。这实际上只是其中一个例子,或者他们有几十个例子,因为这些公司和能源,他们必须彻底改变,在某种程度上,他们的商业模式,这是公平的,CAFCA 有帮助。
太好了,因为只有一方面是实时数据。因此,您可以对其进行扩展并连续处理数据,但另一方面,它也会再次将系统解耦。因此,智能家居系统与人工智能完全脱钩。有时它会向系统发送一个新的更新,例如传感器信息,以便系统知道,嘿,这房子产生了很多能量。现在我们可以卖了。所以请以某种方式分发它。这又是许多不同特征发挥作用的地方。所以它只是一方面混合,非常适合在云中进行分析,然后也是代理配给。但另一方面,这也是一个真正的关键任务系统。这必须运行 24 七。所以它分布在不同的地理位置。有了这个基础设施,这确实是他们系统的关键中心,可以与他们自己的基础设施集成,也可以与所有客户和最终用户集成。当然,还有像你这样的合作伙伴,这与汽车行业的策略相同,这些公司的未来不会把所有东西都放在自己的位置上,但他们会与合作伙伴系统相得益彰,这些系统在一个特定的利基市场中非常好。他们为此提供了分配系统。
[埃里克]
好的。是的。这是系统的对比,对吧?你有一个关键任务实用程序,然后你有你祖父的家,你知道,我想你有很多不同的类型,因为我们不是在这里谈论总是使用智能手柄的企业规模,但我们正在谈论还可能使用多种不同的技术、不同的连接解决方案等进行家庭部署。在那里,这是一个挑战,还是已经相当标准化,当他们在家里安装太阳能部署时,已经部署了正确的连接基础设施,以便于集成,或者,或者是那是一个挑战吗
[开]
在这种情况下?这比在工厂和工厂中要容易得多,因为在这里您不必挑战每个供应商都是非常专有的,并且并不真的想把数据拿出来。在这种情况下,它通常只有一个站点,也不是 30 年前的机器,就像在生产线上一样,但它真的可能是旧的小型设备的氨。因此,这些制造商也采用了更现代的技术,而她的不同之处在于他们希望您将其与其他系统集成。因此,这通常具有标准接口或 API,例如 MQTT 或 HTTP。所以这实际上很容易整合,因为这里的商业模式和整合理念与生产线和计划有很大不同。所以这真的很简单。再次,这些接口中的一些是实时和传感器基础,这确实是一个更大的挑战。其他一些更像是基于拉的,你每小时询问一次系统。这正是 Kafka 的用途,它不仅仅是一个消息传递系统。它还具有集成功能。因此,使用 Kafka 将这些不同的技术和通信、通信、电源 Dignitas 集成起来非常简单,并且仍然关联所有这些不同的数据集和协议以从中获得价值。并发送一个 X 或警报或任何用例。
[埃里克]
好的。有趣的。是的。我在读一篇文章,大约一个月前,它说我认为是在德国或英国,可再生能源在电网中的百分比飙升至 33% 左右,这是一个很高的水平,对吧.这是由于几个因素,我认为像更低的能源,更低的空气污染,因为工厂被关闭和其他一些因素。但我认为这是五年前的事情,人们认为这是一种世界末日,对吧?你不能,你不能处理可再生能源方面的那种波动。但我认为卡夫卡是能源网格现在能够处理比设计正确的负载变化大得多的部分原因。 10年前。
[开]
嗯,这真的改变了你的住宿方式。所以每年你都会看到新的创新。实际上,Kafka 是许多不同基础设施的核心。通常你看不到它,因为它更多是因为它在引擎盖下,对吧。但实际上不仅仅是这些典型的最终用户项目在使用 Kafka,而且这些软件和技术供应商也在幕后使用 Kafka 来构建新产品。]。
[埃里克]
好的。这真的很有趣,我们在这里错过了什么?人们了解事件流还有什么重要的?
[开]
最重要的是,今天它不仅仅是将数据摄取到数据湖中。这就是人们在过去五年中所知道的,但实际上,今天和一半的事件流主要用于关键任务系统。这就是我们 95% 的客户所做的。这就是他们来找我们的原因,因为我们拥有与非洲有关的专业知识,并且或多或少地建立了它的许多部分。因此,这确实是最关键的事情。而且它只是处于边缘还是真的不是全球部署都没有关系。因此,我们提供您可以部署的技术。 CAFCA 全球。我们有许多在世界各地运营和工厂的工业客户,您仍然可以实时复制和集成世界各地的大数据集。当然,这里有不同的架构选项和不同的 SLA 不同的组件,但这确实是从工业物联网会议中带走的关键力量。
[埃里克]
凯非常感谢您抽出宝贵的时间。我的最后一个问题是人们应该如何联系你?如果您在 LinkedIn 或 Twitter 上与我联系,我会很高兴。所以我真的在场。他们对那里的用例和架构师进行了大量更新。当然,您也可以查看我的博客。嗨,维娜,嗨,减去酒或茶,或者你的支票,链接可能。但这确实是我每周或每两周写一篇关于物联网的博客的地方,并且围绕事件流和不同的事件有很多不同的用例和架构。好的,完美。然后我们将把这些笔记放在节目笔记中。再次感谢。是的,不客气。很高兴来到这里。
[结尾]
感谢您收看另一个版本的工业物联网聚光灯。不要忘记在 IoTONEHQ 的 Twitter 上关注我们,并在 iotone.com/casestudies 上查看我们的案例研究数据库。如果您有独特的见解或项目部署故事要分享,我们很乐意在未来的版本中介绍您。写信给我们 team@iotone.com