播客 > Ep. 195 - Affordably Manage the Deluge of Unstructured Data
Ep. 195
Affordably Manage the Deluge of Unstructured Data
Brian Pawlowski, Chief Development Officer, Quantum
Friday, December 15, 2023

在本周的节目中,我们请到了Quantum的首席开发官Brian Pawlowski 。 Quantum 帮助组织充分利用不断扩展的非结构化数据的潜力,为未来几十年的数据存储提供经济实惠的解决方案。

在我们的对话中,我们深入研究了在非结构化数据的指数级增长和人工智能的变革能力的推动下不断变化的数据环境,使组织能够从这些丰富的数据中获得有意义的见解。此外,我们还考虑了特定用例需求、预算限制和安全考虑因素,研究了云和本地存储解决方案的最佳组合。

关键讨论点:

数据使用和特征的哪些根本变化将非结构化数据与过去区分开来?

长期数据归档、企业备份、监控和安全的用例是否都由同一架构提供服务?

中国和印度等国家/地区的数据存储和 PII 处理方面的政府法规对 Quantum 有何影响?

您可以在以下位置找到他:

网站:https://www.quantum.com/

领英:https://www.linkedin.com/in/brianpawlowski

音频文字.

埃里克:布莱恩,非常感谢您今天加入我们的播客。

布莱恩:嘿。谢谢,埃里克。很高兴来到这里。

埃里克:是的,所以我可以提前告诉你,这对我来说将是一个挑战。我认为你们所做的工作主要是在物联网的 IT 方面,而我在应用程序方面更熟悉一些。因此,我期待着您今天教育我以及其他观众。

布莱恩:是的,这应该是一次很好的谈话。

埃里克:让我们先介绍一下您的背景。您是 Quantum 的首席开发官。你以前扮演过一些有趣的角色。您曾担任 DriveScale 的首席技术官。您曾担任 Pure Storage 的副总裁兼首席架构师。您曾担任 NetApp 的高级副总裁。所以你有非常深厚的技术背景。是什么让您经历了这些角色,直到今天在昆腾就职?这个问题或公司的什么吸引了你?

Brian:我想说,Quantum 有两件事吸引了我。一是首席执行官 Jaime Lerner。新冠疫情期间,我在圣克拉拉当时为数不多的几家还在营业的餐馆之一遇见了他。那是一家很棒的意大利餐厅。他在餐馆里很有品味。我对他有利。但当我们坐在晚宴上谈论量子以及他对公司和产品组合的愿景时,围绕非结构化数据和端到端解决方案,使人们基本上能够从他们的数据中获取商业价值——云的边缘,还是存档的边缘,取决于你如何解决问题——我发现这个愿景很引人注目。我真的做到了。事实上,在过去的近三年里,我基本上是在帮助杰米在量子内部实现这一愿景。

我认为当杰米和我说话时令我震惊的是第二部分。如果你看看我以前工作过的公司,只要稍微眯一下眼睛,基本上就可以注意到它们都是单一产品的公司。 NetApp 在 20 世纪 90 年代初就推出了所谓的“存储设备”。但现在他们称之为 Data ONTAP。这是他们收入的主要部分。同样,对于 Pure Storage,他们有 Purity OS、FlashArray 和 FlashBlade 系统,它们本质上分别是数据库和非结构化数据的同一概念的不同实现。 DriveScale 是一家只有一种产品的初创公司。所以我花了很多时间在一家产品公司开发一种产品。但在昆腾,这对我来说是一个持续的挑战。这就像我在装载第七个盘子时让六个盘子旋转一样。我从来没有做过那样的杂技或杂耍。

Erik:不仅是多产品,而且是真正的多技术堆栈,对吧?

布莱恩:是的。

埃里克:你们有很多专门的硬件、软件。所以它实际上是一个相当复杂的投资组合。

Brian:是的,我们的专业硬件确实专注于我们的——我们称之为自动化或磁带业务。这绝对是我们用机器人和真实硬件定制的。不仅仅是带有 CPU 之类的假硬件。那是假的。真正的硬件涉及机器人在机架之间来回移动并拾取磁带并将其加载到驱动器中。那是硬件。这绝对是习俗。

但我认为,对于我们投资组合的其余部分,我们实际上齐心协力,尽可能多地使用大批量商品。我称它们为商品。戴尔会把它们称为“高容量”。他们不喜欢商品硬件这个词。但我们尽量避免硬件上的任何精品,而是专注于软件增值。这就是我们的差异化所在。

埃里克:明白了。好吧,在我们过多讨论您的投资组合之前,让我们先退后一步,讨论一下非结构化数据的主题。因为公司长期以来一直在应对与数据相关的挑战。我想问题是,现在有什么不同需要一套新的解决方案、新的架构?我认为这里的关键是公司正在处理的“非结构化”这个词,其数量不同,并且可能会使用它。

您能向我们介绍一下您的思考过程吗?现在人们使用的数据类型以及使用方式有何不同?为什么这需要一套新的解决方案或不同于历史数据管理工具的解决方案?

布莱恩:请留意我发给你的图表,即图片,因为它会对谈话有所帮助。这是一个简短的历史课。我职业生涯的早期阶段是在存储领域度过的。我已经在仓库里呆了很长时间了。

很久以前,IT 领域的大量支出都围绕着存储。它基本上围绕着公司所有业务方面的数据库系统的维护和提供。任何其他事情,比如很久很久以前的电子邮件之类的东西,在投资和管理方面都远离了 IT 的雷达屏幕,以至于他们没有考虑到这一点。这一切都与业务应用程序有关。其中很多都围绕数据库,这就是结构化数据这个术语的由来。

当人们说结构化数据与非结构化数据时,最简单的看待方式是,结构化数据是数据库,它具有特定的格式和访问它的特定应用程序,但它们的数量很少。实际上,数据足迹相当小。非结构化数据实际上就是其他一切。这将包括今天——好吧,稍微向前推进一点——电子邮件、网络、网页、音乐。我实际上正在看我的图表,我的漫画。音乐、视频,现在都是数字化的。这真的很重要。我会回到那个。科学数据,无论是来自卫星或太空任务的遥测数据,我们不断发送更多科学数据来确定将它们放在什么火箭上,或者是用于石油和天然气勘探的地球物理数据。在生物领域,生物制药就是遗传学发现、药物发现和基因组图谱绘制。我刚刚回顾了历史,了解了我们今天所处的位置。

我刚才提到的所有内容的问题是,它们中没有一个会进入数据库。它们是文本文件。它们是未压缩或压缩的视频文件,当您想要观看最新的电影时,有时会流式传输它们。它们是您在 Spotify 上收听的 MP3 或音频。然后是自动驾驶汽车之类的事情。我有两辆特斯拉。如果你想稍后我们再回到这个话题。这些汽车收集和用于开发自动驾驶功能的数据量是巨大的。它们都有不同的格式。他们没有放置数据库。它们通常是文本文件或 JSON 文件的变体或这些二进制文件,它们是所有视频或音频文件编解码器的特定格式。

有趣的是,在 1990 年,每个人都担心如何保持数据库正常运行,以及如何从中获得性能?我想说没人关心,真的。我想说的是,他们确实关心大部分支出。但目前 IT 支出的大部分实质上是用于管理每天驱动其业务的海量非结构化数据,这些数据来自多种来源。这是一个非常复杂的情况。那有意义吗?

埃里克:这是有道理的。绝对地。也许还有另一个角度是我在日常工作中更倾向于解决的问题。因为我通常不会在后端帮助公司找出如何有效管理数据。我经常帮助公司找出这些数据的价值。至少从我的角度来看,与结构化数据相比,非结构化数据的实际价值存在更多不确定性。

通常,对于结构化数据,其采购是有目的的。它适合数据库。也许您仍然发现了它的新用途。但通常情况下,我们使用这些数据的用途似乎是相当透明的。对于非结构化,我觉得我有很多客户基本上都说我们已经获得了所有这些数据。我们认为这些不同领域有巨大的价值,但我们不太确定实际价值是多少。我们认为,根据这些数据量,我们的研发效率可能会提高 5 倍。我们现在并没有真正使用它。我们不太确定如何使用它。但我们只知道其中蕴藏着很多专业知识。因此,感觉在业务模型方面或解决方案方面也存在更多的不确定性,并且这些数据集中可能存在很多隐藏的价值。

布莱恩:是的,绝对是。我的意思是,当我们进行这次对话时,我没有指出的大象就在我们周围,那就是人工智能和机器学习,以及通用人工智能和当今正在发生的一切。所有这些非结构化数据都来自许多不同的来源。

在我家里,就智能家居之类的事情而言,我个人几乎称自己为勒德分子。然而,我有电灯开关。我正在与周围的一个小集线器和网状 Wi-Fi 进行通信。这本质上是利用 Wi-Fi 信号中断来确定是否有任何运动。所以它充当了我家的安全系统,Plume pods。它使用所有 Wi-Fi 连接设备和信号中断来确定房屋内的运动。

埃里克:抱歉。我得打断你一下。我昨天刚刚与一家名为 Origin AI 的公司进行了播客。我不知道这是否是其背后的技术,但这正是他们所做的。有趣的是你提出了这个问题。这是一项令人着迷的技术。

布莱恩:你知道这是什么吗?它基本上是获取大量数据并对其应用算法和转换以及一些基于人工智能的智能来提取模式和信息。当你退后一步看它时,它真是太酷了。只是,回到1990年。就是这样。没有人考虑这个。如果有人思考这个问题,我想看看他们在过去 30 年里买了哪些股票。因为它既令人兴奋又越来越具有挑战性,而不是变得更简单。

顺便说一句,房间里的大象人工智能和机器学习,人们发现他们正在收集大量数据,但不知道如何处理,除了删除之外,他们基本上可以为机器学习算法提供数据开发业务分析方法,当您提供更多数据时,该方法的保真度会更高。因此,如果你想采取积极的一面,它就会形成一个恶性循环或良性循环。您拥有的数据越多,输入人工智能机器学习算法的数据就越多,它就会变得越准确和有用。它为您提供了执行更多类型的应用程序的想法,这些应用程序本质上是学习应用程序的日常数据,顺便说一句,这导致每个人都处理相同的事情。我的车库里有,不要扔掉任何东西。收下。因为你永远不知道什么时候会需要它。所以就永远保留一切吧。

埃里克:没错。这就是 IT 供应商的梦想。但在某种程度上,这就是现在的思维过程。我想 OpenAI 推出后你的估值可能会翻倍。因为现在公司正在查看所有这些一直存在的非结构化数据,这些数据在不同的文件中基本上没有用,或者可能每四年被某人偶尔使用一次。突然间,我们有了有望利用这一点的工具。当然,那么我们必须将其引入本地,对吧?因为公司,至少拥有自己的数据集,他们不会将所有内容上传到微软这样值得信赖的合作伙伴。他们希望在本地完成大量此类工作。

让我们来谈谈如何帮助公司解决问题。我想数据管理问题有很多不同的层面。您在架构中处于什么位置?

Brian:我将用两个例子来让我们了解 Quantum 产品的广度以及我们如何管理它。然后我们将讨论我们如何尝试管理这个故事。我们拥有的一件事是,我们有一款名为 ActiveScale 的产品。它是一个与 S3 兼容的对象存储。 S3 是 Amazon 使用的对象存储 API,它是存储在 Amazon 上的大量数据。它是通过 S3 API 访问的。我忘了S3代表什么了。简单的存储系统或类似的东西。无论如何,这是对象存储标准。

我们有一个名为 ActiveScale 的产品。还有其他对象存储系统。 S3 上的所有内容都具有所谓的 put 和 get 对象的数据交换格式。大约一年半前,我们推出了一个名为 ActiveScale Cold Storage 的产品版本,它本质上合并了我们的大型磁带机器人库。我们谈论的是数千个磁带,以及数十个磁带驱动器和机器人,它们用盒式磁带加载和卸载磁带驱动器,并基本上维护所有数据的内容和位置的目录。

我们把它放在我们的 ActiveScale 系统后面,并且基本上提供(不要太粗鲁)一个廉价且深入的基于 S3 的对象存档,它允许您长期存储数据,并能够使用行业标准 API 和S3 对象接口。所以你永远看不到磁带。你永远不会想到磁带。除了对象存储接口之外,您无需考虑任何其他事情,就像编写用于 Amazon 存储访问的应用程序一样。这是我们这里的一件事。其中重要的部分是廉价且深入。

埃里克:特别是对于这一点,您能帮助我们了解两个方面吗?与传统的云解决方案相比,该解决方案的成本结构是什么样的?那么,考虑到有收集硬件的物理组件,通过此访问数据的延迟是多少?

布莱恩:我要在这里挥挥手,然后也许我可以跟进。当我想到磁带时,我想到的是基于磁盘的存储成本的十分之一。这主要来自媒体成本。对于媒体来说,这是每 TB 美元。磁带与旋转磁盘相比更低。而且,就占地面积密度、数据中心空间和功耗而言,总成本只是保持磁盘旋转以访问数据的一小部分。因为磁带放在小隔间里用于所有密集用途,所以它放在架子上,不消耗任何电力。这对于从根本上降低成本来说绝对重要。

关于磁带与磁盘的另一个问题是,在正常存储考虑下,磁带已被证明是一种可靠的存档方法,可将数据存储 5 到 10 年或更长时间。磁盘,当你考虑它们时,你会想到 5 年保修期,最多 7 年,并且随着时间的推移,某些人群会退出。磁带一直是一种长期存储技术,可用于永久备份等。它是一种易于理解、成熟且管理良好的技术。

我们所做的就是将 S3 放在前面,将它们带入 21 世纪。这本质上就是亚马逊对其 Glacier 存储层所做的事情,这基本上是在那里存储数据的方式。在访问时间方面,我想说的是,访问一个大文件需要几分钟的时间。有时,您可以将策略放在一起以缩短时间,例如分钟或亚分钟。但你的权衡是你可以存储大量数据,然后你就会有访问延迟。这不是我所说的,它是一个新的近线存储。

他们过去使用廉价磁盘、速度较慢的磁盘并异地存储来实现此目的。您将访问数据。它不像主存储那样在线,现在主存储以固态闪存为主。它是缓慢旋转的磁盘,而且数量很多。访问该数据需要一段时间。磁带正在用更慢、更便宜的解决方案取代所有这些近线应用程序。这就是您为了省钱而放置数据的权衡。

埃里克:是的,这是有道理的。因此,如果您正在做机器学习之类的事情,您需要将其用于培训。然后去维修一下就没有问题了。您不会在其上运行实时应用程序。但无论如何,您通常不需要大量数据。

如果我查看您的用例,您会发现这里突出显示了四个用例。其中两个:长期数据归档和企业备份似乎是您刚才解释的技术的非常简单的应用。然后谈谈监控和安全以及勒索软件恢复。它们是否使用相同的架构,或者这些解决方案是否有不同的架构?其他的是什么?因为你确实拥有多元化的投资组合。

Brian:我想说,我们在这个领域拥有三种产品,用于备份长期归档、勒索软件保护和数据恢复。显然,我们有传统的磁带库。这些磁带库,我们在传统备份应用程序中销售。我们与主要备份软件供应商合作,这些供应商本质上是我们的磁带前端,并从您的主存储系统中提供数据存储和编目,并将其放入磁带上并为您透明地管理磁带机器人。您基本上使用备份应用程序与我们的产品(我们的磁带产品)进行交互。

通常,当人们进行备份应用程序部署时,他们经常会在数据中心内的多个存储部署中寻找单个备份解决方案。这就是本质上为所有备份数据提供单一接口的共同点。磁带适用于传统的备份部署。

我们还有 DXi 产品线。我们有时将其称为重复数据删除设备。我不喜欢这个词。它是一种基于磁盘或基于闪存的高效在线备份设备。它可以与磁带集成,并使用磁带本质上作为卸载您认为不会再次访问的旧数据的地方。这都是基于政策的。但该备份设备看起来就像一个磁带系统,只不过它是一个虚拟磁带库。我们暂且这么称呼它吧。

问题是,它基本上非常 - 它可以破解数据和备份流并理解。它会探索数据,本质上是对数据进行重复数据删除和压缩。关于备份磁带的事情,想想吧,想想你的笔记本电脑。今天你就备份一下吧。您的备份软件正在运行:自昨天以来哪些文件发生了变化?如果您进行完整备份,您会说:“好吧,无论如何,我想要每周获得系统的完整映像,因为我只想有一个恢复点,可以让我快速恢复整个系统。我不不想经历增量之类的事情。”无论如何,这些备份解决方案和备份应用程序会产生大量重复数据。因为很多数据不会改变。我的意思是,这就是整个冷热数据的事情,对吧?热门数据是您过去一周一直在处理的数据,而所有数据在访问方面都有些过时了。它只是变得冷了。人们随机谈论 80% 到 95% 的冷数据和 5% 到 20% 的热数据。

我们一直在谈论的一个人工智能机器学习应用程序,他们正在改变存储架构的方式。他们希望迁移到基于 S3 的本地对象存储架构,因为他们的所有数据访问都会受到标记。他们认为 30% 的数据是热门数据。 70%、66%、33%、70/30,即 66% 的数据是冷数据,他们希望将其存储在磁带上。基本上,我们正在与他们一起研究如何自动执行此操作并检测未访问的数据,并自动将其删除到成本较低的存储,同时将他们的人工智能应用程序所需的数据保存在磁盘上为基础的系统。事实上,他们感兴趣的是flash。他们正在将所有旋转磁盘系统从数据中心中剔除,并将重点放在闪存和磁带上。

埃里克:明白了。好的。因此,软件的神奇之处在于对要复制的数据进行分析。

布莱恩:是的,所以有磁带系统,这种传统的磁带。 DXi 虚拟磁带库设备具有非凡的存储效率和数据缩减功能,非常适合备份场景。然后我提到了我们的 ActiveScale 对象存储系统,尤其是磁带后端,为您的归档或较低层存储提供了基于对象存储的解决方案。我们正在推出 Myriad 全闪存阵列的 1.0 版,并且即将发布。它被设计为人工智能、视频效果渲染和数据分析等应用程序的主要存储解决方案。本质上是与人工智能相关的事情。这必须要快,因为这些应用程序需要得到满足。您正在高速向 GPU 提供数据以进行数据处理。 GPU 奇怪地称为图形处理单元。我想大多数人已经不再关心G了。

然后是磁盘和基于闪存的系统上的 ActiveScale 对象存储。它用于中间层、中等访问速度的存储。然后是带有磁带后端的 ActiveScale 对象存储或传统磁带系统,用于长期存储数据的最低成本层,您无需立即在线即可立即访问。所以人们正在关注这一点。

从本质上讲,我们正在启动创新,我们有能力指定策略来自动在各层之间移动数据。每个人都在保存他们的所有数据。你可以查一下这些图表。 IDC 在可预见的未来拥有非结构化数据增长指数曲线。人们存储的数据量无法手动管理和移动。你无法雇用足够的人来实际管理它。它必须是自动化的。

这些自动化技术用于在层之间移动数据,并将真正重要的数据保存在更昂贵的主存储中靠近需要处理的位置。我认为闪存比磁盘贵10倍,比磁带贵10倍。我只是用这些数字来让自己接地气。您无法手动执行此操作,因此您必须根据文件的上次访问时间、文件的年龄、文件类型来获取这些基于策略的内容。因此,这就是对文件进行大量元数据分析以进行数据智能自动分层的地方。这就是人们有兴趣与我们交谈的地方。因为我们在他们的数据工作流程中拥有多个入口点,并且我们可以自动化该数据的管理和移动,以匹配他们的业务运行方式以及他们使用数据的方式。

埃里克:现在,我非常清楚其他几个政策话题,至少在中国是这样。其中之一是关于数据存储位置的政府法规。所以跨境流动。我认为这不仅仅是中国的问题。这对印度来说是一个问题。这对其他国家来说是一个问题。然后,您可以看到有关适用于个人 PII 时可以存储哪些数据的规定。这些主题是您接触过的,还是通常在系统的其他地方处理的?

Brian:是的,我们绝对会涉足这个领域,尤其是像 DXi 和 ActiveScale 这样的东西,它们是为了长期数据保留而设计的。当您想到备份时,您基本上很快就会与 HIPAA 医疗保健法规、医疗保健数据保留策略、数据保留策略方面的合规性相交叉。

有人在欧洲告诉我,他们需要在我去世后 30 年内保存我的医疗数据。我想,好吧,这对我没有帮助。但也许它会对其他人有帮助。因此,推动数据保留的策略需要本质上具有不可变数据的产品的特定支持。你不能到处删除数据。这就是医疗保健和合规性的问题。

在法律上也是如此。文件、大量财务记录——财务记录、业务记录、人事数据,这些必须保留七年左右。这只是一个要求。所以你必须制作它们的不可变副本。从本质上讲,我们在 ActiveScale 或对象存储方面都具有创建不可变对象的能力。 DXi 具有无法删除的不可变备份。

对于对象存储系统,我与我们的架构师之一 Thomas Demoor 进行了交谈。他现在领导 ActiveScale 团队。我不断地殴打他,让他屈服。我如何访问或删除数据?结果我不得不拆卸系统并粉碎磁盘。该软件基本上不允许你。您基本上只需要进入硬件级别并开始真正处理它。数据是加密存储的,因此如果没有 ActiveScale 软件,您实际上无法理解它。 ActiveScale 软件不会让您删除它,因为您在其上设置了对象锁定,并设置了保留时间(根据用例设置)。因此,您可以通过物理破坏机器来破坏数据,但无法删除数据。这是一次有趣的谈话,因为这让我感到沮丧。因为我一直在寻找一个洞。所以这很重要。

我认为你确实提到了数据主权,即在某些地方拥有数据。我们在媒体和娱乐领域做了很多工作。对于 StorNext 来说,这是一个巨大的传统市场。我们有这个文件系统,即 StorNext 文件系统,每个动画、电影制作公司、运动队都使用它。顺便说一句,很多视频制作都来自两个运动队本身,无论您想玩什么运动。显然,不同国家的情况有所不同。此外,在美国,它会像美国职业棒球大联盟一样作为整个网络。事实上,ESPN。 ESPN 是体育电视网之类的。他们正在拯救一切。我们的 StorNext 产品用于快速视频编辑和后期制作。它被用在所有这些地方。问题是他们有这种极端的敏感性。我有点惊讶。他们不想将数据存储在云中。他们确实希望将其保留在本地。他们对数据泄露极为偏执;电影在上映之前就已经在网上发布了。这是所有这一切的秘密。因为这一切都涉及到他们可以从一部电影的首映中赚多少钱。这很重要。

它不一定是云。这是将数据传入和传出云的过程。有太多可能被中断或劫持的点,对吧?因此,许多公司都在寻求将知识产权和敏感数据等数据转移到本地的方法。所以它不仅仅是政府数据。这是商业性的。商业数据正在推动我们在本地部署的产品开发和功能开发方面开展的许多活动,他们现在将这些活动从云中带回来,部分是出于安全考虑。

埃里克:是的,这是有道理的。例如,当我们对制造商说“是”时,我们经常遇到这种情况。您只需从工厂中获取数据并将其传输到云端即可。您还有很多事情可以做。您可以查看跨工厂的数据集等等。但最终,你陷入了执行管理团队的噩梦,是的,好吧,也许这里有一些有趣的东西。但如果我们的竞争对手能够访问我们处理过的数据怎么办?那么这个“如果”是一个仍然是首要考虑的重要风险因素。

您涵盖了很多行业。我的意思是,这只是每个行业都存在的问题。我想,如果您与一家大型媒体公司或一家金融机构合作,您所合作的一些行业非常复杂。其 IT 能力非常先进。您通常是否直接与他们合作,然后帮助他们在本地部署解决方案?您的解决方案是否部署在他们的设施中?或者您是否经常与一些负责管理项目范围的经验丰富的中介机构合作?那看起来像什么?

布莱恩:简单的答案是两者兼而有之。我想说的是,我们与合作伙伴做大量工作的一件事是,通常,当我们参与政府投标、合同和销售时,我们经常在各自的国家与合格且具有资质的特定供应商合作。经特定政府批准。这不仅是美国,也是欧洲,我怀疑中国也是如此。这在很大程度上是一种非常牢固的伙伴关系和协作,可以将产品销售到具有非常具体要求的非常具体的市场。

我们合作的大公司——我们直接与主要的电影院和其他公司合作——我们基本上为他们提供了接触我们开发团队的机会。我们的路线图是由他们对未来想要做的不同事情的新需求驱动的。但我们也有合作伙伴。我们在媒体和娱乐领域有非常具体的合作伙伴。事实上,我们有特定的合作伙伴。我们有一种我之前提到过的新兴实践,即所谓的人工智能丰富的视频数据。我们有一款名为 CatDV 的产品。

CatDV 是一家媒体资产管理公司。这意味着什么?它基本上理解视频格式和静态图像。它可以将它们分开。它本质上允许您编辑、注释和转换视频。这个产品已经存在 10 年了,或者说是我刚开始的时候,公司就已经存在了。事实上,2020 年 12 月 14 日是交易完成的日子。它基本上允许视频的协作、注释和转换,以便您基本上可以执行诸如添加字幕、标记视频部分、识别视频中的人物或视频中的对象等操作。

10 年前,这都是手动的。当您观看视频时,您会看到字幕和字幕,这一切过去都是手动完成的。您知道亚马逊上的 X-Ray 吗?我根本没用过亚马逊。你可以在亚马逊上进行 X-Ray,它会为你列出屏幕上的角色。您可以单击角色并查看背景是什么。所有这一切正在迅速转向简单的人工智能驱动。因此,我们基本上围绕 CatDV 进行创新,将其与许多可用的人工智能软件包集成,进行自动语言翻译,基本上无需人工干预即可重新配音,翻译后以不同语言添加字幕或字幕,基本上识别哪些演员,并使用特定于某个国家/地区的数据库。基本上,您将与该国家/地区的所有演员一起训练它。本质上,在视频上运行它,它会标记出谁在其中以及什么场景,并标记该事物。所以这一切都是自动化的。

这些工具的准确率接近 90% 到 95%,顺便说一句,考虑到我在我非常熟悉的语言的字幕中看到的内容,有时准确率会更好。它通常比以前手工完成的要好。您为运行使用我们的设备训练的人工智能程序而获取的数据量 - 您训练面部识别模型,然后在视频上运行模型。本质上,是产生丰富的视频结果。然后你把它抽出来,然后生产出来。这是您为新市场制作的已发布视频。

是的,埃里克,这很有趣。以前手动执行此操作的成本令人望而却步,因此只有某些被认为具有足够市场、能够产生足够收入的视频实际上是——他们使用了这样的技术。有很多电影你永远看不到本质上有英文配音或英文字幕的电影,因为它根本不值得。英语市场还不够大。顺便说一下,我是一个外国电影迷。这有点令人沮丧。有时我看外国电影,但不明白到底发生了什么。但人工智能基本上消除了它的所有障碍。我们正在与工作室交谈,特别是在亚洲,那里有很多语言,他们希望基本上为亚洲的新市场发布他们的档案。但他们正在为必须进行 10 种语言的翻译或字幕而苦苦挣扎。除非他们知道会成为赢家,否则这将导致成本过高。现在,他们正在翻阅他们的档案,并寻求将 10 年来未曾触及的东西重新货币化。我们正在谈论的数据量令人震惊。好的?

埃里克:对。我猜这个过程很大程度上是手动的。正因为如此,你只能为 10% 的人口提供服务。再一次,我坐在中国。也许这是最好不要国有化的行业之一。但现实情况是,很少有外国媒体真正被译成中文。不断地,我只需要练习。我希望我有一个不错的电影库或法国电影或任何可能用中文配音的电影。只是它还没有发生。我想,如果我们展望 5 年或 10 年,也许更早,就会弄清楚如何做好一份体面的工作。另外,人工智能的语音,我认为这只是时间问题。

我认为这是我最后一个问题的一个很好的过渡,因为我现在对你们今天的业务有了很好的了解。所以这无疑是一个非常活跃的市场。未来有什么让你兴奋的?如果您展望 1、2、3 年,您认为在 Quantum 或您周围的环境中会发生哪些事情让您保持动力?

Brian:你知道,在加入 Quantum 之前,我从未如此深入地参与从存储角度应用于数据的人工智能和机器学习。公司致力于解决非结构化数据爆炸问题并从中获取商业价值,这促使我们思考如何启用人工智能和机器学习技术,如何将我们的存储产品与上层应用程序层集成,然后使用我们的 CatDV 程序来从根本上帮助客户理解他们的数据并获得业务价值,同时降低逐年、一代又一代地获得业务价值的成本?

对我来说,人工智能/机器学习的重点并不是它实际上提供字幕和翻译之类的东西。与一个人相比,这样做的成本是如此之低,以至于它基本上大大增加了您将应用它的用例、媒体和数据的数量。所以它在很多方面都是一个伟大的民主化者。围绕人们存储的数据量,您基本上必须不断降低数据成本,同时为您想要使用的数据提供工作流程中关键点的关键应用程序所需的性能。其他一切都需要将成本最小化。

这是一个难题,让我们保持警惕。当我们尝试研究产品组合如何组合在一起、数据如何移动、如何简化客户的生活、如何尽可能实现自动化时?然后与他们携手迈向 AI/ML 未来或人工智能赋能的未来。此时,这基本上触及了他们数据工作流程的每个部分。

埃里克:太好了。嗯,这是现在需要关注的一个大问题。无论您是数字原生公司还是拥有 200 年历史的公司,管理数据都是您今天成功的核心,对吗?所以这是每个人都在努力解决的问题。

布莱恩:当然。

埃里克:太好了。布莱恩,我非常感谢您今天抽出时间与我们交谈。

布莱恩:是的,谢谢你,埃里克。

埃里克:很好。谢谢,布莱恩。

布莱恩:好。小心。

联系我们

欢迎与我们交流!
* Required
* Required
* Required
* Invalid email address
提交此表单,即表示您同意 IoT ONE 可以与您联系并分享洞察和营销信息。
不,谢谢,我不想收到来自 IoT ONE 的任何营销电子邮件。
提交

感谢您的信息!
我们会很快与你取得联系。