作者:Matthew Hardman,Hitachi Vantara亚太区数据智能总监

一家公司想要在数字时代取得成功,必须非常熟悉并能够充分利用自身数据,挖掘其中价值,为管理层提供有见地的行业及自身洞察。

然而,对于大多数企业而言,业务拓展已经让他们焦头烂额,有限的预算和时间,更使得企业无暇制定一个成功且有效的数字化战略。这个任务也因此落到了企业的数据运维团队肩上,但这一团队的大部分时间都用在了发现和处理非结构化数据上。

非结构化数据在全球所有数据中占比高达80%。

1

云上的非结构化数据经常出现不规整的现象。例如,有人可能在电子表格上将数字“0”错误地输入成了字母“o”,或者在复制长串号码时不慎遗漏了一部分。企业的合并和收购也可能产生重复或有冲突的数据集。此外,除了公司既有的海量历史数据(这些数据在企业数字化之前就已经存在),新数据还在以惊人的速度产生。

非结构化数据可能会引起混淆并导致不准确的解读。然而,这些历史数据也必须被恰当地管理,否则,数据闲置在存储设备中,既浪费了存储空间也让这些数据失去了应有的价值。企业可能会感觉自己陷入了一个两难的境地,对所有数据的整理分类是一项十分艰巨的任务,并且需要耗费大量时间,但这又是一项必须着手推进的任务!

想要更好地识别数据并挖掘数据价值,一个以数据搜索和数据分类为基础的解决方案便成为了关键。所有的后续工作都要从一个不起眼的步骤开始——提取为元数据(metadata)。

什么是元数据

简而言之,元数据是所谓描述数据的数据。它为我们提供了一种结构化的方法来识别数据所呈现的信息。
在内容智能平台对元数据进行提取和整合操作时,元数据在不到六分钟的时间内就能被充分分析并得出结论。(人工处理这一任务则需要几天、几周甚至几年的时间。)这就意味着数据管理员能够方便快速地进行操作并探索数据,从而可以将更多时间投入到更高级别的工作中去。

例如,你的智能手机里可能有成千上万张图片,你将如何对它们进行分类?GPS坐标就是一种常见的、能从这些图片数据中被读取到的元数据。你从图片本身看不到坐标,但在拍摄的瞬间它就已经嵌入到图片文件当中。利用这些信息,能够识别元数据的应用程序就可以读取该信息并提供附加功能,例如按照地理位置对照片进行分类。这使得对图片数据进行逻辑分组变得非常简单。

元数据有助于实现企业或组织的重要功能,使之能够快速有效地开展数据的运营维护,更好地为客户提供服务。如果没有元数据,在定位客户所需的特定数据时,我们将面临巨大的挑战。

例如,一个医学成像应用程序有超过10,000个大脑扫描图像。如果想要根据地点或年龄对扫描数据进行分组,则必须手动查看每次扫描的原始地点,或者扫描的对象。元数据的识别意味着相关信息的搜索只需几秒钟时间,而手工处理这些数据则需要几天或几个月的时间。在医疗卫生和医学研究领域,处理数据用时的长短意味着生与死的差别。

为什么内容智能平台如此重要

元数据本身在被提取之前毫无价值,而提取元数据最快、最简单的方法就是通过内容智能平台。这一平台能够快速并全面地检测到元数据,这也是整理非结构化数据的第一步。

内容智能平台提供了一个引擎,使数据管理员能够在一个集中化的平台上对数据进行识别、索引分类,并采取进一步行动。我们也可以将内容智能平台视为非结构化数据的搜索引擎。内容智能是一个框架,可以将数据转换为非常易于搜索的内容,以便使用者检索。内容智能平台的关键点也是元数据。元数据是找到所需数据的线索。它也是对非结构化数据进行分类的关键。通过分类,非结构化数据变得有意义,并能释放价值。

内容智能平台不仅仅能对非结构化数据进行分类,还可以充当数据管理员的得力助手,提供智能指导的数据探索、数据建议,以及通过开放跨越不同地点和数据类型的访问权限提供所有数据的即时可视性。内容智能平台还可以实现数据个性化定制和安全防护,向正确的人员提供正确的数据,以防数据落入错误的人员手中造成隐患。

Hitachi Vantara提供的智能的数据发现和转化平台Hitachi Content Intelligence(内容智能平台)可提供数据分析和存储性能监控,进而帮助企业及其他组织机构提高员工生产力并提供可行的业务洞察,将数据转变为有价值的业务信息,满足切实的业务与运营需求。

数据是这个时代不可或缺的资产。随着各种类型的数据生产者越来越多,从数据中挖掘并发现有意义的事实信息充满了挑战,企业则必须应对这些挑战。内容智能平台能够助力企业将这些挑战转化为机遇,以确保企业在激烈的竞争中保持活力并争得上游。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2020-05-18 16:00:35
云资讯 透过Gartner用户分析,关键业务已成对象存储主要场景
日前,IDC公布了《2019Q4 Software-defined Storage System Market Overview》,该报告预测中国的SDS市场将不惧疫情,继续保持高速增长,特别在对象存储领域。 <详情>
2019-12-03 16:34:00
大数据资讯 大数据分析平台的搭建应具备哪些功能?
平台的每个子系统所包含的功能各不相同,而正是这些功能各不相同的模块组合成了有实际使用价值的大数据分析平台,实现了对各类业务的前瞻性预测及分析,为用户提供了统一的 <详情>
2019-09-25 13:45:00
大数据资讯 非结构化数据在人工智能中的作用
非结构化数据对人工智能系统的发展至关重要。人工智能系统与用户的沟通越好,就越能自主学习,因此,它的效率也就越高。这一点很重要,因为如果一个人工智能系统只要求用户 <详情>
2018-06-11 14:10:00
大数据技术 大数据,小细节:元数据如何带来安全风险
随着大数据的兴起,元数据突然变得有价值。如果一张图片胜过千言万语,则元数据表达的信息将无限多。现在它可能会带来安全风险。 <详情>
2018-04-03 14:34:10
大数据资讯 结构化数据 vs. 非结构化数据
结构化数据 vs. 非结构化数据:结构化数据由明确定义的数据类型组成,其模式可以使其易于搜索。而非结构化数据通常由不容易搜索的数据组成,其中包括音频、视频和社交媒体 <详情>