你的位置:首页 > 互连技术 > 正文

生成式 AI 帮助工程师挖掘隐藏在非结构化数据中的深层洞察

发布时间:2026-02-25 来源:转载 责任编辑:lily

【导读】生成式AI(GenAI)的崛起,不仅能将分散的非结构化数据与结构化传感器数据深度融合,更将工程师的角色从繁琐的数据清洗中解放出来,转向更高阶的战略分析与决策。从塔塔汽车利用检索增强生成(RAG)技术构建上下文感知的故障诊断助手,到哥本哈根大学通过图论与大模型结合加速食品科学发现,GenAI正展现出超越基础代码编写的巨大潜力。然而,尽管普及率日益提升,许多工程师仍受限于传统用法或对工作流整合的担忧,尚未充分挖掘其在预测性维护和复杂系统分析中的深层价值。


您是否知道,生成式 AI(GenAI)可以帮助工程师在几秒钟内诊断汽车故障,甚至在设备出现问题之前预测潜在失效?GenAI 正在通过加速数据分析和算法开发,让这些场景从设想走向现实,使工程师能够充分发挥专业知识,挖掘可执行的洞察。


工程团队每年都会产生数 TB 级的数据。根据 Gartner 的估算,其中多达 80% 属于非结构化数据。服务记录、研究论文和技术人员记录中蕴含着关键的组织知识,但由于格式不一致,难以有效解析。GenAI 工具能够帮助工程师整合结构化与非结构化数据,实现过去难以大规模开展的分析工作。对工程师而言,这意味着更快速的故障排查、更高效的设计流程以及更快的技术发现。


工程师在使用 GenAI 时的盲区

尽管 GenAI 在重塑工程工作方面具有高度灵活性,但其能力与工程师日常使用方式之间仍存在差距。许多工程师仍将 GenAI 主要用于编写基础代码或生成文档,而不是将其应用于更高级的工程流程。


为更好地了解工程师对 GenAI 的态度及其实际应用情况,MathWorks 于 2025 年 12 月在社交媒体上进行了一项非正式投票。反馈结果揭示了多项重要洞察,包括:

-83% 的工程师至少每月使用一次 GenAI,其中最常见的应用场景是“编写代码”和“文档与报告生成”。

-工程师对 GenAI 的最大担忧是其与现有工作流程的整合(46%)。在拥有六年以上经验的工程师中,这一比例更是升至 75%。


这些数据表明,大多数工程师已经在使用 GenAI,但尚未将其应用于战略性工程任务。希望提升 GenAI 使用能力的工程师应考虑将其用于准备和分析非结构化数据。


利用服务手册、工程文档和维修记录构建面向技术人员的聊天助手

汽车故障排查通常需要在不同品牌和车型中诊断复杂问题。尽管大语言模型(LLM)包含大量公开的汽车知识,但它们缺乏细节丰富的品牌专属信息。为弥合这一差距,塔塔汽车的工程师采用了一种名为检索增强生成(RAG)的 GenAI 技术,将 LLM 的通用知识与内部专有数据结合,从而生成具有上下文针对性的建议。


工程师利用 RAG 开发了一个具备上下文感知能力的聊天助手,能够检索内部文档并基于这些内容生成故障排查回复。他们使用 MATLAB® 构建了 RAG 工作流程,使其应用(称为 ServiceSage)可以搜索服务手册、工程文档和维修记录。当技术人员向 ServiceSage 提问时,问题会被转化为 GenAI 能理解的数值表示,系统随后查找最相关的文档。由于 RAG 执行的是语义搜索,问题的具体措辞并不关键,它会根据相关概念进行推断。相关文档随后被输入 AI 模型,模型将其与通用知识结合,生成清晰、可理解的回答。


这种方法具有成本效益且可扩展,无需进行昂贵的模型再训练,并能处理大量此前未被充分利用的文本数据。借助该方法,团队能够快速识别根本原因,提供上下文相关的指导,并缩短维修周期。通过 GenAI,工程师可以高效分析大量文本数据,并将其融入故障排查流程中。


利用全球与历史科研资料推进食品科学发现

科学研究通常涉及跨越数十年、来自多个地区的大量论文,想要系统梳理某一主题的所有研究或找出其中潜在联系,若无先进工具几乎不可能。哥本哈根大学的食品科学研究人员在分析庞大资料寻找主题关联时面临这一挑战。LLM 虽然能够总结单篇文献,但难以在海量数据中梳理整体关联。为解决该问题,研究人员在使用 LLM 前,将 GenAI 与传统技术相结合——如文本预处理与清洗、信息提取等——为非结构化文本建立结构。


哥本哈根大学团队在整个流程中多次使用 GenAI,包括:

1清理并标准化了数千份格式不一致的 PDF 文件。

2在元数据缺失时自动生成关键字。

3将文本转换为词元(tokens),并标记异常长的词语,以识别隐藏在文中的化学物质名称。

4将论文拆分为段落和关键字后构建知识图谱。图谱中的每个节点代表一个段落或化学名称,节点之间的连接则体现主题之间的关联。


随后,团队使用 MATLAB 对该数据集应用图论方法,识别各概念之间的关联路径。接着,他们将这些结构化的文本子集输入 LLM,由模型生成摘要并解释不同主题之间的关系——这些关系若由人工分析,可能需要数周时间。最终,他们构建了一套能够将分散研究转化为可执行洞察的流程,大幅加速了食品科学研究的推进。


尽管 GenAI 带来了显著价值——研究人员通过该流程节省了数天的人工处理时间——但成功仍高度依赖人工判断与手动工作。团队在将数据输入 GenAI 之前投入了数百小时进行实验与数据准备。通过反复试验,他们才确定将文本按段落进行切分最为有效,因为 GenAI 无法自动作出这种判断。GenAI 的强大之处只有在具备高质量数据和严谨工程方法的前提下才能充分发挥。


将维护数据转化为前瞻性洞察

传统的预测性维护(PdM)主要依赖传感器的数值数据,用来跟踪温度、振动、压力等变化,以捕捉设备故障前的异常模式。许多组织还会收集维护日志和技术人员记录等文本信息,这些内容能够提供传感器无法捕捉的关键背景,例如故障症状、维修过程以及可能的根因判断。


图片1.png

生成式 AI 帮助工程师处理来自设备日志和服务记录的非结构化数据,从而改进预测性维护流程。


文本信息并不能取代传感器数据;工程师可以利用 GenAI 将其标准化,使其能够与传统信号协同使用。例如,GenAI 可以总结维护记录、统一不一致的术语,或标注关键事件(如组件故障或重复出现的故障类型)。这些标注数据随后可与时间序列传感器数据对齐,为 PdM 模型的开发提供更清晰的目标与上下文。


图片2.png

生成式 AI 帮助技术人员将服务记录与传感器数据结合,以更快速、更准确地完成汽车故障诊断。


GenAI 还可以支持工程流程的其他环节。工程师可以使用它起草和优化用于数据清洗、特征工程或探索性分析的代码,也可以用它评估不同的建模方法。然而,领域知识在整个过程依然至关重要。只有经验丰富的工程师才能判断特征是否具有物理意义、模型行为是否符合系统动力学,以及输出结果是否反映真实的故障模式或只是数据噪声。


与所有 PdM 方法一样,基于 GenAI 的工作流程在部署前需要经过严格验证。一个在原型或小规模测试集中表现良好的模型,未必能够应对真实环境中的多变条件。工程师应使用具有代表性的数据集进行验证,对模型进行多工况压力测试,并加入确定性检查以确保其健壮性。这些最佳实践适用于所有 PdM 方法,无论是否包含 GenAI,再次强调成功的 PdM 不仅依赖先进工具,更依赖扎实的工程判断。


工程师们仍只触及 GenAI 的表层

与任何工具一样,GenAI 应在方法论指导下使用,而非被泛化应用于所有问题。当任务涉及大量非结构化数据,或需要处理语言驱动的输入时,GenAI 的价值最为突出。工程师需要战略性地整合 GenAI,拓展领域专业知识,并思考如何在自身的设计方法中切实应用这一工具。


总结

生成式AI虽已展现出重塑工程流程的强大能力,但目前大多数应用仍停留在表层,尚未完全转化为推动技术创新的核心引擎。真正的突破不在于盲目依赖模型的通用能力,而在于将GenAI战略性地嵌入严谨的工程方法论中:通过人工判断指导数据预处理,利用领域知识验证模型输出的物理意义,并将非结构化文本洞察与传统传感器数据有机结合。无论是加速故障排查还是优化预测性维护,成功的钥匙始终掌握在那些能够驾驭工具、坚持严格验证并具备深厚专业背景的工程师手中。


3-958x200_20251021044824_513.png

特别推荐
技术文章更多>>
技术白皮书下载更多>>
热门搜索

关闭

 

关闭