基于transformer,目前都在研究什么:爆破块度分析、井下人员or安全帽等穿戴or异物 姿态检测/算法 【图像&视频识别】、“设备”知识图谱 的构建、时间序列(比如压力)预测、······
trm到底好在哪里?【所谓自注意力机制】
想象模型处理信息序列的过程,是你去认识一长排陌生人,传统RNN方法 你需要单个逐次去招呼、结识和记忆,当这队人很长时 后期的你会忘记最初几人的信息 即 “梯度消失”,同时这个过程过于缓慢,因为不是 “并行处理”。
现在,trm赋予你一副眼镜or anything that allows you to gain the ability to "filter other people's characteristics”,使你仅去获取各人自身的特征 和 各人与其他人的关系,你这时可以一次性查看所有人(input)、优先与你最想了解的对象 “交谈”(fetch),且忽略对话时的 “噪音”。
所以——我们想把这个思路试着引入到以往朴素传统的CBR方法中
介绍国内外的时候 分段简单展开一下前人手段+成果【传统?】【AI?】;列举完实验数据之后【和谁?】对比模型→强调你的误差更小;
搭建论文之外的平台?例如矿压分析预警 Python设计——可视化 来压、云图等等
在论述某个模型在某领域的已证实的应用价值时,可以举不限于能源行业的例子(金融?医疗?···)以丰富参考文献。
“支护”——支:支架,被动去抵抗围岩变形,支不住就会冒顶;护:掩护,构件,护不住就会塌方;支护:既要又要,锚杆、锚喷、锚注
二者的结合主要可以出现在CBR的检索和重用两个阶段。具体来说,Transformer可以帮助增强CBR中某些步骤的处理能力,尤其是数据理解和相似度计算方面。
自注意力机制更好地捕捉历史案例和当前问题之间的潜在相似性。特别是对于文本型数据(如文档、对话历史等)。【参与组件】编码器部分可以对当前输入问题和历史案例中的文本进行编码,生成高维度的特征表示。
得益于self attention,trm理解和捕捉历史案例(如支护类型、锚杆长度等)的复杂特征。不同的煤矿作业场景具有不同的背景信息,Transformer能够关注到重要的细节(如地质条件、巷道类型、支护设计等),并找到当前问题与历史案例之间的潜在相似性。
根据检索到的案例来解决当前问题。Transformer可以用于案例的改编和推理,特别是当问题的解决方案需要高灵活性的组合或创新时。【参与组件】解码器负责将编码的案例信息转化为具体的解决步骤或建议。
【扩展】存储和更新阶段(Case Storage and Update),trm自动生成标签或总结,辅助管理案例库的更新和维护。
即:trm依然保留了大模型的通用性,而在应用上展现出了对煤矿领域的适应性。
目的和意义
检索阶段:trm通过生成的向量表示来计算当前问题与历史案例之间的相似度。这个方法相比于传统的CBR基于关键词或简单相似度度量的模型,能够捕捉更多的语义关系,提高检索的准确性和鲁棒性。
自注意力机制是Transformer的核心,它通过计算输入序列中每一元素与其他所有元素的关系,生成每个元素的上下文向量表示。具体来说:
trm的好处:㈠ 捕捉到词汇或特征之间的长距离依赖关系。这意味着即使两个案例或问题中的关键词没有完全相同,它们的潜在语义关系仍然可以被捕捉到。㈡ 地质条件、巷道形态这种复杂的依赖关系,Transformer能够通过向量表示精确地捕捉。
CBR的坏处:㈠ 关键词或特征值的简化处理会丢失文本或数据中的深层次语义和上下文。㈡ 结构化数据(如表格数据csv or Excel),常使用欧氏距离
重用阶段:传统方法通常需要手动设定规则或采用简单的组合方法,我们更具灵活性和创新性
各位老师好,我是来自系统理论专业23-4班的xxx,我的论文题目是《》,指导老师xxx。下面我将从以下4方面向各位评审老师做出介绍。一、背景和意义,选择这个题目主要两方面原因。一方面发现xx在xx上存在一定问题。······
基于地质注意力增强和案例推理方法的巷道支护优化设计研究
围绕 安全 和 高效 两个煤矿行业的永恒主题展开:
当今采矿业,特别是在设计煤巷支护系统,目前主要依赖工程类比或基于经验的方法。虽广泛应用,但有时无法确保所选方案的最佳效果,一说因支护力度不够而需二次加固,其次或因支护过度而导致资源的不必要浪费;另外,随着浅部煤层的开采减少、大部分转向深部开采——开采难度和强度的增大,设计有效的巷道支护系统至关重要。
关于转为深部开采:
每年正以 10 米左右的速率向深部发展,付凌晖,刘爱华 总编.中国统计年鉴[Z].中国统计出版社,2022.
带来了什么:地质条件变差,支护难度加大,这超出了以往的经验范畴
利用机器学习和数据分析技术,分析和预测巷道支护的效果,以提高矿区支护设计的效率;以本方向(巷道支护)发生的煤矿事故为例:
☞这些事故反映了巷道支护的实施和监测方面的隐患。事故频发及其带来的高额经济损失和人员伤亡表明,传统的巷道支护策略和技术在某些情况下未能有效预防顶板事故——即,基于现有支护技术的地质评估方法在应对复杂地质条件和高风险环境时的局限性。本文通过引入大数据分析、机器学习,尤其是借鉴了Transformer大语言模型构建一套Geo-Attentive Case-Based Reasoning(地质注意力机制的案例基模型,下文简称GeoAttCBR)来提供更精准的地质风险评估和实时的支护效果监测。
☞围岩稳定性分类是巷道支护设计的重要参考依据,稳定性决定支护方式和支护参数。其中,支护方式是支护设计的结果。
☞大语言模型系统地分析和学习历史事故数据、地质数据以及巷道支护的实时数据,以期提高对复杂地质条件的响应能力、实现巷道支护设计的优化,减少人为的决策失误。研究的成果预期会测试、应用于矿业的安全管理实践中,通过改进支护技术和实施新的监控系统,显著提高矿工的安全和矿山的运营效率。首先是救人性命,其次是减少经济损失。
国家从顶层设计层面对“十四五”期间我国煤矿智能化建设发展进行部署,国家发改委等八部委联合印发了《关于加快煤矿智能化发展的指导意见》,意见提出:到 2035 年,各类煤矿基本实现智能化,构建多产业链、多系统集成的系统,建成智能感知、智能决策、自动执行的煤矿智能化体系
中国煤炭工业协会煤矿支护专业委员会. 中国煤炭工业协会煤矿支护专业委员会2020年度工作报告[R].2020.
意义还有以下:
避免了 减少人为偏差与主观因素的干扰:
使用传统类比法 或 经验分析法时 受到 人为因素的影响,但我们CBR依赖于历史案例和数据驱动的推理过程
降低了 对现场实验的依赖,减少实验次数和人工投入
比如 巷道返修 的频率,节约了 巷道维护 费用
本研究引入数据驱动的设计方法,推动传统支护设计的创新转型
尽管聚焦于煤矿,但具有广泛的潜力,可为其他工程领域提供理论和技术支持,具有较强的推广价值
支护方式研究现状
大方向
现今井下智能化建设在AI方向的发展迅速,广泛应用在优化能源使用及分配¹ 、实时收集数据² ³ 、制定或模拟救援方案路径⁴ 、钻探爆破和运输加工的过程控制⁵ 以及智能路由通信网络管理⁷ ⁸ 等一系列领域,
本方向
巷道支护方面 有哪些应用了大模型的 既往研究?:【后期补全简述】
陈万辉等学者 展示了一个多层次、跨学科的研究方法,结合了数据科学、机器学习和传统工程技术。即在其研究中引入案例推理(CBR)和深度学习技术到巷道支护方案设计领域,开发了一个巷道支护方案智能设计系统,该系统通过实时分析和处理地质数据及支护历史案例,实现了支护方案的智能优化,且在内蒙古某矿进行的对比预测指标表明,该系统能有效提出与实际地质条件相匹配的支护方案,显著提高了支护设计的精确性和操作效率。
王佳明 引入信息抽取、机器学习和案例推理技术,对煤矿巷道支护方案自动生成和智能比选进行研究,实现煤矿巷道支护方案的智能设计,即:···
王向前 针对煤矿回采巷道支护参数设计的问题,采用案例推理(CBR)的方法构建了煤矿回采巷道支护智能决策模型,探讨了煤矿回采巷道支护案例的表示、案例检索及案例的修正等问题
采用遗传算法和人工神经网络建立了围岩稳定性分类预测模型。通过算例验证了该模型能在考虑多影响因素下准确地代表围岩稳定性影响因素与围岩类型之间的非线性关系,并预测出软岩巷道的围岩分类,从而为软岩巷道稳定性分类及控制技术提供参考依据。
本文主要借助山东科技大学图书馆、超星数字图书馆等各级图书馆、相关书籍、资料、光盘检索以及互联网等渠道,查阅有关机械产业、矿山行业和人工智能领域的期刊、杂志和书籍,并通过中国期刊论文库、博硕论文库、EI(工程索引)数据库及现场调研等获取目前国内外相关领域的研究报告和文献。
广泛收集国内外矿区公开发布的巷道描述及其支护参数,包括支护类型、材料、尺寸、地质条件、巷道尺寸、支护效果等;对收集来的数据进行清洗和预处理,确保形成数据库的质量和一致性
其中,考虑到榆林地区、鄂尔多斯等地区煤炭资源丰富,煤层赋存稳定较易开采,形成了以神华集团为代表的现代化开采企业,以大规模高强度开采为特点,煤炭产量持续快速增长,故着重选取该地煤矿数据样本。然而,这些地区煤层埋深情况复杂、部分工作面采掘推进速度较快,矿区形成巨大开采空间。采动应力场使得工作面矿压显现特征明显,频繁发生顶板切落、支架冲击载荷等灾害。
我们想干什么?——样本数据进行分析和学习,建立一个多元输入多元输出的非线性映射模型,实现方案自动生成
煤矿巷道支护方案设计不仅与地质参数相关,也与埋藏深度、断面尺寸、层间距、地下水等密切相关,这是一个庞大的系统工程,变量间的关系很难用一个公式表达清楚。然后,机器学习方法单纯从抽取存储的知识库数据出发,通过自组织学习能力深挖知识元之间的潜在规律和特征,同时还可将开采情况、断面情况、工程地质条件以及地应力条件等作为算法的输入参数进行考虑,为方案自动生成研究提供了新的路径。
通过对这些文本信息进行处理和分析,能够实现领域知识的自动识别和抽取。随着这些技术的高速发展以及对矿山建设行业的交叉渗透,代替人工挖掘数据价值,在保障安全的前提下实现效益的最大化
深度学习(是机器学习的一个子集,即 所有深度学习都是机器学习,但不是所有机器学习都是深度学习)
门控RNN模型按顺序处理每一个标记(token)并维护一个状态向量,其中包含所有已输入数据的表示。如要处理第n个标记,模型将表示句中到第n−1个标记为止的状态向量与最新的第n个标记的信息结合在一起创建一个新的状态向量,以此表示句中到第n个标记为止的状态。从理论上讲,如果状态向量不断继续编码每个标记的上下文信息,则来自一个标记的信息可以在序列中不断传播下去。但在实践中,这一机制是有缺陷的:[梯度消失问题]使得长句末尾的模型状态会缺少前面标记的精确信息。此外,每个标记的计算都依赖于先前标记的计算结果,这也使得其很难在现代深度学习硬件上进行并行处理,这导致了RNN模型训练效率低下。
LSTM劣势
它的状态向量理论上包含了输入序列的所有重要信息,使得模型可以基于这个累积的信息生成输出。LSTM的这种设计使得它必须在处理完整个输入序列后,才能得到一个全面的状态向量,用于后续的翻译过程。
[ ]
巷道掘进过程中,巷道支护施工通常占据三分之一到二分之一左右!巷道支护的应用中,可以将“长序列”理解为随着时间或空间连续性的监测数据,这些数据因为具有高度的时间序列性和空间序列性,形成了长序列数据。Transformer 模型可以通过其注意力机制,有效地从这些连续数据点中识别出潜在的风险模式,即便这些模式在数据中的表现可能非常细微或分布广泛。
目标是将历史案例(例如煤矿作业规程、地质报告等)映射到一个向量空间,然后计算当前问题和历史案例之间的相似度。
将案例数据转换为适合Transformer输入的格式(例如,文本数据转化为token)。训练一个标准的Transformer编码器,主要任务是让编码器学习如何将输入数据映射到合适的向量空间。使用向量空间中的相似度度量方法(如余弦相似度、欧几里得距离等)来比较案例之间的相似度。
透明,容易进行调试和分析尤其是在说明模型的推理过程、结果解释时
如下:
首先通过期刊杂志、书籍教材、论文文献、现场调研、科研汇报、研究报告等途径,得到《支护规程》、《地质报告》、《作业手册》、《设计图纸》等材料,收集其中案例的支护方式及其参数(统一为CSV、Excel等格式,并且做到格式规范化和标签化)。接下来确定研究的对象参数,对确定出来的数据进行预处理(清洗、去噪、填补、剔除)。然后选取出输入参数、输出参数,通过某种方式得到向量状态下的“统一表示”,使其机器可理解的数据。再使用“常属性变量滤波”、“高相关性滤波”等方法,对此时状态下的数据进行一定的优化。接下来建立含有transformer解码器参与的CBR模型,分配权值,并且对案例计算相似度,比选不同的方案。确定好测试集和训练集,在GeoAttention-CBR架构(暂定名称,意为“基于地质注意力的案例推理模型”)下验证、推广等,因为数据集较小,考虑使用交叉验证(cross-validation)来评估模型性能。注意,在技术路线的全过程中,注意全局的各个环节都要收集反馈,并基于这些反馈来调整最终模型的结构和优化方法。
比如现在csv/Excel里的形式:
各值发生转换(例如煤厚除以5;锚杆定义为“1”)得到一维向量[1,0.6,10,20,1],这个特征向量就是机器能理解的形式。
另一种构想路线如下:
数据怎么来?现场测量、工程报告或设计图纸等等应收尽收
结构化格式,CSV或Excel表格,其中每列代表一个变量(如锚杆长度L、直径d和支护厚度H),每行代表一个观测实例
数据清洗:缺失值——删除?填充?;异常值——箱型图识别
什么叫“结构化知识”、“统一表示”:就是将所有数据源合并到一个单一的数据库或数据框架中【围岩库】,确保每个参数都遵循相同的命名约定和数据类型
减噪阶段的二次优化意义何在?
本文确定要研究的参数是谁?怎么确定?
假设数据集包含以下:
CBR(“基于案例的推理”模型,Case-BasedReasoning)是怎么回事?
“分配权值”
顾名思义,如果某个参数(如支护厚度H)对支护效果的影响比其他参数(如锚杆的L、d)更为显著,那么支护厚度在相似度计算中应该拥有更高的权重。
CBR流程中,,权值在什么步骤出现?
分权在CBR中是必需的吗?
如果所有特征都同等重要,或者数据非常均匀,且没有明显的个别特征对结果影响更显著就不必需;反之,多数实际应用中,特征差异性大就必需
一个加权的CBR例子:
需要对以上特征进行编码和标准化处理,以便进行数值计算;为不同的特征分配不同的权重,反映它们对支护效果的影响程度。假设权重分配如下:
地质条件(软岩=0, 硬岩=1):权重 0.3
锚杆长度:权重 0.2
锚杆直径:权重 0.1
支护厚度:权重 0.2
支护间距:权重 0.2
加权欧氏距离公式计算此处两个案例之间的相似度,公式,w是权重weight,x是两例中特征i的各自值:$$Distance=√[∑(⋅(−)2)]$$
[ ]
本例的实际意义:较低的距离值表示较高的相似度。在这个例子中,计算得出的距离较大,表明两个案例在支护特性上有较大的差异,特别是在支护厚度和锚杆直径上。基于这种计算,如果矿井A的支护方案已知有效,而矿井B的条件相似但具有一些关键差异,则可以考虑调整矿井B的支护设计以适应其特定的地质和结构条件。
将transformer的嵌入层自注意力机制的 线性变换思路,引入CBR的传统相似度计算里,提高相似度计算的准确性和模型的解释性。
辅助现场技术人员 根据相似巷道的支护方案 对目标巷道的初步设计方案 进行优化和比选。
about--知识元抽取:
首先,通过科研成果整理、现场调研、文献分析和问卷调查等方式获取了xxx份煤矿巷道支护资料,对煤巷支护资料的文本特征进行解析,
针对知识元存储方式的不同,构建了面向异构数据的煤巷支护知识元抽取体系
然后详细介绍了信息句抽取的方法
先是信息句触发词集和信息句正则规则的制定,在此基础上通过规则匹配的方式抽取到符合条件的信息句,为下文的信息句知识元抽取提供预料支撑
在知识元抽取方面,先是描述了表格知识元的抽取方法,根据知识元所存储的表格特征,将表格分为两种类型:
横表和二维表,采用标题规则和Python的docx库设计不同的抽取方法,有效抽取了两类表格中的知识元
然后构建序列标注模型对信息句中的知识元进行抽取。
考虑到抽取对象是煤巷领域,构建领域知识词典,并应用于中文分词任务和触发词拓展
构建了基于LSTM+CRF算法的序列标注模型;在模型训练阶段,使用BIOES编码方式进行标注,标注完成后对模型进行训练,从而实现了对信息句中的25个知识元字段的信息抽取,并对不同知识元字段的抽取结果进行详细分析
最终实现了对信息句、表格和信息句知识元的抽取,为接下来的方案自动生成和智能比选提供数据支撑。
目标是将历史案例(例如煤矿作业规程、地质报告等)映射到一个向量空间,然后计算当前问题和历史案例之间的相似度。
将案例数据转换为适合Transformer输入的格式(例如,文本数据转化为token)。训练一个标准的Transformer编码器,主要任务是让编码器学习如何将输入数据映射到合适的向量空间。使用向量空间中的相似度度量方法(如余弦相似度、欧几里得距离等)来比较案例之间的相似度。
由于煤矿作业涉及到大量的参数(如地质数据、作业条件等),在使用Transformer进行案例检索和推理时,高维数据可能会引发性能瓶颈。通过【“常属性变量滤波”、“高相关性滤波”】去除冗余特征和高相关性特征,可以有效减少模型的输入维度,提高Transformer模型的处理效率。
【Constant Attribute Filtering】如果某些参数(如某种支护类型或作业方式)在所有历史案例中始终相同,那么这些参数可能不需要被考虑。比如,大部分历史案例都使用了相同的锚杆长度,而这个长度与作业场景并无太大差异
【High Correlation Filtering】例如,某些地质条件、支护类型和材料强度之间可能存在高度的相关性。如果支护的具体类型与材料强度之间高度相关,并且这两个变量在模型中传递的是类似的信息,那么可以通过去除其中一个变量来减少计算负担
科研成果
现场调研
实际案例《作业规程》《地质报告》《作业手册》
支护规程:通常包括八大章节,分别为第一章概况、第二章地面位置及地质情况、第三章巷道布置及支护说明、第四章施工工艺、第五章生产系统、第六章劳动组织与主要技术经济指标、第七章安全技术措施、第八章灾害应急措施及避灾路线;
书籍、论文分析
问卷调查
通过以上方法,本文共收集了612份关于煤矿巷道支护的资料,这些资料来自于内蒙古、山西、山东、安徽、贵州等地。经初步筛查发现,
从支护类型上看,
从存储格式上看,
(DOCX、 PDF和DOC的格式存储。为保证对煤矿巷道支护资料的高效处理,本文全部采用结构化管理形式,一方面,利用python将所有DOC格式转为DOCX格式存储,另一方面,再利用python将所有PDF资料转化为WORD文档,并以DOCX 格式存储。
根据岩石的坚硬程度和岩体完整程度给出岩体基本质量级别,然后根据地下水情况、软弱结构面情况以及初始应力等对基本质量值进行修正,最终获得岩体级别的校正结果。(申艳军, 徐光黎. 国标岩体分级标准BQ的图解法表示[J]. 岩石力学与工程学报, 2012,31(S2):3659-3665.)
$$S=\frac{γH}{Rc}$$
S、、分别代表围岩稳定性指数、围岩自重、单轴抗压强度
更适用于无明显构造应力且完整的岩体,而对于有明显构造应力或节理发育很明显的岩体则不适用。
本 稳定性指数分类法 将围岩稳定性分成三个等级:当围岩稳定性指数在0.25以下时为稳定,在0.25~0.40的范围内时为中等稳定,高于0.40且低于0.65时则为不稳定。
目前应用最广泛的煤矿巷道围岩稳定性分级方法,它以模糊数学理论为基础,通过建立隶属函数,并根据其计算出每个评价对象对整个评价值的权重,然后再将所有被评估对象的权重加权求和得出最终结果
王哲哲等(2019)、张涛等(2020)、尹会永(2020)采用该方法研究煤矿巷道围岩稳定性分级,取得了较好的应用效果, 并通过仿真或现场实验进行了检验。
(Random Forest,RF)
随机森林是一种用作预测和分类的机器学习模型,该算法以数据驱动方式解决小样本容量问题,能够较好地反映出不同类别间的差异性,因此被广泛应用于各个领域。
赵汝星(2014)搜集了部分矿井35条巷道数据,选取围岩强度、埋深、节理裂隙发育程度、巷道跨度、直接顶与煤层厚度之比和松动圈厚度六个指标构建随机森林模型进行回采巷道稳定性分类,同时与决策树、BP神经网络等模型对比,发现该模型在回采巷道围岩稳定性分类方面具有更好的效果。邵良杉等(2018)构建了基于改进随机森林算法的回采巷道围岩稳定性分类模型,同时对影响煤矿巷道围岩稳定性的因素进行了重要性排序
(Support Vector Machine,SVM)
支持向量机是一种机器学习分类算法,目前应用已经非常成熟。石永奎等(2015)分别建立支持向量机模型、决策树模型和朴素贝叶斯模型对煤矿围岩稳定性进行分类预测,通过粗糙集理论分析验证了七类影响因素,并从三个方面对模型效果进行评价,研究结果表明SVM分类方法在围岩稳定性分类中具有更好的表现。
围岩松动圈理论
最早由董方庭教授提出。当围岩强度小于围岩应力时,围岩四周将形成松动破裂区,即松动圈,其分布范围的大小综合反映了原岩应力、岩体性质及地下水等多种因素的影响,成为巷道围岩稳定性判定的综合性分类指标。
综合法
特殊情形下,仅使用单一方法难以实现准确分类。为此,许多学者提出了多种方法有效结合的综合分类法。杨仁树等(2015)[ 26]综合运用模糊聚类法和层次分析法,实现了对煤矿巷道围岩稳定性的合理分类。王应帅(2015)[ 27]将工程岩体分级理论和专家评分法有效结合,对围岩稳定性进行分类,效果显著。
在训练集上训练模型,并在验证集上测试模型的性能,使用交叉验证(包括分类准确率、回归预测的误差等)来评估模型的稳定性和可靠性。
(工程设备、材料须填写名称、规格、数量)
附件:评分表、评审小组和意见(略)
以下内容编辑时间较早,不及前文更新及时,故参考意义有限,下文 仅节选以示学习了部分文献的数据处理手法 等
介绍[预处理的必要性]:由于传感器的灵敏度会受到空间环境温度、湿度等因素的影响...这些异常数据会阻碍模型提取时间序列数据的特征, 影响机器学习模型的“学习”能力...
"实验数据来自XX省某煤矿的工作面XX年X月X日至..的监测数据.."
介绍数据产生的地理环境、条件,简要交代数据形成的原理,可附【工作面测站布置图】【数据能否分类?分别作图?】···
3σ原则
...井下传感器可能会工作异常,导致传感器记录数据出现重大误差。同时,为了保证传感器的正常工作,煤矿工作人员会定期对传感器进行调校...
给数据示例!处理过程
给数据示例!处理过程
为什么要搞特征工程?数据挖掘中的数据和特征中包含的信息决定了机器学习获取知识和技能的上限,而各种模型和算法的应用是为了能够更大限度地提高学习性能,从而使得学习能力逼近上限。因此对原始数据中的特征处理是非常必要的。通过获取更多的、更好的特征,可以减少模型寻找最优参数的工作量和时间。
在公式 Supervise(F, LS, GS, TS) 中:输入为一系列的历史特征 f(t-LS), f(t-(GS+2)) 至 f(t-(GS+1)),和未来的目标数据 f(t), f(t+1) 至 f(t+(TS-1))。
空档期从 t-(GS+2) 到 t-(GS+1),这是在当前时间点前后(下例中是后)的一个时间间隔,用于处理时间序列中的信息间隔问题,确保不会用到未来数据预测未来。