复盘:highlight+fvh+copy to+json顺序的复杂使用场景问题
qiyuwang 2024-10-31 15:51 13 浏览 0 评论
1、背景情况
业务使用的索引进行了一个切换,从老索引(老集群)切换到了新索引(新集群),更改了主分片数目,其他条件未修改。切换当天研发与测试人员都测试通过。
2、问题描述
索引切换的第二天,研发同学反馈查询使用报错:
经过初步调试,发现报错的内容是在 highlight 模块的 fvh 类型使用,这个操作主要查询了字段 a-name。
这里补充一下 highlight 的使用类型知识。
highlight 的高亮处理有三种 unified/plain/fvh,在大文本下比较合适的是 fvh。
fvh Highlighter 会直接利用 index 的时候创建的 term vector 来得到高亮片段匹配的查询分词,这里就需要一个 mapping 的配置 "term_vector" : "with_positions_offsets"。
具体的 highlight type 属性可以参照官方文档
https://www.elastic.co/guide/en/elasticsearch/reference/current/highlighting.html)
同时,发现了 github 上这个报错的源码注释:
https://github.com/apache/lucene/blob/d5d6dc079395c47cd6d12dcce3bcfdd2c7d9dc63/lucene/highlighter/src/java/org/apache/lucene/search/vectorhighlight/FastVectorHighlighter.java
可以肯定的是 term vector 的计算导致了这个报错。
还好老索引还在,term vector 也可以使用 api 去查看存储的信息内容。
GET 索引名/_termvectors/id?fields=字段名
新索引中的搜索关键字如下所示:
旧索引中的搜索关键字如下所示:
可以明显看到在新老索引里,存的position offset 这两个信息是完全不一样的。
而尝试通过 termvector 去实时(on the fly https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-termvectors.html#docs-termvectors-api-generate-termvectors)计算,还是得到的同样的两个结果。
现在的问题:相同的文档信息出现了不同的 term vector 结果。
3、排查方向
和研发同学沟通讨论后,主要进行了两方面的排查:
- 1.在新老集群上进行索引配置的复制,首先排除集群环境的问题。
- 2.索引有不少自定义的分词器和复杂的参数使用,对索引配置进行进一步分析。
新建测试索引后,我们发现老集群上的测试索引也有这样的错误。且测试索引的 termvector 信息与新索引信息一致。
因此可以排除集群环境的问题。
同时研发同学注意到,termvector 信息中出现了本身文档外的信息:
“text”:["某某科技公司"]
“term_vectors":["mou","ke","ji","gong","si","某","科技","公司"]
而多余的 term vector 信息则来自于另一个存储拼音的字段 b-name,该字段同时设置了 copy to 属性,把内容复制给了问题字段 a-name。
这时,研发同学发现了问题:在新旧索引切换的过程中,客户端也进行了更换。之前是 nodejs JSON上传,nodejs的json是有序的,而切换后的客户端使用的是 golang,golang里面的jsoniter不会有序,排列随机。
因此不同排序的 json 字段在 copy to 的复杂使用下,产生了不同的 term vector。对此进行了测试索引的故障复现。测试数据如下:
{
"b-name" : "mou mou ke ji gong si",
"a-name" : "某某科技公司",
}
b-name 在 a-name 之前,term vector 如下:
字段进行调换后:
4、结论与复盘
实际过程中,我们排查的脑图如下:
图片建议放大查看
针对这个复杂的使用场景也是踩了不少坑。真的是魔鬼隐藏在细节里,json 字段顺序的问题也会导致这样晦涩难找的 bug。
同时也遗留了个小问题:term vector 的 api (on the fly)并不能复现这个场景的问题,是因为计算的是已写入lucene文件的数据,还是模拟的数据写入?那是不是功能的bug,还是理解有差?
来源:铭毅天下Elasticsearch
相关推荐
- PayPal严重漏洞可通过不安全的JAVA反序列化对象
-
在2015年12月,我在PayPal商业网站(manager.paypal.com)中发现了一个严重的漏洞,这个漏洞的存在,使得我可以通过不安全的JAVA反序列化对象,在PayPal的网站服务器上远程...
- 提醒:Apache Dubbo存在反序列化漏洞
-
背景:近日监测到ApacheDubbo存在反序列化漏洞(CVE-2019-17564),此漏洞可导致远程代码执行。ApacheDubbo是一款应用广泛的高性能轻量级的JavaRPC分布式服务框架...
- 【预警通报】关于WebLogicT3存在反序列化高危漏洞的预警通报
-
近日,我中心技术支撑单位监测到WebLogicT3存在反序列化0day高危漏洞,攻击者可利用T3协议进行反序列化漏洞实现远程代码执行。...
- Apache dubbo 反序列化漏洞(CVE-2023-23638)分析及利用探索
-
在对Apachedubbo的CVE-2023-23638漏洞分析的过程中,通过对师傅们对这个漏洞的学习和整理,再结合了一些新学的技巧运用,从而把这个漏洞的利用向前推了一步。整个过程中的研究思路以及...
- 案例|WebLogic反序列化漏洞攻击分析
-
目前网络攻击种类越来越多,黑客的攻击手段也变得层出不穷,常规的防护手段通常是对特征进行识别,一旦黑客进行绕过等操作,安全设备很难发现及防御。通过科来网络回溯分析系统可以全景还原各类异常网络行为,记录所...
- 【预警通报】关于ApacheOFBizRMI反序列化远程代码 执行高危漏洞的预警通报
-
近日,我中心技术支撑单位监测发现ApacheOFBiz官方发布安全更新,修复了一处远程代码执行漏洞。成功利用该漏洞的攻击者可造成任意代码执行,控制服务器。该漏洞编号:CVE-2021-26295,安...
- 关于OracleWebLogic wls9-async组件存在反序列化远程命令执行高危漏洞的预警通报
-
近日,国家信息安全漏洞共享平台(CNVD)公布了OracleWebLogicwls9-async反序列化远程命令执行漏洞。攻击者利用该漏洞,可在未授权的情况下远程执行命令。该漏洞安全级别为“高危”。现...
- Rust语言从入门到精通系列 - Serde序列化/反序列化模块入门指北
-
Serde是一个用于序列化和反序列化Rust数据结构的库。它支持JSON、BSON、YAML等多种格式,并且可以自定义序列化和反序列化方式。Serde的特点是代码简洁、易于使用、性能高效。...
- Java反序列化漏洞详解(java反序列化漏洞利用)
-
Java反序列化漏洞从爆出到现在快2个月了,已有白帽子实现了jenkins,weblogic,jboss等的代码执行利用工具。本文对于Java反序列化的漏洞简述后,并对于Java反序列化的Poc进行详...
- 关于Oracle WebLogic Server存在反序列化远程代码执行漏洞的安全公告
-
安全公告编号:CNTA-2018-00222018年7月18日,国家信息安全漏洞共享平台(CNVD)收录了OracleWebLogicServer反序列化远程代码执行漏洞(CNVD-2018-13...
- CVE-2020-9484 Apache Tomcat反序列化漏洞浅析
-
本文是i春秋论坛作家「Ybwh」表哥原创的一篇技术文章,浅析CVE-2020-9484ApacheTomcat反序列化漏洞。01漏洞概述这次是因为错误配置和org.apache.catalina....
- 告别脚本小子系列丨JAVA安全(8)——反序列化利用链(下)
-
0x01前言...
- 关于WebLogic反序列化高危漏洞的紧急预警通报
-
近日,WebLogic官方发布WebLogic反序列化漏洞的紧急预警通告,利用该漏洞可造成远程代码执行并直接控制Weblogic服务器,危害极大。该漏洞编号为:CVE-2019-2890,安全级别为“...
- 高危!Fastjson反序列化漏洞风险通告
-
漏洞描述...
- 学习Vulhub的Java RMI Registry 反序列化漏洞
-
这个实验,我们先通过dnslog演示命令执行,然后通过反弹shell获得root权限。JavaRemoteMethodInvocation用于在Java中进行远程调用。RMI存在远程bind的...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- PayPal严重漏洞可通过不安全的JAVA反序列化对象
- 提醒:Apache Dubbo存在反序列化漏洞
- 【预警通报】关于WebLogicT3存在反序列化高危漏洞的预警通报
- Apache dubbo 反序列化漏洞(CVE-2023-23638)分析及利用探索
- 案例|WebLogic反序列化漏洞攻击分析
- 【预警通报】关于ApacheOFBizRMI反序列化远程代码 执行高危漏洞的预警通报
- 关于OracleWebLogic wls9-async组件存在反序列化远程命令执行高危漏洞的预警通报
- Rust语言从入门到精通系列 - Serde序列化/反序列化模块入门指北
- Java反序列化漏洞详解(java反序列化漏洞利用)
- 关于Oracle WebLogic Server存在反序列化远程代码执行漏洞的安全公告
- 标签列表
-
- navicat无法连接mysql服务器 (65)
- 下横线怎么打 (71)
- flash插件怎么安装 (60)
- lol体验服怎么进 (66)
- ae插件怎么安装 (62)
- yum卸载 (75)
- .key文件 (63)
- cad一打开就致命错误是怎么回事 (61)
- rpm文件怎么安装 (66)
- linux取消挂载 (81)
- ie代理配置错误 (61)
- ajax error (67)
- centos7 重启网络 (67)
- centos6下载 (58)
- mysql 外网访问权限 (69)
- centos查看内核版本 (61)
- ps错误16 (66)
- nodejs读取json文件 (64)
- centos7 1810 (59)
- 加载com加载项时运行错误 (67)
- php打乱数组顺序 (68)
- cad安装失败怎么解决 (58)
- 因文件头错误而不能打开怎么解决 (68)
- js判断字符串为空 (62)
- centos查看端口 (64)