x-note
  • Introduction
  • JavaScript
    • JavaScript 作用域链
    • JavaScript 数据结构与类型
    • JavaScript 原型
    • JavaScript this 关键字
    • JavaScript 函数
    • JavaScript delete 运算符
    • JavaScript 内存管理与垃圾回收
    • JavaScript 严格模式与混乱模式
    • JavaScript 数字精度丢失
    • JavaScript 并发模型
    • 利用原型链实现继承
  • ECMAScript
    • ECMAScript 6 变量及常量的声明
    • ECMAScript 6 变量的解构赋值
    • ECMAScript 6 Promise 对象
    • ECMAScript 6 Symbol
    • ECMAScript 6 Proxy
    • ECMAScript 6 Reflect
    • ECMAScript 6 new.target
    • ECMAScript 6 Set 和 WeakSet
    • ECMAScript 6 Map 和 WeakMap
    • ECMAScript 6 Iterator
    • ECMAScript 6 Generator
    • ECMAScript 6 class
    • ECMAScript 7
    • ECMAScript 8 async 函数
    • ECMAScript 8 内存共享与原子性
    • ECMAScript 8 Others
    • ECMAScript 2018
    • ECMAScript 2019
  • CSS
    • CSS 块格式化上下文(BFC)
    • CSS 盒模型
    • CSS 外边距合并
    • CSS Float
    • CSS Position
    • CSS Border-Image
    • CSS BEM
    • CSS 表布局详解
    • 页面布局之单列布局
    • 页面布局之多列布局
  • React
    • React 组件的生命周期
    • React 虚拟 DOM
    • React Reconciliation
    • React Diff 算法核心
    • React Fiber
    • React Scheduling
    • React Context API
    • React Refs
    • React HMR
    • React Hook
  • VUE
    • VUE 响应式系统
    • VUE 渲染机制
    • 关于 Vue 的思考
  • Webpack
    • Webpack 基本概念
    • Webpack HMR
  • Babel
    • @babel/preset-env
  • WEB
    • WEB 基础知识及概念
      • 屏幕测量单位
      • 重绘与重排
      • 前端模块化系统
      • WEB 客户端存储
      • 浏览器的渲染过程
    • WEB 性能优化
      • WEB 性能指标
      • WEB 图片优化
      • 懒加载资源
    • WEB 安全
      • XSS
      • XSRF
      • 点击劫持
      • 同源策略(Same Origin Policy,SOP)
    • WEB 解决方案
      • webp 兼容方案
      • WEB 拖拽实现方案
    • WEB SEO
  • Git
    • Git 工作流
    • Git 内部原理
  • 传输协议
    • UDP
      • UDP 基本概念
    • TCP
      • TCP 基本概念
    • HTTP
      • HTTP 基础
      • HTTP 缓存
      • HTTP-2
      • HTTP-3
      • HTTPS
      • 自定义 HTTPS 证书
  • Protocol Buffers
    • Protocol Buffers 基础
  • gRPC
    • gRPC 简介
    • gRPC 基础概念
    • GRPC with GraphQL and TypeScript
  • 正则表达式
    • 正则表达式基础
    • 正则表达式的悲观回溯
  • 基础算法
    • 冒泡排序
    • 插入排序
    • 选择排序
    • 快速排序
    • 归并排序
    • 希尔排序
    • 堆排序
    • 桶排序
    • 计数排序
    • 基数排序
    • 二叉树的遍历
    • 动态规划
    • 回溯
  • 压缩算法
    • HPACK
    • QPACK
  • 设计模式
    • DDD
      • 模型元素的模式
    • 常见设计模式
      • 工厂方法
      • 抽象工厂
      • 构造器
      • 原型
      • 单例模式
      • 适配器模式
      • 桥接模式
      • 组合模式
      • 外观模式
      • 享元模式
      • 代理模式
      • 责任链模式
      • 命令模式
      • 迭代器模式
      • 中介者模式
      • 备忘录模式
      • 观察者模式
      • 状态模式
      • 策略模式
      • 模版方法模式
      • 访问者模式
      • 依赖注入
    • MVC
    • MVP
    • MVVM
  • 颜色空间
    • LCH
由 GitBook 提供支持
在本页
  • 解决方案
  • 1. 禁止回溯
  • 2. 避免导致性能问题的回溯
  • 3. 不使用正则
  • 4. 避免性能问题影响页面响应
在GitHub上编辑
  1. 正则表达式

正则表达式的悲观回溯

正则表达式中*表示匹配日前面的子表达式0次或多次(且尽可能多的匹配)。


假设有正则表达式/^(a*)b$/a和字符串aaaaab。

二者匹配,此时捕获组(a*)捕获到的字符串为aaaaa。


改写正则表达式为/^(a*)ab$/。

此时与字符串依然匹配,但是捕获到的字符串为aaaa。


仔细剖析这个表达式/^(a*)ab$/的匹配过程:

  1. 匹配开始,(a*)匹配尽可能多的字符a;

  2. (a*)一直捕获,直到遇到字符b。此时(a*)已经捕获了aaaaa;

  3. 正则表达式继续执行(a*)之后的ab匹配,此时字符串仅剩一个b,导致无法完成匹配;

  4. 从(a*)当前捕获的字符串中”吐出“一个字符a,这时捕获结果为aaaa,剩余字符串为ab;

  5. 重新执行正则中的ab匹配。完成匹配。捕获组捕获结果为aaaa。


暂时的无法匹配并不会立即导致整体匹配的失败。而是会从捕获组中吐出字符后继续尝试,直到成功或者完全失败。这个“吐出“的过程就叫做回溯。

假设这个表达式/^(a*)b$/匹配字符串aaaaaa.

尽管能够一眼看出来无法匹配,但是正则表达式依旧会逐一回溯所有可能性,才能确定最终结果。这中“傻傻的”回溯过程就叫做_悲观回溯_。

这种悲观回溯,很可能会导致性能问题。

解决方案

1. 禁止回溯

有两种语法可以防止回溯

  • 有限量词

  • 原子分组

不过在 JavaScript 中均不被支持

2. 避免导致性能问题的回溯

以下两种模式的正则表达式很可能导致有性能问题的回溯

  • 前后重复模式,例如/x*x*/;

  • 嵌套量词,例如/(x*)*/。

3. 不使用正则

例如匹配字符串aaaaa,bbbbbb,ccccc中,分割的部分,使用split()对字符串进行切割即可,还能保证代码的性能是线性的。

4. 避免性能问题影响页面响应

在必须使用正则表达式,且这个表达式有潜在的性能问题的情况下。可以吧匹配操作放到 Service Worker 中进行。尽量的不影响页面响应

上一页正则表达式基础下一页基础算法

最后更新于7年前