2019年7月

▼ 概述

做日志分析工作的经常需要跟成千上万的日志条目打交道,为了在庞大的数据量中找到特定模式的数据,常常需要编写很多复杂的正则表达式。例如枚举出日志文件中不包含某个特定字符串的条目,找出不以某个特定字符串打头的条目,等等。

▼ 使用否定式前瞻

正则表达式中有前瞻(Lookahead)后顾(Lookbehind)的概念,这两个术语非常形象的描述了正则引擎的匹配行为。需要注意一点,正则表达式中的前和后和我们一般理解的前后有点不同。一段文本,我们一般习惯把文本开头的方向称作“前面”,文本末尾方向称为“后面”。但是对于正则表达式引擎来说,因为它是从文本头部向尾部开始解析的(可以通过正则选项控制解析方向),因此对于文本尾部方向,称为“前”,因为这个时候,正则引擎还没走到那块,而对文本头部方向,则称为“后”,因为正则引擎已经走过了那一块地方。如下图所示:

所谓的前瞻就是在正则表达式匹配到某个字符的时候,往“尚未解析过的文本”预先看一下,看是不是符合/不符合匹配模式,而后顾,就是在正则引擎已经匹配过的文本看看是不是符合/不符合匹配模式。符合和不符合特定匹配模式我们又称为肯定式匹配和否定式匹配。

现代高级正则表达式引擎一般都支持都支持前瞻,对于后顾支持并不是很广泛,因此我们这里采用否定式前瞻来实现我们的需求。

▼ 实现

测试数据:

2009-07-07 04:38:44 127.0.0.1 GET /robots.txt
2009-07-07 04:38:44 127.0.0.1 GET /posts/robotfile.txt
2009-07-08 04:38:44 127.0.0.1 GET /

例如上面这几条简单的日志条目,我们想实现两个目标:

1.把8号的数据过滤掉
2.把那些不包含robots.txt字符串的条目给找出来(只要Url中包含robots.txt的都给过滤掉)。

前瞻的语法是:

(?!匹配模式)

我们先来实现第一个目标——匹配不以特定字符串开头的条目。

这里我们因为要排除一段连续的字符串,因此匹配模式非常简单,就是2009-07-08。实现如下:

^(?!2009-07-08).*?$

Expresso我们可以看到结果确实过滤掉8号的数据。

接下来,我们来实现第二个目标——排除包含特定字符串的条目。

按照我们上面写法,我照葫芦画瓢了一下:

^.*?(?!robots\.txt).*?$

这段正则用大白话描述就是:开头任意字符,然后后面不要跟着robots.txt连续字符串,然后再跟着任意个字符,字符串结尾。

运行测试,结果发现:

没有达到我们想要的效果。这是为什么呢?我们给上面的正则表达式加上两个捕获分组调试一下:

^(.*?)(?!robots\.txt)(.*?)$

测试结果:

我们看到,第一个分组啥都没有匹配到,而第二个分组却匹配了整个字符串。再回过头来好好分析一下刚才那个正则表达式。实际上,当正则引擎解析到A区域的时候,就已经开始执行B区域的前瞻工作。这个时候发现当A区域为Null的时候匹配成功——.*本来就允许匹配空字符,前瞻条件又满足,A区域后面紧跟着的是2009字符串,而并不是robots。因此整个匹配过程成功匹配到所有条目。

分析出原因之后我们对上述的正则进行修正,将.*?移入前瞻表达式,如下:

^(?!.*?robots).*$

测试结果:

Bingo!

前几天医院收进来一个人,两百多接近三百斤的一个人。
这个人很活泼,也很可爱的性格,28岁看起来跟40岁的长相似的。
每天见到最多的就是他举着铁杆,上面挂着水,扎着针到处逛。
至于他的病,我也不想说是什么病,是属于遗传代谢病。
我看着他看着手中的检查报告和数据,心里是真的很苦涩。
他这情况已经是属于很危险,而且目前也是束手无策的。
昨天早上我过来上班,小护士直接找我说情况。重症病房里面,他已经昏迷,手已经无法扎针,因为昏迷中的他还在扭动挣扎。
周围全都是血,手脚用衣服拧成绳子绑住。九点多不到十点,一个生命就离去了。
我看着通道一个五十来岁的汉子,皮肤黝黑,穿着朴素。
忍着丧子之痛在扶着瘫坐在地上哭闹的他的母亲,死者的奶奶。
这个时候我意识到一个很严重的问题,那就是,我变了。我的任性已经麻木了。
我不是那个抢救17岁女孩没救过来就一直哭泣的实习生,我不是那个不断开解患者亲友的好孩子。
我是一个医生,冷酷,无情,理智,并且麻木。
见惯了生死,突然有一种感悟,你跟我,终将离开的。请想象一下,陷入黑暗,然后世界亿万年再也没有你,也与你无关了。
死亡是冰冷的,可怕的。所以我要在这里告诉所有人,珍惜你的生命,生死是大恐怖,真正面临生死你会知道什么都不重要了。
别去计较太多得失,别去留有太多计较。不用很多心眼,不用很多钱。
在基础生活得以保障的前提下,不要用命换钱,不要用牺牲健康做任何非必要的事。
你们仔细想想,发烧头痛,感冒咳嗽,是不是很难过。
在我这里,比这种难过十倍百倍的情况大有人在,而且遥遥无期不知何时终结。
无时无刻处于痛苦之中,是否很可怕。
比之更可怕的,是死亡。
别让工作压垮你。再忙,尽量自己做饭吃。有氧运动一定要坚持。
有条件去游泳馆游泳,没条件去自家门口跑步。别总是只知道熬夜,工作,泡妞。
死了,什么都没有。
一点心理感悟,写来没什么头绪,希望可以稍微提醒一些朋友。哪怕一个也就够了。

jQuery插件fancybox是一个功能强大的图片浏览插件,可以全屏浏览、自动播放、放大缩小、缩略图、下载等,特别适合图片类博客网站,看图新体验!
今天正好有空用写了一个适用typecho 1.1fancybox插件:FancyBoxPic

fancybox版本:3.5.6

▼ 主要功能

1.可禁止jquery二次加载

2.可根据需要设置fancybox显示按钮

3.可设置缩略图打开(默认关闭)

4.可设置插件应用范围(首页、文章、独立页面、归档页面)

▼ 插件后台设置页面

FancyBoxPic

▼ 安装方法

安装很简单,下载插件,上传至usr/Plugins,启用即可

▼ 下载地址

FancyBoxPic


- 阅读剩余部分 -

二维码