jiayi Rss

awk + expect 一例

Posted by jiayi | Posted in shell | Posted on 22-10-2008

5

一文件,格式如下:
192.168.1.1    command1
192.168.1.2    command2
192.168.1.3    command3
192.168.1.4    command4
……….

第一列是写主机IP列表,第二列是不同的命令
现在求的脚本要实现这样的功能:
要在一台主控机上分别登陆第一列列出的ip在该台主机上执行对应的command

这个问题不管两台主机之间有没有做过信任,expect + awk 都可以搞定

解:
假设用户root,端口22。
ssh.exp文件:

CODE

#!/usr/bin/expect
set timeout 100
set ip [lindex $argv 0]
set command [lindex $argv 1]
spawn ssh root@$ip
expect "#"
send "$command\r"
expect "#"
send "exit\r"

info.txt文件:

192.168.1.1    echo "haha" > file1.txt
192.168.1.2    echo "haha" > file2.txt

shell下执行

CODE

awk ‘{ip=$1;$1="";command=$0;while("./ssh.exp "ip" \""command"\" " | getline){next}}’ info.txt

说明一点,这里为什么不用shell作循环而选用awk,因为shell作循环效率太差…

awk文本处理实例(原创)

Posted by jiayi | Posted in awk | Posted on 22-08-2008

3

awk教程一文中,我介绍了awk的基础知识。现在介绍些awk文本处理的实际例子
例一:
a.txt
    a b c d e f
    1 2 3 4 5 6
现在要变成将最后的一个字段插到第二字段后面,然后其他字段往后移,变为
  a b f c d e
  1 2 6 3 4 5

CODE

awk ‘{$2=$2" "$NF;NF–;print}’ a.txt

NF–用来欺骗print语句

例二:
用下面一列字符串
SUNW,Netra-240
SUNW,Netra-400
SUNW,Netra-800
得到240/400/800

awk解1:

CODE

awk -F"-" ‘{printf $2"/"}END{print ""}’  filename

awk解2:

CODE

awk -F"-" ‘{a=(a=="")?$2:a"/"$2}END{ print a}’ filename

恩,awk可以三目运算

其他解:

CODE

cut -d"-" -f2 filename | xargs | tr " " "/"

速度应该快些

例三:
一个网络接口参数的配置文件,格式如下:
auto eth0
        ip 192.168.0.10
        netmask 255.255.0.0
        gateway 192.168.0.1
auto eth1
        ip 192.168.0.20
        netmask 255.255.0.0
        gateway 192.168.0.1
auto bond0
        ip 10.6.5.56
        netmask 255.255.0.0
        gateway 10.6.0.1
要求解析出bond0的网关

awk解1:

CODE

awk ‘BEGIN{i=-4} $2=="bond0"{i=NR} NR==i+3′

awk解2:

CODE

awk ‘/bond0/{flag=1}flag==1&&/gateway/{print $2;flag=0}’

此法更为通用

例四
把下面一批文件,文件名前六位是200801的合并到一个文件200801
20071228 20071229 20071230 20071231 20080101 20080102 20080103 20080104 20080105 20080106

合并之前需要转换, 上述文件类似这样:
a  a  aaaaaaaa
b  b  bbbbbbbb

最后一个域按定长分割,转换成:
a,a,aaa,aa,aaa
b,b,bbb,bb,bbb

CODE

cat 200801* | awk -vOFS="," ‘{print $1,$2,substr($3,1,3),substr($3,4,2),substr($3,6,3)}’

先合并后处理,与先处理后合并是一样的。只有print 语句用逗号分割或直接print 时,OFS才起作用。

例五:
报表里的数据手机号(2000+),找出全部前7位相同的为异常的号段
数据格式:
13406211154
13407349944
13409810871
13412418614
13412418935
13414598641
13414754454

执行后结果为
13412418614 
13412418935

CODE

awk ‘{a[substr($0,1,7)]=a[substr($0,1,7)]$0" ";}END{for(i in a){if(length(a)>12)print a}}’ filename

例六:

有数据如下:
no
CP_COVER_ID
20080319COVR00850228
no
CP_COVER_ID
20080319COVR00850234

ok
CP_COVER_ID
20080319COVR00850235

ok
CP_COVER_ID
20080319COVR00850248

ok
CP_COVER_ID
20080319COVR00850254

ok
CP_COVER_ID
20080319COVR00850257

no
CP_COVER_ID
20080319COVR00850259

ok
CP_COVER_ID
20080319COVR00850262

no
CP_COVER_ID
20080319COVR00850266
no
CP_COVER_ID
20080319COVR00850267
no
CP_COVER_ID
20080319COVR00850268

ok
CP_COVER_ID
20080319COVR00850276

ok
CP_COVER_ID
20080319COVR00850299

ok
CP_COVER_ID
20080319COVR00850301

ok
CP_COVER_ID
20080319COVR00850302

ok
CP_COVER_ID
20080319COVR00850304

ok
CP_COVER_ID
20080319COVR00850307

ok
CP_COVER_ID
20080319COVR00850308

ok
CP_COVER_ID
20080319COVR00850331

ok
CP_COVER_ID
20080319COVR00850334

ok
CP_COVER_ID
20080319COVR00850336

ok
CP_COVER_ID
20080319COVR00850337

要求滤成如下的格式
no
CP_COVER_ID
20080319COVR00850228
20080319COVR00850234
20080319COVR00850259
20080319COVR00850266
20080319COVR00850267
20080319COVR00850268

ok
CP_COVER_ID
20080319COVR00850235
20080319COVR00850248
20080319COVR00850254
20080319COVR00850257
20080319COVR00850262
20080319COVR00850276
20080319COVR00850299
20080319COVR00850301
20080319COVR00850302
20080319COVR00850304
20080319COVR00850307
20080319COVR00850308
20080319COVR00850331
20080319COVR00850334
20080319COVR00850336
20080319COVR00850337

干拔awk:

CODE

awk ‘/no/{flag="no";next}
     /ok/{flag="ok";next}
     /^[yn0-9]/{if(flag=="no")no=no$0"n";else ok=ok$0"n"}
     END{print "nonCP_COVER_IDn"no"noknCP_COVER_IDn"ok}’

     filename

追求速度,一趟遍历完成。time测试结果:
real    0m0.005s
user    0m0.000s
sys    0m0.004s

sed+awk:

CODE

sed -e ’s/no/n&/;s/ok/n&/’ shu.txt | awk ‘BEGIN {FS="n";RS=""}
    $1 ~ "no" {a[i++]=$3}
    $1 ~"ok" {b[j++]=$3}
    END { print "nonCP_COVER_ID";for (k=0;k<i;k++) print a[k];
               print "oknCP_COVER_ID";for (k=0;k<j;k++) print b[k] }’

sed 将所有的 no,ok前面插入一个回车,保证文件格式如下
no/ok
CP_COVER_ID
number
1 or n个空行
no/ok
CP_COVER_ID
number
…..
让每3个记录用一个或多个空行来分割,方便awk使用RSFS来处理。但是sed多一次遍历,END中多两次循环,所以速度肯定受影响。time测试结果:
real    0m0.014s
user    0m0.008s
sys    0m0.008s

例七:
Ip=192.168.1.1
/dev/sdb1              68G   64G  760M  99% /disk1
/dev/sdc1              68G   63G  1.3G  98% /disk2
Ip=192.168.1.2
/dev/sda3              15G   13G  1.5G  90% /
/dev/sda3              15G   10G  4.2G  71% /
上面是一个检查系统的程序所得结果的部分内容。该部分主要是检查磁盘使用率的信息。现由于需要,要将该部分信息保存成下列字符串的形式
#5$192.168.1.1$[ dev/sdb1][ 99%][/dev/sdc1][ 98%]#
#5$192.168.1.2$[/dev/sda3][ 90%][/dev/sda4][ 71%]#
其中5代表类型#和$,[]都是规定的分隔符

CODE

awk ‘BEGIN{RS="IP=";OFS=""}{$1="#5$"$1"$";$2="["$2"]";$3="[ "$6"]";$4="["$8"]";$5="[ "$12"]#";NF=5;print}’ shu.txt | sed ‘{1d}’
 

RS牛力可见一斑

例八:
jiayi:/mnt/3/pdf/linuxclass/shell/experience/en # nl 1.sh
     1  #!/bin/bash
     2  echo $$
     3  ./2.sh &
执行nl命令后,每行前多出一串空格。现在要将行首空格去掉,并将行号后面的空白合并为一个空格:
1 #!/bin/bash
2 echo $$
3 ./2.sh &

用awk处理So easy!

CODE

nl 1.sh | awk ‘$1=$1′

对比sed繁琐的正则处理:

CODE

nl 1.sh | sed -r ’s/^ +([0-9]+)t/1 /’

呵呵,awk的牛力~
其中$1=$1的奥妙,读者结合我 awk教程一文自行思考

例九:
文本如下:
43 141
31 3
43 111
21 5
92 3
31 52
62 2
43 1
75 9

要求以第一个字段为标,得到如下结果
31 3
31 52
43 1
43 111
43 141

CODE

awk ‘{a[$1]++}END{while(getline<"FILENAME"){if(a[$1]>1) print}}’ filename | sort

此例着重观看getline的用法。getline<"FILENAME"中,FILENAME为awk内置的变量,代表当前处理的文件名。经此句处理,从此文件中读入的每一行都被自动分解为$1 $2 $3$NF,全行$0,相当于awk套awk。
我使用awk的原则是尽量一趟循环搞定,所以没有用管道。

例十:
文本如下:
HAN  1
12 23 34 45
23 45 56
HAN  2
12 23 34 45
23 45 56
12 23 34 45
HAN  3
12 23 34 45
23 45 56 44
12 23 34 45
23 45 56
HAN  4
12 23 34 45
23 45 56
HAN  n

不幸此文本命运不济,被莫名地”拉直“为:
HAN  1 12 23 34 45 23 45 56
HAN  2 12 23 34 45 23 45 56 12 23 34 45
HAN  3 12 23 34 45 23 45 56 44 12 23 34 45 23 45 56
HAN  4 12 23 34 45 23 45 56
HAN  n ……
如何恢复她本来面目?

CODE

awk ‘{for(i=1;i<=NF;i++){if(i%4==3)print "";printf($i" ")}print ""}’ filename

恩,取余运算简化代码

好啦,今天就写这么多吧。
如果处理这些问题不在话下,那谁也不敢说你是awk“新玉米”了~

awk教程(原创)

Posted by jiayi | Posted in awk | Posted on 20-08-2008

7

Linux文本处理工具有两款用的较多,sed&awk。sed是一款流编辑器,而awk是一门脚本语言。从功能上讲,awk可以完全取代sed;从速度上讲,awk一般要慢于sed。jiayi一直是awk的fans,现在就全面的介绍一下awk^_^

概述
awk 是一种编程语言,她是由AT&T 贝尔实验室的Alfred Aho, Peter Weinberger 和Brian Kernighan开发的,Brian Kernighan(此公大家不陌生吧~) 目前仍在维护及增强awk。awk的语法与C类似。

调用
1.awk ‘pattern-action statements’ input_file_list
2.将awk命令插入一个文件,并使awk程序可以执行,然后用awk命令解释器作为脚本首行。
3.将所有awk命令插入一个单独文件
    awk -f awk-script-file inputfile

模式和动作
一个awk 程序是由一系列的"模式-动作"语句构成的:
pattern {action}
pattern {action}
pattern {action}
……

awk 程序为每个输入行依次地进行每一个"模式"的匹配寻找,对每一个匹配上的模式执行相应的"动作",接着读取下一行并再次开始匹配,直到所有的输入都处理完毕。

在一条语句中可以省略"模式"或者"动作",缺省的模式为匹配所有行,缺省的动作为输出当前行:print $0。无论何时,动作都必须用花括号引起来。

awk 从输入中一次读取一行(一条记录),缺省的行分割符(记录分割符)为\n。

然后awk 将记录分割为一个个的字段,缺省的字段分割符为“Blank”(空白)。一行中的第一个字段称为$1,第二个字段称为$2,. . . ,整个记录称为$0。

打印
一个动作可以没有模式,在这种情况下动作在所有行上执行。最简单的动作是打印某些或所有的记录;这可以通过 awk 命令 print 来完成。awk 程序{ print }打印每个记录,也就是把输入完好的复制到输出。更有用的是打印来自每个记录的一个字段或某些字段。例如

CODE

awk ‘{print $2, $1}’ filename

按逆序打印前两个字段。在 print 语句中用逗号分隔的项,在输出的时候会用当前输出字段分隔符分隔开。没有用逗号分隔的项会串联起来,所以

CODE

awk ‘{ print $1 $2 }’ filename

把第一个和第二个字段合在一起。

可以使用预定义的变量 NF 和 NR;例如

CODE

awk ‘{ print NR, NF, $0 }’ filename

打印出前导了记录数和字段数的每个记录。

输出可以被重定向到多个文件中

CODE

awk ‘{ print $1 >"foo1"; print $2 >"foo2" }’ filename

写第一个字段 $1 到文件 foo1 中,写第二个字段到文件 foo2 中。还可以使用 >> 符号:

CODE

awk ‘{ print $1 >>"foo" }’ filename

添加输出到文件 foo。(在每种情况下,输出文件都在必要时建立)。

文件名可以是一个变量或字段,同常量一样;例如

CODE

awk ‘{ print $1 >$2 }’ filename

使用字段 2 的内容作为文件名字。

自然的,有对输出文件数目的限制,目前是 10 个。

awk 还提供 printf 语句用于输出格式化:
    printf format,expr, expr, …
依据在 format 中的规定格式化在列表中的表达式并打印它们。例如,

CODE

awk ‘{ printf "%8.2f %10ld\n", $1, $2 }’ filename

打印 $1 为 8 位宽的小数点后有两位的浮点数,打印 $2 为 10 位长的长十进制数,并跟随着一个换行。不自动生成输出分隔符;你必须自己增加它们,如这个例子那样。这个版本的printf 同于C 所使用的。

输出
1.抽取域

 

CODE

awk -F: ‘{print $1}’ /etc/passwd # -F 指定字段分割符

2.保存输出

 

CODE

awk -F: ‘{print $1}’ /etc/passwd | tee user

awk -F: ‘{print $1}’ /etc/passwd >user

3.使用标准输出

CODE

awk ‘/root/’ /etc/passwd # /xxx/为正则表达式,表示打印包含"root"的行

4.打印所有记录

CODE

awk ‘{print $0}’ /etc/passwd

5.打印表头

CODE

awk -F: ‘BEGIN {print "NAME\n"} {print $1}’ /etc/passwd

6.打印表尾

 

CODE

awk -F: ‘{print $1} END {print "this is all users"}’ /etc/passwd

条件操作符
1.匹配

 

CODE

awk ‘{if($1~/root/) print $0}’ /etc/passwd    #如果field1包含"root",打印该行

2.精确匹配
!=  ==

3.不匹配
!~

4.大小比较
> >= < <=

5.设置大小写

CODE

awk ‘/^[Rr]oot/’ /etc/passwd # 打印包含行首为Root或者root的行

6.任意字符

CODE

awk ‘$2~/^…a/’ /etc/passwd # 打印第二个字段开头第四个字母为t的行

7.或关系匹配

CODE

awk ‘/(root|ftp)/’ /etc/passwd #打印包含"root"或者"ftp"的行

8.AND &&    OR  ||

CODE

awk ‘{$1~/mail/ && $7==/bin/bash}’ /etc/passwd


系统变量:

ARGV 命令行参数数组
ENVIRON 环境变量数组
FILENAME 当前输入文件名
FNR 当前文件中的记录号
FS 字段分隔符
IGNORECASE 忽略正则表达式和串的大小写
NF 当前记录中的字段数
NR 至今读取的记录数
OFMT 数的输出格式,缺省为"%.6g"
OFS 输出字段分隔符
ORS 输出记录分隔符
RS 输入记录分隔符
RSTART 由match() 匹配的第一个字符的索引
RLENGTH 由match() 匹配的串的长度
SUBSEP 下标分隔符,缺省为"�34"
 

内置字符串函数

gsub(r,s,t) 在字符串t中,用字符串s替换和正则表达式r匹配的所有字符串。返回替换的个数。如果没有给出t,缺省为$0
index(s,t)   返回s 中字符串t 的位置,不出现时为0
length(s) 返回字符串s 的长度,当没有给出s时,返回$0的长度
match(s,r) 返回r 在s 中出现的位置,不出现时为0。设置RSTARTRLENGTH的值
split(s,a,r) 利用r 把s 分裂成数组a,返回元素的个数。如果没有给出r,则使用FS。数组分割和字段分割采用同样的方式
sprintf(fmt,expr_list)   根据格式串fmt,返回经过格式编排的expr_list
sub(r,s,t) 在字符串t中用s替换正则表达式t的首次匹配。如果成功则返回1,否则返回0。如果没有给出t,默认为$0
substr(s,p,n) 返回字符串s中从位置p开始最大长度为n的字串。如果没有给出n,返回从p开始剩余的字符串
tolower(s) 将串s 中的大写字母改为小写,返回新串
toupper(s) 将串s 中的小写字母改为大写,返回新串
 

gsub(r,s,t):

CODE

echo ababab | awk ‘gsub(/a/,"c")’ # cbcbcb


sub(r,s,t)

CODE

echo ababab | awk ’sub(/a/,"c")’  # cbabab


其余函数自行尝试。

内置算术函数

cos(x)    返回x的余弦值
sin(x) 返回x的正弦值
int(x) 返回x的整数部分
log(x) 返回x的自然对数
sqrt(x) 返回x的平方根
antan2(x)       返回y/x的反正切,值在 -π到 π之间
rand() 返回随机数r,0 <= r < 1
srand(x) 建立rand()的随机种子,如果没有指定种子,则按当天时间。返回旧的种子
 

cos(x):

CODE
CODE

pai=$(echo "scale=66; a(1)*4" | bc -l)
awk -va=$pai ‘BEGIN{print cos(a/4)}’ OR awk ‘BEGIN{print cos(’$pai‘/4)}’ #0.707107

其余函数自行尝试。     

附算术运算符

x^y x的y次幂
x**y 同上
x%y 计算x/y的余数(求模)
x+y x加y
x-y x减y
x*y x乘y
x/y x除y
-y 负y(y的开关符号);也称一目减
++y y加1后使用y(前置加)
y++ 使用y值后加1(后缀加)
–y y减1后使用y(前置减)
y– 使用后y减1(后缀减)
x=y 将y的值赋给x
x+=y 将x+y的值赋给x
x-=y 将x-y的值赋给x
x*=y 将x*y的值赋给x
x/=y 将x/y的值赋给x x%=y 将x%y的值赋给x
x^=y 将x^y的值赋给x
x**=y 将x**y的值赋给x