Linux Awk命令詳解

2021-02-14 華清遠見

簡介

awk是一個強大的文本分析工具，相對於grep的查找，sed的編輯，awk在其對數據分析並生成報告時，顯得尤為強大。簡單來說awk就是把文件逐行的讀入，以空格為默認分隔符將每行切片，切開的部分再進行各種分析處理。

awk有3個不同版本: awk、nawk和gawk，未作特別說明，一般指gawk，gawk 是 AWK 的 GNU 版本。

awk其名稱得自於它的創始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首個字母。實際上 AWK 的確擁有自己的語言： AWK 程序設計語言，三位創建者已將它正式定義為「樣式掃描和處理語言」。它允許您創建簡短的程序，這些程序讀取輸入文件、為數據排序、處理數據、對輸入執行計算以及生成報表，還有無數其他的功能。

使用方法

awk '{pattern + action}' {filenames}

儘管操作可能會很複雜，但語法總是這樣，其中 pattern 表示 AWK 在數據中查找的內容，而 action 是在找到匹配內容時所執行的一系列命令。花括號（{}）不需要在程序中始終出現，但它們用於根據特定的模式對一系列指令進行分組。 pattern就是要表示的正則表達式，用斜槓括起來。

awk語言的最基本功能是在文件或者字符串中基於指定規則瀏覽和抽取信息，awk抽取信息後，才能進行其他文本操作。完整的awk腳本通常用來格式化文本文件中的信息。

通常，awk是以文件的一行為處理單位的。awk每接收文件的一行，然後執行相應的命令，來處理文本。

調用awk

有三種方式調用awk

1.命令行方式

awk [-F field-separator] 『commands』 input-file(s) 其中，commands 是真正awk命令，[-F域分隔符]是可選的。 input-file(s) 是待處理的文件。在awk中，文件的每一行中，由域分隔符分開的每一項稱為一個域。通常，在不指名-F域分隔符的情況下，默認的域分隔符是空格。

2.shell腳本方式

將所有的awk命令插入一個文件，並使awk程序可執行，然後awk命令解釋器作為腳本的首行，一遍通過鍵入腳本名稱來調用。相當於shell腳本首行的：#!/bin/sh 可以換成：#!/bin/awk

3.將所有的awk命令插入一個單獨文件，然後調用： awk -f awk-script-file input-file(s) 其中，-f選項加載awk-script-file中的awk腳本，input-file(s)跟上面的是一樣的。

本章重點介紹命令行方式。

入門實例

假設last -n 5的輸出如下

# last -n 5 僅取出前五行

root pts/1 192.168.1.100 Tue Feb 10 11:21 still logged in

root pts/1 192.168.1.100 Tue Feb 10 00:46 - 02:28 (01:41)

root pts/1 192.168.1.100 Mon Feb 9 11:41 - 18:30 (06:48)

dmtsai pts/1 192.168.1.100 Mon Feb 9 11:41 - 11:41 (00:00)

root tty1 Fri Sep 5 14:09 - 14:10 (00:01)

如果只是顯示最近登錄的5個帳號

#last -n 5 | awk '{print $1}'

root

dmtsai

root

awk工作流程是這樣的：讀入有』n』換行符分割的一條記錄，然後將記錄按指定的域分隔符劃分域，填充域，$0則表示所有域,$1表示第一個域,$n表示第n個域。默認域分隔符是」空白鍵」或「鍵」,所以$1表示登錄用戶，$3表示登錄用戶ip,以此類推。

如果只是顯示/etc/passwd的帳戶

#cat /etc/passwd |awk -F ':' '{print $1}'

root

daemon

bin

sys

這種是awk+action的示例，每行都會執行action{print $1}。

-F指定域分隔符為』:』。

如果只是顯示/etc/passwd的帳戶和帳戶對應的shell,而帳戶與shell之間以tab鍵分割

#cat /etc/passwd |awk -F ':' '{print $1"t"$7}'

root /bin/bash

daemon /bin/sh

bin /bin/sh

sys /bin/sh

如果只是顯示/etc/passwd的帳戶和帳戶對應的shell,而帳戶與shell之間以逗號分割,而且在所有行添加列名name,shell,在最後一行添加」blue,/bin/nosh」。

cat /etc/passwd |awk -F ':' 'BEGIN {print "name,shell"} {print $1","$7} END {print "blue,/bin/nosh"}'

name,shell

root,/bin/bash

daemon,/bin/sh

bin,/bin/sh

sys,/bin/sh

....

blue,/bin/nosh

awk工作流程是這樣的：先執行BEGING，然後讀取文件，讀入有/n換行符分割的一條記錄，然後將記錄按指定的域分隔符劃分域，填充域，$0則表示所有域,$1表示第一個域,$n表示第n個域,隨後開始執行模式所對應的動作action。接著開始讀入第二條記錄······直到所有的記錄都讀完，最後執行END操作。

搜索/etc/passwd有root關鍵字的所有行

#awk -F: '/root/' /etc/passwd

root:x:0:0:root:/root:/bin/bash

這種是pattern的使用示例，匹配了pattern(這裡是root)的行才會執行action(沒有指定action，默認輸出每行的內容)。

搜索支持正則，例如找root開頭的: awk -F: 『/^root/』 /etc/passwd

搜索/etc/passwd有root關鍵字的所有行，並顯示對應的shell

# awk -F: '/root/{print $7}' /etc/passwd

/bin/bash

這裡指定了action{print $7}

awk內置變量

awk有許多內置變量用來設置環境信息，這些變量可以被改變，下面給出了最常用的一些變量。

ARGC 命令行參數個數

ARGV 命令行參數排列

ENVIRON 支持隊列中系統環境變量的使用

FILENAME awk瀏覽的文件名

FNR 瀏覽文件的記錄數

FS 設置輸入域分隔符，等價於命令行 -F選項

NF 瀏覽記錄的域的個數

NR 已讀的記錄數

OFS 輸出域分隔符

ORS 輸出記錄分隔符

RS 控制記錄分隔符

此外,$0變量是指整條記錄。$1表示當前行的第一個域,$2表示當前行的第二個域,……以此類推

統計/etc/passwd:文件名，每行的行號，每行的列數，對應的完整行內容:

#awk -F ':' '{print "filename:" FILENAME ",linenumber:" NR ",columns:" NF ",linecontent:"$0}' /etc/passwd

filename:/etc/passwd,linenumber:1,columns:7,linecontent:root:x:0:0:root:/root:/bin/bash

filename:/etc/passwd,linenumber:2,columns:7,linecontent:daemon:x:1:1:daemon:/usr/sbin:/bin/sh

filename:/etc/passwd,linenumber:3,columns:7,linecontent:bin:x:2:2:bin:/bin:/bin/sh

filename:/etc/passwd,linenumber:4,columns:7,linecontent:sys:x:3:3:sys:/dev:/bin/sh

使用printf替代print,可以讓代碼更加簡潔，易讀

awk -F ':' '{printf("filename:%10s,linenumber:%s,columns:%s,linecontent:%sn",FILENAME,NR,NF,$0)}' /etc/passwd

print和printf

awk中同時提供了print和printf兩種列印輸出的函數。

其中print函數的參數可以是變量、數值或者字符串。字符串必須用雙引號引用，參數用逗號分隔。如果沒有逗號，參數就串聯在一起而無法區分。這裡，逗號的作用與輸出文件的分隔符的作用是一樣的，只是後者是空格而已。

printf函數，其用法和c語言中printf基本相似,可以格式化字符串,輸出複雜時，printf更加好用，代碼更易懂。

awk編程

變量和賦值

除了awk的內置變量，awk還可以自定義變量。

下面統計/etc/passwd的帳戶人數

awk '{count++;print $0;} END{print "user count is ", count}' /etc/passwd

root:x:0:0:root:/root:/bin/bash

user count is 40

count是自定義變量。之前的action{}裡都是只有一個print,其實print只是一個語句，而action{}可以有多個語句，以;號隔開。

這裡沒有初始化count，雖然默認是0，但是妥當的做法還是初始化為0:

awk 'BEGIN {count=0;print "[start]user count is ", count} {count=count+1;print $0;} END{print "[end]user count is ", count}'/etc/passwd

[start]user count is 0

root:x:0:0:root:/root:/bin/bash

...

[end]user count is 40

統計某個文件夾下的文件佔用的字節數

ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size}'

[end]size is 8657198

如果以M為單位顯示:

ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size/1024/1024,"M"}'

[end]size is 8.25889 M

注意，統計不包括文件夾的子目錄。

條件語句

awk中的條件語句是從C語言中借鑑來的，見如下聲明方式：

if (expression) {

statement;

... ...

}

if (expression) {

statement;

} else {

statement2;

}

if (expression) {

statement1;

} else if (expression1) {

statement2;

} else {

statement3;

}

統計某個文件夾下的文件佔用的字節數,過濾4096大小的文件(一般都是文件夾):

ls -l |awk 'BEGIN {size=0;print "[start]size is ", size} {if($5!=4096){size=size+$5;}} END{print "[end]size is ", size/1024/1024,"M"}'

[end]size is 8.22339 M

循環語句

awk中的循環語句同樣借鑑於C語言，支持while、do/while、for、break、continue，這些關鍵字的語義和C語言中的語義完全相同。

數組

因為awk中數組的下標可以是數字和字母，數組的下標通常被稱為關鍵字(key)。值和關鍵字都存儲在內部的一張針對key/value應用hash的表格裡。由於hash不是順序存儲，因此在顯示數組內容時會發現，它們並不是按照你預料的順序顯示出來的。數組和變量一樣，都是在使用時自動創建的，awk也同樣會自動判斷其存儲的是數字還是字符串。一般而言，awk中的數組用來從記錄中收集信息，可以用於計算總和、統計單詞以及跟蹤模板被匹配的次數等等。

顯示/etc/passwd的帳戶

awk -F ':' 'BEGIN {count=0;} {name[count] = $1;count++;}; END{for (i = 0; i ' /etc/passwd

0 root

1 daemon

2 bin

3 sys

4 sync

5 games

這裡使用for循環遍歷數組

awk編程的內容極多，這裡只羅列簡單常用的用法，更多請參考 http://www.gnu.org/software/gawk/manual/gawk.html

連結：http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html

戳閱讀原文即可《年末超級福利來襲！萬元線上課程全部免費學！》活動哦~

點住二維碼3秒

與10萬程序高手做朋友

每天乾貨餵飽你

（記得識別二維碼喲）

或微信搜索華清遠見，即可關注我們

免費講座 | 乾貨分享 | 程式設計師生活 | 就業招聘

高端IT就業培訓專家

m.embedu.org

Linux Awk命令詳解

相關焦點

Linux 三劍客 Awk、Sed、Grep 命令詳解

Linux常用命令 awk 入門基礎教程

【Linux】常用命令之 awk 常用實例

面試題linux命令之awk

Linux awk命令入門詳解

linux Awk命令詳解

linux awk命令詳解

詳解Linux常見的幾種awk處理文字數據用法

Linux 三劍客之 awk 詳解

linux文本分析命令——awk

10分鐘學會 Linux awk命令

海量數據處理之cut、awk、sed命令詳解,數據分析必備技能,不難

awk 系列:awk 怎麼讀取標準輸入(STDIN)

性能工具之linux常見日誌統計分析命令

awk一個linux系統的中的好教官

Linux 上 12 個高效的文本過濾命令

Linux awk 入門教程

Linux shell awk 流程控制語句(if,for,while,do)詳細介紹

Linux Awk用法總結

Linux學習 - 常用和不太常用的實用awk命令