深入了解 awk 及其不同版本
1. awk 数值限制与脚本问题
awk 在处理数值时,使用双精度浮点数,其大小受机器架构限制。在开发脚本时,若超出这些限制可能会引发意外问题。比如,曾有人开发了一个在单段落中搜索单词或词组的程序,该程序将文档按多行记录读取,若字段包含搜索词则打印该段落。此程序在小测试文件中运行正常,但在大文件中,因遇到超过最大输入记录大小(3000 字符)的段落而崩溃。而且,没有特定错误消息提示问题源于当前记录的大小。
不过,gawk 和 mawk 没有如此小的限制。例如,gawk 中记录的字段数量上限为 C 语言中 long 类型能表示的最大值,记录长度也可超过 3000 字符,并且这些版本允许打开更多文件和管道。此外,Bell Labs awk 的最新版本提供了-mf N和-mr N选项,可在命令行设置最大字段数和最大记录大小,以绕过默认限制。
2. 使用 #! 语法调用 awk
“#!” 语法是从 shell 脚本调用 awk 的一种替代方式,它允许在 shell 脚本命令行指定 awk 参数和文件名。该语法在现代 UNIX 系统中被识别,但在较旧的 System V 系统中通常不可用。使用此语法的最佳方式是将以下行作为 shell 脚本的第一行:
#!/bin/awk -f“#!” 后面是 awk 版本的路径名,接着是-f选项。之后指定 awk 脚本,例如:
#!/bin/awk -f { print $1 }