【编译原理】Antlr 入门使用

2024-04-09 21:06 由大数据王小皮发表于 #后端开发

前面文章我们学习了编译器前端的词法和语法分析工具，本篇我们来看看如何借助 Antlr 工具，快速生成词法和语法分析代码。

一、安装

mac 环境：
1）安装

brew install antlr

2）配置 classpath
（把 Antlr 的 JAR 文件设置到 CLASSPATH 环境变量中，以便顺利编译所生成的 Java 源代码。）

vi ~/.bash_profile

# 替换成你的 antlr jar 路径
CLASSPATH=".:/opt/homebrew/Cellar/antlr/4.13.1/antlr-4.13.1-complete.jar:$CLASSPATH"

source ~/.bash_profile

有了这个玩意，你可以用很简单的方式定义好词法和语法文件，他会自动生成对应的解析文件，给你生成出 AST 来。

你可以从生成的类文件中，看看是如何生成 AST 树的。
对于我们之前遇到的左递归问题，它又是如何解决的，也是用循环代替递归么？

生成 AST 树，算完成了词法分析和语法分析。
根据这棵树做什么，就是语义分析了。

二、开发 Java 项目

1、创建一个 maven 项目
2、pom 中添加 Antlr 库

        <dependency>
            <groupId>org.antlr</groupId>
            <artifactId>antlr4-runtime</artifactId>
            <version>4.10</version>
        </dependency>

3、编写一个 antlr 文件 Expr.g4。位置随意，可以放到 src 目录

grammar Expr;

expr: expr op=(ADD|SUB) expr      # AddSub
| INT                             # int
;

ADD: '+';
SUB: '-';

INT : [0-9]+ ;
WS : [ \t]+ -> skip;

4、编译项目 (这样可以生成一些antlr的解析器的类代码，方便后面编程）

mvn compile

你应该能在项目根目录看到一个 gen 文件夹，打开后里面是生成的 java 类

把这部分代码放到你的 src 包路径下 src/main/java/com/xxx/my_antlr_demo/antlr4
5、编写调用代码
EvalVisitor.java

import com.shuofxz.my_antlr_demo.antlr4.ExprBaseVisitor;
import com.shuofxz.my_antlr_demo.antlr4.ExprLexer;
import com.shuofxz.my_antlr_demo.antlr4.ExprParser;

public class EvalVisitor extends ExprBaseVisitor<Integer> {
    @Override
    public Integer visitAddSub(ExprParser.AddSubContext ctx) {
        Integer left = visit(ctx.expr(0));  // should call "visit", not "visitChildren"
        Integer right = visit(ctx.expr(1));
        if (ctx.op.getType() == ExprLexer.ADD) {
            return left + right;
        } else {
            return left - right;
        }
    }

    @Override
    public Integer visitInt(ExprParser.IntContext ctx) {
        return Integer.valueOf(ctx.INT().getText());
    }
}

AppDemo.java

import com.shuofxz.my_antlr_demo.antlr4.ExprLexer;
import com.shuofxz.my_antlr_demo.antlr4.ExprParser;
import org.antlr.v4.runtime.CharStreams;
import org.antlr.v4.runtime.CodePointCharStream;
import org.antlr.v4.runtime.CommonTokenStream;
import org.antlr.v4.runtime.tree.ParseTree;

public class AppDemo {
    public static void main(String[] args) {
        String input = null;
        // 此处把输入的参数，直接赋值了
        args = new String[2];
        args[0] = "-input";
        args[1] = "1+2+3-4";
        for (int i=0; i<args.length; i++) {
            if (args[i].equals("-input")) {
                input = args[++i];
            }
        }

        if (input == null) {
            System.out.println("args:  -input <expression>");
            return;
        }

        CodePointCharStream charStream = CharStreams.fromString(input);
        ExprLexer lexer = new ExprLexer(charStream);
        CommonTokenStream tokens = new CommonTokenStream(lexer);
        ExprParser parser = new ExprParser(tokens);
        ParseTree tree = parser.expr();
        EvalVisitor visitor = new EvalVisitor();

        Object result = visitor.visit(tree);
        System.out.println("output=" + result);
    }
}

6、运行就能看到结果了。

你可能会有疑问：
兜了这么一大圈这有啥用呢？

那我们把 Antrl 文件修改一下 Expr.g4
ADD 和 SUB 两个操作符换成其他的符号。

grammar Expr;

expr: expr op=(ADD|SUB) expr      # AddSub
| INT                             # int
;

ADD: '@';
SUB: '#';

INT : [0-9]+ ;
WS : [ \t]+ -> skip;

记得重新执行第四步生成代码并替换。

然后我们可以把输入字符换为 1@2@3#4。
你大概猜到了这里就实现了类似操作符重载的功能。
那么后面我们就可以用这个工具，实现我们自己的语法解析工具了。

三、Antlr 中都做了什么？

antlr 语法文件中写的都是啥？

分为两个部分：词法规则和语法规则
词法规则定义了语言的基本词汇元素，即词法单元（Tokens）。它们通常包括标识符、常量、关键字和符号等。通常以大写字母开头，如 ADD、INT 等
语法规则定义了语言的结构，说明了不同词法单元是如何组合起来形成语言结构的。语法规则描述了语句、表达式、声明等高级结构，如 expr。

接下来我们解释一下关键执行步骤中都做了什么事情：

// 将字符串转换为 antlr 能接受的 CodePointCharStream 类型
CodePointCharStream charStream = CharStreams.fromString(input);

// 创建一个词法分析器实例
ExprLexer lexer = new ExprLexer(charStream);
// 创建一个记号流实例
CommonTokenStream tokens = new CommonTokenStream(lexer);
// 创建一个语法分析器实例
ExprParser parser = new ExprParser(tokens);

// 这是实际开始进行词法和语法分析的步骤，生成 AST
ParseTree tree = parser.expr();

// 遍历 AST。按照自己定义的 visitXxx() 方法执行实际的逻辑。
EvalVisitor visitor = new EvalVisitor();
Object result = visitor.visit(tree);

词法分析器：词法分析的任务是将输入文本分割成一系列的记号（tokens），每个记号是语言中最小的有意义单元，如关键字、标识符、字面量等。
记号流：用于从词法分析器中获取记号，并将它们组织成一个流，以便之后进行语法分析。
语法分析器：对记号流tokens进行语法分析。

C++类开发第七篇（详细说说多态和编译原理）

polymorphism 静态联编和动态联编多态性(polymorphism)提供接口与具体实现之间的另一层隔离，从而将”what”和”how”分离开来。多态性改善了代码的可读性和组织性，同时也使创建的程序具有可扩展性，项目不仅在最初创建时期可以扩展，而且当项目在需要有新的功能时也能扩展。 c++ ...阅读全文

【电子书分享】龙书《编译原理（第2版）》文字版中文可复制完整目录 pdf epub

目录龙书历史龙书简介作者地址龙书历史编译原理三大圣书——龙书、虎书、鲸书。龙书作为其中之一，广受欢迎。《计算机科学丛书：编译原理（第 2 版）》是编译领域无可替代的经典著作，被广大计算机专业人士誉为"龙书"。《计算机科学丛书：编译原理（第2版）》上一版自 1986 年出版以来，被世界各地的著名 ...阅读全文

编译原理

Java 程序员或者是 Java 工程师在逐渐成长为高级开发的时候，他看问题的方式写工作的方式都有自己的一套方式。每个人的工作效率不一样，但是都要达到同一个目的。对于开发任务而言，测试通过是最低的要求。Java 的集成开发环境十分优秀，从西方美国的 Eclipse 到欧洲的 Idea，程序员开发 ...阅读全文

牛逼！一键生成整个项目类关系图，这款 IDEA 插件堪称神器！

最近看源码就想找个uml的类图工具，网上看了一些，发现都是一些单个类的继承关系图，如果不知道的朋友，可以用uml插件工具搜索uml即可（uml support），然后每次点击右键后在菜单下面找Diagrams。但是我们今天介绍的不是这个，而是另外一个不错的插件，叫code iris。这个是可以显示 ...阅读全文

springboot~mybatis统一处理公有字段

对于实体中包含有公共字段，像create_at,create_time,update_at,update_time来说，我们没有必要在每个实体的crud操作中复制同样的代码，这样代码的味道很坏，我们应该使用mybatis的拦截器机制，将公共字段统一处理；当然mybatis-puls在实现上更加优雅， ...阅读全文

Kubernetes（K8S）命令指南

本文提供了一份全面的Kubernetes（K8S）命令指南，旨在帮助用户掌握和运用K8S的各种命令。关注【TechLeadCloud】，分享互联网架构、云服务技术的全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验，同济本复旦硕，复旦机器人智能实验室成员，阿里云认证的资深架 ...阅读全文

Python八字教程1简介&快速入门

1简介&快速入门 1.1 简介 https://github.com/china-testing/bazi是基于Python的八字排盘工具。它清晰看出冲刑合会、阴阳等关系，并有凝聚大师多年经验的评判。另有合婚、风水等功能。是目前市面功能最强大的免费开源八字排盘工具，适合具有编程基础者在电脑上使用。 ...阅读全文

搜索引擎-03-搜索引擎原理

拓展阅读搜索引擎-01-概览搜索引擎-02-分词与全文索引搜索引擎-03-搜索引擎原理 Crawl htmlunit 模拟浏览器动态 js 爬虫入门使用简介 Crawl jsoup 爬虫使用 jsoup 无法抓取动态 js 生成的内容 Crawl WebMagic 爬虫入门使用简介 webma ...阅读全文

logging日志

★ 基本介绍 logging是Python内置的日志处理模块，用来记录程序的运行状态和故障排除；因为print是同步代码，会影响代码的执行速度，而logging是异步的，可以在多进程爬取中、在协程爬取中使用logging记录调试信息而不会影响到代码的异步执行和运行效率。 ★ 日志信息等级日志信息分 ...阅读全文

关于飞书大裁员，冒险说几句大实话。。

大家好，我是R哥。大家都知道了，最近，号称互联网的最后一片净土，浓眉大眼的字节跳动竟然也开始大裁员了，这次的受害者是飞书团队。看网上的一些文章说，这次的裁员人数是 1000 人，占飞书团队 5000 人总人数的 20%。不过从脉脉职言和知乎上看到一些人说，应该不止 20% 这个比例，40% 或 ...阅读全文