Angr-Learn-0x01

2024-03-07 05:25 由 7resp4ss 发表于 #其他

Angr-Learn-0x01

介绍

本文可以理解为官方文档的简单翻译+一部分个人理解，并不会在此介绍angr该怎么使用（如果想快速开始angr，可以尝试从angr_ctf中学习），而是打算简单说说它的设计。

以编程的理念来分析二进制文件必须克服几个问题，它们大致是：

将二进制文件加载到分析程序中
将二进制文件转换为中间表示（IR）
进行确切的分析
- 对程序部分或者全部的静态分析
- 对程序状态空间的符号探索
- 上面两种的组合

但angr可以应对上诉这些问题

About Angr

Angr框架的总体架构包含如下几个部分：

加载器—CLE：用于解析加载二进制文件，识别文件格式，从ELF/PE头中提取架构、代码段和数据段等程序信息
架构数据库—Archinfo：根据程序架构信息，加载对应的CPU架构模型，包括寄存器、位宽、大小端等数据
翻译器—PyVEX：将程序机器码翻译成中间语言VEX，VEX是开源二进制插桩工具Valgrind所使用的中间语言，angr需要处理不同的架构，所以它选择一种中间语言来进行它的分析
模拟执行引擎—SimEngine：对VEX指令进行解释执行，支持具体值执行和符号值执行，执行时支持自定义函数Hook和断点，支持自定义路径探索策略
约束求解器—Claripy：将符号执行中生成的路径约束转化成SMT公式，使用Z3进行求解
OS模拟器—SimOS：用于模拟程序与系统环境交互，提供了许多模拟的libc函数和系统调用，用户也可以自行编写Hook函数进行模拟

解析二进制文件 -> 获取架构信息 -> 使用翻译器翻译

核心概念

运行以下语句将二进制文件加载：

>>import angr
>>proj = angr.Project('/bin/true')

基本属性

这里的基本属性是指二进制文件的基本属性，如下：

CPU架构(arch)
文件名(filename)
入口点地址(entry)

>>import monkeyhex # this will format numerical results in hexadecimal
>>proj.arch
<Arch AMD64 (LE)>
>>proj.entry
0x401670
>>proj.filename
'/bin/true'

加载

angr利用CLE模块对二进制文件进行加载，CLE的运行结果是加载后的程序，可以通过.loader获取各种属性：

>>proj.loader
<Loaded true, maps [0x400000:0x5004000]>

>>proj.loader.shared_objects # may look a little different for you!
{'ld-linux-x86-64.so.2': <ELF Object ld-2.24.so, maps [0x2000000:0x2227167]>,
 'libc.so.6': <ELF Object libc-2.24.so, maps [0x1000000:0x13c699f]>}

>>proj.loader.min_addr
0x400000
>>proj.loader.max_addr
0x5004000

>>proj.loader.main_object  # we've loaded several binaries into this project. Here's the main one!
<ELF Object true, maps [0x400000:0x60721f]>

>>proj.loader.main_object.execstack  # sample query: does this binary have an executable stack?
False
>>proj.loader.main_object.pic  # sample query: is this binary position-independent?
True

factory

factory是angr中比较重要的一个类。

块

可以用project.factory.block(addr)从给定地址获取基本块信息，它的返回值就是基本块。

>>block = proj.factory.block(proj.entry) # lift a block of code from the program's entry point
<Block for 0x401670, 42 bytes>

>>block.pp()                          # pretty-print a disassembly to stdout
0x401670:       xor     ebp, ebp
0x401672:       mov     r9, rdx
0x401675:       pop     rsi
0x401676:       mov     rdx, rsp
0x401679:       and     rsp, 0xfffffffffffffff0
0x40167d:       push    rax
0x40167e:       push    rsp
0x40167f:       lea     r8, [rip + 0x2e2a]
0x401686:       lea     rcx, [rip + 0x2db3]
0x40168d:       lea     rdi, [rip - 0xd4]
0x401694:       call    qword ptr [rip + 0x205866]
>>block.instructions                  # how many instructions are there?
0xb
>>block.instruction_addrs             # what are the addresses of the instructions?
[0x401670, 0x401672, 0x401675, 0x401676, 0x401679, 0x40167d, 0x40167e, 0x40167f, 0x401686, 0x40168d, 0x401694]
>>block.capstone                       # capstone disassembly
<CapstoneBlock for 0x401670>
>>block.vex                            # VEX IRSB (that's a Python internal address, not a program address)
<pyvex.block.IRSB at 0x7706330>

状态

前面的project对象其实只是代码了程序“初始化内存映像”，而当我们使用angr进行程序执行的时候，代表我们在使用SimState模拟程序状态，下面这行代码就是运行SimState的起点。

>>state = proj.factory.entry_state()
<SimState @ 0x401670>

SimState 的状态包含程序的内存、寄存器、文件系统数据等任何可以通过执行更改的“实时数据，我们可以使用例如：state.regs和state.mem来访问该状态的寄存器和内存：

>>state.regs.rip        # get the current instruction pointer
<BV64 0x401670> # or symbolic variable:<BV64 reg_48_11_64{UNINITIALIZED}>
>>state.regs.rax
<BV64 0x1c>
>>state.mem[proj.entry].int.resolved  # interpret the memory at the entry point as a C int
<BV32 0x8949ed31>

但值得注意的是，返回值都是位向量而不是python的整数类型，因此如果我们要进行对寄存器或者内存的赋值，我们也要将数据转换为位向量。

>>state.regs.rsi = state.solver.BVV(3, 64)

模拟管理

模拟管理可以简单理解为模拟执行管理，它是angr中的主要结构，用于状态的执行、模拟。我们可以创建我们要使用的模拟管理器，传入的参数应该是一个状态列表。

>>simgr = proj.factory.simulation_manager(state)
<SimulationManager with 1 active>
>>simgr.active
[<SimState @ 0x401670>]

模拟管理可以包含多个状态。上面这段代码中active是默认传入的状态的状态（因为一个状态有不同的状态）。

然后我们可以通过simgr.step()基本块的符号执行，执行后可以看到存储的状态会发生更新。

分析

我们可以利用angr进行各种分析，从而从程序中提取一些有趣的信息。

>>proj.analyses.            # Press TAB here in ipython to get an autocomplete-listing of everything:
 proj.analyses.BackwardSlice        proj.analyses.CongruencyCheck      proj.analyses.reload_analyses
 proj.analyses.BinaryOptimizer      proj.analyses.DDG                  proj.analyses.StaticHooker
 proj.analyses.BinDiff              proj.analyses.DFG                  proj.analyses.VariableRecovery
 proj.analyses.BoyScout             proj.analyses.Disassembly          proj.analyses.VariableRecoveryFast
 proj.analyses.CDG                  proj.analyses.GirlScout            proj.analyses.Veritesting
 proj.analyses.CFG                  proj.analyses.Identifier           proj.analyses.VFG
 proj.analyses.CFGEmulated          proj.analyses.LoopFinder           proj.analyses.VSA_DDG
 proj.analyses.CFGFast              proj.analyses.Reassembler

以下是构建和使用快速控制流图的一个例子

# Originally, when we loaded this binary it also loaded all its dependencies into the same virtual address  space
# This is undesirable for most analysis.
>>> proj = angr.Project('/bin/true', auto_load_libs=False)
>>> cfg = proj.analyses.CFGFast()
<CFGFast Analysis Result at 0x2d85130>

# cfg.graph is a networkx DiGraph full of CFGNode instances
# You should go look up the networkx APIs to learn how to use this!
>>> cfg.graph
<networkx.classes.digraph.DiGraph at 0x2da43a0>
>>> len(cfg.graph.nodes())
951

# To get the CFGNode for a given address, use cfg.get_any_node
>>> entry_node = cfg.get_any_node(proj.entry)
>>> len(list(cfg.graph.successors(entry_node)))
2

热门相关：唐朝贵公子黑暗血时代最牛兵王惊艳人生万古第一帝

线性代数——平面向量学习笔记

线性代数——平面向量学习笔记首发于洛谷。定义及用语说明无特殊说明，下文的向量均指自由向量且是平面向量。向量，英文名为 vector，目前没有准确而统一的中文翻译。在物理学科，一般翻译成「矢量」，且与「标量」一词相对。在数学学科，一般直接翻译成「向量」。对于向量的乘法：物理数学直译 ...阅读全文

文件MD5校验码的安全性及重要性

文件MD5（Message Digest Algorithm 5）是一种常用的哈希算法，用于验证文件的完整性和安全性。本文将深入介绍文件MD5的原理、应用场景以及如何计算和验证MD5值，帮助读者更好地理解和应用这一重要工具。一、文件MD5的原理 MD5算法通过对文件进行哈希运算，生成一个128位的 ...阅读全文

NGUI学习笔记4.0

EventListener和EventTrigger 控件自带组件的局限性其实我们常见的复合控件只提供一些简单的事件监听，如按钮有点击抬起的监听，对长按等其他交互方式的事件监听不大支持。 NGUI的监听函数给NGUI对象添加Collider，在其挂载的脚本中编写对应的NGUI的函数，在运行时候会 ...阅读全文

Java agent技术的注入利用与避坑点

Java代理（Java agent）是一种Java技术，它允许开发人员在运行时以某种方式修改或增强Java应用程序的行为。Java代理通过在Java虚拟机（JVM）启动时以“代理”（agent）的形式加载到JVM中，以监视、修改或甚至完全改变目标应用程序的行为。 ...阅读全文

Jmeter+Influxdb+Grafana搭建

背景在无界面压测情况下，我们需要去额外搭建可视化观测平台。借助于Influxdb+Grafana，我们可以轻松让Jmeter的结果自动写入Influxdb，Influxdb实时存储运行结果，最后由Grafana作为展示 Jmeter 无界面运行需要修改配置（jmeter.properties） j ...阅读全文

Python中的单元测试框架：使用unittest进行有效测试

一、介绍在软件开发中，单元测试是一种测试方法，它用于检查单个软件组件（例如函数或方法）的正确性。Python 提供了一个内置的单元测试库，名为 unittest，可以用来编写测试代码，然后运行测试，并报告测试结果。本文将向你介绍如何使用 unittest 来编写和运行单元测试。通过阅读本文，你将 ...阅读全文

功能测试、自动化测试、性能测试的区别

按测试执行的类型来分：功能测试、自动化测试、性能测试 1．功能测试功能测试俗称点点点测试。初级测试人员的主要测试任务就是执行测试工程师所写的测试用例，记录用例的执行状态及bug情况。与开发人员进行交互直到bug被修复。功能测试理论上是指通过测试来检测系统每个功能是否都能正常使用，主要关注外部结 ...阅读全文

同态加密+区块链，在大健康数据隐私保护中的应用

PrimiHub一款由密码学专家团队打造的开源隐私计算平台，专注于分享数据安全、密码学、联邦学习、同态加密等隐私计算领域的技术和内容。近几年，越来越多的隐私计算技术被用于解决临床和研究数据共享中的隐私和安全问题。当然，对这些技术的法律评估主要集中在合规性方面，尤其是在欧盟，《通用数据保护条例》（ ...阅读全文

[智慧建筑]NTP网络时间服务器（卫星时钟系统）助力建筑数字化

[智慧建筑]NTP网络时间服务器（卫星时钟系统）助力建筑数字化 [智慧建筑]NTP网络时间服务器（卫星时钟系统）助力建筑数字化京准电子科技官微——ahjzsz 随着大数据、云计算时代的到来,各行业信息化建设的不断提升,信息化下的各个系统不再单独处理各自业务,而是趋于协同工作,因此,各个单元的时间同 ...阅读全文

读算法的陷阱：超级平台、算法垄断与场景欺骗笔记02_大数据

1. 大数据分析 1.1. 随着“大数据军备竞赛”与定价算法的广泛应用，线上购物平台与实体商铺的界限也变得越来越模糊 1.2. 在沃尔玛疯狂扩张的时代，它给地区性商业带来的伤害不亚于一场地震 1.2.1. 当地的小型商铺往往只能缴械，贡献出自己的销售额，而主街的繁华就此凋零 1.2.2. 如果有谁想 ...阅读全文