1 月, 2014 | 我的站点

一个变量越界导致破坏堆栈的bug

前一段时间在商用系统上出现了core dump，原因是由于一个局部变量写越界导致堆栈被破坏了。在这里，我把这个bug分享一下，希望给需要的朋友一点帮助。简化的代码如下：

typedef struct
{
    ......
} A;

void func1(char *p)
{
    ......
}

void main(void)
{
    A a;
    A *p = &a;
    char b[10];

    ......
    /* 
     * 这个程序运行在SPARC处理器上, 而SPARC处理器的堆栈生长
     * 方向是从高地址向低地址生长的.
     * 这个函数里会把b这个数组写越界，导致p这个变量被破坏, 
     * 结果在下面访问p时，是一个无效的值，导致core dump.
     */
    func1(b);
    printf("%p\n", p);
    ......

    return;
}

通过分析这个bug，分享一下我的心得体会：
（1）SPARC处理器是当年SUN公司开发的一款RISC处理器，如果有朋友从事Solaris软件开发，应该还是会接触到的。我一直觉得作为底层软件工程师，还是应该对处理器结构（包括汇编语言）有尽可能多的了解，这样对我们分析和解决问题都会有很大帮助。比方说，在分析这个bug时，如果知道SPARC处理器的堆栈生长方向是从高地址向低地址生长的，就会让我们把注意力集中在变量定义在p后面的变量上，这样就有了分析问题的方向。在这里，我推荐一篇介绍SPARC处理器的文章（http://web.cecs.pdx.edu/~apt/cs577_2008/sparc_s.pdf），有兴趣的朋友可以看一下。
（2）当遇到堆栈上的变量被莫名其妙改变时，首先还是检查那些地址比被破坏变量地址低的变量。因为一般有可能引起内存越界的代码，像memcpy，都会破坏高地址的值。以这个bug为例。变量p在一开始就赋了值，以后对p都是读操作，没有写操作。现在p变成了一个无效的值，那么首先就应该怀疑访问定义在p后面的变量出了问题。

Chinaunix论坛“Linux/UNIX系统编程，系统程序员成长的基石？”话题讨论的回复

以下是我参与Chinaunix论坛关于“Linux/UNIX系统编程，系统程序员成长的基石？”（http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=4118545&fromuid=28864581）话题讨论的回复，整理出来发到这里，给需要的人做个参考：

（1）您在Linux/UNIX系统编程行业的经历及经验
我是2006年研究生一年级时开始接触Linux系统编程的，当时是因为我实习的公司用到Linux。后来自己在业余时间看了一些系统编程方面的书，还实现了一个简单的网络协议。通过研究生这两年的经历，算是对Linux系统编程有了一个入门。2008年研究生毕业后，并没有从事Linux/UNIX系统编程的相关工作，而是做手机MMI程序的开发。2010年来到现在这家公司，才又重新开始Linux/UNIX系统编程的工作，目前我主要在Solaris/Linux系统上从事通信网关和服务器程序的开发。通过这些年的经历，我觉得从事Linux/UNIX系统编程最大的益处就是可以获得很多计算机底层系统的知识。举几个例子来说：通常我们都使用gcc编译器编译程序，我们需要了解一些常用编译选项的含义，因为有可能一个编译选项就会导致程序不按你的想法运行；程序不可能没有bug，也许我们需要gdb帮助我们详细了解程序的内存布局，去找到原因；有时程序在一个处理器上运行的好好的，而在另一个上面就不行，此时我们可能又要去了解处理器结构和汇编语言。总之，作为一个底层软件工程师，需要不断地学习计算机最底层最核心的技术，这是件很快乐的事情。

（2） Linux/UNIX系统编程职业生涯的发展探讨
最近几年，随着移动互联网的兴起，前端技术越来越受到大家的重视，而底层技术似乎现在的关注度并不高。我个人觉得Linux/UNIX系统编程知识是程序员的重要基础，无论你从事什么方面的开发，了解系统编程知识和原理，对你是有百益而无一害的，Linux/UNIX系统编程也永远不会被淘汰。所以，我们这些Linux/UNIX系统编程工程师需要做的就是不断学习，提高自己的技术能力。

（3）对于新入门的Linux/UNIX系统编程人员来说，您有什么话对他们说？
我并不是一个资深的工程师，以下是我个人的一点经验和体会，希望给大家一点启示吧：
首先要调整好心态，现在是个浮躁的社会，所以要尽量着让自己静下心来，踏踏实实地去学习技术。
第二就是多实践，经典的技术书籍很多，可是光是阅读，效果并不好。要试着自己写一些代码，这样会加深印象。
第三就是多读好的开源代码。现在github上有很多的优秀代码值得我们学习。拿著名的NoSQL数据库Redis来说，看完Redis的main函数，我们就可以了解到如何创建一个deamon进程了，此外我们也会从中学到如何写个好的高并发服务器程序，如何访问文件系统等等。

以上是我的一孔之见，希望能给大家一点帮助吧。

libumem使用和源码分析系列文章（一）

libumem是2001年由SUN的工程师Jeff Bonwick和Jonathan Adams开发的一个对应用程序进行内存管理的动态链接库。简单地讲，libumem通过提供一组替换C标准库的内存分配函数（malloc，free，realloc等等），从而可以使用户更容易发现和解决关于内存管理的bug。从Solaris 9（Update 3）开始，libumem作为Solaris操作系统的一个标准库提供给应用程序使用。现在libumem已经被移植到其它的平台上，这个网站（https://labs.omniti.com/labs/portableumem）不仅介绍了关于libumem的移植，并且还提供了源代码。从今天起，我打算写一组系列文章，通过对libumem的源代码分析，介绍如何使用libumem以及它的工作原理。

首先，我介绍一下如何使用libumem。这里有两个方法：
（1）通过使用LD_PRELOAD环境变量：
LD_PRELOAD=libumem.so;export LD_PRELOAD
这样就使用户程序使用的是libumem中提供的内存管理函数，而不是C标准库的函数。关于LD_PRELOAD，感兴趣的读者可以参考stackoverflow上的这篇帖子：http://stackoverflow.com/questions/426230/what-is-the-ld-preload-trick。
（2）在链接程序时加上 -lumem选项。

当应用程序运行后，我们可通过以下简单的Dtrace脚本去检查程序是否使用的是libumem：

#!/usr/sbin/dtrace -qs

pid$1::malloc:entry
{
    trace(probemod);
}

这个脚本会输出使用哪个模块的malloc函数，如果输出的模块名是类似于“libumem.so.1”，那么就证明程序已经使用libumem了，否则就需要检查一下，看看问题在哪里。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31