衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一個程序是如何運行起來的

Linux閱碼場 ? 來源:卯時卯刻 ? 作者:KINGYT ? 2021-10-12 17:48 ? 次閱讀

相信很多同學都會有疑問,一個程序是如何運行起來的,為什么我們在shell中執行了一個程序,它的main函數就會被調用呢?在main函數被調用之前及之后,又經歷了什么呢?

今天我們就來詳細的說下這個問題。

還是和之前一樣,我畫了一張程序運行的全景圖,在上圖中,一個程序運行所經歷的代碼段,我都標注了其所在的git倉庫、源文件、及函數名,想要自己看源碼的,可以參考下上圖中的這些信息

我們先從整體上講一下這張圖。

linux下,我們一般都是通過shell來執行程序的。

shell其實也是一個普通的程序,它也有自己的main函數,它在正常運行后,會通過調用read_command函數,來等待用戶輸入命令。

在接收到用戶輸入的命令后,shell會先使用fork系統調用,創建一個子進程,然后再在這個子進程中,通過execve系統調用,執行最終的用戶程序。

在子進程執行用戶程序期間,shell主進程會調用waitpid函數,阻塞等待子進程的完成,子進程完成之后,waitpid從阻塞狀態中返回,且status參數中會帶著子進程的退出碼,這個退出碼會在后續的邏輯中被保存起來,供用戶查詢。

之后,shell主進程進入到下一次循環,繼續等待用戶輸入命令并執行。

以上就是shell的主體邏輯,對應于上面全景圖中的藍色部分。

下面我們再來看下linux內核中有關execve系統調用的代碼,也就是上面全景圖中的綠色部分。

shell通過execve系統調用,告知linux內核,要在當前進程中執行目標程序,linux內核經過層層代碼,最終到達load_elf_binary函數。

該函數是整個系統調用中最核心的一段邏輯,它主要用來為目標程序準備各種執行環境。

比如,映射代碼區、數據區等到當前進程的虛擬地址空間,將程序名、環境變量、程序參數、及各種其他數據,有規律的壓入到新分配的棧中,等等。

之后,load_elf_binary函數會調用start_thread,進而會調用start_thread_common函數。

在該函數里,會將返回到用戶區之后,要執行的,用戶區程序的起始地址,設置到regs-》ip里,同時也會將上面新初始化好的,用戶堆棧的棧頂地址,設置到regs-》sp里。

當execve系統調用返回到用戶區之后,regs-》ip和regs-》sp里的值,會分別賦值到rip和rsp寄存器里,這樣指定的用戶程序就可以繼續執行了。

這一流程我們在之前的文章 精致全景圖 | 系統調用是如何實現的 中講過,這里就不再贅述。

不過這里還是有一點需要注意,就是設置到regs-》ip中的地址,并不是我們自己程序的起始地址,而是動態鏈接器 /lib64/ld-linux-x86-64.so.2 的起始地址。

之所以要設置動態鏈接器的起始地址,是因為我們需要在返回到用戶區之后,讓其可以繼續為我們的程序準備執行環境,比如,幫忙加載程序依賴的各種動態鏈接庫等。

在動態鏈接器為我們的程序準備好執行環境之后,它會從進程堆棧的auxiliary vector區,取出最終用戶程序的真正起始地址,并跳轉到該位置開始執行。

auxiliary vector區存放的用戶程序的起始地址,是上面linux內核初始化堆棧時設置的。

動態鏈接器相關的代碼就是這些,它對應于上面全景圖中紫色的部分。

在跳轉到我們自己程序的起始地址后,首先執行的并不是我們寫的main函數,而是glibc里名為_start的一段匯編代碼。

這段匯編代碼也比較簡單,主要是從堆棧中獲取main函數所需的argc,argv等參數,然后最終調用我們寫的main函數。

當main函數返回之后,glibc里的后續代碼,會將main函數的返回值,當作該進程的退出碼,然后調用exit結束該進程。

這些代碼對應于上面全景圖中的粉色部分。

進程調用exit退出之后,shell主進程也會從waitpid的阻塞狀態中返回,然后繼續進行下一次循環。

以上就是程序完整的啟動和結束流程。

下面我們來看下具體的源碼實現。

注意,為了方便理解,很多代碼我們都做了刪減。

首先是shell部分,shell是一個普通的程序,它也有自己的main函數:

372bd54e-22a0-11ec-82a8-dac502259ad0.png

該函數里調用了reader_loop:

373c6454-22a0-11ec-82a8-dac502259ad0.png

reader_loop的主體邏輯是,在while循環里不斷的使用read_command函數讀取用戶輸入的命令,然后使用execute_command執行該命令。

execute_command函數經過層層代碼后,會使用下圖中的fork,創建一個子進程:

3788521a-22a0-11ec-82a8-dac502259ad0.png

然后在該子進程中,使用execve系統調用,告知linux內核,用當前子進程執行新的用戶程序:

37c7b0b8-22a0-11ec-82a8-dac502259ad0.png

在shell主進程中,會調用waitpid函數,阻塞等待子進程的完成:

37d9e45e-22a0-11ec-82a8-dac502259ad0.png

當子進程退出后,waitpid會從阻塞狀態中返回,并在status里攜帶子進程的退出碼,之后shell主進程又返回上面的read_command函數,繼續等待用戶下一條命令的輸入。

以上就是bash的主體邏輯,對應于上面全景圖中的藍色部分。

下面我們繼續看全景圖中的綠色部分,也就是linux內核中有關execve的代碼。

當shell的子進程執行execve函數時,linux內核中對應的系統調用被觸發:

37eb0efa-22a0-11ec-82a8-dac502259ad0.png

沿著函數的調用鏈,我們會找到一個名為do_execveat_common的函數,在該函數中,會將目標程序的文件名、環境變量、及各種程序參數等字符串,拷貝到新創建的用戶堆棧區:

3822e884-22a0-11ec-82a8-dac502259ad0.png

此時,新創建的堆棧區里內容,就如上面全景圖中右下角的a1-a9, b1-b8部分構成的二維網格區域里所示的內容。

其中,黃色區域里存放的是程序參數 。/a.out hello world,藍色區域里存放的是環境變量 SHLVL=2, HOME=/, TERM=linux, PWD=/,橘黃色區域里存放的是要執行的程序文件名 。/a.out。

這些內容和我們執行的測試程序,及其所處的環境也正好一樣:

3857cfe0-22a0-11ec-82a8-dac502259ad0.png

繼續沿著內核函數調用鏈,我們最終會來到load_elf_binary函數,該函數是整個系統調用的核心。

由于linux上執行的程序基本上都是elf格式,所以內核選擇的加載函數是load_elf_binary,看這個函數時,可以參考elf格式的man文檔:

https://man.archlinux.org/man/elf.5

該函數比較復雜,我對其做了大量刪減,并添加了很多注釋:

387b14fa-22a0-11ec-82a8-dac502259ad0.png

該函數最后會調用start_thread函數,進而會調用start_thread_common函數:

38a84222-22a0-11ec-82a8-dac502259ad0.png

這個函數重點需要注意的是對regs-》ip和regs-》sp的賦值,其作用在load_elf_binary函數的截圖中已經注釋過了,就是在返回到用戶區之后,這兩個字段的值會被分別拷貝到rip和rsp寄存器里,所以這里的賦值,就相當于在返回用戶區之后,對rip和rsp寄存器的賦值,這個在 精致全景圖 | 系統調用是如何實現的 有講。

到這里內核部分的代碼就都已經結束了。

由load_elf_binary函數截圖中可見,regs-》ip中設置的地址是elf_entry,即動態鏈接器的起始地址,而不是我們自己程序的起始地址。

原因是,我們還需要動態鏈接器繼續幫我們準備執行環境,比如幫我們加載程序依賴的動態鏈接庫等。

所以在execve系統調用返回到用戶區之后,代碼流程就進入到了動態鏈接器里的邏輯,即上面全景圖中的紫色區域:

38b7ad3e-22a0-11ec-82a8-dac502259ad0.png

上圖中的_start是動態鏈接器的起始執行地址,這個可以通過下面的方式來確認:

38fd1e50-22a0-11ec-82a8-dac502259ad0.png

在_start函數中,先將rsp寄存器的值,即上面內核新初始化的堆棧的棧頂地址,賦值到rdi中,然后再使用call指令,調用_dl_start函數。

之所以要賦值到rdi寄存器中,是因為c語言的calling convention約定好的,用此方式來傳遞參數。

再看_dl_start函數:

391105f0-22a0-11ec-82a8-dac502259ad0.png

該函數調用了_dl_start_final,返回一個地址,這個地址就是我們自己程序的起始地址。

再看_dl_start_final:

393b5134-22a0-11ec-82a8-dac502259ad0.png

該函數又調用了_dl_sysdep_start:

3974678a-22a0-11ec-82a8-dac502259ad0.png

在這里,動態鏈接器通過內核初始化的堆棧區中的auxiliary vector,找到最終用戶程序的起始執行地址。

再之后,動態鏈接器的函數調用鏈依次退出,最終返回到上面的_start函數。

_start函數之后會順序執行_dl_start_user,相關代碼也在上面的_start函數的截圖里。

其邏輯是,先將rax中的值,即_dl_start函數返回的最終用戶程序的起始地址,賦值到r12寄存器中,然后再jmp到r12寄存器指向的地址,即開始執行最終的用戶程序邏輯。

至于rax中的值,為什么是_dl_start函數返回的地址,這個其實也是 c calling convention 中的約定,感興趣可以自己查下。

以上就是動態鏈接器的全部邏輯,其對應于全景圖中的紫色部分。

最后,邏輯進入到了全景圖中的粉色部分。

動態鏈接器從內核設置的auxiliary vector中,獲取的用戶程序的起始地址,還并不是我們的main函數,而是glibc中一段名為_start的代碼,這個可以通過下面的方式確認:

39c36312-22a0-11ec-82a8-dac502259ad0.png

該_start代碼段內容如下:

39f2140a-22a0-11ec-82a8-dac502259ad0.png

它從堆棧中獲取到argc和argv,然后調用__libc_start_main:

3a222078-22a0-11ec-82a8-dac502259ad0.png

在__libc_start_main里,才真正的調用了我們寫的main函數。

當main函數返回之后,__libc_start_main里用main函數返回的值,作為該進程的退出碼,然后調用exit退出當前進程。

當該進程退出后,shell主進程也從waitpid的阻塞狀態返回,并攜帶用戶程序的退出碼。

在上面全景圖這個示例中,返回碼為99:

3a58d370-22a0-11ec-82a8-dac502259ad0.png

之后,shell主進程又進入到下一次循環,繼續等待用戶命令并執行,也就是說,又進入到全景圖中的藍色部分。

至此,在linux上執行程序的流程,就形成了一個完整閉環。

你,學廢了嗎?

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 程序
    +關注

    關注

    117

    文章

    3795

    瀏覽量

    81406
  • Shell
    +關注

    關注

    1

    文章

    366

    瀏覽量

    23444

原文標題:精致全景圖 | 程序是如何運行起來的

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    用5509A寫用MCBSP和AIC23采集和播放音頻的程序,在運行的時候發出了很大的雜音,為什么?

    AIC23提供。(經過測試,FSR=FSX=44.1K) 3.音頻采樣率為44.1K,DSP MODE,一個字長16bit。 4.用BYPASS方式運行,沒有任何雜音,很清晰。 5.LINEIN不接電
    發表于 02-05 07:12

    使用msp430運行程序時,出現“Error initializing emulator: No USB FET was found”怎么解決?

    我使用msp430運行程序時,出現“Error initializing emulator: No USB FET was found”,請問這個該怎么解決呢? 之前在ti.co
    發表于 01-16 07:59

    不停的malloc程序會異常嗎

    用完,程序應該會異常退出。 于是我找了環境,把程序運行起來試下。 先用虛擬機,跑的
    的頭像 發表于 01-14 09:17 ?95次閱讀

    程序和進程的區別

    比如: 開發寫的代碼我們稱為程序,那么將開發的代碼運行起來。我們稱為進程。
    的頭像 發表于 11-25 16:03 ?493次閱讀
    <b class='flag-5'>程序</b>和進程的區別

    TLV320AIC3106有好多輸入輸出,怎么能把它們都用起來

    的,定義計時器,在設定的周期延遲時間后進入計時器中斷服務程序中配置寄存器,為什么不可以呢?這樣做中斷服務程序只能進入次(我用其他測試過
    發表于 11-01 07:18

    Docker運行環境安裝

    作者:京東科技 林中 Docker是開放的平臺,用于開發、發布和運行應用程序。Docker分離了應用程序
    的頭像 發表于 10-29 11:28 ?277次閱讀

    keil軟件怎么運行寫好的程序

    Keil軟件是款功能強大的嵌入式開發工具,廣泛應用于單片機、ARM、DSP等嵌入式系統的開發。本文將介紹如何使用Keil軟件運行寫好的程序。 安裝Keil軟件 首先,需要從Keil官網下載Keil
    的頭像 發表于 09-02 10:29 ?2373次閱讀

    linux驅動程序運行在什么空間

    Linux 驅動程序是操作系統的部分,負責管理硬件設備與操作系統之間的交互。驅動程序運行在內核空間(Kernel Space),這是操作系統的核心部分,與用戶空間(User Spac
    的頭像 發表于 08-30 14:37 ?527次閱讀

    仿真和實際IC運行效果不致案例

    最近在客戶的板子上,調試麥克風觸發的點煙器。客戶是有要求的,要盡量減少誤動作,就是普通的拍打,磕碰或者般的氣流沖擊是不能觸發點煙的
    的頭像 發表于 07-18 15:37 ?447次閱讀
    仿真和實際IC<b class='flag-5'>運行</b>效果不<b class='flag-5'>一</b>致案例

    ESP32 Dev Module上傳程序運行不正常的原因?

    一個開發板? 現在運行示例BlinkRGB提示:Compilation error: \'LED_BUILTIN\' was not declared in this scope 看起來是變量沒有
    發表于 07-01 07:15

    esp32-woorm運行起來有電流聲是什么原因導致的?

    為什么我們esp32在下載完我的程序運行起來會有嗡嗡的電流聲呢,是我哪里配置不對還是程序的問題呢
    發表于 06-06 06:18

    理想PLC程序的特征與標準

    套完整的PLC程序,并不僅僅是使系統能夠運行起來這么簡單,它也需要完整的注釋、精良的架構、良好的可擴展性、完備的報警保護系統、運行前的模擬
    發表于 04-24 11:31 ?389次閱讀
    理想PLC<b class='flag-5'>程序</b>的特征與標準

    STM32L011F4P6運行起來的原因?

    stlink_v2仿真器,仿真程序運行的很好,旦把仿真器去掉,再加電后,發現 程序沒有運行起來
    發表于 04-15 07:47

    NUCLEO-L073RZ燒錄官網的代碼后,運行起來是怎么回事?

    NUCLEO-L073RZ開發板自帶的固件可以運行,但是燒錄官網的代碼后,運行起來
    發表于 04-03 07:30

    如何使用exit()、_exit()和_Exit()來終止程序運行呢?

    在Linux系統下,你可以使用 exit()、_exit() 和 _Exit() 來終止程序運行,特別是在出現錯誤或執行失敗的情況下。
    的頭像 發表于 02-22 12:20 ?995次閱讀
    百家乐高手长胜攻略| 通吃98| 百家乐庄闲排| 百家乐能作弊吗| 真人百家乐官网赌场娱乐网规则| 网上百家乐官网如何打水| 棋牌银商| 大发888网页版出纳| 大发888娱乐场 注册| 娱百家乐下载| 全讯网一码353788| 百家乐永利娱乐场| 澳门百家乐娱乐城注册| 百家乐盈利分析路单| 海立方百家乐客户端| 百家乐八卦投注法| 希尔顿百家乐试玩| 百家乐斗地主炸金花| 网上百家乐是真是假天涯论坛| 百家乐赌博详解| 神人百家乐赌博| 三亚百家乐的玩法技巧和规则| 百家乐九| 百家乐追注法| 百家乐官网专业豪华版| 圣安娜百家乐官网代理| 百家乐官网网站平台| 百家乐官网新庄| 明珠百家乐官网的玩法技巧和规则| 蓝盾百家乐官网代理| 百家乐官网澳门赌| 四方百家乐官网的玩法技巧和规则| 百家乐那里可以玩| 大发888官网免费下载| 顶级赌场代理| 赌博娱乐场| 圣淘沙百家乐官网娱乐城| 百家乐官网api| 9人百家乐官网桌布| 摩纳哥百家乐官网的玩法技巧和规则| 百家乐娱乐皇冠世界杯|