摘要:在基于圖像進(jìn)行家居虛擬設(shè)計(jì)的應(yīng)用中,由于圖像缺乏場景的深度信息、物體之間存在相互遮擋等問題,給獲取圖像信息帶來一定的挑戰(zhàn)。該文利用深度學(xué)習(xí)技術(shù),提出了一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的方法,對(duì)室內(nèi)圖像進(jìn)行特征提取,實(shí)現(xiàn)家具的多標(biāo)簽標(biāo)注,以獲取家具的屬性信息,包括種類、位置、顏色和材質(zhì)等。結(jié)果表明,該方法提高了虛擬展示內(nèi)容的豐富性和精確性,為家居智能交互作了很好的鋪墊。
關(guān)鍵詞: 深度學(xué)習(xí); 圖像標(biāo)注; 卷積神經(jīng)網(wǎng)絡(luò); 循環(huán)神經(jīng)網(wǎng)絡(luò); Faster R-CNN
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)35-0219-03
A Method of Dense Furniture Caption for Indoor Images
MA Tian-yao
�。⊿chool of Software Engineering, Tongji University, Shanghai 201804, China)
Abstract: In the application of image-based virtual house design system, it becomes a huge challenge to obtaining rich information from images because of some problems such as the lack of scene depth and the occlusion between objects. With the development of deep learning, this paper proposes a method of dense furniture caption for indoor images, which combines CNN and RNN to extract features. It can get multiple information of furniture, such as classification, location, color, material, etc. The result indicates that the method improves the richness and accuracy of furniture information, which makes a great contribution to virtual house design system.
Key words: deep learning; image caption; CNN; RNN; Faster R-CNN
隨著互聯(lián)網(wǎng)的迅速發(fā)展,家居虛擬展示跨越了時(shí)空的局限,幫助用戶直觀、全面地了解到室內(nèi)設(shè)計(jì)方案,因而被家居行業(yè)廣泛接受。近年來,基于圖像進(jìn)行家居虛擬設(shè)計(jì)[1]的方法不斷涌現(xiàn),在一定程度上克服了純3D技術(shù)渲染速度慢、模型制作復(fù)雜等缺點(diǎn),且素材豐富、獲取容易。但是,圖像往往缺少一些關(guān)鍵信息,如場景的深度信息等。同時(shí),室內(nèi)圖像中物品之間存在相互遮擋,這些都會(huì)給獲取圖像信息帶來一定的挑戰(zhàn)。
本文著力于獲取豐富、準(zhǔn)確的圖像信息,利用深度學(xué)習(xí)技術(shù),設(shè)計(jì)出一個(gè)合理的、高效的解決方案來對(duì)室內(nèi)圖像中的家具進(jìn)行多標(biāo)簽標(biāo)注,以獲取其屬性信息,包括種類、位置、顏色以及材質(zhì)等,進(jìn)而降低家居虛擬展示過程的復(fù)雜性,并提高虛擬展示的內(nèi)容豐富性和精確性。
1 基于Faster R-CNN的物體多標(biāo)簽標(biāo)注模型
本文將采用卷積神經(jīng)網(wǎng)絡(luò)Faster R-CNN[2]和循環(huán)神經(jīng)網(wǎng)絡(luò)GRU[3]結(jié)合的方式對(duì)室內(nèi)圖像中的物體進(jìn)行多標(biāo)簽多標(biāo)簽標(biāo)注。首先,將Faster R-CNN的最后一層與兩個(gè)全連接層相連,每個(gè)全連接層都使用ReLU[4]和Dropout[5]。然后,把上述生成的圖像特征和Word2vec生成的詞向量特征作為輸入,連接到GRU中。
在訓(xùn)練GRU時(shí),對(duì)于文本,其詞向量標(biāo)記為。其中,表示區(qū)域編碼,對(duì)應(yīng)特定符號(hào),對(duì)應(yīng)特定符號(hào)< END>。在測試時(shí),只需要輸入,當(dāng)輸出的預(yù)測值為,當(dāng)前過程終止,完成該物體的多標(biāo)簽標(biāo)注。
1.1 Faster R-CNN的代價(jià)函數(shù)
為了減少Fast R-CNN[6]在計(jì)算候選區(qū)域時(shí)所消耗的時(shí)間,F(xiàn)aster R-CNN在其基礎(chǔ)上提出了候選區(qū)域網(wǎng)絡(luò)(Region Proposal Network, RPN)來加以改進(jìn),生成region proposal。在最后一層卷積層輸出的feature map上設(shè)置了一個(gè)滑動(dòng)窗,該滑動(dòng)窗與RPN進(jìn)行全連接。對(duì)于滑動(dòng)窗滑過的每個(gè)位置,模型中給定若干個(gè)以滑動(dòng)窗中心為中心、不同尺度與長寬比的anchor,RPN將以每個(gè)anchor為基準(zhǔn)相應(yīng)地計(jì)算出一個(gè)候選區(qū)域。候選區(qū)域網(wǎng)絡(luò)是一個(gè)全卷積網(wǎng)絡(luò),網(wǎng)絡(luò)的第一層將滑動(dòng)窗的輸入特征映射到一個(gè)較低維的向量,然后將該向量輸入到兩個(gè)并列的全連接子層,其中分類層(cls layer)用于輸出該向量對(duì)應(yīng)圖像屬于物體還是背景的概率分布,回歸層(reg layer)用于輸出候選區(qū)域的坐標(biāo)信息。
Faster R-CNN的損失函數(shù)可定義為:
其中,i表示第i個(gè)anchor,表示預(yù)測其是物體的概率,表示預(yù)測bounding box的4個(gè)參數(shù)化坐標(biāo)。分類損失是一個(gè)二值分類器的softmax loss,回歸損失。和是兩個(gè)normalization參數(shù),是平衡因子。
對(duì)于bounding box的回歸,4個(gè)參數(shù)化坐標(biāo)定義如下:
其中,x、y、w、h表示box的中心坐標(biāo)以及它的寬度和高度,、、分別針對(duì)于預(yù)測的box、anchor box和實(shí)際的box(y、w、h類似)�?梢哉J(rèn)為是從一個(gè)anchor box到一個(gè)附近實(shí)際的box的bounding box回歸。
關(guān)鍵詞: 深度學(xué)習(xí); 圖像標(biāo)注; 卷積神經(jīng)網(wǎng)絡(luò); 循環(huán)神經(jīng)網(wǎng)絡(luò); Faster R-CNN
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)35-0219-03
A Method of Dense Furniture Caption for Indoor Images
MA Tian-yao
�。⊿chool of Software Engineering, Tongji University, Shanghai 201804, China)
Abstract: In the application of image-based virtual house design system, it becomes a huge challenge to obtaining rich information from images because of some problems such as the lack of scene depth and the occlusion between objects. With the development of deep learning, this paper proposes a method of dense furniture caption for indoor images, which combines CNN and RNN to extract features. It can get multiple information of furniture, such as classification, location, color, material, etc. The result indicates that the method improves the richness and accuracy of furniture information, which makes a great contribution to virtual house design system.
Key words: deep learning; image caption; CNN; RNN; Faster R-CNN
隨著互聯(lián)網(wǎng)的迅速發(fā)展,家居虛擬展示跨越了時(shí)空的局限,幫助用戶直觀、全面地了解到室內(nèi)設(shè)計(jì)方案,因而被家居行業(yè)廣泛接受。近年來,基于圖像進(jìn)行家居虛擬設(shè)計(jì)[1]的方法不斷涌現(xiàn),在一定程度上克服了純3D技術(shù)渲染速度慢、模型制作復(fù)雜等缺點(diǎn),且素材豐富、獲取容易。但是,圖像往往缺少一些關(guān)鍵信息,如場景的深度信息等。同時(shí),室內(nèi)圖像中物品之間存在相互遮擋,這些都會(huì)給獲取圖像信息帶來一定的挑戰(zhàn)。
本文著力于獲取豐富、準(zhǔn)確的圖像信息,利用深度學(xué)習(xí)技術(shù),設(shè)計(jì)出一個(gè)合理的、高效的解決方案來對(duì)室內(nèi)圖像中的家具進(jìn)行多標(biāo)簽標(biāo)注,以獲取其屬性信息,包括種類、位置、顏色以及材質(zhì)等,進(jìn)而降低家居虛擬展示過程的復(fù)雜性,并提高虛擬展示的內(nèi)容豐富性和精確性。
1 基于Faster R-CNN的物體多標(biāo)簽標(biāo)注模型
本文將采用卷積神經(jīng)網(wǎng)絡(luò)Faster R-CNN[2]和循環(huán)神經(jīng)網(wǎng)絡(luò)GRU[3]結(jié)合的方式對(duì)室內(nèi)圖像中的物體進(jìn)行多標(biāo)簽多標(biāo)簽標(biāo)注。首先,將Faster R-CNN的最后一層與兩個(gè)全連接層相連,每個(gè)全連接層都使用ReLU[4]和Dropout[5]。然后,把上述生成的圖像特征和Word2vec生成的詞向量特征作為輸入,連接到GRU中。
在訓(xùn)練GRU時(shí),對(duì)于文本,其詞向量標(biāo)記為。其中,表示區(qū)域編碼,對(duì)應(yīng)特定符號(hào)
1.1 Faster R-CNN的代價(jià)函數(shù)
為了減少Fast R-CNN[6]在計(jì)算候選區(qū)域時(shí)所消耗的時(shí)間,F(xiàn)aster R-CNN在其基礎(chǔ)上提出了候選區(qū)域網(wǎng)絡(luò)(Region Proposal Network, RPN)來加以改進(jìn),生成region proposal。在最后一層卷積層輸出的feature map上設(shè)置了一個(gè)滑動(dòng)窗,該滑動(dòng)窗與RPN進(jìn)行全連接。對(duì)于滑動(dòng)窗滑過的每個(gè)位置,模型中給定若干個(gè)以滑動(dòng)窗中心為中心、不同尺度與長寬比的anchor,RPN將以每個(gè)anchor為基準(zhǔn)相應(yīng)地計(jì)算出一個(gè)候選區(qū)域。候選區(qū)域網(wǎng)絡(luò)是一個(gè)全卷積網(wǎng)絡(luò),網(wǎng)絡(luò)的第一層將滑動(dòng)窗的輸入特征映射到一個(gè)較低維的向量,然后將該向量輸入到兩個(gè)并列的全連接子層,其中分類層(cls layer)用于輸出該向量對(duì)應(yīng)圖像屬于物體還是背景的概率分布,回歸層(reg layer)用于輸出候選區(qū)域的坐標(biāo)信息。
Faster R-CNN的損失函數(shù)可定義為:
其中,i表示第i個(gè)anchor,表示預(yù)測其是物體的概率,表示預(yù)測bounding box的4個(gè)參數(shù)化坐標(biāo)。分類損失是一個(gè)二值分類器的softmax loss,回歸損失。和是兩個(gè)normalization參數(shù),是平衡因子。
對(duì)于bounding box的回歸,4個(gè)參數(shù)化坐標(biāo)定義如下:
其中,x、y、w、h表示box的中心坐標(biāo)以及它的寬度和高度,、、分別針對(duì)于預(yù)測的box、anchor box和實(shí)際的box(y、w、h類似)�?梢哉J(rèn)為是從一個(gè)anchor box到一個(gè)附近實(shí)際的box的bounding box回歸。