基于人眼視覺規(guī)律的注視點(diǎn)分類及其在圖像標(biāo)注中的應(yīng)用
圖像標(biāo)注廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,如物體檢測(cè)、識(shí)別等[1-4]。傳統(tǒng)圖像標(biāo)注通常由標(biāo)注人員手動(dòng)繪制目標(biāo)物體邊界框,存在效率低、成本高的問題。據(jù)統(tǒng)計(jì),在Mechanical Turk上對(duì)ImageNet進(jìn)行大規(guī)模標(biāo)注時(shí),繪制邊界框耗費(fèi)的時(shí)間中位數(shù)為25.5 s。此外,還需要對(duì)標(biāo)注人員進(jìn)行相關(guān)培訓(xùn)[5-6]。
生物學(xué)研究表明,人類的視覺系統(tǒng)存在選擇性注意機(jī)制[7]。目前,針對(duì)眼動(dòng)規(guī)律與目標(biāo)識(shí)別關(guān)系的相關(guān)研究結(jié)果表明,在任務(wù)驅(qū)動(dòng)型眼動(dòng)過程中,相較于背景,人眼注視點(diǎn)會(huì)更多地停留在與任務(wù)相關(guān)的圖像目標(biāo)中[8-10]?;谏鲜鲅芯拷Y(jié)果,利用人眼在觀測(cè)標(biāo)注目標(biāo)過程中的注視點(diǎn)規(guī)律,自動(dòng)確定目標(biāo)物體邊界框,能有效提高標(biāo)注效率,降低標(biāo)注成本[11-12]。DIMITRIOS P等提出的眼動(dòng)圖像標(biāo)注算法[11]就是此類應(yīng)用領(lǐng)域的一個(gè)經(jīng)典算法[13]。該方法將目標(biāo)標(biāo)注問題建模為一個(gè)目標(biāo)和背景的分類問題。首先提取眼動(dòng)注視點(diǎn)和背景分別所在的超像素塊的相關(guān)眼動(dòng)特征和圖像外觀[14]、似物性特征[15]等,構(gòu)建一個(gè)支持向量機(jī)(Support Vector Machine, SVM)超像素塊分類模型,實(shí)現(xiàn)標(biāo)注目標(biāo)邊界框的初定位;然后采用似GrabCut能量模型[14]進(jìn)行目標(biāo)邊界框精定位。該算法只需使用較少的數(shù)據(jù)(7%)訓(xùn)練標(biāo)注模型,標(biāo)注一幅圖片平均僅需2 s。
標(biāo)定過程中采集的眼動(dòng)數(shù)據(jù)中包含標(biāo)定目標(biāo)的位置先驗(yàn)線索,利用這些線索能有效提高后續(xù)標(biāo)定精度。但是,首先眼動(dòng)過程中存在的固有抖動(dòng)和眨動(dòng),使眼動(dòng)數(shù)據(jù)中容易引入噪聲;另外,眼動(dòng)圖像目標(biāo)標(biāo)注這類任務(wù)驅(qū)動(dòng)型眼動(dòng)過程是一個(gè)自底向上和自頂而下相互交互的復(fù)雜認(rèn)知過程[11,16]。研究表明,人眼更容易關(guān)注動(dòng)物、人之類的活動(dòng)目標(biāo),也容易停留在顯著的非目標(biāo)對(duì)象或背景對(duì)象上,因此目前提取和標(biāo)注任務(wù)相關(guān)的眼動(dòng)信息仍然是一個(gè)研究難點(diǎn)。目前DIMITRIOS P等提出的眼動(dòng)圖像標(biāo)注算法利用所有注視點(diǎn)定位標(biāo)注目標(biāo),停留在非目標(biāo)上的注視點(diǎn)容易引入干擾因素,存在算法精度不高的問題。文獻(xiàn)[10,17]采用熱力圖去除離群點(diǎn)算法提取和識(shí)別任務(wù)相關(guān)的注視點(diǎn),但是該方法以每一個(gè)注視點(diǎn)為中心累加二維高斯函數(shù),通過設(shè)置閾值將離群注視點(diǎn)濾除,未能有效地適應(yīng)注視點(diǎn)通常以線狀而非球狀呈現(xiàn)這一空間特征,并且高斯函數(shù)計(jì)算量大、方差難以確定,因此存在運(yùn)行效率低、閾值設(shè)置困難等問題。另外,這些算法主要應(yīng)用在目標(biāo)檢測(cè)領(lǐng)域,文獻(xiàn)[10]雖然提到目標(biāo)標(biāo)注問題,但是也是以現(xiàn)有圖像目標(biāo)檢測(cè)結(jié)果為基礎(chǔ),輔助眼動(dòng)數(shù)據(jù)減少漏標(biāo)注,與經(jīng)典的DIMITRIOS P眼動(dòng)圖像標(biāo)注算法思路不一致。
國(guó)內(nèi)已有針對(duì)駕駛過程中的注視序列[18-19]以及人機(jī)交互過程中的注視序列[20-21]的研究,但均不能適用于圖片標(biāo)注研究領(lǐng)域。在目標(biāo)導(dǎo)向、任務(wù)驅(qū)動(dòng)的圖像標(biāo)注過程中,人眼視覺由“預(yù)注意”和“注意”兩個(gè)階段組成[22-23],被稱為人眼視覺的“搜索”和“識(shí)別”[16],前者的凝視點(diǎn)不在目標(biāo)上,而后者的凝視點(diǎn)在目標(biāo)上。準(zhǔn)確提取眼動(dòng)識(shí)別階段的注視點(diǎn)是提高眼動(dòng)圖像標(biāo)注定位精度的關(guān)鍵。鑒于此,本文擬從探索圖像目標(biāo)標(biāo)注這一任務(wù)驅(qū)動(dòng)下的眼動(dòng)規(guī)律入手,設(shè)計(jì)注視點(diǎn)分類模型。首先研究圖像標(biāo)注過程中眼動(dòng)注視點(diǎn)在時(shí)間、空間維度上的眼動(dòng)規(guī)律,然后結(jié)合眼動(dòng)規(guī)律,提出基于參數(shù)自適應(yīng)的DBSCAN(Density-Based Spatial Clustering of Applications with Noise)[24]算法將人眼注視序列中注視點(diǎn)自動(dòng)分類為視覺搜索和視覺識(shí)別兩個(gè)類別,旨在將提取的眼動(dòng)識(shí)別階段注視點(diǎn)作為圖像標(biāo)注算法的輸入,提高標(biāo)注精度。
2 搜索和識(shí)別兩階段的眼動(dòng)規(guī)律
為了探究隸屬于視覺識(shí)別和視覺搜索階段注視點(diǎn)的規(guī)律,本文選取2014 DIMITRIOS P數(shù)據(jù)集[11,25]當(dāng)中的包含單目標(biāo)的圖片開展眼動(dòng)規(guī)律實(shí)驗(yàn)研究。該數(shù)據(jù)集選取Pascal VOC2012數(shù)據(jù)集中的10類目標(biāo),共6 270幅圖片,其中單目標(biāo)圖片共5 104幅圖。這10類目標(biāo)分別為貓/狗、自行車/摩托車、飛機(jī)/船、牛/馬以及沙發(fā)/餐桌。5位受試者眼動(dòng)標(biāo)注過程中的眼動(dòng)數(shù)據(jù)采用Eyelink 2 000眼動(dòng)儀采集,采樣頻率為1 000 Hz。眼動(dòng)數(shù)據(jù)格式用F=(xi,yi,t_starti,t_endi)Ni=1表示,其中x,y表示坐標(biāo)(單位:像素),t_start,t_end分別記錄為注視點(diǎn)的開始時(shí)間戳和結(jié)束時(shí)間戳(單位:ms),可通過t_end?t_start計(jì)算得到注視點(diǎn)的持續(xù)時(shí)間。每個(gè)目標(biāo)的標(biāo)注真值框由數(shù)據(jù)集提供。圖1為摩托車目標(biāo)圖像,5位受試者的眼動(dòng)注視數(shù)據(jù)使用不同顏色繪制,目標(biāo)標(biāo)注真值框使用綠色標(biāo)識(shí)。
圖1 數(shù)據(jù)集展示
Fig.1 Data set presentation
下載: 原圖 | 高精圖 | 低精圖
針對(duì)標(biāo)注目標(biāo)i(1≤i≤10),5位受試者標(biāo)注過程中的眼動(dòng)注視點(diǎn)集合為Ui。定義實(shí)驗(yàn)中視覺搜索和視覺識(shí)別兩階段注視點(diǎn)的量化判定標(biāo)準(zhǔn)如下:若注視點(diǎn)落在目標(biāo)物體i的標(biāo)注真值框B內(nèi),則屬于視覺識(shí)別階段注視點(diǎn)集合Ri,反之屬于視覺搜索階段注視點(diǎn)集合Si,即Ui=Ri?Si。具體如圖2所示。
圖2 視覺搜索-識(shí)別階段注視點(diǎn)的量化標(biāo)準(zhǔn)示意圖
Fig.2 Visual search and recognition fixations
下載: 原圖 | 高精圖 | 低精圖
針對(duì)10類標(biāo)注目標(biāo),從注視點(diǎn)分布占比率、注視持續(xù)時(shí)間、注視空間聚集度3個(gè)角度探索兩個(gè)視覺階段的眼動(dòng)規(guī)律。
(1) 兩階段注視點(diǎn)分布占比率對(duì)比
針對(duì)上述10類標(biāo)注目標(biāo),分別計(jì)算5位受試者眼動(dòng)注視點(diǎn)集合Ri、Si中注視點(diǎn)數(shù)目占集合Ui中注視點(diǎn)總數(shù)目的比例:card(Ri)/card(Ui)、card(Si)/card(Ui)。
從圖3所示的計(jì)算結(jié)果可知,所有標(biāo)注目標(biāo)視覺識(shí)別階段的注視點(diǎn)分布占比明顯比視覺搜索階段高,其中8個(gè)目標(biāo)在視覺識(shí)別階段的注視點(diǎn)占比甚至超過70%。說明在標(biāo)注這類任務(wù)驅(qū)動(dòng)的眼動(dòng)過程中,人類的眼動(dòng)注視點(diǎn)會(huì)明顯分布在標(biāo)注目標(biāo)附近。
圖3 不同標(biāo)注目標(biāo)的人眼注視點(diǎn)分布情況
Fig.3 Fixations distribution of different objects
下載: 原圖 | 高精圖 | 低精圖
(2) 兩階段注視點(diǎn)持續(xù)時(shí)間對(duì)比
針對(duì)標(biāo)注目標(biāo)i,將每一幅包含i的圖片當(dāng)中的人眼注視點(diǎn)歸類于集合Ri和集合Si,并計(jì)算兩階段的注視點(diǎn)持續(xù)時(shí)間均值。最后分別累加得到集合Ri和集合Si中相應(yīng)注視點(diǎn)的注視持續(xù)時(shí)間,研究二者占集合Ui所有注視點(diǎn)的持續(xù)時(shí)間總和的比例。
從圖4可知,在所有類別標(biāo)注目標(biāo)過程中,視覺識(shí)別階段注視點(diǎn)的注視持續(xù)時(shí)間明顯大于視覺搜索階段。標(biāo)注目標(biāo)“貓”的視覺識(shí)別階段與其視覺搜索階段的注視持續(xù)時(shí)間差異最顯著,目標(biāo)“船”的差異最小,但也有22.8%。所有目標(biāo)兩階段的持續(xù)時(shí)間占比差的平均值為58.5%。
圖4 不同標(biāo)注目標(biāo)的搜索-識(shí)別階段注視點(diǎn)的持續(xù)時(shí)間占比
Fig.4 Proportion of the duration of fixations in the search-recognition of different targets
下載: 原圖 | 高精圖 | 低精圖
(3) 兩階段注視點(diǎn)空間聚集度對(duì)比
針對(duì)視覺識(shí)別和視覺搜索兩個(gè)階段,分別按照式(1)和(2)計(jì)算標(biāo)注目標(biāo)i的眼動(dòng)注視點(diǎn)集合Ri、Si中的眼動(dòng)注視點(diǎn)空間位置歸一化點(diǎn)密度D(Ri)和D(Si):
D(Ri)=1Mi∑j=1MiRji/Ujiλji
, (1)
D(Si)=1Mi∑j=1MiSji/Uji1?λji
, (2)
式中:i表示標(biāo)注目標(biāo)類別,Mi表示第i類標(biāo)注目標(biāo)的圖片總數(shù),Rji和Sji分別表示第i類目標(biāo)中第j幅圖片的視覺識(shí)別階段注視點(diǎn)集合和視覺搜索階段注視點(diǎn)集合,λji表示第i類物體的第j幅圖片目標(biāo)框B的面積與圖片面積的比值。
繪制不同類別目標(biāo)物體的搜索、識(shí)別階段歸一化點(diǎn)密度,如圖5所示。視覺識(shí)別階段的注視點(diǎn)密度明顯高于視覺搜索階段的注視點(diǎn)密度。
圖5 不同標(biāo)注目標(biāo)的搜索-識(shí)別階段注視點(diǎn)的歸一化點(diǎn)密度
Fig.5 Normalized point density of fixations in the visual search-recognition of different targets
下載: 原圖 | 高精圖 | 低精圖
綜合上述實(shí)驗(yàn)結(jié)果,可分析得出如下眼動(dòng)規(guī)律:
(1)在眼動(dòng)圖像標(biāo)注這類任務(wù)驅(qū)動(dòng)的眼動(dòng)過程中,眼動(dòng)注視點(diǎn)會(huì)明顯落在標(biāo)注目標(biāo)上。因此以標(biāo)注者的眼動(dòng)注視點(diǎn)位置為線索,能較準(zhǔn)確地初步定位標(biāo)注目標(biāo)位置。
(2)從眼動(dòng)注視點(diǎn)的時(shí)間維度上看,視覺識(shí)別階段的注視點(diǎn)總的持續(xù)時(shí)間呈現(xiàn)明顯大于視覺搜索階段的趨勢(shì)。
(3)從眼動(dòng)注視點(diǎn)的空間維度上看,視覺識(shí)別階段注視點(diǎn)在目標(biāo)內(nèi)部聚集,視覺搜索階段注視點(diǎn)在標(biāo)注目標(biāo)四周稀疏分布。
3 基于眼動(dòng)規(guī)律的眼動(dòng)注視點(diǎn)分類
實(shí)驗(yàn)結(jié)果表明:在眼動(dòng)標(biāo)注過程中,處于眼動(dòng)搜索階段和眼動(dòng)識(shí)別階段的注視點(diǎn)在空間聚集度和時(shí)間持續(xù)性兩個(gè)方面存在明顯的差別。因此本文提出基于眼動(dòng)注視點(diǎn)空間和時(shí)間兩個(gè)維度特征的眼動(dòng)注視點(diǎn)分類方法。在圖6(a)中紅色標(biāo)識(shí)的是該圖片標(biāo)注過程中一位受試者的所有注視點(diǎn)。為了有效分類注視點(diǎn),首先在第一階段利用視覺識(shí)別階段存在的空間聚集度高的特點(diǎn),提出基于參數(shù)自適應(yīng)的DBSCAN密度聚類算法,得到k個(gè)候選眼動(dòng)識(shí)別階段注視點(diǎn)集。然后結(jié)合識(shí)別階段注視點(diǎn)持續(xù)時(shí)間長(zhǎng)的特性,篩選出注視總時(shí)長(zhǎng)最長(zhǎng)的集合,將其中所包含的注視點(diǎn)分類為眼動(dòng)識(shí)別注視點(diǎn)。算法流程示意圖和具體算法如圖6和表1所示。
圖6 視覺搜索-識(shí)別注視點(diǎn)劃分流程圖。(a)注視序列用紅點(diǎn)標(biāo)識(shí),藍(lán)線相連;(b)、(c)聚類簇由綠色和粉紅色點(diǎn)標(biāo)識(shí);(d)視覺搜索階段使用紅點(diǎn)標(biāo)識(shí),視覺識(shí)別階段使用黃點(diǎn)標(biāo)識(shí)。
Fig.6 Framework of visual search-recognition fixations classification. (a) Fixation sequence marked with red dots and linked by blue lines; (b),(c) Different clusters marked with green and pink dots individually; (d) Visual search phase and visual recognition phase marked with the red and yellow dots correspondingly.
下載: 原圖 | 高精圖 | 低精圖
表1 視覺搜索-識(shí)別注視點(diǎn)劃分算法偽代碼
Tab.1 Visual search-recognition classification pseudocode
算法: 視覺搜索與識(shí)別注視點(diǎn)分類算法
輸入:圖像I,注視序列F=(xi,yi,t_starti,t_endi)Ni=1,參數(shù)α,β
輸出:視覺識(shí)別注視序列R,視覺搜索注視序列S
begin
//獲取自適應(yīng)參數(shù)
(W,H)=size(I)
Eps=max(W,H)/α
MinPts=N/β
//DBSCAN劃分聚類簇Ck以及離群點(diǎn)集合O
[Ck,O]=DBSCAN(F,Eps,MinPts)
//分類聚類簇,完成劃分
if k==0
R=?
S=F
else if k==1
R=Ck
S=O
else k>1
//Tk表示第k個(gè)簇Ck的注視點(diǎn)持續(xù)時(shí)間之和
k'=argmaxk=1,2,...kTk
R=Ck'
S=F?Ck'
end
end
下載: 導(dǎo)出CSV
表1算法中,關(guān)鍵的是第一步,即基于空間維度聚集特性的眼動(dòng)識(shí)別階段注視點(diǎn)候選集的確定。傳統(tǒng)的聚類算法如k-means聚類或者高斯混合聚類算法,都是適合球形聚類簇。但是觀察發(fā)現(xiàn),眼動(dòng)識(shí)別階段的注視點(diǎn)簇不一定滿足該形狀假設(shè)。DBSCAN算法[24]是一種基于密度且適應(yīng)任何形狀簇的經(jīng)典聚類算法,同時(shí)只需要迭代一次,具有聚類速度快的特點(diǎn)。但是算法中的兩個(gè)重要參數(shù)鄰域半徑Eps和鄰域密度閾值MinPts的設(shè)置對(duì)算法的執(zhí)行效果影響較大。本文結(jié)合標(biāo)注任務(wù)特點(diǎn),通過分析發(fā)現(xiàn)了參數(shù)的如下特點(diǎn):
(1)目標(biāo)標(biāo)注問題中聚類簇的鄰域半徑Eps與標(biāo)注目標(biāo)的尺寸有較明確的對(duì)應(yīng)關(guān)系。觀察發(fā)現(xiàn),標(biāo)注目標(biāo)尺寸占標(biāo)注圖片總尺寸的比例主要分布在5%~50%左右,因此定義Eps參數(shù)取值公式如公式(3)所示:
Eps=max(W,H)α
, (3)
式中:(W,H)表示標(biāo)注圖像I的寬度和高度,α取值可選范圍大致在3~7。
(2)鄰域密度閾值MinPts與停留在標(biāo)注目標(biāo)上的平均注視點(diǎn)數(shù)量有關(guān)。統(tǒng)計(jì)分析發(fā)現(xiàn),數(shù)據(jù)集中標(biāo)注目標(biāo)上的注視點(diǎn)數(shù)目占注視點(diǎn)總數(shù)比例分布在12.7%~29.3%之間。基于此,定義MinPts參數(shù)取值公式如式(4)所示:
MinPts=Nβ
. (4)
其中:N表示當(dāng)前標(biāo)注圖像I中的注視點(diǎn)總數(shù)目,β可取值范圍大致在3~10。
圖7繪制了α、β取不同值時(shí),眼動(dòng)注視點(diǎn)分類的查準(zhǔn)率指標(biāo)結(jié)果。從圖7可知,分類準(zhǔn)確率對(duì)參數(shù)α的敏感程度更高,當(dāng)α取7、β在3~10之間時(shí),查準(zhǔn)率基本穩(wěn)定在0.65~0.66之間。當(dāng)β取5時(shí),查準(zhǔn)率相對(duì)最高。因此,自適應(yīng)參數(shù)設(shè)置為α=7,β=5。
圖7 參數(shù)取值情況
Fig.7 Parameter value situation
下載: 原圖 | 高精圖 | 低精圖
4 實(shí)驗(yàn)與分析
本文針對(duì)標(biāo)注過程中的眼動(dòng)序列,結(jié)合眼動(dòng)規(guī)律提出算法將包含的眼動(dòng)注視點(diǎn)分類到對(duì)應(yīng)的搜索階段和識(shí)別階段。本節(jié)將首先圍繞算法分類性能、算法執(zhí)行效率兩個(gè)方面開展對(duì)比分析,然后驗(yàn)證本文算法對(duì)提高眼動(dòng)圖像標(biāo)注精度的有效性。
實(shí)驗(yàn)數(shù)據(jù)集:2014 DIMITRIOS P公共眼動(dòng)數(shù)據(jù)集(10類目標(biāo),目標(biāo)物體占整幅圖片比小于30%,單目標(biāo)圖片共1 962幅),訓(xùn)練集和測(cè)試集比例為1∶9。
實(shí)驗(yàn)硬件環(huán)境:第4代Intel Core i5 (3.3 GHz);8GB內(nèi)存;256 GB SSD;Matlab R2018b;操作系統(tǒng)為Win10 專業(yè)版。
4.1 視覺搜索和識(shí)別注視點(diǎn)分類相關(guān)實(shí)驗(yàn)與分析
4.1.1 眼動(dòng)注視點(diǎn)分類性能評(píng)估
本文提出將受試者眼動(dòng)序列中的注視點(diǎn)分為視覺搜索和識(shí)別兩個(gè)階段,這個(gè)過程可看作一個(gè)二分類問題。因此,采用機(jī)器學(xué)習(xí)常用的查準(zhǔn)率P、查全率R和F1度量分?jǐn)?shù)來評(píng)估算法的分類性能,其中F1度量計(jì)算如式(5)所示:
F1=2×P×RP+R
. (5)
計(jì)算熱圖(Heatmap)算法[17]、基于固定參數(shù)的本文算法(DBSCAN)和基于自適應(yīng)參數(shù)的本文算法(Adaptive-DBSCAN)3種方法的查準(zhǔn)率P、查全率R和F1度量分?jǐn)?shù)。其中,Heatmap算法使用自適應(yīng)閾值,設(shè)置thr=mean(T)/12,T表示圖片內(nèi)注視點(diǎn)的注視持續(xù)時(shí)間之和;DBSCAN算法的參數(shù)設(shè)置為MinPts=2,Eps=65;本文的Adaptive-DBSCAN算法自適應(yīng)參數(shù)設(shè)置為α=7,β=5。計(jì)算結(jié)果如表2所示。
表2 眼動(dòng)注視點(diǎn)分類結(jié)果對(duì)比
Tab.2 Comparison of the classification results of eye movement fixation points
方法 P R F1
Heatmap 0.61 0.876 0.71
DBSCAN 0.65 0.74 0.69
Adaptive-DBSCAN 0.65 0.881 0.75
下載: 導(dǎo)出CSV
從表2結(jié)果可知,DBSCAN方法相對(duì)于Heatmap方法,僅在查準(zhǔn)率方面有提升,但卻影響了查全率R和F1度量分?jǐn)?shù)。而本文提出的Adaptive-DBSCAN算法在查準(zhǔn)率、查全率和F1度量分?jǐn)?shù)均高于Heatmap算法。圖8給出了本文算法對(duì)標(biāo)注過程中眼動(dòng)注視點(diǎn)的分類結(jié)果。從圖8可以看出當(dāng)注視序列符合“識(shí)別階段注視序列聚集,搜索階段注視序列離散”和“視覺識(shí)別階段的注視持續(xù)時(shí)間比視覺搜索階段的注視持續(xù)時(shí)間長(zhǎng)”這兩條規(guī)律時(shí),本文算法性能表現(xiàn)良好。另外,圖8(b)繪制了圖片中有顯著物體的情況,此時(shí)只要滿足上述的兩條規(guī)律,算法的輸出結(jié)果依然較好。
圖8 視覺搜索-識(shí)別注視序列劃分算法的結(jié)果。(a)常規(guī)情況;(b)含有顯著物體的情況。
Fig.8 Results of visual search-recognition classification. (a) Normal situation; (b) Situation containing visual attention objects.
下載: 原圖 | 高精圖 | 低精圖
4.1.2 算法執(zhí)行效率對(duì)比
從表3可知,本文算法的運(yùn)行速度明顯優(yōu)于Heatmap算法。Heatmap算法是由高斯函數(shù)累加,運(yùn)行速度與注視序列的數(shù)量成正比,每一個(gè)注視點(diǎn)都需要進(jìn)行一次二維高斯函數(shù)的計(jì)算,極大地影響了算法的運(yùn)行速度。而本文基于空間特征聚類,無(wú)需反復(fù)進(jìn)行高斯函數(shù)累加,因此運(yùn)行速度有較大的改善。
表3 算法的整體運(yùn)行速度
Tab.3 Overall running speed of the algorithm
方法 運(yùn)行時(shí)間/s
本文Adaptive-DBSCAN算法 24.16
Heatmap算法 47.21
下載: 導(dǎo)出CSV
4.2 眼動(dòng)圖像標(biāo)注精度對(duì)比
利用眼動(dòng)數(shù)據(jù)標(biāo)注圖像的方法的研究目前還處于初級(jí)階段,DIMITRIOS P等[11]提出的眼動(dòng)圖像標(biāo)注算法是一個(gè)非常經(jīng)典的算法。因此,為了驗(yàn)證本文算法對(duì)提高眼動(dòng)圖像標(biāo)注精度的可行性和有效性,本實(shí)驗(yàn)將以該算法為基礎(chǔ)對(duì)比以下3種方法的圖像標(biāo)注精度:(1)復(fù)現(xiàn)的DIMITRIOS P圖像標(biāo)注算法(DIMITRIOS P);(2)基于熱力圖過濾離群點(diǎn)的圖像標(biāo)注算法(Heatmap-Annotation);(3)基于本文方法提取眼動(dòng)識(shí)別階段注視點(diǎn)的圖像標(biāo)注方法(Ours)。為了比較結(jié)果的客觀性,這3種方法僅在眼動(dòng)序列輸入的選擇上采取不同策略,后續(xù)的圖像標(biāo)注過程均保持一致。DIMITRIOS P算法未開源,因此復(fù)現(xiàn)該算法的初分割部分作為本文標(biāo)注算法的基線。其中似物性特征使用BING算法[26]構(gòu)建。
精度評(píng)估指標(biāo)CorLoc[11,27]的計(jì)算公式如式(6)所示:
CorLoc=mn
, (6)
式中:n為預(yù)測(cè)的物體框總數(shù),m為標(biāo)注結(jié)果與目標(biāo)真值框重疊率大于0.5目標(biāo)總數(shù)。
針對(duì)數(shù)據(jù)集中的10種標(biāo)注目標(biāo),上述3種方法標(biāo)注結(jié)果的CorLoc精度指標(biāo)計(jì)算結(jié)果如表4所示。原始DIMITRIOS P算法基于標(biāo)注過程中所有的眼動(dòng)注視點(diǎn),而實(shí)際情況中這些注視點(diǎn)有一部分可能停留在背景或者顯著非目標(biāo)上,因此容易造成標(biāo)注目標(biāo)定位不準(zhǔn)確的問題。從表4中可以明顯看到,10種目標(biāo)中除了“?!焙捅疚乃惴ㄏ嗟?、“狗”高于本文算法之外,標(biāo)注指標(biāo)均明顯低于Heatmap-Annotation或者本文算法。實(shí)驗(yàn)結(jié)果說明在眼動(dòng)標(biāo)注過程中,選擇與標(biāo)注物體相關(guān)的眼動(dòng)注視點(diǎn)進(jìn)行后續(xù)標(biāo)注目標(biāo)位置的初定位能提高標(biāo)注精度,證明了文本研究思路的有效性和可行性。比較Heatmap-Annotation算法和本文算法的標(biāo)注結(jié)果,本文方法7種目標(biāo)的標(biāo)注精度明顯比Heatmap-Annotation方法高,精度指標(biāo)的平均值高于Heatmap-Annotation。本文算法相較于DIMITRIOS P算法和Heatmap-Annotation算法分別平均提高了3.34%和1.02%,能更準(zhǔn)確地定位標(biāo)注目標(biāo)。圖9展示了部分目標(biāo)的標(biāo)注結(jié)果圖。
表4 眼動(dòng)圖像標(biāo)注精度指標(biāo)CorLoc結(jié)果
Tab.4 Eye movement image annotation accuracy index CorLoc results
飛機(jī) 自行車 船 貓 牛 餐桌 狗 馬 摩托車 沙發(fā) 均值
DIMITRIOS P 52.5 7.5 16.5 39.7 34.9 23.3 31.0 35.5 30.5 21.3 29.27
Heatmap-Annotation 52.8 29.1 18.7 37.6 30.3 23.3 32.4 28.0 38.0 25.7 31.59
Ours 55.9 21.2 20.3 40.2 34.9 24.7 30.8 38.3 33.3 26.5 32.61
下載: 導(dǎo)出CSV
圖9 眼動(dòng)圖像標(biāo)注算法的輸出結(jié)果對(duì)比圖。(a)~(c)飛機(jī)標(biāo)注圖;(d)~(f)自行車標(biāo)注圖;(g)沙發(fā)標(biāo)注圖。
Fig.9 Comparison of the output results of the eye movement image annotation. (a)~(c) Aeroplane;(d)~(f) Bicycle;(g) Sofa.
下載: 原圖 | 高精圖 | 低精圖
5 結(jié) 論
眼動(dòng)圖像標(biāo)注算法以標(biāo)注序列中的所有人眼注視點(diǎn)為輸入實(shí)現(xiàn)目標(biāo)框標(biāo)注,然而注視點(diǎn)并非都是等權(quán)重的,未落在目標(biāo)物體上的注視點(diǎn)會(huì)為標(biāo)注算法引入目標(biāo)定位干擾因素,降低算法性能。
鑒于此,本文結(jié)合目標(biāo)標(biāo)注任務(wù)中的眼動(dòng)特點(diǎn),提出將注視點(diǎn)分類為視覺搜索和視覺識(shí)別兩大類,首先探究了兩個(gè)階段注視點(diǎn)在時(shí)間維度和空間維度上的眼動(dòng)規(guī)律,然后結(jié)合眼動(dòng)規(guī)律提出基于參數(shù)自適應(yīng)的DBSCAN算法的注視點(diǎn)分類方法。實(shí)驗(yàn)結(jié)果表明,該方法能有效提取和標(biāo)注目標(biāo)相關(guān)的視覺識(shí)別注視點(diǎn),提高目標(biāo)標(biāo)注精度,同時(shí)算法運(yùn)行穩(wěn)定,執(zhí)行效率高。
目前我們僅考慮利用眼動(dòng)規(guī)律實(shí)現(xiàn)兩個(gè)階段注視點(diǎn)的分類,對(duì)于標(biāo)注目標(biāo)大、停留其中的注視點(diǎn)空間聚集度不明顯的注視點(diǎn),分類還不夠準(zhǔn)確。另外在多目標(biāo)聚集的情況下,多標(biāo)注目標(biāo)注視點(diǎn)的提取也比較困難。針對(duì)上述問題,在本文現(xiàn)有Adaptive-DBSCAN算法聚類特征僅為注視點(diǎn)眼動(dòng)特征的基礎(chǔ)上,如何融合注視點(diǎn)所在超像素塊圖像特征(如紋理、顏色、邊緣等),提高大目標(biāo)、多目標(biāo)聚集時(shí)的圖像目標(biāo)標(biāo)注精度將是下一步的研究重點(diǎn)。
欄目分類
- 1智能家居發(fā)展現(xiàn)狀及未來
- 2中國(guó)VR技術(shù)發(fā)展現(xiàn)狀、應(yīng)用前景與對(duì)策研究
- 3淺談霍爾效應(yīng)及其應(yīng)用
- 4收入確認(rèn)與計(jì)量的"五步法"模型實(shí)務(wù)探討
- 5趣味浮力探究實(shí)驗(yàn)
- 6人工智能技術(shù)在傳播領(lǐng)域的應(yīng)用與展望
- 7智能溫度控制系統(tǒng)
- 8基于OpenCV的車道線識(shí)別與跟蹤算法
- 9國(guó)內(nèi)外廢紙分類標(biāo)準(zhǔn)對(duì)比和分析
- 10共享汽車行業(yè)和諧發(fā)展的swot分析
- 圖書館紙質(zhì)文獻(xiàn)數(shù)字化存儲(chǔ)平臺(tái)的優(yōu)化設(shè)計(jì)與文件管理方法研究
- 不同紙張?zhí)匦詫?duì)平面性繪畫效果的影響
- 基于用戶需求的紙質(zhì)圖書與電子圖書資源整合與服務(wù)創(chuàng)新
- 北方剪紙的藝術(shù)特征與傳承研究
- 高校美術(shù)教育中非遺剪紙藝術(shù)的融合與實(shí)踐
- 紙質(zhì)檔案信息化管理與傳統(tǒng)管理模式的結(jié)合
- 基于紙張媒介的非遺文化傳播模式創(chuàng)新與實(shí)踐路徑探索
- 數(shù)字化沖擊下高校圖書館紙質(zhì)圖書借閱量下降的原因及對(duì)策
- 非遺手工藝高校產(chǎn)學(xué)研教融合模式構(gòu)建研究
- 基于綠色食品牌背景下的云南鮮切花包裝設(shè)計(jì)
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 官方認(rèn)定!CSSCI南大核心首批191家“青年學(xué)者友好期刊名單”
- 2023JCR影響因子正式公布!
- 國(guó)內(nèi)核心期刊分級(jí)情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點(diǎn)分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識(shí)點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫規(guī)則
- 盤點(diǎn)那些評(píng)職稱超管用的資源,1,3和5已經(jīng)“絕種”了