隨著社會的信息化發展日益深入,互連網日益普及,越來越多的圖象和視頻信息都是以數字方式存儲的,如何有效地管理和利用這些以圖象和視頻的方式存儲的信息也逐漸成為一個非常重要的問題。機器視覺與圖像處理軟件的關系又是怎樣的呢?
基于內容的圖像檢索,即CBIR(Content-based image retrieval),是機器視覺領域中關注大規模數據內檢索數字圖像的研究分支。基于內容的圖像檢索的研究還涉及了圖像處理(Image Processing)、圖像檢索(Image Retrieval)等多個研究領域。其研究的目的是直接根據圖象和視頻本身的信息,抽取檢索特征,建立索引樹,再根據一定的相似性衡量標準,實現檢索。
目前在圖象數據庫和視頻信息系統中,檢索主要是根據隨圖象和視頻信息一起存儲的文本描述進行的,通常這些文本十分簡潔,主要含有拍攝時間、地點、拍攝者等信息。對圖象本身的內容描述也是十分簡短的,難以滿足實際檢索時多方面的需要。
對于支持基于內容的圖象檢索的數據庫而言,必然支持兩種主要的數據結構:物體和場景(objects and secenes)。場景是一幅圖象,其中可以含有一個或更多個物體,也可以沒有物體,物體是場景的一部分。例如,汽車是交通場景的一個物體。這兩種數據類型需要按照它們的視覺特征來表示,包括顏色、紋理(texture)、形狀(shape)、位置以及作為線條圖草圖(line sketches)時的邊界之間的關系。
常用的圖象特征是顏色和紋理,此外對于物體檢索而言,圖象特征還包括幾何特征如形狀、尺寸和位置,此外還有基于草圖的特征,例如刻畫出圖象中物體形狀和方向的簡單線條圖特征。目前的圖象檢索方法主要根據彩色直方圖特征和紋理度量特征,比較簡單的方法有基于主顏色和顏色直方圖的檢索,更復雜的方法需要結合區域的位置關系(如上半個圖表示天空和云彩,下半個圖表示地面上的景物等)和幾何形狀(如圓形、線條框或輪廓等)信息按分層的方式綜合起來,此外還可以根據用戶的反饋信息利用機器學習的方法改進基于內容的圖象檢索算法。