ようこそ ゲスト さん
ログイン
入力補助
English
カテゴリ
インデックスツリー
ランキング
アクセスランキング
ダウンロードランキング
その他
法政大学
法政大学図書館
インデックスツリー
資料タイプ別
学内論文
大学院紀要=Bulletin of graduate studies
法政大学大学院紀要. 理工学・工学研究科編
法政大学大学院紀要. 理工学研究科編
法政大学大学院紀要. デザイン工学研究科編
法政大学大学院紀要. 情報科学研究科編
法政大学懸賞論文優秀論文集
法政大学国際文化学部国際社会演習トランスナショナル・ヒストリー研究卒業論文集
このアイテムのアクセス数:
72
件
(
2025-07-12
00:54 集計
)
Permalink : https://doi.org/10.15002/00030602
Permalink : https://hdl.handle.net/10114/00030602
閲覧可能ファイル
ファイル
フォーマット
サイズ
閲覧回数
説明
gradcis_19_21T0018
pdf
7.13 MB
105
論文情報
ファイル出力
アイテムタイプ
紀要論文
タイトル
Generalized DINO : Detection Transformers via Multimodal Models for Generalized Object Detection
著者
著者名
Yuen, Ka Shing
著者名
阮, 嘉誠
言語
eng
ISSN
24321192
DOI
https://doi.org/10.15002/00030602
出版者
法政大学大学院情報科学研究科
雑誌名
法政大学大学院紀要. 情報科学研究科編
巻
19
開始ページ
1
終了ページ
7
発行年
2024-03-24
著者版フラグ
Version of Record
抄録
Referring Expression Comprehension (REC) is a task in the realm of vision and language, aiming to identify objects in images based on provided descriptions. Classic REC methods, however, face challenges in handling expressions involving multiple targets or empty scenarios. In this paper, we study the limitations of existing REC methods, particularly in the context of Generalized Referring Expression Segmentation (GRES). In response, we propose Generalized DINO, a model that extends Transformer-based detectors by incorporating Region-Image Cross Attention (RIA) and Region-Language Cross Attention (RLA) mechanisms. This approach enables the detector to support arbitrary numbers of target object detection, overcoming the constraints of traditional REC methods. Comprehensive experiments on widely-used datasets such as RefCOCO/+/g and the GRES benchmark gRefCOCO showcase the superior performance of Generalized DINO in GRES tasks. The model outperforms even the robust RELA model, demonstrating a significant stride in handling expressions with multiple targets or empty scenarios. Our findings underscore the efficacy of Generalized DINO in enhancing the robustness and flexibility of REC models, contributing to multimodal information processing. The model's ability to handle complex language expressions involving multiple objects positions it as a valuable asset in applications like human-computer interaction and visual question answering.
資源タイプ
Article
書誌レコードID
AA12746425
インデックス
資料タイプ別
 > 
学内論文
 > 
法政大学大学院紀要. 情報科学研究科編
501 学内論文
 > 
紀要
 > 
法政大学大学院紀要. 情報科学研究科編
 > 
19
ホームへ戻る