ようこそ ゲスト さん
ログイン
入力補助
English
カテゴリ
インデックスツリー
ランキング
アクセスランキング
ダウンロードランキング
その他
法政大学
法政大学図書館
インデックスツリー
資料タイプ別
学内論文
大学院紀要=Bulletin of graduate studies
法政大学大学院紀要. 理工学・工学研究科編
法政大学大学院紀要. 理工学研究科編
法政大学大学院紀要. デザイン工学研究科編
法政大学大学院紀要. 情報科学研究科編
法政大学懸賞論文優秀論文集
法政大学国際文化学部国際社会演習トランスナショナル・ヒストリー研究卒業論文集
このアイテムのアクセス数:
31
件
(
2025-05-08
16:08 集計
)
Permalink : https://doi.org/10.15002/00030611
Permalink : https://hdl.handle.net/10114/00030611
閲覧可能ファイル
ファイル
フォーマット
サイズ
閲覧回数
説明
gradcis_19_22T0007
pdf
311 KB
42
論文情報
ファイル出力
アイテムタイプ
紀要論文
タイトル
構造化状態空間シーケンスモデルを用いた位置情報の長距離依存関係を利用したバイノーラル音声合成
その他のタイトル
Binaural Audio Synthesis with the Structured State Space sequence model
著者
著者名
北村, 健太郎
著者名
Kitamura, Kentaro
言語
jpn
ISSN
24321192
DOI
https://doi.org/10.15002/00030611
出版者
法政大学大学院情報科学研究科
雑誌名
法政大学大学院紀要. 情報科学研究科編
巻
19
開始ページ
1
終了ページ
6
発行年
2024-03-24
著者版フラグ
Version of Record
抄録
The structured state-space sequence model (S4) is a recent innovation in sequence modeling that has shown excellent performance in handling long-range dependencies across a variety of tasks and modalities. In the field of speech processing, it has been found to be an alternative to the self-attention model in automatic speech recognition and in speech synthesis. In this study, a new model for synthesizing binaural speech is developed that represents the long relationship between mono speech using S4 and the latent state space between speaker and source location information. Each layer is conditioned with information common to both left and right sides of the speech, which is processed by location, binaural time difference, and pre-trained binaural speech. Compared to conventional methods, our model shows that speech synthesis is possible with similar quality. These results indicate that our model has the potential to extend the applicability of S4 in sequence modeling and into the domain of conditional speech synthesis.
資源タイプ
Article
書誌レコードID
AA12746425
インデックス
資料タイプ別
 > 
学内論文
 > 
法政大学大学院紀要. 情報科学研究科編
501 学内論文
 > 
紀要
 > 
法政大学大学院紀要. 情報科学研究科編
 > 
19
ホームへ戻る