Home >

news ヘルプ

論文・著書情報


タイトル
和文:不一致を許す文字列照合のためのFFTを用いた確率的アルゴリズムの精度評価 
英文: 
著者
和文: 中藤 哲也, 馬場 謙介, 池田 大輔, 森 雅生, 廣川 佐千男.  
英文: 中藤 哲也, 馬場 謙介, 池田 大輔, Masao Mori, 廣川 佐千男.  
言語 Japanese 
掲載誌/書名
和文:情報処理学会論文誌データベース(TOD) 
英文: 
巻, 号, ページ Vol. 2    No. 4   
出版年月 2009年11月 
出版者
和文:情報処理学会 
英文: 
会議名称
和文: 
英文: 
開催地
和文: 
英文: 
アブストラクト テキスト中から与えられたパターンを見つけ出す文字列照合問題は,Webの情報検索やDNA配列の特定パターンの検索に用いられるなど,幅広い応用範囲を持つ.パターンの編集に置換のみを許した近似文字列照合は,不一致を許す文字列照合と呼ばれ,テキスト全域での一致スコアを求めるために,正確な一致場所を求める文字列照合よりも計算量が大きい.この問題の解法として,高速フーリエ変換(FFT)を利用した高速な確率的アルゴリズムがいくつか提案されており,それらは文字から数値への写像の生成方法により,写像の総数と,得られる推定値の精度が異なる.我々の提案するアルゴリズム10)は写像の総数が理論上での最小であり,精度も提案されているアルゴリズム中で最も高い.本稿では,Atallah らのアルゴリズム1)による推定値の精度と実験的な比較を行い,提案アルゴリズムの推定値の精度がより高いことを確認した.String matching is the problem of finding all occurrences of a given pattern string in a given text string. It is applicable to a wide range of fields, such as Web information retrieval and pattern discovery of DNA sequences. The string matching with mismatches allows inexact match with substitution and has high complexity. In order to solve the problem several fast randomized algorithms have been proposed. They use the fast Fourier transformation (FFT). All of these algorithms introduce a certain number of mappings that convert symbols into numbers. The total number of such mappings and variance of estimates depends on the method to generate the mappings. This paper proposes an algorithm that achieves the theoretically minimum number of mappings and yields accurate estimates. Empirical evaluation is conducted to compare the accuracy of estimates of the proposed algorithm with that of Atallah et al. It is confirmed that the accuracy of the proposed algorithm is better.

©2007 Institute of Science Tokyo All rights reserved.