"Smart" сравнение строк

Димас · Сообщение **Димас** » 22 мар 2006, 09:50

Есть задача - сравнить две строки и решить, это тоже самое или нет, невзирая на опечатки.

Например TORONTO=TPRONTO
Не думаю SOUNDEX поймет что это тоже самое.

Есть идеи?

Zy · Сообщение Zy » 22 мар 2006, 10:14

есть - расковырять вордовский спелл-чекер.

Gatchinskiy · Сообщение **Gatchinskiy** » 22 мар 2006, 10:24

Zy писал(а):есть - расковырять вордовский спелл-чекер.

... или гугловский 'Did you mean?' ...

Димас · Сообщение **Димас** » 22 мар 2006, 10:53

Zy писал(а):есть - расковырять вордовский спелл-чекер.

Как это "расковырять" ? Disassembler ? I am going to die.

ir · Сообщение ir » 22 мар 2006, 10:58

[trn]esli slov mnogo, to sdelat' avtomatom sobstvennyi slovar' (ego mozhno sdelat' voobshe iz lyubogo reprezentativnogo teksta). Potom prosto smotret' na sovpadenie i esli ne sovpadaet - iskat' blizhaishee slovo cherez vychslenie procenta sovpadeniya. [/trn]

Vovchik · Сообщение **Vovchik** » 22 мар 2006, 11:16

Димас писал(а):Есть задача - сравнить две строки и решить, это тоже самое или нет, невзирая на опечатки.

Например TORONTO=TPRONTO
Не думаю SOUNDEX поймет что это тоже самое.

Есть идеи?

Купить лексический анализатор - типа софтина такая.

Проф. Преображенский

Димас писал(а):Есть задача - сравнить две строки и решить, это тоже самое или нет, невзирая на опечатки.

Например TORONTO=TPRONTO
Не думаю SOUNDEX поймет что это тоже самое.

Есть идеи?

Элементарно оценить степень совпадения. В данном случае - 6/7

Димас · Сообщение **Димас** » 22 мар 2006, 11:25

ir писал(а):[trn]esli slov mnogo, to sdelat' avtomatom sobstvennyi slovar' (ego mozhno sdelat' voobshe iz lyubogo reprezentativnogo teksta). Potom prosto smotret' na sovpadenie i esli ne sovpadaet - iskat' blizhaishee slovo cherez vychslenie procenta sovpadeniya. [/trn]

"через вычсление процента совпадения" it exactly what I need. But it is not a very simple function. For example, a result for Toronot and Toronwz should be different. In 2nd case we have 2 mistakes, in first - 1 shift. So the function should return higher score in the first case.

ir · Сообщение ir » 22 мар 2006, 11:45

Димас писал(а):
ir писал(а):[trn]esli slov mnogo, to sdelat' avtomatom sobstvennyi slovar' (ego mozhno sdelat' voobshe iz lyubogo reprezentativnogo teksta). Potom prosto smotret' na sovpadenie i esli ne sovpadaet - iskat' blizhaishee slovo cherez vychslenie procenta sovpadeniya. [/trn]
"через вычсление процента совпадения" it exactly what I need. But it is not a very simple function. For example, a result for Toronot and Toronwz should be different. In 2nd case we have 2 mistakes, in first - 1 shift. So the function should return higher score in the first case.

[trn]ya tak ponyala, chto v dannom sluchae pofig chto oshibki raznye. Sravnivaem-to s etalonom, poetomu obychno stavitsya granica (naprimer 85%), vyshe kotoroi schitaetsya chto mozhet byt' opechatka, nizhe - drugoe slovo. Problema v tom, chto bazy obychno ne shibko horosho s takimi shtukami rabotayut - u menya fail v ~96 mln. zapisei rabotal bol'she sutok - no tam algoritm poslozhnee byl (eto bylo na MS Servere) [/trn]

aissp · Сообщение **aissp** » 22 мар 2006, 13:06

Я бы порылся в инете на тему ispell. Помницца в Ремблере именно испелл прикручивали для того чтобы определить правильное слово и похожие слова для поиска. Если очень очень очень надо - могу поискать или спросить

Димас · Сообщение **Димас** » 23 мар 2006, 06:37

ir писал(а):
Димас писал(а):
ir писал(а):[trn]esli slov mnogo, to sdelat' avtomatom sobstvennyi slovar' (ego mozhno sdelat' voobshe iz lyubogo reprezentativnogo teksta). Potom prosto smotret' na sovpadenie i esli ne sovpadaet - iskat' blizhaishee slovo cherez vychslenie procenta sovpadeniya. [/trn]
"через вычсление процента совпадения" it exactly what I need. But it is not a very simple function. For example, a result for Toronot and Toronwz should be different. In 2nd case we have 2 mistakes, in first - 1 shift. So the function should return higher score in the first case.
[trn]ya tak ponyala, chto v dannom sluchae pofig chto oshibki raznye. Sravnivaem-to s etalonom, poetomu obychno stavitsya granica (naprimer 85%), vyshe kotoroi schitaetsya chto mozhet byt' opechatka, nizhe - drugoe slovo. Problema v tom, chto bazy obychno ne shibko horosho s takimi shtukami rabotayut - u menya fail v ~96 mln. zapisei rabotal bol'she sutok - no tam algoritm poslozhnee byl (eto bylo na MS Servere) [/trn]

[trn]immenno tak. ya ne znaju prichin vseh oshibok. Vopros immenno v opredelenii procentov - kak opredelit stroki podobni na 85% ili na 25 %?Tupoe pereschitivanie kol-va bukv konechno ne interesno[/trn]

Димас · Сообщение **Димас** » 23 мар 2006, 06:43

aissp писал(а):Я бы порылся в инете на тему ispell. Помницца в Ремблере именно испелл прикручивали для того чтобы определить правильное слово и похожие слова для поиска. Если очень очень очень надо - могу поискать или спросить

Thanks’a lot!
[trn]No zadacha sovsem drugaja. Mne ne nado opredeljat pravilnoe slovo, mne nado sravnit imejushujusja paru.[/trn]
[trn]Est takaja vot shtuka[/trn]- Levenshtein Distance, [trn]s nei poprobuju poigrat. [/trn]

aissp · Сообщение **aissp** » 23 мар 2006, 10:19

Тогда просто ссылочку интересную:)

http://algolist.manual.ru/search/

ДА и сам сайт не так хорош как мануалы к мат лабу но весьма не плох=)

Lepsik · Сообщение **Lepsik** » 23 мар 2006, 11:59

http://www.sql.ru/forum/actualthread.as ... 0%ee%ea%e8

Димас · Сообщение **Димас** » 23 мар 2006, 12:26

To Lepsik, aissp - thank's, thank's, thank's, thank's, thank's !!!

Каморка

"Smart" сравнение строк

"Smart" сравнение строк

Re: "Smart" сравнение строк

Re: "Smart" сравнение строк

Xm

Re: Xm

Ну лана