Каморка

Есть задача - сравнить две строки и решить, это тоже самое или нет, невзирая на опечатки.

Например TORONTO=TPRONTO
Не думаю SOUNDEX поймет что это тоже самое.

Есть идеи?

есть - расковырять вордовский спелл-чекер.

Zy писал(а):есть - расковырять вордовский спелл-чекер.

... или гугловский 'Did you mean?' ...

Zy писал(а):есть - расковырять вордовский спелл-чекер.

Как это "расковырять" ? Disassembler ? I am going to die.

[trn]esli slov mnogo, to sdelat' avtomatom sobstvennyi slovar' (ego mozhno sdelat' voobshe iz lyubogo reprezentativnogo teksta). Potom prosto smotret' na sovpadenie i esli ne sovpadaet - iskat' blizhaishee slovo cherez vychslenie procenta sovpadeniya. [/trn]

Димас писал(а):Есть задача - сравнить две строки и решить, это тоже самое или нет, невзирая на опечатки.

Например TORONTO=TPRONTO
Не думаю SOUNDEX поймет что это тоже самое.

Есть идеи?

Купить лексический анализатор - типа софтина такая.

Димас писал(а):Есть задача - сравнить две строки и решить, это тоже самое или нет, невзирая на опечатки.

Например TORONTO=TPRONTO
Не думаю SOUNDEX поймет что это тоже самое.

Есть идеи?

Элементарно оценить степень совпадения. В данном случае - 6/7

ir писал(а):[trn]esli slov mnogo, to sdelat' avtomatom sobstvennyi slovar' (ego mozhno sdelat' voobshe iz lyubogo reprezentativnogo teksta). Potom prosto smotret' na sovpadenie i esli ne sovpadaet - iskat' blizhaishee slovo cherez vychslenie procenta sovpadeniya. [/trn]

"через вычсление процента совпадения" it exactly what I need. But it is not a very simple function. For example, a result for Toronot and Toronwz should be different. In 2nd case we have 2 mistakes, in first - 1 shift. So the function should return higher score in the first case.

Димас писал(а):
ir писал(а):[trn]esli slov mnogo, to sdelat' avtomatom sobstvennyi slovar' (ego mozhno sdelat' voobshe iz lyubogo reprezentativnogo teksta). Potom prosto smotret' na sovpadenie i esli ne sovpadaet - iskat' blizhaishee slovo cherez vychslenie procenta sovpadeniya. [/trn]
"через вычсление процента совпадения" it exactly what I need. But it is not a very simple function. For example, a result for Toronot and Toronwz should be different. In 2nd case we have 2 mistakes, in first - 1 shift. So the function should return higher score in the first case.

[trn]ya tak ponyala, chto v dannom sluchae pofig chto oshibki raznye. Sravnivaem-to s etalonom, poetomu obychno stavitsya granica (naprimer 85%), vyshe kotoroi schitaetsya chto mozhet byt' opechatka, nizhe - drugoe slovo. Problema v tom, chto bazy obychno ne shibko horosho s takimi shtukami rabotayut - u menya fail v ~96 mln. zapisei rabotal bol'she sutok - no tam algoritm poslozhnee byl (eto bylo na MS Servere) [/trn]

Я бы порылся в инете на тему ispell. Помницца в Ремблере именно испелл прикручивали для того чтобы определить правильное слово и похожие слова для поиска. Если очень очень очень надо - могу поискать или спросить

ir писал(а):
Димас писал(а):
ir писал(а):[trn]esli slov mnogo, to sdelat' avtomatom sobstvennyi slovar' (ego mozhno sdelat' voobshe iz lyubogo reprezentativnogo teksta). Potom prosto smotret' na sovpadenie i esli ne sovpadaet - iskat' blizhaishee slovo cherez vychslenie procenta sovpadeniya. [/trn]
"через вычсление процента совпадения" it exactly what I need. But it is not a very simple function. For example, a result for Toronot and Toronwz should be different. In 2nd case we have 2 mistakes, in first - 1 shift. So the function should return higher score in the first case.
[trn]ya tak ponyala, chto v dannom sluchae pofig chto oshibki raznye. Sravnivaem-to s etalonom, poetomu obychno stavitsya granica (naprimer 85%), vyshe kotoroi schitaetsya chto mozhet byt' opechatka, nizhe - drugoe slovo. Problema v tom, chto bazy obychno ne shibko horosho s takimi shtukami rabotayut - u menya fail v ~96 mln. zapisei rabotal bol'she sutok - no tam algoritm poslozhnee byl (eto bylo na MS Servere) [/trn]

[trn]immenno tak. ya ne znaju prichin vseh oshibok. Vopros immenno v opredelenii procentov - kak opredelit stroki podobni na 85% ili na 25 %?Tupoe pereschitivanie kol-va bukv konechno ne interesno[/trn]

aissp писал(а):Я бы порылся в инете на тему ispell. Помницца в Ремблере именно испелл прикручивали для того чтобы определить правильное слово и похожие слова для поиска. Если очень очень очень надо - могу поискать или спросить

Thanks’a lot!
[trn]No zadacha sovsem drugaja. Mne ne nado opredeljat pravilnoe slovo, mne nado sravnit imejushujusja paru.[/trn]
[trn]Est takaja vot shtuka[/trn]- Levenshtein Distance, [trn]s nei poprobuju poigrat. [/trn]

Тогда просто ссылочку интересную:)

http://algolist.manual.ru/search/

ДА и сам сайт не так хорош как мануалы к мат лабу но весьма не плох=)

http://www.sql.ru/forum/actualthread.as ... 0%ee%ea%e8

To Lepsik, aissp - thank's, thank's, thank's, thank's, thank's !!!

Каморка

"Smart" сравнение строк

"Smart" сравнение строк

Re: "Smart" сравнение строк

Re: "Smart" сравнение строк

Xm

Re: Xm

Ну лана