В настоящее время у нас есть веб-сайт, который хранит текст, добавленный пользователем, в виде среднего текста.
В настоящее время наша система проверяет текст на совпадение и возвращает истину (да, совпадение), когда оно составляет 1:1 (100% то же самое — один пробел, и он будет принят как новый текст).
Мы пытаемся сделать систему умнее. Должна быть возможность сказать нам в процентах, насколько содержимое одинаково (в процентах). К сожалению, у нас нет хорошего прогресса. Почти все алгоритмы, которые мы могли придумать, работали неправильно или были ОЧЕНЬ медленными и тяжелыми.
Мы надеемся, что кто-то сможет дать нам толчок.
Примечание. Мы пытались выполнить сравнение байтов, но ничего не получилось.
РЕДАКТИРОВАТЬ: мы не ограничиваемся только MySQL. Мы искали сервер apache solr. Если у него есть преимущества, пожалуйста, помогите в этом направлении или сделайте что-нибудь лучше, если есть.