Публикации по теме 'similarity'
Наиболее распространенные метрики сходства в Data Science
Математика и статистика | Zero Bulls * it # 1 Практическое, ясное и интуитивно понятное руководство о мерах сходства, их математических основах и применении.
Введение
Это самая первая статья в моей новой серии статей « Математика и статистика | Zero Bulls * it », или коротко« Математика и статистика | zbs », где я буду объяснять (пытаться объяснить) различные математические и статистические концепции как можно проще.
Еще одна цель, которую я планирую достичь с помощью..
Вопросы по теме 'similarity'
Ускорение levenshtein/like_text в PHP
В настоящее время я использую similar_text для сравнения строки со списком ~ 50 000, что работает, хотя из-за количества сравнений это очень медленно. Сравнение ~500 уникальных строк занимает около 11 минут.
Прежде чем запускать это, я проверяю...
4963 просмотров
schedule
03.10.2022
как вычислить сходство между двумя строками в MYSQL
если у меня есть две строки в mysql:
@a="Welcome to Stack Overflow"
@b=" Hello to stack overflow";
есть ли способ получить процент сходства между этими двумя строками с помощью MYSQL? здесь, например, 3 слова похожи, и, следовательно,...
36599 просмотров
schedule
14.10.2023
Подобие N-Gram, tf-idf и косинуса в Perl
Я пытаюсь сделать некоторый шаблон «добычи» в части нескольких слов в каждой строке. Я провел анализ N-грамм, используя модуль Text::Ngrams в Perl, который дает мне частоту каждого слова. Однако я совершенно запутался в поиске закономерностей в этом...
1797 просмотров
schedule
08.10.2023
R: Поиск строки SIMILAR и возврат с условным символом
Мой df имеет следующие записи:
A
xxx
xxx
xxx1
xx1x
yyyy
gggg
Я хочу добавить символы в столбец B моего df на основе подобия столбца A на основе следующих условий.
Я установил порог как = или > 75% похоже.
Столбец A уже отсортирован....
2419 просмотров
schedule
24.12.2023
как реализовать сходство Jaccard в С#
У меня есть эта проблема при вычислении сходства Jaccard для наборов (бит-векторов):
v1 = 10111
v2 = 10011
Размер пересечения = 3; (Как мы могли это узнать?)
Размер союза = 4, (Как мы могли это узнать?)
Сходство Жаккара =...
2002 просмотров
schedule
15.03.2024
Подобие списков в Python — сравнение клиентов по их характеристикам
У меня есть список клиентов и функций в следующем формате:
UserID, Feature1, Feature2, Feature3, Feature4
Итак, у меня есть список, называемый «Клиенты», и он выглядит так:
[
['975676924', '1345207523', '-1953633084', '-2041119774',...
1302 просмотров
schedule
03.10.2022
Как определить, похожи ли два временных ряда?
этот вопрос беспокоит меня два дня. Теперь я сравниваю схожесть данных двух временных рядов. Подход, который я знаю до сих пор, заключается в вычислении расстояния между ними. Здесь я выбираю динамическое искажение времени (DTW), чтобы вычислить...
5196 просмотров
schedule
23.09.2022
Из вывода оператора Cross Distances Rapid Miner, как найти номер/номера строки «Набор запросов» из «Набора ссылок»
Я новичок в обучающей студии Rapid Miner и ее операторах, во время работы с Rapid Miner я застрял со странным сомнением, и проблема описана как проблема -
У меня есть набор данных из 100 строк, и я ввожу этот набор в оператор «Диапазон примеров...
159 просмотров
schedule
01.03.2024
другой подход к схожести документов (LDA, LSA, косинус)
У меня есть комплект коротких документов (по 1-2 абзаца). Я использовал три разных подхода для определения подобия документов: - простое косинусное сходство на матрице tfidf - применение LDA ко всему корпусу, а затем использование модели LDA для...
1099 просмотров
schedule
09.10.2023
Сопоставление строк Python точно соответствует функции подобия Postgresql
Я использовал функцию сходства модуля pg_trgm в PostgreSQL, и теперь я ищу функцию сходства слов, аналогичную Сходству в Python. Я нашел много методов в python, например. difflib, nltk, но ни один из этих методов не дает результатов, подобных...
1560 просмотров
schedule
25.08.2022
Lucene рассчитать среднюю частоту терминов
В настоящее время я реализую модификацию стандарта Lucene Сходство BM25 , основанное на следующем статье . Реализация фактической формулы проста, но я борюсь с вычислением необходимой статистики.
Мне нужны следующие две статистики:
Средняя...
607 просмотров
schedule
15.02.2024