Вопросы по теме 'tokenize'

Обратный токенизатор смещения
У меня есть строка для токенизации. Его форма HHmmssff , где H , m , s , f — цифры. Предполагается, что он должен быть разделен на четыре двузначных числа, но мне нужно, чтобы он также принимал сокращенные формы, например sff , поэтому он...
311 просмотров
schedule 17.09.2022

повысить токенизатор регулярных выражений и новую строку
В настоящее время я пытаюсь разбить текстовый файл на вектор строк всякий раз, когда встречается новая строка. Раньше я использовал токенизатор boost, чтобы сделать это с другими символами-разделителями, но когда я использую новую строку '\n', он...
4591 просмотров
schedule 14.09.2022

Базовый NLP в CoffeeScript или токенизация JavaScript Punkt, простые обученные байесовские модели, с чего начать?
Мой текущий проект веб-приложения требует небольшого НЛП: Токенизация текста в предложения с помощью Punkt и подобных; Разбивка более длинных предложений по придаточным предложениям (часто с запятыми, за исключением случаев, когда их нет)...
1929 просмотров

Строки токенов XQuery с одним и несколькими значениями
У меня есть следующий файл XML: <layout> <layout-structure> <layout-root id="layout-root"> <layout-chunk id="header-text"> <layout-leaf xref="lay-1.01"/> <layout-leaf xref="lay-1.02"/>...
1460 просмотров
schedule 25.01.2024

Стэнфордский токенизатор NLP
Как я могу токенизировать строку в классе Java, используя синтаксический анализатор Stanford? Я могу найти только примеры того, как documentProcessor и PTBTokenizer берут текст из внешнего файла. DocumentPreprocessor dp = new...
5411 просмотров
schedule 12.04.2024

Разобрать строку в int
Я новичок в кодировании, и я надеялся, что кто-нибудь может мне помочь? Я пытаюсь прочитать строку целых чисел с разделителями-пробелами и разобрать их (в конечном итоге в связанный список) в вектор. поэтому, когда у меня есть вектор целых чисел,...
188 просмотров
schedule 28.06.2022

Как разобрать файл журнала в powershell и записать желаемый результат
У меня есть скрипт, который использует robocopy для передачи файлов и записи журналов в файл «Logfile.txt», после чего я анализирую файл «LogFile.txt» дальше, просматриваю необходимые данные и записываю их в другой текстовый файл с именем...
11603 просмотров

Регулярное выражение для соответствия всем не буквенно-цифровым символам, кроме апострофов в сокращениях.
Я пытаюсь маркировать строку английского текста, чтобы получить последовательность слов без знаков препинания, но в то же время я хочу оставить сокращения (например, не делайте и не будет ) и притяжательные существительные (например, Steve's и...
597 просмотров

HiberateSearch — несколько анализаторов для одного поля
Как использовать несколько анализаторов для одного поля в моем классе Java? Например, в настоящее время мой класс выглядит так: public class User { @AnalyzerDef(name = "my_analyzer", tokenizer = @TokenizerDef(factory =...
270 просмотров
schedule 24.07.2022

логическая ошибка разделения строки
Здравствуйте, эта функция должна принимать строку и возвращать список строк, разделенных на Char c. Я должен определить некоторые вспомогательные функции, но в настоящее время пользователь должен инициализировать аргументы, которые должны быть скрыты...
63 просмотров
schedule 17.07.2022

Как вставить символ каждые N символов в строку на С++
Как я могу вставить символьный актер в строку ровно после 1 символа? Мне нужно вставить '|' в строку после каждого другого символа. Другими словами (C++): "Tokens all around!" Превращается в: "T|o|k|e|n|s| |a|l|l| |a|r|o|u|n|d|!" (нет,...
8582 просмотров
schedule 17.02.2024

Не могу правильно пометить предложение на хинди
Недавно я начал проект по обработке данных на хинди. Я попытался выполнить определенный код ниже, но не получил ожидаемого результата. e = u"पूर्ण प्रतिबंध हटाओ : इराक" tokens=nltk.word_tokenize(e) from nltk import pos_tag print...
1480 просмотров
schedule 29.10.2022

Ввод StringStream со строкой с разделителями-запятыми - знать столбцы априори
У меня есть csv, который я хотел бы токенизировать построчно с помощью StringStream. Суть в том, что я заранее знаю, как будут выглядеть столбцы. Например, скажем, я знаю, что файл выглядит следующим образом StrHeader,IntHeader abc,123 xyz,456...
769 просмотров
schedule 13.03.2024

Нужна помощь в выполнении скрипта токена Perl
Я любитель Perl. Недавно мне дали Perl-скрипт, который берет текстовый файл и удаляет все форматирование, кроме отдельных слов, за которыми следует пробел. Проблема в том, что в сценарии неясно, как вводить местоположение файла. Я настроил...
56 просмотров
schedule 06.05.2024

С++ чтение текстового файла с условными операторами
Я пытаюсь прочитать строки в текстовом файле, разметить строку, а затем продолжить и сделать то же самое для следующей строки в блоке переключения и разрыва, но после того, как моя программа достигает первого разрыва, она выходит из цикла и игнорирует...
2006 просмотров
schedule 10.03.2024

Как использовать CountVectorizerand() sklearn для получения ngrams, которые включают любые знаки препинания в виде отдельных токенов?
Я использую sklearn.feature_extraction.text.CountVectorizer для вычисления n-грамм. . Пример: import sklearn.feature_extraction.text # FYI http://scikit-learn.org/stable/install.html ngram_size = 4 string = ["I really like python, it's pretty...
7241 просмотров
schedule 08.03.2024

Токенизировать с шеф-поваром
Я хочу токенизировать строки в файле, который позже будет обрабатываться Chef. Например, два разных файла станут одним, и нам нужен токен для обработки различий: set ns hostName HOST05 set ns hostName HOST06 Различия 05 и 06. Они будут в...
44 просмотров
schedule 10.09.2022

Как вы извлекаете только дату из даты и времени Python?
У меня есть датафрейм на питоне. Один из его столбцов помечен time , что является отметкой времени. Используя следующий код, я преобразовал метку времени в datetime : milestone['datetime'] = milestone.apply(lambda x:...
87129 просмотров
schedule 07.03.2024

Python re.split () против nltk word_tokenize и sent_tokenize
Я задавал этот вопрос . Мне просто интересно, будет ли NLTK быстрее, чем регулярное выражение при токенизации слова / предложения.
16003 просмотров
schedule 24.12.2023

Передать токены в CountVectorizer
У меня проблема с классификацией текста, где у меня есть два типа функций: функции, которые являются n-граммами (извлекаются CountVectorizer) другие текстовые особенности (например, наличие слова из данного лексикона). Эти функции отличаются...
10754 просмотров
schedule 04.11.2022