Разделить ByteString на ByteString (вместо Word8 или Char)

Я знаю, что у меня уже есть функция Haskell Data.ByteString.Lazy для разделения CSV на один символ, например:

split :: Word8 -> ByteString -> [ByteString]

Но я хочу разбить на многосимвольную ByteString (например, разбить на String вместо Char):

split :: ByteString -> ByteString -> [ByteString]

У меня есть многосимвольные разделители в CSV-подобном текстовом файле, который мне нужно проанализировать, и отдельные символы сами появляются в некоторых полях, поэтому выбор только одного символа-разделителя и отбрасывание других загрязнит импорт данных.

У меня были некоторые идеи о том, как это сделать, но они кажутся довольно хакерскими (например, взять три слова Word8, проверить, являются ли они комбинацией разделителей, начать новое поле, если они есть, выполнить рекурсию дальше), и я думаю, что я бы все равно изобретать велосипед. Есть ли способ сделать это, не перестраивая функцию с нуля?

Daniel Quinlan 09.09.2009 источник

Ответы (2)

arrow_upward
2
arrow_downward

Документация Bytestrings breakSubstring содержит функцию, которая делает то, что вы просите:

tokenise x y = h : if null t then [] else tokenise x (drop (length x) t)
    where (h,t) = breakSubstring x y

sth 09.09.2009

comment

Хорошая функция, читай мои мысли. Похоже, у нас есть консенсус 3 для breakSubstring, хотя мне все еще нужно toChunks и fromChunk my ByteStrings в Stict ByteStrings и обратно, чтобы использовать это. По какой причине breakSubstring отсутствует в ByteString.Lazy? - Daniel Quinlan; 09.09.2009

arrow_upward
2
arrow_downward

В байтовой строке есть несколько функций для разделения на подпоследовательности:

breakSubstring :: ByteString -> ByteString -> (ByteString,ByteString)

Также есть

пакет bytestring-csv, http://hackage.haskell.org/package/bytestring-csv

разделенный пакет: http://hackage.haskell.org/package/split для строк .

Don Stewart 09.09.2009

comment

Мне пришлось бы преобразовать ленивые ByteStrings в строгие ByteStrings, чтобы использовать breakSubstring, но похоже, что оно того стоит. - Daniel Quinlan; 09.09.2009

comment

Похоже, что breakSubstring нет в библиотеках GHC 6.8... верно? - Jared Updike; 16.10.2009

Разделить ByteString на ByteString (вместо Word8 или Char)

Ответы (2)

Похожие вопросы