Я новичок в Ruby, Regex и Stackoverflow. xD Вот моя проблема:
Я хочу использовать регулярное выражение для извлечения фраз, состоящих из последовательных слов со стандартными символами ASCII, отдельно от других во вьетнамских текстах.
Другими словами, фразы только с символами \w, например:
Mình rất thích con Sharp này (mặc dù chưa xài bao h nhưng chỉnghe cac pac nói minh đã thấy phê lòi mắt rồi). Cac bạn cho minh hỏi 1 câu (cac bạn đừng chê mình ngu nhé tội nghiệp minh): cái máy này đem sang Anh dùng mạng Vodafone la dùng v` tư ah? Nếu dùng được ben Anh mà không phai chọc ngoay j thì minh mua một cái
Меня не волнует его значение, я хочу получить массив хэшей, содержащий результаты с двумя парами: value => значение извлеченных фраз, start_position => позиция первого символа.
Согласно примеру о, должно быть так: [{:value=>"con Sharp", :starting_position => 16}, {:value=>"bao h", :starting_position => blah blah}... ]
Это означает, что все слова, содержащие символы \W, такие как «mình», «rất», «thích» и т. д., будут отклонены.
Пример выше с этим регулярным выражением на rubular.com для Ruby 1.9.2:
\b[\w|\s]+\b
Я почти получил нужные фразы (кроме пробелов), но, похоже, они не работают на моем Ruby, который также 1.9.2p290, с использованием 64-разрядной версии Win 7.
Любые идеи будут высоко оценены. Спасибо заранее.