Сарказм часто используется в социальных сетях. Из-за своей природы сарказм очень сложно обнаружить даже человеку, не говоря уже об алгоритмах и машинах. Трудность возникает из-за того, что нужно полностью осознавать контекст речи, культуры или вовлеченного сообщества, понимающего сарказм. Эта сложность и отсутствие соответствующих исследований в литературе побудили авторов изучить влияние сарказма на анализ настроений в комментариях и, в частности, на данные Twitter.

Для этого авторы создали специальные правила, позволяющие с высокой точностью выявлять сарказм. Эти правила основаны на наличии
хэштегов в твите. Существующая проблема с хэштегами заключается в том, что при токенизации они рассматриваются как одно слово. Чтобы преодолеть это, они использовали токенизатор GATE, который разбивает хэштеги на комбинацию существительных и прилагательных. После токенизации хэштегов анализ тональности твитов выполняется только по хэштегам.

Если есть слово «сарказм», то полярность комментария меняется. если есть более одного хэштега, то настроение в этих хэштегах считается общим настроением. если обнаружено несколько индикаторов сарказма, весь твит рассматривается как саркастический комментарий. Более того, если за положительным хэштегом следует индикатор сарказма, полярность твита меняется с положительной на отрицательную.

Использование таких правил в сочетании с токенизатором хэштегов позволило авторам достичь 98-процентной точности обнаружения сарказма.

Для дальнейшего чтения, пожалуйста, обратитесь к; Мейнард Д., Гринвуд М., 2014 г., «Кого волнуют саркастические твиты? Изучение влияния сарказма на анализ настроений». стр. 4238–4243 в Proc. 9-й Международной конференции по языковым ресурсам и оценке (LREC’14) (26–31). Европейская ассоциация языковых ресурсов (ELRA), Рейкьявик, Исландия.