Investigating Sentences Features for Subjectivity and Polarity Classification in Brazilian Portuguese
Description
O dataset consiste de uma coleta que que os autores fizeram de 350 comentários de usuários sobre restaurantes no Brasil no site TripAdvisor[1], no período de janeiro a março de 2020. Os comentários foram divididos em 1.049 sentenças e cada sentença foi manualmente anotada pelos autores. Inicialmente, as sentenças foram classificadas em objetivas e subjetivas. Foi possível observar que existe um equilíbrio no número de sentenças em cada uma dessas classes. Em seguida, as sentenças subjetivas foram manualmente classificadas em positivas e negativas. As sentenças que eram subjetivas, mas com polaridade neutra, foram desconsideradas. Na prática, foi possível observar que existem poucas sentenças que são subjetivas e neutras. Também foi possível observar que há uma quantidade bastante superior de sentenças positivas do que sentenças negativas no dataset. [1] https://www.tripadvisor.com.br