Pesquisadores desenvolvem modelo de IA que detecta transtornos mentais com base em postagens do Reddit
Pesquisadores do Dartmouth College desenvolveram um modelo de inteligência artificial (IA) que pode ser usado para prever transtornos mentais usando dados de conversas no Reddit, de acordo com um artigo da universidade.
Os pesquisadores Xiaobo Guo, Yaojia Sun e Soroush Vosoughi apresentaram um artigo intitulado “Modelagem baseada em emoções de transtornos mentais nas mídias sociais” na 20ª Conferência Internacional sobre Inteligência na Web e Tecnologia de Agentes Inteligentes.
De acordo com o artigo, a maioria dos modelos de IA atualmente existentes funciona com base na análise psicolinguística do conteúdo do texto gerado pelo usuário. Embora os modelos de representação baseados em conteúdo tenham altos níveis de desempenho, eles são afetados por vieses de domínio e tópico.
Vosoughi explicou a um escritor de ciência de Dartmouth falando sobre a possibilidade de que, quando um modelo aprende a correlacionar a palavra “COVID” com “tristeza” ou “ansiedade”, ele assume automaticamente que um cientista que realiza pesquisas sobre COVID opera e publica, sofre de depressão e ansiedade.
O novo modelo suprime esses preconceitos específicos de tópicos, confiando inteiramente em estados emocionais enquanto não aprende nada sobre o tópico descrito nas postagens.
Para treinar o modelo, os pesquisadores coletaram dois conjuntos de dados entre 2011 e 2019: o primeiro foi um conjunto de dados de usuários com um dos três transtornos emocionais de interesse (depressão maior, ansiedade e transtorno bipolar) e o segundo foi um conjunto de dados de usuários sem transtornos de saúde mental conhecidos Transtornos que atuaram como grupo controle.
O primeiro conjunto de dados foi coletado com base em transtornos mentais autorrelatados, o que significa que os pesquisadores procuraram usuários que fizeram postagens ou comentários que diziam algo semelhante a “Fui diagnosticado com transtorno bipolar/depressão/ansiedade”. Apenas as postagens criadas antes do autorrelato foram consideradas para a pesquisa, pois trabalhos anteriores mostraram que a percepção dos usuários de que têm um transtorno altera seu comportamento online e cria um viés.
Os pesquisadores então garantiram que os dados das quatro classes (uma para usuários com cada transtorno de interesse e um grupo de controle) tivessem distribuições temporais semelhantes: o que significa que os dados nas quatro classes tinham uma distribuição de contribuições baseada no tempo semelhante. Os registros também foram balanceados com 1.997 usuários para cada uma das classes.
Depois disso, os pesquisadores dividiram os dados em treinamento (70%), validação (15%) e teste (15%). Depois de treinar o modelo nos dados e testá-lo, os pesquisadores descobriram que o modelo de representação baseado em emoção que eles usaram era mais preciso na previsão de interrupções do que o método baseado em TF-IDF (Term Frequency – Inverse Document Frequency) com reconhecimento de conteúdo. O TF-IDF é usado para calcular a importância de uma palavra-chave com base em sua frequência e na importância da postagem.