Conjunto de Dados e Scripts para replicação da pesquisa intitulada “Cum‑Separated Values: A Alt‑Right e o Movimento pela Retenção Seminal”
Este repositório contém o corpus, o relatório do IRaMuTeQ e o script de processamento dos dados utilizados no resumo expandido “Cum‑Separated Values: A Alt‑Right e o Movimento pela Retenção Seminal” de Robert de Amorim Pontes, Victor Gabriel de Almeida Pedra e Pedro Ribeiro Simões Mathias.
O estudo propõe a metáfora psicanalítica dos Cum‑Separated Values (Valores Separados por Gozo) para examinar como a tabulação do gozo corporal espelha estratégias neurótico‑obsessivas de controle e ressoa com o discurso de pureza identitária da alt‑right.
A hipótese é de que existe uma homologia estrutural entre a economia psíquica do movimento digital de retenção seminal e o discurso de pureza identitária que alimenta a alt‑right. O artigo não afirma uma filiação política direta dos membros da comunidade, mas aponta uma lógica compartilhada de separação e controle: a mesma vírgula que separa dados em um arquivo *.csv é usada para separar e gerir a energia do corpo, e essa lógica ecoa a retórica de policiamento de fronteiras dos movimentos de extrema‑direita.
A análise do IRaMuTeQ (método Reinert / CHD) particionou o discurso em quatro classes. As duas classes principais revelam a estrutura central:
-
Classe 3 — Ameaça Externa e Capital Vital (84,7% dos segmentos): Dominada por termos como woman (mulher), energy (energia), power (poder), life (vida), sperm (esperma) e addiction (vício). Esta classe retrata uma visão de mundo sitiada, onde o feminino, a pornografia e qualquer forma de vazamento ameaçam a essência vital masculina.
-
Classe 4 — Métricas Biológicas (14,5%): Fortemente caracterizada por testosterone (testosterona), test (teste), level (nível), increase (aumento), lab (laboratório), diet (dieta) e streak (sequência). Reflete uma obsessão por quantificar, monitorar e otimizar o corpo – uma verdadeira “planilha de si” que tenta tornar o gozo administrável.
A alta taxa de classificação (94,9% dos segmentos retidos) indica um léxico altamente coeso e repetitivo, consistente com uma comunidade estruturada em torno de um discurso dogmático e autorreferente. O grafo de similitude confirma que termos relacionados ao tempo (day, streak, time) formam a espinha dorsal de estabilidade, enquanto woman e addiction aparecem como agentes de instabilidade sistêmica.
Esses achados fornecem evidência lexical para a metáfora dos Cum‑Separated Values: o corpus se organiza em torno de delimitar o que está dentro (energia acumulada, métricas, disciplina) e o que está fora (mulheres, pornografia, perda). A homologia com o discurso da alt‑right é traçada teoricamente — com apoio das referências citadas no artigo – e não por sobreposição direta de usuários ou análise cruzada de comunidades, o que está além do escopo de um resumo expandido.
| Caminho | Descrição |
|---|---|
main.py |
Script Python para limpar e compilar as exportações das threads do Reddit. |
jsons/ |
Exportações JSON brutas dos 10 tópicos mais engajados do r/Semenretention. |
corpus_iramuteq.txt |
Corpus textual final formatado para o IRaMuTeQ. |
RAPPORT.txt |
Relatório da análise léxica do IRaMuTeQ (método Reinert / CHD). |
README.md |
Este arquivo (versão em português). |
README.pt.md |
Versão em inglês deste readme. |
-
Seleção: Foram identificados os 10 tópicos com maior engajamento histórico (Top All Time) do r/Semenretention (acesso em maio de 2026). Os tópicos selecionados e utilizados foram:
-
Download: Cada tópico (post original + todos os comentários aninhados) foi exportado como um único arquivo JSON usando a ferramenta gratuita Reddinbox Download Reddit Thread.
- Cole a URL do tópico → clique em Download → salve o arquivo
*.json. - Repita para todos os tópicos.
- Cole a URL do tópico → clique em Download → salve o arquivo
-
Os arquivos JSON resultantes estão na pasta
jsons/deste repositório.
O script requer Python 3.12 e utiliza apenas a biblioteca padrão (json, re, os).
Recomendamos o gerenciamento do ambiente com o uv.
# Instale o uv, se necessário: https://docs.astral.sh/uv/
uv python install 3.12 # garanta o Python 3.12 disponívelEm seguida, execute o script:
uv run python main.pyO script lê todos os arquivos *.json da pasta jsons/ e gera corpus_iramuteq.txt.
Durante a execução, ele informa o número de arquivos processados e de segmentos de texto.
O corpus foi analisado com o IRaMuTeQ (v0.8 alpha 7) utilizando os seguintes parâmetros:
- Tamanho do segmento (ST): ~20 palavras.
- Lematização: dicionário nativo em inglês.
- Tamanho mínimo de classe na CHD: 13 segmentos de texto.
- Visualizações: dendrograma e grafo de similitude (omitidos do artigo por limite de páginas e limitação quanto ao uso de imagens e/ou tabelas, mas disponíveis na saída interativa do software).
O relatório estatístico completo está em RAPPORT.txt. Ele inclui:
- Valores de qui‑quadrado (χ²) para cada termo por classe.
- Tamanhos e proporções das classes.
- Listas completas de termos com contribuições.
O resumo expandido discute apenas as duas classes dominantes (3 e 4) porque as outras duas (1 e 2) continham cerca de 0,7% dos segmentos e eram residuais (vocabulário nutricional, recomendações de livros).
Ao utilizar este conjunto de dados ou código, cite‑o como:
Pontes, Robert de Amorim; Pedra, Victor Gabriel de Almeida. Conjunto de Dados e Scripts para replicação da pesquisa intitulada “Cum‑Separated Values: A alt‑right e o movimento pela retenção seminal” [Conjunto de dados e código]. Zenodo. DOI: 10.5281/zenodo.19980653. Disponível em: https://doi.org/10.5281/zenodo.19980653.
Este trabalho está licenciado sob a Licença Creative Commons - Atribuição - Não Comercial - Compartilhamento pela mesma Licença 4.0 Internacional. Para ver uma cópia desta licença, visite http://creativecommons.org/licenses/by-nc-sa/4.0/.
Dúvidas? Abra uma issue neste repositório ou entre em contato com os autores.