Corpus · acervo head
Catalog do backup do head Appito (D:\Backup Appito 27.04.26) processado pelo pipeline em 4 camadas (scan → extract → auto-tag → enqueue). 11 arenas auto-detectadas via regex em paths. Numbers reais do scan executado em 16 de mai. de 2026.
Probe v1.2 — mock baseado em scan real: estes números vêm do SQLite local aee_corpus_smoke.db populado pelo pipeline python -m src.corpus scan em 2026-05-16. Quando Postgres docker subir e Sessão 04.X3 expor endpoints /api/corpus/*, este frontend troca a fonte sem mudança de código.
Arquivos catalogados
10.587
10.568 dentro de ZIPs · 50 nestedTamanho descompactado
73.59 GB
73.6 GB · 19 ZIPs Google Drive TakeoutAuto-tags
15.988
10.587 files cobertos · média 1,5 tag/fileFila curadoria
10.330
257 auto-pass · manual: Sessão 04.X2Distribuição por arena
8 auto-detectadas via regex em path| Arena | Arquivos | % do acervo | Barra |
|---|---|---|---|
| barueri | 2.172 | 20.5% | |
| taquaral-campinas | 1.943 | 18.4% | |
| play-joao-dias | 554 | 5.2% | |
| limao | 501 | 4.7% | |
| vila-leopoldina | 107 | 1.0% | |
| sbc-golden-square | 107 | 1.0% | |
| alphaville | 3 | < 0,1% | |
| (variantes -engenharia / bug v1) | 17 | 0.2% |
Bug detectado: regex captura "ENGENHARIA" como nome de arena (variantes -engenharia). Sessão 04.X2 corrige no auto-tagger v2.
Distribuição por categoria
14 categorias canônicas| Categoria | Arquivos | % do acervo | Barra |
|---|---|---|---|
| obras-projetos | 5.066 | 47.8% | |
| fotos-obra | 1.803 | 17.0% | |
| obras-execucao | 1.424 | 13.4% | |
| financial | 746 | 7.0% | |
| outros | 633 | 6.0% | |
| propostas-locacao | 334 | 3.2% | |
| juridico-contratos | 236 | 2.2% | |
| comunicacao-visual | 142 | 1.3% | |
| aprovacoes | 103 | 1.0% | |
| operacional | 60 | 0.6% | |
| documentacao-tec | 22 | 0.2% | |
| fornecedores | 12 | 0.1% | |
| rh | 5 | < 0,1% | |
| brand | 1 | < 0,1% |
Distribuição por extensão (top 13)
73.59 GB · 13 tipos| Extensão | Arquivos | Tamanho | Categoria principal |
|---|---|---|---|
| 4.547 | 5.45 GB | Documentos · propostas · projetos | |
| .jpg | 2.419 | 9.64 GB | Fotos de obra |
| .xlsx | 824 | 244 MB | Planilhas financeiras |
| .jpeg | 752 | 174 MB | Fotos de obra |
| .dwg | 720 | 4.31 GB | Plantas AutoCAD (nativas) |
| .docx | 642 | 455 MB | Documentos editáveis |
| .png | 184 | 107 MB | Imagens · screenshots |
| .mp4 | 144 | 6.49 GB | Vídeos de obra |
| .ifc | 53 | 2.55 GB | BIM standard (Industry Foundation Classes) |
| .zip | 47 | 38.32 GB | Archives nested |
| .rvt | 43 | 5.18 GB | Revit BIM |
| .heic | 27 | 41 MB | Fotos iPhone |
| .pptx | 24 | 1.90 GB | Apresentações |
Próximos passos
- Sessão 04.X2: curadoria humana dos 10.330 prioritários via skill
/g3-corpus-curate(materializa via /g3-desafio na 1ª curadoria). Auto-tagger v2 fix bug "ENGENHARIA"-as-arena + parse deEXPANSÃO/Leads Novas Arenas/<Endereço>como pipeline-captação. - Sessão 04.X3: backend endpoints
/api/corpus/*+ integração com /pontos (mostra docs relacionados ao ponto) + /benchmarks (idem). SwitchNEXT_PUBLIC_AEE_DATA_SOURCE=backend. - Eventualmente: pgvector (Opção B) se busca semântica solta virar demanda. Hoje SQL puro entrega.