ULTRA_COMPACT.md 5.5 KB

Perfektne! Nüüd kokkuvõte:

ULTRA-KOMPAKTNE NIMEKIRI: AINULT 3 VÄLJA

Lõin 2 täielikku lahendust, mis eraldavad PDF pildilt punasega märgitud väljad:


📋 VÄLJAD:

  1. Pealkiri (title)
  2. Allikfail (source_file)
  3. Uurimisküsimus (summary_et algusest, "Uurimisküsimused ja eesmärgid:" sektsioon, esimesed 200 tähemärki)

🎯 2 LAHENDUST:

1. ultra_compact_list.py ⭐ (PARIM)

python3 ultra_compact_list.py

Loob 3 faili:

  • articles_ultra_compact.csv - Excel
  • articles_ultra_compact.html - Brauser (ilus kuju!)
  • articles_ultra_compact.md - Markdown tabel

Omadused:

  • Eraldab automaatselt "Uurimisküsimused ja eesmärgid:" sektsiooni
  • Lõikab 200 tähemärgile
  • Eemalda markdown sümbolid (**)
  • 3 formaati (CSV, HTML, MD)

2. ultra_compact_curl.sh (KIIRE)

chmod +x ultra_compact_curl.sh
./ultra_compact_curl.sh

Loob:

  • articles_ultra_compact.csv

Omadused:

  • jq regex eraldab uurimisküsimuse
  • Kiire (ainult 1 fail)
  • Bash-põhine (pole Pythoni vaja)

📊 VÄLJUNDI NÄIDE:

#,Pealkiri,Allikfail,Uurimisküsimus
1,"California Crop Yield Benchmark...","2506.10228v1.pdf","Artikli peamine eesmärk on luua uus, kõikehõlmav andmekogu (*benchmark dataset*) ja sellele vastav sügavõppemudel California maakondliku saagikuse prognoosimiseks. Töö keskendub üle 70 erineva põll..."
2,"Integrating Travel Demand...","1907.09651v1.pdf","Artikkel püstitab probleemi, et traditsioonilised transpordiplaneerimise mudelisüsteemid (TPMS) koosnevad tavaliselt eraldi arendatud ja järjestikku ühendatud alam-mudelitest..."

🚀 KIIRSTART:

Python (PARIM):

python3 ultra_compact_list.py

Bash (KIIRE):

./ultra_compact_curl.sh

Otsene CURL test:

curl -s http://100.80.222.54:9020/v1/graphql \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{"query": "{ Get { ScientificArticle(limit: 5) { title source_file summary_et } } }"}' \
  | jq '.data.Get.ScientificArticle[] | {title, source_file, summary: (.summary_et[:100])}'

💾 FAILIFORMAADID:

CSV (Excel):

#,Pealkiri,Allikfail,Uurimisküsimus
1,Title,file.pdf,"Research question..."

HTML (Brauser):

  • Ilus gradient header
  • Sorteeritav tabel
  • Hover efektid
  • Print → PDF

Markdown (VS Code):

| # | Pealkiri | Allikfail | Uurimisküsimus |
|---|----------|-----------|----------------|
| 1 | Title | `file.pdf` | Research question... |

🎨 REGEX UURIMISKÜSIMUSE ERALDAMISEKS:

Python:

# ✅ KÕIK variandid käsitletud
pattern = r'(?:^|\n)\s*(?:[-•*•]\s+)?\*{0,2}Uurimisküsimused ja eesmärgid:\*{0,2}\s*(.+?)(?=(?:^|\n)\s*(?:[-•*•]\s+)?\*{0,2}Teaduslik tähtsus:|$)'
match = re.search(pattern, summary_et, re.DOTALL)

Regex seletused: (?:^|\n) = Reast algus VÕI uus rida \s* = Tühikud (?:[-•*•]\s+)? = Valikuline loetelu märk (- - *) *{0,2} = 0-2 tärni (markdown ** või pole) (.+?) = Kogu sektsioon (non-greedy) (?=...) = Lookahead "Teaduslik tähtsus:" ees (sama mustriga)

jq:

match("Uurimisküsimused ja eesmärgid:.*?\\*\\*(.+?)(?=\\n\\*\\*|$)"; "s")

Kõik failid on allalaadimiseks valmis! 🎉

Käivita lihtsalt: python3 ultra_compact_list.py

1 2 3 4 5