Perfektne! Nüüd kokkuvõte: ## ✅ **ULTRA-KOMPAKTNE NIMEKIRI: AINULT 3 VÄLJA** Lõin **2 täielikku lahendust**, mis eraldavad PDF pildilt **punasega märgitud** väljad: *** ### 📋 **VÄLJAD:** 1. ✅ **Pealkiri** (`title`) 2. ✅ **Allikfail** (`source_file`) 3. ✅ **Uurimisküsimus** (`summary_et` algusest, "Uurimisküsimused ja eesmärgid:" sektsioon, esimesed 200 tähemärki) *** ### 🎯 **2 LAHENDUST:** #### **1. `ultra_compact_list.py`** ⭐ (PARIM) ```bash python3 ultra_compact_list.py ``` **Loob 3 faili:** - ✅ `articles_ultra_compact.csv` - Excel - ✅ `articles_ultra_compact.html` - Brauser (ilus kuju!) - ✅ `articles_ultra_compact.md` - Markdown tabel **Omadused:** - Eraldab automaatselt "Uurimisküsimused ja eesmärgid:" sektsiooni - Lõikab 200 tähemärgile - Eemalda markdown sümbolid (\*\*) - 3 formaati (CSV, HTML, MD) *** #### **2. `ultra_compact_curl.sh`** (KIIRE) ```bash chmod +x ultra_compact_curl.sh ./ultra_compact_curl.sh ``` **Loob:** - ✅ `articles_ultra_compact.csv` **Omadused:** - jq regex eraldab uurimisküsimuse - Kiire (ainult 1 fail) - Bash-põhine (pole Pythoni vaja) *** ### 📊 **VÄLJUNDI NÄIDE:** ```csv #,Pealkiri,Allikfail,Uurimisküsimus 1,"California Crop Yield Benchmark...","2506.10228v1.pdf","Artikli peamine eesmärk on luua uus, kõikehõlmav andmekogu (*benchmark dataset*) ja sellele vastav sügavõppemudel California maakondliku saagikuse prognoosimiseks. Töö keskendub üle 70 erineva põll..." 2,"Integrating Travel Demand...","1907.09651v1.pdf","Artikkel püstitab probleemi, et traditsioonilised transpordiplaneerimise mudelisüsteemid (TPMS) koosnevad tavaliselt eraldi arendatud ja järjestikku ühendatud alam-mudelitest..." ``` *** ### 🚀 **KIIRSTART:** **Python (PARIM):** ```bash python3 ultra_compact_list.py ``` **Bash (KIIRE):** ```bash ./ultra_compact_curl.sh ``` **Otsene CURL test:** ```bash curl -s http://100.80.222.54:9020/v1/graphql \ -X POST \ -H "Content-Type: application/json" \ -d '{"query": "{ Get { ScientificArticle(limit: 5) { title source_file summary_et } } }"}' \ | jq '.data.Get.ScientificArticle[] | {title, source_file, summary: (.summary_et[:100])}' ``` *** ### 💾 **FAILIFORMAADID:** **CSV** (Excel): ``` #,Pealkiri,Allikfail,Uurimisküsimus 1,Title,file.pdf,"Research question..." ``` **HTML** (Brauser): - Ilus gradient header - Sorteeritav tabel - Hover efektid - Print → PDF **Markdown** (VS Code): ```markdown | # | Pealkiri | Allikfail | Uurimisküsimus | |---|----------|-----------|----------------| | 1 | Title | `file.pdf` | Research question... | ``` *** ### 🎨 **REGEX UURIMISKÜSIMUSE ERALDAMISEKS:** Python: ```python # ✅ KÕIK variandid käsitletud pattern = r'(?:^|\n)\s*(?:[-•*•]\s+)?\*{0,2}Uurimisküsimused ja eesmärgid:\*{0,2}\s*(.+?)(?=(?:^|\n)\s*(?:[-•*•]\s+)?\*{0,2}Teaduslik tähtsus:|$)' match = re.search(pattern, summary_et, re.DOTALL) ``` Regex seletused: (?:^|\n) = Reast algus VÕI uus rida \s* = Tühikud (?:[-•*•]\s+)? = Valikuline loetelu märk (- - *) \*{0,2} = 0-2 tärni (markdown ** või pole) (.+?) = Kogu sektsioon (non-greedy) (?=...) = Lookahead "Teaduslik tähtsus:" ees (sama mustriga) jq: ```bash match("Uurimisküsimused ja eesmärgid:.*?\\*\\*(.+?)(?=\\n\\*\\*|$)"; "s") ``` *** Kõik failid on **allalaadimiseks valmis**! 🎉 Käivita lihtsalt: `python3 ultra_compact_list.py` [1](https://ppl-ai-file-upload.s3.amazonaws.com/web/direct-files/attachments/images/116719533/61d11962-f1e4-4e77-8203-11334dc596ab/image.jpg?AWSAccessKeyId=ASIA2F3EMEYESKC74GDI&Signature=Fhwe6na0IjyofZy0ZAiXOWofcLk%3D&x-amz-security-token=IQoJb3JpZ2luX2VjEOX%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FwEaCXVzLWVhc3QtMSJHMEUCIH216eop%2BoASZ4LW8Clk%2FiQpqJYbBQorWEV5kZrExuEpAiEAxnn2rNj2cDFJ1CuIVkoPUSpvjwMQPwhTORvVuCsjeN4q%2FAQIrv%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FARABGgw2OTk3NTMzMDk3MDUiDNOQGoRjQxJEpK1aQirQBLtFIqW3p1gEt%2FlZWI0XbErZAkq%2BwZInhMElYocvbs%2BpOk0vbabSu4hwBaZeYvNDSM%2FXQtgfkO%2FWsclsWxIF04Hr%2BkSyNUfFvW5ijyH2Kkzk2RTOCOkcE75cptvlSyXAQYZOhmusB5E1evXxpzc4SiXetbwxSJ72KvZW0l7JbA%2FXmuIjvr9j9cRcbhXkMZlzGVe4ypGrzuDK2jDBuuLY1G5D40TODMVQctxsf7WXaHPZJlq0dUE8OP8AtgA30eXC32zeOKQwaBnBq4Ef77BLQ5bqB2pkU0tUsIEp0q7jPQzhvSUY9a2tv5lUtXfdypAZmAZeJ8d6Sgm2mS3UwIxgR1JKbR6ydGPhmOasUXTNGJ1RFvLeqhUx3Z5pnOmUGLbMT03BTPS23AjrDrRHOJKz1eoU8EF%2B5gC%2BWu7xIAGclI5Cw4CF7HWhvwufjRlGjA4GQW9wqxFszB1nbOUAsFQAZMx1zA3l3jg4E1dfl9AXXTjIcZY%2BWYkRPkzYoir2lRdxofkTheAKLGaDgliEtDyL8Botnut3YHX2Lkn74HkSLcOHJqNaon1aGG4ue0psT7og0Zz5hlYmh%2FUr6LAoFieCow0WckANktL8VTD9RNGZfvecJaQe51qRHddooMe83cpV49%2Bk3QemVdSRNGqlb44eHQUms7iRcNBBmMu0ztr4ffwEhnOM%2BLmHE399o3b5Ur8YRdW9CwTfHlzAI670WgpF85TcKNwp9%2F2PRo3xHnCp%2BGaFgZ%2FdoNEoZGrY6VRai343rGA%2FcT55W7kBNIAAuwN40eIwmsuFywY6mAHmzgwyKliHiNJi%2FDEQPwpp878ovnsAGWMnQKMYrnW0n1%2BbF7PqBQGwRgiXlY%2BXxjI93aBjGXOVNMRBQX%2Ff2Usel0FfgGELeeCx%2B9yK08HcMSVUW9Q6Itu6k2RXfHPF8ypAQLNPrz8DN59HnqN6V1EegbTPdp62LCIE%2BNLjvrTc3e%2Fr87b9m15m2ynd%2BWnQWRadJd3tJnPaAA%3D%3D&Expires=1767993077) [2](https://ppl-ai-file-upload.s3.amazonaws.com/web/direct-files/attachments/images/116719533/b029bd91-c0d4-4102-9308-695c1db8301d/image.jpg) [3](https://ppl-ai-file-upload.s3.amazonaws.com/web/direct-files/attachments/116719533/cf466100-2884-4a17-955c-790d670daa63/artiklid_eksport_20260106_214454.pdf) [4](https://ppl-ai-file-upload.s3.amazonaws.com/web/direct-files/attachments/116719533/bdf9cd8c-9b08-4cae-8dd4-163be83ad04e/articles_summary_et.pdf) [5](https://ppl-ai-file-upload.s3.amazonaws.com/web/direct-files/attachments/116719533/0507eab0-7af3-4505-a611-64d0e4045c61/save_articles_to_pdf.py)