Add Home

2024-10-24 22:22:46 +02:00
commit 4cec5bb4fa
1 changed files with 46 additions and 0 deletions
@@ -0,0 +1,46 @@
 # Feldolgozás
 ## Jogszabályok feldolgozása és a chunkok előállítása
 *Jegyzetes:*
 - Eredeti jogszabály XML -> Köztes fa
    - Az eredeti jogszabály lineáris és helyenként hierarchikus XML-ből áll
    - Eredmény: szövegi részek tisztán hierarchikus szerkezetben
 - A köztes fa előállítása visitorokkal történik:
    - feldolgozzák a specifikus XML elemeket (tartalom, attribútumok)
    - pl.: táblázatból szöveges vagy markdown formátum
 - Minden elem tartalmazhat:
    - Context
        - minden olyan információ ami az adott content könnyebb megértéséhez és megtalálásához szükséges lehet
        - pl.: a törvénynek a címe, a preambulum, a fejezet címe
    - Content
        - A content pedig minden olyan tartalom ami a keresések megválaszolásához szükséges információkat tartalmazzák
        - pl.: egy paragrafus tartalma, egy táblázat szövege
 - A fa bejárása során jönnek létre a chunkok
    - Minden context összefűzve addig, amíg nem nem jutunk contentig
    - Eredmény:
        - Egybefüggő szöveg a szerkezet szerint a kontextusban minden, a tartalomig vezető információval
        - Kereshető rész
        - HTML/XML elemek eltávolítva
 - A chunkokhoz a legközelebbi jhId van hozzárendelve
    - Fában való felfelé kereséssel van meghatározva
 ----------------------
 *Szöveges:*
 A jogszabályok xml formátumából lineáris és helyenként hierarchikus szerkezetéből építünk egy egységes köztes fa szerkezetet.
 Ebben a fában a jogszabály szövegének részei találhatóak tisztán hierarchikus szerkezetben.
 > **Példa:**  
 > norma -> dokumentum -> könyv -> rész -> fejezet -> bekezdés -> szakasz
 Ezek előállításához visitorok-ba szervezett feldolgozók segítenek amelyek képesek feldolgozni specifikus xml elemeket, azoknak tartalmát és attributumait (pl: táblázatok-ból tudunk előállítani szöveges formátumot, vagy markdown-os szerkezetet).
 Minden eleme az általunk épített fának tartalmazhat egy Context-et vagy egy Content-et.
 A contextben található minden olyan információ ami az adott content könnyebb megértéséhez és megtalálásához szükséges lehet (pl: a törvénynek a címe, a preambulum, a fejezet címe).
 A content pedig minden olyan tartalom ami a keresések megválaszolásához szükséges információkat tartalmazzák (pl: egy paragrafus tartalma, egy táblázat szövege).
 A chunkok ebből a fa szerkezetből épülnek fel, ahogy bejárjuk a fát minden context-et összefűzünk egészen addig amíg nem érkezünk egy olyan levélhez ami content-et tartalmaz. Ezáltal a végén kapunk egy olyan egybefüggő szöveget amiben szerkezet szerint a kontextus-ban szerepel minden content-ig vezető információ, és a contentben összefűzve az kereshető rész áll elő. A legvégén pedig eltávolítunk minden HMTL/XML elemet a szövegből.
 A `jhId` (NJT-n való anchor linkek előállításához szükséges) hozzárendelése a chunkokhoz egyszerűen a fában való felfele kereséssel lett megoldva, így a chunkhoz legközelebbi `jhId`-t tudjuk meghatározni.