Kwicdex

VoorbeeldHTMLbewerking

Als voorbeeld hier het ontstaan van Voorbeeldbewerking3.txt, het voorbeeld invoerbestand op de download pagina.

Het oorspronkelijke bestand, zoals in html gegenereerd door Open office 2, zag er zo (Voorbeeldbewerking0.txt) uit.

Hieruit verwijder ik eerst het begin, met de kopregel, de header e.d.

Daarna de html-code <P CLASS="western" STYLE="margin-bottom: 0.21cm; page-break-after: auto"> die vele malen voorkomt.

Daarna vervang ik '</P>' door '|' plus 'nieuwe regel teken'

Daarna vervang ik 'RAZE 3851b, f' door '#f'

Het resultaat is nu, zoals in Voorbeeldbewerking1.txt

Daarna verwijder ik overal '<FONT COLOR="#000000">'. Deze kleur (zwart) staat door een vergissing voor elk folionummer in deze file. Ik had dit verwijderen hier kunnen combineren met de voorgaande vervang-actie.

Lastig is het '</FONT>' dat achter het folionummer staat. In mijn tekstverwerker heb ik dat zo opgelost. Gezocht (reguliere expressie aan) op '^p#*</FONT>' (d.w.z. een hekje dat aan het begin van een nieuwe regel (^p) staat, gevolgd door een willekeurig aantal tekens, en eindigend op '</FONT>') en dat vervangen door hetzelfde plus een omgekeerd uitroepteken (dat ging door '^s¡). Nu staat achter al deze woorden </FONT> ook een omgekeerd uitroepteken, en daarom kan ik ze nu zoeken en ongezien verwijderen.

Nu staan er in de file een groot aantal kleurcoderingen; die moeten allemaal (per kleur) een eigen codering krijgen. Dus

zoek '<FONT COLOR="#ff0000">' en vervang door '{$1 ' (vergeet de spatie niet)
zoek '<FONT COLOR="#008000">' en vervang door '{$2 '
zoek '<FONT COLOR="#808000">' en vervang door '{$3 '
zoek '<FONT COLOR="#800000">' en vervang door '{$4 '
zoek '<FONT COLOR="#ff3366">' en vervang door '{$5 '
zoek '<FONT COLOR="#008080">' en vervang door '{$6 '

Nu staat achter de kleurcodes nog de '</FONT>' codering, die ik nu kan vervangen door het sluithaakje '}'.

Het resultaat is nu, zoals in Voorbeeldbewerking2.txt

Nu nog wat afrondende bewerkingen.

Er staat verder nog ergens een '<BR>'-code, die niet direct kwaad kan, maar die ik ook maar door een spatie vervang. En tot slot staat in deze tekst overal als secundaire verwijzing {fiche B....}. Dat woord fiche is in de index eigenlijk overbodig en neemt alleen maar ruimte in. Ik verwijder het dus maar, inclusief de spatie daarachter, dus zoek '{fiche ' en vervang door '{'

Opm.: bij zoek/vervang acties, zeker bij de optie 'alles vervangen', moet men zo specifiek mogelijk zijn, dus niet zoeken op 'fiche' maar op '{fiche '. Het woord 'fiche' zou immers nog elders in de tekst kunnen voorkomen, of als onderdeel van een ander woord, zoals 'affiche'.

Tenslotte nog de html-tekens. Die zijn hier nauwelijks, en in de geïndexeerde termen zit er alleen een '-' (zacht koppelingsteken) in het woord 'sHeer Arendtslop'. Dit moet vervangen worden door het teken dat de (linker) alt-toets met numeriek 0173 (dus 4 cijfers) geeft.

Het resultaat is nu, zoals in Voorbeeldbewerking3.txt

Dit bestand is nu geschikt om in Kwicdex geopend en ingelezen te worden. Omdat deze records secundaire vermeldingen hebben, moet die optie aangevinkt worden. En bovendien kan de optie 'Zacht koppelingsstreepje' aangezet worden, omdat er een term met zo'n streepje gemarkeerd is.

De uitvoer (93 vermeldingen) komt dan in een bestand met de naam 'Voorbeeldtekst3.csv'.

Deze kan in een spreadsheet ingelezen of geopend worden. Hoe, hangt een beetje van het programma af. Bij Open Office 2 krijg ik meteen een keuze menu, waarin ik ondermeer de 'Afscheidingsopties' (hiermee worden de veldscheidingstekens bedoeld) kan opgeven, namelijk geen 'komma' maar 'andere', waar ik in het hokje daarna het teken '|' (zonder quotes) kan zetten. Het bestand wordt dan keurig in 6 kolommen ingelezen. Nu kunnen we kolom 3 nog op rechts uitlijnen zetten, en daarna de gewenste sorteringen doen.

arrow-up

separator