Utente:AushulzBot/Regex
Idee per altre correzioni
modifica- Cercare sezioni che si intitolano "Conclusioni"
- Eliminare "---" dalle voci Fatto da controllare qui.
- Eliminare i "div" dalle voci
- Eliminare le sezioni "Note" vuote (basta controllare che nella voce sia presente "<ref>" o "<ref name") Fatto da controllare qui.
- Prima lettera di nomi di persona (Giuseppe, Francesco, ...) e stati (Italia, Francia, ...) in maiuscolo
- Cercare i template {{Portale|Scienza}}, {{Portale|Tecnologia}}, {{Portale|Tecnica}} e {{Portale|Scienza e tecnologia}} e sostituirli con {{Portale|Scienza e tecnica}}
- _{*} -> _* e ^{*} -> ^* all'interno di <math>...</math> quando "*" è un solo carattere
- “ ” -> "
- ‘ ’ ` -> ' (ci sarebbe da aggiungere il discorso delle lettere accentate) - vedere il comando su Wikipedia:Bot/Sostituzioni
- kmh e Kmh -> km/h
- Kelvin -> kelvin Fatto da controllare qui.
- vedi: Wikipedia:Elenchi generati offline/Check Wikipedia
- sostituzione di "<center>" (deprecato) con ":". Fatto da controllare qui.
- sostituzione di <br> e <br/> con <br /> (cercare la discussione allo sportello informazioni)
- togliere ritorni di carrello e <br /> consecutivi
- in questo sito si trovano delle convezioni del SI: [[1]]
- cc-> cm^3
- mps -> m/s
- dividere lunghe sequenze di cifre a 3 a 3, con uno spazio di tipo entity
- "<i>...</i>" -> "''...''" Fatto da controllare qui.
- "<b>...</b>" -> "'''...'''" Fatto da controllare qui.
- eliminare frasi del tipo "da non dimenticare che", "da notare che", "da ricordare che", "naturalmente", "semplicemente", "è ovvio che", "se vogliamo", "ovviamente", ecc...
- spostare i template di avviso (ad esempio "da aggiornare" in cima alla pagina (pensare a come fare se ci sono più template di avviso a riconoscere che sono vicini all'inizio della pagina)
- conversione in kelvin dei dati in °C nel template:composto chimico (scrivendo le misure in °C tra parentesi)
- togliere il template:it dalle voci in cui non è presente Template:Lingue
Da provare e migliorare
modificareplace.py -regex "che\`" "ché" "\`([Ss])" "'\\1" "a\`" "à" "e\`" "è" "i\`" "ì" "o\`" "ò" "u\`" "ù" "([LlDd])\`" "\\1'" "\`\`([^ ])''" '"\1"' "\`\`" '"' -xml:itwiki-20090105-pages-meta-current.xml -exclude:excludelog.txt -namespace:0
Da fare più in là
modificareplace.py -regex "che\`" "ché" "\`([Ss])" "'\\1" "a\`" "à" "e\`" "è" "i\`" "ì" "o\`" "ò" "u\`" "ù" "([LlDd])\`" "\\1'" "\`\`([^ ])''" '"\1"' "\`\`" '"' -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0
replace.py -start:! -regex "Sistema [Ss]olare" "sistema solare" -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0
a questo va affiancato ad inizio frase:
replace.py -start:! -regex "Sistema [Ss]olare" "Sistema solare" -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0
potrei usare prima il secondo e poi controllare con il primo.
replace.py -start:! -regex "\bqual\'è\b" "qual è" -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0
replace.py -start:! -regex "\bQual\'è\b" "Qual è" -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0
replace.py -start:! -regex "\bun\'altro\b" "un altro" -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0
replace.py -start:! -regex "\bUn\'altro\b" "Un altro" -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0
replace.py -start:! -regex "\baccellerare\b" "accelerare" -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0
replace.py -start:! -regex "\bAccellerare\b" "Accelerare" -xml:itwiki-XXXXXXXX-pages-meta-current.xml -exclude:excludelog.txt -namespace:0
replace.py -start:! -regex "([Pp])erch(è|[e'])" "\1erché"
replace.py -regex -start:! "E'([^'-'[Ss]])" "È\1"
replace.py -regex -start:! "(È)([Ss])" "E'\2"
benvenuto.py
Questa è la pagina personale di un bot autorizzato su Wikipedia | |
Se trovate questa pagina bot su un sito diverso da Wikipedia si tratta di un clone. In questo caso la pagina potrebbe essere poco aggiornata e il sottoscritto potrebbe non riconoscersi più nei suoi contenuti né desiderare o gradire alcuna affiliazione con il sito che state consultando. La pagina originale si trova qui: http://it.wikipedia.org/wiki/AushulzBot/Regex |