<div dir="ltr">I've manually restored my application pages and all page's from Tobi's archive that started with Summer_of_Code<div><br></div><div>From that, I've learned that these manual modifications are needed for a page that is transformed using the xidel / pandoc combination mentioned earlier:</div><div><ul><li>The table of content needs to be removed (Mediawiki will add one automatically)</li><li>Everything that matches this regex need to be removed <span [^>]*> (these were used to create anchors for the old ToC, I think)<br></li><li>Everything that matches </span> needs to be removed (closing tags for the anchors mentioned above)</li><li>The old context root of the wiki was /web/, while the new one is /index.php/ - search the text for web/ which gives you some old references to pages and or user profiles</li><li>Some pages start with a level 2 header - you'll have to reduce all header levels down by one for these pages.</li><li>Generally, get rid of <div> and <br> tags</li><li>Images that are used on some pages are lost</li><li>When images were used, there now is a table of two columns, each column having a fixed with of 50%. You should drop that 50% fixation.</li></ul><div>After that, Mediawiki's preview can be used for smell-testing your resulting page.</div></div></div><div class="gmail_extra"><br><div class="gmail_quote">On 22 June 2017 at 17:03, Goffi <span dir="ltr"><<a href="mailto:goffi@goffi.org" target="_blank">goffi@goffi.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">Le jeudi 22 juin 2017, 10:06:05 CEST Guus der Kinderen a écrit :<br>
> Oh, that's actually handy. I'm not much of a bash scripter, but by<br>
> combining xidel (to select the part of the HTML that is the article<br>
> content) and pandoc (for conversion to the Mediawiki format), I'm getting<br>
> something that is pretty close. Example:<br>
><br>
> $ xidel --html Edwin_Mons_Application_2011.<wbr>html --css "#mw-content-text" |<br>
> pandoc --from html --to mediawiki<br>
><br>
> Can someone improve on that?<br>
<br>
</span>We can also use weboob with  webcontentedit to automatize publishing on the<br>
wiki, something like<br>
<span class=""><br>
$ xidel --html Edwin_Mons_Application_2011.<wbr>html --css "#mw-content-text" |<br>
  pandoc --from html --to mediawiki |<br>
</span>  webcontentedit edit Edwin_Mons_Application_2011<br>
<br>
Add curl or wget to the game, and I think we can make a script to handle this<br>
not too badly, we can fix issues after by hand.<br>
<br>
I'm too busy right now to work on a script, but it should not be really<br>
complicated to do.<br>
<span class="HOEnZb"><font color="#888888"><br>
Goffi<br>
<br>
</font></span></blockquote></div><br></div>