Dot-Net

在保留樣式的同時以程式方式清理 Word 生成的 HTML?

  • July 15, 2015

在我現在的公司中,我們已經有十年的歷史了……讓我們稱之為“ Hello World ”應用程序。

在想要創建它的新版本的同時,我們還希望保留舊條目。這些較舊的條目包含以前從未過濾過的可怕的 Word 生成的 HTML。

如果並且當我們遷移到更新的系統時,我希望對 HTML 進行清理和過濾,以使站點盡可能地符合 HTML 標準。

然而,像Jeff Atwood 在他的部落格中描述的那樣或以我知道的任何其他方式清理程式碼也會破壞樣式和格式。

現在,這可能會導致我們的使用者反抗,然後一切都會崩潰——這不是一個好主意。

所以問題是:可以在保留基本格式的同時清理 Word 的 HTML 嗎?(例如:著色、斜體、粗體等)

最好使用公開可用的程式碼或庫,例如HTML Tidy,C# 中的範例將不勝感激。

有幾個可用的選項,但您當然可以使用 Jeff Atwood 作為編寫自己程式碼的良好起點。如果是這樣,您可能會對結果進行微調控制 - 請注意,結果永遠不會 100% 準確,因為實際上所有額外的 ms 程式碼都在那裡,以確保盡可能多地與原始文件保持一致(至少在 IE 中用於往返目的)。但是那裡的大多數程式碼確實保留了大多數格式。

以下是一些可能有用的程式碼庫:

如果您只是想要批處理(並且不關心擁有程式碼庫),Office 2000 HTML Filter 2.0可能是您最好的選擇 - 在TechRepublic上閱讀有關它的更多資訊。

引用自:https://stackoverflow.com/questions/2806678