Dot-Net
用於解析網頁連結的正則表達式?
我正在尋找一個 .NET 正則表達式從網頁中提取所有 URL,但還沒有找到一個足夠全面來涵蓋您可以指定連結的所有不同方式。
還有一個附帶問題:
是否有一個正則表達式來統治它們?還是我最好使用一系列不太複雜的正則表達式,只對原始 HTML 使用多重傳遞?(速度與可維護性)
((mailto\:|(news|(ht|f)tp(s?))\://){1}\S+)[編者註:{1} 在這個正則表達式中沒有真正的功能;看到這個文章]
來自 RegexBuddy 庫:
網址:全文查找
最後的字元類確保如果 URL 是某些文本的一部分,則 URL 後的逗號或句點等標點符號不會被解釋為 URL 的一部分。
\b(https?|ftp|file)://[-A-Z0-9+&@#/%?=~_|!:,.;]*[-A-Z0-9+&@#/%=~_|]