Cora、Citeseer和Pubmed是三個常用的圖分類數(shù)據(jù)集,用于研究和評估圖分類算法。
-
Cora數(shù)據(jù)集:
- 由Cornell大學研究人員創(chuàng)建。
- 包含文獻數(shù)據(jù)庫中的2708篇科研論文,分為7個領(lǐng)域。
- 每篇論文由一個128維度的詞袋模型表示。
- 論文之間的邊表示引用關(guān)系。
-
Citeseer數(shù)據(jù)集:
- 由Cornell大學研究人員創(chuàng)建。
- 包含3327篇科研論文,分為6個領(lǐng)域。
- 每篇論文由一個3703維度的詞袋模型表示。
- 論文之間的邊表示引用關(guān)系。
-
Pubmed數(shù)據(jù)集:
- 由美國國立衛(wèi)生研究院創(chuàng)建。
- 包含19717篇生物醫(yī)學論文,分為3個領(lǐng)域。
- 每篇論文由一個500維度的詞袋模型表示。
- 論文之間的邊表示共同作者關(guān)系。
這些數(shù)據(jù)集常用于圖分類任務,其中圖分類是指根據(jù)節(jié)點的屬性和連接方式,將圖中的節(jié)點劃分到不同的類別中。這些數(shù)據(jù)集對于研究者來說是非常有用的,因為它們提供了現(xiàn)實世界中各種領(lǐng)域的真實數(shù)據(jù),可以用來評估和比較不同的圖分類算法的性能。