溫馨提示×

GCN數(shù)據(jù)集Cora、Citeseer、Pubmed文件分析

小億
226
2023-12-19 04:53:55
欄目: 編程語言

Cora、Citeseer和Pubmed是三個常用的圖分類數(shù)據(jù)集,用于研究和評估圖分類算法。

  1. Cora數(shù)據(jù)集:

    • 由Cornell大學研究人員創(chuàng)建。
    • 包含文獻數(shù)據(jù)庫中的2708篇科研論文,分為7個領(lǐng)域。
    • 每篇論文由一個128維度的詞袋模型表示。
    • 論文之間的邊表示引用關(guān)系。
  2. Citeseer數(shù)據(jù)集:

    • 由Cornell大學研究人員創(chuàng)建。
    • 包含3327篇科研論文,分為6個領(lǐng)域。
    • 每篇論文由一個3703維度的詞袋模型表示。
    • 論文之間的邊表示引用關(guān)系。
  3. Pubmed數(shù)據(jù)集:

    • 由美國國立衛(wèi)生研究院創(chuàng)建。
    • 包含19717篇生物醫(yī)學論文,分為3個領(lǐng)域。
    • 每篇論文由一個500維度的詞袋模型表示。
    • 論文之間的邊表示共同作者關(guān)系。

這些數(shù)據(jù)集常用于圖分類任務,其中圖分類是指根據(jù)節(jié)點的屬性和連接方式,將圖中的節(jié)點劃分到不同的類別中。這些數(shù)據(jù)集對于研究者來說是非常有用的,因為它們提供了現(xiàn)實世界中各種領(lǐng)域的真實數(shù)據(jù),可以用來評估和比較不同的圖分類算法的性能。

0