在公開可取得的源始碼當中,那些「自然語言」及「公開源始碼」。
當然也包含 「GitHub 上的 public repo」。
會有的疑慮是在於個資的部份,在官方上也有針對這一點來做出描述: 在訓練的資料集當中,是有可能包含個資的,但 Copilot 所回傳的「建議源始碼」,包含個資的機率很低。即使有出現像是電話號碼、email 等資料,這些資料實際上是假的,是經過合成的資料,並非指定特定人士的資料。另外,GitHub Copilot 也闡述了內部有過濾機制,會儘可能的偵測及移除個資,避免在「建議源始碼」中出現。
以下提供上述說明中,原文的敘述:
官方還有很多的 FAQ,可再參考官網的說明。