輸出要求
所有 Excel 檔案
零公式錯誤
- •每個 Excel 模型必須以零公式錯誤交付(#REF!、#DIV/0!、#VALUE!、#N/A、#NAME?)
保留現有範本(更新範本時)
- •修改檔案時,研究並精確匹配現有格式、樣式和慣例
- •切勿對已有既定模式的檔案強加標準化格式
- •現有範本慣例始終優先於這些指南
財務模型
色彩編碼標準
除非使用者或現有範本另有說明
行業標準色彩慣例
- •藍色文字(RGB: 0,0,255):硬編碼輸入,以及使用者將為情境更改的數字
- •黑色文字(RGB: 0,0,0):所有公式和計算
- •綠色文字(RGB: 0,128,0):從同一工作簿內其他工作表提取的連結
- •紅色文字(RGB: 255,0,0):連結到其他檔案的外部連結
- •黃色背景(RGB: 255,255,0):需要注意的關鍵假設或需要更新的儲存格
數字格式標準
必要格式規則
- •年份:格式化為文字字串(例如,"2024" 而非 "2,024")
- •貨幣:使用 $#,##0 格式;始終在標題中指定單位("Revenue ($mm)")
- •零值:使用數字格式使所有零顯示為 "-",包括百分比(例如,"$#,##0;($#,##0);-")
- •百分比:預設為 0.0% 格式(一位小數)
- •倍數:估值倍數格式化為 0.0x(EV/EBITDA、P/E)
- •負數:使用括號 (123) 而非減號 -123
公式建構規則
假設放置
- •將所有假設(成長率、利潤率、倍數等)放在單獨的假設儲存格中
- •在公式中使用儲存格引用而非硬編碼值
- •範例:使用 =B5*(1+$B$6) 而非 =B5*1.05
公式錯誤預防
- •驗證所有儲存格引用是否正確
- •檢查範圍中的差一錯誤
- •確保所有預測期間的公式一致
- •使用邊界情況測試(零值、負數)
- •驗證沒有非預期的循環引用
硬編碼的文件要求
- •在旁邊的儲存格中註解(如果在表格末端)。格式:"Source: [系統/文件], [日期], [具體引用], [URL(如適用)]"
- •範例:
- •"Source: Company 10-K, FY2024, Page 45, Revenue Note, [SEC EDGAR URL]"
- •"Source: Company 10-Q, Q2 2025, Exhibit 99.1, [SEC EDGAR URL]"
- •"Source: Bloomberg Terminal, 8/15/2025, AAPL US Equity"
- •"Source: FactSet, 8/20/2025, Consensus Estimates Screen"
XLSX 建立、編輯和分析
概述
使用者可能要求您建立、編輯或分析 .xlsx 檔案的內容。您有不同的工具和工作流程可用於不同的任務。
重要要求
公式重新計算需要 LibreOffice:您可以假設已安裝 LibreOffice,用於使用 recalc.py 腳本重新計算公式值。該腳本會在首次執行時自動設定 LibreOffice
讀取和分析資料
使用 pandas 進行資料分析
對於資料分析、視覺化和基本操作,使用 pandas,它提供強大的資料操作能力:
python
import pandas as pd
# 讀取 Excel
df = pd.read_excel('file.xlsx') # 預設:第一個工作表
all_sheets = pd.read_excel('file.xlsx', sheet_name=None) # 所有工作表作為字典
# 分析
df.head() # 預覽資料
df.info() # 欄位資訊
df.describe() # 統計資料
# 寫入 Excel
df.to_excel('output.xlsx', index=False)
Excel 檔案工作流程
關鍵:使用公式,而非硬編碼值
始終使用 Excel 公式,而非在 Python 中計算值後硬編碼。 這確保試算表保持動態且可更新。
❌ 錯誤 - 硬編碼計算值
python
# 不好:在 Python 中計算並硬編碼結果 total = df['Sales'].sum() sheet['B10'] = total # 硬編碼 5000 # 不好:在 Python 中計算成長率 growth = (df.iloc[-1]['Revenue'] - df.iloc[0]['Revenue']) / df.iloc[0]['Revenue'] sheet['C5'] = growth # 硬編碼 0.15 # 不好:Python 計算平均值 avg = sum(values) / len(values) sheet['D20'] = avg # 硬編碼 42.5
✅ 正確 - 使用 Excel 公式
python
# 好:讓 Excel 計算總和 sheet['B10'] = '=SUM(B2:B9)' # 好:成長率作為 Excel 公式 sheet['C5'] = '=(C4-C2)/C2' # 好:使用 Excel 函數計算平均值 sheet['D20'] = '=AVERAGE(D2:D19)'
這適用於所有計算 - 總計、百分比、比率、差異等。試算表應該能夠在來源資料變更時重新計算。
常見工作流程
- •選擇工具:pandas 用於資料,openpyxl 用於公式/格式化
- •建立/載入:建立新工作簿或載入現有檔案
- •修改:新增/編輯資料、公式和格式
- •儲存:寫入檔案
- •重新計算公式(如果使用公式則為必要):使用 recalc.py 腳本
bash
python recalc.py output.xlsx
- •驗證並修復任何錯誤:
- •腳本返回包含錯誤詳情的 JSON
- •如果
status為errors_found,檢查error_summary以獲取特定錯誤類型和位置 - •修復識別出的錯誤並再次重新計算
- •常見要修復的錯誤:
- •
#REF!:無效的儲存格引用 - •
#DIV/0!:除以零 - •
#VALUE!:公式中的資料類型錯誤 - •
#NAME?:無法識別的公式名稱
- •
建立新 Excel 檔案
python
# 使用 openpyxl 處理公式和格式化
from openpyxl import Workbook
from openpyxl.styles import Font, PatternFill, Alignment
wb = Workbook()
sheet = wb.active
# 新增資料
sheet['A1'] = 'Hello'
sheet['B1'] = 'World'
sheet.append(['Row', 'of', 'data'])
# 新增公式
sheet['B2'] = '=SUM(A1:A10)'
# 格式化
sheet['A1'].font = Font(bold=True, color='FF0000')
sheet['A1'].fill = PatternFill('solid', start_color='FFFF00')
sheet['A1'].alignment = Alignment(horizontal='center')
# 欄寬
sheet.column_dimensions['A'].width = 20
wb.save('output.xlsx')
編輯現有 Excel 檔案
python
# 使用 openpyxl 保留公式和格式
from openpyxl import load_workbook
# 載入現有檔案
wb = load_workbook('existing.xlsx')
sheet = wb.active # 或 wb['SheetName'] 指定特定工作表
# 處理多個工作表
for sheet_name in wb.sheetnames:
sheet = wb[sheet_name]
print(f"Sheet: {sheet_name}")
# 修改儲存格
sheet['A1'] = 'New Value'
sheet.insert_rows(2) # 在位置 2 插入列
sheet.delete_cols(3) # 刪除第 3 欄
# 新增工作表
new_sheet = wb.create_sheet('NewSheet')
new_sheet['A1'] = 'Data'
wb.save('modified.xlsx')
重新計算公式
openpyxl 建立或修改的 Excel 檔案包含作為字串的公式,但不包含計算值。使用提供的 recalc.py 腳本重新計算公式:
bash
python recalc.py <excel_file> [timeout_seconds]
範例:
bash
python recalc.py output.xlsx 30
該腳本:
- •在首次執行時自動設定 LibreOffice 巨集
- •重新計算所有工作表中的所有公式
- •掃描所有儲存格以查找 Excel 錯誤(#REF!、#DIV/0! 等)
- •返回包含詳細錯誤位置和計數的 JSON
- •在 Linux 和 macOS 上都可使用
公式驗證清單
確保公式正確運作的快速檢查:
基本驗證
- • 測試 2-3 個樣本引用:在建構完整模型之前驗證它們提取正確的值
- • 欄位對應:確認 Excel 欄位匹配(例如,第 64 欄 = BL,而非 BK)
- • 列偏移:記住 Excel 列是從 1 開始索引的(DataFrame 第 5 列 = Excel 第 6 列)
常見陷阱
- • NaN 處理:使用
pd.notna()檢查空值 - • 最右側欄位:FY 資料通常在第 50+ 欄
- • 多個匹配:搜尋所有出現,而非僅第一個
- • 除以零:在公式中使用
/之前檢查分母(#DIV/0!) - • 錯誤引用:驗證所有儲存格引用指向預期的儲存格(#REF!)
- • 跨工作表引用:使用正確格式(Sheet1!A1)連結工作表
公式測試策略
- • 從小處開始:在廣泛應用之前在 2-3 個儲存格上測試公式
- • 驗證依賴關係:檢查公式中引用的所有儲存格是否存在
- • 測試邊界情況:包括零值、負值和非常大的值
解讀 recalc.py 輸出
腳本返回包含錯誤詳情的 JSON:
json
{
"status": "success", // 或 "errors_found"
"total_errors": 0, // 錯誤總數
"total_formulas": 42, // 檔案中的公式數量
"error_summary": { // 僅在發現錯誤時出現
"#REF!": {
"count": 2,
"locations": ["Sheet1!B5", "Sheet1!C10"]
}
}
}
最佳實踐
函式庫選擇
- •pandas:最適合資料分析、批次操作和簡單資料匯出
- •openpyxl:最適合複雜格式化、公式和 Excel 特定功能
使用 openpyxl
- •儲存格索引從 1 開始(row=1, column=1 指的是儲存格 A1)
- •使用
data_only=True讀取計算值:load_workbook('file.xlsx', data_only=True) - •警告:如果使用
data_only=True開啟並儲存,公式會被值替換並永久遺失 - •對於大型檔案:使用
read_only=True進行讀取或write_only=True進行寫入 - •公式被保留但不被計算 - 使用 recalc.py 更新值
使用 pandas
- •指定資料類型以避免推斷問題:
pd.read_excel('file.xlsx', dtype={'id': str}) - •對於大型檔案,讀取特定欄位:
pd.read_excel('file.xlsx', usecols=['A', 'C', 'E']) - •正確處理日期:
pd.read_excel('file.xlsx', parse_dates=['date_column'])
程式碼樣式指南
重要:為 Excel 操作產生 Python 程式碼時:
- •編寫簡潔的 Python 程式碼,不需要不必要的註解
- •避免冗長的變數名稱和多餘的操作
- •避免不必要的列印語句
對於 Excel 檔案本身:
- •為複雜公式或重要假設的儲存格新增註解
- •記錄硬編碼值的資料來源
- •包含關鍵計算和模型部分的說明